机器学习,将数据分割成两部分,机器学习解决方法( 四 )
4、无关特征
只有训练数据里包含足够多的相关特征 , 以及较少的无关特征 , 系统才能够完成学习 。一个成功的机器学习项目 , 关键部分是提取出一组好的用来训练的特征集 , 这个过程叫作特征工程 。
包括以下几点:
特征选择:从现有特征中选择最有用的特征进行训练 。
特征提取:将现有特征进行整合 , 产生更有用的特征 。
通过收集新数据创造新特征 。
5、训练数据过度拟合
假设你正在国外旅游 , 被出租车司机狠宰了一刀 , 你很可能会说 , 那个国家的所有出租车司机都是强盗 。过度概括是我们人类常做的事情 , 不幸的是 , 如果我们不小心 , 机器很可能也会陷入同样的陷阱 。在机器学习中 , 这称为过度拟合 , 也就是指模型在训练数据上表现良好 , 但是泛化时却不尽如人意 。
文章图片
文章图片
6、训练数据拟合不足
拟合不足和过度拟合正好相反:它的产生通常是因为 , 对于下层的数据结构来说 , 你的模型太过简单 。举个例子 , 用线性模型来描述生活满意度就属于拟合不足;现实情况远比模型复杂得多 , 所以即便是对于用来训练的示例 , 该模型产生的预测都一定是不准确的 。
解决这个问题的主要方法有:选择一个带有更多参数、更强大的模型 。提供更好的特征集(特征工程) 。
真实案例——2018年世界杯冠军预测
2018年世界杯的预测——随机森林法 , 重点评估球队能力参数估计 。
文章图片
文章图片
评估参数主要考虑到球队的经济因素、运动因素、主场优势 。
文章图片
文章图片
以及描述团队结构及球队教练的因素 。
文章图片
文章图片
最终 , 根据以上参数 , 预测出2018年德国队获得冠军的几率为64% 。
【机器学习,将数据分割成两部分,机器学习解决方法】
文章图片
文章图片
- 人类与AI如何共处?诺奖科学家、将棋天才、“低欲望社会”提出者的不同解答
- 郎酒将拓宽红花郎品牌战略阵地 打造红花郎“中国节”IP
- 冬奥在即!“AI教练”、滑雪机器人,沪上高校科技助力“冰雪精灵”!
- 遍知教育赋能升级或将打破知识付费行业格局
- 智能科技傍身,讯飞智能录音笔SR101助力学习生活
- 2021年度中国互联网辟谣优秀作品即将发布
- 听说,这里将会有超大福利……
- 打疫苗不靠人?不用针?智能无针机器人有望“代劳”
- 身姿矫健!上海交大自主研发滑雪机器人:有六只脚,能灵活避障
- 又一颗厦门卫星将遨游太空
