机器学习,将数据分割成两部分,机器学习解决方法( 四 )


4、无关特征
只有训练数据里包含足够多的相关特征 , 以及较少的无关特征 , 系统才能够完成学习 。一个成功的机器学习项目 , 关键部分是提取出一组好的用来训练的特征集 , 这个过程叫作特征工程 。
包括以下几点:
特征选择:从现有特征中选择最有用的特征进行训练 。
特征提取:将现有特征进行整合 , 产生更有用的特征 。
通过收集新数据创造新特征 。
5、训练数据过度拟合
假设你正在国外旅游 , 被出租车司机狠宰了一刀 , 你很可能会说 , 那个国家的所有出租车司机都是强盗 。过度概括是我们人类常做的事情 , 不幸的是 , 如果我们不小心 , 机器很可能也会陷入同样的陷阱 。在机器学习中 , 这称为过度拟合 , 也就是指模型在训练数据上表现良好 , 但是泛化时却不尽如人意 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
6、训练数据拟合不足
拟合不足和过度拟合正好相反:它的产生通常是因为 , 对于下层的数据结构来说 , 你的模型太过简单 。举个例子 , 用线性模型来描述生活满意度就属于拟合不足;现实情况远比模型复杂得多 , 所以即便是对于用来训练的示例 , 该模型产生的预测都一定是不准确的 。
解决这个问题的主要方法有:选择一个带有更多参数、更强大的模型 。提供更好的特征集(特征工程) 。
真实案例——2018年世界杯冠军预测
2018年世界杯的预测——随机森林法 , 重点评估球队能力参数估计 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
评估参数主要考虑到球队的经济因素、运动因素、主场优势 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
以及描述团队结构及球队教练的因素 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
最终 , 根据以上参数 , 预测出2018年德国队获得冠军的几率为64% 。
【机器学习,将数据分割成两部分,机器学习解决方法】
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片