机器学习，将数据分割成两部分，机器学习解决方法( 四 ) 智领云第15次社群图文技术直播

4、无关特征
只有训练数据里包含足够多的相关特征，以及较少的无关特征，系统才能够完成学习。一个成功的机器学习项目，关键部分是提取出一组好的用来训练的特征集，这个过程叫作特征工程。
包括以下几点：
特征选择：从现有特征中选择最有用的特征进行训练。
特征提取：将现有特征进行整合，产生更有用的特征。
通过收集新数据创造新特征。
5、训练数据过度拟合
假设你正在国外旅游，被出租车司机狠宰了一刀，你很可能会说，那个国家的所有出租车司机都是强盗。过度概括是我们人类常做的事情，不幸的是，如果我们不小心，机器很可能也会陷入同样的陷阱。在机器学习中，这称为过度拟合，也就是指模型在训练数据上表现良好，但是泛化时却不尽如人意。

文章图片

文章图片
6、训练数据拟合不足
拟合不足和过度拟合正好相反：它的产生通常是因为，对于下层的数据结构来说，你的模型太过简单。举个例子，用线性模型来描述生活满意度就属于拟合不足；现实情况远比模型复杂得多，所以即便是对于用来训练的示例，该模型产生的预测都一定是不准确的。
解决这个问题的主要方法有：选择一个带有更多参数、更强大的模型。提供更好的特征集（特征工程）。
真实案例——2018年世界杯冠军预测
2018年世界杯的预测——随机森林法，重点评估球队能力参数估计。

文章图片

文章图片
评估参数主要考虑到球队的经济因素、运动因素、主场优势。

文章图片

文章图片
以及描述团队结构及球队教练的因素。

文章图片

文章图片
最终，根据以上参数，预测出2018年德国队获得冠军的几率为64% 。
【机器学习，将数据分割成两部分，机器学习解决方法】

文章图片

文章图片