机器学习，将数据分割成两部分，机器学习解决方法( 三 ) 智领云第15次社群图文技术直播

文章图片
逻辑回归
逻辑回归可以解决分类问题，比如判断是否是垃圾邮件。
S型函数生成的输出值正好落在0和1之间。
y^′=1/1+e^?(z)
其中：
y’是逻辑回归模型针对特定样本的输出
z是b+w_1x_1+w_2x_2+…w_Nx_N
w是该模型学习的权重， b是偏差
x是特定样本的特征值

文章图片

文章图片
支持向量机
支持向量机是一个功能强大并且全面的机器学习模型，它能够执行分类、回归，甚至是异常检测任务。
下图显示了三种可能的线性分类器的决策边界。虚线代表的模型表现非常糟糕，其余两个模型的表现在这个训练集上堪称完美，但它们的决策边界与实例过于接近，导致在面对新实例时，表现可能不太好。
下图的实线代表支持向量机的决策边界，这条线不仅分离了两个类别，并且尽可能远离了最近的训练实例。你可以将支持向量机视为在类别之间拟合可能的最宽的街道。

文章图片

文章图片

文章图片

文章图片
支持向量机
支持向量机也能解决回归问题，其诀窍在于将目标反转一下：尽可能让更多的实例位于街道上。

文章图片

文章图片
决策树
决策树也是一种多功能的机器学习算法，可以实现分类和回归任务。决策树同时也是随机森林的基本组成部分。
如果你找到了一朵鸢尾花，想要将其归类，那么从根节点（深度0 ，位于顶部）开始：
花瓣长度是否小于2.45厘米？
花瓣宽度是否小于1.75厘米？

文章图片

文章图片
下图是决策树的决策边界。决策树是非常直观的，它们的决策也很容易解释，这类模型被称为白盒模型。
与之相反的，随机森林或是神经网络被认为是一种黑盒模型。它们能做出很棒的预测，但很难解释清楚它们为什么做出这样的预测。而决策树提供了简单好用的分类规则，需要的话，你甚至可以手动应用这些规则。

文章图片

文章图片
机器学习的主要挑战
1、训练数据的数量不足
大部分机器学习算法需要大量的数据才能正常工作。即使是最简单的问题，很可能也需要成千上万个示例，而对于诸如图像或语音识别等复杂问题，则可能需要上千万个示例。
2、训练数据不具代表性
为了很好地实现泛化，至关重要的一点是，对于将要泛化的新示例来说，训练数据一定要非常有代表性。

文章图片

文章图片
3、质量差的数据
如果训练集满是错误、异常值和噪声（例如，差质量的测量产生的数据），系统不太可能表现良好。所以花时间来清理训练数据是非常值得的投入。事实上，大多数数据科学家都会花费很大一部分时间来做这项工作。
例如：如果某些实例明显是异常情况，要么直接将其丢弃，要么尝试手动修复错误。
如果某些实例缺少部分特征（例如， 5%的顾客没有指定年龄），你必须决定是整体忽略这些特征，还是忽略这部分有缺失的实例，又或者是将缺失的值补充完整（例如，填写年龄值的中位数）