机器学习,将数据分割成两部分,机器学习解决方法( 三 )
文章图片
逻辑回归
逻辑回归可以解决分类问题 , 比如判断是否是垃圾邮件 。
S型函数生成的输出值正好落在0和1之间 。
y^′=1/1+e^?(z)
其中:
y’是逻辑回归模型针对特定样本的输出
z是b+w_1x_1+w_2x_2+…w_Nx_N
w是该模型学习的权重 , b是偏差
x是特定样本的特征值
文章图片
文章图片
支持向量机
支持向量机是一个功能强大并且全面的机器学习模型 , 它能够执行分类、回归 , 甚至是异常检测任务 。
下图显示了三种可能的线性分类器的决策边界 。虚线代表的模型表现非常糟糕 , 其余两个模型的表现在这个训练集上堪称完美 , 但它们的决策边界与实例过于接近 , 导致在面对新实例时 , 表现可能不太好 。
下图的实线代表支持向量机的决策边界 , 这条线不仅分离了两个类别 , 并且尽可能远离了最近的训练实例 。你可以将支持向量机视为在类别之间拟合可能的最宽的街道 。
文章图片
文章图片
文章图片
文章图片
支持向量机
支持向量机也能解决回归问题 , 其诀窍在于将目标反转一下:尽可能让更多的实例位于街道上 。
文章图片
文章图片
决策树
决策树也是一种多功能的机器学习算法 , 可以实现分类和回归任务 。决策树同时也是随机森林的基本组成部分 。
如果你找到了一朵鸢尾花 , 想要将其归类 , 那么从根节点(深度0 , 位于顶部)开始:
花瓣长度是否小于2.45厘米?
花瓣宽度是否小于1.75厘米?
文章图片
文章图片
下图是决策树的决策边界 。决策树是非常直观的 , 它们的决策也很容易解释 , 这类模型被称为白盒模型 。
与之相反的 , 随机森林或是神经网络被认为是一种黑盒模型 。它们能做出很棒的预测 , 但很难解释清楚它们为什么做出这样的预测 。而决策树提供了简单好用的分类规则 , 需要的话 , 你甚至可以手动应用这些规则 。
文章图片
文章图片
机器学习的主要挑战
1、训练数据的数量不足
大部分机器学习算法需要大量的数据才能正常工作 。即使是最简单的问题 , 很可能也需要成千上万个示例 , 而对于诸如图像或语音识别等复杂问题 , 则可能需要上千万个示例 。
2、训练数据不具代表性
为了很好地实现泛化 , 至关重要的一点是 , 对于将要泛化的新示例来说 , 训练数据一定要非常有代表性 。
文章图片
文章图片
3、质量差的数据
如果训练集满是错误、异常值和噪声(例如 , 差质量的测量产生的数据) , 系统不太可能表现良好 。所以花时间来清理训练数据是非常值得的投入 。事实上 , 大多数数据科学家都会花费很大一部分时间来做这项工作 。
例如:如果某些实例明显是异常情况 , 要么直接将其丢弃 , 要么尝试手动修复错误 。
如果某些实例缺少部分特征(例如 , 5%的顾客没有指定年龄) , 你必须决定是整体忽略这些特征 , 还是忽略这部分有缺失的实例 , 又或者是将缺失的值补充完整(例如 , 填写年龄值的中位数)
- 人类与AI如何共处?诺奖科学家、将棋天才、“低欲望社会”提出者的不同解答
- 郎酒将拓宽红花郎品牌战略阵地 打造红花郎“中国节”IP
- 冬奥在即!“AI教练”、滑雪机器人,沪上高校科技助力“冰雪精灵”!
- 遍知教育赋能升级或将打破知识付费行业格局
- 智能科技傍身,讯飞智能录音笔SR101助力学习生活
- 2021年度中国互联网辟谣优秀作品即将发布
- 听说,这里将会有超大福利……
- 打疫苗不靠人?不用针?智能无针机器人有望“代劳”
- 身姿矫健!上海交大自主研发滑雪机器人:有六只脚,能灵活避障
- 又一颗厦门卫星将遨游太空
