机器学习,将数据分割成两部分,机器学习解决方法

智领云第15次社群图文技术直播文字回放:本次直播由智领云大数据应用开发工程师Peter , 为大家带来了主题分享《机器学习 , 为什么如此重要?》 , 主要内容包括:什么是机器学习、机器学习分类、机器学习的主要挑战 , 以及一些真实案例 。
在介绍机器学习之前 , 首先我来给大家分享一篇划时代的论文 , 2006年 , GeoffreyHinton等人发表了一篇论文 , 展示了如何训练能够高精度(>98%)识别手写数字的深度神经网络 。他们将这种技术称为“深度学习” 。
在当时 , 深度神经网络的训练被普遍认为是不可能的 。这篇论文重新激起了科学界的兴趣 。不久之后 , 许多新的论文展示了深度学习不仅是可行的 , 而且能取得令人瞩目的成就 。大数据、高性能硬件和新的算法 , 一同推动机器学习快速发展 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
那么 , 什么是机器学习呢?
1959年ArthurSamuel将它定义为“机器学习研究如何让计算机不需要明确的程序也具备学习能力”
传统编程方法
如果用传统编程技术来编写一个垃圾邮件过滤器 , 你会怎么做?
1、看看垃圾邮件长什么样 。可能会注意到某些词汇出现的频率非常高 , 比如“免费” , “低息” , “抵押”等 , 也许还会发现一些其他模式 。
2、为每个模式编写检测算法 。
3、测试这个程序 , 不断重复1和2 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
机器学习解决方法
*自动检测异常频繁的词汇
*自动学习哪些词汇可以作为垃圾邮件的预测因素
*易于维护
*更准确
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
自动适应变化
*自动注意到新的关键词
*可以处理传统方法难以解决的问题 , 比如语音识别 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
帮助人类学习
可以通过检视机器学习算法以了解它们学到了什么 。
比如查看可以作为垃圾邮件最佳预判因子的词汇 。
有时候 , 这可能会揭示出人类未曾意识到的关联性或是新趋势 。
应用机器学习技术来挖掘数据 , 可以帮助我们发现此前并非显而易见的模式 。这个过程称为数据挖掘 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
机器学习分类
*监督式学习
*无监督式学习
*半监督式学习
*强化学习
监督式学习/无监督式学习
在监督式学习中 , 提供给算法的训练数据是经过标记的 , 相当于有了题目和答案 , 寻找解题过程 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
无监督式学习的训练数据都是未经标记的 。系统会在没有答案的情况下进行学习 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
半监督式学习/强化学习
半监督式学习可以处理部分标记的训练数据——通常是大量未标记数据和少量标记数据 。例如云相册 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
强化学习能够观察环境 , 做出选择 , 执行操作 , 并获得回报 , 或者是以负面回报的形式获得惩罚 。所以它必须自行学习什么是最好的策略 。例如AlphaGo 。