你知道数据挖掘的十大算法吗?进来学习!( 三 )
文章图片
文章图片
算法原理
假设输入的不同特征是独立的 , 基于概率论原理 , 通过先验概率P(A)、P(B)和条件概率计算出P(A|B) 。
P(A):先验概率 , 即在B事件发生前判断A事件概率 。
P(B|A):条件概率 , 事件B在另一个事件A已经发生的条件下发生的概率 。
P(A|B):后验概率 , 即B事件发生后重新评估A事件概率 。
比喻说明:对患者进行分类
给定一个新病人 , 一个打喷嚏的建筑工人 , 计算他感冒的概率 。
文章图片
文章图片
七、数据挖掘算法:SVM
SVM:SupportVectorMachine , 中文名为支持向量机 , 是一种常见的分类方法 , 最初是为二分类问题设计的 , 在机器学习中 , SVM是一种有监督的学习模式 。
什么是监督学习和无监督学习?
监督学习:即在现有类别标签的情况下 , 对样本数据进行分类 。
无监督学习:即在没有类别标签的情况下 , 样本数据按照一定的方法进行分类 , 即聚类 。分类好的类别需要进一步分析 , 才能知道每个类别的特点 。
SVM算法原理
找到间隔最小的样本点 , 然后拟合到这些样本点的距离和最大的线段/平面 。
硬间隔:数据线性分布 , 直接给出分类 。
软间隔:允许一定量的样本分类错误 。
核函数:非线性分布的数据映射为线性分布的数据 。
SVM算法比喻说明
1、分隔桌上的一堆红球和篮球 。
桌上的红球和蓝球用一根线分成两部分 。
2、分隔盒子里的一堆红球和篮球 。
盒子里的红球和蓝球用平面分成两部分 。
八、数据挖掘算法:KNN(聚类)
机器学习算法中最基本、最简单的算法之一 , 可以通过测量不同特征值之间的距离来分类 。
KNN算法原理
计算待分类物体与其他物体之间的距离 , 预测K最近邻居数量最多的类别是该分类物体的类别 。
计算步骤 。
1.根据场景选择距离计算方法 , 计算待分类物体与其他物体之间的距离 。
2.统计最近的K邻居 。
3.对于K最近的邻居 , 最多的类别被预测为分类对象的类别 。
KNN算法比喻:近朱者赤 , 近墨者黑 。
九、数据挖掘算法:K-Means(聚类)
K-means是一种无监督学习、生成指定K类的聚类算法 , 将每个对象分配到最近的聚类中心 。
文章图片
文章图片
K-Means算法原理
1.随机选择K点作为分类中心点 。
2.将每个点分配到最近的类 , 从而形成K类 。
3.重新计算每个类别的中心点 。比如同一类别有10个点 , 那么新的中心点就是这10个点的中心点 , 一个简单的方法就是取平均值 。
K-Means算法比喻说明
1、选组长
每个人都随机选择K个组长 , 谁离得近 , 就是那个队列的人(计算距离 , 近的人聚在一起) 。
随着时间的推移 , 组长的位置在变化(根据算法重新计算中心点) , 直到选择真正的中心组长(重复 , 直到准确率最高) 。
2、Kmeans和Knn的区别
Kmeans开班选组长 , 风水轮流转 , 直到选出最佳中心组长 。
Knn小弟加队 , 离那个班比较近 , 就是那个班 。
十、数据挖掘算法:EM(聚类)
EM的英语是ExpectationMaximization , 因此EM算法又称最大期望算法 , 也是一种聚类算法 。
EM和K-Means的区别:
EM是计算概率 , KMeans是计算距离 。
EM属于软聚类 , 同一样本可能属于多个类别;K-Means属于硬聚类 , 一个样本只能属于一个类别 。因此 , 前者可以发现一些隐藏的数据 。
- “5G+AI”新应用来了!5G秘书帮你轻松搞定接电话、查天气
- 线上新书发布!云上带你了解有关“冬奥”的那些事儿
- 今年的iphonese,还是你熟悉的模样
- 为啥不能快点拿到执行款?你可能犯了申请强制执行的这些错误!
- 燃气灶如何节能省气?这几个小妙招你一定要知道
- 迷你世界白雪公主皮肤兑换码是什么(迷你世界白雪公主皮肤激活码分享)
- 迷你世界2022年1月19日最新激活码(2022迷你世界1.19cdk兑换码)
- 不愧是你毒奶色|不愧是你毒奶色!黄旭东直播称微软没好游戏不做生态,暴雪OWL要爆雷
- 骑单车你消耗了多少卡路里?哈尔滨人去年“骑”掉近万杯奶茶热量
- 网易云音乐福气测试在哪里 看看你生日那天的福气测试地址
