你知道数据挖掘的十大算法吗？进来学习！( 三 ) 一个优秀的数据分析师不仅要

文章图片

文章图片
算法原理
假设输入的不同特征是独立的，基于概率论原理，通过先验概率P(A)、P(B)和条件概率计算出P(A|B) 。
P(A):先验概率，即在B事件发生前判断A事件概率。
P(B|A):条件概率，事件B在另一个事件A已经发生的条件下发生的概率。
P(A|B):后验概率，即B事件发生后重新评估A事件概率。
比喻说明:对患者进行分类
给定一个新病人，一个打喷嚏的建筑工人，计算他感冒的概率。

文章图片

文章图片
七、数据挖掘算法：SVM
SVM：SupportVectorMachine ，中文名为支持向量机，是一种常见的分类方法，最初是为二分类问题设计的，在机器学习中， SVM是一种有监督的学习模式。
什么是监督学习和无监督学习？
监督学习：即在现有类别标签的情况下，对样本数据进行分类。
无监督学习:即在没有类别标签的情况下，样本数据按照一定的方法进行分类，即聚类。分类好的类别需要进一步分析，才能知道每个类别的特点。
SVM算法原理
找到间隔最小的样本点，然后拟合到这些样本点的距离和最大的线段/平面。
硬间隔：数据线性分布，直接给出分类。
软间隔：允许一定量的样本分类错误。
核函数：非线性分布的数据映射为线性分布的数据。
SVM算法比喻说明
1、分隔桌上的一堆红球和篮球。
桌上的红球和蓝球用一根线分成两部分。
2、分隔盒子里的一堆红球和篮球。
盒子里的红球和蓝球用平面分成两部分。
八、数据挖掘算法：KNN(聚类)
机器学习算法中最基本、最简单的算法之一，可以通过测量不同特征值之间的距离来分类。
KNN算法原理
计算待分类物体与其他物体之间的距离，预测K最近邻居数量最多的类别是该分类物体的类别。
计算步骤。
1.根据场景选择距离计算方法，计算待分类物体与其他物体之间的距离。
2.统计最近的K邻居。
3.对于K最近的邻居，最多的类别被预测为分类对象的类别。
KNN算法比喻：近朱者赤，近墨者黑。
九、数据挖掘算法：K-Means(聚类)
K-means是一种无监督学习、生成指定K类的聚类算法，将每个对象分配到最近的聚类中心。

文章图片

文章图片
K-Means算法原理
1.随机选择K点作为分类中心点。
2.将每个点分配到最近的类，从而形成K类。
3.重新计算每个类别的中心点。比如同一类别有10个点，那么新的中心点就是这10个点的中心点，一个简单的方法就是取平均值。
K-Means算法比喻说明
1、选组长
每个人都随机选择K个组长，谁离得近，就是那个队列的人(计算距离，近的人聚在一起) 。
随着时间的推移，组长的位置在变化(根据算法重新计算中心点) ，直到选择真正的中心组长(重复，直到准确率最高) 。
2、Kmeans和Knn的区别
Kmeans开班选组长，风水轮流转，直到选出最佳中心组长。
Knn小弟加队，离那个班比较近，就是那个班。
十、数据挖掘算法：EM(聚类)
EM的英语是ExpectationMaximization ，因此EM算法又称最大期望算法，也是一种聚类算法。
EM和K-Means的区别:
EM是计算概率， KMeans是计算距离。
EM属于软聚类，同一样本可能属于多个类别；K-Means属于硬聚类，一个样本只能属于一个类别。因此，前者可以发现一些隐藏的数据。