你知道数据挖掘的十大算法吗？进来学习！一个优秀的数据分析师不仅要

一个优秀的数据分析师不仅要掌握基本的统计、数据库、数据分析方法、思维、数据分析工具和技能，还要掌握一些数据挖掘的思路，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。

文章图片

文章图片
数据挖掘主要分为三类：分类算法、聚类算法和相关规则，基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理，帮助大家快速理解。
数据挖掘算法分类
1、连接分析：PageRank 。
2、相关分析：Apriori 。
3、分类算法：C4.5 ，简单的贝叶斯， SVM ， KNN ， Adaboost ， CART 。
4、聚类算法：K-Means ， EM 。
一、PageRank
论文被引用的次数越多，其影响就越大。
网页入口越多，入链质量越高，网页质量越高。
PageRank原理
网页的影响=阻尼影响+所有入链集合页面的加权影响之和。
一个网页的影响：所有进入链的页面的加权影响之和。
一个网页对其他网页的影响是：自身影响/链接数量。
并非所有用户都是通过跳转链接来上网的，还有其他方式，比如直接输入网站访问。
因此需要设置阻尼因子，代表用户根据跳转链接上网的概率。
PageRank比喻说明
1、微博
一个人的微博粉丝数量不一定等于他的实际影响力，还要看粉丝的质量。
如果是僵尸粉没用，但是如果是很多大V或者明星关注的话，影响力很大。
2、店铺经营
顾客较多的店铺质量较好，但要看顾客是否是托。
3、兴趣
对感兴趣的人或事投入相对较多的时间，对其相关的人和事也投入一定的时间。被关注的人或事越多，其影响力/受众就越大。
关于阻尼因子
1、通过邻居的影响来判断你的影响，但是如果你不能通过邻居来访问你，并不意味着你没有影响力，因为可以直接访问你，所以引入了阻尼因子的概念。
2、海洋除了河流流经外，还有雨水，但下雨是随机的。
3、提出阻尼系数，或者解决一些网站显然有大量的链（链），但影响很大。
出链例子：hao123导航网页，出链多，入链少。
入链例子：百度谷歌等搜索引擎，入链很多，出链很少。
二、Apriori(相关分析)
关联挖掘关系，从消费者交易记录中发现商品之间的关系。
Apriori原理
1、支持度
商品组合出现的次数与总次数之比。
五次购买，四次购买牛奶，牛奶支持度为4/5=0.8 。
五次购买，三次购买牛奶+面包，牛奶+面包支持3/5=0.6 。
2、置信度
购买商品A ，购买商品B的概率有多大，发生A时发生B的概率有多大。
买了四次牛奶，其中两次买了啤酒， (牛奶->啤酒)的可信度是2/4=0.5 。
三次买啤酒，其中两次买牛奶， (啤酒->牛奶)的可信度为2/3-0.67 。
3、提升度
衡量商品A的出现，提高商品B出现概率的程度。
提升度(A->B)=置信度(A->B)/支持度(B) 。
提升度>1 ，有提升；提升度=1 ，无变化；提升度1 ，下降。
4、项集频繁
项集：可以是单一商品，也可以是商品组合。
频繁的项集是支持度大于最小支持度的项集(MinSupport) 。
计算过程
（1）从K=1开始，经常筛选项集。
（2）在结果中，组合K+1项集，重新筛选。
（3）循环1,2步。K-1项集的结果是最终结果，直到找不到结果。