你知道数据挖掘的十大算法吗?进来学习!

一个优秀的数据分析师不仅要掌握基本的统计、数据库、数据分析方法、思维、数据分析工具和技能 , 还要掌握一些数据挖掘的思路 , 帮助我们挖掘出有价值的数据 , 这也是数据分析专家和一般数据分析师的差距之一 。
你知道数据挖掘的十大算法吗?进来学习!
文章图片

文章图片
数据挖掘主要分为三类:分类算法、聚类算法和相关规则 , 基本涵盖了当前商业市场对算法的所有需求 。这三类包含了许多经典算法 。市面上很多关于数据挖掘算法的介绍都是深奥难懂的 。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理 , 帮助大家快速理解 。
数据挖掘算法分类
1、连接分析:PageRank 。
2、相关分析:Apriori 。
3、分类算法:C4.5 , 简单的贝叶斯 , SVM , KNN , Adaboost , CART 。
4、聚类算法:K-Means , EM 。
一、PageRank
论文被引用的次数越多 , 其影响就越大 。
网页入口越多 , 入链质量越高 , 网页质量越高 。
PageRank原理
网页的影响=阻尼影响+所有入链集合页面的加权影响之和 。
一个网页的影响:所有进入链的页面的加权影响之和 。
一个网页对其他网页的影响是:自身影响/链接数量 。
并非所有用户都是通过跳转链接来上网的 , 还有其他方式 , 比如直接输入网站访问 。
因此需要设置阻尼因子 , 代表用户根据跳转链接上网的概率 。
PageRank比喻说明
1、微博
一个人的微博粉丝数量不一定等于他的实际影响力 , 还要看粉丝的质量 。
如果是僵尸粉没用 , 但是如果是很多大V或者明星关注的话 , 影响力很大 。
2、店铺经营
顾客较多的店铺质量较好 , 但要看顾客是否是托 。
3、兴趣
对感兴趣的人或事投入相对较多的时间 , 对其相关的人和事也投入一定的时间 。被关注的人或事越多 , 其影响力/受众就越大 。
关于阻尼因子
1、通过邻居的影响来判断你的影响 , 但是如果你不能通过邻居来访问你 , 并不意味着你没有影响力 , 因为可以直接访问你 , 所以引入了阻尼因子的概念 。
2、海洋除了河流流经外 , 还有雨水 , 但下雨是随机的 。
3、提出阻尼系数 , 或者解决一些网站显然有大量的链(链) , 但影响很大 。
出链例子:hao123导航网页 , 出链多 , 入链少 。
入链例子:百度谷歌等搜索引擎 , 入链很多 , 出链很少 。
二、Apriori(相关分析)
关联挖掘关系 , 从消费者交易记录中发现商品之间的关系 。
Apriori原理
1、支持度
商品组合出现的次数与总次数之比 。
五次购买 , 四次购买牛奶 , 牛奶支持度为4/5=0.8 。
五次购买 , 三次购买牛奶+面包 , 牛奶+面包支持3/5=0.6 。
2、置信度
购买商品A , 购买商品B的概率有多大 , 发生A时发生B的概率有多大 。
买了四次牛奶 , 其中两次买了啤酒 , (牛奶->啤酒)的可信度是2/4=0.5 。
三次买啤酒 , 其中两次买牛奶 , (啤酒->牛奶)的可信度为2/3-0.67 。
3、提升度
衡量商品A的出现 , 提高商品B出现概率的程度 。
提升度(A->B)=置信度(A->B)/支持度(B) 。
提升度>1 , 有提升;提升度=1 , 无变化;提升度1 , 下降 。
4、项集频繁
项集:可以是单一商品 , 也可以是商品组合 。
频繁的项集是支持度大于最小支持度的项集(MinSupport) 。
计算过程
(1)从K=1开始 , 经常筛选项集 。
(2)在结果中 , 组合K+1项集 , 重新筛选 。
(3)循环1,2步 。K-1项集的结果是最终结果 , 直到找不到结果 。