你知道数据挖掘的十大算法吗?进来学习!( 二 )
扩展:FP-Growth算法 。
Apriori算法需要多次扫描数据库 , 性能低 , 不适合大数据量 。
FP-growth算法 , 通过构建FP树的数据结构 , 将数据存储在FP树中 , 只需在构建FP树时扫描数据库两次 , 后续处理就不需要再访问数据库 。
比喻:啤酒和纸尿裤一起卖 。
沃尔玛通过数据分析发现 , 在美国有婴儿的家庭中 , 母亲通常在家照顾孩子 , 父亲去超市买尿布 。
父亲在买纸尿裤的时候 , 经常会搭配几瓶啤酒来奖励自己 。因此 , 超市试图推出一种将啤酒和纸尿裤放在一起的促销手段 , 这实际上大大增加了纸尿裤和啤酒的销量 。
三、数据挖掘算法:AdaBoost
AdaBoost原理
简单来说 , 多个弱分类器训练成强分类器 。
将一系列弱分类器作为不同权重比组合的最终分类选择 。
计算过程
1、基本权重初始化 。
2、奖励权重矩阵 , 通过现有的分类器计算错误率 , 选择错误率最低的分类器 。
3、通过分类器权重公式 , 减少正确的样本分布 , 增加错误的样本分布 , 获得新的权重矩阵和当前k轮的分类器权重 。
4、将新的权重矩阵带入上述步骤2和3 , 重新计算权重矩阵 。
5、迭代N轮 , 记录每轮最终分类器的权重 , 获得强分类器 。
AdaBoost算法比喻说明
1、利用错题提高学习效率
做对的题 , 下次少做点 , 反正都会 。
下次多做错题 , 集中在错题上 。
随着学习的深入 , 错题会越来越少 。
2、合理跨境提高利润
苹果公司 , 软硬件结合 , 占据了手机市场的大部分利润 , 两个领域的知识结合产生了新的收益 。
四、数据挖掘算法:C4.5(决策树)
决策就是对一个问题有多个答案 , 选择答案的过程就是决策 。
C4.5算法用于产生决策树 , 主要用于分类 。
C4.5计算信息增益率(ID3算法计算信息增益) 。
C4.5算法原理
C4.5算法选择最有效的方法对样本集进行分裂 , 分裂规则是分析所有属性的信息增益率 。
信息增益率越大 , 意味着这个特征分类的能力越强 , 我们应该优先选择这个特征进行分类 。
比喻说明:挑西瓜 。
拿到一个西瓜 , 先判断它的线条 。如果很模糊 , 就觉得不是好瓜 。如果很清楚 , 就觉得是好瓜 。如果稍微模糊一点 , 就考虑它的密度 。如果密度大于一定值 , 就认为是好瓜 , 否则就是坏瓜 。
五、数据挖掘算法:CART(决策树)
CART:ClasificationAndRegresionTree , 中文叫分类回归树 , 可以分类也可以回归 。
什么是分类树?回归树?
分类树:处理离散数据 , 即数据类型有限的数据 , 输出样本类别 。
回归树:可以预测连续值 , 输出一个值 , 值可以在一定范围内获得 。
回归问题和分类问题的本质是一样的 , 就是对一个输入做一个输出预测 , 其区别在于输出变量的类型 。
CART算法原理
CART分类树
类似于C4.5算法 , 但属性选择的指标是基尼系数 。
基尼系数反映了样本的不确定性 。基尼系数越小 , 样本之间的差异越小 , 不确定性越低 。
分类是一个降低不确定性的过程 。CART在构建分类树时 , 会选择基尼系数最小的属性作为属性划分 。
回归树的CART
以均方误差或绝对值误差为标准 , 选择均方误差或绝对值误差最小的特征 。
分类和回归数的比喻说明
分类:预测明天是阴、晴还是雨 。
回归:预测明天的温度 。
六、数据挖掘算法:简单贝叶斯(条件概率)
简单贝叶斯是一种简单有效的常用分类算法 , 在未知物体出现的情况下 , 计算各类出现的概率 , 取概率最大的分类 。
- “5G+AI”新应用来了!5G秘书帮你轻松搞定接电话、查天气
- 线上新书发布!云上带你了解有关“冬奥”的那些事儿
- 今年的iphonese,还是你熟悉的模样
- 为啥不能快点拿到执行款?你可能犯了申请强制执行的这些错误!
- 燃气灶如何节能省气?这几个小妙招你一定要知道
- 迷你世界白雪公主皮肤兑换码是什么(迷你世界白雪公主皮肤激活码分享)
- 迷你世界2022年1月19日最新激活码(2022迷你世界1.19cdk兑换码)
- 不愧是你毒奶色|不愧是你毒奶色!黄旭东直播称微软没好游戏不做生态,暴雪OWL要爆雷
- 骑单车你消耗了多少卡路里?哈尔滨人去年“骑”掉近万杯奶茶热量
- 网易云音乐福气测试在哪里 看看你生日那天的福气测试地址