机器学习,将数据分割成两部分,机器学习解决方法( 二 )


机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
监督式学习算法:
*K-近邻算法
*线性回归
*逻辑回归
*支持向量机
*决策树和随机森林
*神经网络
无监督式学习算法
*聚类算法
*k-平均算法
*分层聚类分析
*最大期望算法
*可视化和降维
*主成分分析
*核主成分分析
*局部线性嵌入
*关联规则学习
测试与验证
如何对模型进行评估?
将数据分割成两部分:训练集和测试集 。
用训练集的数据来训练模型 , 然后用测试集的数据来测试模型 。
通常使用80%的数据进行训练 , 20%来做测试 。
线性回归
相比凉爽的天气 , 蟋蟀在较为炎热的天气里鸣叫更为频繁 。右图是每分钟虫鸣声与温度的关系 。此曲线图表明温度随着鸣叫声次数的增加而上升 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
鸣叫声与温度之间的关系是线性关系吗?是的 , 我们可以绘制一条直线来近似地表示这种关系 。
这条直线可以用线性代数表示:
y=mx+b
y指的是温度 , 即我们试图预测的值
m指的是直线的斜率
x指的是每分钟的鸣叫次数 , 即输入特征的值
b指的是y轴的截距
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
在机器学习领域 , 需要写一个存在细微差别的模型方程式:
y^′=b+w_1x_1
其中:
y’指的是预测标签(理想输出值)
b指的是偏差(y轴截距)
w1指的是特征1的权重
x1指的是特征(已知输入项)
如果有多个特征 , 比如三个特征的模型可以采用以下方程式:
y^′=b+w_1x_1+w_2x_2+w_3x_3
在监督式学习中 , 机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化 。损失是一个数值 , 表示对于单个样本而言模型预测的准确程度 。训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
降低损失
刚开始 , 您会胡乱猜测(“w1的值为0”) , 等待系统告诉您损失是多少 。然后 , 您再尝试另一种猜测(“w1的值为0.5”) , 看看损失是多少 。
真正棘手的地方在于尽可能高效地找到最佳模型 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
梯度下降法
对于我们研究的回归问题 , 所产生的损失与w1的图形始终是凸形 。换言之 , 图形始终是碗状图 。
凸形问题只有一个最低点;即只存在一个斜率正好为0的位置 。这个最小值就是损失函数收敛之处 。
梯度下降法可以快速找到最低点 。
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
先随机选一个起点 。梯度下降法算法会计算损失曲线在起点处的梯度 。简而言之 , 梯度是偏导数的矢量;它可以让您了解哪个方向距离目标“更近”或“更远” 。
学习速率
机器学习,将数据分割成两部分,机器学习解决方法
文章图片

文章图片
机器学习,将数据分割成两部分,机器学习解决方法
文章图片