机器学习，将数据分割成两部分，机器学习解决方法( 二 ) 智领云第15次社群图文技术直播

文章图片

文章图片
监督式学习算法：
*K-近邻算法
*线性回归
*逻辑回归
*支持向量机
*决策树和随机森林
*神经网络
无监督式学习算法
*聚类算法
*k-平均算法
*分层聚类分析
*最大期望算法
*可视化和降维
*主成分分析
*核主成分分析
*局部线性嵌入
*关联规则学习
测试与验证
如何对模型进行评估？
将数据分割成两部分：训练集和测试集。
用训练集的数据来训练模型，然后用测试集的数据来测试模型。
通常使用80%的数据进行训练， 20%来做测试。
线性回归
相比凉爽的天气，蟋蟀在较为炎热的天气里鸣叫更为频繁。右图是每分钟虫鸣声与温度的关系。此曲线图表明温度随着鸣叫声次数的增加而上升。

文章图片

文章图片
鸣叫声与温度之间的关系是线性关系吗？是的，我们可以绘制一条直线来近似地表示这种关系。
这条直线可以用线性代数表示：
y=mx+b
y指的是温度，即我们试图预测的值
m指的是直线的斜率
x指的是每分钟的鸣叫次数，即输入特征的值
b指的是y轴的截距

文章图片

文章图片
在机器学习领域，需要写一个存在细微差别的模型方程式：
y^′=b+w_1x_1
其中：
y’指的是预测标签（理想输出值）
b指的是偏差（y轴截距）
w1指的是特征1的权重
x1指的是特征（已知输入项）
如果有多个特征，比如三个特征的模型可以采用以下方程式：
y^′=b+w_1x_1+w_2x_2+w_3x_3
在监督式学习中，机器学习算法通过以下方式构建模型：检查多个样本并尝试找出可最大限度地减少损失的模型；这一过程称为经验风险最小化。损失是一个数值，表示对于单个样本而言模型预测的准确程度。训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。

文章图片

文章图片
降低损失
刚开始，您会胡乱猜测（“w1的值为0”），等待系统告诉您损失是多少。然后，您再尝试另一种猜测（“w1的值为0.5”），看看损失是多少。
真正棘手的地方在于尽可能高效地找到最佳模型。

文章图片

文章图片
梯度下降法
对于我们研究的回归问题，所产生的损失与w1的图形始终是凸形。换言之，图形始终是碗状图。
凸形问题只有一个最低点；即只存在一个斜率正好为0的位置。这个最小值就是损失函数收敛之处。
梯度下降法可以快速找到最低点。

文章图片

文章图片
先随机选一个起点。梯度下降法算法会计算损失曲线在起点处的梯度。简而言之，梯度是偏导数的矢量；它可以让您了解哪个方向距离目标“更近”或“更远” 。
学习速率

文章图片

文章图片

文章图片