用机器学习预测股票,用AI炒股机器人,量化分析、量化投资、股票量化学习篇章

前言:机器学习的普及前所未有 。它广泛应用于基于数据决策的领域 , 在投资领域亦是如此 。只需要在谷歌中同时搜索“机器学习”和“股票预测” , 便可以得到大量关于时间序列预测和循环神经网络的内容 。尽管股票价格为公众搜索机器人量化 , 对于这类算法来说是绝佳的数据选择 , 但是我们仍应当谨慎行事 , 尤其是涉及到钱的时候 。
开始学习机器学习预测技术的人基本都知道维恩图迭代

用机器学习预测股票,用AI炒股机器人,量化分析、量化投资、股票量化学习篇章
文章图片

文章图片

可以清楚地看到 , 机器学习(或数据科学)将技术技能(例如编程和数学)和各领域专业知识相融合 。没有这三种形式的共同呈现 , 就只能回归至其中一个纯粹的领域之中 。
这一描述对金融领域的机器学习尤其适用 。时间序列财务数据十分微妙 , 应用现成的算法去处理未加工的价格数据是发现错误和防止资金损失的一个很好的方法 。因此 , 使用这些数据需要注意一些特殊事项 , 尤其是关于行业知识的应用 。
基于此 , 本文致力于提供一些常常被新人忽略的直观事实 。由于数学和编码相关的可用资源已经十分丰富了 , 这里主要关注对问题的探讨 。
1. 数据
这也许并没有什么可惊讶的 , 因为数据是任何一种机器学习模型的重要组成元素 , 股票预测也不例外 。首先需要理解数据产生的过程 , 进而才能知道为什么需要如此谨慎 。通常所分析领域的股票预测数据集就是时间序列数据 , 例如宏观经济数据、基础数据和价格数据 。这类数据存在一种序列相关现象(serial correlation) , 简而言之就是每一个观测值都是以前一个时间间隔的观测值为基础的 。
为了在实践中说明这一点 , 以价格为例 。如果我们观察任何一支股票并追踪其每日价格走势 , 便会发现 , 除了一些“小”偏差 , 每支股票的收盘价都与前一天的收盘价紧密挂钩 。
这是为什么呢?简单来说 , 股票是企业所有权份额 , 其价值由永恒不变的会计等式所决定 , 即资产减负债等于股东权益(assets minus liabilities equals equity) 。股票是股价主体的企业基础价值 , 投资者情绪、交易行为和噪音则影响着每日偏差值 。企业资产价值 , 即机器、土地、建筑物和库存 , 不会在一夜之间发生巨大变化 , 负债大多数情况也是如此 。如果没有财务丑闻 , 那么企业的基础价值整体来说是相对稳定的 。
这对机器学习意味着什么呢?它意味着模型可以通过与损失函数进行博弈 , 并选择前一天的股价作为今日价格预测值 , 以出色地完成工作 。当许多“优秀预测模型”的预测输出曲线与实际股价滞后的移动平均线相接近时 , 便可以清楚地看到这一点 。任何这类模型都在不断地接近实际价格 。
平稳性问题也有类似的特征 。许多机器学习模型和预处理技术都以生成数据的分布参数是常量为假设前提的 。换句话说 , 特征的均值和标准差不随时间的变化而变化 , 数据中也看不出趋势 。然而 , 只要看看长期以来常用的美国季度GDP数据 , 就会很快打消这种想法 。这些数据中显然存在一种趋势 , 因此 , 如果一个经济体呈增长态势 , 便可以预料到其产出及价格会随着时间而增长 。

用机器学习预测股票,用AI炒股机器人,量化分析、量化投资、股票量化学习篇章
文章图片

文章图片

该数据的平均值和标准差随时间而变动 , 这也给盲目应用回归分析等算法和标准化及主成分分析等预处理技术带来一定不便 。