量化中的机器学习简述

geek002 · 2019-12-28 22:28:07

人工智能，特别是机器学习，在最近几年大出风头，无人驾驶汽车，阿尔法狗战胜人类最强棋手，演唱会人脸识别抓捕逃犯，手机多国语言在线翻译，这一切一切无不给我们带来深深的震撼，可以说人工智能将在不久的未来引来巨大的爆发式增长，对我们每个人的生活带来深刻的影响。

既然机器学习这么厉害，那么是不是可以让机器帮我们预测市场、选股票，买卖股票，我们只需要坐着看收益就好了，为什么现实不是这样的呢？

这一节就简单总结一下量化投资中的我们对机器学习需要了解的基本概念。后面再逐个研究算法的实际应用。

1、机器学习在量化投资领域的现状是怎么样的呢？

一句话总结：

机器学习是当前量化投资的一个重要的方向，但是它的效果并不比其他方向的策略更好。

为什么机器学习在投资领域并无明显优势？
这个现象在国内国外都是一样，相比之下，国外用机器学习做量化的会比国内多一些。我认为有两个方面原因：

一方面是人才结构决定。机器学习领域的顶级专家，几乎没有投入到量化投资领域的。对机器学习或者说人工智能领域的大牛来说，本身就可以在Google、微软、BAT等大公司获得领导岗位，也可以较容易的自己融资创业，量化投资这种高风险的事情对他们没有吸引力。
另一方面是金融学科性质决定的。金融分析属于非实验性科学，因此无法进行对照实验，虽然存在大量的金融交易数据，但是无法通过设计实验来控制自变量的变化、通过重复性试验来检验提出的假设（比如说机器学习发现的某种选股模式）。如此的数据分析得到的大多是看似显著但实际上是欺骗式的模式（尤其对样本外数据），这个现象称作数据迁就（data
snooping）。
2、人工智能、机器学习、深度学习什么关系？

补充：

我们通常说的神经网络，也属于深度学习的范畴。
机器学习中除了深度学习，还有强化学习这样的类别，主要用于电子游戏方面。

3、怎么理解传统算法和机器学习算法的区别？

什么是机器学习？
机器学习是人工智能的一个分支。它的核心就是学习能力。用逻辑化的语言来描述就是：

通过n个样本数据（训练样本），预测出未知数据（测试样本）的属性。

它和传统算法的主要差别就是：学习能力，也叫做泛化能力。

在传统编程中，开发人员要对程序进行硬编码，对于如何达到结果，需要开发人员自己很清楚。
在机器学习中，是机器去从数据中学习，开发人员未必知道机器是怎么达到结果的。能举一反三，从数据中自我学习，是机器学习算法的主要特性。

比如：预测股价这个问题，在传统算法中，基本认为是不可行的。但是在机器学习算法中，确是有较大成功概率的。

4、机器学习包含哪些分类？

从大体上，我们将机器学习分为监督学习和无监督学习。

**监督学习：**训练样本中的“特性”feature对应目标的“标签”labels，通常用来解决以下两类问题：
分类问题，样本标签属于两类或多类。这通常是离散的数据。
回归问题，样本标签包括一个或多个连续变量。这通常是连续的数据。

**无监督学习：**训练样本的属性不包含对应的“标签”，通常是聚类问题。

**说明：**从量化投资的角度，我们用得较多的都是监督学习。

更详细的模型分类如下图：

说明：

有些算法既能够用于处理分类问题，也能用于处理回归的问题，比如支持向量机、决策树等。
“降维”算是一种特殊的应用，可以是无监督学习，其实也可以用于监督学习的。
5、机器学习的基本流程是什么样的？

就如同人类学习某种技能需要持续练习一样，机器学习某种规律也需要大量的数据进行训练。从开始获取数据、训练机器学习模型到最终模型投入应用，通常需要遵循一些固定的流程。

下图展示了机器学习的基本框架，主要步骤包括：数据获取、特征提取、数据转换、模型训练、模型选择和模型预测。
6、机器学习的模型怎么选择?

在模型训练中，针对不同的问题，我们选择什么样的机器学习方法呢，这里列举一些简单的例子：

如果数据中包含特征和标签，希望学习特征和标签之间的对应关系，那么可以采用监督学习的方法；
如果没有标签，希望探索特征自身的规律，那么可以采用非监督学习；
如果学习任务由一系列行动和对应的奖赏组成，那么可以采用强化学习。
如果需要预测的标签是分类变量，比如预测股票上涨还是下跌，那么可以采用分类方法；
如果标签是连续的数值变量，比如预测股票具体涨多少，那么可以采用回归方法；
另外，样本和特征的个数，数据本身的特点，这些都决定了最终选择哪一种机器学习方法。
7、机器学习中有哪些重要的概念？

在进行模型建立的时候，我们有三种数据集：训练集、验证集、测试集

训练集Training set：用来训练模型的，通常需要的数据量很大。可以理解为机器学习过程中的课本。
验证集Validation set：是用来做模型选择（model selection）、参数优化的，即做模型的最终优化及确定的。可以理解为机器学习过程中的模拟考试。
测试集Test set：纯粹是为了测试已经训练好的模型的泛化（generalization）能力。这既是对机器学习成果的考试了。
在评价模型效果的时候，有欠拟合、正常拟合和过拟合三种情况：

欠拟合：采用了较少的参数或模型过于简单，训练得到的效果就比较差
正常拟合：采用合适数量的参数和合适复杂度的模型
过拟合：采用过多的参数和过于复杂的模型，模型依赖数据，离开测试集后表现较差，即模型预测效果较差。
8、机器学习在量化投资中怎么用？

有人觉得这个问题很奇怪，一点都不。我们要做的是交易系统，要做的是量化投资，不论机器学习还是技术分析都只是工具。那么很自然就会有这样几种用法：

第一个当然是直接用用一个机器学习的模型策略来实现交易系统
第二种方式用机器学习与其他策略结合，增加额外的过滤器
第三种是发挥机器学习算法的优势，把它作为工具，给其他量化策略进行参数优化

KUO · 2019-12-28 22:40:08

这类内容比较好，赞

geek002 · 2019-12-29 07:36:20

其实到目前为止，机器学习在量化交易中表现并不佳，至少目前看到的情况下表现一般

abu · 2019-12-29 07:40:21

机器学习需要技术进一步突破

geek002 · 2019-12-29 07:55:34

但是目前比较明显的是：未来智能化交易必然会对机械化的程序化交易产生替代效应！

abu · 2019-12-29 07:56:54

geek002 发表于 2019-12-29 07:55
但是目前比较明显的是：未来智能化交易必然会对机械化的程序化交易产生替代效应！ ...

只是大家都这样认为而已

		自动登录	找回密码
密码			免费注册

宽客财经

量化中的机器学习简述

关于我们

网站地图

资讯

观点

百科

关注微信