1、汇添富基金 吴振翔量化投资与机器学习2018.5.60. 量化投资需要什么技术?量化投资与机器学习,问题的定义是什么?需要先定义量化投资,进而才能思考机器学习技术在其中的应用。我们如何看待量化投资2018/5/2 汇添富基金投资收益 /风险量化投资 根据不同的资金端收益风险需求,使用量化手段进行资产端配置,为客户提供投资管理服务。 量化手段主要体现于资产端的投资管理。资金端 资产端量化 投资的应用场景2018/5/2 汇添富基金 绝对收益目标 相对收益目标按照投资目标划分 权益类资产 固定收益类资产 商品期货类资产 大类 资产配置按照投资标的划分 长期 短期 日内高频按照投资期限划分投资标的期
2、限目标量化投资需要解决的问题2018/5/2 汇添富基金无论是绝对收益目标还是相对收益目标,无论何种投资期限,量化投资需要解决的问题都可以总结为“挖掘收益 ”和 “控制风险 ” 维度之一:选股, what 维度之二:择时, when 维度之三:交易执行, how挖掘收益 市场风险:市场波动风险,跟踪误差风险 黑天鹅风险:财务造假,负面新闻 控制风险传统量化投资技术2018/5/2 汇添富基金 历史行情数据 历史财务数据 历史研究、舆情、公告 历史数据 将数据结构化,提取特征 按照特定逻辑,通过统计方法对特征建立模型: 因子选股:要统计因子 IC等指标,传统因子模型也是基于对收益率的线性回归;
3、择 时策略:要统计信号的胜率、赔率、频率,并在样本内样本外做比对; 交易策略:类似于择时; 风险控制:绩效分析是基于线性模型的,其他风险控制手段也基于一些风险特征在历史上的表现。经典统计学方法论 将基于历史数据的统计模型应用于当时的投资问题 为什么模型失效? 历史不重演了? 历史不会完全重演; 模型是历史的不完全表述; 我们认为,除非市场出现重大变故(类似熔断,股指期货限仓),历史规律不会断然变化,而连续变化的历史规律是可以捕捉的。虽然历史不会完全重演,但量化投资仅需要把握部分重演的历史。 让模型更好表述历史、预测未来,是量化投资研究的努力方向。量化投资量化投资需要什么技术?2018/5/2
4、汇添富基金数据处理建模大数据 = 新世界异构数据的流水线特征工程 结构工程大数据时代来临,量化投资可以使用的基础数据充满可能性,大数据有望提升模型表述能力。利用 工程学方法构造数据分析 的流水线,不断提高数据的时效性。统计模型基于人类对于数据的观测,依赖于经营性的特征提取,深度学习可以通过定义结构进一步挖掘信息。1. 我们感兴趣的机器学习技术机器学习技术发展日新月异,但在狭义的量化投资领域的应用才刚刚开始。数据获取与数据处理2018/5/2 汇添富基金Source: Big Data and AI Strategies: Machine Learning and Alternative Dat
5、a Approach to Investing, J.P.Morgan 从 海外经验来看,投资领域对于另类数据的使用已经起步,数据使用范围可谓 相当 多样。 从数据获取来看,主要来源如下:舆情文本、卫星图像、交通信息、物流信息、网络搜索、电商信息等。 对应 于这些数据来源,所需要的数据处理技术包括:自然语言处理、计算机视觉等。自然语言处理技术2018/5/2 汇添富基金 从数据处理和特征提取角度来看,目前自然语言处理技术已经较为成熟,可以对诸如新闻、公告等文本信息进行大规模处理。 中文分词技术是处理中文文本数据的基础;词向量技术是将高维且正交的one-hot向量,转变为低维且具有几何意义的向量
6、的技术。自然语言处理技术2018/5/2 汇添富基金 海外 某 公司现在已经开始提供实时的 Twitter舆情数据,直观来看, Tweet Volume和 Sentiment都没有很强的领先性,但也不排除精细化处理后对投资能够起到作用。Source: http:/ 汇添富基金 卷积神经网络( CNN)为处理具有 空间结构 的数据提供了极大可能。 GPU硬件技术的突飞猛进大大提升了 CNN的数据处理能力,使得工业界目前已经可以处理大规模的图像和视频数据。计算机视觉技术2018/5/2 汇添富基金 海外某公司通过计算机视觉技术,识别卫星图像等原始图像当中的停车场停车数量信息,进而构建零售、餐饮、酒
7、店等场景的高频经营数据。通过这些高频经营数据可以构建相应的交易信号。 该公司提供了一种交易方法:计算每月的停车量同比增速,季度计算累计同比增速,计算过去 6个月同比增速的布林带,当季度累计同比增速穿越布林带上下轨时,触发买入卖出交易。Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan机器学习模型2018/5/2 汇添富基金 通过对大量非结构化的数据进行处理,成为数字化、向量化的数据集,进而通过机器学习算法进行建模和训练,是目前机器学
8、习领域的主要方法论。 工业界的机器学习模型主要解决以下问题: 分类( classification) 回归 /预测( regression) 其他,如生成模型,强化学习模型等机器学习模型的表述能力2018/5/2 汇添富基金 以深度神经网络模型为例,早在 1993年,就有学术研究从数学上证明: 多层神经网络 +非线性激励函数可以近似任何函数 。 近期 实证研究表明,随着神经网络层数的增加,测试集的准确度逐渐提升;此外,在不增加神经网络层数,仅仅增加参数个数的情况下,模型的效果提升不明显;而在不改变参数个数的情况下,将层数从 3层增加至 11层,则可以显著提升模型效果。Source: Goodf
9、ellow, I. J., Bengio, Y., & Courville, A. (2017). Deep Learning2. 量化投资与机器学习我们的实践以及思考存在的障碍2018/5/2 汇添富基金融合?量化投资机器学习数据大 数据小投入大 场景少场景多 投入小存在的障碍2018/5/2 汇添富基金 将量化投资和机器学习相提并论是不适合的 数据 场景 投入以阿里的业务生态为例:核心 电商、金融服务物流 业务、市场营销云 计算、文化娱乐本地 生活、支付服务还是以阿里巴巴为例:互联网行业全球首个浸没液冷服务器集群自研网络原生设计分布式数据库 X-DB统一大数据储存 /计算平台, 60000
10、+服务器以阿里巴巴中国零售平台为例:2017年度活跃卖家: 4.54亿移动端月活跃用户 MAU: 5.07亿2017财年商品交易额 GMV: 5470亿美元EB级别数据从量化投资的应用场景来看:选 股、择时交易、风控大多数据还是最后落到收益率上而收益率存在极大的噪声目前量化投资领域的投入水平:单兵作战或小团队作战不如高校单个研究生的软硬件资源目前量化投资领域能够接触到的数据:行情:算上高频, TB级别公司数据: GB级别已经算很大了其他舆情、文本之类的, GB级别 机器学习,从入门到放弃?2018/5/2 汇添富基金 数据少,噪声大,投入还小,只能做 toy model? 我们对股票市场有独到
11、的理解!不需要大量数据和大量投入就能搞出好模型! 相比于现有的量化模型,机器学习的模型和方法能够更好克服人为观测的偏差,如: 市值因子为什么是市值取对数? 反转 因子为什么是区间收益率? 风险为什么可以用标准差表示? 现有量化投资的模型都是 基于简单的人为观测逻辑 ,进行历史检验,获得较好效果之后进行使用的。 而机器学习方法论是:对更为广泛的数据, 基于机器学习的观测逻辑 ,进行历史检验,获得较好效果之后进行使用。 已 有一些成果超越了现有量化模型的效果。我们认为,随着数据量提升、投入资源加大,未来机器学习方法将带来量化投资领域的重大变革!广阔天地,大有可为2018/5/2 汇添富基金IC I
12、R 0 1 2 3 4通信 0.1033 0.6520 24.44% 16.62% 9.30% -3.65% -34.31%商贸零售 0.1064 0.7175 22.57% 12.57% 2.66% -8.07% -22.24%房地产 0.1043 0.7728 27.69% 10.40% 1.88% -5.91% -27.20%医药 0.0962 0.8293 22.88% 13.32% 0.88% -6.73% -26.80%轻工制造 0.1105 0.6358 24.91% 12.95% 2.85% -7.77% -20.67%电子元器件 0.1066 0.8369 28.58% 16
13、.64% -1.04% -6.66% -31.90%传媒 0.1043 0.5569 20.21% 20.23% 0.06% -5.88% -17.43%家电 0.1010 0.5468 23.34% 12.07% 10.03% -0.37% -29.12%建材 0.1101 0.6670 25.97% 12.88% 7.15% -7.63% -29.17%基础化工 0.1168 1.0459 26.90% 16.51% 5.12% -10.88% -32.36%纺织服装 0.1148 0.6582 20.62% 16.10% 10.38% -4.38% -27.76%汽车 0.1112 0.
14、8314 23.11% 19.04% 1.28% -4.37% -29.21%有色金属 0.1091 0.6050 24.75% 13.09% -0.75% -6.12% -26.41%石油石化 0.0993 0.4247 22.60% 15.18% 3.67% -3.65% -27.18%机械 0.1069 0.8412 26.24% 12.06% 3.70% -3.97% -32.86%交通运输 0.1170 0.7251 23.54% 12.13% 1.63% -6.04% -23.83%食品饮料 0.1082 0.6339 24.38% 13.17% 6.33% -4.32% -28.
15、61%钢铁 0.1238 0.5833 23.26% 11.98% 7.15% -1.08% -26.45%建筑 0.0994 0.5807 23.99% 11.09% 1.13% -5.58% -20.02%电力及公用事业 0.1117 0.7096 20.96% 12.06% 10.37% -7.16% -27.38%农林牧渔 0.1249 0.8021 27.05% 24.66% 1.41% -13.08% -27.97%计算机 0.0961 0.6848 26.70% 17.86% -1.39% -6.05% -32.01%电力设备 0.1137 0.8503 27.42% 15.19
16、% 3.01% -5.78% -31.47%餐饮旅游 0.0950 0.3787 18.75% 18.75% -3.66% 7.32% -14.26%煤炭 0.1012 0.4374 14.10% 10.08% 7.50% -8.07% -11.16%综合 0.0895 0.2798 11.13% 3.26% 5.48% 10.25% -20.76%国防军工 0.0977 0.3990 22.21% 10.90% 9.13% -5.25% -16.60%银行 0.0845 0.2504 13.02% 7.96% 3.73% -7.16% -11.64%非银行金融 0.1013 0.3733 1
17、4.08% 18.98% 0.29% -2.98% -20.39% 我们用机器学习得到的因子的效果: 测试区间: 2011年至 2017年 样本空间:中证全指 在所有市值分层和行业分类上均有效,且因子强度均比较高IC IR 0 1 2 3 4size_0 0.1178 0.9893 26.07% 16.13% 2.90% -2.09% -37.74%size_1 0.1268 1.1398 27.17% 18.88% 6.09% -7.06% -40.35%size_2 0.1177 1.0243 29.08% 16.17% 1.53% -6.98% -35.57%size_3 0.1126
18、1.0595 25.70% 15.53% 3.67% -4.34% -37.47%size_4 0.1045 1.0295 23.52% 15.08% 2.52% -9.69% -28.53%size_5 0.1087 1.0116 27.09% 13.16% 3.53% -7.98% -31.55%size_6 0.1043 0.9186 27.90% 10.26% 0.50% -8.71% -26.74%size_7 0.0969 0.8467 25.02% 11.46% 1.38% -8.30% -26.68%size_8 0.0918 0.7574 23.58% 12.74% 4.22% -12.14% -26.17%size_9 0.0911 0.6625 20.93% 10.70% 2.30% -6.06% -25.77%广阔天地,大有可为2018/5/2 汇添富基金 我们用机器学习得到的高频交易策略: 测试区间: 2017年 样本空间:中证全指 交易成本:单边千一 下图为费后的累计收益(简单求和)曲线,平均日收益为 0.13%非常感谢欢迎交流!