基于大数据的股票量化投资策略研究

当前位置:主页 ->论文库 ->文化论文
基于大数据的股票量化投资策略研究

2021年4月06日 13:48 作者:lunwenchina

文/韩艳培，对外经济贸易大学
文章摘要：在文章结合量化投资建模的基本方法构建了能够根据市场变化自动调整投资策略的量化平滑系数模型，并结合沪深300 指数的历史数据对投资模型进行了检验。检验结果表明该量化投资模型具有取得较高收益并避免市场波动风险的能力，能够运用于大数据股票量化投资。
关键词：股票；量化投资；量化模型
1 研究背景与研究意义
1.1 研究背景
早在 20 世纪 70 年代量化投资概念就已经出现，关于量化投资理论的研究和应用在近 50 年里取得了较大的进步，据统计，美国华尔街超过 70%的对冲基金采用量化投资策略进行投资。随着我国资本市场尤其是证券金融市场的发展和完善，我国各类投资机构结合量化投资策略进行的投资活动开始活跃起来。在我国率先使用量化投资策略进行投资的主要是结合各种 ETF 进行的套利操作，但由于当时国内投资数据较少，对信息技术的应用还不充分，因此并没有十分突出的量化投资策略出现。但随着大数据、云计算以及外国各种投资策略的引进，我国在量化投资领域的研究和应用水平正迅速提高，并在各个投资领域逐渐得到了大规模的应用。
1.2 研究意义
从国内外对量化投资研究结果和实践结果来看，使用量化投资策略的投资基金大部分都获得了较为持续稳定的回报。其中最有名的是詹姆斯·西蒙斯，其于 1989 年创立的 Medallion 量化基金几十年的收益率远远高于道琼斯工业指数。可见使用量化策略进行投资的确是一种有效的投资策略。虽然基于大数据的量化投资的研究和应用并没有太悠久的历史，但其基本的策略思路与传统的投资策略基本相同，同样需要对指数以及投资标的的相关数据进行分析。通过对个股基本面和技术面的研究，结合宏观经济形势和相关政策可以找到获得超额收益的投资途径。传统的投资分析方法主要依靠投资者的主观判断和个人经验，而量化投资则是对投资者投资理念的定性研究和分析，从而设计出一个令人满意的投资模型。量化投资的投资优势主要有以下四点。
系统性：量化投资模型设计之初就是从多层次、多角度分析各类数据得出的，通过对这些数据的分析和整合发现投资领域的套利机会，从而捕捉更多的投资机会。量化投资分析的数据不仅包括宏观经济周期数据，还包括个股基本财务数据和历史交易等数据。
纪律性：量化策略具体操作由系统自动完成，不依赖人的主观判断，因此不会因为市场大幅波动而产生情绪变化，能够克服投资中人性的贪婪和恐惧等弱点。
分散化：量化投资的另外一个特点是不把鸡蛋放在一个篮子里，其投资策略往往会选出一系列的投资组合，组合中往往有一定的对冲成分用于对冲和分析风险。量化投资追求的是在降低投资风险的同时实现稳定收益而不是简单地押注一只或几只股票。
及时性：量化投资模型有计算机执行，会根据市场行情数据计算调整投资策略，其对于市场热点变化和大资金流动十分敏感，因此可往往能够在市场波动的瞬间抓住投资机会。但由于量化投资则自身资产规模的限制，其调仓周期也可能因为规模较大而延长，虽然量化投资模型具有较大的及时性，但实际量化投资的执行依然可能滞后于市场的实际波动。
综上所述，通过研究量化投资可以让投资者在实际的股票交易中找到较为稳定的获取超额收益的投资策略。并且，对于传统投资者而言，研究量化投资策略不仅有助于其获得较高的投资收益，也更方便其理解机构的投资策略，从而为投资者的投资决策提供更好的参考。
2 量化模型建立及投资策略
2.1 动量因子
导出一个测量一段时间内隐式随机值模型动量变动，考虑单一随机过程，即：
( )
( )
tdP t
R dt dz
P t
μ σ = = +
（1）
式中，μ是收益率的平均值，P 是价格，dz 遵循 Wiener 过程，σ是收益率的波动率。令 X=lnP(t)，得出：
22212X X X
dX dP dt dt
P t P
σ
? ? ?
= + +
? ? ?
（2）
因此有
22 2
1 1
, , 0
( ) ( )
X X X
P P t P P t t
? ? ? ?
= = =
? ? ?
，
进而得出：
2 2
21 1 1
ln ( ) ( ) ( )
( ) 2 ( )
d P t dP t P t dt
P t P t
σ = ?
（3）
将式（1）带入式（3），得：
21ln ( )
2d P t dt dt μ σ σε
? ?
= ? +
? ?
? ?
（4）
式（4）离散化，得：
21ln ln
2t t v
P P v v μ σ σε
?
? ?
? = ? +
? ?
? ?
（5）
根据式（5），结合已知的数据，可得隐含随机值的求取公式：
21ln ln
2t t v
P P v
vμ σ
ε
σ
?
′
? ?
? ? ?
? ?
? ?
= （6）
然后得出看涨动量因子模型：
( ) N K δ =
（7）
( )
295 64 64
264
1ln / 95
295
t t
P P
Kμ σ
σ
?
? ?
+ ?
? ?
? ?
=（8）
2.2 多维风险因子
传统的投资风险评估方法主要基于股价出现波动变化，对流动性风险的度量以及对波动风险的度量。尽可能使投资策略在综合风险较小时盈利可能性较大时运行，从而表现出看涨或看跌的向量特征。主要考虑以下三个随机过程：
t t t
dP Pdt PdU μ σ = +
（9）
2 2 2
t t v t
d dt dQ σ σ σ σ = Ψ +
（10）
LQ
dLQ kLQdt dW σ = +
（11）
其中，Ψ为方差均值，LQ 表示流动性，σ v 是股价方差之标准差，这里把流动性定义为 V/[(H-L)×10 7 ]，其中，H 和 L 分别表示股价的最高价和最低价，V 表示个股成交量，k 表示标的个股的流动性均值，σ LQ 表示流动性标准差。dU、dQ 和 dW 均为维纳过程。
然后可以定义多维风险为
( )
2, , , P LQ t ? σ
，考虑扩散过程，有：
t t vt LQ
d dU dQ dW ? σ σ σ = + + （12）
由伊藤引理得：
( )
2222 2 2
2 2
2 2
2 4 2 2
2 2
2121 1
2 2
v LQ
v LQ
PdU dQ LQdW
P LQ
P kLQ P
t P LQ P
LQ
LQ
? ? ?
? σ σ σ σ
σ
? ? ? ? ?
μ σ σ
σ
? ?
σ σ σ
σ
? ? ?
= + + +
? ? ?
? ? ? ? ? ?
+ + Ψ + + +
?
? ? ? ? ?
?
? ? ?
+?
?
? ?
（13）
将以上等式带入，得到多维风险的偏微分方程：
( )
2 2 2
1( )
2v LQ
kt?
σ σ σ μ
?
= + + ? +Ψ +
?
（14）
进而得出式（14）的积分为：
( )
2 2 2
0 0
1( )
2t t
v LQ
dt k dt
t?
σ σ σ μ
? ? ?
= + + ? +Ψ+
? ?
?
? ?
∫ ∫
（15）
( )
2 2 2
1( )
2v LQ
t t k ? σ σ σ μ = + + ? +Ψ +
（16）
又由于 ?<0，令
*ln( ) ? ? = ?
建立看涨多维风险因子模型：
( )
*10
N ? Φ =
（17）
( ) ( )
* 2 2 2
,18 18 ,7 18 18 7
1 18
18
2v LQ
k ? σ σ σ μ = + + ? +Ψ +
（18）
N() 10 是基于 10 天滚动均值和方差的正态分布的累积分布函数，得出看跌多维风险因子模型：
( )
* **
10
1 N ? Φ = ?
（19）
( ) ( )
** 2 2 2
,29 29 ,20 29 29 20
1ln 29 29
2v LQ
k ? σ σ σ μ
? ?
= ? + + + +Ψ +
? ?
? ? （20）
2.3 方差比因子
假设股票价格波动随机，q 天内其股票收益率是单日收益率方差的 q 倍。得到改进的因子模型：
( )
( )
246
146
Var ln ln
1Var ln ln
t t q
t t
P P
q P P
?
?
?
? ?
?
? ? = ?
?
? ?
? ?
（21）
其中，q 等于 29，Var 51 为 46 日的滚动方差。并且在看跌动态模型中，?*=?。
2.4 效率因子
计算股价位移与距离的比值用于表示一定时间内股价的走势13
13
11t t
ti i
iP P
P P
η
?
?
?
=?
=?
∑
（22）
当η→1 时，表示股价趋势性较强，当η→0 时，表示股价的随机性较强。其中，看跌动态模型中的η * 为 4 日滚动计算的效率因子。
2.5 正负反馈因子
假设在模拟股票交易市场中，其价格变化特征是非线性的，由此建立一个因子模型：
)( dM t
Ndt
ω
? ?
=? ?
? ?
（23）
10
110 2
( ),6
12( ) ( 53)
( ) exp
t t t
ttt t
M t
ttP L H
VH L dM t M t
M t
dt
Vσ
==? ?
? ?
? ?
= ? ?
? ?
? ?
? ?
∑
∑
（24）
( ) 6 ( )
t t
M t P F P = ?
（25）
其中，M(t)表示 t 时刻正反馈影响，σ 2 M(t),6 表示 6 日滚动 M(t)的方差，F(P t )6 表示 6 日线性回归值。
可以得出看跌动态模型中反馈因子为：
**( ) dM t
Ndt
ω
? ?
=? ?
? ?
（26）
*10
* *
1 *
10
( ) ,5
12( ) ( 80)
( ) exp
t t t
ttt t
M t
ttP L H
VH L dM t M t
M t
dt
Vσ
==? ?
? ?
? ?
= ? ?? ?
? ?
? ?
∑
∑
（27）
( )
*81
( )
t t
M t P F P = ?
（28）
通过模型整合，得到指数平滑模型。
看涨动态模型为：
( )
1 1 t t t t
y y P y λ
? ?
= + ?
（29）
2[ ( ) ] λ η δ ω φ = Φ + +
（30）
看跌动态模型为：
( )
* * * *
1 1 t t t t
y y P y λ
? ?
= + ?
（31）
( )
2* * * * * *
λ η δ ω φ
? ?
= Φ + +
? ?
（32）
模型中，其系数λ和λ*并不符合取值范围的情况，也有可能会出现，因此，在本文中设定其指数的初始值为 0，且阈值小于等于 1，以尽可能地避免指数平滑模型失去意义。
3 数据描述
本文采用 2004.3.8-2014.7.1 间沪深 300 指数数据用于模型验证。数据来源于 wind 数据库金融终端。定义收益率为：Rt=1nPt-1nPt-1。根据 ADF 检验的结果，得出结论样本的收益率为平稳序列，其显著拒绝了被检验序列存在单位根的原假设。根据ARCH-LM 检验，可以得出这一结论，即其股票交易的收益率的波动率，呈现较为显著集聚效应。另外，为了进一步保障收益，可以对动态模型进行数据整合检测，尤其是结合历史数据检测，我们先将买卖双方的交易成本设置为 0.25%，并设置了150 个滑动点。交易遵循 T+1 规则。当买卖后出现连续信号时，只有第一信号才是买卖决策的判定依据。
以模型交易后验数据来看，可知引入上述的动态模型，能够在很大程度上提高其高盈利的成功率，同时进一步降低交易频率，并减少交易成本，从而充分保障其盈利状况。从平均收益的角度来看，该策略最大回撤相对较小，风险控制能力较好，相比于沪深 300 指数能实现较高的超额盈利。动态模型的最大持仓周期达到 99 天，表明了该模型能够实现对趋势的长期跟踪。通过比较样本期内样本的波动和买卖区间的标准差，不难发现买入区间的标准差最小，说明该模型能够较好地抵抗波动风险，模型策略性能较好。
【参考文献】
[1]屈云香,黄启.获取 alpha 收益的数量化投资组合策略研究——基于沪深 300 指数的实证研究[J].现代商业,2011(09):186-188.
[2]王力弘.浅议量化投资发展趋势及其对中国的启示[J].中国投资,2013(S2):202.
中国论文网2{&LG+{u
上一篇下一篇