《AI算法研究系列:量化行业配置策略梯度算法-240605(15页).pdf》由会员分享,可在线阅读,更多相关《AI算法研究系列:量化行业配置策略梯度算法-240605(15页).pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、证券研究报告|金融工程专题 1/15 请务必阅读正文之后的免责条款部分 金融工程专题 报告日期:2024 年 06 月 05 日 量化行业配置:策略梯度算法量化行业配置:策略梯度算法 AI 算法研究系列算法研究系列 核心观点核心观点 本文本文利用强化学习领域中的策略梯度类算法改进量化行业配置模型,从特征提取、样利用强化学习领域中的策略梯度类算法改进量化行业配置模型,从特征提取、样本构造,和参数更新多个方面进行优化,提供一个风险收益性价比更本构造,和参数更新多个方面进行优化,提供一个风险收益性价比更优优的周频价量行的周频价量行业配置策略业配置策略。基于价值的算法实现行业轮动的得与失基于价值的算法
2、实现行业轮动的得与失 强化学习算法在因子挖掘、收益预测、投资组合构建,和交易执行等多个投资环节均有应用。在前期研究中,我们以强化学习中的时序差分算法作为切入点,对指数择时和行业配置进行了实践。在跟踪行业配置模型过程中,权益市场行情经历了较大波动,模型效果也受到了一定挑战,在年初 2 月 2 日、2 月 5 日仅 2 个交易日就出现了约 4.7%的超额回撤,之后超额恢复增长趋势,但其波动水平明显上升。这一回撤引出了策略模型亟待解决的问题如何降低风格突变对策略模型的扰动。周频调仓使信号的敏感度下降,在市场风格出现日级别单边偏移的情况下被动承受亏损;另一方面,由于我们在指数择时和行业配置中使用的奖励
3、(reward)是和未来 5 日收益率高度正相关的指标,亏损期间的负反馈将直接影响模型学习的方向,并且当市场风格恢复时,模型又需要新的时间重新调整适应。在这种情况下,强化学习框架所带来的动态适应成了双刃剑,即使得策略模型能在不同的局部最优间平滑过渡,又使得短时间的行情扰动影响策略模型所接收到的市场反馈。策略梯度类算法如何提升行业轮动策略的风险收益比:策略梯度类算法如何提升行业轮动策略的风险收益比:策略梯度类算法在决策过程中,不再对行业进行打分判断,即不再评估每个行业的配置价值,而是调整策略模型配置该行业的概率,通过一段时间行业配置的收益反馈调整行业配置的概率分布。在市场风格出现日级别单边偏移的
4、情况下,直接修改每个行业的配置价值的模型大概率会被动承受亏损;另一方面,原有配置模型中使用的奖励(reward)是和未来 5 日收益率高度正相关的指标,亏损期间的负反馈将直接影响模型学习的方向,并且当市场风格恢复时,模型又需要新的时间重新调整适应。在这种情况下,修改行业配置的概率分布,而非修改行业配置得分,能有效避免短时间的行情扰动对决策的影响。优化后的行业配置策略回测表现如何优化后的行业配置策略回测表现如何:整体上来看,补充了价量形态的视觉信息,使用任一策略梯度算法均能有效提升其组合收益。经过预训练对比,表现最优的模型为依据 SAC 算法构建的配置模型产生的行业组合,在 2021 年 6 月
5、以来(统计至 2024 年 4 月 30 日)年化超额收益在 16%以上,相较于常见宽基指数(中证 800)的超额收益或在 22%以上。策略表现相较于此前的基于价值算法构建的模型,有效降低了回撤和波动率水平。风险提示风险提示 本报告构建的策略框架中所提及的交易均指模拟交易,回测结果是基于历史数据的统计归纳,收益风险指标不代表未来,模型力求自适应跟踪市场规律和趋势,但仍存失效可能,不构成投资建议,须谨慎使用。分析师:陈奥林分析师:陈奥林 执业证书号:S1230523040002 相关报告相关报告 1 资产荒下的演绎:红利行情未结束 2024.05.26 2 政策利好提振预期,地产板块估值修复 2
6、024.05.23 3 低估值修复:由红马到地产 2024.05.19 金融工程专题 2/15 请务必阅读正文之后的免责条款部分 正正文目录文目录 1 研究背景研究背景.4 1.1 用强化学习算法实现择时策略和配置模型.4 1.2 策略梯度类算法提供优化思路.6 2 利用策略梯度类算法实现行业轮动利用策略梯度类算法实现行业轮动.7 2.1 价量数据预处理.7 2.2 价量数据的视觉信息提取.8 2.3 利用策略梯度算法训练模型.8 3 回测实验回测实验.9 3.1 回测设置.9 3.2 预训练/样本内.9 3.3 优化后的策略梯度行业配置模型.11 4 总结和展望总结和展望.12 5 风险提示