有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 金融工程 | 专题报告 研究结论 ⚫ 图神经网络(GNN)近年来成为图分析的主流工具,同样也是量化领域的研究热点,这种网络结构能够整合股票间复杂的关联信息。与传统的图聚类和中心性度量等方法相比,GNN 通过节点和邻边的特征传递机制,可以更深入地挖掘和利用图结构中的数据,如供应链关系和行业分类,以增强个股预测的准确性。 ⚫ 异构图的多维度融合:本报告通过构建异构图神经网络(Heterogeneous Graph Neural Network)对股票市场进行建模,有效地融合了多种类型的节点和边。股票的量价因子作为节点特征,行业归属、基金共同持仓和分析师共同覆盖作为邻边特征,共同构成了一个多维度的异构图模型。这种融合方法不仅丰富了模型的信息维度,也提高了对未来收益率预测的准确性。 ⚫ 残差连接防止特征稀释:为了应对图神经网络中邻居特征聚合导致的中心节点特征稀释问题,本研究引入了残差连接。通过将中心节点的原始特征与聚合后的邻居特征结合,残差连接确保了中心节点的特征在传播过程中得以保留。这种设计有效地提高了模型处理大量邻居节点情况下的稳定性和性能。 ⚫ XGBoost 的两阶段训练:本研究在 GNN 的全连接层后端采用了“因子单元”模块,并结合梯度提升算法 XGBoost 进行了二次训练。通过这种两阶段训练方法,模型能够更有效地提取和利用正交的弱因子,优化了股票预测打分的准确性。相比直接预测,这种方法展现了更强的泛化能力和更优的预测结果。 ⚫ RNN 与 GNN 的融合:本报告同时考虑了循环神经网络(RNN)和图神经网络(GNN)的优势,结合了股票数据的时间维度(RNN)和空间维度(GNN)特征。通过这种融合,模型不仅能够分析股票的时序模式,还能捕捉股票间的相互关系。这种融合策略显著提高了因子的整体绩效,证明了时间和空间信息融合的有效性。 ⚫ 数据和训练:本文使用了 63 个颗粒度为日的常见量价因子作为股票的原始特征,针对GNN 模型,节点特征为量价因子的截面数据,邻边特征为同行业归属、基金共同持仓和分析师共同覆盖;针对 RNN 模型,数据格式为这些量价因子的时间序列。报告采用“5+1+1”的“训练-验证-测试”窗口,按年进行滚动训练,样本频率为月频,对后 20 日收益率(中性化)进行拟合。 ⚫ 回测结果:基于 GNN 二阶段模型的因子(月频)表现为:Rank IC 0.125,ICIR 3.19,夏普值 2.95,多头超额年化收益 21.0%。将其与 RNN 结合之后,得到的综合因子绩效均有提升:Rank IC 0.131,ICIR 3.36,夏普值 3.40,多头超额年化收益 25.4% 风险提示 量化模型失效风险、 市场极端环境冲击 报告发布日期 2024 年 01 月 02 日 杨怡玲 yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 薛耕 xuegeng@orientsec.com.cn 执业证书编号:S0860523080007 基于抗噪的 AI 量价模型改进方案:——因子选股系列之九十八 2023-12-24 DFQ-TRA:多交易模式学习因子挖掘系统:——因子选股系列之九十七 2023-11-14 基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六 2023-08-24 DFQ 强化学习因子组合挖掘系统:——因子选股系列之九十五 2023-08-17 UMR2.0——风险溢价视角下的动量反转统一框架再升级:——因子选股系列之九十四 2023-07-13 集成模型在量价特征中的应用:——因子选股系列之九十三 2023-07-01 基于异构图神经网络的股票关联因子挖掘 ——因子选股系列之九十九 金融工程 | 专题报告 —— 基于异构图神经网络的股票关联因子挖掘 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目 录 一、引言 ........................................................................................................ 5 二、图神经网络 ...........................................