基于新闻情绪的机器学习交易策略

林建浩, 张一帆, 陈良源, 邓益萌

计量经济学报 ›› 2022, Vol. 2 ›› Issue (4) : 881-908.

PDF(1555 KB)
PDF(1555 KB)
计量经济学报 ›› 2022, Vol. 2 ›› Issue (4) : 881-908. DOI: 10.12012/CJoE2021-0071
论文

基于新闻情绪的机器学习交易策略

    林建浩1(), 张一帆2,*(), 陈良源3(), 邓益萌1()
作者信息 +

News Sentiment and Machine Learning Investment Strategy

    Jianhao LIN1(), Yifan ZHANG2,*(), Liangyuan CHEN3(), Yimeng DENG1()
Author information +
文章历史 +

摘要

本文借助机器学习方法基于海量的媒体报道构造股票量化投资策略.首先通过迭代估计改进基于筛选和主题建模的文本情绪提取方法, 并通过蒙特卡罗模拟验证其在情绪提取准确度上的优势; 其次将其应用于2013-2020年间的沪深300指数成分股的超过100万篇新闻, 并构造股票投资策略. 研究结果表明:基于新闻情绪构造的交易策略在扣除交易费用后的年化收益率远超过同期市场指数收益; 在保证高时效性训练集的基础上, 迭代估计可以提高策略收益, 且这种提升在市场剧烈波动时期更为明显; 即使面对突发事件, 本文策略仍可以通过提高模型更新频率以获得可观收益. 拓展分析发现, 策略溢价是由新闻情绪的股票收益预测能力、不同资产的信息吸收速度差异所带来的.本文策略在小市值、低换手率和低Beta的股票中表现更好, 正是由于这部分股票的新闻吸收速度较慢, 为基于新闻情绪的机器学习交易策略提供了套利空间.

Abstract

This paper uses machine learning method to construct quantitative investment strategy based on news. First, we use iterative estimation to improve the SESTM (sentiment extraction via screening and topic modeling), and Monte Carlo simulation verifies its advantages in the accuracy of sentiment extraction. Second, we apply it on over 1 million news articles related to the CSI 300 index stocks from 2013 to 2020, and then construct a stock investment strategy. Our results show that, the trading strategy based on the sentiment can obtain net excess returns that is far exceeding the market return, and the iterative estimation can improve its performance with timely training set in the period with higher market volatility. Even in the face of emergencies such as COVID-19, our strategy can still obtain benefits after including more timely news. This paper demonstrates that the economic intuition behind the strategy premium is that news sentiment can predict stock returns, and that there are differences in the speed of information absorption for different assets. The strategy in this paper performs better in stocks with small market capitalization, low turnover, and low beta. It is because of the slow absorption of news in these stocks, which provides arbitrage space for our machine learning strategies based on news sentiment.

关键词

文本分析 / 机器学习 / 量化投资 / 新闻情绪

Key words

text analysis / machine learning / quantitative investment / news sentiment

引用本文

导出引用
林建浩 , 张一帆 , 陈良源 , 邓益萌. 基于新闻情绪的机器学习交易策略. 计量经济学报, 2022, 2(4): 881-908 https://doi.org/10.12012/CJoE2021-0071
Jianhao LIN , Yifan ZHANG , Liangyuan CHEN , Yimeng DENG. News Sentiment and Machine Learning Investment Strategy. China Journal of Econometrics, 2022, 2(4): 881-908 https://doi.org/10.12012/CJoE2021-0071

1 引言

信息是金融市场重要的影响因素之一, 而媒体作为信息的主要传播者在金融市场上扮演着重要的角色(Tetlock (2007)). 与发达经济体的资本市场不同, 中国股市存在着大量的散户, 这些散户的专业投资知识和分析能力相比机构投资者更弱, 媒体新闻便成为了散户主要依赖的信息来源和交易依据. 随着中国股市的规模和交易量跻身世界前列, 其在全球资本市场中扮演的角色日益重要, 探究中国媒体在市场上是否能影响资产价格, 是金融研究领域的重要议题之一. 从这个角度来看, 能否使用媒体数据构建出具有超额回报的投资策略, 是探究媒体是否在中国金融市场具有影响力的有效方式.
目前金融市场投资策略研究中, 机器学习凭借在预测领域的出色表现得到了广泛应用, 尤其是用于处理文本等非结构化数据. 随着计算机算力的提升以及机器学习算法的改进, 机器学习在投资领域的应用不再局限于以定价因子为代表的结构化数据, 以文本数据为代表的非结构化数据正受到越来越多的关注. 文本数据是分布广泛、历史悠久的信息载体, 承载了大量传统结构化数据未能表示的信息. 但是, 文本数据的提取和分析难度较大, 在较长时间未能得到充分的利用. 得益于近年来文本分析工具的快速发展以及机器学习对高维数据处理能力的增强, 基于文本数据构建投资策略的相关研究逐渐增加(Ke et al. (2019), Gu et al. (2020)). 在此背景下, 本文尝试基于新闻文本情绪构造机器学习投资策略, 并检验其在中国股票市场当中的表现.
首先, 本文通过迭代估计方式提高了Ke et al. (2019)提出的基于文本筛选和文本主题情感提取模型(sentiment extraction via screening and topic modeling, SESTM) 的情绪关键词识别能力, 该方法既保留了机器学习方法利用完整原始文本的优势, 又以直观的框架保障模型的透明度和可解释性. 具体而言, SESTM方法使用不可观测的情绪指数将新闻文本信息与股票收益相互关联, 但在模型估计时仅使用不同文章对应股票的收益率排名, 使得标杆文档和文本情绪的计算可能存在偏差. 本文将单次收益率排序替换为多次估计后的情绪指数, 保证模型在多次迭代后得出更为精确的标杆文档和情绪指数. 蒙特卡罗模拟结果表明, 迭代估计能够显著提高关键词语情绪估计的准确度, 相应提升模型正确识别文本情绪的能力.
其次, 本文收集了2013年至2020年间东方财富网股吧中关于沪深300指数成分股的100余万篇新闻, 基于SESTM方法提取文本情绪并构造每日交易策略, 验证了媒体报道在中国市场具有重要影响力. 回测结果表明, 基准策略在2015–2020年可以实现77.76而本文提出的迭代策略可将其进一步提升至79.55均远超同期沪深300指数收益. 此外, 本文发现基于新闻情绪的策略收益在2020年表现不如市场指数, 需将原始模型的标杆文档由年度更新频率调整为月度更新频率. 在以月度频率纳入新信息后, 基于新闻情绪的交易策略具有远高于同期市场表现的收益率, 且迭代策略也较基准策略有明显优势. 在考虑现实中存在的交易费用问题后, 本文迭代策略年化收益率下降至47.84年化收益率依然为同期沪深300指数收益率的7倍.
最后, 本文从市场整体情绪、因子模型对比、新闻时效性、个股异质性进行拓展讨论, 发现新闻情绪可以预测资产收益、不同资产的信息吸收速度存在差异是交易策略的收益来源, 为相关机器学习交易策略补充了经济理论支持. 1)基于个股情绪计算市场整体情绪指数, 发现市场整体情绪在样本内显著预测未来市场收益、在样本外大幅提升市场收益预测能力, 证明本文策略能有效提取影响收益率的情绪信息. 2)使用策略收益对常见的三因子或五因子定价模型回归发现模型解释力不高, 说明本文策略具有因子模型以外的溢价. 3)对比不同新闻时段的策略收益发现, 时效性更高的新闻带来的溢价更多, 说明本文策略对新闻的时效性较为敏感. 4)从市值、波动率、市净率、ROE、换手率、个股Beta六个维度讨论策略收益在不同组别股票中的表现, 发现本文策略在小市值、低换手率和低Beta的股票更容易获得高收益, 并验证了这类股票具有信息吸收速度较慢、策略套利空间较高的特征.
后文安排如下: 第二部分是文献综述; 第三部分介绍文本情绪提取方法SESTM及其改进; 第四部分为实证研究部分, 介绍本文的数据、模型训练方法、交易策略; 第五部分报告策略收益的基准结果; 第六部分围绕策略溢价的经济含义从市场整体情绪、因子模型、新闻时效性与股票特征等几个角度展开拓展讨论; 最后是结论和后续研究展望.

2 文献综述

本文主要与三类文献紧密相关, 分别是文本分析与实证金融研究、媒体情绪与资产定价研究、机器学习与投资策略研究. 本文研究关注三类文献的交叉融合, 以文本分析方法提取媒体情绪并将其应用在投资策略构建中, 对不同领域的文献做出边际贡献.

2.1 实证金融研究中的文本分析方法

作为广泛应用的非结构化数据代表, 文本大数据为金融学研究提供了新的研究视角和数据支持(Loughran and McDonald (2016), Gentzkow et al. (2019), 沈艳等(2019), Loughran and McDonald (2020)). 在金融学研究中, 文本数据主要应用在关注度、情绪、隐含波动率、意见分歧等研究中, 这也对文本数据的处理方法提出了不同的要求.
从研究方法的发展脉络来看, 文本分析可以划分为三个阶段: 人工赋值法、词典法、机器学习方法. 首先, 人工赋值法是指研究者根据提取指标的需要进行人工标记, 例如提取文本当中的情绪或态度(Rosa and Verga (2007)). Rosa (2011)使用人工赋值法对FOMC的公告进行情感判断, 考察央行沟通是否影响金融市场的资产价格. 尽管后续研究将人工赋值法细化为类别判断和情绪判断等多维度标注(Berger et al. (2011)), 但是这种方法具有严重且难以规避的主观误差, 结果可复制性较差.
其次, 针对人工赋值法的缺陷, 词典法逐渐成为当前研究的基准选择. 词典法包含通用词典法和专用词典, 其中通用词典法是指计算文本中正向和负向情绪的单词个数, 得到文本情绪指数(Tetlock (2007), Tetlock et al. (2008), Zhang et al. (2016)). 由于通用词典容易忽略金融领域的部分特定表达, Loughran and McDonald (2011)开发出了针对金融研究的LM金融词典, 为大量文本分析提供支持, 姜富伟等(2021)在此基础上开发了中文金融情感词典. 与特定词典类似, Picault and Renault (2017)提出有监督的词典生成方法, 可以方便快捷地构造细分领域的专用词典(林建浩等(2019)). 词典法的另一种表现形式是关键词列表, 例如Baker et al. (2016)通过计算新闻文本中"不确定性"等词汇的频率构造了经济政策不确定性(economic policy uncertainty)指数, 成为文本分析实证应用的重要标杆.
最后, 随着机器学习算法和自然语言处理方法(natural language processing)的快速发展, 以LSA (latent semantic analysis, 潜在语义分析模型)和LDA (latent dirichlet allocation, 概率主题模型)为代表的机器学习方法也逐渐推广开. LSA方法构造信息矩阵, 通过奇异值分解降维并重新构建潜在语义空间, 从而得到相应短语、主题和短语、主题和文档之间的计算关系, 最终得到量化指标. LDA通过聚类的思想提取出文本核心主题和关键用词, 得到文本-主题概率分布- 词语概率分布的数据结构(Blei et al. (2003)). 机器学习方法的应用广泛, 例如Larsen and Thorsrud (2019)使用LDA提取新闻中的主题分布, 发现新闻可以驱动资产价格甚至商业周期; Hansen and McMahon (2016)使用LDA分析FOMC的沟通内容, 并针对每一个主题计算情感指数, 构建央行沟通的量化指标. 除了以上两种方法, 神经网络(neural network)或者新兴的深度学习也在文本分析中逐渐推广, 但在金融研究中应用较少. 相比词典法, 机器学习方法试图从文本数据中提取更丰富的文本信息, 但也容易面临模型可解释度差的问题, 使用复杂方法需要保证这些方法的透明性和可复制性(Loughran and McDonald (2016)).

2.2 媒体情绪与资产定价

在金融市场中, 媒体是金融市场中最为重要的信息中介部门之一, 在信息传播、情绪传染等过程中具有较为重要的作用(Marty et al. (2019)). 对金融资产而言, 媒体关注是一种稀缺资源, 已有研究采用投资者使用网络搜索引擎统计对某家上市公司的搜索次数、网络论坛中某个股票的发帖数量、媒体对某家上市公司的报道次数等文本数据, 直接地刻画了媒体关注度(Antweiler and Frank (2004), Hillert et al. (2014), Ben-Rephael et al. (2017)). 这些研究留意到媒体文本为刻画媒体关注度提供了便利, 但是其对文本信息的利用程度远远不足. 在媒体关注会影响资产价格、交易量的基础上(Barber and Odean (2008), Engelberg and Parsons (2011)), 研究者更多地聚焦媒体情绪.
已有研究验证了媒体情绪是金融资产价格的重要影响因素, 并关注到情绪影响在繁荣期和衰退期的非对称性、正负词语影响的非对称性等. Tetlock (2007)基于《华尔街日报》文本, 发现消极词语频率增加时股市收益率下降且交易量上升. Tetlock et al. (2008)则同时使用了《华尔街日报》和道琼斯新闻社中与标普500公司相关的约35万条新闻数据, 验证了消极报道越多的公司下个交易日收益率和下个季度公司盈利均更低. Zhang et al. (2016)则指出正面和负面词比重对股票市收益率、波动率、交易量的影响存在非对称性, 需要分别考虑两者的异质性影响. 除了报纸、电视等传统媒体, 部分研究关注到社交媒体对金融市场的影响. Jiao et al. (2020)发现传统媒体报道可以预测股价波动率和换手率的下降, 而社交媒体则可以预测股价波动率和换手率的上涨, 这验证了"回声室效应" (echo chamber)的存在, 即投资者将重复的信息作为真实信息. 中文研究中, 姜富伟等(2021)发现媒体文本情绪可以提高股票回报的样本外预测能力, 表明媒体情绪同样是中国股票市场的重要影响因素.

2.3 机器学习与量化投资

作为人工智能的代表性技术, 机器学习和深度学习在近年得到快速发展, 由于其在预测问题上的天然优势, 被广泛应用在股价预测和量化投资中(李斌等(2019), Gu et al. (2020)). 金融市场的定价因素众多, 大量资产定价研究试图寻找解释超额收益的定价因子, 逐渐演变成争议不断的因子动物园Factor Zoo1(Feng et al. (2020), Hou et al. (2020)). 不少研究批评已有的定价因子相似度过高且未考察因子之间的相互作用, 针对这一问题, 机器学习和深度学习算法提出了不同的思路. 机器学习(尤其是神经网络或深度神经网络)采用高度非线性模型逼近真实数据中蕴含的非线性特征(Goodfellow et al. (2016)), 通过参数正则化和模型选择避免了潜在的过拟合问题, 针对股票收益预测问题直接得到表现优异的预测结果. 相比传统量化投资中的因子投资策略, 机器学习避免了因子筛选和检验的复杂过程, 直接将潜在的影响因素和股票收益关联起来.
1John Cochrane在2011年的AFA会议主席演讲中提出针对新的因子动物园, 需要寻找不一样的研究方法( in the zoo of new variables we will have to use different methods).
目前将机器学习应用于资产定价、量化投资领域的主流研究大多是对传统因子定价模型的拓展. 尽管机器学习方法的非线性模型可以摆脱传统投资组合排序构建因子、横截面回归等线性模型(Fama and French (2008), Lewellen (2015)), 但预测变量的选择很大程度上还是依赖于已有经济理论提出的公司特征或者定价因子. Light et al. (2017)使用偏最小二乘(partial least squares)回归分析了26个公司特征对股票价格的预测能力; Kelly et al. (2019)提出一种工具变量主成分分析(instrumented principal component analysis), 可以有效提取大量因子中的共同成分, 并发现这些少量成分就可以有效预测股票的截面定价差异; Chinco et al. (2019)使用LASSO将所有其他股票作为潜在影响因子放入股价预测回归中, 分析股票价格之间的相互影响; Gu et al. (2020)整理了机器学习中常见的惩罚回归、主成分回归、偏最小二乘回归、回归树、随机森林、神经网络等多种算法, 并基于94个潜在定价因素, 比较这些方法在资产价格预测中的表现. 相比传统的线性回归, 机器学习方法预测效果更好, 但其计算成本较高和模型可解释度差的问题仍有待解决.
前沿研究已经意识到机器学习对量化投资的重要价值, 部分文献也开始尝试利用机器学习考察更多的股价预测变量. Manela and Moreira (2017)使用华尔街日报的头版新闻构建了基于新闻的恐慌指数(news implied volatility, NVIX); Ke et al. (2019)使用道琼斯新闻社数据库中的公司新闻, 构建SESTM模型实现基于新闻文本的投资策略; Jiang et al. (2020)尝试使用CNN学习股票价格的变动图像, 并预判股票收益变动; Mayew et al. (2020)使用上市公司的分析师电话会议的语调和时长, 有助于判断未来股价. 中国市场研究中, 马甜等(2022)使用生成式对抗网络方法分析了不同类型因子在中国股市的重要性, 并探索了金融深度学习预测的经济理论机制解释. 这些研究表明, 机器学习的发展不仅为已有研究提供了新方法, 也为文本数据、图像数据、音频数据等非结构化数据提供了发挥空间.

3 文本情绪提取模型

本文总体研究框架如图 1所示. 本文的核心是基于新闻文本情绪构建机器学习交易策略, 并检验该策略在中国股票市场的表现以及探究背后可能的经济理论解释. 本文使用的文本情绪提取模型来源于Ke et al. (2019)提出的SESTM (sentiment extraction via screening and topic modeling)方法, 该方法的思想是利用不可观测的情绪将新闻和对应股票的收益率关联起来, 寻找出对股票收益率具有影响力的词语(情感倾向词). 当给定一篇新文章时, 利用新文章的词频向量和情感倾向词向量的相似程度进行评分, 并基于此预测未来收益率. 本章将首先阐述该文本情绪提取模型的基本设定以及具体实现步骤, 然后讨论本文提出的改进思路并通过蒙特卡罗模拟进行验证.
图1 总体研究框架

Full size|PPT slide

3.1 模型基本假定

考虑一个新闻数量为篇的文档集, 其中共包含m个不同的词语, 由此可以构建一个m×n维的词频矩阵D, 其中Dj,i表示第i篇文章中第j个词出现的次数, di表示第篇文章的词频向量.
假设1   每篇新闻文档有一个情绪指数pi[0,1], 其中, pi=1表示文档的正向情绪达到最大, pi=0表示文档的负向情绪达到最大.
需要说明的是, 此处的情绪并非传统意义上的喜怒哀乐等情绪, 而是与股票收益率相关的情绪, 比如利好信息、利空信息以及对该股票未来走势的看法等. 情绪指数pi只取决于文章的词频分布di, 并不考虑词语的前后关系和上下文关系, 由此得到的情绪指数所涵盖的信息可能有所缺失, 但基于词频向量进行文本分析大大简化了对于非结构化文本数据的处理难度, 并且本文的实证结果表明该情绪指数能为构建交易策略提供足够有效的信息.
假设2   上述的情绪指数pi涵盖了一篇文章的词频向量di对收益率yi的所有解释信息, 即在给定pi时, diyi相互独立, diyi|pi.
假设2在假设1的基础上明确了pi是连接新闻词频分布和股票收益率的唯一桥梁, 词频向量di中与收益率有关的所有信息均被pi表示, 该假定提升了处理高维稀疏文本数据的便利性.
假设3   假定第i篇文章对应股票在文章发布后一交易日的收益率yi>0 (正收益)的概率是情绪指数pi的单调递增函数, 即P(yi>0)=g(pi), 其中g(pi)是一个关于pi的单调递增函数.
假设3的经济直觉是, 情绪指数pi越高的文档会传递出更多的积极信息, 其所对应的上市公司股票取得正收益的概率就会越大, 因此函数g(pi)应当关于pi单调递增. 该假设并没有要求收益率本身或收益率的绝对值与pi有直接联系, 仅对收益率为正的概率和pi的关系做出了约束.
假设4    新闻文本中包含的全部m个词语可分为以下两个子集: {1,2,,m}=SN, 其中{1,2,,m}表示m个词语的标号, 集合S表示带有情感倾向的词语的标号, 即对股票收益率有解释力的词语, 集合N表示中性词语的标号, 即对股票收益率没有解释力的词语.
本文在模型构建和预测收益率时仅使用集合S中的词语, 假设4是为了排除噪音的干扰, 提高模型的计算效率和预测精度. 高维是文本数据的重要特点, 在本文的实证研究中, 训练集文本的词语总数可达数万甚至十万, 其中大量词语对于股票收益率并无影响, 若把全部词语加入模型计算, 一方面会导致模型求解十分困难, 另一方面大量噪声的引入会导致模型预测精度的降低, 因此对情感词语的筛选是必要的.
假设5   在任意一篇文章中, 情感倾向词的词频分布和中性词的词频分布是相互独立的, 即di,[S]di,[N]相互独立;
假设6   一篇新闻中, 情感倾向词的词数分布di,[S]由如下的多项式分布产生:
di,[S]Multinomial(si,piO++(1pi)O),
(1)
其中, si表示第i篇新闻情感倾向词的词频之和, 其决定了多项式分布的规模大小; O+是表示正向标杆文章中(指情感达到正向极大值的文章, 即pi=1, 文章发布后对应股票出现上涨的概率达最大值)情感倾向词的期望词频分布向量, O是负向标杆文章中(指情感达到负向极大值的文章, 即pi=0, 文章发布后对应股票出现下跌的概率达最大值)情感倾向词的期望词频分布向量, O+O均经过单位化处理; 当0<pi<1时, 文档的词频分布向量的期望值为O+O的线性组合, 且权重分别为pi1pi, 即piO++(1pi)O. 在该假定下, pi越接近1, 文章的词频向量将与O+越相似, 反之, pi越接近0, 文章的词频向量将与O越相似, O+O的估计值均通过模型训练得到.
图 2总结了上述六个假设, 也即SESTM方法从文本中提取情绪的整体框架: 通过不可观测的情绪指数pi建立起文章与对应股票收益率的联系. 具体而言, 该方法将新闻文本信息提取为词频向量并区分情感词和中性词, 凭借情感词的词频分布识别出文章的情绪指数pi. 实现该方法的核心在于如何准确地估计出不可观测的情绪指数以及正(负)向的标杆文章, 下文将具体阐述该方法的具体估计步骤以及改进空间.
图2 SESTM模型框架(Ke et al. (2019))

Full size|PPT slide

3.2 SESTM方法的实现步骤

基于以上假定, 利用SESTM方法估计一篇新闻的情绪可通过筛选情感倾向词S、估计标杆文章词频向量O+O、评价新文章三个步骤实现.

3.2.1 筛选情感词

一篇新闻中往往包含着数百甚至上千个词语, 但其中大量的词语对于预测收益率并无作用, 即前文所述的中性词. 因此, 对词语进行筛选是SESTM方法的第一步. SESTM方法从两个维度进行词语筛选, 一是词语倾向, 二是词语出现的频率. 词语倾向通过如下指标刻画:
fj=i1{Dj,i>0}×1{yi>0}i1{Dj,i>0},
(2)
其中1{Dj,i>0}表示文章i是否包含词语j, 1{yi>0}表示文章i对应收益率是否为正. 显然, fj越大意味着该词语越倾向于在对应收益率为正的新闻中出现, 即该词语具有更强的正面倾向; 相反, fj越小意味着该词语具有更强的负面倾向. 为fj设定阈值即可筛选出具有足够情感倾向的词语. 此外, 新闻中还会出现专有名词, 如地名、人名等, 因这些词汇仅出现在特定文章中, 可能产生较为极端的fj值, 但实际预测能力有限, 因此还需对词语出现的频率加以限制. 综上, SESTM给出的筛选后情感词集合如下:
S^={j:fjπ+α+orfjπα}{j:kjκ},
(3)
其中π表示fj的期望值, α+α分别表示fj的正负向阈值, kj表示第j个词在所有文章中的总词频, κ为针对总词频的阈值. 在实际操作中, 本文不直接设定α+α, 而是通过设定正向词和负向词数量; 同样地, 本文并不直接设定κ, 而是设定词频百分位数确定κ. 至此, 我们可以筛选出与收益率关联程度较高、且出现频率也较高的词语作为情感词.

3.2.2 估计标杆文章词频向量

根据假设6, 即情感倾向词的词数分布di,[S]服从多项式分布, 可知:
Ed~i,[S]=Edi,[S]si=piO++(1pi)O,
(4)
其中, di,[S]是情感倾向词的词频向量, 是词频向量di的子集, si是第j篇文档情感倾向词的词数加总. 将上式表述为矩阵形式:
ED~|S|×n=O|S|×2W2×n,W=[p1pn1p11pn],D~=[d~1,d~2,,d~n],
(5)
其中, D~包含了各文档的词频分布信息, O=[O+,O]包含了正向和负向标杆文章的词频分布信息, W包含了各文章的情绪指数信息. 为估计标杆文章的词频分布O, 需要确定D~W的值. 在阈值组合(α+,α,κ)给定的情况下, 情感倾向词语集S就已经被确定为S^, 进而确定矩阵D^. 但各文档的情绪指数并不能直接观测得到, 为确定情绪指数矩阵W, 本文将文档对应股票的收益率由小至大进行排序, 并根据这些排序, 将0到1之间的情绪指数分配给对应的文档:
p^i=yin个收益中的排序n.
(6)
注意此处的yi为对应股票在新闻发布前后三个交易日的收益率, 即股票的涨跌与个股信息密切相关, 在股票大涨(收益率排位靠后)或大跌(收益率排位靠前)前后发布的新闻有较大概率包含利好或利空信息, 因此具有较大或较小的情绪指数. 该处理方式是对pi的简化估计, 但符合经济直觉以及本文的假设. 此时D^W^均已知, 则可以通过D^W^的线性回归得到O的OLS估计量O^:
O^=D^W^(W^W^)1,W^=[p^1p^2p^n1p^11p^21p^n].
(7)

3.2.3 评价新文章

di,[S]为一篇新文章的情绪倾向词的词频向量, 根据假设6, 在给定S^O^的条件下, 本文可以通过如下最大似然估计得到该文章的情感指数:
p~i=argmaxpi[0,1]{s^1j=1s^djlog(piO^+,j+(1pi)O^,j)+λlog(pi(1pi))},
(8)
其中λ>0, λlog(pi(1pi))为惩罚项, 目的在于解决收益预测中的低信噪比问题, 其使得文章情绪有向中性靠拢的趋势, 靠拢的强度取决于λ的大小. 综上, SESTM方法首先根据词语的倾向和出现频率筛选出情感词语集S^, 之后根据训练样本中情感词语的分布以及由收益率排序得到的情绪指数估计出标杆文章的词频分布O+O, 基于O+O通过最大似然估计给出对新文章情绪指数的估计.

3.3 方法改进与蒙特卡罗模拟

Ke et al. (2019)采用了收益率排序得到的p^i作为初始值对O进行估计, 但排序得到的p^i与真实的pi之间仍存在差异, 可能降低第二步估计O^的准确性, 进而影响第三步对新文章评分的准确性. 上述问题具体表现在, 模拟结果中对情感词语调(T=12(O+O))的估计准确度不佳, SESTM估计得到的情感词语调更趋中性. 尽管T^在模型估计时并不会被直接使用, 但更加准确的T^意味着更加准确的O^, 进而实现对新文章更加准确的评分. 因此, 本文提出迭代估计的改进方式, 进一步提高情绪提取的准确度.
具体而言, 本文首先参照SESTM方法利用训练集文本估计得到的O^(1), 之后基于该初始估计对每一篇训练集文章给定评分p~i(1), 所有训练集文章的评分构成向量p~(1). 之后将p~(1)替换通过收益率排序得到的p^, 进而实现第二次估计, 记为O^(2), 再次对每一篇训练集文章评分得到向量p~(2), 然后比较p~(1)p~(2)的差异. 对上述过程进行迭代, 直至第l次迭代结果p~(l)与上一次迭代结果p~(l1)的差异足够小时停止. 在模拟中, 本文将p~(l)p~(l1)的差异定义为: diff=1ni=1n|p~i(l)p~i(l1)|迭代停止的阈值设置为0.01. 该方法在训练集内多次迭代估计p~直至收敛, 由此得到的p~与真实的文本情绪更加接近, 而对应的词典O^自然也更加准确, 因此能提升对情感词语调的估计准确度.
为验证本文改进方法的有效性, 本文参照Ke et al. (2019)进行了蒙特卡罗模拟, 具体设定如下:
第一, 词频矩阵的生成. 在模拟词频矩阵的生成中, 情感词的词频向量通过如下多项式分布生成:
di,[S] Multinomial(si,piO++(1pi)O),
(9)
其中, O+,j=2|S|(1j|S|)2+23|S|×1{j<|S|2}, O,j=2|S|(j|S|)2+23|S|×1{j|S|2}, j为词语标号, |S|为所有文章中情感词的数量, piUnif(0,1), siUnif(0,2s¯), s¯为一篇文章中所有情感词词频之和的期望值. 在该设定之下, 标号前|S|的词语为情感词, 其中标号为前|S|2的词语是正向词, 后|S|2的词语是负向词, 且标号越靠近|S|2的情感词在O+O中的差异越小, 即情感倾向越不明显. 中性词的词频向量通过如下多项式分布生成:
di,[N] Multinomial(ni,Ω),
(10)
其中, niUnif(0,2n¯), n¯为一篇文章中所有中性词词频之和的期望值, Ω中的元素Ωj1n|S| Unif(0,2), 并进行单位化使得jΩj=1. 以上假定均与Ke et al. (2019)一致.
第二, 收益率生成. 收益率的符号由概率为pi二项分布生成, 相当于P(sgn(yi)=1)=pi, 该假设与Ke et al. (2019)通过逻辑回归生成符号的方式不同, 但在模拟生成时更为简便, 且并不违背假设3. 收益率的绝对值大小由自由度为4的t分布生成, 与Ke et al. (2019)一致.
第三, 其他模型参数. 与Ke et al. (2019)一致, 本文设定总词语数m=500, 情感词语总数|S|=100, 单篇文章中情感词词频之和的期望值s¯=10, 单篇文章中中性词词频之和的期望值n¯=100. 本文将单次模拟生成的文章数改为1000篇, 模拟次数为100次.
图 3报告了原始模型和改进模型对情感词语调的估计结果, 其中纵轴为情感词语调(T=12(O+O)), 深色实线表示词语的真实语调, 浅色实线为模型估计得到的词语语调. 图 3左为原始模型的估计结果, 情感词语调估计结果的绝对值显著低于真实值, 意味着原始模型对词语情绪的还原不够充分, 估计结果更趋中性; 图 3右为改进模型的估计结果, 显然, 改进后的估计值与真实值更为贴近, 对情绪的还原更为准确, 并且在正负向词语分界点处显现出了更大的差异, 有助于对正负面文章做出更加明确的区分.
图3 原始模型(左)与改进模型(右)估计词语情绪的准确度
注: 图中横轴为词语序号, 由于在蒙特卡罗模拟中的设定, 序号0~49的词语为正向词, 序号50~99的词语为负向词, 且0~99号词语语调递减; 纵轴为情感词语调T, 越大代表对应词语的情感越正向; 图中实线T表示词语的真实语调, 虚线T_hat为模型估计得到的词语语调.

Full size|PPT slide

本文还尝试了将收益率绝对值融入fjp^i等改进方法, 通过利用更多信息来提升模型的预测能力, 但模拟结果与基准模型并无明显差异.

4 数据与研究设计

4.1 文本数据收集

本文爬取了东方财富旗下股票社区股吧中关于沪深300指数成分股截止2020年12月的全部新闻资讯(包括所属个股代码、新闻标题、正文、发布时间、浏览量、评论数), 共1, 219, 757篇. 东方财富股吧是国内最为活跃的股票投资论坛之一, 该论坛为所有在A股流通的股票设立了独立的个股股吧, 其中不仅包含投资者对个股的观点和看法, 还有上市公司公告、财经媒体新闻以及专业机构的研究报告. 除了官方资讯账号, 股吧也可以提供其他的文本数据, 但均存在各自的缺陷. 投资者的评论质量参差不齐, 且部分观点可能较为偏激, 并不适合作为本文的研究对象; 公司公告多为依照模板撰写的文件, 通常不会带有明显的情绪; 专业机构的研究报告质量较高, 但股吧收录的时效性较低. 因此, 本文聚焦新闻资讯, 也即以个股官方资讯账号2为新闻来源, 避免重复新闻降低模型的预测效率.
2股吧为每个个股设立一个官方资讯账号, 其中的消息均为个股新闻, 且覆盖较为全面、更新较为及时.
本文收集的120余万篇新闻中, 时间最早的为1992年, 但2013年以前的新闻数量均不超过1万条, 且多为公司公告转载, 不足以完成对文本情绪提取模型的训练. 样本期内, 绝大部分新闻都出现在2013年以后, 且呈现逐年递增的趋势(图 4). 因此, 本文选取2013–2020年为样本期, 最终样本包含1,175,398篇新闻.
图4 2013–2020年各年度新闻数量

Full size|PPT slide

本文关注的沪深300指数成分股, 集合了沪深两市市值最大、流动性最好的300只股票. 沪深300指数反映了A股市场上流动性强和规模大的代表性股票的股价的综合变动, 是A股市场上最具代表性的指数之一, 也是众多基金业绩的对比标杆. 同时, 沪深300指数的成分股所属行业广泛, 且多为细分行业龙头, 均具有较高的市场关注度, 相关新闻也较多, 为本文研究提供了较多的文本数据支撑. 本文使用的市场数据, 包括个股收益率、开盘价、交易日期、个股市值等均来自国泰安数据库.
在文本数据和收益数据的基础上, 本文进行了适当的数据预处理. 首先, 本文对样本期内的新闻进行筛选, 剔除了部分无效新闻. 在本文获取的新闻中, 存在着大量自动生成的格式化新闻, 如个股融资融券信息, 该类信息在每个交易日结束后均会自动发布, 且文本内容一致, 仅有数据不同, 不符合本文策略的文本数据要求. 本文也剔除了个股官方资讯号转载的公司公告, 该处理原因有二: 一是本文研究的核心是基于新闻文本分析的策略构建, 因此文本来源应该聚焦于媒体新闻; 二是官方资讯号转载的公告并不完整, 通常只包含前几页内容, 多为目录、释义等内容, 分析意义不大. 其次, 对于筛选后的新闻文本, 本文使用jieba工具对文本进行分词, 考虑到文本的属性, 本文在分词时将搜狗财经金融词典和A股上市公司简称添加到自定义词典中, 以提高分词结果的准确性. 在剔除非中文字符以及停用词后, 本文将所有新闻文本转化为词频矩阵以便后续分析.

4.2 文本模型训练

为保证训练结果的时效性, 本文选择了滚动时间窗口的训练方式, 得到标杆文章的词频向量(O+O). 本文设定训练窗口为1年, 其中前9个月用于模型训练, 后3个月的新闻用于交叉验证确定最优参数组合3. 例如, 本文以2014年1月至2014年9月为训练集, 使用多个参数组合训练得到的多组O+O, 利用2014年10月至12月的验证集选出表现最佳的O+O组合, 用于2015年新闻的情绪提取与策略构造.
3本文也尝试了2年的训练窗口(前1.5年用于模型训练, 后0.5年用于交叉验证), 对比发现1年训练窗口策略收益远高于2年训练窗口策略, 具体见实证结果的策略收益讨论. 为确保1年期与2年期策略可比, 本文策略收益回测时间均为2015年至2020年.
在训练过程中, 除了新闻文本构成的词频矩阵, 还需要得到每条新闻对应的收益率. 由于新闻中包含的信息可能已在之前的股价中反映, 也可能将在未来的股价中体现, 若收益率匹配不当将导致训练得到的词典失真, 影响提取新文本情绪的能力. 本文将新闻发布前一天至后一天的三日收益率作为该新闻对应的收益率, 图 5描述了该匹配关系. 具体而言, 将T1日收盘至T日收盘间发布的新闻定义为T日的新闻, 对应的收益率为(1+rt1)(1+rt)(1+rt+1), 其中rt表示T日收盘较T1日收盘的收益率.
图5 收益率匹配示意图

Full size|PPT slide

参考Ke et al. (2019)的设定, 本文在筛选情感词步骤中, 将正向词语数和负向词语数设定为25个、50个、100个三种情况, 将总词频阈值κ 设定为词语词频分布中86%、 88%、 90%、92%、94%五个分位点, 两个参数合计构成15种参数组合. 以词语数为100、 90%分位点的参数组合为例, 模型只保留出现次数排名前10%的词语中fj最大和最小的100个词语, 共计200个情感词. 在每次模型训练中, 本文在15组参数组合下估计得到15组O+O, 运用下文的交易策略测试它们在验证集内的收益情况, 最终选择收益最高的一组O+O用于后续一年的新闻情绪提取. 本文重点关注情感词的筛选参数, 在正文中参数λ选定为1, 稳健性讨论中发现λ的变化对模型预测结果的影响并不大4.
4λ是在评估文章情感指数时控制惩罚项的系数, 该系数决定了情绪评分偏离中性的惩罚强度. Ke et al. (2019)使用交叉验证的方式选择最优的λ (待选值包括1, 5, 10). 本文发现, 在其他参数给定时, λ分别取0.5、1、5、10时的基准策略平均年化收益率变动不超过3说明该参数对策略收益影响非常微弱. 若在交叉验证中增加考虑不同取值的λ, 模型待选参数组合和训练时间将成倍增加, 考虑到该参数对收益率的影响较低, 故本文不将该参数作为待选参数之一.

4.3 构建交易策略

基于训练得到的O+O, 本文通过带惩罚项的最大似然估计对未来一年的新闻估计情绪指数, 并将情绪指数与对应的股票匹配. 本文利用t1日9点至t日9点的新闻构建了一个日度交易策略, 将样本池内的股票按当日情绪指数进行排序, 买入情绪指数最高的10只股票. A股市场做空机制不完善, 构建空头策略在实际中不具可行性, 因此本文仅讨论多头策略. 若同一交易日某只股票有多篇新闻报道, 则将各篇新闻情绪指数的平均值作为该股票的情绪指数. 对于不包含情感词的新闻, 本文将其评分设定为0.5, 即该篇新闻无情感倾向. 相应地, 本文限定对于买入股票的情绪指数必须大于0.5, 若情绪指数大于0.5的股票不足10只, 则全部买入.
该交易策略实施的时间点为每个交易日开盘(上午9:30), 所有持仓在下一交易日开盘时清空. 日度新闻的截止时间为上午9:00, 目的在于留出9:009:30之间的30分钟用于文本分析和策略构建, 以保证该交易策略在现实中的可行性. 此外, 考虑到股票池大小仅为300只, 本文设定了每日股票交易只数的上限为10只.
此外, 本文考虑到新闻的时效性问题, 限制了新闻与下一最近交易日之间的时间间隔, 若新闻发布时间距离下一最近交易日超过3天, 本文将在策略构建时剔除该新闻. 该设定主要用于剔除部分股票长期停牌期间的新闻, 最具代表性的例子为"宝万之争". 万科在"宝万之争"期间停牌长达近8个月, 其间各财经媒体对该事件进行了大量的报道, 将停牌期间的全部新闻用于复盘首日的策略构建显然是不合理的. 本文将时间间隔上限设定为3天, 既剔除了过时信息的干扰, 也可以保留周末发布的新闻. 为区分基于SESTM基准模型和迭代模型构建的交易策略, 后文统一将前者称为基准策略, 将后者称为迭代策略.

5 基于新闻情绪的策略溢价

5.1 分词与情感词筛选

文本分词与情感词筛选是构造策略的数据基础, 图 6展示了最新的用于构造2020年投资策略的标杆文章的词频分布(O+O), 也即使用2019年作为训练文本的结果, 词云图中字体越大代表该词语在该词典中的权重越大. 在正向标杆文章的词云图中, 频繁出现涨停、涨幅偏离值、涨逾等关于股价上涨的词语; 而在负向标杆文章的词云图中, 除了跌幅、跌停、加速下跌等直接反映股价下跌的负面词汇外, 还包含有关于黑天鹅等其他维度的负面词汇. 可以发现, 当近期媒体报道中出现明显的股票上涨报道时, 股票更倾向于获得高收益, 相反, 具有股票下跌报道的股票往往表现更差.
图6 正负向标杆文章词频分布的例子
正向(O+)负向(O-)

Full size|PPT slide

5.2 计算策略收益

按照前文交易策略, 本文将筛选出的股票按等权重方式组合进行回测5, 具体结果见表 1. 首先, 在保证新信息比重较高的训练样本中, 迭代策略可以有效提高收益率. 本文最开始尝试2年训练窗口设定下估计SESTM基准策略和迭代策略, 迭代策略反而降低了策略收益. 本文认为这是因为过长的训练窗口和交叉验证期设定, 使得迭代策略更多刻画了过时信息特征, 无法体现迭代策略的优势. 为此, 本文将训练窗口调整为1年, 为确保1年期与2年期策略可比, 本文策略收益回测时间均为2015年至2020年. 本文发现, 1年期策略较2年训练窗口下有了明显提升, 平均年化收益率较2年期策略提升超过20在1年训练窗口下, 迭代策略的表现超过了基准策略, 这说明迭代策略的优势需要在时效性较好的训练集下才得以体现, 下文分析均以1年期训练窗口为准.
5本文也尝试采用市值加权构造投资组合, 发现市值加权策略收益仅有平均加权策略收益的60说明大市值与小市值股票的策略收益存在明显差异. 本文将在第六章详细讨论不同市值股票的策略收益差异, 故此处不再展开讨论市值加权的策略收益.
表1 不同策略收益概况对比
累计收益 平均年化收益 曰标准差 年化标准差 夏普比率
1 年训练窗口
基准策略 3055.07% 77.76% 2.61% 40.80% 1.83
迭代策略 3250.65% 79.55% 2.61% 40.79% 1.87
2 年训练窗口
基准策略 1151.94% 52.38% 2.90% 45.30% 1.08
迭代策略 1128.00% 51.89% 2.91% 45.42% 1.07
沪深 300 47.47% 6.69% 1.53% 23.84% 0.14
注: 表格报告了不同训练窗口与模型估计方法的四类策略、沪深300指数在累计收益、平均年化收益、日标准差、年化标准差以及夏普比率五个指标的对比结果, 预测区间均为2015年至2020年. 计算夏普比率时使用的无风险收益率为2015年至2020年10年期国债活跃券到期收益率的日度均值(3.2592%).
其次, 表 2的分年度统计发现, 迭代策略提升收益率主要集中在市场信息发生剧烈变化的时期. 可以看出2015年和2020年中迭代策略较基准策略的提升较为明显, 尤其是2015年将基准策略的收益率由232.63 2015年股市发生了自2008年金融危机以来最大的波动, 沪深300指数由年初的3566点最高涨到年中的5380点, 在股灾发生后迅速跌到2952的历史低值. 2015年最为明显的特征就是股票市场异常波动引发的金融风险上升(李志生等(2019), 唐文进和苏帆(2017)), 这段时间内资产价格更容易受到市场情绪的影响, 资产价格未能及时吸收所有的信息. 迭代策略的优势在于对情绪的判断更加准确, 在信息变动较小的时期迭代次数不多, 难以显现出和基准策略的差异, 而在市场信息和情绪快速、剧烈变化的时期, 迭代策略更容易凸显其情绪判断的优势以及提高实际收益率. 因此, 在2015年市场剧烈波动的背景下, 基于新闻情绪的交易策略具有更多的套利空间, 迭代策略相较于基准策略的收益率提升幅度也最为明显.
表2 分年度策略收益概况对比
2015 2016 2017 2018 2019 2020
基准策略 232.63% -1.30% 87.76% 122.80% 107.17% 10.88%
迭代策略 262.91% -1.30% 81.15% 114.41% 107.34% 16.15%
沪深 300 5.58% -11.28% 21.78% -25.31% 36.07% 27.21%
图 7对比了2015年每个月份的迭代策略与基准策略收益率差额. 可以看出, 2015年1月至5月迭代策略和基准策略各有优劣, 迭代策略的优势并未特别明显. 2015年6月"股灾"发生之后, 市场恐慌情绪蔓延, 这段时期股市下跌速度快、下跌幅度大和波及范围广, 先后共有16个交易日出现千股跌停, 表现出极强的尾部系统风险(李志生等(2019)). 2015年6月至12月期间, "股灾"带来的恐慌情绪持续影响金融市场, 迭代策略在绝大多数月份优于基准策略, 可以认为这段时期采用迭代策略能明显提高投资收益. 换言之, 本文提出的迭代策略相较基准策略能更加准确地识别新闻情绪变化, 这一优势在市场剧烈波动、市场信息发生剧烈变化时期显得尤为重要, 进而更大幅度地提升投资收益6.
6本文也在下一章"策略溢价的拓展分析-市场整体情绪指数讨论"基础上尝试构建基准策略、迭代策略的市场整体情绪指数, 并对沪深300指数日收益率进行样本内回归. 结果发现基于迭代策略得到的情绪指数对市场收益具有更高的解释力, 并且在2015年子样本期间情绪指数与市场收益的相关性明显更高, 从市场情绪与收益的角度说明了波动时期更加准确地识别新闻情绪变化的优势更为明显.
图7 2015年策略月度收益率差额

Full size|PPT slide

5.3 月度更新模型: 考虑新冠疫情的影响

在分年度的收益率比较中, 仅有2020年度本文策略收益不如沪深300. 这可能是因为年度更新模型中O+O来自2019年新闻文本, 不包含任何与新冠疫情有关的信息. 由于新冠疫情属于年初突发事件且影响较为深远, 所以年度更新模型信息滞后的问题更明显地暴露出来. 为此, 本文尝试使用月度更新的训练模型重新对2020年文章进行情绪提取并构建策略. 具体而言, 自2020年1月开始, 滚动使用前12个月的新闻文本进行模型训练(后3个月用于交叉验证选择参数)评估当月的新闻情绪并构造策略. 在该设定下, 月度更新模型中可以逐步纳入2020年的信息, 改善模型在新冠疫情这一突发事件下的表现.
在上述训练窗口设定下, 用于2020年5月预测的模型使用2019年5月至2020年1月的新闻进行训练, 并在2020年2月至4月进行交叉验证, 该模型训练集将首次包含疫情相关的信息. 本文发现负向词语中, 除了跌停、加速下跌等词语外, 还会出现疫情、口罩、肺炎等疫情相关词汇, 说明这部分新信息能很好地被识别出来. 表 3报告了月度更新模型在2020年的累计收益, 基准策略累计收益率为34.47均优于同期年度更新迭代策略收益率(16.15该结果表明, 对于从未出现的突发事件有必要及时调整模型更新频率, 迭代估计的改进方法同样能够提升策略收益.
表3 月度更新模型收益概况(2020年)
累计收益率 H标准差 年化标准差 夏普比率
月度更新-基准 34.47% 2.56% 39.98% 0.79
月度更新-迭代 39.16% 2.54% 39.60% 0.91
年度更新-迭代 16.15% 1.85% 28.93% 0.46
沪深 300 27.21% 1.43% 22.41% 1.08
注: 月度更新模型滚动使用前12个月的新闻文本进行模型训练; 年度更新模型使用2019年的新闻文本进行模型训练. 此处计算夏普比率时使用的无风险收益率为2020年10年期国债活跃券到期收益率的日度均值(2.9381%).

5.4 交易费用的影响

日度投资策略需要考虑高换手率与高交易费用对投资收益的影响, 本文进一步考察前文日度交易策略收益在现实中的收益率, 并尝试提出降低换手率的改进措施.

5.4.1 考虑交易费用的必要性及计算规则

本文使用的交易策略以日度为频率进行换仓, 股票持有期较短, 高换手率会带来高交易费用, 策略产生的超额收益必须足以弥补高额的交易成本. 在以往文献中, 对于日度策略交易费用的讨论包括税费、佣金、转让费等. 通常情况下交易费用仅占成交金额的千分之几甚至更低, 但在高频率换仓的情况下交易费用能够对策略收益率产生年化百分之三十以上的负面影响. 已有文献一般设定固定的交易费率, 费率的设定主要参考所研究地区的费率水平. 交易费率可以反映投资组合完全更换时(即换手率100但很多情况下, 投资组合的换手率会低于100交易成本会低于所设定的费率, 故首先需要讨论换手率. 换手率一般通过比较交易前后的投资组合构成进行计算, 之后将每笔交易的收益率减去交易费率与换手率的乘积便可得到净收益率. 费率或换手率越高, 交易费用对策略收益的冲击越大, 对每笔交易的胜率和收益率都提出了更高的要求.
本文首先计算策略每日的换手率. 本文定义组合权重向量Ωt=(ω1,t,ω2,t,,ω300,t), 该向量代表t日组合中各只股票的权重, 第t日的换手率便可通过如下公式计算:
Turnovert=ΩtΩt112=k=1300|ωk,tωk,t1|2.
(11)
经测算, 本策略在回测期内平均换手率达77.59的交易日仓位完全更新(见图 8). 在计算得到换手率的基础上, 可计算交易费用及策略净收益:
TransactionCostt=Turnovert×FeeRatio,
(12)
NetReturnt=GrossReturntTransactionCostt,
(13)
图8 策略日度换手率

Full size|PPT slide

其中FeeRatio为交易费率, 在我国证券市场上交易费用主要包括印花税、证券交易经手费、证券交易监管费和券商佣金. 实践中, 除印花税外的交易费用占比很低, 因此本文在计算交易费用时仅考虑印花税部分, 设定FeeRatio=1‰. 实际上, 本文策略的日均收益率约为24bps, 即使在日度换手率均为100策略仍能获取经济意义上显著的收益.
表 4结果表明, 扣除交易费用后, 本文年度更新的策略年化收益率为47.84夏普比率由1.87降低至1.09. 尽管交易费用吞噬了相当部分的策略收益, 但接近50本文策略仍然具有较高的现实意义和投资价值.
表4 扣除交易费用前后的策略收益率对比
累计收益率 平均年化收益率 日标准差 年化标准差 夏普比率
扣除交易费用前 3250.65% 79.55% 2.61% 40.79% 1.87
扣除交易费用后 944.25% 47.84% 2.61% 40.80% 1.09
注: 表中报告了在1年训练窗口的迭代模型基础上交易费用对收益率的影响.

5.4.2 降低交易费用的改进方法

为降低交易策略的换手率, 本文提出两种改进方法: 情绪评分衰减法和组合权重衰减法.
其一, 情绪评分衰减法使用一支股票过往的情绪评分对当日的情绪评分进行调整, 目的在于降低每一支股票情绪评分的波动性, 进而降低股票的情绪排名变化, 降低策略换手率. 情绪评分的具体调整方法如下:
p~k,tdecay=p~k,tη1+p~k,t1(1η1),
(14)
其中 η1(0,1) 为新情绪评分的权重, 也可以称为历史信息的衰减速度, η1越大则情绪评分受历史影响越小. 表 5报告了不同衰减速度下的策略换手率及净收益情况, 结果显示对情绪评分进行调整后日均换手率确实出现了明显的下降, 但是随着η1的减小, 策略的收益率也出现了较为明显的下降, 最终导致调整后的策略净收益不及原始迭代策略.
表5 策略换手率及净收益-情绪评分衰减法
η1 日均换手率 累计收益 年化收益 扣除交易费用后累计收益 扣除交易费用后年化收益
1 77.59% 3250.65% 79.55% 979.40% 48.66%
0.9 67.97% 699.00% 41.39% 195.94% 19.82%
0.8 67.26% 818.76% 44.72% 243.89% 22.86%
0.7 66.22% 925.30% 47.39% 287.81% 25.34%
0.6 65.49% 992.56% 48.96% 319.75% 27.01%
0.5 64.33% 1095.48% 51.21% 367.19% 29.30%
0.4 63.05% 1039.57% 50.01% 353.69% 28.66%
0.3 61.88% 1019.95% 49.58% 353.59% 28.66%
0.2 60.02% 982.68% 48.74% 350.58% 28.52%
0.1 58.09% 799.73% 44.22% 285.12% 25.20%
注: 表格报告了在1年训练窗口的迭代模型基础上, 使用不同参数的情绪评分衰减法得到的策略收益对比结果. 其中η1为新情绪评分的权重, 取值越低表示情绪衰减速度越慢、策略换手率越低.
其二, 组合权重衰减法与情绪评分衰减法的思路类似, 但将调整对象由新闻情绪评分更改为每日的组合权重(Ke et al. (2019)). 该方法在当日投资组合中加入一定比例上一交易日的投资组合, 相当于保持一定比例的历史仓位不变, 直接降低了换仓需求. 调整后的组合构成可通过下式表达:
Ωtdecay=Ωtη2+Ωt1(1η2),
(15)
其中η2(0,1)表示新仓位的权重, 同样可以表示历史仓位的衰减速度. 新闻时效性检验中, 市场对于新闻的吸收需要一定时间, T+1日交易策略也能取得不错的收益, 故该方法可更有效平衡换手率和收益率的关系. 表 6报告了该方法下的策略换手率及净收益情况. 可以看出, 随着衰减速度η2的减小换手率稳步下降, η2每下降0.1换手率下降约8%. 更为重要的是, 在η2较大时, 策略的毛收益率降幅不大. 当η2=0.7时, 策略净收益达到最大的54.53%, 较改进前提升6%.
表6 策略换手率及净收益-组合权重衰减法
η2 日均换手率 累计收益 年化收益 扣除交易费用后累计收益 扣除交易费用后年化收益
1 77.59% 3250.65% 79.55% 979.40% 48.66%
0.9 69.67% 3274.42% 79.76% 1120.39% 51.73%
0.8 61.83% 3147.77% 78.62% 1217.13% 53.68%
0.7 54.08% 2898.28% 76.26% 1261.61% 54.53%
0.6 46.39% 2562.70% 72.80% 1252.85% 54.36%
0.5 38.73% 2173.11% 68.31% 1191.42% 53.17%
0.4 31.11% 1747.39% 62.59% 1073.12% 50.74%
0.3 23.47% 1289.61% 55.05% 886.39% 46.45%
0.2 15.80% 808.64% 44.45% 621.36% 39.00%
0.1 8.03% 358.48% 28.89% 307.70% 26.39%
注: 表格报告了在1年训练窗口的迭代模型基础上, 使用不同参数的组合权重衰减法得到的策略收益对比结果, 其中η2为新仓位的权重系数, 取值越低表示历史仓位变化越小、策略换手率越低.

6 策略溢价的拓展分析

前文展示了基于新闻情绪的机器学习交易策略可以获得较高的额外收益, 且这种收益在控制了交易费用的影响后依然存在. 进一步地, 本文从四个角度讨论基于新闻情绪的机器学习交易策略溢价的经济含义: 第一, 利用每个股票的情绪计算市场整体情绪指数, 考察该指数是否与市场整体收益存在统计意义上的显著性. 第二, 本文从因子定价模型的角度分析策略收益是否能被常用的因子模型所解释. 第三, 本文从新闻时效性角度讨论策略收益的异质性, 通过划分不同的新闻时段对比不同新闻带来的策略溢价. 第四, 从市值、波动率、市净率、ROE、换手率、个股Beta六个维度讨论策略收益在不同组别股票中的表现, 从个股特征维度分析策略溢价背后的理论支持.

6.1 市场整体情绪指数讨论

为了检验情绪交易策略的统计效力, 参考姜富伟等(2021), Jiang et al. (2019), 本文尝试基于当期所有沪深300指数成分股的新闻情绪评分构建一个整体情绪指数, 以反映当天整体情绪取向, 并将该指数与沪深300指数的涨跌比较. 在构建情绪指数时使用了与交易策略中相同的时间匹配策略, 即将t1日9点至t日9点的新闻归类为t日的新闻, 新闻的情绪评分即为对应股票当日的情绪指数, 之后将全部股票的情绪指数取平均值得到当日市场整体的情绪指数. 由于该指数波动剧烈, 图 9绘制了经过30日移动平均后的情绪指数以及同样移动平均后的沪深300指数日度涨跌幅. 尽管二者的波动幅度有较大差异, 但在方向的变动上二者保持一致. 在一些关键时点上, 情绪指数给出了明确的指引, 如2018年中美贸易战开始时情绪指数出现了大幅下降, 当年沪深300也出现了接近30%的下跌; 2020年初新冠疫情爆发时情绪指数同样出现了断崖式的下跌, 随着后续疫情得到较好控制而回升, 走势与股票市场保持一致. 为进一步验证该指数在对于市场涨跌的预测能力是否在统计学意义上显著, 本文进行了样本内和样本外的回归检验.
图9 市场整体情绪指数与沪深300指数涨跌对比

Full size|PPT slide

6.1.1 样本内预测能力检验

本文设置如下回归方程进行检验:
RtM=α+βSentimentt+εt,
(16)
其中RtM为沪深300指数日度涨跌幅, Sentimentt为整体情绪指数, 二者均经过30日移动平均, 由于t日的情绪指数是由t日开盘前的新闻构建的, 因此模型中并未对情绪指数进行滞后调整, εt为随机误差项. 表 7使用2015–2020年数据进行回归发现, 情绪指数系数β显著为正, 意味着本文构建的情绪指数与市场涨跌之间存在着显著的正向关系.
表7 样本内预测能力检验结果
α Std. Error β Std. Error R2
-1.047 0.320 2.201 0.651 0.008

6.1.2 样本外预测能力检验

参考姜富伟等(2021), 本文将2015–2020年中前P个交易日的新闻样本划分为一个初始训练集, 将该训练集放入公式(16)中的回归模型训练得到第一组系数, 使用该系数组合及后一交易日的情绪指数给出下一交易日的收益率预测值RP+1M^, 之后以固定窗口形式向前滚动至最后一个交易日. 计算统计量Ros2来评估情绪指数的样本外预测能力:
ROS2=1P+1T(RtMRtM^)2P+1T(RtMRtM¯)2,
(17)
其中RtM¯为截至tRtM的平均值, 即使用市场的历史平均回报作为未来回报的预测值. 表 8报告了在不同初始训练集设定情况下的检验结果, 在初始训练窗口P=100、200、300的情况下, Ros2均大于0说明情绪指数的预测能力明显强于历史收益率均值, 尤其是在P=200的情况下, Ros2可达24.34%.
表8 样本外预测能力检验结果
初始窗口 P=100 P=200 P=300
Ros2 15.81% 24.34% 12.74%

6.2 因子模型与策略溢价

为说明本文的投资策略与传统因子模型间的差异, 我们将本文策略的日收益对传统因子进行回归检验. 表 9报告了策略收益对三因子、五因子模型的检验结果, 其中α表示常数项, 即不能被传统因子模型解释的超额收益; MKT、SMB、HML、RMW、CMA分别代表市场因子、规模因子、价值因子、盈利因子和投资因子, 因子数据均来自于CSMAR数据库.
表9 不同策略收益与因子模型
基准策略 迭代策略 扣除交易费用后的迭代策略 基准策略 迭代策略 扣除交易费用后的迭代策略
α 0.002*** 0.002*** 0.002*** 0.003*** 0.003*** 0.002***
(0.001) (0.001) (0.001) (0.001) (0.001) (0.001)
MKT 0.710*** 0.705*** 0.706*** 0.697*** 0.694*** 0.695***
(0.040) (0.040) (0.040) (0.041) (0.041) (0.041)
SMB -0.329*** -0.345*** -0.343*** -0.480*** -0.463*** -0.463***
(0.096) (0.096) (0.096) (0.137) (0.138) (0.138)
HML -0.762*** -0.767*** -0.764*** -0.669*** -0.674*** -0.671***
(0.121) (0.122) (0.122) (0.134) (0.135) (0.135)
RMW -0.488** -0.421** -0.423**
(0.197) (0.197) (0.198)
CMA -0.373** -0.358* -0.358*
(0.188) (0.189) (0.189)
R2 0.250 0.246 0.246 0.253 0.249 0.249
N 1462 1462 1462 1462 1462 1462
注:*、**、***分别表示在10%、5%和1%水平上显著,括号内为标准误.
从回归结果来看, 本文的基准策略和迭代策略无论对三因子还是五因子模型都能产生约0.24%的日度超额收益, 扣除交易费用后策略仍能产生0.16%的日度超额收益, 该超额收益无论在统计上还是经济上均是显著的. 此外, 不同因子模型的R2均为0.25左右, 说明传统因子模型对本文策略的解释力不高.

6.3 新闻时效性与策略溢价

时效性是新闻的基本特征之一, 本节分别从使用新闻时段和交易时刻两个角度说明新闻时效性的重要性, 并探究个股新闻被资本市场吸收的速度与策略溢价之间的关联.
从新闻时段来看, 本文将预测集内的新闻按发布时间分为盘中新闻和盘后新闻两类, 盘中新闻指T19:00T115:00间发布的新闻, 隔夜新闻指T115:00T9:00之间发布的新闻, 本文分别使用两类新闻计算策略收益. 表 10表明, 仅使用盘中新闻构建策略产生平均年化收益率为24.76%, 而仅使用隔夜新闻构建策的平均年化收益率为49.89%. 该结果说明, 非交易时间段内的隔夜新闻相比盘中新闻更容易得到超额收益. 相比隔夜新闻, 盘中新闻出现时刻更早, 其定价能力也可能部分反映在前一日的交易活动中, 从这个角度来看, 时效性越高的新闻越有助于提高策略收益. 当然, 盘中新闻也不会全部在当天吸收, 这使得基准策略依然有必要考虑T19:00T9:00的所有新闻.
表10 使用不同时段新闻的策略收益率对比
新闻时段 年化收益率
全部新闻(T-1日9:00至T日9:00) 79.55%
盘中新闻(T-1日9:00至T-1日15:00) 24.76%
隔夜新闻(T-1日15:00至T日9:00) 49.89%
从交易时刻来看, 本文继续探究了历史新闻发布后的溢价消逝速度, 即信息被市场吸收的速度. 为此本文构建了T+1日交易策略至T+5日交易策略, 即使用T19:00T9:00的新闻分别在T+1日至T+5日开盘时交易, 也即将原策略的交易时间往后推移. 如图 10所示, 随着交易时间的不断推迟, 年化收益率整体呈下降趋势, 恰好印证了新闻价值随时间消逝的事实. T+2日及以后的交易策略的年化收益率在20%左右, 在扣除交易费用后, 策略收益基本清零, 这意味着基于过时新闻构造的策略已无法获取超额收益.
图10 T日至T+5日交易策略的平均年化收益率
注: 图中报告了使用T日策略的新闻(T-1日9:00至T日9:00)在不同日期交易的平均年化收益率例如T+1日交易是指使用T-1日9:00至T日9:00的新闻在T+1日开盘买入并在T+2日开盘卖出,以此类推.

Full size|PPT slide

6.4 股票特征的异质性分析

对比不同特征股票中的策略表现也是探究策略溢价经济理论的一种重要方式, 为此本文选取了市值、波动率、市净率、ROE、换手率、个股Beta六个维度进行分析. 本文以上年年末沪深300指数成分股市值中位数为标准将股票划分为大市值和小市值组、依据上年末波动率(计算区间为过去24个月)中位数为标准将股票划分为高波动率和低波动率组、以上年末市净率中位数为标准将股票划分为高PB和低PB组、以上年ROE (上一年度净利润/上一年度平均净资产) 中位数为标准将股票划分为高ROE和低ROE组、以上年末个股Beta7中位数为标准将股票划分为高Beta和低Beta组, 对上述组合分别进行策略回测.
7Beta计算区间为前100周, 市场指数选取上证指数.
图 11报告了本文策略在不同股票特征组别中的收益情况. 按市值、换手率和Beta划分的三组在收益率曲线上出现了明显的差异, 小市值、低换手率和低Beta组取得了较好的收益. 在波动率、ROE和PB维度上, 本文策略收益在不同组间的差异不稳定.
图11 区分股票特征下的策略收益率对比
注: 图中报告在不同类型股票中迭代策略的累计收益率, 以组合净值表示, 初始净值为1.

Full size|PPT slide

本文策略收益在不同组别股票中的表现差异存在两类可能解释. 首先, 投资者情绪在特定股票中的预测能力较强, 相应的交易策略会在这部分股票中具有更好表现(Baker and Wurgler (2006), Jiang et al. (2019)). Baker and Wurgler (2006)认为使用投资者情绪预测股票收益在具有估值主观程度较高或者套利成本较高的股票中表现更好, 类似地, Jiang et al. (2019)也发现使用管理层情绪预测股票收益时在这部分股票估值主观程度较高的股票中能得到更高的收益. 该理论支持了小市值股票因估值不确定性较高而存在更高的套利空间, 但与交易策略在低换手率、低Beta的股票中收益更高的结果不完全相符.
其次, 新信息吸收速度较慢的股票受到信息冲击后价格反应速度较为缓慢, 为基于新闻情绪的投资策略提供了套利空间, 故交易策略会在这部分股票中具有更好表现. Chordia and Swaminathan (2000)发现交易量与股票收益的背后影响因素是市场信息的传播速度, 低换手率的股票较高换手率的股票对新信息的吸收速度更慢. Brogaard et al. (2014), Foucault et al. (2016)等研究也从高频交易角度论述了高换手率股票对短期信息冲击的吸收速度更快. 此外, Hirshleifer et al. (2009)强调投资者的注意力是有限的, 其他信息很容易削弱投资者关于公司新闻的反应程度. 遵循这一思路, 高市值、高Beta股票往往是在市场上受关注较高的价值股票, 其对新信息吸收速度更快, 本文策略的套利空间较小. 相反的, 小市值、低换手率和低Beta的股票对新信息的吸收速度较慢, 本文基于新闻情绪的投资策略应在后一类股票中可获得更高的收益率.
为验证前述观点, 本文重新检验三个维度不同股票的新闻时效性表现. 图 12报告了T日至T+5日交易策略在不同特征股票下的年化收益率. 不难看出, 大市值股票对新闻的吸收速度快, T日策略已无法产生显著收益; 低换手率股票在新闻发布后两个交易日内仍能产生显著收益, 而高换手率股票的新闻则在1个交易日左右被吸收; 高Beta股票的新闻在发布一天后基本已被全部吸收, 而新闻对低Beta股票收益的影响则能持续更久. 实证结果说明, 股票特征确实会对本文策略收益产生显著影响, SESTM策略在小市值、低换手率和低Beta组取得了相对更高的收益, 其背后原因在于不同特征的股票对新闻的吸收速度不同.
图12 不同特征的股票对新闻的吸收速度
注图中报告了不同类型的股票使用T日交易策略的新闻(T-1日9:00至T日9:00)在不同日期交易所能得到的平均年化收益率.

Full size|PPT slide

7 研究结论

本文通过迭代估计改进了已有的文本筛选和文本主题的情感提取模型(SESTM), 并且基于2013年至2020年间沪深300指数成分股新闻数据以及收益率, 考察其在中国股票市场的实际表现, 得到以下几点结论: 第一, 本文提出了对于SESTM的迭代估计改进思路, 提升了SESTM方法的文本情绪提取精度. 在蒙特卡罗模拟中, 本文发现增加模型迭代次数可以明显提高估计词语情绪的准确度, 有助于对正负面文章做出更加明确的区分. 第二, 本文将SESTM应用到中国股票市场, 发现基于高时效性训练集构建的策略收益更高, 在此基础上, 迭代估计改进能够进一步提高策略收益, 且这种提升在市场剧烈波动时期更为明显. 尽管日度交易策略的交易费用高昂, 但本文策略在扣除交易费用后依然可以获得远超沪深300指数的超额收益率. 第三, 本文发现新闻的时效性对于策略收益具有重大影响, 对新闻做出反应越及时, 获得的收益越大. 异质性分析发现本文策略在小市值、低换手率和低Beta的股票更容易获得高收益, 也正是由于这部分股票的新闻吸收速度相对缓慢.
本文研究验证了媒体报道在中国市场具有重要影响力, 基于新闻情绪所构造的机器学习交易策略能获得可观的投资收益, 从交易策略角度补充了媒体情绪驱动资产价格的实证结果. 此外, 本文论证了基于新闻情绪的机器学习交易策略背后是由于新闻情绪可预测资产收益、不同资产的信息吸收速度存在差异所带来的套利空间, 这也为机器学习和量化投资策略的相关讨论提供了经济理论支持.
本文提出的交易策略虽实现了较为可观的累计收益, 但仍存在改进和探索空间. 其一, 本文仅选取沪深300成分股, 相较于A股4000余只股票的整体规模仍偏小, 纳入更多市值小、市场关注度低的股票或将进一步提升收益率. 其二, 本文的方法可以应用到更加广泛的文本类型上, 如社交媒体、机构研报等, 这些文本数据也可能包含了与股票收益相关的情绪信息, 可作为未来研究的拓展方向.

参考文献

姜富伟, 孟令超, 唐国豪, 媒体文本情绪与股票回报预测[J]. 经济学(季刊), 2021, 21 (4): 1323- 1344.
Jiang F W , Meng L C , Tang G H , Media Textual Sentiment and Chinese Stock Return Predictability[J]. China Economic Quarterly, 2021, 21 (4): 1323- 1344.
李斌, 邵新月, 李玥阳, 机器学习驱动的基本面量化投资研究[J]. 中国工业经济, 2019, (8): 61- 79.
Li B , Shao X Y , Li Y Y , Research on Machine Learning Driven Quantamental Investing[J]. China Industrial Economics, 2019, (8): 61- 79.
李志生, 金凌, 张知宸, 危机时期政府直接干预与尾部系统风险——来自2015年股灾期间"国家队"持股的证据[J]. 经济研究, 2019, 54 (4): 67- 83.
Li Z S , Jin L , Zhang Z C , Direct Government Intervention and Systemic Tail Risk: Evidence from the National Team Stock Rescue during the 2015 Crash[J]. Economic Research Journal, 2019, 54 (4): 67- 83.
林建浩, 陈良源, 宋登辉, 如何测度央行行长的口头沟通信息——一种基于监督学习的文本分析方法[J]. 统计研究, 2019, 36 (8): 3- 18.
Lin J H , Chen L Y , Song D H , How to Measure the Information of Central Bank Governor's Verbal Communication: A Textual Analysis Method Based on Supervised Learning[J]. Statistical Research, 2019, 36 (8): 3- 18.
马甜, 姜富伟, 唐国豪, 深度学习与中国股票市场因子投资——基于生成式对抗网络方法[J]. 经济学(季刊), 2022, 22 (3): 819- 842.
Ma T , Jiang F W , Tang G H , Deep Learning and Factor Investing in Chinese Stock Market — Based on Generative Adversarial Networks[J]. China Economic Quarterly, 2022, 22 (3): 819- 842.
唐文进, 苏帆, 极端金融事件对系统性风险的影响分析——以中国银行部门为例[J]. 经济研究, 2017, 52 (4): 17- 33.
Tang W J , Su F , An Analysis of the Effects of Extreme Financial Events on Systemic Risk: Evidence from China's Banking Sector[J]. Economic Research Journal, 2017, 52 (4): 17- 33.
沈艳, 陈赟, 黄卓, 文本大数据分析在经济学和金融学中的应用: 一个文献综述[J]. 经济学(季刊), 2019, 18 (4): 1153- 86.
Shen Y , Chen B , Huang Z , A Literature Review of Textual Analysis in Economic and Financial Research[J]. China Economic Quarterly, 2019, 18 (4): 1153- 1186.
Antweiler W , Frank M Z , Is all That Talk Just Noise? The Information Content of Internet Stock Message Boards[J]. The Journal of Finance, 2004, 59 (3): 1259- 1294.
Baker S R , Bloom N , Davis S J , Measuring Economic Policy Uncertainty[J]. Quarterly Journal of Economics, 2016, 131 (4): 1593- 1636.
Barber B M , Odean T , All That Glitters: The Effect of Attention and News on the Buying Behavior of Individual and Institutional Investors[J]. Review of Financial Studies, 2008, 21 (2): 785- 818.
Baker M , Wurgler J , Investor Sentiment and the Cross-section of Stock Returns[J]. The Journal of Finance, 2006, 61 (4): 1645- 1680.
Ben-Rephael A , Da Z , Israelsen R D , It Depends on Where You Search: Institutional Investor Attention and Underreaction to News[J]. Review of Financial Studies, 2017, 30 (9): 3009- 3047.
Berger H , De Haan J , Sturm J E , Does Money Matter in the ECB Strategy? New Evidence Based on ECB Communication[J]. International Journal of Finance & Economics, 2011, 16 (1): 16- 31.
Blei D M , Ng A Y , Jordan M I , Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3, 993- 1022.
Brogaard J , Hendershott T , Riordan R , High-frequency Trading and Price Discovery[J]. Review of Financial Studies, 2014, 27 (8): 2267- 2306.
Chinco A , Clark-Joseph A D , Ye M , Sparse Signals in the Cross-section of Returns[J]. The Journal of Finance, 2019, 74 (1): 449- 492.
Chordia T , Swaminathan B , Trading Volume and Cross-autocorrelations in Stock Returns[J]. The Journal of Finance, 2000, 55 (2): 913- 935.
Engelberg J E , Parsons C A , The Causal Impact of Media in Financial Markets[J]. Journal of Finance, 2011, 66 (1): 67- 97.
Fama E F , French K R , Dissecting Anomalies[J]. The Journal of Finance, 2008, 63 (4): 1653- 1678.
Feng G , Giglio S , Xiu D , Taming the Factor Zoo: A Test of New Factors[J]. The Journal of Finance, 2020, 75 (3): 1327- 1370.
Foucault T , Hombert J , Roșu I , News Trading and Speed[J]. The Journal of Finance, 2016, 71 (1): 335- 382.
Gentzkow M , Kelly B , Taddy M , Text as Data[J]. Journal of Economic Literature, 2019, 57 (3): 535- 574.
Goodfellow I , Bengio Y , Courville A , Bengio Y , Deep Learning[M]. Cambridge: MIT Press, 2016.
Gu S , Kelly B , Xiu D , Empirical Asset Pricing via Machine Learning[J]. The Review of Financial Studies, 2020,
Hansen S , McMahon M , Shocking Language: Understanding the Macroeconomic Effects of Central Bank Communication[J]. Journal of International Economics, 2016, 99, S114- S133.
Hillert A , Jacobs H , Muller S , Media Makes Momentum[J]. Review of Financial Studies, 2014, 27 (12): 3467- 3501.
Hirshleifer D , Lim S S , Teoh S H , Driven to Distraction: Extraneous Events and Underreaction to Earnings News[J]. The Journal of Finance, 2009, 64 (5): 2289- 2325.
Hou K , Xue C , Zhang L , Replicating Anomalies[J]. The Review of Financial Studies, 2020, 33 (5): 2019- 2133.
Jiang F , Lee J , Martin X , Zhou G , Manager Sentiment and Stock Returns[J]. Journal of Financial Economics, 2019, 132 (1): 126- 149.
Jiang J, Kelly B T, Xiu D, (2020). (Re-)imag(in)ing Price Trends[D]. Chicago: Chicago Booth Research Paper.
Jiao P , Veiga A , Walther A , Social Media, News Media and the Stock Market[J]. Journal of Economic Behavior & Organization, 2020, 176, 63- 90.
Ke Z T, Kelly B T, Xiu D, (2019). Predicting Returns with Text Data[R]. National Bureau of Economic Research.
Kelly B T, Pruitt S, Su Y, (2019). Instrumented Principal Component Analysis[R]. Working Paper.
Larsen V H , Thorsrud L A , The Value of News for Economic Developments[J]. Journal of Econometrics, 2019, 210 (1): 203- 218.
Lewellen J , The Cross-section of Expected Stock Returns[J]. Critical Finance Review, 2015, 4 (1): 1- 44.
Light N , Maslov D , Rytchkov O , Aggregation of Information about the Cross Section of Stock Returns: A Latent Variable Approach[J]. The Review of Financial Studies, 2017, 30 (4): 1339- 1381.
Loughran T , McDonald B , When is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-ks[J]. Journal of Finance, 2011, 66 (1): 35- 65.
Loughran T , McDonald B , Textual Analysis in Accounting and Finance: A Survey[J]. Journal of Accounting Research, 2016, 54 (4): 1187- 1230.
Loughran T , McDonald B , Textual Analysis in Finance[J]. Annual Review of Financial Economics, 2020, 12 (1): 357- 375.
Manela A , Moreira A , News Implied Volatility and Disaster Concerns[J]. Journal of Financial Economics, 2017, 123 (1): 137- 162.
Marty T , Vanstone B , Hahn T , News Media Analytics in Finance: A Survey[J]. Accounting & Finance, 2019, 60 (2): 1385- 1434.
Mayew W J , Sethuraman M , Venkatachalam M , Individual Analysts' Stock Recommendations, Earnings Forecasts, and the Informativeness of Conference Call Question snd Answer Sessions[J]. The Accounting Review, 2020, 95 (6): 311- 337.
Picault M , Renault T , Words are not all Created Equal: A New Measure of ECB Communication[J]. Journal of International Money and Finance, 2017, 79, 136- 156.
Rosa C , Words that Shake Traders the Stock Market's Reaction to Central Bank Communication in Real Time[J]. Journal of Empirical Finance, 2011, 18 (5): 915- 934.
Rosa C , Verga G , On the Consistency and Effectiveness of Central Bank Communication: Evidence from the ECB[J]. European Journal of Political Economy, 2007, 23 (1): 146- 175.
Tetlock P C , Giving Content to Investor Sentiment: The Role of Media in the Stock Market[J]. Journal of Finance, 2007, 62 (3): 1139- 1168.
Tetlock P C , Saar-Tsechansky M , Macskassy S , More Than Words: Quantifying Language to Measure Firms' Fundamentals[J]. Journal of Finance, 2008, 63 (3): 1437- 1467.
Zhang J N L , Hardle W K , Chen C Y , Bommes E , Distillation of News Flow Into Analysis of Stock Reactions[J]. Journal of Business & Economic Statistics, 2016, 34 (4): 547- 563.

基金

国家自然科学基金(71773147)
国家自然科学基金(72073148)
国家自然科学基金(71991474)

版权

版权所有,未经授权。
PDF(1555 KB)

3665

Accesses

0

Citation

Detail

段落导航
相关文章

/