基于分步降维框架的股吧短文本数据关键信息抽取与个股收益预测

卢珊, 王惠文, 赵吉昌

计量经济学报 ›› 2023, Vol. 3 ›› Issue (3) : 707-721.

PDF(5885 KB)
PDF(5885 KB)
计量经济学报 ›› 2023, Vol. 3 ›› Issue (3) : 707-721. DOI: 10.12012/CJoE2023-0028
论文

基于分步降维框架的股吧短文本数据关键信息抽取与个股收益预测

    卢珊1(), 王惠文2,3(), 赵吉昌2,*()
作者信息 +

Feature Extraction from Guba Short-text Messages and Stock Return Prediction: A Multistep Dimension Reduction Framework

    Shan LU1(), Huiwen WANG2,3(), Jichang ZHAO2,*()
Author information +
文章历史 +

摘要

社交媒体是股市投资者获取金融信息的重要来源, 其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意, 口语化严重, 长度较短且语义密度低, 使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期Fan et al. (2021)提出的分步降维框架试图通过充分利用文本本身的语义特征以提升关键信息抽取的精准性.本文将这一框架扩展至社交媒体情景, 以系统探索东方财富网股吧短文本是否为个股价格走势提供有效的前导信息.具体而言, 首先使用主成分分析方法提取文本中的公共因子, 继而对残差矩阵依次实施变量扫描进一步过滤信息, 再采用Lasso回归构建预测模型, 从而在实现降维的基础上, 更大程度地挖掘文本中蕴含的面向个股的独特价值语义.结果表明该框架能够较好地从股吧短文本中抽取预测个股收益的信息.此外, 其识别出的具备预测能力的词汇集合也体现了社交媒体短文本不同于其他金融文本的特点, 且与传统的金融情感词典差异较大.因此, 该分步降维框架为分析社交媒体短文本数据提供了新思路.

Abstract

Social media is an important source for stock market investors to obtain financial information, where the emotional and other relevant signals contained in users' posts are closely related to the stock prices. However, since these posts are mostly freely expressed, highly colloquial, short in length and extremely low in semantic density, the traditional text analysis method based on sentiment dictionary faces with the risk of losing valuable information. The recent multi-step dimension reduction framework proposed by Fan et al. (2021) attempts to improve the preciseness of substantial information extraction from text data by making full use of the semantic features within the text in a data-driven way. This paper extends this framework to a social media scenario and systematically explores whether the short texts on Eastmoney Guba provide effective leading information for individual stock prices. Specifically, the principal component analysis method is used to extract common factors in the text, and then variable screening is performed on the residual matrix to further filter features of words in the text. Then Lasso regression is used to build a prediction model, by which the unique semantics for individual stocks contained in the text are extracted. The results show that the framework can indeed extract the useful information from the short texts in Guba for individual stock returns prediction. In addition, the identified vocabulary sets with predictive power also reflect the characteristics of social media short texts, which are different from not only other financial texts but also the traditional financial sentiment dictionaries. Therefore, this multi-step dimension reduction framework provides a new path for leveraging social media short-text data in various domains.

关键词

社交媒体 / 短文本数据 / 主成分分析 / 变量筛选 / 股价预测

Key words

social media / short-text data / principal component analysis / variable selection / stock return prediction

引用本文

导出引用
卢珊 , 王惠文 , 赵吉昌. 基于分步降维框架的股吧短文本数据关键信息抽取与个股收益预测. 计量经济学报, 2023, 3(3): 707-721 https://doi.org/10.12012/CJoE2023-0028
Shan LU , Huiwen WANG , Jichang ZHAO. Feature Extraction from Guba Short-text Messages and Stock Return Prediction: A Multistep Dimension Reduction Framework. China Journal of Econometrics, 2023, 3(3): 707-721 https://doi.org/10.12012/CJoE2023-0028

1 引言

随着数字经济的深入发展和互联网渗透率的不断提高, 投资者获取股票市场信息的渠道更加丰富, 社交媒体成为其中重要的信息渠道之一, 吸引了大量投资者的关注. 同时, 也有越来越多的投资者在社交媒体平台上发布观点, 表达情绪. 作为国内活跃度最高的股吧平台, 东方财富网股吧早在2019年7月的日均独立访客人数就达到42.3万(张继勋, 张广冬和杨小娟(2021)). 以"股吧"为代表的社交媒体允许任何注册用户在合法的前提下, 随时随地发表、评论和分享观点, 相比于传统的新闻媒体或财经网站, 能够显著降低交流成本, 加快信息交互速度, 扩大信息传播范围. 这一信息传播方式使得股吧承载了网络舆论监督的角色(朱孟楠等(2020)), 成为投资者"用嘴投票"的平台(王丹, 孙鲲鹏和高皓(2020)). 股吧中积累的大量文本信息也为股市分析和预测提供了崭新的视角. 事实上, 由于中国股票市场的散户比例较高, 而股吧论坛上大多数为该类投资者, 因此股吧论坛的关注度对股市的影响甚至可能大于新闻关注度和新闻情绪指数(石勇, 唐静和郭琨(2017)). 相比于传统数据, 股吧文本数据是一种典型的非结构化数据, 可用于构建重要变量包含传统数据所没有的信息(洪永淼和汪寿阳(2021)). 那么, 股吧文本能否为股票走势提供有价值的预测? 如果能, 又是哪些文本信息在其中起到至关重要的预测作用? 本文旨在对此进行探究.
已有研究大多关注股吧信息与股票收益率(部慧等(2018))、股价同步性(孙鲲鹏和肖星(2018), 陈张杭健等(2021))之间的关系及相应影响机制. Ammann and Schaub (2021)还发现社交媒体用户的粉丝更倾向于在其关注者发表帖子后模仿其投资组合构成, 这暗示了股吧帖子会通过影响投资者的交易行为对股价走势造成影响. 更为全面的综述见(张维, 李奕和王鹏飞(2022)). 其中, 以股价预测为主题的研究, 多将情感分析作为间接实现预测的方式, 即根据情感词典或情感分类器得到股吧帖子文本的情感极性状态, 再将所有文本的情感状态汇总为一个特定的指标, 用以预测股票收益率(Tetlock (2007), Das and Chen (2007)). 这一方式大大简化文本分析流程, 且便于计算. 然而该方式过于依赖先验定义的情感词汇, 甚至可能会损失社交媒体文本帖子中更为丰富的语义信息.
股吧作为一个典型的互动式社交媒体平台, 用户通过发帖来分享各类信息, 例如个人投资经验、未来预期、信息解读等, 各类条目的文本在表达内容、口吻、形式等方面差异较大. 具体地, 在发帖内容方面, 既包含客观的信息发布和分析, 也不乏个人主观感情或者非理性情绪的表达, 例如常常看到中小投资者发泄自己对于"庄家"的不满, 而这些信息可能被当成噪音信息, 其是否具有股价预测性是存疑的. 在文本风格上, 一些发帖人给出的投资建议理由比较具体, 包括数字、新闻等数据, 而另一些发帖人给出的理由则较为简短或笼统(张继勋, 张广冬和杨小娟(2021)), 如何从中抽取对预测有价值的信息也是一个难题. 在互动言辞方面, 由于发帖和回帖通常是一次性交流, 文本中的言辞可能会较为激进, 缺少严密的逻辑(熊艳(2022)), 用词也偏口语化, 有时还会夹带网络用语, 导致语义密度极低. 最后, 股吧具有发帖量大、帖子长度短、迭代速度快等特点(Sun et al. (2017)), 对预测模型容量、模型能应对的数据维度以及模型演化与主动适应能力的要求较高. 可见, 上述股吧文本特点对股票走势预测提出巨大挑战.
为了应对中文文本的特殊性, Fan et al. (2021)提出了分步降维的预测框架, 并基于大量中国股票市场的新闻文本验证了该框架可以很好地预测股票价格. 该框架的主要思路是: 将大量新闻文本做初步的分词、简化处理, 得到以词汇为变量、文本条目为样本点的高维文本矩阵, 每个变量对应一个词汇. 接着通过主成分分析方法, 从高维文本矩阵中提取主成分, 作为文本内部蕴含的"潜在因子"测度. 继而从高维文本矩阵中扣除主成分的信息, 得到文本矩阵的残差矩阵, 此时, 残差矩阵的维度与原始文本矩阵相同, 仍然是高维的. 然后以股票收益率为因变量, 对残差矩阵做变量扫描(Fan et al. (2008)), 得到降维后的残差矩阵, 这时矩阵中的词变量可视作对预测目标有价值的词汇. 最后, 建立股票收益率对"潜在因子"和降维后残差矩阵的回归模型, 作为解释和预测的主模型. 整体上看, 该框架是无监督学习和有监督学习的结合, 兼顾了对文本本身蕴含话题相关的信息抽取, 以及针对预测目标的信息抽取. 然而, 正如前文分析, 股吧等社交媒体短文本与正式的新闻文本差异明显, 该方法是否能在短文本数据上取得令人满意的效果尚未可知, 亟需探索.
针对股吧文本的既有特点, 本文通过扩展上述思路以实现对股吧短文本的充分挖掘, 进而为股价预测提供有力支撑. 具体而言, 我们获取了东方财富网股吧250万用户在2015–2022年间发表的帖子标题文本数据, 对中证500成份股逐个搭建了预测模型, 并依据样本外预测结果构建投资策略. 结果表明, 本文的预测框架能够实现超过市场表现的收益. 这表明Fan et al. (2021)的方法在股吧短文本分析中同样有效, 即分步降维框架能够提取股吧短文本中与未来收益相关的关键信息. 更重要的是, 该方法筛选出来对于预测个股收益有价值的文本词汇与传统人工定义的金融词典有很大不同, 体现了其在社交媒体短文本数据分析中的独特作用. 实际上, 正是由于该方法完全从股吧短文本出发, 以提高模型预测性能为目标提取文本中与预测目标最为相关的信息, 因此能够从数据驱动的角度充分地发挥文本分析和统计建模的优势. 本文的研究为利用股吧短文本数据预测股票收益率提供了实证证据, 对于认识和预测我国股票市场有一定意义.
后续章节安排如下: 第2节介绍数据来源和描述性分析; 第3节给出关键信息抽取框架及其用于个股收益预测的具体步骤; 第4节在真实数据上进行收益预测, 并讨论了预测效果和模型解释性; 最后第5节总结了本文工作.

2 数据

通过获取东方财富网股吧的帖子文本信息, 我们采集了2539696个用户在2015–2021年间在东方财富网股吧发表的帖子标题文本. 在股票样本上, 本文聚焦中证500成份股, 这些股票是由全部A股剔除沪深300指数成份股及总市值排名前300名的股票后, 总市值排名靠前的500只股票组成, 能够综合反映中国A股市场中小市值公司的股票价格表现. 由于中证500成份股列表会随着时间更新, 我们只选择了在样本期间始终列为该指数成份股的股票, 共计400只. 从获取的帖子中挑选出发表在这400只成份股股吧里的条目, 帖子总数为27382108条. 图 1(a)中展示了对所获取的帖子标题做分词、删去停词和特殊符号后, 帖子词汇长度的分布, 可见绝大部分帖子标题的长度都在20个词以内, 文本有效长度较短. 图 1(b)中展示了每条帖子标题中金融情感词汇所占的比例分布1, 发现大部分帖子中金融情感词汇占比都很低. 实际上, 本文样本窗口内有52%的帖子在金融词典里找不到对应的词. 上述结果说明股吧帖子标题文本长度极短, 且可能因为口语化及不正式表达, 造成语义密度低, 导致传统金融情感词典难以处理. 本文的分步降维预测框架旨在解决这一问题.
1本文选用的金融情感词典来自姜富伟, 孟令超和唐国豪(2021). 在计算图 1(b)中的比例时, 我们将帖子标题长度人为地加上1, 以避免文本长度为0而无法计算比例的情况.
图1 帖子标题长度分布及帖子中金融情感词典词汇占比分布

Full size|PPT slide

预处理阶段, 首先按照"日-股票"将第i只股票在t日的股吧帖子标题汇总为一条文本, 汇总后共计822543条. 为了能够在预测框架中保证所使用的股吧文本信息是历史信息, 这里我们定义t日的文本覆盖时间为t1日收盘(下午3点)至t日连续竞价开始前(上午9点30分). 接着按照文本处理的一般流程, 对文本做分词、删去停词和特殊符号, 得到该文本的词汇行向量, 记为xitraw. 股票i所有交易日的词汇向量共同构成的原始词汇矩阵记为Xiraw, Xiraw=(xi1raw,xi2raw,,xiTraw), T为交易日天数. 此外, 在Wind数据库中下载中证500指数成份股的日度收盘价数据, 计算每只股票日度的贝塔调整收益率, 将第i只股票在t日的贝塔调整收益率记为yit, 相应地, 股票i所有交易日的贝塔调整收益率为Yi, Yi=(yi1,yi1,,yiT). 在预测模型中, 股票i的第t条文本xitrawyit相关联. 为了调参和评价模型预测效果, 我们将2015年1月–2020年12月作为模型训练集, 2021年1月–6月作为模型验证集, 2021年7月–12月作为模型测试集.

3 分步降维框架

与以往基于词典的金融文本分析不同, 本文主要借鉴Fan et al. (2020, 2021)中构建的分步降维框架, 试图完全依据词汇共现矩阵来提取有预测价值的关键信息. 上述研究中是将所有股票的新闻文本一并放入模型构建, 而本文则是对每一只股票分别构建预测模型, 再根据各个模型预测结果, 得到相应股票的样本外预测结果. 下面为简便起见, 忽略代表股票的下角标i, 即将Xiraw记为Xraw, Yi记为Y, 以此类推.

3.1 按照词频初步降维

D为股票i的所有文本条目中所有可能的词汇集合, 也即Xraw的变量集合. 在本预测框架中, 假设Y仅受到D中一部分词汇影响, 那么就需要在建立预测模型时对Xraw做降维. 事实上, 在本文采用的股吧文本中, Xraw通常是非常高维且稀疏的——在822543条文本中, 只有70215个词在至少50条文本中出现, 将Xraw直接用于预测模型的构建既浪费算力, 又可能使预测模型受到大量不常用、甚至无用词汇的影响. 因此, 我们首先过滤掉只出现在一小部分短文本条目中的不常用词. 记包含词汇j的文本条目数量为kj, 阈值参数为κ(0,1), 若词汇j出现的文本数量大于所有文本数量的κ2, 则认为该词汇有用. 那么, 根据阈值能够得到初步降维后的词汇集合为:
2由于已经将每个股票在每个交易日的股吧帖子标题文本汇总为了一条文本, 因此这里文本总量即为交易日天数T.
Dfreq={j-th word in D:kjκT}.
阈值参数κ越大, 则要求保留下来的词汇出现在文本条目中的频次越多, 是较为高频出现的词汇, 这时得到的Dfreq集合规模越小. 另外, 记Dfreq集合大小为p, 对应于Dfreq集合词汇矩阵为X, 显然X的维数是T×p, 该矩阵第t行第j列的元素记为xtj. 当词汇jDfreq在第t日的文本条目中出现时xtj取值为1, 否则取值为0.

3.2 基于主成分分析的无监督降维

延续文本分析中主题模型的思想, 假设每条文本由某几个主题组成, 每个主题都有自己的常用词汇. 因此, 帖子的态度、相关行业、作者自己的词偏好等不同, 会使得不同文本条目中的词汇不同, 也即文本所要表达的主题会影响X中元素的取值. 这些主题可以看做是一些潜在因子, 而这些潜在因子可以采用主成分分析进行估计. 主成分分析一方面可以提取文本中蕴含的主要信息, 另一方面可以通过保留少数成分个数, 达到降维的目的, 属于无监督降维方法. 具体而言, 在本文情境中, 对于词汇矩阵为X, 可以将其分解为:
X=FB+U,
(1)
其中, Fk个成分即潜在因子构成的矩阵, 其维数为T×k; B是载荷矩阵; U则为无法被F解释的特殊因子; XU均是T×p维矩阵.等号右边三个矩阵均可通过主成分分析来估计得到相应的U^F^B^.

3.3 基于变量扫描的有监督降维

由主成分分析估计得到的U^中包含了每条文本的特质信息, 下面使用变量扫描方法, 从U^中进一步筛选词汇, 也即寻找U^中对于预测有用的信息. 具体而言, 首先将因变量Y对已提取的潜在因子F^做回归, 得到回归的残差, 记为Y~. 接着, 将Y~作为筛选U^的预测目标, 也即寻找U^中与Y~高度相关的词汇. 记筛选后的词汇集合为S, 有SDfreq, 并将集合S中的词汇视为"情感词". 同时, 考虑到词汇与Y~正相关或负相关都可能对预测有用, 因此按照相关性的方向分别筛选, 得到正向(正相关)词汇集合S+和负向(负相关)词汇S集合, S=S+S. 具体地, 根据超参数α得到:
S={j:rank(|corr(U^j,Y~)|)>α/2},
(2)
其中corr(,)是计算皮尔逊相关系数, rank()是将所有相关系数由大到小排序后的序号. 可见, 超参数α决定了集合S的大小.

3.4 预测模型

有了因子和情感词后, 原始股吧文本的维度被大大降低, 继而可以建立下述回归模型:
a^,β^=argmina,β{1TtT(ytaCONCAT(ft,utS)β)2+λβ1},
(3)
其中, ytt日的贝塔收益率, utSU^中由情感词子集S对应列向量构成矩阵的第t行, ftF^中的第t行, CONCAT(ft,utS)是将两个行向量按行拼接, β是回归系数, T是样本窗口内的交易天数, λ是控制模型大小的超参数, 可用于进一步降低变量维度. 定义λs为模型(3)中超参数λ对应的变量个数. 为便于观察模型最终的变量个数, 在调参过程中, 我们将令λs取不同值, 并观察预测效果.
在预测样本外文本条目时, 先根据3.1节的步骤将其整理为词汇矩阵, 记为Xnew. 接着, 由3.2节估计得到的载荷矩阵B^, 依次计算因子估计值f^ new=(B^TB^)1B^TX new和矩阵u new=X newf^ newB^, 继而保留u new中对应于S集合的子矩阵, 记为unewS. 最后, 根据模型(3)得到文本条目对应的股票贝塔调整收益率的预测值
Y^ new=a^+CONCAT(f new,unewS)β^.
(4)
本文采用关键信息抽取与预测框架如图 2所示. 可见, 该框架是分步降维的思想: 先采用无监督学习即主成分分析将蕴含在文本内部的潜在"话题"提取出来, 再使用变量扫描进一步约减文本矩阵的维度, 最后考虑文本词汇向量之间的相互影响, 建立带有惩罚的回归模型, 实现预测目标. 值得说明的是, 在本文针对股吧短文本的预测分析中, 我们对中证500成份股逐个构建如图 2所示的预测框架, 因此各个股票的预测框架所对应的主成分、词汇筛选集合都不尽相同, 更具针对性和灵活性.
图2 预测框架示意图

Full size|PPT slide

4 股吧短文本预测效果

4.1 调参和预测效果评价

本文预测框架中的超参数包括词频阈值κ、主成分个数k、变量扫描参数α和回归模型大小λs. 首先, 基于训练集数据, 在某一组参数下按照第3节步骤构建预测模型, 继而将验证集数据输入到模型中, 得到验证集的预测值后, 再计算均方误差(MSE). 表 1中展示了超参数取不同值时的MSE.
表1 不同超参数在验证集中的预测MSE
κ=0.8 κ=0.88 κ=0.96
α λs k MSE α λs k MSE α λs k MSE
100 20 3 0.00078 100 20 3 0.00077 100 20 3 0.00073
5 0.00072 5 0.00073 5 0.00071
10 0.00068 10 0.00069 10 0.00067
50 3 0.00085 50 3 0.00082 50 3 0.00078
5 0.00077 5 0.00078 5 0.00076
10 0.00073 10 0.00074 10 0.00073
100 3 0.00097 100 3 0.00091 100 3 0.00087
5 0.00089 5 0.00087 5 0.00084
10 0.00084 10 0.00083 10 0.00083
250 20 3 0.0008 250 20 3 0.00078 250 20 3 0.00072
5 0.00076 5 0.00075 5 0.00071
10 0.00071 10 0.0007 10 0.00067
50 3 0.00091 50 3 0.00084 50 3 0.00076
5 0.00081 5 0.0008 5 0.00075
10 0.00077 10 0.00076 10 0.00071
100 3 0.00098 100 3 0.00092 100 3 0.00083
5 0.00088 5 0.00088 5 0.00084
10 0.00084 10 0.00083 10 0.00079
500 20 3 0.00078 500 20 3 0.00076 500 20 3 0.00071
5 0.00074 5 0.00072 5 0.00069
10 0.00069 10 0.00068 10 0.00066
50 3 0.00084 50 3 0.0008 50 3 0.00074
5 0.0008 5 0.00077 5 0.00073
10 0.00076 10 0.00074 10 0.0007
100 3 0.00096 100 3 0.00096 100 3 0.0008
5 0.00089 5 0.00091 5 0.0008
10 0.00084 10 0.00081 10 0.00076
表 1中可以看到, κ越大, 则MSE越小, 这说明初步筛选步骤留下的词汇数量越多, 也即股吧条目中的信息保留得越充分, 则模型越能更好地预测未来收益. α越大, 则MSE相对越小, 这说明在词汇的变量扫描中保留得词汇数量越少, 模型外推预测能力越好. 此外, 相比于较少的成分个数, 主成分分析中的成分个数为10时, 验证集的MSE越低, 说明如果无监督步骤提取的文本主题数量过少, 则可能面临难以泛化到样本外文本数据上的问题, 而提取的文本主题数量越多, 越能更好地在未来的预测任务上取得不错的表现. 与此同时, 在其他参数保持不变的情况下, λs越小时, MSE更小, 表明回归模型越小即非零回归系数越少, 模型的预测效果越好, 这反过来也验证了在股吧短文本数据中, 由于语义密度极低, 大量的词汇是没有预测价值的, 因此约减模型大小十分必要. 最后, 根据MSE最小原则, 本文选取超参数κ=0.96,α=500,λs=20,k=10.

4.2 股吧短文本中有预测价值的词汇

我们将该组超参数所对应的模型在验证集中回归系数非零的词汇视为有预测价值的词汇. 其中, 回归系数为正, 表明整体上该词汇与股票未来收益率呈正相关; 回归系数为负, 表明整体上该词汇与股票未来收益率呈负相关. 由于本文中对400只股票分别建模, 因此得到了400个非零词汇集合. 所有这些集合中, 回归系数为正的词汇数量为469个, 回归系数为负的词汇数量为749个, 可见, 虽然在变量筛选中我们可刻意分别保留了正向、负向词汇, 但最终模型(3)中经过惩罚后的正向、负向词汇数量并不对称. 按照回归系数的方向, 我们汇总了各个词汇在400只股票模型中回归系数非零的次数. 例如, "封板"一词在正向词汇集合中出现了56次, 即有56个股票的回归模型中该词汇的回归系数为正. 图 3展示了模型(3)中的正向词汇和负向词汇, 其中词汇大小与其取得正(或负)回归系数的频次呈正比, 但部分回归系数非零次数较少的词汇并未在图中显示. 从图中可以看到, 正向词汇和负向词汇确实具有明显差异, 正向词汇中包括"封板" "涨停"等典型与涨停有关的词汇, 也有"上涨" "大涨"等明显表达明确上涨预期的词汇, 同时也有"不错" "加油" "解套"等较为口语化的词汇. 而在负向词汇包括"跌停" "跌停板"等典型与跌停有关的词汇, 也包括"不涨" "下跌" "调整" "低开"等描述价格下降趋势的词汇, 以及"垃圾" "出货" "一日游" "上当"等口语化的表述.
图3 预测模型中非零回归系数的词云图

Full size|PPT slide

事实上, 由于股吧用户多为散户, 其语言习惯和财经新闻、分析师等角色具有很大差异, 其文本信息中与股票走势具有强相关的词汇也会异于非散户发言的文本(Sun et al. (2017)). 在图 1(b)中已经发现本文研究的股吧短文本中, 金融情感词典的词汇含量很低. 这里为了进一步展示股吧短文本的特殊性, 我们观察了在所有模型中回归系数非零——对个股具有预测能力的词汇——与金融情感词典的差异. 我们发现, 本文模型中回归系数非零的词汇不属于金融情感词典中的比例为85.79%, 且出现频次较大的词汇也有很大一部分是口语化用词. 因此, 如果在股吧短文本分析中, 采用传统基于情感词典的分析方式, 可能会错失大量有价值的词汇信息, 造成预测的不准确或文本语义提取的不充分. 也正因如此, 近年来完全由文本数据出发的信息抽取在金融市场研究中受到关注, 包括一些基于机器学习方法的研究(Ballinari and Behrendt (2021), Donovan et al. (2021), Frankel et al. (2022)), 与本文采用的预测框架思路不谋而合.
此外, 考虑到本文是针对个股构建抽取股吧短文本信息的预测模型, 对于不同股票的关键词汇可能并不相同. 图 4采用热力图的方式, 展示了两个股票各自预测模型中回归系数为正(或负)的词汇重合数量, 由于两两股票重合次数是对称的, 因此, 仅在热力图的上三角部分展示取值, 下三角部分统一取值为0, 颜色越深, 重合词汇数量越多. 可以看到, 在正向词中两两股票最多重复5个词(经过变量筛选后输入到模型(3)的正向、负向词汇数量分别为k=10). 例如, "东方通信"和"攀钢钒钛"两只股票在正向词中有5个词重合, 分别是"终于" "涨停板" "涨幅" "涨停" "上涨", 多为较为常见刻画股票价格上涨趋势的词汇. 另外, 在负向词中两两股票最多重复6个词. 除此之外, 大部分股票之间的重合率都很低, 这说明对于不同股票而言, 提供关键信息的词汇并不相同. 例如, 股票"攀钢钒钛"的模型中正向词汇还有"新能源"和"钢铁", 其中"新能源"一词只在该股票模型中回归系数非零, "钢铁"一词除了出现在攀钢钒钛模型中, 还出现在股票"山煤国际"的模型中. 较低的关键词汇重合度说明, 对于不同的股票而言, 股吧短文本中的关键信息并不相同, 而对于在传统金融情感词典方法中, 开展对任一股票的文本分析时都是基于固定词典中的词汇, 无法提供针对个股的关键信息, 本文的方法则可以很好地识别出这一点. 这也是该方法与传统金融情感词典方法的重要差异之一.
图4 两两股票非零回归系数词汇的重合数量

Full size|PPT slide

进一步发现, 在不同的股票模型中, 与金融情感词典重合的关键词汇的回归系数大小也表现出明显差异. 图 5中展示了几个金融情感词典中的词汇在不同股票模型中的回归系数情况. 可以清晰地看到, 同一个词汇在不同股票上的回归系数大小有波动, 也即一个词汇在预测模型中的重要性是随着股票的变化而变化的.
图5 金融情感词典中词汇在不同股票的模型中回归系数举例

Full size|PPT slide

最后探讨分步降维中信息提取的差异性. 从第3节的模型介绍中可以看到, 每个词汇有两次"机会"进入到预测模型: 第一次机会是在主成分分析步骤, 由式(1)中的主成分载荷对预筛选的词汇矩阵做加权, 此时各个词汇会得到各自的载荷值, 载荷值越大, 表示其对该成分的影响相对更大, 而载荷值越小, 则表明该词汇在计算成分得分时作用相对较小; 第二次机会是在变量扫描过程中, 若一个词汇与因变量的相关性越大, 则越可能保留下来, 继而由模型(3)采用惩罚项进一步对变量扫描后的词汇做筛选. 图 3已经展示了在第二次机会中, 模型保留下来的词汇是哪些. 下面我们考察在第一次机会, 也即主成分分析中, 有哪些词汇是对主成分的构成具有较大影响的. 具体而言, 我们聚焦每个股票模型提取的前5个成分, 分别将词汇载荷的绝对值大于所有载荷绝对值99%分位数的词汇挑选出来, 也即这里特别关注对主成分构成影响相对更大的词汇, 记该集合为Spca. 接着, 我们想要知道在对主成分影响较大的这些词汇中, 哪些词汇只通过主成分进入到预测模型, 因此从Spca中剔除在任何一只股票的模型(3)中回归系数不为零的词汇, 发现符合条件的有686个词汇, 即有686个词汇没有在第二次机会中重复进入模型, 而是通过第一次机会主成分分析在模型中起作用. 由于在不同股票模型中, 不同成分所代表的主题不尽相同, 难以确定各个成分的实际含义, 故而在表 2中, 我们仅将在至少2只股票模型中满足上述条件的词汇展示出来(在686个词汇中, 有351个至少在2只股票模型的主成分中出现). 可以看到, 同一个词汇的确会在不同的成分中重复出现, 即与其他词汇共同构成不同的话题. 而在各个话题中, 也会有独特的词汇与之相关. 此外, 表中展示的词汇是对图 3中回归系数非零词汇的一种补充. 整体上看, 模型分步降维的每个步骤捕捉了股吧短文本中不同维度的信息, 提供了有效的语义信息提取方式.
表2 在主成分中重要的词汇
词汇
仅在1个成分中出现 幻想, 战略, 户数, 抢筹, 换手, 三季度, 不休, 不要脸, 东风, 为止, 京东方, 使用, 供应商, 傲傲傲, 具有, 凤凰, 分钱, 创板, 制造, 千万, 南京, 厦门, 哥哥, 国产, 国外, 均线, 垫底, 增加, 外围, 大哭, 大户, 大盘股, 天下, 央行, 妖股, 存在, 完成, 实业, 实现, 宣布, 属于, 布局, 平安, 庄托, 应用, 彻底, 得意, 快快, 承诺, 投产, 投入, 拉稀, 拜神, 持仓, 持续, 换手率, 排名, 控盘, 推进, 放大, 政策, 整合, 文化, 方大, 方面, 旗下, 星期一, 显示, 暴雷, 有效, 有望, 有色金属, 服务, 本人, 杀猪, 杀跌, 杭州, 模式, 横盘, 正常, 比较, 海外, 涨跌, 湖南, 火箭, 炒作, 狗屎, 独角兽, 理财, 留下, 直播, 石墨, 破净, 科技股, 空狗, 立帖, 管理, 结束, 绝对, 老板, 一元, 万达, 三元, 自主, 苹果, 补贴, 表示, 规模, 贵司, 转债, 进口, 远离, 阿斗
仅在2个成分中出现 港股, 游资, 爆仓, 万科, 中心, 人工智能, 保险, 借壳, 僵尸, 光电, 全面, 净利润, 创业, 创近, 制药, 北上, 原油, 反对票, 向下, 周线, 回复, 国资, 坚定, 多头, 大爷, 宝宝, 接盘, 控制, 提供, 支持, 收益, 改名, 新冠, 新疆, 最近, 有人, 本周, 来源, 概念股, 武汉, 比亚迪, 永远, 江苏, 没救, 河北, 海南, 爷爷, 猪力, 玩意, 申请, 石化, 科创, 科创板, 缺德, 老夫, 记录, 负债, 贵州, 进展, 铁矿石, 风电
仅在3个成分中出现 盈利, 破位, 管理层, 美股, 上调, 中药, 主要, 关联, 出口, 分拆, 参股, 发行, 可转债, 啥意思, 回答, 地产股, 大幅, 太阳, 孙子, 宁德, 宁波, 尊敬, 工程, 年度, 广州, 恶庄, 恶心, 意淫, 投票, 披露, 担保, 方案, 早盘, 暴涨, 最低, 有点, 浙江, 消费, 深港, 混改, 港资, 激励, 猪肉, 王八, 电商, 系统, 万净, 经济, 茅台, 规划, 货币, 金控, 长城, 领域, 食品, 骗子
仅在4个成分中出现 举报, 短线, 国企改革, 商誉, 人数, 会议, 你好, 农业, 决议, 动力, 募集, 发电, 口罩, 召开, 同比, 员工, 周期, 哈哈哈哈, 土地, 城市, 增减, 增长, 大哥, 大师, 天净, 子公司, 山东, 山西, 年报, 广电, 截止, 截至, 打压, 抄底, 报告, 招商, 摊手, 改革, 新低, 新高, 时间, 智慧, 智能, 有限公司, 机器人, 次新股, 油价, 注入, 涨价, 游戏, 湖北, 热门, 燃气, 牛市, 特钢, 狗庄, 独立, 环境, 生产, 电器, 电池, 目标价, 相关, 石油, 研发, 网络, 美国, 股东大会, 腾讯, 董事, 董事会, 董事长, 蚂蚁, 跌到, 转发, 转让, 通信
在5个成分中均出现 余额, 创投, 化工, 半导体, 华为, 品牌, 回顾, 国际, 基建, 外资, 天然气, 工业, 您好, 房地产, 手机, 投资者, 控股, 新区, 是否, 有色, 材料, 板块, 核电, 汽车, 没有, 流出, 深圳, 深股, 港口, 物流, 特斯拉, 生物, 电力, 电子, 疫情, 疫苗, 白酒, 盘前, 稀土, 股通, 药业, 获深, 融券, 阿里
上述结果也揭示了本文方法与传统金融词典方法的差异. 传统的金融词典方法通常赋予每个词汇相同的权重, 对不同的股票提供的是一种"静态"的信息抽取方案, 这使得金融情感词典方法不具备对不同股票提供不同的关键词或调整关键词权重的能力, 存在增加非关键词汇权重、降低关键词汇权重的风险. 当某一词汇因为股票的不同而出现语义重要性的"飘移"时, 金融情感词典方法则很有可能失效. 相比之下, 本文采用针对个股的预测模型构建思路, 提供了一种更灵活、更细粒度的分析维度和视角. 总体而言, 本文不仅能够应对不同文本的特殊性, 还有潜力深入挖掘与预测目标最为相关的信息, 从而达到令人满意的预测效果. 与此同时, 如何利用该方法来有针对性抽取关键词汇, 从个股粒度动态地补充和完善既有的静态的金融词典, 也是值得未来研究关注的问题.

4.3 投资组合的构建

本节将4.1中选定超参数对应的模型作为预测模型, 预测在测试集上各个股票的日度贝塔调整收益率后, 根据日度收益率的预测结果构建一个简单的投资策略. 具体而言, 对于交易日t, 将各个股票t日内的股吧短文本输入到其对应的预测模型中, 得到各个股票的收益率预测值. 将收益率预测值按大小对股票排序, 并在t+1日买入排序最靠前的10只股票, 也即被模型认为是最可能上涨的股票, 持有一天后卖出. 在不考虑交易成本的情况下, 该投资组合在t日开盘投入1元, 则在收盘时卖出的收益为1/10i=110rit元, 其中rit为股票it日的真实收益率. 该投资组合从测试集伊始至t0交易日的累计收益为tt0(1/10i=110rit)元. 图 6(a)展示了该投资策略累计收益情况, 其中, 圆形标志线(PCA)为使用本文预测框架方法, 方形标志线(CSI500)为相似的策略每日买入中证500指数的收益, 十字形标志线(random)相似的策略每日随机抽取的10只股票. 结果显示, 该预测框架相对于其他两种对比方案可以获得更高的收益. 特别地, 买卖指数或随机买卖指数成份的策略收益明显低于基于预测模型的策略收益, 这说明股吧短文本信息的预测性是具有经济价值的.
图6 (a) 等比例投资组合累计收益; (b) 测试集的预测误差平方和

Full size|PPT slide

4.4 消融实验

在股吧短文本数据的关键信息抽取框架中, 采用了既包含无监督降维(主成分分析)和有监督降维(变量扫描和Lasso回归), 其中有监督降维保证了抽取的信息与预测目标——个股收益——较为相关, 而无监督步骤则有可能纳入与预测目标相关性较低的信息. 为了说明该框架中分步降维里无监督步骤的重要性, 我们将预测框架中的主成分分析步骤剔除, 框架中的其他步骤保持不变. 此时, 该框架仅采用第3.1节的初步筛选以及第3.3节中的变量筛选方法, 即将U等价为X, 保留X中与预测目标相关性大的词汇变量, 且在建立模型(4)时忽略PCA方法涉及的F. 按照第4.1节调参的思路对使用该框架做相应的调参, 发现其在验证集上取得最小MSE时的超参数是κ=0.96,α=500,λs=20, 与包含主成分分析的框架超参数一致. 进一步, 计算在训练集上所有股票的预测误差平方之和in(yity^it)2, 图 6(b)展示了框架中分别使用PCA和不使用PCA时, 样本内的股票在截至交易日m的累计误差平方和tm(in(yity^it)2). 从中可以看到, 在半年的时间窗口下, 包含PCA的方案整体上优于不包含PCA方案. 可见, 从预测准确性的角度上看, 分步降维中使用无监督学习方式是必要的. 与此同时, 图 6(a)三角标志线(without PCA)为在预测框架剔除PCA步骤, 由图可见, 预测框架中使用PCA带来的收益比不使用PCA更高, 再次表明分步降维中无监督学习的重要性.

5 结论

本文将分步降维框架扩展至社交媒体, 以期从长度较短、表达口语化、语义密度低的短文本数据中抽取能够预测个股收益的关键信息. 基于东方财富网股吧短文本, 预测中证500成份股的未来收益表明, 这些短文本中具有预测能力的词汇与传统的金融词典并不完全重叠, 且关键词汇体现出明显的口语化特征和语义波动性, 预示着未来对股吧短文本分析时要充分考虑这些非典型词汇. 更重要的是, 本文结果表明该预测框架能够很好地从股吧短文本中提取有助于预测任务的信息, 验证了该方法为解决此类问题提供了一种有效的技术路径, 具有重要的应用价值.

参考文献

部慧, 解峥, 李佳鸿, 吴俊杰, 基于股评的投资者情绪对股票市场的影响[J]. 管理科学学报, 2018, 21 (4): 86- 101.
Bu H , Xie Z , Li J H , Wu J J , Investor Sentiment Extracted from Internet Stock Message Boards and Its Effect on Chinese Stock Market[J]. Journal of Management Sciences in China, 2018, 21 (4): 86- 101.
陈张杭健, 吴粤, 李世炳, 任飞, 股吧个体信息交互对股价联动关系的影响研究[J]. 管理科学学报, 2021, 24 (5): 47- 69.
Chen Z H J , Wu Y , Li S B , Ren F , Impact of Interaction of Individual Stock Bar Information on Stock Price Co-movement[J]. Journal of Management Sciences in China, 2021, 24 (5): 47- 69.
洪永淼, 汪寿阳, 大数据, 机器学习与统计学: 挑战与机遇[J]. 计量经济学报, 2021, 1 (1): 17- 35.
Hong Y M , Wang S Y , Big Data, Machine Learning and Statistics: Challenges and Opportunities[J]. China Journal of Econometrics, 2021, 1 (1): 17- 35.
姜富伟, 孟令超, 唐国豪, 媒体文本情绪与股票回报预测[J]. 经济学(季刊), 2021, 21 (4): 1323- 1344.
Jiang F W , Meng L C , Tang G H , Media Textual Sentiment and Chinese Stock Return Predictability[J]. China Economic Quarterly, 2021, 21 (4): 1323- 1344.
石勇, 唐静, 郭琨, 社交媒体投资者关注, 投资者情绪对中国股票市场的影响[J]. 中央财经大学学报, 2017, (7): 45- 53.
Shi Y , Tang J , Guo K , The Study of Social Media Investor Attention and Sentiment's Influence on Chinese Stock Market[J]. Journal of Central University of Finance & Economics, 2017, (7): 45- 53.
孙鲲鹏, 肖星, 互联网社交媒体, 投资者之间交流与资本市场定价效率[J]. 投资研究, 2018, 37 (4): 140- 157.
Sun K P , Xiao X , Social Media, Communication among Investors, and Capital Market Pricing Effciency[J]. Review of Investment Studies, 2018, 37 (4): 140- 157.
王丹, 孙鲲鹏, 高皓, 社交媒体上"用嘴投票"对管理层自愿性业绩预告的影响[J]. 金融研究, 2020, 485 (11): 188- 206.
Wang D , Sun K P , Gao H , The Impact of "Voting with Your Mouth" on Management Voluntary Disclosure[J]. Journal of Financial Research, 2020, 485 (11): 188- 206.
熊艳, 论坛发帖与股价行为: 情绪宣泄还是信息传递?[J]. 中央财经大学学报, 2022, (5): 29- 45.
Xiong Y , Forum Posting and Stock Price: Emotional Disclosure or Information Transmission?[J]. Journal of Central University of Finance & Economics, 2022, (5): 29- 45.
张继勋, 张广冬, 杨小娟, 社交媒体建议理由具体性、发帖人经验与投资者判断——一项实验研究[J]. 南开管理评论, 2021, 24 (1): 131- 135.
Zhang J X , Zhang G D , Yang X J , The Concreteness of the Arguments for Advice, Posters' Experience on Social Media Platforms and Investors' Judgments: An Experimental Research[J]. Nankai Business Review, 2021, 24 (1): 131- 135.
张维, 李奕, 王鹏飞, 社交媒体与资本市场研究进展与展望: 基于文献计量的方法[J]. 计量经济学报, 2022, 2 (1): 32- 57.
Zhang W , Li Y , Wang P F , Social Media and Capital Markets: A Bibliometric Analysis[J]. China Journal of Econometrics, 2022, 2 (1): 32- 57.
Ammann M , Schaub N , Do Individual Investors Trade on Investment-related Internet Postings?[J]. Management Science, 2021, 67 (9): 5679- 5702.
Ballinari D , Behrendt S , How to Gauge Investor Behavior? A Comparison of Online Investor Sentiment Measures[J]. Digital Finance, 2021, 3 (2): 169- 204.
Das S R , Chen M Y , Yahoo! For Amazon: Sentiment Extraction from Small Talk on the Web[J]. Management Science, 2007, 53 (9): 1375- 1388.
Donovan J , Jennings J , Koharki K , Lee J , Measuring Credit Risk Using Qualitative Disclosure[J]. Review of Accounting Studies, 2021, 26 (2): 815- 863.
Fan J Q , Ke Y , Wang K Z , Factor-adjusted Regularized Model Selection[J]. Journal of Econometrics, 2020, 216 (1): 71- 85.
Fan J Q, Xue L, Zhou Y, (2021). How Much Can Machines Learn Finance from Chinese Text Data?[R]. Available at SSRN 3765862.
Fan J Q , Lv J C , Sure Independence Screening for Ultrahigh Dimensional Feature Space[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70 (5): 849- 911.
Frankel R , Jennings J , Lee J , Disclosure Sentiment: Machine Learning vs. Dictionary Methods[J]. Management Science, 2022, 68 (7): 5514- 5532.
Sun Y C, Fang M T, Wang X Y, Diao S Z, (2017). Gubalex: Guba-oriented Sentiment Lexicon for Big Texts in Finance[C]// IEEE, 2017 13th International Conference on Semantics, Knowledge and Grids(SKG): 25-32.
Tetlock P C , Giving Content to Investor Sentiment: The Role of Media in the Stock Market[J]. The Journal of Finance, 2007, 62 (3): 1139- 1168.

基金

国家自然科学基金(72021001)
国家自然科学基金(72001222)
国家自然科学基金(71871006)

版权

版权所有,未经授权。
PDF(5885 KB)

620

Accesses

0

Citation

Detail

段落导航
相关文章

/