
基于分步降维框架的股吧短文本数据关键信息抽取与个股收益预测
Feature Extraction from Guba Short-text Messages and Stock Return Prediction: A Multistep Dimension Reduction Framework
社交媒体是股市投资者获取金融信息的重要来源, 其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意, 口语化严重, 长度较短且语义密度低, 使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期
Social media is an important source for stock market investors to obtain financial information, where the emotional and other relevant signals contained in users' posts are closely related to the stock prices. However, since these posts are mostly freely expressed, highly colloquial, short in length and extremely low in semantic density, the traditional text analysis method based on sentiment dictionary faces with the risk of losing valuable information. The recent multi-step dimension reduction framework proposed by
社交媒体 / 短文本数据 / 主成分分析 / 变量筛选 / 股价预测 {{custom_keyword}} /
social media / short-text data / principal component analysis / variable selection / stock return prediction {{custom_keyword}} /
表1 不同超参数在验证集中的预测MSE |
MSE | MSE | MSE | |||||||||||
100 | 20 | 3 | 0.00078 | 100 | 20 | 3 | 0.00077 | 100 | 20 | 3 | 0.00073 | ||
5 | 0.00072 | 5 | 0.00073 | 5 | 0.00071 | ||||||||
10 | 0.00068 | 10 | 0.00069 | 10 | 0.00067 | ||||||||
50 | 3 | 0.00085 | 50 | 3 | 0.00082 | 50 | 3 | 0.00078 | |||||
5 | 0.00077 | 5 | 0.00078 | 5 | 0.00076 | ||||||||
10 | 0.00073 | 10 | 0.00074 | 10 | 0.00073 | ||||||||
100 | 3 | 0.00097 | 100 | 3 | 0.00091 | 100 | 3 | 0.00087 | |||||
5 | 0.00089 | 5 | 0.00087 | 5 | 0.00084 | ||||||||
10 | 0.00084 | 10 | 0.00083 | 10 | 0.00083 | ||||||||
250 | 20 | 3 | 0.0008 | 250 | 20 | 3 | 0.00078 | 250 | 20 | 3 | 0.00072 | ||
5 | 0.00076 | 5 | 0.00075 | 5 | 0.00071 | ||||||||
10 | 0.00071 | 10 | 0.0007 | 10 | 0.00067 | ||||||||
50 | 3 | 0.00091 | 50 | 3 | 0.00084 | 50 | 3 | 0.00076 | |||||
5 | 0.00081 | 5 | 0.0008 | 5 | 0.00075 | ||||||||
10 | 0.00077 | 10 | 0.00076 | 10 | 0.00071 | ||||||||
100 | 3 | 0.00098 | 100 | 3 | 0.00092 | 100 | 3 | 0.00083 | |||||
5 | 0.00088 | 5 | 0.00088 | 5 | 0.00084 | ||||||||
10 | 0.00084 | 10 | 0.00083 | 10 | 0.00079 | ||||||||
500 | 20 | 3 | 0.00078 | 500 | 20 | 3 | 0.00076 | 500 | 20 | 3 | 0.00071 | ||
5 | 0.00074 | 5 | 0.00072 | 5 | 0.00069 | ||||||||
10 | 0.00069 | 10 | 0.00068 | 10 | 0.00066 | ||||||||
50 | 3 | 0.00084 | 50 | 3 | 0.0008 | 50 | 3 | 0.00074 | |||||
5 | 0.0008 | 5 | 0.00077 | 5 | 0.00073 | ||||||||
10 | 0.00076 | 10 | 0.00074 | 10 | 0.0007 | ||||||||
100 | 3 | 0.00096 | 100 | 3 | 0.00096 | 100 | 3 | 0.0008 | |||||
5 | 0.00089 | 5 | 0.00091 | 5 | 0.0008 | ||||||||
10 | 0.00084 | 10 | 0.00081 | 10 | 0.00076 |
表2 在主成分中重要的词汇 |
词汇 | |
仅在1个成分中出现 | 幻想, 战略, 户数, 抢筹, 换手, 三季度, 不休, 不要脸, 东风, 为止, 京东方, 使用, 供应商, 傲傲傲, 具有, 凤凰, 分钱, 创板, 制造, 千万, 南京, 厦门, 哥哥, 国产, 国外, 均线, 垫底, 增加, 外围, 大哭, 大户, 大盘股, 天下, 央行, 妖股, 存在, 完成, 实业, 实现, 宣布, 属于, 布局, 平安, 庄托, 应用, 彻底, 得意, 快快, 承诺, 投产, 投入, 拉稀, 拜神, 持仓, 持续, 换手率, 排名, 控盘, 推进, 放大, 政策, 整合, 文化, 方大, 方面, 旗下, 星期一, 显示, 暴雷, 有效, 有望, 有色金属, 服务, 本人, 杀猪, 杀跌, 杭州, 模式, 横盘, 正常, 比较, 海外, 涨跌, 湖南, 火箭, 炒作, 狗屎, 独角兽, 理财, 留下, 直播, 石墨, 破净, 科技股, 空狗, 立帖, 管理, 结束, 绝对, 老板, 一元, 万达, 三元, 自主, 苹果, 补贴, 表示, 规模, 贵司, 转债, 进口, 远离, 阿斗 |
仅在2个成分中出现 | 港股, 游资, 爆仓, 万科, 中心, 人工智能, 保险, 借壳, 僵尸, 光电, 全面, 净利润, 创业, 创近, 制药, 北上, 原油, 反对票, 向下, 周线, 回复, 国资, 坚定, 多头, 大爷, 宝宝, 接盘, 控制, 提供, 支持, 收益, 改名, 新冠, 新疆, 最近, 有人, 本周, 来源, 概念股, 武汉, 比亚迪, 永远, 江苏, 没救, 河北, 海南, 爷爷, 猪力, 玩意, 申请, 石化, 科创, 科创板, 缺德, 老夫, 记录, 负债, 贵州, 进展, 铁矿石, 风电 |
仅在3个成分中出现 | 盈利, 破位, 管理层, 美股, 上调, 中药, 主要, 关联, 出口, 分拆, 参股, 发行, 可转债, 啥意思, 回答, 地产股, 大幅, 太阳, 孙子, 宁德, 宁波, 尊敬, 工程, 年度, 广州, 恶庄, 恶心, 意淫, 投票, 披露, 担保, 方案, 早盘, 暴涨, 最低, 有点, 浙江, 消费, 深港, 混改, 港资, 激励, 猪肉, 王八, 电商, 系统, 万净, 经济, 茅台, 规划, 货币, 金控, 长城, 领域, 食品, 骗子 |
仅在4个成分中出现 | 举报, 短线, 国企改革, 商誉, 人数, 会议, 你好, 农业, 决议, 动力, 募集, 发电, 口罩, 召开, 同比, 员工, 周期, 哈哈哈哈, 土地, 城市, 增减, 增长, 大哥, 大师, 天净, 子公司, 山东, 山西, 年报, 广电, 截止, 截至, 打压, 抄底, 报告, 招商, 摊手, 改革, 新低, 新高, 时间, 智慧, 智能, 有限公司, 机器人, 次新股, 油价, 注入, 涨价, 游戏, 湖北, 热门, 燃气, 牛市, 特钢, 狗庄, 独立, 环境, 生产, 电器, 电池, 目标价, 相关, 石油, 研发, 网络, 美国, 股东大会, 腾讯, 董事, 董事会, 董事长, 蚂蚁, 跌到, 转发, 转让, 通信 |
在5个成分中均出现 | 余额, 创投, 化工, 半导体, 华为, 品牌, 回顾, 国际, 基建, 外资, 天然气, 工业, 您好, 房地产, 手机, 投资者, 控股, 新区, 是否, 有色, 材料, 板块, 核电, 汽车, 没有, 流出, 深圳, 深股, 港口, 物流, 特斯拉, 生物, 电力, 电子, 疫情, 疫苗, 白酒, 盘前, 稀土, 股通, 药业, 获深, 融券, 阿里 |
部慧, 解峥, 李佳鸿, 吴俊杰, 基于股评的投资者情绪对股票市场的影响[J]. 管理科学学报, 2018, 21 (4): 86- 101.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
陈张杭健, 吴粤, 李世炳, 任飞, 股吧个体信息交互对股价联动关系的影响研究[J]. 管理科学学报, 2021, 24 (5): 47- 69.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
洪永淼, 汪寿阳, 大数据, 机器学习与统计学: 挑战与机遇[J]. 计量经济学报, 2021, 1 (1): 17- 35.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
姜富伟, 孟令超, 唐国豪, 媒体文本情绪与股票回报预测[J]. 经济学(季刊), 2021, 21 (4): 1323- 1344.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
石勇, 唐静, 郭琨, 社交媒体投资者关注, 投资者情绪对中国股票市场的影响[J]. 中央财经大学学报, 2017, (7): 45- 53.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
孙鲲鹏, 肖星, 互联网社交媒体, 投资者之间交流与资本市场定价效率[J]. 投资研究, 2018, 37 (4): 140- 157.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
王丹, 孙鲲鹏, 高皓, 社交媒体上"用嘴投票"对管理层自愿性业绩预告的影响[J]. 金融研究, 2020, 485 (11): 188- 206.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
熊艳, 论坛发帖与股价行为: 情绪宣泄还是信息传递?[J]. 中央财经大学学报, 2022, (5): 29- 45.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
张继勋, 张广冬, 杨小娟, 社交媒体建议理由具体性、发帖人经验与投资者判断——一项实验研究[J]. 南开管理评论, 2021, 24 (1): 131- 135.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
张维, 李奕, 王鹏飞, 社交媒体与资本市场研究进展与展望: 基于文献计量的方法[J]. 计量经济学报, 2022, 2 (1): 32- 57.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
Fan J Q, Xue L, Zhou Y, (2021). How Much Can Machines Learn Finance from Chinese Text Data?[R]. Available at SSRN 3765862.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
Sun Y C, Fang M T, Wang X Y, Diao S Z, (2017). Gubalex: Guba-oriented Sentiment Lexicon for Big Texts in Finance[C]// IEEE, 2017 13th International Conference on Semantics, Knowledge and Grids(SKG): 25-32.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_ref.label}} |
{{custom_citation.content}}
{{custom_citation.annotation}}
|
/
〈 |
|
〉 |