
基于文本分析和机器学习的企业风险识别研究
Enterprise Risk Identification Based on Text Analysis and Machine Learning
在传统财务指标基础上, 基于过去、未来和情感视角, 应用文本分析方法和自然语义处理方法, 重构企业风险识别指标体系, 然后引入机器学习方法, 以上市公司财务数据及管理层讨论与分析文本信息为数据来源, 构建企业风险识别模型, 进行企业风险识别. 研究结论如下: 1)通过提供增量信息, 完善风险度量尺度, 构建兼具时态敏感性和情感洞察力的三维风险识别体系, 以更全面、更准确地对企业风险进行测度和识别; 2)引入机器学习算法, 对AdaBoost模型、Hist Gradient Boosting模型、Random Forest模型和Bagging模型进行精度比较, 发现AdaBoost模型最优, 稳健性最好, 可用于企业风险识别; 3)应用机器学习方法和SHAP方法, 进行企业风险特征重要度排序和企业风险识别机理分析, 识别出企业风险关键影响因素, 观察各项风险特征对企业风险识别模型的影响. 本研究能为企业风险识别指标体系设计和风险识别模型优化提供经验证据和决策支持, 并助推企业高质量发展和供应链安全稳定.
Based on the traditional financial indicators, this paper applies text analysis and natural semantic processing methods to reconstruct the enterprise risk identification index system based on past and future perspectives. Then, it introduces machine learning methods to construct an enterprise risk identification model based on the financial data of listed companies and the textual information of management discussion and analysis as the data source for enterprise risk identification and prediction. The conclusions of the study are as follows: 1) By providing additional information, the risk measurement scale can be improved, and a three-dimensional risk identification system that combines temporal sensitivity and emotional insight can more comprehensively and accurately measure and identify business risks. 2) Introduces machine learning algorithms to compare the predictive accuracy of the AdaBoost model, Hist Gradient Boosting model, Random Forest model and Bagging model, and finds that the AdaBoost model is optimal, has the best robustness, and can be used for enterprise risk identification and prediction. 3) By applying machine learning and SHAP methods to rank the importance of enterprise risk characteristics and analyze the mechanism of enterprise risk identification, the key influencing factors of enterprise risk can be identified, and the impact mechanism of various risk characteristics on the enterprise risk identification model can be observed. This study can provide empirical evidence and decision support for the design of enterprise risk identification index system and optimization of risk identification model, as well as promote the high-quality development of enterprises and supply chain security and stability.
文本分析 / 机器学习 / 外部风险 / 供应链风险 / 未来风险 {{custom_keyword}} /
text analytics / machine learning / external risk / supply chain risk / future risk {{custom_keyword}} /
表1 关键词表 |
风险披露指标类型 | 具体关键词 |
行业风险披露指数(IR) | 行业、领域、产业、市场 |
宏观风险披露指数(MR) | 宏观政策、宏观经济、宏观经济环境、宏观经济形势、宏观调控、经济形势、市场环境 |
经营风险披露指数(OR) | 经营、运营、营运、运作、管理、生产 |
供应商风险披露指数(SR) | 供应商、卖方、上游、供方、供应方、采购商 |
客户风险披露指数(CR) | 客户、用户、服务、专用性、买方、下游、顾客、经销商、消费者、买家 |
表2 企业风险识别指标体系 |
一级风险 | 二级风险 | 特征 | 指标名称 |
外部风险 | 环境风险 | 未来 | 行业风险披露指数(IR) |
未来 | 宏观风险披露指数(MR) | ||
过去 | 环境不确定性指数(EU) | ||
市场风险 | 过去 | Beta指数(Beta) | |
经济政策风险 | 过去 | 经济政策不确定性指数(FEPU) | |
企业内部风险 | 融资约束 | 过去 | KZ指数(KZ) |
过去 | SA指数(SA) | ||
财务风险 | 过去 | 营运能力的标准差(TAT) | |
过去 | 盈利能力的标准差(ROA) | ||
过去 | 偿债能力的标准差(AIR) | ||
现金流风险 | 过去 | 全部现金回收率的标准差(TCR) | |
经营风险 | 过去 | 阿尔曼 | |
未来 | 经营风险披露指数(OR) | ||
管理风险 | 自然语言 | 管理层语调(TONE) | |
自然语言 | 文本可读性(READ) | ||
信息风险 | 过去 | KV指数(KV) | |
供应链风险 | 供应风险 | 过去 | 前五大供应商占采购额比的标准差(SC) |
未来 | 供应商风险披露指数(SR) | ||
需求风险 | 过去 | 前五大客户占营业收入比的标准差(RC) | |
未来 | 客户风险披露指数(CR) | ||
依赖风险 | 过去 | 第一大供应商采购额占比的标准差(LSC) | |
过去 | 第一大客户销售额占比的标准差(LRC) |
表3 描述性统计分析 |
变量名称 | 样本量 | 平均值 | 标准差 | 最大值 | 最小值 | 中位数 |
LRC | 8696 | 4.04 | 5.57 | 55.65 | 0.00 | 2.15 |
LSC | 8696 | 4.78 | 5.57 | 62.21 | 0.00 | 2.89 |
RC | 8696 | 5.66 | 6.52 | 57.35 | 0.00 | 3.61 |
SC | 8696 | 6.96 | 6.66 | 62.69 | 0.00 | 4.91 |
SR | 8696 | 0.00 | 0.00 | 0.03 | 0.00 | 0.00 |
CR | 8696 | 0.00 | 0.00 | 0.16 | 0.00 | 0.00 |
8696 | 5.30 | 14.16 | 419.82 | 3.00 | ||
AIR | 8696 | 0.08 | 1.05 | 94.83 | 0.00 | 0.04 |
KV | 8696 | 0.50 | 0.19 | 1.98 | 0.00 | 0.48 |
TCR | 8696 | 0.05 | 0.05 | 1.86 | 0.00 | 0.03 |
ROA | 8696 | 0.05 | 0.37 | 17.61 | 0.00 | 0.02 |
TONE | 8696 | 0.36 | 0.13 | 0.74 | 0.38 | |
TAT | 8696 | 0.11 | 0.17 | 4.21 | 0.00 | 0.07 |
KZ | 8696 | 1.05 | 2.26 | 11.38 | 1.16 | |
OR | 8696 | 0.01 | 0.01 | 1.26 | 0.00 | 0.00 |
Read | 8696 | 167.52 | 52.86 | 1447.79 | 70.16 | 165.24 |
Beta | 8696 | 1.13 | 0.28 | 5.16 | 1.13 | |
EU | 8696 | 1.41 | 1.27 | 9.99 | 0.11 | 1.08 |
IR | 8696 | 0.01 | 0.01 | 1.19 | 0.00 | 0.00 |
MR | 8696 | 0.00 | 0.00 | 0.06 | 0.00 | 0.00 |
FEPU | 8696 | 0.00 | 0.00 | 0.01 | 0.00 | 0.00 |
SA | 8696 | 3.84 | 0.25 | 5.28 | 2.63 | 3.84 |
表4 Adaboost参数设计 |
Parameter name | Parameter range | Optimal parameters |
n_estimators | 0 | 124 |
loss | ('linear', 'exponential', 'log') | linear |
Learning_rate | (0.01, 0.05, 0.1, 0.5 and 1.0) | 1.0 |
Base_estimator parameters | Decision Tree Classifier (max_depth= | |
algorithm | (SAMME and SAMME.R) | SAMME.R |
表5 Hist Gradient Boosting参数设计 |
Parameter name | Parameter range | Optimal parameters |
max_iter | 0 | 300 |
learning_rate | (0.01, 0.05, 0.1, 0.5 and 1.0) | 0.1 |
max_leaf_nodes | 0 | 8 |
min_samples_leaf | 1 | 1 |
L2_regularization | (0.0, 0.1, 0.3, 0.5) | 0.1 |
表6 Random Forest参数设计 |
Parameter name | Parameter range | Optimal parameters |
n_estimators | 0 | 140 |
criterion | (gini, entropy) | entropy |
max_depth | 0 | 0 |
Min_samples_split | 0 | 5 |
max_features | (auto, sqrt, log2) | Log2 |
min_samples_leaf | 0 | 1 |
表7 Bagging参数设计 |
Parameter name | Parameter range | Optimal parameters |
n_estimators | 0 | 56 |
base_estimator | Decision Tree Classifier (max_depth= | 10 |
max_samples | 0 | 0.5 |
max_features | 0 | 1.0 |
bootstrap | (True and False) | True |
表8 调参前后模型分类精度对比 |
模型名称 | 调参前Accuracy (%) | 调参后Accuracy (%) |
Adaboost | 95.11 | 96.09 |
Hist Gradient Boosting | 93.62 | 94.94 |
Random Forest | 88.92 | 89.36 |
Bagging | 87.52 | 87.70 |
表9 识别精度比较 |
AdaBoost | Hist Gradient Boosting | ||||||
预测值 | 样本量 | Precision (%) | Recall (%) | Precision (%) | Recall (%) | ||
0 | 1426 | 97.88 | 97.20 | 97.54 | 97.21 | 97.83 | 97.52 |
1 | 314 | 87.65 | 90.45 | 89.03 | 89.84 | 87.26 | 88.53 |
宏平均 | 1740 | 92.77 | 93.82 | 93.28 | 93.52 | 92.54 | 93.02 |
微平均 | 1740 | 96.04 | 95.98 | 96.00 | 95.88 | 95.92 | 95.90 |
Bagging | Random Forest | ||||||
预测值 | 样本量 | Precision (%) | Recall (%) | Precision (%) | Recall (%) | ||
0 | 1426 | 91.73 | 97.20 | 94.38 | 90.56 | 98.25 | 94.25 |
1 | 314 | 82.53 | 60.19 | 69.61 | 87.05 | 53.50 | 66.27 |
宏平均 | 1740 | 87.13 | 78.69 | 82.00 | 88.80 | 75.88 | 80.26 |
微平均 | 1740 | 90.07 | 90.52 | 89.91 | 89.93 | 90.17 | 89.20 |
注: 宏平均(maro avg)和微平均(weighted avg)为模型评估指标, 宏平均是指每类样本预测精度的简单算术平均值, 微平均是以每一类别样本数量在所有类别样本总数的占比为权重计算每类样本预测精度的加权算术平均值. 以AdaBoost模型F1为例, 其宏平均= (97.54+89.03)/2= 93.2 8, 其微平均=97.54*1426/1740+89.03*314/1740=96.00. |
表10 调参前企业风险识别模型分类精度排序表 |
排序 | 模型 | Accuracy (%) | 排序 | 模型 | Accuracy (%) | |
1 | AdaBoost | 95 | 9 | Logistic Regression | 83 | |
2 | Hist Gradien Boosting | 93 | 10 | Bernoulli NB | 80 | |
3 | Random Forest | 88 | 11 | Gaussian NB | 80 | |
4 | Bagging | 87 | 12 | K-Nearest Neighbor | 80 | |
5 | LASSO Logistic Regrexssion | 85 | 13 | Passive Aggressive | 80 | |
6 | MLP | 85 | 14 | Support Vector | 80 | |
7 | Linear Discriminant Analysis | 84 | 15 | Extra Tree | 77 | |
8 | Ridge Logistic Regression | 84 |
表11 四种统计模型预测结果评价表 |
模型 | Recall (%) | Precision (%) | Accuracy (%) | |
LASSO Logistic Regression | 71.50 | 81.26 | 74.69 | 85.86 |
Linear Discriminant Analysis | 70.24 | 80.48 | 73.42 | 84.36 |
Ridge Logistic Regression | 67.72 | 79.44 | 70.91 | 84.13 |
Logistic Regression | 65.69 | 77.59 | 68.62 | 83.04 |
毕晓方, 邢晓辉, 姜宝强, 客户型文化促进了企业创新吗?——来自中国制造业上市公司的经验证据[J]. 会计研究, 2020, 41 (2): 166- 178.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
陈艺云, 基于信息披露文本的上市公司财务困境预测: 以中文年报管理层讨论与分析为样本的研究[J]. 中国管理科学, 2019, 27 (7): 23- 34.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
陈正林, 客户集中、政府干预与公司风险[J]. 会计研究, 2016, 37 (11): 23- 29.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
陈志斌, 王诗雨, 产品市场竞争对企业现金流风险影响研究——基于行业竞争程度和企业竞争地位的双重考量[J]. 中国工业经济, 2015, 32 (3): 96- 108.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
董盈厚, 马亚民, 董馨格, 韩亮亮, 金融资产配置与盈余价值相关性——"有效市场"抑或"功能锁定"[J]. 会计研究, 2021, 42 (9): 95- 105.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
高敬忠, 杨朝, 彭正银, 网络平台互动能够缓解企业融资约束吗——来自交易所互动平台问答的证据[J]. 会计研究, 2021, 42 (6): 59- 75.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
高震男, 魏旭, 张学勇, 供应商集中度与股价崩盘风险: 理论分析与中国实证[J]. 经济学(季刊), 2023, 23 (5): 1991- 2008.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
宫晓莉, 徐小惠, 熊熊, 媒体情绪与企业风险承担——基于机器学习和文本分析的证据[J]. 系统工程理论与实践, 2024, 44 (6): 1869- 1895.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
韩宝山, 李夏, 税收减免提高企业创新活力了吗?——基于融资约束视角的检验[J]. 经济学动态, 2022, 63 (3): 88- 107.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
何超, 李延喜, 李翘楚, 丁晨晨, 不确定性感知视角下企业跨国投资决策研究: 基于企业年报文本的分析[J]. 世界经济研究, 2022, 41 (7): 59- 75.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
何捷, 陆正飞, 定性的未来供应链风险披露与分析师关注行为研究[J]. 会计研究, 2020, 41 (6): 36- 48.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
姬强, 赵万里, 张大永, 郭琨, 气候风险感知对金融市场的影响——基于中国企业层面的微观证据[J]. 计量经济学报, 2022, 2 (3): 666- 680.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
姬颜丽, 王文清, 大数据背景下税收风险识别精准度存量研究——基于机器学习的视角[J]. 财政研究, 2020, 41 (9): 119- 129.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
孔繁辉, 李健, 供应中断风险下OEM供应链弹性运作与提升策略[J]. 中国管理科学, 2018, 26 (2): 152- 159.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
李成刚, 贾鸿业, 赵光辉, 付红, 基于信息披露文本的上市公司信用风险预警——来自中文年报管理层讨论与分析的经验证据[J]. 中国管理科学, 2023, 31 (2): 18- 29.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
彭涛, 黄福广, 孙凌霞, 经济政策不确定性与风险承担: 基于风险投资的证据[J]. 管理科学学报, 2021, 24 (3): 98- 114.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
彭岩, 王万森, 王旭仁, 涂序彦, 基于机器学习的风险预测方法研究[J]. 计算机科学, 2009, 36 (4): 205- 207.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
彭俞超, 倪骁然, 沈吉, 企业"脱实向虚"与金融市场稳定——基于股价崩盘风险的视角[J]. 经济研究, 2018, 53 (10): 50- 66.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
申慧慧, 吴联生, 肖泽忠, 环境不确定性与审计意见: 基于股权结构的考察[J]. 会计研究, 2010, 31 (12): 57- 64.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
沈红波, 刘智博, 洪康隆, 债券信用评级能否反映大客户风险?[J]. 财务研究, 2021, 42 (6): 35- 47.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
史金艳, 杨健亨, 李延喜, 张启望, 牵一发而动全身: 供应网络位置、经营风险与公司绩效[J]. 中国工业经济, 2019, 36 (9): 136- 154.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
宋科, 徐蕾, 李振, 王芳, ESG投资能够促进银行创造流动性吗?——兼论经济政策不确定性的调节效应[J]. 金融研究, 2022, 65 (2): 61- 79.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
田婧倩, 刘晓星, 智能优化算法下的金融安全风险感知监控研究——基于COVID-19期间中国社交网络区域数据[J]. 计量经济学报, 2023, 3 (2): 570- 588.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
修宗峰, 刘然, 殷敬伟, 财务舞弊、供应链集中度与企业商业信用融资[J]. 会计研究, 2021, 42 (1): 82- 99.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
徐寿福, 徐龙炳, 信息披露质量与资本市场估值偏误[J]. 会计研究, 2015, 36 (1): 40- 47.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
徐巍, 姚振晔, 陈冬华, 中文年报可读性: 衡量与检验[J]. 会计研究, 2021, 42 (3): 28- 44.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
杨鸿雁, 田英杰, 机器学习在食品安全风险预警及抽检方案制订中的应用研究[J]. 管理评论, 2022, 34 (11): 315- 323.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
杨莲, 石宝峰, 基于Focal Loss修正交叉熵损失函数的信用风险评价模型及实证[J]. 中国管理科学, 2022, 30 (5): 65- 75.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
杨子晖, 张平淼, 林师涵, 系统性风险与企业财务危机预警——基于前沿机器学习的新视角[J]. 金融研究, 2022, 65 (8): 152- 170.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
郑国坚, 林东杰, 张飞达, 大股东财务困境、掏空与公司治理的有效性——来自大股东财务数据的证据[J]. 管理世界, 2013, 29 (5): 157- 168.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_ref.label}} |
{{custom_citation.content}}
{{custom_citation.annotation}}
|
/
〈 |
|
〉 |