本文首先介绍了表示学习的数学原理, 分布式的表示使得语言的表达更加丰富和有效, 特别是针对巨量的文本大数据, 以著名的预训练BERT模型为例, 它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息, 也可以通过一个解码器将向量中隐含表达的信息重构出来.本文的主要贡献是两个方面, 第一方面是使用统计方法评估BERT模型的表示能力; 第二方面是利用BERT模型来处理中文句子分词的歧义模糊困难问题.在第一方面: 我们的发现: 一是BERT模型的表示能力的确很充足, 即使是针对数十万的文本数据, 也可以获得较好的向量表示效果, 这说明了BERT模型已经预留了充足的表示向量空间来包含各种复杂的语言结构, 我们发现BERT模型的不同层深度的表示向量表示了语言知识的不同层次信息, 其中第1层表示了单字和单词的信息, 而深度越深, 表示向量则越接近表示文本的整体语言知识(从中文的词组, 再到句子段落, 直到文档以及文档之间的主题语言信息); 二是发现语义相近的句子在BERT向量空间也是处于相近的空间领域, 这说明整个BERT向量表示空间是自适应地将相似的语言组织安排在相近的子空间中.在第二方面, 我们巧妙地利用了这个BERT模型的MASK机制, 该机制允许模型的输入句子中将部分的词随意隐藏掉, 但模型依然能够自适应地预测被隐藏部分的表示向量, 通过比较正确分词以及错误分词masked后的句子表示向量, 我们能够正确地识别出来哪一种分词方法是正确的, 平均准确率达到66.875%.
波谲云诡的国际形势及多变的全球市场环境, 伴随着一系列的"黑天鹅"、"灰犀牛"突发事件. 重大突发事件的冲击效应测算及价格拐点预测一直是学术界特别关心的热点和难点问题之一. 本文提出了一个新的研究框架GSI-BN来分析重大突发事件对原油市场的冲击效应并预测不同事件发生时油价的走势. 首先, 基于谷歌搜索指数(Google Search Index, GSI) 构建突发事件网络舆情关注度指标, 确定不同种类的突发事件的时间窗. 其次, 引入贝叶斯网络(Bayesian Network, BN), 将突发事件简化到拓扑网络图上, 细分突发事件并挖掘事件及其背后的条件概率, 分析突发事件影响机制并预测其发生概率; 最后, 基于情景预判分析预测不同情景下突发事件所导致的油价走势. 实证结果表明: 当供给和需求的月均增速都较高时, 供需仍处于均衡状态, 油价在低价格区间的概率最大; 当供给冲击较大, 需求处于正常水平增速时, 油价处于中低价格区间的概率最大; 需求侧方面, 当金融危机发生时, 原油消费量的次月增速绝对值在中速增长区间的概率最大; 供给侧方面, 两种或三种突发事件同时发生都是小概率事件. 此外, 随着OPEC致力于减产, 全球石油需求走高. 飓风对价格的影响相较于往年逐渐变小. 金融危机对原油市场的影响是全面的, 只有部分影响会通过需求冲击传导到价格. 战争和OPEC会议都是短暂的供给冲击, 更多的是反映了市场的预期, 传导到价格时, 不会产生较大的价差. 本文为研究突发事件对原油市场的冲击效应及油价拐点提供了一个新的视角和方法.