计量经济学报, 2021, 1(2): 250-265 DOI: 10.12012/CJoE2021-0022

论文

数据科学在社会经济领域应用的重心——兼评《十字路口的统计学, 谁来应对挑战》

邱东

江西财经大学, 南昌 330013

The Focus of Data Science Applications in the Socio-Economy: On Statistics at a Crossroads: Who is for the Challenge?

QIU Dong

Jiangxi University of Finance and Economics, Nanchang 330013, China

收稿日期: 2021-01-16  

基金资助: 2019年度国家社科基金"加快构建中国特色哲学社会科学学科体系、学术体系、话语体系"研究专项项目"新时代中国特色统计学基本问题研究".  19VXK08

Received: 2021-01-16  

Fund supported: 2019 NSSFC Special Project of "Research on Basic Issues in Statistics with Chinese Characteristics in a New Era" for "Accelerating the Construction of the Disciplinary System, Academic System, and Discourse System of Philosophy and Social Sciences with Chinese Characteristics".  19VXK08

作者简介 About authors

邱东,江西财经大学讲席教授,世界银行第八轮ICP技术咨询组成员,1995年国务院特殊津贴获得者,2008年长江学者特聘教授,博士,研究方向:国民核算、经济测度、国际比较、多指标综合评价

摘要

社会经济领域是数据科学应用的主要场合之一,如何把握该领域中数据科学的学科格局及其重心,是制定和实施学科发展战略的一个基本问题.本文从我国经济统计的切实需要出发,结合《HMYW 2019统计学报告》中的重要观点,讨论了数据科学在社会经济领域应用的学科格局.本文提出"数据整理方法"、"模糊不确定现象"和"问题导向"是大数据时代数据科学在社会经济中应用时应该把握的三个重心,并分析了各自的重要性和关键点.最后,本文对数据科学未来的发展重心和战略调整进行了探讨.

关键词: 数据科学 ; 社会经济 ; 统计学 ; 学科发展 ; 大数据

Abstract

The socio-economic field is one of the main occasions for data science applications. How to grasp the disciplinary pattern and focus of data science in this field is a basic problem in formulating and implementing discipline development strategies. Based on the practical needs of China's economic statistics and the important points in the "HMYW 2019 Statistics Report", this paper discusses the disciplinary pattern of data science applications in the socio-economy. We propose that "data processing methods", "ambiguity uncertainty phenomenon" and "problem-driven pattern" are the three focuses of the application of data science in the socio-economy in the era of big data, analyzing their respective importance and key points. Finally, we discuss the future development direction and strategic adjustment of data science.

Keywords: data science ; socio-economy ; statistics ; discipline development ; big data

PDF (1024KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

邱东. 数据科学在社会经济领域应用的重心——兼评《十字路口的统计学, 谁来应对挑战》. 计量经济学报[J], 2021, 1(2): 250-265 DOI:10.12012/CJoE2021-0022

QIU Dong. The Focus of Data Science Applications in the Socio-Economy: On Statistics at a Crossroads: Who is for the Challenge?. China Journal of Econometrics[J], 2021, 1(2): 250-265 DOI:10.12012/CJoE2021-0022

在大数据时代, 数字科学发展非常迅速并且得到广泛的应用.笔者认为, 数据不是数字, 数据之"据"决定了其社会意义.应用不是套用, 应用的"应"代表了力求与研究对象相应(即理论和方法的"外部一致性")的基本要求(邱东(2019b)).基于这两点基本认知, 本文讨论数据科学在社会经济领域应用的学科格局.

1 学科格局的"相关性"与重心把握

1.1 基本数据反思对学科发展的启示

本文从中国对数据分析的重大需要说起1.

1地球自转是其实现对太阳公转的必要方式, 如果不许地球自转, 也就等价于不允许地球公转.同样道理, 从国家角度出发分析学科格局并不是某种狭隘的思维, 也不是对科学问题刻意添加主观意识.

当今世界发展面临重大变局, 而中国处于风口浪尖之中.美国发动发达国家和相关新兴国家围堵中国, 表面上是逆全球化而动, 究其实质是不是在搞"去中国的全球化"?尤其值得国人深入分析.中国的国家声誉受到一些反华势力的百般诋毁, 严重影响了中国与世界各国的正常交流.在这个关键时刻, 中国统计学界不应该袖手旁观, 对于国外民间对中国发展的误解和刻板印象, 也需要对中国社会经济数据进行合乎情理的分析, 给出事实的真相.

例如碳排放统计.国际组织只是按总量列示"碳排放"大国, 中国总是被排在第一位.长此以往, 就连国人自己都觉得理亏, 似乎中国真的损害了世界人民.其实, 这里有一个按什么指标排序的选择问题, 仅仅考察碳排放总量, 貌似客观, 实则并不合理.

如果切实认定人权平等, 循着"丁仲礼之问"的思路, 考察"人均排放量", 按照国际组织给出的基础数据口径, 中国2019年在前15个碳排放大国中仅仅排第10位.回想十年前气候变化问题的国际谈判, 如果不是丁仲礼院士的坚持, 中国仅在2020年一年就需要额外支付1万亿美元去购买所谓碳排放权.然而, 仅考虑人均指标还不够, 更能揭示真相的, 是"直接责任国"与"实际责任国"的区分.中国工业生产量大, 且多数产品生产处于全球产业链的低端和中端.从事初级生产, 也承担更多碳排放的角色, 这是全球分工格局所致, 碳排放中的相当部分其实是服务于全球消费者的需求.因此, 别国在进口中国工业品时, 减少了如若由本国生产势必造成的"碳排放", 实际上是对中国输出了"碳排放".在国际贸易中存在着隐性的"污染输出国".一般而言, 如果不是发展中国家从事低端产业, 发达国家就需要在其国土上从事所谓"非清洁生产"2, "碳排放"责任就无法转嫁给别国.因此, 邱东(2020)提出"多生产多排放"的责任辨识思路, 计算"单位制造业增加值碳排放量", 这样, 中国的全球排名就在十名之后, 碳排放的实际责任并没有那么多, 由此可见, "碳排放总量"所示的"事实"在真实责任辨识上存在严重偏误.

2到目前为止, 人类尚无法完全取缔"非清洁生产".

这个典型事例告诉我们, 在社会经济计量3中, 统计指标的选择与应用往往是有立场和态度的, 所谓"典型化事实(stylized facts)", 究竟如何概括事实, 势必隐含着行为主体的立场, 从而未必能完全反映客观现实.即便国际通行的指标, 也不能完全描绘出具体事实.与其他国际规则一样, 世界统计规则往往由发达国家的专家制定或主导.他们多数秉持职业精神, 但毕竟精力和时间有限, 未必能切实打破其生活、工作环境所带来的认知局限4.从而, 国际规则切实基于全球格局达成公平, 相当困难.

3美国古生物学教授斯蒂芬杰古尔德(Stephen Jay Gould)指出, "科学运用纯粹无偏见的观察作为发现自然真理的唯一的、最终的方法, 这个独特的观念是我这一行基本的(且相当有害的, 我将讨论这一点)神话.科学哲学家汉森(Hanson)认为, "理论的蹄印" (the cloven hoof print of theory)必然会侵入任何观察方案.达尔文对"客观"记录这一神话有过这样一段评论:"观察若要有用的话, 那它必定要么支持要么反对某种观点, 有人竟看不出这一点, 真是太奇怪了." (以上三段语录均引自古尔德《刺猬、狐狸与博士的印痕:弥合科学与人文学科间的裂隙》)第44/45页, 商务印书馆2020年中文版.

4 1999年, 世界银行统计专家到河南省考察中国统计数据的可靠性, 方才感悟到, 不能用在北京、上海和广州的发展状态来概括中国整体的发展.由此可见, 除非亲自深入现场接触, 要求富国高层人士客观透彻地理解穷国社会底层所面临的资源硬约束, 比较困难.

了解了社会经济数据背后的形成背景, 我们就应该警醒, 并不是国际规则必须完全照搬, 也不是抓到手的数据就能用, 特别是基本数据, 偏误可能产生无法估量的决策放大效应.如果不做深入分析, 如果不探索更为科学的测度格局和视角, 很可能被隐含谬误的数据污染, 进而误导决策, 导致本可以避免的社会危害.

科学无国界, 但在人类追求福祉的过程中, 国家始终是一个基本的利益单位.这意味着, 发展中国家从事经济统计时, 既需要遵守规则, 又需要注意如何争取改进规则, 以真正反映出本国的实际状态.经济统计是一种具备层次特性的非实物公共产品, 是一个国家"社会基础结构"的重要组成部分, 也是国家"软实力(soft power)"的重要支撑.知己知彼百战不殆, 高质量发展基于高质量的国势研判, 从而, 中国的社会经济统计还需要大补课, 还有大量的测度陷阱需要我们去揭示, 还有不少的指标机理亟待我们去挖掘, 任重道远.

大数据兴起、人工智能方兴未艾, 所谓"前沿方法"肯定会成为社会经济计量的得力工具, 但能否替代常规的社会经济统计?这取决于揭示测度陷阱和挖掘指标机理的功能能否照常实现.知识生产有两个基本功能, 除了认识世界, 还要改造世界, 让知识服务于人类的福祉.千里之行始于足下, 宏伟目标功在手头.从而, 我们对学科格局的"相关性"思考尤为重要.由于学缘和学科功能取向的不同, 这种把握学科格局的努力常常会引发不同的认知, 从而需要严肃的学术讨论, 需要开放和包容的文化氛围.

1.2 本文对大数据时代统计学学科格局的思考

数据科学应用的一个主要场合应该是社会经济领域, 在此领域中对学科格局及其重心究竟应该如何把握, 是制定和实施学科发展战略所不能忽视的一个基本问题.

几年来, 笔者对大数据时代统计学科格局的相关问题持续进行了思考. 2014年笔者提交了《大数据时代对统计学的挑战》一文(邱东(2014)), 作为第十七次全国统计科学讨论会的大会特邀报告, 就此做过专论. 2019年8月, 第13届全国企业经济统计学会年会在山东工商大学召开, 笔者做了《社会科学统计学者的操守——数据之"据"和应用的"应"》的报告(邱东(2019b)). 2019年10月, 第20次全国统计科学讨论会在内蒙古财经大学召开, 笔者应邀做了大会报告《宏观管理·政治算术·国势学问——在360年世界经济统计学说发展中反思中国的近40年》(邱东(2019a)), 对相关问题提出了自己的看法.

2019年12月7日, 对外经贸大学召开"统计发展与创新"研讨会, 对数据科学在社会经济领域应用的问题, 江西财经大学罗良清教授和西安财经大学张维群教授等几位学者提出了比较深入的看法.受其启发, 笔者对此问题又做接续思考, 形成一些新知.

2019年12月14日, 清华大学许宪春教授在上海财经大学主持召开了"大数据背景下经济统计学科建设"高端论坛.笔者在大会致辞中概要提出:如何把握数据科学在社会经济领域应用的重心, 应该更加注重"数据整理"、"模糊不确定性"和"问题导向"三个方面.

该会之后, 笔者将致辞内容进一步整理成文, 恰好又读到美国国家科学基金会(NSF) 2019年年底发表的一篇统计学发展报告, 该报告由Xuming He, David Madigan, Bin Yu和John Wellner四位统计学家执笔, 以下用四位执笔人姓名英文字头组合, 简称"HMYW 2019统计学报告".阅读后发现, 笔者与该报告在学科格局思考上有相通之处, 同时也认为该报告还存在需要进一步深入研究的课题, 遂将对该报告的点评作为本文的一个部分, 斗胆提出自己的一孔之见.参照该报告的内容, 笔者对把握数据科学应用重心的思考, 也更加深化.

在本文第二次修改后, 又读到《大数据、机器学习与统计学:挑战与机遇》一文(洪永淼, 汪寿阳(2021)).相比而言, 洪永淼、汪寿阳二位教授在学理剖析上更为深刻, 对学科变革的内在机理挖掘得更为深入, 从而在学科格局把握上也就更值得重视.

本文共分为4个小节.第2节是"HMYW 2019统计学报告"的要点概述和评论, 第3节提出并论述数据科学在社会经济中应用时应该把握的三个重心, 第4节专门阐述数据科学在社会经济领域应用时如何处理好数理统计与经济统计的关系.

2 "HMYW 2019统计学报告"的要点和评论

《十字路口的统计学, 谁来应对挑战》是He等几十位统计学者写给美国"国家科学基金会(NSF)"的学科发展报告(He et al. (2019))5, 开篇引用了当代统计学方法大师级人物图基(Tukey)教授1962年在《数据分析的未来》中的一段话(Tukey (1962)).图基先生明确指出了数据分析的两条道路:一条是解决实际问题的坎坷道路, 一条是由"不实假定、武断推测和没有实际附着的抽象结果构成的坦途"6.从图基先生的开创性贡献以来, 学科又发展了近60年, "HMYW 2019统计学报告"直言: "统计领域正处于十字路口, 要么通过拥抱和引领数据科学而蓬勃发展; 要么沉沦而变得无关紧要."应该看到, 该报告承接了图基先生的精神, 对统计学的学科发展格局做了较为冷静的剖析.

5该报告呈给美国国家科学基金会(NSF), 以其名义发布, 但未必代表NSF认可其观点, 当然, 这个标签容易被误解为是NSF在领域内的代言人, 具有"举旗效应".

6原文为: the smooth road of unreal assumptions, arbitrary criteria, and abstract results without real attachments.

该学科报告指出:如果谋求长期发展, 统计学需要领域内的"再定义、拓展和转型(redefine, broaden, and transform)", 需要演变成为一门"跨学科科学(transdisciplinary science)", 需要重新构思本学科的教育计划、重新思考专业教师的招聘和晋升, 还需要进行学科的"文化变迁(culture change)".从"HMYW 2019统计学报告"指出的这几方面的"需要"看, 统计学的改革转型任重道远, 甚至到了变革"学科文化"的层次上, 的确指向一条坎坷之路.

那么本学科的现状呢?7 "HMYW 2019统计学报告"坦诚相告:统计教育相对而言停滞不前, 多数统计专业师资对数据科学的发展准备不足, 统计学者在数据科学对话中并没有占据主导地位, 统计学学科评估仍然偏重于"成果发表数量(publication quantity)".统计本来应该包括实践、计算和理论三大构成, 但它们之间的平衡被严重扭曲, 而且彼此缺乏联系.

7该报告叙述的应该是美国大学统计学的情形, 中国高校的统计学界如果切实以之为前沿, 自当参照反观.

笔者以为, 如果切实接受"HMYW 2019统计学报告"的判断, 我们就不能因眼下专业发展的某些表象而沾沾自喜.虽然时下统计专业得益于毕业生需求的增长, 但主要是因为专业人才市场还不够成熟, 事物新生逐潮而动, 用人单位和家长、学生对数据科学人才要素的辨识能力不足, 可能仅仅凭时尚的名称就做出人事和专业选择, 所以, 我们的专业教育并不应该满足于一时间需大于供的轻松.

数据科学的发展本是竞争性的、开放性的, 统计学在其中并不具有天然的和垄断的主体地位(王汉生(2016)). "HMYW 2019统计学报告"指出:数据科学实体在企业、政府和高校中快速建立, 其他学科正在积极参与数据科学的建设, 吸引走了有天赋的学生, 从而对未来统计学专业的师资水准提升造成压力.本学科成功转型的机会窗口期或许有限, 需要好好把握.

该报告的主要"调查结果和建议"是: 1)确定实践的重心作用; 2)强调对社会的影响; 3)独特作用是为更好的实践做研究; 4)应该迎接开放的重大挑战; 5)学科评估需要转型, 更关注"稳健性(stability/robustness)"、"可再现性(reproducibility)"、"公平性(fairness)"、"计算可行性(computational feasibility)"、"经验证据(empirical evidence)"和"领域科学(domain science)"中"已经证明的影响(proven impact)"; 6)需要训练"批判性思维(critical thinking)"等现代技能.这些建议表明, 统计学发展的重心的确需要转移.

总体上, "HMYW 2019统计学报告"对统计学面临的机遇和挑战进行了较为系统的分析, 特别强调了数据科学应用的社会价值, 这与2004年"LKS报告"8的基本精神是高度一致的(邱东(2013)), 并在学科发展的操作层面也做了深入拓展, 值得引起专业学者的重视.

8Lindsay, Kettenring and Siegmund (2004), 《统计学:二十一世纪的挑战和机遇》, 美国国家科学基金会发布.

在高度认同"HMYW 2019统计学报告"基本精神的同时, 笔者认为, 该报告也还存在一些问题需要进一步澄清, 比如:

第一, 该报告是否包括了计算机学科等其他学科专家的见解?报告的形成过程是否有相关学科的专家参与?开放式研究对"跨学科科学"非常重要, 究竟如何把握数据学科的学科格局?统计学是否一定处于数据科学的中心地位?特别应该关注的是, 计算机科学家和数学家如何认识数据科学的格局?

从笔者接触到的国外相关文献看, 学者们对数据学科的认识并不一致.有的学者将数据学科定义得比较狭窄, 仅将其视为数学、计算机科学和领域知识三者之共, 而数学与领域知识交叉为"统计研究(statistical research)", 计算机科学与数学交叉为"机器学习", 计算机科学与领域知识交叉为"数据处理(data processing)".也有的数据科学的定义范围比较宽泛, 包括了数学和统计学、计算机科学和领域知识.还有的数据科学定义的示意图中, 统计学与人工智能(含机器学习)、模式识别相交叉, 但与数据挖掘并无交叉.

王汉生(2016)强调指出, 就数据科学的发展而言, 统计学家与计算机科学家相比并不占优势, 在数据科学发展的对话中统计学家并不能占据主导地位.如何看待这种对统计学学科地位的判断?究竟是不同学科的使命和实力差异使然, 还是统计学家在学科发展机遇上的疏忽所致?值得深思.

第二, 作为学科发展的展望报告, 没有对本学科不同流派之间的历史性争论做出相应的说明.比如, 贝叶斯学派在21世纪统计学学科格局中究竟应该占据什么样的地位?反观过去的学科流派争论, 究竟应该如何深化对统计学科的系统认知?

第三, "HMYW 2019统计学报告"多处把统计学和数据科学相提并论, 实质上代表了"等同说"的学科观点, 如此阐述, 固然可以强调统计学发展的时代性, 但就学科定义的准确性而言, 恐怕容易引起争议.因为有学者将统计学视为"数据科学群"中的一个构成分支, 持"从属说"的学科观点; 还有的认为二者研究对象和内容互有交叉, 持"交叉说"的学科观点.

笔者曾强调(邱东(2013)), 数据科学是一个"学科群", 这一点应该已经成为共识, 争议恐怕聚焦于这个学科群的内部结构.如此说来, 将统计学定义为一门数据科学就不能算错, 但对学科的准确定义而言, 仅仅说出这四个字还不够, 恐怕对学科认知并没有增加多少新的信息.

比较是提升认知的利器.笔者坚持1990年写作经济学博士学位论文(邱东(1991))时提出的比较"四点论", 在辨识学科关系时, 需要明确统计学与数据科学的"相同点"和"差异点", 在差异点中又应该进一步辨别其相对于应用场合的"优点"和"缺点", 如果切实把握了这四点, 也就容易达成对学科格局更为明确的认知.

当然, 究竟什么是数据科学, 还在争论之中, 统计学与数据科学的关系, 也仍然在形成过程之中, 目前还无法给出确切的定论.不过, 给出大致的同异及其趋向剖析, 总是好过泛泛而谈.

第四, 作为数据科学和统计学的"服务对象", 专业领域的科学家是否需要参与这种"跨学科科学"的讨论?如果统计学切实将自己定位为服务于各领域科学的基础性学科, 就应该是"用户友好型"的服务者, 就不能在服务对象缺席的情况下讨论如何为之服务.在真正的领域应用中, 方法论学科工作者需要去掉居高临下、唯我独尊的心态, 至少应该与领域科学学者在一起平等地讨论, 而非以君临天下的姿态讨论学科交叉问题.

第五, 报告中没有强调"数据整理方法"在数据科学应用中的重要性, 而数据整理方法恰恰是从数据科学方法到各领域应用整个机理挖掘链条中非常重要的一环.进而言之, 该报告在学科格局分析、变革方向与变革措施之间的逻辑衔接究竟如何?需要深入思考的问题恐怕还不少.比如, 如果确实强调理论、方法应用和社会实践, 那么领域科学知识在学位教育的课程设置中如何预留空间?再比如2013年天津财经大学肖红叶教授敏锐地捕捉到一个新的专业方向——"数据工程", 如果它对数据科学的社会实践操作非常重要, 那又该如何建设?该专业方向的构建与数据整理方法的关系如何?此类问题都应该给予关注.

总之, 数据时代的学科格局还需要继续探究.事实上, 这种探究也正在进行之中.就"数据"与"大数据"差异的学科变革意义而言, 洪永淼、汪寿阳(2021)的《大数据、机器学习与统计学:挑战与机遇》给出了更为深入的思考.该文第5节较为系统地阐述了大数据、机器学习与统计学的内在关系, 分8个方面剖析了统计学在数据时代的变与不变, 哪些挑战可以转化为机遇, 颇具启发意义.

3 数据科学在社会经济中应用的重心

统计学的基本理念非常强调"分布"概念, 对学科格局而言也就是其内在结构.那么, 如何考虑学科内容的分布问题, 尤其是当我们强调数据科学在社会经济领域应用时, 学科重心究竟何在?

笔者呼吁, 我们应该从三个方面深入、提升并拓展思考, 在重视"数据分析方法"、重视"随机不确定性现象"、重视"方法导向"的同时, 更加重视"数据整理方法"、重视"模糊不确定现象"、重视"问题导向"的思路, 以切实达成"应用"内涵中"应"之本意, 使得数据之"据"更为充实.

3.1 在大数据时代的社会经济计量中, 除了"数据分析方法"的深化与拓展, 应该如何看待"数据整理方法"?

究竟如何把握"大数据"之大?并不仅仅是数据的数量增多, 更重要的是, 研究对象持续在变, 总体变了、样本变了, 数据本身也变了.原来的数据通常是指"结构化数据", 而大数据中的数据还包括"非结构化数据"和"半结构化数据", 原来的数据往往是"经过设计的数据(designed data)"、"系统收集的数据(systematically gathered data)", 而大数据则往往是"偶发数据(happenstance data)"、"有机数据(organic data)", 往往是包含"使用者生成的内容数据(user gathered content)", 或是"行为痕迹数据(behavioral trace data)".

现代数据不同于传统数据, 仅仅套用原有分析方法恐怕难以收到实效.北京大学耿直教授2014年在第十七届全国统计科学讨论会报告中提出警告: "大数据的到来将对传统的统计方法进行考验", "当年统计学最得意的回归预测方法将被淘汰" (耿直(2014)).

大数据对统计学的挑战是全方位的, 而在社会经济计量应用中, 尤其需要关注"数据整理方法"与"数据分析方法"之间的关系.

罗良清(2019)指出, 进入大数据时代, "从数据产品生产所耗时间和精力来看, 主要的工作在资料的收集和资料的整理上, 而不是在资料的分析上".一方面, 大数据中的数据, "没有统计调查方案中所限定的各种主动要素, 势必造成资料整理时的难度加大.总体的内涵与外延, 指标的具体含义等将要在统计整理过程中重新定义, 这其实是统计测度问题."如果沿用传统的统计整理方法(分组和汇总等), 很难产生合格的"数据中间产品", 反而可能会为进一步的数据分析留下遗患.再一方面, 统计分析方法的研制面临着一个竞争相当激烈的市场, "几乎所有的分析都有相应的统计软件和模型" (王汉生(2016)), 各种软件和模型往往趋向于用户友好, 使得统计分析智能化, 也即被机器替代的成分越来越多.

笔者高度赞同罗良清(2019)的这个判断.试想, 现在机器人撰写的数据分析论文已经可以通过国外正规学术期刊的"盲审"了, 这对数据分析工作者来说是一个危险的信号.随着人工智能的发展, 许多初级的数据分析就将成为机器人能够胜任的工作, 如果到今天仍然让多数学生把精力仅仅放在数据分析方法上, 他们就可能将面临失业的危险.课堂作业式的数量分析不过是"虚证分析", 形式化动作, 其职业效用很低.

"行为痕迹数据"往往不能直接用来做模型运算, 那样做通常缺乏实际含义, 最后数据结果不知所云, 恰如图基先生所言的"抽象结果", 并没有"真实附着".从计算效率看, 没有经过"预处理"的数据, 其计算过程通常比较缓慢, 甚至很可能在运算中途就宕机, 根本无法得到计算结果.对非专门生成的数据而言, 往往要有数据的预处理, 包括数据清洗、不完全数据填补、数据纠偏和矫正等等(耿直(2014)).

此外, 不同数据来源的数据如何整合, 也是应用"非专项调查数据"时需要添加的新工作.虽节省了专项调查的成本, 但需要添加数据整理的新成本, 天下没有免费的午餐, 任何工作, 因节省环节而减少成本, 就会派生出另类成本, 或许为隐性成本. 专项调查省了, 数据整理环节就更重要了.

张维群(2019)有个非常贴切的比喻, 常规数据整理与大数据整理不同, 就像洗煤和选金之别.常规数据分析也需要进行数据整理, 但那里的对象是一种基于专门调查产生的数据, 在数据调查设计和实施时, 已经根据对象特点和研究要求对数据做了增加"紧致性"的处理。当然常规数据分析仍然需要分组和汇总, 做进一步的数据处理, 但相对大数据的整理而言, 其工作量少了很多, 如同在高密度煤矿石中洗煤.而大数据分析所面对的海量数据则大为不同, 具有信息稀疏性的特征, 相对于研究目的而言, 数据虽多但呈低价值密度, 故而这里的数据整理如同在低含量金矿石中选金.

美国威廉姆斯学院的Richard De Veaux教授指出了"数据科学的七宗罪"9, 其实是提出应用数据科学需要当心的七个方面: 1)问题误定义, 误解问题, 片面理解问题或包含不切实际的期望; 2)低估数据准备; 3)忽视潜在事物; 4)迷恋自己的模型; 5)忽视数据的渊源; 6)混淆相关关系和因果关系; 7)自傲.

9参见Richard De Veaux教授提交2019年8月国际统计大会的大会论文提要, 该论文尚待发表.同年12月李金昌教授邀请他到浙江财经大学, 出席"首届经济统计测度与国民核算国际研讨会", 他再次阐述他对数据科学应用的基本观点.我在这里郑重向Richard De Veaux教授表示感谢, 他同意笔者引用他尚未发表的论文内容.

针锋相对地, Richard De Veaux教授又提出数据科学应用中的七宗美德: 1)清晰定义问题; 2)准备好数据; 3)使用领域知识; 4)对新方法和模型开放; 5)警觉缺失数据; 6)开展小组作业; 7)确保数据质量和数据的道德使用.初看论文题目, Richard De Veaux教授似乎是在否定数据科学, 其实"挑货才是买货人", 只有深入挖掘数据方法的局限和可能的陷阱, 才真正是建设性的. De Veaux教授在教学之余也做数据咨询, 在当地颇具市场美誉.他在大会报告中坦言, 一个咨询项目中, 90%以上的精力需要用在数据整理上.

笔者认为, 在大数据时代, 工作重心从数据分析向数据整理转移, 至少需要采取两种方式.第一, 开发并使用专门的"数据整理方法", 取代或补充原来数据收集阶段的某些功能.第二, 开发并使用具备数据整理功能的新型数据分析方法, 比如数据集整合分析、高维变量选择方法和统计并行计算方法等(朱建平(2019)), 而不是仅仅套用原来传统的数据分析方法.

总之, 在大数据背景下, "数据整理方法"至少与"数据分析方法"同样重要. 罗良清(2019)建议, 要在统计学人才培养方案中加大如何进行数据整理的教学内容.可惜的是, 即便是美国大学的统计科学系, 对此问题也重视不足.在Coursera所列的网络课程中, 只有约翰霍普金斯大学开设了"获取和整理数据", 华盛顿大学开设了"分类"课程, 各高校的课程还是以数据分析为主(朱建平(2019)).

当然, "数据整理方法"的课程很难开展.笔者认为, 这是一种对基础数据的深度"管理", 恐怕需要采用管理学"案例教学"的方式进行.教师应该留心大数据应用研究中比较典型的项目, 剖析整理原始数据的过程, 提出值得深究的问题, 总结正反两方面的经验, 形成案例.让学生提前阅读案例原件和思考题, 在课堂上集体讨论, 再共同总结, 提升和扩展对此案例的认知, 从而使学生熟悉数据整理的真实过程, 这对他们实际参与大数据应用研究将大有裨益.

3.2 在社会经济计量中除了"随机不确定性", 如何看待"模糊不确定性"?

有一种说法, 社会经济统计研究"确定性现象", 数理统计研究"不确定性现象", 从而有了学科优劣之分.笔者以为, 这种说法失之偏颇.客观事物并不存在确定性现象与不确定性现象之分, 严格而论, 所有事物都是不确定的, 只是其程度高低存在差异.出于简化的惯常思路, 人们往往将不确定程度比较低的事物约略当成所谓"确定性现象", 这不过是一种认知和处理的粗略手段, 经济统计会用到, 其他学科也会用到.只要这种约略近似于客观事物, 不是随意到处乱用, 则无可厚非.

从总体上看现象的类型, "不确定性现象"可以分为"时间不确定性现象"与"空间不确定性现象".需要特别注意的是, "随机不确定性现象"并不是"不确定性现象"的全部, 至少还存在"模糊不确定性现象".在这种类型的不确定中, 人们所面对着对象的"亦此亦彼性", 或者如外国学者所说的"亦此亦彼悖论(this and that paradox)".

刘应明和任平(2020)指出: "至少存在两种不确定性, 随机性和模糊性.模糊性背离了排中律, 随机性背离了因果律."在《统计与真理》第一章附录的《讨论》中, 著名统计学家Rao专门有一节阐述了"模糊性" (Rao (1997)).他指出, "除了我们已经讨论过的偶然性和随机性以外, 在解释观测数据时还存在着另一个障碍, 这就是在识别物体(包括人、位置场所或事物)所属不同类别时存在着的模糊性." "为了避免在交流思想和调查研究工作中引起混乱, 最基本是要尽可能准确地定义分类.但是, 在引入概念和给出定义时, 模糊性是不可避免的".更早地, Knight (1921)将可以通过概率刻画的不确定性称为"风险(risk)", 将不能通过概率刻画的未知称为"不确定性", Ellsberg (1961)将后者明确称为"模糊性(ambiguity)" (参见姚东旻等(2020)).可见, "模糊不确定性"一直存在, 只不过我们在研究不确定性时, 过多地强调了"随机不确定性", 而"模糊不确定性"没有受到应有的重视.

大数据意味着巨大的"数据选择空间", 然而, 这个优势实际上又如双刃剑, 同时也意味着数据杂乱、多样和不规整(李金昌(2014)).原来有针对性地获得数据叫做"数据收集", 如今则需要有选择地从大数据中剔除所谓噪声, 进行"数据清洗", 数据识别和整理工作成了进一步分析的前提.笔者2014年在第十七次全国统计科学讨论会上明确提出, 大数据时代本身也就是"大噪声时代" (邱东(2014)).也是在该讨论会上, 李金昌(2014)指出: "大数据的不确定性就不再是样本的获取与总体的推断, 而是数据的来源、个体的识别、信息的量化、数据的分类、关联物的选择、节点的确定, 以及结论的可能性判断等方面."

对待这种模糊不确定性现象, 往往需要人为地决定其边界, 需要"切一刀", 需要明确所研究对象的"定义域", 需要将对象按照一定的标志分类, 形成一个结构化的描述, 还需要用概括性指标来描述, 还需要"指标解释".可见在大数据中, 特别是在社会经济计量中, 人们首先而且更多面对的是"模糊不确定性问题", 需要有效地将原始数据分组, 划定不同类别现象的边界.之所以需要将工作重心从"数据分析方法"转向"数据整理方法", 此乃客观现象本身的"模糊不确定性"使然, 是高质量的实证量化分析的内在诉求.

至于"随机不确定性现象"、"模糊不确定性现象"与"时间不确定性现象"、"空间不确定性现象"的关系如何, 还需要深入思考.不过有一点比较明确, 在社会经济计量的许多场合, 研究"模糊不确定性"恐怕更为重要.至少有一种错误是十分明显的:不管什么类型的现象, 只是用随机概率方法去套裁.

除了"随机不确定性"和"模糊不确定性"之外, 是否存在其他类型的不确定性?华中科技大学邓聚龙教授在1982年开创了"灰色系统理论", 刘思峰(2017)进一步对几种不确定性方法进行了比较, 其中, 灰色系统理论着重研究概率统计和模糊数学所难以解决的"小数据"、"贫信息"不确定性问题, 其特点是"小数据建模".此外, 国外还有学者开创了"粗糙集理论", 采用精确的数学方法研究不确定性系统, 其主要思路是利用已知的知识库, 近似刻画和处理不精确或不确定的知识.看来, 不确定性不止于一种类型, 故而, 解决不确定性问题的方法库也应该是开放的.

3.3 在社会经济计量中究竟是"数据导向"、"方法导向", 还是"问题导向"?

数据挖掘, 直接行为对象是数据, 但挖掘的目的却是事物自身变化的逻辑机理10, 因其隐藏在茫茫数据海洋之中, 故而需要挖掘.诸事道理为大, "数理"应该服务于厘清"事理".

10这里的"机"往往是有机的"机", 而非无机的"机", 不宜只做经典物理式的理解.

面对海量数据, "机理挖掘"存在着以什么为导向的问题, 究竟是新启的"数据导向(data-driven)", 或者惯常的"方法导向(model-driven)", 还是应用者偏爱的"问题导向(problem-driven)"?

时下数据科学诸多讨论中, 所谓"数据导向(data-driven)"之说颇为流行, "HMYW 2019统计学报告"也采用了这个说法.但需要深入思考的是, 数据本身是否真的具备导向功能? "让数据说话"是时代流行语, 可究竟是谁在"让"?隐含的行为主体到底是谁?以聚类分析为例, 我们将距离相近的变量归为一类, 聚类过程是否预设了一个特定的二维平面和坐标系?谁预设的?这个二维平面和坐标系是天然存在的吗?再者, 所谓"距离"是否基于预设的特定含义?如果不同距离定义可能导致不同分类结果, 原始数据本身能指导我们选择合宜的某个距离定义吗?

大数据的存在是分析的前提, 茫茫"数海"之中, 究竟往什么方向走?怎么走?看似数据处于"静默状态", 其中是否隐含着某种知识框架?分析所得的相关关系是一般化结果, 还是仅仅基于某个特定维度和视角?所谓"典型化事实(stylized facts)", 究竟是谁将之典型化?如果笔者的上述质疑成立, 数据分析恐怕还是得回到"方法(模型)导向"与"问题导向"交互作用的过程中.但无论如何, "问题导向"是不可忽视的.

从学说发展的角度看, 任何一门学科(包括自然科学)都具备历史科学的性质.秉持历史学科观, "HMYW 2019统计学报告"指出:统计本身产生于科学家需要量化地使用测度、观察和试验, 以更好地理解科学现象.可见, "问题导向"是学科产生和发展的本意.

作为致用之学的经济学, 典型地说明了"问题导向"的重要性.与郭大力先生共同翻译马克思《资本论》的著名经济学家王亚南先生在新中国成立前就撰写了《中国经济原论》, 他明确指出: "经济科学是一门实践的科学, 是在实践的应用的过程上形成的科学, 是要在实践的应用的意义和要求上才能正确有效地去研究去理解的科学." (王亚南(1942)).王亚南在《中国经济原论》导言中的话至今发人深省: "我们是以中国人的资格来研究, 中国人从事这种研究的出发点和要求与欧美大部分经济学者乃至日本的经济学者是不同的, 他们依据各自社会现实与要求, 所得出的结论, 或者所矫造的结论, 不但不能应用到我们的现实经济上, 甚至是妨碍我们理解世界经济乃至中国经济之性质的障碍."本文开篇所提及的不同碳排放指标的选择和应用, 就典型地印证了王亚南先生的远见卓识.

在实证分析中, 数据分析需要预处理, 而数据预处理依据什么?不可或缺的是"领域知识", 而在社会经济领域中, 则往往需要以社会经济统计作为桥梁. "指标"是社会经济计量模型中的"变量", "指标口径"搞不清楚, 变量的"定义域"模糊, 计量模型结果不会真的令人满意.将方法凌驾于问题之上, 并不是科学的态度.如果实际状况与已有认知不符, 就将人们的实践视为错误, 更是"知识的僭妄".数据处理, 最终还是需要先验的、动态的领域认知与研究目的相结合, 从而发挥导向作用.

在李志军、尚增健主编的《学者的初心与使命》一书中(李志军和尚增健(2020)), 学者们对学术研究与论文写作中的"数学化"、"模型化"进行了反思, 对如何理解"问题导向"给出了正反两个方面的意见, 值得重视.当然, "问题导向"的分析很难做出一般化的概括, 这是应用研究本身的特性.应用本身就是抽象的反面——一个具象化过程.如何实施这个过程, 倒可以总结出某些一般性的做法, 与"数据整理方法"相同, 管理学的案例式教学法或可以借鉴使用.

计量分析方法库中存在多种类型的方法, 究竟选择哪种方法?其依据是什么?就应用研究而言, 即便方法选择可以采用"试错法", 方法优劣的标准(错与没错)最终还是要以实际问题的解决作为判据, 至少是其重要的判据.

社会知识生产的分工引发了纯理论和纯方法论研究的倾向. "HMYW 2019统计学报告"指出, 优雅和深度是数学中合理的治理指标, 偶尔统计理论也可以优雅而深入, 但不管怎样, 我们的指标不同. "HMYW 2019统计学报告"还提出, 统计学家需要"超越具体问题的解决, 以区别于领域科学家", 笔者高度认可这种坚守, 因为这是方法论学科发展的正途.在"HMYW 2019统计学报告"看来, "所谓应用, 不仅仅意味着要使用现有的方法来解决问题, 更重要的目标是, 运用统计理论和原理来开发新的、在实践中有用的方法" (He et al. (2019)).但需要补充指出、同时不可忽视的是, 专业的一般性提升往往需要建立在诸项具体实证问题的解决之上, 从众多的特殊中总结概括出一般, 才能真正为数据科学提供学理见解, 就像早年数理统计一般原理产生于生物统计和农业统计的特殊研究中一样.

在大数据时代, 即使数据分析方法的讲授也需要改革, 教学重心应该是方法的计算机理、适用范围, 包含的假设条件及其对计算结果的可能影响.至于数据分析方法的论证推理和计算过程则可略过, 现成的计算软件已经可以替代人工计算了.传统的"方法带问题"模式对学生提高学习效率用处不大, 因袭旧法其实是对学生不负责任.

4 统计学作为数据科学构成在中国的发展

4.1 经济统计学就是经济学中与数据科学应用对接的领域科学

王汉生(2016)提出, 数理统计学者应该向生物统计学者学习, 即在发展中强调数理方法与领域知识的结合.显然, 数理方法应用在社会经济领域会产生更多的效益, 那么, 在社会经济领域应用数理统计是否需要这种结合呢?有的人想当然地认为, 理科比文科难, 把理科知识用到文科非常简单, 这种跨学科介入恐怕仍然停留在抽象空间, 并没有"应用"所要求(内含)的"具象化"过程, 似乎比较容易实现, 其实没有真正与社会现实对接.

这里隐含着一系列深层次的问题, 需要澄清:

第一, 是否需要打破重理轻文的刻板印象?

生物领域和社会经济领域哪一个更为复杂?与习惯文理分野的日常看法不同, 这需要变换判断角度(有机还是无机, 复杂还是简单)再做区分.人的"自反性(reflexivity)"决定了社会科学面临的是"复杂有机系统", 而非"简单有机系统", 更不是"无机系统".人, 正是所需解决的复杂问题之来源, 复杂本身就是多维度的, 从某些维度判断, 硬科学未必比软科学更复杂, "高攀之难"未必比"深入迷途"那种"悠远之难"更容易对付.

第二, 如何完整把握经济学科群的整体格局?

笔者想强调的是, 经济科学基于牛顿经典物理学的理念而构建, 在面对"复杂有机系统"时存在或隐含着"基因缺陷".数理背景的学者如果重视"领域知识", 在学习现代经济学的时候, 还需要警惕, 并不是现成理论搬过来就能用, 也不能把某个经济学流派的主张当成经济学的全部.同时, 经济学科群现存的结构缺陷不应该成为轻视和否定经济统计学的理由.生产率分析大师乔根森(Jorgenson)教授等对西方经济学中忽视经济统计学的现象非常不满(Jorgenson (2018)), 希望新一代专业经济学家能够改正这一重大缺陷.

第三, 如何完整地把握统计学的历史?

在"数理统计学(mathematical statistics)"这个名词出现之前100多年, 经济统计学就与经济学科一起发展.只是到数理统计学完成学科"体系化", 并大量应用于各种计量分析后, 人们才更多地将数理统计学认作统计学.美国固然出版了不少数理统计应用于经济领域的教材, 但国际上也有相当数量的经济统计学研究成果发表(邱东(2020)), 或许因为主要针对宏观管理层级, 流传面没有那么广.故而, 不应该片面地对学科格局做出判断, 仅仅将经济统计学视为数理统计学在经济领域的应用.

第四, 如何把握经济统计学的主要内容?

宏观经济统计包含了三大主体内容:经济测度(economic measurements)、国民核算(national accounting)和国际比较(international comparison) (邱东(2018)), 它们作为经济学学科群的基础而独立存在.对数据科学在社会经济领域的应用而言, 经济统计学是领域科学的构成学科之一, 经济统计学者是领域科学家的组成部分. Jorgenson (2018)概括总结了经济测度的十二项进步和贡献, 值得我们珍视.回顾国内, 2020年厦门大学曾五一教授从学科性质和评价标准等方面对"经济统计学如何才能做到不忘初心", 做了较为深入的分析.

然而, 有的跨领域判断对统计学学科格局并没有整体性认知, 比较典型的是对金融统计的认识.个别人仅仅把所谓风险分析(risk analysis)作为现代金融统计的全部内容, 似乎用上些数理方法就可以包打天下而唯我独尊.其实在发达国家和国际组织的经济管理中, 现代金融统计的内容颇多, 例如:货币金融统计(currency and finance statistics)、资金流量分析(flow of fund)、资产负债表(balance sheet)、金融稳健指标(financial soundness indicators)、银行统计(banking statistics)等.以金融最发达的美国为例, 金融统计的内容占据了其经济统计教材的主要篇幅, 高盛集团出版过《理解美国经济统计(Understanding American Economic Statistics)》, 甚至专门编制了系列的"高盛指数(Goldman Sachs Index)".如果对诸多金融统计分支缺乏应有的认知, 或当作过时的内容一概蔑视, 势必会加大中国与发达国家在金融统计上的距离.

第五, 学术资源与社会需求, 究竟应该以何者为重?

数理统计学在数学门类和概率论中一直难以受到重视, 才有国内这种在"学科级别"上狠下功夫的"壮举", 争取成为独立的一级学科.问题在于, 搞成了所谓"大统计"后, 却反过来用数学的学科标准来对待经济统计学, 似乎多年的媳妇熬成婆, 就可以歧视"鄙视链"低端的学科了.笔者看来, 这种"形大实小"的做法, 只是着眼于学术资源的竞争, 是基于零和博弈的思维.

然而, 对经济统计学的蔑视和边缘化, 真正受损失的是国家的统计事业.须知, 中国的社会经济统计基础至今还相当薄弱.一个典型的例子, 就是联合国启动的"2030年可持续发展议程", 离目标实现截止期限还剩下不到十年时间, 而我们现在能提供基础数据的指标却非常有限, 就是说, 多半还不知道我们距离指标目标究竟相差多远.

经济统计与社会发展的相关性显然高于数理统计, 经济统计学科发展在更大意义上是基于国家需求, 并不只是从事该学科学者的学科资源诉求.其实, 如果只是基于个人事业发展, 转向应用经济学研究和管理学研究是相当明智的, 已经有一些经济统计学者成功转型, 成为经济学与管理学某个应用领域中的知名专家.

真正的问题在于, 事关国家经济安全的重大经济统计事项, 谁来承载国家利益的担当?当前中国发展面临关键时刻, 存在不少事关国家安全的现实重大经济问题, 迫切需要从经济测度、国民核算和国际比较等方面深入研究.从科学研究者本应具有的专业良知和社会道德出发, 我们决不能无动于衷, 应该充分意识到统计学对国家对社会的专业责任, 而不能以科学性作为占用学术资源的依据.

应该看到, 面对数据科学的发展, 对中国统计学者而言是挑战大于机遇.因此, 对"HMYW 2019统计学报告"的转型"机会窗口期"之言, 决不可掉以轻心.拥抱数据科学, 有一个时空摆位问题, 或学科态度问题.如果只准套用数理统计方法, 不准或严重限制发展作为社会科学的经济统计学, 恐怕不是"包容性增长", 其后果对数理统计学自身也并不好, 难以真正成为数据科学的核心学术力量.我们应秉持开放互补的学科观念, 着眼于开源, 在社会经济现象的实证研究中真正做跨学科的发展, 如同"HMYW 2019统计学报告"所建议的学科开放, 才可能体现现代统计学应有的功能.

4.2 "数据工程"专业方向的构建

天津财经大学肖红叶教授的团队在2013年9月启动经济统计专业对接大数据的教学改革, 构建了"数据工程"专业方向.就数据科学在社会经济领域的应用而言, 这是一个非常有益的探索.

肖红叶教授的核心观点和研究路径是: 1)大数据是有"领域主题"的. 2)目前大数据应用推广存在数据供求断层瓶颈, 需要具备领域知识的复合人才, 而经济统计同时具备经济、统计和计算机专业的知识集合优势. 3)不同于"数据科学" (该概念学术界尚未取得共识), 基于经济统计的"数据工程"对应大数据领域应用的数据工程师培养. 4)按基于经济主题的数据生成、数据组织和数据应用逻辑形成专业课程体系.

"十三五"期间, 肖红叶教授主持开发的"数据工程"方向已毕业135名学生, 受到用人单位好评, 该项教学改革获天津市第八届高等教育成果二等奖.目前74所高校及其机构组建了全国经济统计学专业数据工程方向教学联盟, 统一课程体系, 编写相应教材, 已完成10部书稿.同时又基于"数据工程$ \times $专业领域"的模式, 开发金融数据工程、财务数据工程等相关课程与教材, 并为各经济领域专业开设拓展数据认知素质的通识课程.

国务院在《促进大数据发展行动纲要》中提出: "创新人才培养模式, 建立健全多层次、多类型的大数据人才培养体系.鼓励高校设立数据科学和数据工程相关专业, 重点培养专业化数据工程师等大数据专业人才".按照肖红叶教授对学科发展格局的判断, 社会经济统计应该积极参与经济领域数据工程师专业人才培养.

基于经济统计专业的数据工程师培养探索研究主要包括: 1)大数据技术进步与经济领域大数据应用需求; 应用专业人才培养目标和规格. 2)基于认知科学的经济统计学教学体系与大数据技术应用对接的研究:课程体系设计和教材体系建设, 试验与实践设计. 3)基于大数据的社会经济问题研究范式的探索. 4)大数据技术对经典经济统计学教学体系的影响, 探索经济统计学教学变革的研究等.

4.3 从学科管理角度看统计学如何介入数据科学发展

基于上述讨论, 笔者提出以下问题以便深入探讨学科的管理.

第一, 在中国的高等教育管理背景下, 统计学究竟应该按照哪个门类进行管理, 是理学、工学, 还是管理学, 或者是其他办法?这是一个值得深入思考和审慎处理的学科管理问题. "HMYW 2019统计学报告"对统计学的定位是"跨学科科学", 而且, 特别强调学科与社会实践的结合.从中可以得到一点明确的启示, 以所谓科学之名强行把统计学按照理学学位管理并不妥当.

第二, 按照某些所谓"学科领军院校"的学科发展模式为标准, 只开设数理统计课程和计算机课程, 极度限制领域知识课程, 特别是经济统计学的相关课程, 将这种偏科模式推广到全国所有院校, 恐怕将是一种学科灾难, 对满足中国经济高质量发展的现实社会需求危害极大.如同"HMYW 2019统计学报告"所述, 图基先生所批判的那种没有"实际附着"的研究, 由"不实假定、武断推测和抽象结果"构成, 国家资源沦为个别人争名夺利的盘中餐, 实质是学术和教育资源的极大浪费.

第三, 中国学生的特点和极化的危险.教育强调基础知识训练, 这固然正确, 问题在于防止课程结构畸形.数据科学及其社会应用是否需要领域知识的基础训练?学生的课程分布, 强调数理基础究竟应该到达到什么程度?极而言之, 主要甚或全部学时都用来打数理基础行不行?把本校毕业生能够到美国名校读博士作为高水平取向和教育业绩, 是否合宜?对于社会经济计量分析为专业方向的学生而言, 经济学的课程究竟应该达到什么标准?

从个人成长背景看, 中国的大学生都"成功"地经历了十多年的"高考隧道", 本身就存在偏重数理知识的结构性缺陷, 再一味加大数理课程, 是一种极化接续极化的学习, 使学生长者更长, 短者更短, 铸成畸形的知识结构, 对数据科学在社会经济领域的应用究竟有何益处?

总之, 如果真正重视应用型数据科学人才的知识需求结构, 如果明白"问题导向"在数据科学应用中的切实重要性, 如果明白"模糊不确定性"在社会经济现象中的普遍存在性, 如果明白"数据整理方法"在数据科学应用中的不可或缺性, 就会明确认识到:数据科学在社会经济领域应用时的重心需要做战略调整, 而"HMYW 2019统计学报告"为这种调整提供了基本思路.

参考文献

耿直,

大数据时代统计学面临的机遇与挑战

[J]. 统计研究, 2014, 31 (1): 5- 9.

URL     [本文引用: 2]

Geng Z ,

Opportunities and Challenges in the Age of Big Data for Statistics

[J]. Statistical Research, 2014, 31 (1): 5- 9.

URL     [本文引用: 2]

洪永淼, 汪寿阳,

大数据、机器学习与统计学:挑战与机遇

[J]. 计量经济学报, 2021, 1 (1): 17- 35.

URL     [本文引用: 1]

Hong Y M , Wang S Y ,

Big Data, Machine Learning and Statistics: Challenges and Opportunities

[J]. China Journal of Econometrics, 2021, 1 (1): 17- 35.

URL     [本文引用: 1]

李金昌,

大数据与统计新思维

[J]. 统计研究, 2014, 31 (1): 1- 15.

URL     [本文引用: 2]

Li J C ,

Big Data and New Mind on Statistics

[J]. Statistical Research, 2014, 31 (1): 1- 15.

URL     [本文引用: 2]

李志军, 尚增健, 学者的初心与使命——学术研究与论文写作中的"数学化""模型化"反思[M]. 北京: 经济管理出版社, 2020.

[本文引用: 1]

Li Z J , Shang Z J , The Original Intention and Mission of Scholars[M]. Beijing: Economy and Management Publishing House, 2020.

[本文引用: 1]

刘思峰, 灰色系统理论及其应用[M]. 8版 北京: 科学出版社, 2017.

[本文引用: 1]

Liu S F , Grey System Theory and the Application[M]. 8th ed Beijing: Science Press, 2017.

[本文引用: 1]

刘应明, 任平, 模糊性——精确的另一半[M]. 北京: 清华大学出版社, 2000.

Liu Y M , Ren P , Ambiguity: The Precise Other Half[M]. Beijing: Tsinghua University Press, 2000.

罗良清, (2019). "大数据时代"的数据产品生产[C]//对外经贸大学2019年"统计发展与创新"研讨会大会论文.

[本文引用: 3]

Luo L Q, (2019). Data Product Production in Big Data Era[C]//Conference in University of International Business and Economics, Statistical Development and Innovation.

[本文引用: 3]

尼克, 人工智能简史[M]. 北京: 人民邮电出版社, 2017.

Ni K , A Brief History of Artificial Intelligence[M]. Beijing: Posts and Telecom Press, 2017.

邱东, 多指标综合评价方法的系统分析[M]. 北京: 中国统计出版社, 1991.

[本文引用: 1]

Qiu D , Systematic Analysis of Multi-index Comprehensive Evaluation Method[M]. Beijing: China Statistics Press, 1991.

[本文引用: 1]

邱东, 经济统计学科论[M]. 北京: 中国财政经济出版社, 2013.

[本文引用: 2]

Qiu D , Subject Theory of Economic Statistics[M]. Beijing: China Financial and Economic Publishing House, 2013.

[本文引用: 2]

邱东,

大数据时代对统计学的挑战

[J]. 统计研究, 2014, 31 (1): 16- 22.

DOI      [本文引用: 2]

Qiu D ,

The Challenge of Statistics in the Age of Big Data

[J]. Statistical Research, 2014, 31 (1): 16- 22.

DOI      [本文引用: 2]

邱东, 经济测度逻辑挖掘:困难与原则[M]. 北京: 科学出版社, 2018.

[本文引用: 1]

Qiu D , Logic Mining of Economic Measurement: Difficulties and Principles[M]. Beijing: Science Press, 2018.

[本文引用: 1]

邱东, (2019a).宏观管理·政治算术·国势学问——在360年世界经济统计学说发展中反思中国的近40年[R]. 2019年第20次全国统计科学讨论会(新时代统计改革与发展)特邀学术报告.

[本文引用: 1]

Qiu D, (2019a). Macro Management, Political Arithmetic, National Power Knowledge—Reflecting on Nearly 40 Years of China in the Development of World Economic Statistics during 360 Years[R]. The 20th National Statistical Science Forum, Hohhot.

[本文引用: 1]

邱东, (2019b).社会科学统计学者的操守——数据之"据"和应用的"应"[R]. 2019年第13届全国企业经济统计学会年会大会报告.

[本文引用: 2]

Qiu D, (2019b). Ethics of Social Science Statisticians: Data and Application[R]. The 13th Annual Meeting of the National Association of Enterprise Economic Statistics, Shandong Technology and Business University, Yantai.

[本文引用: 2]

邱东,

践行社会经济统计的历史使命高质量研判国势

[J]. 中国统计, 2020, (12): 60- 62.

[本文引用: 2]

Qiu D ,

Practicing the Historical Mission of Socio-Economy Statistics and Judge the National Situation with High Quality

[J]. China Statistics, 2020, (12): 60- 62.

[本文引用: 2]

王汉生, (2016).统计学发展方向的选择[Z/OL].狗熊会, 狗熊文摘, 2016-05-21.https://cosx.org/2015/10/choice-of-statistical-development-direction.

[本文引用: 4]

Wang H S, (2016). The Choice of Statistical Development Direction[Z/OL]. Bear Club, Bear Digest, 2016-05-21. https://cosx.org/2015/10/choice-of-statistical-development-direction.

王亚南, (1942).经济科学论[M]//王亚南文集(第一卷).福州: 福建教育出版社.

[本文引用: 1]

Wang Y N, (1942). On Economic Science[M]//Collection of Wang Yanan's Works (Volume I). Fuzhou: Fujian Education Press.

[本文引用: 1]

肖红叶, (2015).经济学理论中的概率统计逻辑[R]. 2015年全国企业经济统计科学讨论会(内蒙古财经大学)大会特邀报告.

Xiao H Y, (2015). Probability Statistical Logic in Economic Theory[R]. National Scientific Symposium on Enterprise Economic Statistics Conference, Inner Mongolia University of Finance and Economics, Hohhot.

姚东旻, 王麟植, 庄颖,

模糊性情形下互动决策的行为探析

[J]. 经济学报, 2020, 7 (3): 112- 140.

URL     [本文引用: 1]

Yao D M , Wang L Z , Zhuang Y ,

Analysis of the Behavior in Interactive Decision-Making under Ambiguous Situation

[J]. China Journal of Economics, 2020, 7 (3): 112- 140.

URL     [本文引用: 1]

曾五一,

经济统计学如何才能做到不忘初心

[J]. 中国统计, 2020, (2): 43- 46.

URL    

Zeng W Y ,

How Can Economic Statistics Stay True to Its Original Purpose?

[J]. China Statistics, 2020, (2): 43- 46.

URL    

张维群, (2019).大数据对统计科学的影响及其应用实例[C]//对外经贸大学"统计发展与创新"研讨会.

[本文引用: 1]

Zhang W Q, (2019). The Impact of Big Data on Statistics Science and the Application Examples[C]//Conference in University of International Business and Economics, Statistical Development and Innovation.

[本文引用: 1]

朱建平, 谢邦昌, 马双鸽, 张德富, 方匡南, . 大数据:统计理论、方法与应用[M]. 北京: 北京大学出版社, 2019.

[本文引用: 2]

Zhu J P , Xie B C , Ma S G , Zhang D F , Fang K N , et al. Big Data: Statistical Theory, Method and Correspondence[M]. Beijing: Peking University Press, 2019.

[本文引用: 2]

Ellsberg D ,

Risk, Ambiguity, and the Savage Axioms

[J]. The Quarterly Journal of Economics, 1961, 75 (4): 643- 669.

URL     [本文引用: 1]

He X, Madigan C, Wellner J, Yu B, (2019). Statistics at a Crossroads: Who is for the Challenge[R]. National Science Foundation.

[本文引用: 2]

Jorgenson D W ,

Production and Welfare: Progress in Economic Measurement

[J]. Journal of Economic Literature, 2018, 56 (3): 867- 919.

URL     [本文引用: 2]

Knight F H , Risk, Uncertainty and Profit[M]. Boston and New York: Houghton Mifflin Company, 1921.

[本文引用: 1]

Rao C R , Statistics and Truth: Putting Chance to Work[M]. Singapore: World Scientific, 1997.

[本文引用: 1]

Tukey J W ,

The Future of Data Analysis

[J]. The Annals of Mathematical Statistics, 1962, 33 (1): 1- 67.

[本文引用: 1]

/