计量经济学报, 2022, 2(2): 228-236 DOI: 10.12012/CJoE2022-0032

 

基于随机对照试验的管理科学部三处分类评审试点效果分析

吴刚,1, 陈中飞,1,2, 汪锋,1,3, 俞剑,1,4

1. 国家自然科学基金委员会管理科学部三处, 北京 100085

2. 暨南大学经济学院, 广州510632

3. 重庆大学经济与工商管理学院, 重庆400030

4. 中央财经大学经济学院, 北京100081

The Effect of Category-specific Reviews of NSFC Application Based on Randomized Controlled Trials: Piloting by the Division Ⅲ of Department of Management Sciences

WU Gang,1, CHEN Zhongfei,1,2, WANG Feng,1,3, YU Jian,1,4

1. Division Ⅲ of Department of Management Sciences, National Natural Science Foundation of China, Beijing 100085, China

2. School of Economics, Jinan University, Guangzhou 510632, China

3. School of Economics and Business Administration, Chongqing University, Chongqing 400030, China

4. School of Economics, Central University of Finance and Economics, Beijing 100081, China

通讯作者: 吴刚, 国家自然科学基金委员会管理科学部三处, 研究员, 研究方向: 能源经济与管理, E-mail:wugang@nsfc.gov.cn

收稿日期: 2021-12-30  

Received: 2021-12-30  

作者简介 About authors

陈中飞,教授,研究方向:能源环境经济和金融经济,E-mail:hongyeczf@163.com

汪锋,教授,研究方向:区域经济学,E-mail:wangfeng2008@cqu.edu.cn

俞剑,副教授,研究方向:能源与环境经济学,E-mail:jianyu@cufe.edu.cn

摘要

本文采用随机对照试验方法, 对管理科学部三处经济科学学科(G03) 2021年面上和青年基金1110份项目的分类评审试点效果进行评估. 基于随机对照试验的评估结果发现, 分类评审能够有效提高同行评议专家对原创、前沿和交叉类项目的共识度, 具体表现为原创、前沿和交叉类项目的上会率和资助率显著提高. 同时, 分类评审实验组和对照组样本的综合得分的分布与均值并没有显著差异, 表明分类评审不会系统性地影响通讯评审结果.

关键词: 分类评审 ; 国家自然科学基金 ; 随机对照试验 ; 管理科学部 ; 效果评估

Abstract

This paper uses the randomized controlled trials method to evaluate the pilot effect of the category-specific review in 2021, which is composed of 1, 110 applications in Economic Sciences (G03) of Division Ⅲ in the Department of Management Sciences. These applications cover the General Program and the Young Scientists Funds. We find that category-specific review can effectively increase the consensus of peer-review on the Original Exploratory program, the Cutting-edge program, and Cross-category program. There is significant evidence that the rate for the applications being on the conference review and finally approved in the above three programs have increased. Furthermore, there is no significant difference in the distribution and mean value of the overall scores in the treatment and control groups, which implies that the category-specific review pilot has not systematically affected the results of the peer-review.

Keywords: category-specific review ; NSFC ; randomized controlled trials ; department of management sciences ; effect evaluation

PDF (858KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴刚, 陈中飞, 汪锋, 俞剑. 基于随机对照试验的管理科学部三处分类评审试点效果分析. 计量经济学报[J], 2022, 2(2): 228-236 DOI:10.12012/CJoE2022-0032

WU Gang, CHEN Zhongfei, WANG Feng, YU Jian. The Effect of Category-specific Reviews of NSFC Application Based on Randomized Controlled Trials: Piloting by the Division Ⅲ of Department of Management Sciences. China Journal of Econometrics[J], 2022, 2(2): 228-236 DOI:10.12012/CJoE2022-0032

1 引言

习近平总书记指出"基础研究是整个科学体系的源头, 是所有技术问题的总机关."当前新一轮科技革命正在兴起, 国家对源头创新需求迫切, 科学研究范式正在发生深刻变革, 科学前沿迭代加速, 学科融合交叉研究方兴未艾. 基础研究具有差异化的问题属性, 无法用一把尺子衡量其研究价值和意义. 为了保证最优秀、最前瞻的科学创新思想得到及时支持, 不宜采用"一刀切"的评价标准来评价、遴选项目, 而应采用基于不同科学问题属性的标准来分类选择基础研究的突破口, 并引导广大科学家有针对性地凝练和解决科学问题, 提升国家科研资助质量(李静海(2018)). 国家自然科学基金委员会(以下简称基金委)深入学习贯彻习近平总书记关于科技创新和基础研究的重要论述, 采取与科学问题属性相匹配、相适应的明确资助导向的分类评审机制, 深入研究"鼓励探索, 突出原创(A类, 简称原创); 聚焦前沿, 独辟蹊径(B类, 简称前沿); 需求牵引, 突破瓶颈(C类, 简称需求); 共性导向, 交叉融通(D类, 简称交叉)"四类科学问题属性的资助定位、资助模式, 为中国科学基金事业持续深化改革奠定基础(李静海(2018, 2019)).

2019年以来, 基金委部署基于科学问题属性的分类评审试点工作, 不断探讨完善相关机制. 地球科学部、医学科学部、工程与材料科学部在分类评审改革试点中取得了一定成效, 并总结了开展基于科学问题属性分类评审的经验(冯玉宽等(2021), 陈克新和熊杰(2021), 刘哲等(2021)). 管理科学部三处经济科学学科2021年开展了基于随机对照试验方法的分类评审试点工作.

随机对照试验(randomized controlled trials)于1948年由英国医学研究会提出并实施, 当前广泛应用于医学、生物学、农学、经济学等众多学科的研究中(Concato et al. (2000), Stolberg et al. (2004), Deaton and Cartwright (2018), 洪永淼(2021)). 2019年诺贝尔经济学奖被授予Abhijit Banerjee, Esther Duflo和Michael Kreme将随机对照试验方法应用于发展经济学的开创性研究(Callaway (2019)). 其基本思路是将研究对象随机分组, 对不同组实施不同的干预, 以对照效果的不同, 从而确定干预对于结果的直接影响和因果联系. 为了更加有效地、科学地评估管理科学部三处经济学科分类评审改革试点的效果, 我们采用随机对照试验的方法, 以2021年的面上项目和青年基金项目为研究对象, 采取分实验组和对照组, 科学评估不同评审模式对评审质量的影响.

2 管理科学部三处分类评审改革试点方案的设计

为了对基于科学问题属性的分类评审效果进行科学评估, 2021年学科处在集中评审之前经过多轮调研和讨论, 设计了分类评审试点效果评估的实验方案和技术路线, 形成了《管理科学部三处分类评审改革试点工作方案》.

2021年经济学科接收面上项目申请1009项, 青年项目申请1589项, 地区项目申请272项. 按照申请人提交的四类科学问题属性分类, "需求"类申请量最大, 约占全部申请项目的67.0%; 其次为"前沿"类, 约占21.2%; "交叉"类和"原创"类申请量较少, 分别占7.6%和4.2%左右(如图 1所示).

图1

图1   2021年经济科学学科申请项目的科学问题属性分类情况


由于地区基金申请量太少, 缺乏代表性, 我们选取面上项目和青年项目作为试点, 设立实验组和对照组, 实验设计和技术路线如图 2所示.

图2

图2   分类评审试点方案的技术路线图


1) 在评审工作启动之初, 发送分类评审试点工作的函, 事先告知同行评议专家, 基金委将在同行评议阶段开展分类评审试点工作.

2) 在进行分类评审试点工作的学科领域, 抽样部分选取申请量较大的学科代码作为分类评审试点对象, 2021年选取G0306 "国际经济与贸易"、G0307 "金融经济"、G0311 "农林经济管理"作为研究对象, 采用随机对照试验的方法观测分类评审的实施效果. 上述三个学科代码的申请项目按科学部编号尾数为单数或双数, 随机分为实验组和对照组.

3) 实验组在智能辅助指派系统中, 严格按照"原创、前沿、需求、交叉"四类科学问题属性进行分组; 对于某类属性申请项目较多的, 再按研究主题相似性进行细分; 对于某类属性申请项目较少的, 选择其他学科代码中相同科学问题属性的, 且研究主题相近的凑成一组. 实验组的"原创"和"交叉"类在指派中尽量遴选资深专家; 对照组按智能辅助指派系统中研究主题相似性进行分组指派.

4) 在通讯评审阶段中, 学科处在发给同行评议专家的函中, 明确告知同行评议专家按照划分四类科学问题属性的标准对申请书进行同行评议. 在会议评审阶段, 不再区分实验组和对照组, 所有上会项目一并进行讨论.

3 基于随机对照试验的分类评审试点效果评估

3.1 实验组和对照组的上会率统计分析

上会率与资助率是评判分类评审试点政策效果的重要指标. 表 1统计了2021年参加随机对照试验的三个学科代码实验组和对照组的上会率结果, 以及2020年对应的三个学科代码的上会率结果1. 随机对照试验的上会率统计发现:

1 2020年尚未按照四类科学问题属性进行分组指派, 也可以作为对照组, 用于观测结果的稳健性检验.

表1   实验组与对照组在四类科学问题属性的上会率统计

原创前沿需求交叉合计
2021实验组比例14.29%25.00%21.94%25.00%22.28%
对照组比例16.67%20.39%21.94%10.00%20.90%
2020未分类比例8.70%20.18%21.27%13.56%19.67%

新窗口打开| 下载CSV


1) 分类评审的上会率显著提高. 2021年严格按照四类科学问题属性分类的实验组整体上会率为22.28%, 明显高于未按分类评审的对照组2个百分点(2021年对照组上会率20.90%, 2020年未分类评审的上会率19.67%, 两者基本持平).

2) 分类评审明显提高原创、前沿和交叉类项目的共识度. 原创、前沿和交叉三类项目分类评审与未分类评审的上会率差异较大, 而需求类几乎没有什么差异. 2021年实验组和对照组的原创类项目上会率都大幅提升, 其中实验组相比2020年基准情况提高5.6个百分点; 前沿类实验组的上会率均值为25.00%, 超过未分类评审组的均值约4.8个百分点; 交叉类实验组的上会率均值相对于对照组提高了15个百分点; 这一结果表明, 分类评审整体上提升了同行评议专家对原创、前沿和交叉类科学问题属性的共识度, 进而提高了上会率. 实验组和对照组需求类项目的上会率相同, 共识度没有变化, 可能是因为我们选取的三个代码都是面向应用的基础研究领域, 对于需求类项目即使不分类, 评审专家也比较容易达成共识.

3.2 实验组和对照组的资助率统计分析

表 2统计了2021年随机对照试验的三个学科代码实验组和对照组的资助率结果, 以及2020年对应的三个学科代码的资助率结果.

表2   实验组与对照组在四类科学问题属性的资助率统计

原创前沿需求交叉合计
实验组资助率变化5.71%7.60%2.04%10.00%3.19%
同2020年资助率变化1.36%4.75%0.20%6.50%1.60%

注: 实验组资助率变化是2021年实验组项目资助率与同年的对照组项目资助率的差值, 同2020年资助率变化是2021年实验组项目资助率与2020年项目资助率的差值.

新窗口打开| 下载CSV


随机对照试验的资助率统计发现:

1) 分类评审的资助率高于未分类评审. 2021年严格按照四类科学问题属性分类的实验组整体资助率为14.68%, 高于未分类评审的对照组3个百分点.

2) 实验组的资助率普遍高于对照组, 分类评审明显提高了原创、前沿和交叉类项目的资助率. 原创、前沿和交叉三类项目, 分类与未分类的资助率差异较大, 平均提高2$ \sim $6个百分点, 而需求类差异较小, 特别是同2020年未分类评审相比, 几乎无差异(如表 2所示). 统计结果表明, 分类评审确实整体上提升了同行评议专家对原创、前沿和交叉三类科学问题属性的共识度, 致使其综合得分和上会档次提高, 进而提高了资助率. 需要注意的是, 原创类项目申请量太少, 虽然最终资助率明显提升, 但是分类评审的效果未来仍然需要进一步追踪观察.

3.3 随机对照试验的相关检验

通过上述统计分析可以发现, 分类评审改革试点有效提高了同行评议专家对申请项目的共识度, 提高部分科学问题属性的上会率和资助率. 那么这些统计结果是否科学?是否存在统计上的偏差?我们还需要对分类评审试点的随机对照试验进行若干统计检验. 一个检验是对实验组和对照组的得分均值进行$ t $检验; 另一个检验是采用计量回归方法检验实验组系数的显著性. 检验的目的均是帮助判断分类评审试点是否改变了项目的得分分布和平均得分. 如果是, 则表明分类评审试点会产生系统性的得分偏差; 反之, 则表明分类评审试点方案设计是合理的, 不会产生系统性偏差.

1) 得分分布和平均得分的$ t $检验

在通讯评审过程中, 管理科学部每个项目通讯评审总得分是由综合评价和资助建议相加得到. 表 3展示了实验组与对照组的均值统计及$ t $检验结果. 我们发现, 实验组总得分的平均值为3.078分, 对照组为3.051分, 两者相差0.027分. 根据$ t $检验得出, 实验组与对照组的均值差异所对应的$ t $值为0.422, $ p $值为0.673, 这一结果表明两者差异在统计上并不显著, 这意味着分类评审并不会改变实验组和对照组在通讯评审中的得分偏差.

表3   实验组与对照组的评审结果均值统计及$t$检验结果

实验组对照组均值差值$ t$$p$
总得分3.0783.0510.0270.4220.673
综合评价2.4802.4560.0240.6740.501
资助建议0.5990.5960.0030.1050.917
样本数579531

新窗口打开| 下载CSV


同样地, 从平均意义上看, 实验组的综合评价是2.480分, 对照组是2.456分, 前者略高于后者0.024分, 根据$ t $检验得出, 实验组与对照组的均值差异所对应的$ t $值为0.674, $ p $值为0.501; 实验组和对照组的资助建议基本一致, 前者为0.599分, 后者是0.596分, 根据$ t $检验得出, 实验组与对照组的均值差异所对应的$ t $值为0.105, $ p $值为0.917. 上述结果表明, 实验组和对照组的综合评价和资助建议在统计上不存在明显的差异, 分类评审试点没有改变实验组的综合评价和资助建议的情况.

图 3展示了实验组、对照组和其他项目2在通讯评审过程中的总得分、综合评价和资助建议分布, 我们发现:

2其他项目是指未进入实验组和对照组的基金项目, 即除了国际经济与贸易(G0306)、金融经济(G0307)和农林经济管理(G0311)的其他代码申请项目.

图3

图3   实验组、对照组与其他项目的评审结果分布


从最值来看, 实验组和对照组的得分分布不存在明显差异. 从最低分和最高分分布看, 图 3(a)(b)中实验组的最低总得分和最低综合评价均高于1分, 而对照组和其他项目的最低值均为1分, 即实验组最低总得分和最低综合评价均高于对照组和其他项目. 然而, 这种系统性差异在三者的最高总得分和最高综合评价中并不存在. 图 3(c)反映出实验组、对照组和其他项目在资助建议上的最低值和最高值也不存在明显差异.

从分位数来看, 实验组和对照组的得分分布不存在系统性差异.按照25%和75%得分分布看, 图 3(a)(b)中实验组和对照组的得分要更为集中, 其他项目的得分相对发散. 图 3(c)反映实验组、对照组和其他项目的资助建议分布基本一致, 不存在系统性差异.

从中位数来看, 实验组和对照组的得分分布基本一致.图 3(a)(b)反映出实验组和对照组基本一致, 但两者均低于其他项目; 图 3(c)表明实验组、对照组和其他项目的中位数得分基本一致, 均在0.6左右.

2) 得分分布和平均得分的Wilcoxon rank-sum检验

从统计学上看, $ t $检验往往需要满足正态分布条件, 而科学基金项目的函评得分并不一定满足正态分布条件. 对此, 本文采用放宽假设的Wilcoxon rank-sum检验来判断三类学科中实验组和对照组的得分是否存在显著性差异, 具体结果展示于表 4. 统计结果发现, 在三类试点学科中, 实验组和对照组在总得分、综合评价、资助建议方面的差异并不显著, 分类评审不会造成系统性偏差.

表4   实验组与对照组评审结果的Wilcoxon rank-sum检验

学科分类统计量总得分综合评价资助建议样本数
G0306国际经济与贸易学科$Z$$-$0.1090.106$-$0.248211
$p$0.9140.9160.804
G0307金融经济学科$Z$$-$0.138$-$0.185$-$0.035381
$p$0.8900.8530.972
G0311农林经济管理学科$Z$0.8530.4001.049518
$p$0.3940.6890.294
总计$Z$0.4210.1810.5421110
$p$0.6740.8560.588

来源: 作者统计.

新窗口打开| 下载CSV


3) 实验组系数显著性的计量回归分析

在前边的分析中, 我们可以发现随机对照试验设计本身并没有扭曲总体的上会和资助情况. 但是, 这并不能排除其他混杂因素(confounding factors)的影响, 因此, 我们进一步引入控制变量, 采用最小二乘回归(OLS)方法来估计分类评审试点对项目申请得分是否存在显著影响. 控制变量的选取既考虑了文献(Broder (1993))和管理实践情况, 也考虑了数据的可得性. 所选取的变量定义和统计描述如表 5所示. 所采用的计量经济学模型如下:

$ \begin{equation} {\rm Score} = \alpha _{0} +\alpha _{1} \cdot {\rm treat}+\alpha _{2} \cdot {\rm age}+\alpha _{3} \cdot {\rm gend}+\alpha _{4} \cdot {\rm prof} +\alpha _{5} \cdot {\rm cat}+\alpha _{6} \cdot {\rm univ}+\varepsilon, \end{equation} $

表5   变量定义及其统计描述

变量定义样本量均值标准差最小值最大值
Score总得分11103.0651.06016
Score2综合评价11100.5970.48302
Score3资助建议11102.4680.59014
treat1表示实验组, 0表示对照组11100.5220.50001
age年龄111037.3307.1322768
gend性别, 1表示男性, 0表示女性11100.5110.50001
prof职称, 1表示正教授, 0表示其他11100.1450.35201
cat项目类型, 1是面上项目, 0是青年项目11100.4020.49001
univ高校类型, 1表示985高校, 0表示其他高校11100.1950.39701

新窗口打开| 下载CSV


其中, $ \alpha $$ {}_{i} $为待估计系数$ (i = 0, \cdots, 6) $, $ \varepsilon $为随机误差项.

图 4展示了分类评审试点对基金申请项目总得分的影响. 结果发现, 在控制了其他一些关键因素后, treat的估计系数不显著, 表明分类评审试点并不能显著改变基金申请项目的总得分, 这一结果与表 5表 3$ t $检验结果具有内在一致性.

图4

图4   分类评审试点对基金申请项目总得分的影响(横线范围是估计系数两倍标准误对应的置信区间)


4 主要结论与政策启示

明确资助导向的分类评审机制是科学基金改革的一项重要内容, 是促进科学问题凝练与申请书质量提升的重要基础. 2021年管理科学部三处采取随机对照试验的方法, 对部分学科代码开展了分类评审试点, 得到了较好的效果.

1) 分类评审能够有效提高同行评议专家对基金项目的共识度, 特别是原创、前沿和交叉类, 进而提高其上会率和资助率. 从2021年经济学科分类评审的情况来看, 原创类、前沿类和交叉类项目的共识度提升明显, 上会率提高6$ \sim $10个百分点, 资助率提高2$ \sim $6个百分点, 需求类项目分类评审的共识度没有显著改变, 主要是因为我们选取的三个代码都是面向应用的基础研究领域, 对于需求类项目即使不分类, 评审专家也比较容易达成共识.

2) 分类评审试点的实验结果不存在统计上的偏差, 也不会造成系统性偏差. 分类评审试点在统计意义上没有改变单个申请项目的综合评价、资助建议和总得分, 不会系统性的影响通讯评审结果.

3) 建议面青地项目全面开展分类评审工作. 通过基于四类科学问题属性的分类评审改革试点, 帮助引导同行评议专家的明确评审要点, 同时引导申请者明确研究的问题属性, 有助于凝练科学问题、激励创新、促进学科交叉融合. 因此, 建议面青地项目全面分类评审工作, 并加大分类评审工作的宣传.

4) 建议进一步完善分类评审工作的相关机制. 目前四类属性的申请书、结题报告等是同一模板, 建议根据不同科学问题属性的定位, 适当调整各自申请书、年度进展报告、结题报告等模板的设计, 实现从申请到结题的全周期管理.

受限于样本以及各类项目分布不均匀的情况, 当前实验仅仅覆盖少数学科代码, 涉及的年份也较短, 研究结果的可靠性还有待于通过更多实验来检验.

参考文献

陈克新, 熊杰,

2020年度无机非金属学科分类评审改革措施及基金项目受理情况分析

[J]. 硅酸盐学报, 2021, (1): 1- 6.

URL     [本文引用: 1]

Chen K X , Xiong J ,

Introduction and Analysis of Application Projects and Classified Evaluation on Inorganic Nonmetallic Materials in 2020

[J]. Journal of the Chinese Ceramic Society, 2021, (1): 1- 6.

URL     [本文引用: 1]

冯玉宽, 宋永喜, 戴洁, 陈怡文, 洪雪辉, .

2019年度国家自然科学基金临床肿瘤学科面上项目分类申请与评审情况分析与思考

[J]. 中国科学基金, 2021, (1): 122- 128.

URL     [本文引用: 1]

Feng Y K , Song Y X , Dai J , Chen Y W , Hong X H , et al.

The Analysis of the Pilot Grant Reviewing Based on the Four Funding Categories for the General Program in the Clinical Oncology Division Funded by National Natural Science Foundation of China in 2019

[J]. Bulletin of National Natural Science Foundation of China, 2021, (1): 122- 128.

URL     [本文引用: 1]

洪永淼,

理解现代计量经济学

[J]. 计量经济学报, 2021, (1): 266- 284.

URL     [本文引用: 1]

Hong Y M ,

Understanding Modern Econometrics

[J]. China Journal of Econometrics, 2021, (1): 266- 284.

URL     [本文引用: 1]

李静海,

构建新时代科学基金体系夯实世界科技强国根基

[J]. 中国科学基金, 2018, (4): 345- 350.

URL     [本文引用: 2]

Li J H ,

Building a Science Funding System for a New Paradigm in Science

[J]. Bulletin of National Natural Science Foundation of China, 2018, (4): 345- 350.

URL     [本文引用: 2]

李静海,

全面深化科学基金改革更好发挥在国家创新体系中的基础引领作用

[J]. 中国科学基金, 2019, (3): 209- 214.

URL     [本文引用: 1]

Li J H ,

Deepen the Reform of the National Natural Science Fund to Play the Fundamental and Leading Role in the National Innovation System

[J]. Bulletin of National Natural Science Foundation of China, 2019, (3): 209- 214.

URL     [本文引用: 1]

刘哲, 何建军, 郭郁葱,

基于大气科学学科发展特点, 解读项目分类评审改革新举措

[J]. 科学通报, 2021, (2): 187- 192.

URL     [本文引用: 1]

Liu Z , He J J , Guo Y C ,

Category-specific Evaluation Reform by the National Natural Science Foundation of China Benefits the Basic Research of Atmospheric Sciences: A Policy Interpretation

[J]. Chinese Science Bulletin, 2021, (2): 187- 192.

URL     [本文引用: 1]

Broder I E ,

Review of NSF Economics Proposals: Gender and Institutional Patterns

[J]. The American Economic Review, 1993, 83 (4): 964- 970.

[本文引用: 1]

Callaway E, (2019). 'Randomistas' Who Used Controlled Trials to Fight Poverty Win Economics Nobel[N]. Nature. https://www.nature.com/articles/d41586-019-03125-y/.

[本文引用: 1]

Concato J , Shah N , Horwitz R I ,

Randomized, Controlled Trials, Observational Studies, and the Hierarchy of Research Designs

[J]. New England Journal of Medicine, 2000, (25): 1887- 1892.

[本文引用: 1]

Deaton A , Cartwright N ,

Understanding and Misunderstanding Randomized Controlled Trials

[J]. Social Science and Medicine, 2018, (210): 2- 21.

[本文引用: 1]

Stolberg H O , Norman G , Trop I ,

Randomized Controlled Trials

[J]. American Journal of Roentgenology, 2004, (6): 1539- 1544.

[本文引用: 1]

/