基于随机对照试验的管理科学部三处分类评审试点效果分析

图1 2021年经济科学学科申请项目的科学问题属性分类情况

由于地区基金申请量太少, 缺乏代表性, 我们选取面上项目和青年项目作为试点, 设立实验组和对照组, 实验设计和技术路线如图 2所示.

图2

图2 分类评审试点方案的技术路线图

1) 在评审工作启动之初, 发送分类评审试点工作的函, 事先告知同行评议专家, 基金委将在同行评议阶段开展分类评审试点工作.

2) 在进行分类评审试点工作的学科领域, 抽样部分选取申请量较大的学科代码作为分类评审试点对象, 2021年选取G0306 "国际经济与贸易"、G0307 "金融经济"、G0311 "农林经济管理"作为研究对象, 采用随机对照试验的方法观测分类评审的实施效果. 上述三个学科代码的申请项目按科学部编号尾数为单数或双数, 随机分为实验组和对照组.

3) 实验组在智能辅助指派系统中, 严格按照"原创、前沿、需求、交叉"四类科学问题属性进行分组; 对于某类属性申请项目较多的, 再按研究主题相似性进行细分; 对于某类属性申请项目较少的, 选择其他学科代码中相同科学问题属性的, 且研究主题相近的凑成一组. 实验组的"原创"和"交叉"类在指派中尽量遴选资深专家; 对照组按智能辅助指派系统中研究主题相似性进行分组指派.

4) 在通讯评审阶段中, 学科处在发给同行评议专家的函中, 明确告知同行评议专家按照划分四类科学问题属性的标准对申请书进行同行评议. 在会议评审阶段, 不再区分实验组和对照组, 所有上会项目一并进行讨论.

3 基于随机对照试验的分类评审试点效果评估

3.1 实验组和对照组的上会率统计分析

上会率与资助率是评判分类评审试点政策效果的重要指标. 表 1统计了2021年参加随机对照试验的三个学科代码实验组和对照组的上会率结果, 以及2020年对应的三个学科代码的上会率结果¹. 随机对照试验的上会率统计发现:

¹ 2020年尚未按照四类科学问题属性进行分组指派, 也可以作为对照组, 用于观测结果的稳健性检验.

表1 实验组与对照组在四类科学问题属性的上会率统计

			原创	前沿	需求	交叉	合计
2021	实验组	比例	14.29%	25.00%	21.94%	25.00%	22.28%
2021	对照组	比例	16.67%	20.39%	21.94%	10.00%	20.90%
2020	未分类	比例	8.70%	20.18%	21.27%	13.56%	19.67%

1) 分类评审的上会率显著提高. 2021年严格按照四类科学问题属性分类的实验组整体上会率为22.28%, 明显高于未按分类评审的对照组2个百分点(2021年对照组上会率20.90%, 2020年未分类评审的上会率19.67%, 两者基本持平).

2) 分类评审明显提高原创、前沿和交叉类项目的共识度. 原创、前沿和交叉三类项目分类评审与未分类评审的上会率差异较大, 而需求类几乎没有什么差异. 2021年实验组和对照组的原创类项目上会率都大幅提升, 其中实验组相比2020年基准情况提高5.6个百分点; 前沿类实验组的上会率均值为25.00%, 超过未分类评审组的均值约4.8个百分点; 交叉类实验组的上会率均值相对于对照组提高了15个百分点; 这一结果表明, 分类评审整体上提升了同行评议专家对原创、前沿和交叉类科学问题属性的共识度, 进而提高了上会率. 实验组和对照组需求类项目的上会率相同, 共识度没有变化, 可能是因为我们选取的三个代码都是面向应用的基础研究领域, 对于需求类项目即使不分类, 评审专家也比较容易达成共识.

3.2 实验组和对照组的资助率统计分析

表 2统计了2021年随机对照试验的三个学科代码实验组和对照组的资助率结果, 以及2020年对应的三个学科代码的资助率结果.

表2 实验组与对照组在四类科学问题属性的资助率统计

	原创	前沿	需求	交叉	合计
实验组资助率变化	5.71%	7.60%	2.04%	10.00%	3.19%
同2020年资助率变化	1.36%	4.75%	0.20%	6.50%	1.60%

注: 实验组资助率变化是2021年实验组项目资助率与同年的对照组项目资助率的差值, 同2020年资助率变化是2021年实验组项目资助率与2020年项目资助率的差值.

随机对照试验的资助率统计发现:

1) 分类评审的资助率高于未分类评审. 2021年严格按照四类科学问题属性分类的实验组整体资助率为14.68%, 高于未分类评审的对照组3个百分点.

2) 实验组的资助率普遍高于对照组, 分类评审明显提高了原创、前沿和交叉类项目的资助率. 原创、前沿和交叉三类项目, 分类与未分类的资助率差异较大, 平均提高2$ \sim $6个百分点, 而需求类差异较小, 特别是同2020年未分类评审相比, 几乎无差异(如表 2所示). 统计结果表明, 分类评审确实整体上提升了同行评议专家对原创、前沿和交叉三类科学问题属性的共识度, 致使其综合得分和上会档次提高, 进而提高了资助率. 需要注意的是, 原创类项目申请量太少, 虽然最终资助率明显提升, 但是分类评审的效果未来仍然需要进一步追踪观察.

3.3 随机对照试验的相关检验

通过上述统计分析可以发现, 分类评审改革试点有效提高了同行评议专家对申请项目的共识度, 提高部分科学问题属性的上会率和资助率. 那么这些统计结果是否科学?是否存在统计上的偏差?我们还需要对分类评审试点的随机对照试验进行若干统计检验. 一个检验是对实验组和对照组的得分均值进行$ t $检验; 另一个检验是采用计量回归方法检验实验组系数的显著性. 检验的目的均是帮助判断分类评审试点是否改变了项目的得分分布和平均得分. 如果是, 则表明分类评审试点会产生系统性的得分偏差; 反之, 则表明分类评审试点方案设计是合理的, 不会产生系统性偏差.

1) 得分分布和平均得分的$ t $检验

在通讯评审过程中, 管理科学部每个项目通讯评审总得分是由综合评价和资助建议相加得到. 表 3展示了实验组与对照组的均值统计及$ t $检验结果. 我们发现, 实验组总得分的平均值为3.078分, 对照组为3.051分, 两者相差0.027分. 根据$ t $检验得出, 实验组与对照组的均值差异所对应的$ t $值为0.422, $ p $值为0.673, 这一结果表明两者差异在统计上并不显著, 这意味着分类评审并不会改变实验组和对照组在通讯评审中的得分偏差.

表3 实验组与对照组的评审结果均值统计及$t$检验结果

	实验组	对照组	均值差值	$ t$值	$p$值
总得分	3.078	3.051	0.027	0.422	0.673
综合评价	2.480	2.456	0.024	0.674	0.501
资助建议	0.599	0.596	0.003	0.105	0.917
样本数	579	531

同样地, 从平均意义上看, 实验组的综合评价是2.480分, 对照组是2.456分, 前者略高于后者0.024分, 根据$ t $检验得出, 实验组与对照组的均值差异所对应的$ t $值为0.674, $ p $值为0.501; 实验组和对照组的资助建议基本一致, 前者为0.599分, 后者是0.596分, 根据$ t $检验得出, 实验组与对照组的均值差异所对应的$ t $值为0.105, $ p $值为0.917. 上述结果表明, 实验组和对照组的综合评价和资助建议在统计上不存在明显的差异, 分类评审试点没有改变实验组的综合评价和资助建议的情况.

图 3展示了实验组、对照组和其他项目²在通讯评审过程中的总得分、综合评价和资助建议分布, 我们发现:

²其他项目是指未进入实验组和对照组的基金项目, 即除了国际经济与贸易(G0306)、金融经济(G0307)和农林经济管理(G0311)的其他代码申请项目.

图3

图3 实验组、对照组与其他项目的评审结果分布

从最值来看, 实验组和对照组的得分分布不存在明显差异. 从最低分和最高分分布看, 图 3(a)和(b)中实验组的最低总得分和最低综合评价均高于1分, 而对照组和其他项目的最低值均为1分, 即实验组最低总得分和最低综合评价均高于对照组和其他项目. 然而, 这种系统性差异在三者的最高总得分和最高综合评价中并不存在. 图 3(c)反映出实验组、对照组和其他项目在资助建议上的最低值和最高值也不存在明显差异.

从分位数来看, 实验组和对照组的得分分布不存在系统性差异.按照25%和75%得分分布看, 图 3(a)和(b)中实验组和对照组的得分要更为集中, 其他项目的得分相对发散. 图 3(c)反映实验组、对照组和其他项目的资助建议分布基本一致, 不存在系统性差异.

从中位数来看, 实验组和对照组的得分分布基本一致.图 3(a)和(b)反映出实验组和对照组基本一致, 但两者均低于其他项目; 图 3(c)表明实验组、对照组和其他项目的中位数得分基本一致, 均在0.6左右.

2) 得分分布和平均得分的Wilcoxon rank-sum检验

从统计学上看, $ t $检验往往需要满足正态分布条件, 而科学基金项目的函评得分并不一定满足正态分布条件. 对此, 本文采用放宽假设的Wilcoxon rank-sum检验来判断三类学科中实验组和对照组的得分是否存在显著性差异, 具体结果展示于表 4. 统计结果发现, 在三类试点学科中, 实验组和对照组在总得分、综合评价、资助建议方面的差异并不显著, 分类评审不会造成系统性偏差.

表4 实验组与对照组评审结果的Wilcoxon rank-sum检验

学科分类	统计量	总得分	综合评价	资助建议	样本数
G0306国际经济与贸易学科	$Z$值	$-$0.109	0.106	$-$0.248	211
G0306国际经济与贸易学科	$p$值	0.914	0.916	0.804	211
G0307金融经济学科	$Z$值	$-$0.138	$-$0.185	$-$0.035	381
G0307金融经济学科	$p$值	0.890	0.853	0.972	381
G0311农林经济管理学科	$Z$值	0.853	0.400	1.049	518
G0311农林经济管理学科	$p$值	0.394	0.689	0.294	518
总计	$Z$值	0.421	0.181	0.542	1110
总计	$p$值	0.674	0.856	0.588	1110

来源: 作者统计.

3) 实验组系数显著性的计量回归分析

在前边的分析中, 我们可以发现随机对照试验设计本身并没有扭曲总体的上会和资助情况. 但是, 这并不能排除其他混杂因素(confounding factors)的影响, 因此, 我们进一步引入控制变量, 采用最小二乘回归(OLS)方法来估计分类评审试点对项目申请得分是否存在显著影响. 控制变量的选取既考虑了文献(Broder (1993))和管理实践情况, 也考虑了数据的可得性. 所选取的变量定义和统计描述如表 5所示. 所采用的计量经济学模型如下:

(1) $ \begin{equation} {\rm Score} = \alpha _{0} +\alpha _{1} \cdot {\rm treat}+\alpha _{2} \cdot {\rm age}+\alpha _{3} \cdot {\rm gend}+\alpha _{4} \cdot {\rm prof} +\alpha _{5} \cdot {\rm cat}+\alpha _{6} \cdot {\rm univ}+\varepsilon, \end{equation} $

表5 变量定义及其统计描述

变量	定义	样本量	均值	标准差	最小值	最大值
Score	总得分	1110	3.065	1.060	1	6
Score2	综合评价	1110	0.597	0.483	0	2
Score3	资助建议	1110	2.468	0.590	1	4
treat	1表示实验组, 0表示对照组	1110	0.522	0.500	0	1
age	年龄	1110	37.330	7.132	27	68
gend	性别, 1表示男性, 0表示女性	1110	0.511	0.500	0	1
prof	职称, 1表示正教授, 0表示其他	1110	0.145	0.352	0	1
cat	项目类型, 1是面上项目, 0是青年项目	1110	0.402	0.490	0	1
univ	高校类型, 1表示985高校, 0表示其他高校	1110	0.195	0.397	0	1

其中, $ \alpha $$ {}_{i} $为待估计系数$ (i = 0, \cdots, 6) $, $ \varepsilon $为随机误差项.

图 4展示了分类评审试点对基金申请项目总得分的影响. 结果发现, 在控制了其他一些关键因素后, treat的估计系数不显著, 表明分类评审试点并不能显著改变基金申请项目的总得分, 这一结果与表 5和表 3的$ t $检验结果具有内在一致性.

图4

图4 分类评审试点对基金申请项目总得分的影响(横线范围是估计系数两倍标准误对应的置信区间)

4 主要结论与政策启示

明确资助导向的分类评审机制是科学基金改革的一项重要内容, 是促进科学问题凝练与申请书质量提升的重要基础. 2021年管理科学部三处采取随机对照试验的方法, 对部分学科代码开展了分类评审试点, 得到了较好的效果.

1) 分类评审能够有效提高同行评议专家对基金项目的共识度, 特别是原创、前沿和交叉类, 进而提高其上会率和资助率. 从2021年经济学科分类评审的情况来看, 原创类、前沿类和交叉类项目的共识度提升明显, 上会率提高6$ \sim $10个百分点, 资助率提高2$ \sim $6个百分点, 需求类项目分类评审的共识度没有显著改变, 主要是因为我们选取的三个代码都是面向应用的基础研究领域, 对于需求类项目即使不分类, 评审专家也比较容易达成共识.

2) 分类评审试点的实验结果不存在统计上的偏差, 也不会造成系统性偏差. 分类评审试点在统计意义上没有改变单个申请项目的综合评价、资助建议和总得分, 不会系统性的影响通讯评审结果.

3) 建议面青地项目全面开展分类评审工作. 通过基于四类科学问题属性的分类评审改革试点, 帮助引导同行评议专家的明确评审要点, 同时引导申请者明确研究的问题属性, 有助于凝练科学问题、激励创新、促进学科交叉融合. 因此, 建议面青地项目全面分类评审工作, 并加大分类评审工作的宣传.

4) 建议进一步完善分类评审工作的相关机制. 目前四类属性的申请书、结题报告等是同一模板, 建议根据不同科学问题属性的定位, 适当调整各自申请书、年度进展报告、结题报告等模板的设计, 实现从申请到结题的全周期管理.

受限于样本以及各类项目分布不均匀的情况, 当前实验仅仅覆盖少数学科代码, 涉及的年份也较短, 研究结果的可靠性还有待于通过更多实验来检验.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[]

陈克新, 熊杰,

2020年度无机非金属学科分类评审改革措施及基金项目受理情况分析

[J]. 硅酸盐学报, 2021, (1): 1- 6.

Chen

K X

, Xiong

Introduction and Analysis of Application Projects and Classified Evaluation on Inorganic Nonmetallic Materials in 2020

[J]. Journal of the Chinese Ceramic Society, 2021, (1): 1- 6.

冯玉宽, 宋永喜, 戴洁, 陈怡文, 洪雪辉, 等.

2019年度国家自然科学基金临床肿瘤学科面上项目分类申请与评审情况分析与思考

[J]. 中国科学基金, 2021, (1): 122- 128.

Feng

Y K

, Song

Y X

, Dai

, Chen

Y W

, Hong

X H

, et al.

The Analysis of the Pilot Grant Reviewing Based on the Four Funding Categories for the General Program in the Clinical Oncology Division Funded by National Natural Science Foundation of China in 2019

[J]. Bulletin of National Natural Science Foundation of China, 2021, (1): 122- 128.

洪永淼,

理解现代计量经济学

[J]. 计量经济学报, 2021, (1): 266- 284.

Hong

Y M

Understanding Modern Econometrics

[J]. China Journal of Econometrics, 2021, (1): 266- 284.

李静海,

构建新时代科学基金体系夯实世界科技强国根基

[J]. 中国科学基金, 2018, (4): 345- 350.

URL [本文引用: 2]

J H

Building a Science Funding System for a New Paradigm in Science

[J]. Bulletin of National Natural Science Foundation of China, 2018, (4): 345- 350.

URL [本文引用: 2]

李静海,

全面深化科学基金改革更好发挥在国家创新体系中的基础引领作用

[J]. 中国科学基金, 2019, (3): 209- 214.

J H

Deepen the Reform of the National Natural Science Fund to Play the Fundamental and Leading Role in the National Innovation System

[J]. Bulletin of National Natural Science Foundation of China, 2019, (3): 209- 214.

刘哲, 何建军, 郭郁葱,

基于大气科学学科发展特点, 解读项目分类评审改革新举措

[J]. 科学通报, 2021, (2): 187- 192.

Liu

, He

J J

, Guo

Y C

Category-specific Evaluation Reform by the National Natural Science Foundation of China Benefits the Basic Research of Atmospheric Sciences: A Policy Interpretation

[J]. Chinese Science Bulletin, 2021, (2): 187- 192.

Broder

I E

Review of NSF Economics Proposals: Gender and Institutional Patterns

[J]. The American Economic Review, 1993, 83 (4): 964- 970.

Callaway E, (2019). 'Randomistas' Who Used Controlled Trials to Fight Poverty Win Economics Nobel[N]. Nature. https://www.nature.com/articles/d41586-019-03125-y/.

Concato

, Shah

, Horwitz

R I

Randomized, Controlled Trials, Observational Studies, and the Hierarchy of Research Designs

[J]. New England Journal of Medicine, 2000, (25): 1887- 1892.

Deaton

, Cartwright

Understanding and Misunderstanding Randomized Controlled Trials

[J]. Social Science and Medicine, 2018, (210): 2- 21.

Stolberg

H O

, Norman

, Trop

Randomized Controlled Trials

[J]. American Journal of Roentgenology, 2004, (6): 1539- 1544.