从科学计量学的视角测量跨学科性

从科学计量学的视角测量跨学科性

步一

17世纪,René Descartes创造了解析几何,这是一个结合了代数和几何的全新领域。解析几何是数学领域最伟大的贡献之一,它将“数字”与“图形”联系形成一个整体。解析几何的创新性的建立是跨学科的典型案例,跨学科旨在解决仅靠单一学科无法解决的复杂问题,连接了多个学科的知识、理论、技能、工具、方法等。近年来,许多国家开始发布新的鼓励跨学科的政策。例如,我国国家自然科学基金委员会成立了第14个部门,即交叉科学部。交叉科学部明确聚焦跨学科领域,表明了实现既定学科在方法、理论、文化层面“融合”的雄心。

—如何测量跨学科性?—

如何量化跨学科性(比如,论文A的跨学科性是否强于论文B)?科学计量学学者一般以某一论文的参考文献作为衡量其跨学科程度的一条途径。具体来看,人们首先会去计算一篇论文参考文献所涉及的学科数量,即多样性(Variety)。例如,如果论文A引用了三个学科的论文,而论文B引用了五个学科的论文,我们倾向于认为B比A更具有跨学科性。另一个需要考虑的维度是论文的参考文献所涉及的学科是否均衡(Balance)。例如,假设两篇文章(比如C和D)都有30篇物理和化学领域的参考文献,如果C的15篇参考文献来自物理,另外15篇参考文献来自化学,而D有29篇来自物理,1篇来自化学,我们就会说C由于有更好的均衡性,因此具备更强的跨学科性。在实际操作中,科学计量学的学者一般会采用基尼系数(Gini index)来量化均衡性,基尼系数是经济学中一个非常著名的衡量收入不平等的指标。然而,多样性和均衡性这两个维度是不够的。科学计量学家提出了第三个视角,即差异性(Disparity),以此来表示学科的语义差异。例如,论文E引用了物理和化学的参考文献,而论文F引用了物理和艺术的参考文献。人们可能会认为,与物理和化学相比,物理和艺术之间的差距使得论文F显得更加跨学科。多年来,“多样性-均衡性-差异性(variety-balance-disparity)”的框架一直是跨学科研究的常用框架之一。

很明显,在这个框架中,要想精确量化跨学科性,首先需要明确定义什么叫做出版物或参考文献的“学科”。一般说来,定义学科需要在Web of Science、Microsoft Academic Graph、Scopus等文献数据库中手动分配类别,虽然这些类别一般都是在数据库中提前分配好。然而,采用这种人为分配的学科框架体系进行多样性测量的方案至少有三个局限性:

  1. 学科框架体系一旦建立,若想更改可能需要一定的时间。因此,相对静态的方案不能反映学科的演化和结构的动态性。例如,人工智能可能与多个学科融合。因此,静态方案可能无法揭示各学科之间实时的差异性。

  2. 学科分类具有主观性,从不同角度出发往往无法达成共识。例如,对于一个领域专家而言,情报学的“样貌”可能与另一个专家的看法完全不同,也就是说,“每个人的心里可能都住着一个不同的情报学”。

  3. 目前数据库中的学科划分粒度较大,不能对子领域或研究主题进行更深入的分析。

这三个局限性启发我们重新思考“多样性-均衡性-差异性”三维框架的使用。为此,我们提出了一种新的、特别是针对学术期刊的衡量方法。该方法不依赖于任何现有的主题分类方案,被称为主题多样性(topic diversity,TD)。主题多样性方法需要输入某一期刊上刊载论文的摘要,从而输出一个量化该期刊研究主题多样性的数值。

计算这一指标存在诸多细节,但其过程主要可以划分为四步,分别是:(1)词语抽取,(2)网络构建,(3)话题检测,(4)多样性计算。在第一步和第二步中,我们进行基本的自然语言处理,并通过考虑共词网络的拓扑结构来选择对后续步骤具有语义层面“意义”的候选词。在第三步中,我们检测候选主题(共词网络中的社区)并对其进行过滤以获得合理的主题。在最后一步,我们通过考虑多样性、均衡性和差异性来计算各期刊的主题多样性。

为了验证主题多样性指标,我们使用微软学术数据(Microsoft Academic Graph

Read more Read more