Chinese

高关注论文视角下研究前沿识别的多方法融合研究

高关注论文视角下研究前沿识别的多方法融合研究

高楠,周庆山

引文分析法与Altmetrics分别代表了不同侧重点下的学术评价方法,前者侧重于面向专业领域的学术影响力评价,后者侧重于面向大众评议的社会影响力评价,二者分别揭示了学术成果的交流深度和传播广度,共同构成了学术成果影响力评价的完备性体系。为聚焦研究前沿来源文献的遴选范围,我们的研究结合了以上二者用于论文的综合影响力评价。不同的研究前沿识别方法优缺点不同,为更全面、客观地识别,我们的研究在共被引分析、耦合分析、词频分析和共词分析法4种不同的研究前沿识别方法得到的结果基础上,探索融合不同前沿识别结果的途径。

—在共被引分析、耦合分析、词频分析和共词分析法4种不同的研究前沿识别方法得到的结果基础上,探索融合不同前沿识别结果的途径—

如何获取论文的社交媒体数据?如何测量论文的关注度?

Altmetrics通过收割学术论文在社交媒体平台上的下载、评论、分享、点赞、收藏、转发等指标表现,利用互联网大数据来表征论文的知名度、可见度和影响力,其具备数据范围广、指标全面丰富、受众群体多样化、时效性强、传播范围广、评价过程透明等特点。综合相关方法的使用范围与发展成熟度,目前主要有四款Altmetrics计量工具,包括:Plum Analysis、Altmetrics.com、ImpactStory和PLoS ALM。我们将它们各自的优势与劣势总结如下:

表1 Altmetrics计量工具的优势与劣势

替代计量工具优势劣势
Plum Analysis底层数据覆盖范围最广,数据收集能力最强,指标种类最多收费;信息检索功能欠缺
Altmetrics.com提供文献的综合影响力指标Altmetric Score,数据加工最为严格,数据来源可靠性强;对个人用户免费评价对象单一,仅对文献的影响力进行测评,不涉及其它成果类型的(如软件)影响力数据;由于无引文数据,不适宜对研究人员的影响力进行测评
PLoS ALM免费;除数据下载和管理功能外,还提供数据清洗和标准化的功能仅提供在PLoS平台出版的文献的替代计量指标;无可视化
ImpactStory将替代计量指标数值进行百分比的转换,对指标进行了归一化处理,便于不同类型指标的比较;提供总影响力测度,适合对单个研究人员进行影响力评价收费;无可视化,技术支持文档少

这4款Altmetrics计量工具中,Plum Analysis数据收集能力最强,共收集了26种数据源平台上的替代计量指标数值,既包括新兴的替代计量指标,分为提及(Mention)、获取(Capture)、使用(Usage)、社交媒体(Social Media)、引用(Citation)5大类指标,也包括传统的引文指标;涉及的计量对象种类最多,不仅包括期刊论文,还包括书籍、学位论文、博文、专利、数据库、源代码、软件、视频等共计35种,能够较好地覆盖学术成果的各类形式。综合来讲,Altmetrics计量工具收集多样化数据的能力越强,覆盖的底层数据源越广,得到的文献社会影响力评价结果越客观。因此,我们的研究中选择Plum Analysis作为测度论文社会影响力的平台。

相较于被引量,由于Altmetrics指标的种类多样、来源广泛,各类原始替代计量数据平台在大众中的普及程度差距较大,因此,不同类型的Altmetrics指标在覆盖率上差异较大,且大部分指标的覆盖率均很低。Alperine[3]分析拉丁美洲国家的论文后发现,仅Twitter、Facebook、Mendeley的指标覆盖率超过了2%。因此,本文筛选指标覆盖率超过2%的PlumX指标进行文献的社会影响力,即关注量的测度。

研究前沿(Research Fronts)是文献计量学里的一个专有名词,最早由Price于1965年提出,他认为,研究前沿由领域的30-50篇最新发表的高被引文献及其相关研究主题来反映。经过近六十年发展,研究前沿已衍生出多种定义和识别方法,但目前国内外学者尚未形成统一的研究前沿定义和判别标准,通常是依据其采用的数据源、分析方法和研究目的来界定。现汇集研究前沿的多种定义,如表2所示。

表2 研究前沿概念定义汇总表

概念分类作者年份研究前沿识别方法
将一组高被引文献或共被引聚类文献集定义为研究前沿Price1965将一个领域内的30-50篇近期发表,且有较高被引次数的文献集称为研究前沿

直接

引用

基于引文的探测方法

Small&

Griffith

1974进行共被引聚类,将引文网络中聚合的高被引文献簇称为研究前沿

共被引

分析

Garfield1991共被引聚类和引文的总和

共被引

分析

将耦合聚类文献集定义为研究前沿Persson1994提出知识基础和研究前沿,研究前沿是知识基础的施引文献簇,即高被引文献簇的引证文献簇。缺点:研究前沿和知识基础界限模糊,使得部分文献在共被引频率阈值较高时属于研究前沿,阈值较低时属于知识基础

耦合

分析

Morris2003克服Persson理论缺点,首先确定一组时间和组成单元都固定基础文献簇,引用这个基础文献簇的另一个文献簇则构成研究前沿

耦合

分析

将突发、热点词汇、共词聚类定义为研究前沿Bhattacharya1998统计在同一篇文献中两个词汇共同出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化

共词

分析

基于内容主题的探测方法
Braam1991具有不同知识和社会背景的许多科学研究者共同关注的一组相关的研究问题和概念

词频

分析

Kleinberg2003通过词频密度变化的突破检测算法探测研究前沿

词频

分析

Blei2003先后提出LDA、DLDA模型,通过分析文档中词语分布情况,运用概率统计的方法探测前沿主题概率主题模型
面向国家重点领域或重大战略需求的具有前瞻性、先导性、理论性、探索性的研究内容刘小平等2012未来的科技前沿是指政府的科技规划战略路线图;当前的科技前沿,是指世界科技强国的资助机构通过各类计划项目最新资助的战略投资重点领域定性分析法

由此可以发现,共被引分析、耦合分析、词频分析和共词分析法是探测研究前沿中最常应用的方法,不同的方法各有其优缺点和适用性,使用单一的方法必然存在局限性。因此,为使研究前沿的识别结果更具全面性和客观性,我们将在采用多种研究前沿识别方法的基础上,探索融合不同方法所得前沿识别结果的路径。

 

如何对不同方法的识别结果进行融合?

我们采取了线性融合加权模型,来对不同方法的识别结果进行融合。目前类似的研究处理方式主要存在两种,一种是把不同的分析结果混合在一起,不区分重要性,但在现实情况中,不同识别方法在精确度、时效性等方面表现各有不同,不能混为一谈;另一种是给不同识别方法赋以不同的权重,但多采用人工赋权法,这类方法主观性较强,没有统一的标准,且对专家依赖性较强。为弥补目前同类研究中存在的不足,使得识别结果更加合理,我们将采用强制评分法进行客观赋权。作为确定评价对象权值系数的常用方法之一,强制评分法通过对评价对象间的两两强制对比,来对评价对象的重要性进行打分。

下面就以“人工智能领域”为例,来展示我们这种融合方法。首先,基于筛选的人工智能领域的586篇高关注文献,以及文献间的共被引关系,构建高关注量文集的共被引相似度矩阵,采用社会网络分析法来揭示文献间的关联关系。从图1可见,共被引分析法共得到了人工智能领域的4大类研究前沿聚类簇。

图 1 基于共被引分析的2014-2019年人工智能领域研究前沿

接着,采用耦合分析法共得到了人工智能领域的6大类研究前沿聚类簇,如图2所示。

图 2 基于耦合分析的2014-2019年人工智能领域研究前沿

然后,对62篇高关注、低被引文集以及41篇高关注、高被引文集,分别进行词频统计与热点词云分析,如图3、图4所示。

图 3 基于词频分析的2014-2019年人工智能领域高关注、低被引主题词云

图 4 基于词频分析的2014-2019年人工智能领域高关注、高被引主题词云

接着,对高关注、高被引文集与高关注、低被引文集进行合并,基于合并后的文集进行共词分析。从图5可见,共词分析得到了6个前沿聚类簇。

图5基于共词分析的2014-2019年人工智能领域研究前沿

通过强制评分法来确定不同的研究前沿识别方法的权重,经过计算,得到人工智能领域2014-2019年重要程度排名前20位的研究前沿,如表3所示。

表3 2014-2019年人工智能领域研究前沿列表

序号研究前沿重要度序号研究前沿重要度
1虚拟现实111卷积神经网络0.44
2深度学习0.9812基因组学0.375
3中风康复0.9813机器人0.25
4人脸识别0.7714机器学习0.25
5智能安防0.7515强化学习0.25
6智能医疗0.7516人工智能0.25
7焦虑症0.60517支持向量机0.25
8人机交互0.60518虚拟现实疗法0.25
9视频游戏0.60519计算机辅助检测0.23
10老人体能改善0.58520无监督特征学习0.23

除了本文介绍的以论文作为数据源进行研究前沿识别外,我们课题组的前序研究还基于专利数据,以核融合的方式融合共被引与耦合矩阵,进行研究前沿的识别,参见文献[2]。后续,我们还将以国家社会科学基金青年项目“基于多源数据的新兴技术识别方法与演化路径研究”为依托,继续开展采用多源数据进行技术识别的研究。

 

本文基于以下论文写作完成

  • 高楠,周庆山. 高关注论文视角下研究前沿识别多方法融合研究[J]. 情报资料工作,2021,42(6):45-53.
  • 高楠,傅俊英,赵蕴华. 融合专利共被引和耦合方法的研究前沿识别——以脑机接口领域为例[J]. 情报学报,2016,35(9):971-979.
  • ALPERIN J P.Geographic variation in social media metrics:an analysis of Latin American journal articles[J].Aslib Journal of Information Management,2015,67(3):289-304.
作者简介
 
  • 高楠,北京大学博士研究生,馆员,研究方向为文献计量与新兴技术识别,在该研究方向下主持国家社科基金青年项目一项
  • 周庆山,北京大学信息管理系教授、博士生导师,长期从事科技情报教学及研究工作,发表近百篇学术论文,出版多部学术著作和教材,主持、参与十余项国家重大及一般科研项目。 

APA引用格式: Gao, N & Zhou, Q. (2022, November 3).高关注论文视角下研究前沿识别的多方法融合研究. Information Matters, Vol. 2, Issue 11. https://informationmatters.org/2022/11/高关注论文视角下研究前沿识别的多方法融合研究/