Chinese

多视角下的开放科学数据集统一发现问题研究

多视角下的开放科学数据集统一发现问题研究

王继民  聂磊

大数据时代,科学数据的开放共享受到各方高度重视,“数据爆炸”问题正在显现,互联网上多源、异构、海量开放科学数据集的统一发现问题相关理论、技术方法与应用研究急需加强,如何全流程评价科学数据集及其元数据?如何对数据集进行有效检索与推荐?研究者对新型数据的查找与使用有何特征?这一系列问题尚待研究。

—如何全流程评价科学数据集及其元数据?如何对数据集进行有效检索与推荐?研究者对新型数据的查找与使用有何特征?这一系列问题尚待研究—

由北京大学信息管理系的王继民教授主持的国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”从数据、技术与用户等方面对这些问题进行了探索并已取得阶段性成果。

数据方面,元数据承载着数据集的核心信息,元数据质量会对数据集发现的准确度产生重要影响。课题成果《元数据质量评价研究综述》一文提出了元数据质量评价维度,对元数据质量的内涵、评价模型、评价指标、评价方法和评价应用等方面进行了总结与辨析,能够为元数据质量评估与提升工作提供参考借鉴[1]

 图1 元数据质量评价维度

技术方面,《基于深度学习的科学数据集检索方法研究》一文尝试将前沿技术用于科学数据集统一发现,通过将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集,进而基于BERT排序模型对候选数据集的相关性进行评分,最终大幅提高模型检索准确性和语义检索能力[2]

图2 基于深度学习的科学数据集检索方法整体框架

用户方面,本专题重点探索了社会科学研究者对非调查数据这把 “双刃剑”的使用情况。《非调查数据在社会科学研究中的使用特征研究》一文通过内容分析,识别出相关使用标准和评估技术的缺乏是制约非调查数据价值发挥的重要因素[3]。《社会科学研究者使用非调查数据的影响因素研究》一文使用混合方法,识别出社群支持、感知价值和质量接受度是现阶段影响研究者使用此类数据的核心因素[4]。相关成果能够为特定类型数据集的统一发现研究与实践提供参考。

图3 社会科学研究者非调查数据使用影响因素

未来,开放科学数据集统一发现这一领域或以更全、更准、更深为方向快速发展,更全是指更广泛的数据集覆盖以及更全面的元数据内容,更准是指更加精准的数据集检索与推荐算法,更深是指更加深入地理解研究者对多源数据的查找与使用行为。

 

参考文献

[1] 刘智锋,王继民,李倩. 元数据质量评价研究综述[J]. 情报理论与实践, 2022, 45(7): 42-48.

[2] 罗鹏程,王继民,王世奇,等. 基于深度学习的科学数据集检索方法研究[J]. 情报理论与实践, 2022, 45(7): 49-56.

[3] 聂磊,王继民,易成岐. 非调查数据在社会科学研究中的使用特征研究——以政治学、经济学、社会学为例[J]. 情报理论与实践, 2022, 45(7): 57-64.

[4] 聂磊,王继民,易成岐. 社会科学研究者使用非调查数据的影响因素研究——基于混合方法的实证[J]. 情报理论与实践, 2022, 45(7): 65-73.

(本文为国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”的成果,项目编号:20ATQ007。)

APA引用格式: 王继民,聂磊. (2022,  October 10).多视角下的开放科学数据集统一发现问题研究. Information Matters, Vol. 2, Issue 10. https://informationmatters.org/2022/10/多视角下的开放科学数据集统一发现问题研究/

Authors

  • Lei Nie

    北京外国语大学区域与全球治理高等研究院,讲师。研究方向为全球数据管理与应用,在该研究方向下主持国家社科基金青年项目一项,参与国家社科基金项目三项。

  • Jimin Wang

    Jimin Wang is a professor and doctoral supervisor of the Department of Information Management, Peking University. He has presided over more than 30 research projects from National Social Science Fundation, the National Development and Reform Commission, the Ministry of Education, and the Beijing Science and Technology Commission. He has published more than 50 academic papers and 6 monographs. 北京大学信息管理系教授、博士生导师。主持国家社科基金、国家“核高基”重大科技专项子课题、国家发改委、教育部、北京市科委等科研课题30余项。发表学术论文50余篇;出版专著或合著6部。国家发明专利2项。省部级科研奖励2项。

Lei Nie

北京外国语大学区域与全球治理高等研究院,讲师。研究方向为全球数据管理与应用,在该研究方向下主持国家社科基金青年项目一项,参与国家社科基金项目三项。