Chinese

人文社科数据集搜索平台

人文社科数据集搜索平台

王继民1  罗鹏程1,2

(1. 北京大学信息管理系 2. 北京大学图书馆)

        学术研究越来越需要以数据为基础进行研究探索,学者如何才能方便地查找利用国内外重要的开放数据呢?随着数据驱动研究范式的广泛应用,以及开放科学和开放获取运动的蓬勃发展,互联网上涌现了大量开放政府和开放研究数据平台,并共享了海量数据集。例如re3data.org中注册的科学数据平台的数量超过2900个,在DataCite中注册DOI的数据集的数量超过了1000万。目前,中国国内也涌现了许多数据共享平台,并存放了大量有价值的数据,但是这些平台多数未被现有数据集搜索系统索引。为帮助人文社科学者更方便的查找利用国内外重要的开放数据,我们推出了“人文社会科学数据集搜索平台” (http://scielab.pku.edu.cn/dataset_search/)。

—数据驱动研究范式下,如何更好的查找发现开放科学数据?—

        “人文社会科学数据集搜索平台”包含哪些模块?目前,该平台主要由两部分组成:数据集采集和数据集搜索,如图 1所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的API或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能,构建数据集搜索Web应用,方便用户通过浏览器搜索数据集。

        “人文社会科学数据集搜索平台”都收录了哪些数据?该平台现收录100余个开放数据平台,主要包括开放政府数据和开放人文社科研究数据平台两类,索引数据集的数量达百万量级。收录的部分平台如表 1所示。 

 1  收录的部分开放数据平台

平台类型

平台名称

平台类型

平台名称

政府数据

北京市政务数据资源网

研究数据

UK Data Service

政府数据

上海市公共数据开放平台

研究数据

Harvard Dataverse

政府数据

山东公共数据开放网

研究数据

Qualitative Data Repository

政府数据

浙江·数据开放

研究数据

OPEN ICPSR

政府数据

贵州省政府数据开放平台

研究数据

北京大学开放研究数据平台

政府数据

四川公共数据开放网

研究数据

复旦大学社会科学数据平台

        用户如何使用“人文社会科学数据集搜索平台”?该平台采用类似于搜索引擎的检索方式:用户进入平台后在搜索框中输入查询,如图 2(1)所示;系统对数据集的相关性进行评分,按照相关性大小进行排序,以每页10条搜索结果返回给用户,如图 2(2)所示;用户从检索结果中找到感兴趣的数据集,可通过超链接进入数据集来源页面获取数据内容,如图 2(3)所示。

APA引用格式:王继民,罗鹏程. (2022, October 10). 人文社科数据集搜索平台. Information Matters, Vol. 2, Issue 10. https://informationmatters.org/2022/10/人文社科数据集搜索平台/

Authors

  • Pengcheng Luo

    Pengcheng Luo is a associate research librarian of Peking University Library. He has participated in a number of research projects such as the National Natural Science Foundation of China and the National Social Science Foundation of China. He has published more than 20 papers and participated in the writing of 4 books. 罗鹏程为北京大学图书馆副研究馆员。参与国家自然科学基金、国家社会科学基金等多项科研项目,已发表论文20余篇,参编图书4部,合作获得授权发明专利一项。

  • Jimin Wang

    Jimin Wang is a professor and doctoral supervisor of the Department of Information Management, Peking University. He has presided over more than 30 research projects from National Social Science Fundation, the National Development and Reform Commission, the Ministry of Education, and the Beijing Science and Technology Commission. He has published more than 50 academic papers and 6 monographs. 北京大学信息管理系教授、博士生导师。主持国家社科基金、国家“核高基”重大科技专项子课题、国家发改委、教育部、北京市科委等科研课题30余项。发表学术论文50余篇;出版专著或合著6部。国家发明专利2项。省部级科研奖励2项。

Pengcheng Luo

Pengcheng Luo is a associate research librarian of Peking University Library. He has participated in a number of research projects such as the National Natural Science Foundation of China and the National Social Science Foundation of China. He has published more than 20 papers and participated in the writing of 4 books. 罗鹏程为北京大学图书馆副研究馆员。参与国家自然科学基金、国家社会科学基金等多项科研项目,已发表论文20余篇,参编图书4部,合作获得授权发明专利一项。