Chinese

跨学科协作下的文化传承:历代古籍目录的数据管护

跨学科协作下的文化传承:历代古籍目录的数据管护

李文琦,王军,王凤翔

自先秦诸子开宗立派、传授学说以来,历代学者承袭旧学,开辟新篇,所著经史辞章,累若山海。因此,目录之学成为“学中第一紧要事”,古代读书人从目录中获得“即类求书,因书究学”的治学要领;今天要进入古籍的世界,我们更需要问途于目录。然而,中国编制目录的传统由来已久,流传至今的目录有上百种。这些产生于不同时代的目录各有章法,在编纂意图、分类方式、体例等方面有较大的出入,查阅比照十分不便。如果有一个数字化书目索引,学者无需逐卷翻阅,便可自由探索中国历代的图书典籍及文献所承载的跨越两千年的宝贵知识,“览录而知旨,观目而析词”的目录功用将会发挥到极致。北京大学数字人文研究中心与中科院自然科学史研究所的近期研究成果正将这一想法变为可能。

古籍目录记载了书名、作者名、卷次、时代等基本书目信息。从隋代起,目录分类基本沿用四部分类法,将古籍分为“经”“史”“子”“集”四部,并设有二级或三级子类。尽管很多珍贵典籍已经遗失,但透过这些古籍目录,我们仍可了解中国古籍的总体分布和历史流传。古籍目录既是重要的文化遗产,也是宝贵的学术资源。

过去,这些目录以书籍为载体,供学者阅读、研究;在数字化时代,我们该如何将这些珍贵的文化遗产转化为当今学者可以充分利用的数据资源?

—过去,这些目录以书籍为载体,供学者阅读、研究;在数字化时代,我们该如何将这些珍贵的文化遗产转化为当今学者可以充分利用的数据资源?—

我们的研究采用数据管护的核心理念,对历朝历代的古籍目录进行数据化集成,并在此基础上构建可视化分析和检索工具,充分挖掘古籍目录的学术价值,辅助学者的研究和创新。所谓“数据管护”,就是指对学者感兴趣的、对科研和教育有价值的数据,进行积极地、持续地管理,提升其学术价值提升,促进数据的利用和重用。

我们首先基于现有的数据管护理论模型、历代古籍目录的特点、对用户需求和行为的洞察提出了“古籍目录协同管护模型”用以指导管护实践。该模型强调了人文学者和信息领域专家之间的紧密合作。人文学者在管护过程中扮演着双重角色:一方面作为专家提供专业知识,另一方面作为用户反馈数据使用的需求和体验。而信息领域专家则负责数据处理和系统开发等技术工作。根据用户需求和古籍目录的特点,模型规划了古籍目录数据管护的关键步骤和协作模式。

关键步骤包括:元数据设计、数据源评估和选择、数据处理、工具研发、数据访问和使用、持续迭代。其中,元数据设计和数据处理都依赖人文学者作为领域专家与信息领域专家的密切协作。特别是在数据处理过程中,由于古籍目录陆续产生于过去两千多年的时间里,著录体例不规范统一,存在大量的异体字、同书异名、同名异书、字段缺失、称呼混用等问题。例如,《荀子》一书在不同目录里可能名为《荀卿子》或《孙卿子》。基于人文学者的领域知识,辅以计算机技术,以人机迭代的方式,可以高效、准确地完成大批量数据的规范化处理和集成。而在工具研发和持续迭代过程中,人文学者则以用户的身份,提供对数据和工具的需求反馈,帮助优化数据检索和可视化分析工具。

在模型指导下,我们选取最具代表性的从汉代到清代的史志目录和《四库全书总目》八部历时两千余年的古籍目录,设计数据结构并进行深度加工,开发了直观的数据检索和可视化分析系统(https://bib.pkudh.org),帮助学者进行书目探索与发现,基于大量数据发现目录分类、书目源流等演变模式。

我们的研究成果不仅为人文学者提供了一个可以规范化集成的历代古籍目录数据集和分析工具,还为文化遗产和人文数据的数据管护提供了理论指导和实践范例。通过协同管护方式,古籍目录以及未来更多文化遗产的价值得以在数字环境中得到充分挖掘和利用。

原文信息:Li, W., Wang, J., & Wang, F. (2024). Curating the Chinese ancient book catalogs: Leveraging the dual roles of humanities scholars as experts and users in collaborative practice. Journal of the Association for Information Science and Technology. https://doi.org/10.1002/asi.24894

APA引用格式: Li, W. (2024, May 17).跨学科协作下的文化传承:历代古籍目录的数据管护. Information Matters, Vol. 4, Issue 5. 

Author