《正统道藏》 智能整理项目介绍

作为现存唯一的道教典籍总集,《正统道藏》 与 《万历续道藏》 历来被学界习惯合称为 《道藏》,承载着中国古代道教文化与多学科知识的核心脉络。其中,《正统道藏》 因刊行于明英宗正统年间得名,其编纂实则始于明成祖永乐帝时期,全书以千字文中 「天」 至 「英」 字为函目,共成 480 函、 5305 卷,采用经折装形制,收录道书 1400 余种;《万历续道藏》 则刊行于明万历年间,作为前者的续集,补录新出及遗漏道书,以 「杜」 至 「缨」 字为函目,凡 32 函、 180 卷,收书 57 种,同样采用经折本。

这部体量宏大的丛书,不仅是古代道教最主要的文献集成,更因其内容的广博性超越道教范畴,涵盖宗教、哲学、历史、文学、艺术、医药学、化学、天文学、地理学、养生学等诸多领域,还收录部分医药方书、诸子著作及占卜类典籍,成为研究中国古代文化与科技的珍贵资料库。如今,北京大学团队依托 「识典古籍」 平台开展 《正统道藏》 智能整理项目,以数字化技术为这部典籍注入当代活力。

解码 《正统道藏》 整理的时代价值

《道藏》 历经历代传承,既是道教文献典籍的集大成之作,更是研究道教史、道家文化乃至中国古代社会的核心资料来源,其整理工作具有不可替代的学术意义与文化价值:

从版本传承来看,元代道藏因历史上的禁毁几近散佚,现存历代道藏中,唯有明代 《正统道藏》 保留了大量早期道教文献与珍贵版本,是维系道教典籍血脉的关键载体。从当代整理现状而言,尽管已有 《中华道藏》 等成果,但尚无完全以 《正统道藏》 为底本的标点整理版本,导致其原始文献价值未能充分发挥。从学术突破维度,北京大学数字人文研究中心团队此次开展的 《正统道藏》 系统性智能整理,在学术史上尚属首次,为道教文献研究提供了标准化、高质量的数字文本。从长远规划来看,项目并非局限于现有典籍,未来还将进一步拓展范围,收录整理 「藏外道书」,持续丰富道教文献资源体系,为学界与公众提供更完整的研究与阅读素材。

多维度推进 《正统道藏》 智能整理实践

项目团队以 「学术严谨、技术赋能、协作高效」 为原则,围绕数据清洗、结构整理、文字精校三大核心环节,分阶段、分层次推进整理工作,确保每一步都经得起学术检验。整理工作的开展,始终以 「道藏元数据.xlsx」 为基础框架,依托规范的元数据体系,保障典籍信息的准确性与关联性,为后续数字化应用奠定根基。

数据清洗:打好典籍数字化根基

数据清洗是古籍数字化的首要环节,直接决定后续文本质量与使用价值。项目团队由杨浩老师、伞红雷老师、陈宇航博士分别牵头,分阶段攻克数据难题:
2022 年 12 月,杨浩老师率先启动 《道藏》 第一批约 210 种数据的清洗工作,在完成文本初步处理的同时,同步探索并确立了数据清洗、上传的标准化方法与配套代码,为后续大规模处理提供技术范式。同一时期,伞红雷老师依据施舟人 《道藏通考》 这一权威学术著作,对 《正统道藏》 的 ID 进行规范设置,并严格按照学术标准对典籍进行拆分与合并,确保每一部典籍的标识与归类都符合学界共识。

此后,伞红雷老师继续牵头推进,分多个批次完成约 1000 种道藏的数据清洗,并将处理后的资源上传至 「识典古籍」 平台,为线上志愿者开展结构整理提供基础素材。然而,项目仍面临一大挑战:约 300 种道藏存在缺图、少图、图文数据错乱等问题,虽典籍数量仅占总量一部分,但涉及图片达 10 万页,占道藏总页数的一半,手动对齐难度极大。 2024 年初,团队特邀清华大学历史系陈宇航博士加入,陈博士的研究领域正是道教史,具备深厚的专业背景。陈宇航博士凭借对道教文献的熟悉,对这部分缺失资源逐页校对、补充缺失图片,待补图完成后,再对全部上传图片进行二次清洗与上架,彻底解决了图文错乱问题,保障了 《道藏》 资源的完整性。

结构整理:适配道教文献独特属性

道教文献多为仪式文献,其分段逻辑、标题设置与传统四部古籍存在显著差异,这对结构整理提出了更高要求。项目由伞红雷老师全程负责,分阶段完成结构优化:
2022 年 12 月,《道藏》 第一批数据清洗完成并上传后,立即开展线上结构整理工作。在半个月时间内,完成约 200 种道教典籍的分段与标题提取,同时深入研究道教文献的文本特征,逐步摸清其整理规律,为后续工作确立标准。
2023 年 2 月至 8 月,为提升整理效率,团队依托北京大学数字人文研究中心线上数据加工队伍,组织线上团队成员协同开展结构整理。专家老师承担组织协调与审核把关职责,对 900 多种道教文献逐卷进行审核,确保结构划分符合道教文献的学术规范,审核通过后及时上架平台,供用户查阅使用。

文字精校:提升文本准确性与可读性

尽管前期数据清洗已完成初步处理,但部分文本直接采用 OCR 识别结果,存在文字错讹问题,影响使用体验。 2024 年初,陈宇航博士在完成数据查缺补漏后,于 6 月将全部清洗数据上传至平台,随即启动文字精校工作。此次精校同步结合结构整理,实现 「一阶段双提升」 。
在 50 位线上数据加工成员的共同努力下,团队历时 4 个多月,对剩余半数道藏的文字进行逐字校对,修正 OCR 识别错误,同时完善文本结构。线上数据加工团队的同学们克服道教文献专业术语多、文本逻辑特殊等困难,最终使 《道藏》 文本在准确性、完整性与可读性上实现质的提升,为后续深度应用打下坚实基础。

成果与展望

截至目前,《正统道藏》 智能整理项目已取得阶段性重大成果:不仅完成全部典籍的数据清洗、图文补全与结构优化,更通过文字精校形成高质量数字文本,建成国内首个以 《正统道藏》 为底本、配套规范元数据的数字化资源库。这一成果既为道教史、道家文化研究提供了标准化的核心资料,也为普通读者接触道教经典打开了便捷之门,实现了 「学术价值」 与 「传播价值」 的统一。

未来,团队将以现有成果为基础,持续推进 「藏外道书」 的收录与整理,进一步丰富道教文献资源体系。同时,依托高质量数字文本,探索 AI 技术在道教文献实体识别、文白翻译等领域的应用,推动道教文献研究向数字化、智能化方向发展。通过不懈努力,团队将继续以技术赋能文化传承,让 《正统道藏》 这一千年典籍在当代焕发更强生命力,为中华优秀传统文化的创造性转化与创新性发展贡献力量。