第十讲:数据驱动的文化史研究

时间:2023 年 2 月 18 日 下午 2:00-5:00
腾讯会议号:759-309-446
B 站直播:https://live.bilibili.com/22241979

会议信息

主持人:

王 军 (北京大学)

刘 超 (南京大学)

主讲人:

邱伟云 (南京大学)

苗 威 (山东大学)

Donald Sturgeon(英国杜伦大学)

苏 祺 (北京大学)

杨 浩 (北京大学)

筹办人:王军、李斌

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

联合主办单位:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

中国古籍保护协会古籍智能开发与利用专委会

全国高等院校古籍整理研究工作委员会

特别支持:

字节跳动公益

内容介绍

大数据、人工智能等技术的兴起,改变了传统人文学科分析和处理资料的方法、观察和描述人类行为与社会现象的角度,以及呈现分析结果的形式。利用计算机技术以及数字人文平台,文化研究既可以做微观的细节观察,也能够做广大视域的宏观鸟瞰,在长时段、海量数据上考察文化演进的总体历程,探讨概念、思想、主题等在历史上的影响与演变。新的技术与方法将赋予人文学者在量化分析的基础上展开宏大命题的文化史研究。

在前几期会议中,我们邀请了专家先后介绍了古籍的数字化平台建设、历史地理信息系统的建设、古籍录入技术、专题资源库建设、汉字编码字符集、古籍目录数据库的建设、古籍的自然语言处理、古籍语料库建设等方面的重要内容,展示了古典文献数字化和智能化处理的最新进展。海量文献的知识化、智能化处理,使得在长时段、海量数据上进行文化史研究成为可能。本次会议我们十分荣幸地邀请到了在利用数字人文进行文化史、思想史研究方面颇有建树的专家:南京大学邱伟云老师、山东大学苗威老师、英国杜伦大学 Donald Sturgeon 老师、北京大学苏祺老师和杨浩老师,为大家介绍有关数字人文研究平台以及数据驱动的文化史研究等方面的精彩内容。本次研讨会特别邀请南京大学刘超老师做主持和点评专家。

报告主题与主讲人简介

报告 1:观念、事件、行动:数据驱动下中国近代思想文化史研究的实践

摘要:本次讲座将基于中国近代思想文化史研究方法的数字转向谈起,继而介绍基于思想文化研究实际需求而生的 「中国近现代思想史专业数据库 (1830-1930)」(香港中文大学中国文化研究所当代中国文化研究中心开发,刘青峰主编) 以及 「中国近现代思想及文学史专业资料库 (1830-1930)」(由政治大学持续开发功能,郑文惠主编) 的开发历程与设计理念,最后以基于数字技术考察下的中国传统 「理」 与 「道」 的概念如何完成近代转型的研究实践案例,揭示数据驱动下中国近代思想文化史研究方法的偏、执、得,并进一步提出未来的研究展望。报告人:邱伟云。台湾政治大学文学博士,2013-2016 年在台湾政治大学历史与思想数字人文实验室从事博士后研究,2017-2021 年曾任职于山东大学历史文化学院,现任南京大学历史学院暨学衡研究院副教授,硕士生导师。目前兼为 《东亚观念史集刊》 (THCI Core) 执行编辑、中国美术学院中国思想史与书画研究中心研究员、清华大学与中华书局联合主办 《数字人文》 季刊编辑委员、中国人民大学主办 《数字人文研究》 期刊编辑委员、中国中文信息学会社会媒体处理专委会常务委员。主要从事中国近现代思想史研究,侧重报刊传播、视觉图像、概念话语、数字人文等研究领域。主要著有专书 《中国近代平等观念的形成 (1895-1915) 》 (台北新文丰出版社,2015 年),并于海内外人文社会科学研究刊物与丛书发表论文三十余篇。

报告 2:东亚数字人文平台建设与研究案例

摘要:随着现代技术的飞速发展,传统的人文学科在研究范式上存在较大的提升空间。无论是历史学,还是语言学,由于其 「悠久」 与 「活化石」 的属性,从纵向溯源的角度,都有成熟的研究方法与手段。然而,在现代技术面前,也存在手段滞后,难以逾越 「准科学」 属性等情况,数据人文技术给与韩国相关的传统人文学科的研究,提供了与时代接轨的路径。我们以 「东亚」 区域作为核心限定,以历史学作为主导,融合计算机技术,在传统学科之中融入数字科技,推动了话语体系、学术体系的科学建构,同时也促进了知识的普及与大众传播的繁荣。报告人:苗威。山东大学东北亚学院、历史文化学院教授、博士生导师,历史学博士。吉林省人民政府 「长白山学者」 特聘教授,吉林省拔尖创新人才。主要从事东亚跨边界历史、数字人文的研究与教学工作,在交叉学科数字人文、区域与国别方向培养人才。主持国家社科基金重大专项、国家社科基金冷门绝学团队项目、国家社科基金一般项目、教育部后期资助项目等各类项目 20 余项。兼任全国新文科教育研究中心研究员,中国朝鲜史研究会理事、副秘书长等。专著 5 部、合著 4 部,其中 《乐浪研究》 入选 「国家哲学社会科学成果文库」 。发表论文 100 余篇,主编 「东亚数字人文丛书」 。

报告 3:以众包为核心的古籍数字化、语意标注、以及知识图谱建构

摘要:数字化深刻改变了人们与古籍资料互动的方式。古籍印刷版、引得、索引等很大程度上已被善本图像库、全文资料库取代。这些数字化的成果已经对研究者带来了极大的方便,但大多数资料库把古籍内容视为一连串的文字,因此使用者可以检索字串,但不能以概念查询。给数字化文献加上机器可读的语意标注以表示文本中被提到的实体 (如:历史人物、时间、地点、组织、官位等),并连接到相关数据,可同时达到两个目的:第一,可为读者提供相关阅读辅助工具、亦可实现概念查询;第二,有助于古籍文献内容的自然语言处理。

这次讲座介绍 ctext.org 正在进行的众包系统工作,其主要贡献在于:第一,以众包为基础的语意标注系统;第二,以众包为基础的关联开放知识图谱,表示古籍中各种咨询并以 RDF 输出;第三,从文本中抽取结构化知识的半自动工具;第四,给中、韩、日各朝代帝王一个机器可读的日期表示法,使知识图谱能够精确的记录并自动转换三千多年的各种表示日期的表达。报告人:Donald Sturgeon(德龙)。现任英国杜伦大学计算机科学系助理教授。香港大学哲学系博士,曾在香港城市大学和美国哈佛大学从事博士后研究。 2005 年创办 「中国哲学书电子化计划」 数字图书馆 (https://ctext.org) 担任主编至今。主要研究兴趣为:数字方法对中国古代语言、历史和文学研究的应用。目前的研究项目包括:建立以众包为基础的古籍标记和知识图谱建设平台、机器学习对中文历代文献写作年份辨析的应用、古汉语的自然语言处理等。

报告 4:面向中国古代典籍的文本复用与文化史研究

摘要:古代典籍常有袭用前代文字的现象,或逐字逐句直引原文,或以相近文字撮要概括,或转述表达相近之意。通过分析文本复用行为,可以追踪前代的思想观念在后世传播、演化、继承、发展。北京大学数字人文中心利用预训练语言模型及对比学习技术,在海量文本中自动识别和提取文献中表述相近、取意相同的复用文本,并开发了 《论语》 文本复用可视化平台、古籍大数据分析平台等系统。系统提供了有效提取古籍中关键概念和挖掘重用关系的工具,并以多维度呈现分析结果。可按照典籍、篇章、句子、语词等粒度,从复用频次、具体复用内容等多种角度对文献中包含的思想主题、语词概念在不同历史阶段的复用情况进行分析,探析不同文献中思想受关注程度的演变,以及在不同历史时期的地位变迁。报告人:苏祺。北京大学外国语学院外国语言学及应用语言学研究所长聘副教授、博导,北京大学人工智能研究院副教授 (双聘) 、北京大学数字人文中心副主任。博士毕业于北京大学计算机科学技术系计算语言学研究所,并于北京大学外国语学院、香港理工大学人文学院从事博士后研究。主要研究领域为自然语言处理、语料库语言学、数字人文。主持国家自然科学基金、北京市社会科学基金、国家重点研发计划项目子课题、国家社会科学项目重点项目子课题等科研项目。获得北京大学王选青年学者奖、黄廷方/信合青年杰出学者奖、电子学会科技进步一等奖等奖项。
报告人:杨浩。 2012 年北京大学哲学系中国哲学专业博士毕业。 2014 年至 2022 年任北京大学哲学系助理教授、 《儒藏》 编纂与研究中心研究员,现为北京大学人工智能研究院副研究员、北京大学数字人文中心副主任。主要研究领域包括:宋明理学、隋唐佛学、魏晋玄学、儒释道三教关系,近年来的主要兴趣在将人工智能的方法运用于古代典籍的整理与研究。出版专著 《孔门传授心法——朱子 〈四书章句集注〉 的解释与建构》 (上海:东方出版中心,2015 年),译注 《近思录》 (北京:中华书局,2020 年) 等。

问题征集

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

上期回顾

内容回顾:会议回顾|"古籍智能信息处理"系列研讨会第九讲

视频回放:https://www.bilibili.com/video/BV1T841177e9

志愿者招募启事

北京大学数字人文研究中心目前正在推进古籍智能领域的研究与探索,其中涉及到古籍有关的文字标点校对、元数据加工、段落篇章校对、实体标注校对、实体消歧校对、实体关系校对等方面的内容,亟需古籍爱好者协助完成,现长期招募有关古籍爱好者参与这项事业。具体要求如下:

1 、热爱古籍事业,专业不限,学历不限,愿意参与志愿工作;
2 、有一定空闲时间参与相关志愿工作,参与时长没有限制,可以随时退出。

参与志愿者的工作,除了可以了解古籍智能领域的前沿研究,熟悉相关古籍内容以外,您还将获得:

1 、本中心为志愿者的劳动提供一定的报酬;
2 、本中心面向社会举办的学术活动,志愿者优先参加;
3 、参加一定时长、达到一定质量的志愿者,本中心可以开具相应的实习证明。


有意参与古籍智能工作的志愿者,请将个人简历发送至:gdhc@pku.edu.cn,标题请注明:「志愿者申请+姓名」 。
欢迎感兴趣的同学或老师加入,谢谢大家的支持!
北京大学数字人文中心期望与一群热爱古籍事业的伙伴们一起在古籍智能前沿领域共同开拓古籍事业的未来!

会议回顾

2023 年 2 月 18 日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的 「古籍智能信息处理」 系列专题研讨会第十讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学王军老师和南京大学刘超老师主持。

此次讲座主题为 「数据驱动的文化史研究」,南京大学邱伟云老师、山东大学苗威老师、英国杜伦大学 Donald Sturgeon 老师、北京大学苏祺老师和杨浩老师先后发表了精彩的报告,本次研讨会通过腾讯会议、哔哩哔哩平台、抖音同步直播,来自国内外高校及相关研究领域的千余位学者一同观看,共襄盛会。

开场致辞

会议伊始,王军老师提出了 「数字人文如何助力研究」 的问题。王老师指出,人工智能发展迅速,知识积累、逻辑推理型的工作可能会被机器取代,但人文学者的 「生」 的智慧无法被取代,即感知言外之意、弦外之音和透过外部现象理会事物本质的象数思维。在将来,通过利用机器对大量材料进行梳理,人文学者能够更便捷地分析现象、阐释材料和表达意义,这是数字人文工具协助人文研究的途径。随后,王军老师介绍了研讨嘉宾,并表示欢迎。

在专题报告之前,主持人南京大学刘超老师先介绍了文化史研究方法的发展脉络,使与会师友对文化史研究法先有一宏观掌握,进而指出人文研究从一开始便带有强烈的实证主义色彩,并常运用量化研究的手段。随着时间的发展,人文研究的工具在不断演进,文化史研究和量化研究的关系更加紧密。新文化史崛起后,碎片化研究盛行。随着信息技术的发展,文化史的研究方向再次转变,自然科学、社会科学和人文科学紧密结合。在当代的技术条件下,人文学科与数字人文结合有着较大的发展空间,但也存在信息量有限,信息处理手段不理想、信息整合能力不足的局限性。

专题报告

一、观念、事件、行动:数据驱动下中国近代思想文化史研究的实践

邱伟云老师从语言转向的新文化史出发,表示可以通过言词观察思想与社会形势之间的关系。他以辛亥革命之前的 「幸福」 观关键词丛转变研究为例,提出通过数字人文方法,可以帮助文化史研究者在巨量文献中研究言词的发展,并进而掌握文化与观念、事件、行动的互动变迁轨迹。邱老师指出,尽管过去十余年的数字化潮流下产生一批古籍数据库成果,但也产生了人力难以驾驭复杂与巨量史料以进行研究的新问题。随后邱老师以 「中国近现代思想史专业数据库」 的三个研究阶段为例,指出人文思想文化研究的需求在逐步深化,唯有基于研究需求而设计的数字人文平台与方法才是好平台与好方法。邱老师以结合数字技术进行的中国近代 「理」 与 「道」 的概念研究过程为例,指出数据驱动下的思想史研究是可取的。他指出,运用数字人文研究方法可以关注宏观思想文化现象、以言词演变作为文化的观察对象、消除学科偏见与材料限制并掌握复杂思想文化的动态发展情况。最后,邱老师对数据驱动下思想文化史研究做出了美好展望。

二、东亚数字人文平台建设与研究案例

苗威老师从东亚区域的角度介绍了东亚数字人文团队的探索。苗老师首先介绍了东亚数字人文平台建设的主旨与框架,她表示,东亚数字人文的初衷是因为史学领域冷门 「绝学」 的空间越来越大和东亚数字人文领域缺少具有国际影响力的项目。传统人文学科研究遭遇瓶颈、东亚历史与文化 「问题化」 、历史书写艰深与和互联网发表便捷的共存是目前东亚人文书写的表征。东亚数字人文工作主要是基于现实需求和基于实践的问题解决。东亚数字人文团队以传统人文学科为基础,以东亚区域为凝聚,做到传统和现代的有机凝合和文理工学科协同攻关。随后苗老师以专题文献实体关系抽取与标注、适应性预训练和汉籍使者行程命名实体识别和东亚古籍中印章的提取为例介绍了其团队数字人文的技术实践。表示东亚数字人文实践通过使用地理信息系统和天文系统实现了 「天地人合一」 。随后,苗老师介绍了东亚数字人文综合门户建设的基本情况,并介绍了相关功能。最后,苗老师希望通过东亚数字人文研究,天、地、人、文等诸多元素相互配合,更大程度地去主观化,让客观化的内容更加清晰地呈现,让历史学真正成为科学,并欢迎学界同仁前来探讨。

三、以众包为核心的古籍数字化、语意标注、以及知识图谱建构

Donald Sturgeon(德龙) 老师介绍了其创办的 「中国哲学书电子书计划」 数字图书馆,该平台实现了图文对应和不同版本的扫描资料与文本紧密连接,吸引了大量的访问者。德龙老师从平台建设流程中的众包模块为例,介绍了现有的众包修改、版本控制和编辑记录功能。并表示 「中国哲学书电子书计划」 的众包编辑数量在不断增多。随后,德龙老师指出古籍标注的重要性,标注的目的在于消歧,而消歧需要关于实体的具体数据才能作判断,通过采用 「属性+限定符」 的数据结构实现实体识别,从而实现版本控制与众包。用户在 「中国哲学书电子书计划」 标注时,可以用简单的文本挖掘指出有关联的候选实体,并通过 「系统推荐+用户选择」 的模式实现半自动知识图谱的建构。最后,德龙老师介绍了至今的进度和近期工作目标,表示将来会利用人工智能技术协助建设,期待大家使用 「中国哲学书电子书计划」 数字图书馆并予以反馈。

四、面向中国古代典籍的文本复用与文化史研究    

苏祺老师表示,当代古籍研究离不开人工智能的协助,利用技术可以实现古籍从文本到知识的转变,在这过程中数据与算法都起到了重要的作用。苏老师指出,古籍中 「互见文献」 反映的是思想的传承,她介绍了北京大学数字人文中心开发的 《论语》 文本复用可视化平台、古籍大数据分析平台等系统功能。通过分析文本复用关系和字词粒度视角下的思想差异,可以实现追踪文本演化、追溯典故的形成等功能。最后,苏老师以 ChatGPT 为例,指出智能时代,人和数据都是不可或缺的。

接下来,杨浩老师介绍了利用数字工具进行古代典籍的文本复用与文化史研究的案例。他指出,在古典文献研究中,文本与文本间的关系十分重要,他从 《论语》 《孟子》 《肇论》 等文献中的文本复用现象为例,指出可以据此实现分析思想变迁、追溯典故、分析文献古今影响力等功能。

互动问答

报告结束后,中国人民大学汤元宋老师进行了点评。他提到,文化史研究具有跨断代、跨区域、跨学科的特点,但随着技术的发展,学科壁垒在慢慢打破,例如地图集的利用。文化史的研究,将有从概念史、观念史到史源学转换的趋势。对历史资料中的词频进行量化分析,能够更好地判断各个历史时期的特点,提高研究工作的效率。人文学者可以驱动数据库的建设,再由数据库来驱动文化史的研究,更加精准地切合学者们的研究需求。

随后,与会人员展开了热烈的自由讨论。首先是北京大学的王军老师,他十分感谢各位学者的参与,并且表示人文研究已经出现了新的范式。南京大学邱伟云老师表示,对于杨浩老师所展示的易经卦象兴趣浓厚,数字人文技术给人文学者的研究带来了新的喜悦。

会议最后,王军老师做了总结性发言,期望今年能够组织更多线下的学术交流活动。各位老师和线上观众朋友合照留念。本次研讨会内容丰富,观众们热情参与,积极互动,纷纷表示收获颇丰。

本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在 B 站更新 (https://www.bilibili.com/video/BV1w84y1J7AY) 。系列研讨会的相关信息将会在数字人文开放实验室公众号上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。

实习生招募

工作内容:

(1) 参与设计文本分析系统核心算法,如语义相关性计算;

(2) 算法效果及效率优化,并配合团队实现算法工程转化。

实习生要求:

(1) 计算机相关专业本科以上学历;

(2) 具备优秀的编程能力,熟悉掌握 python 、 java 等一种以上编程语言;

(3) 熟练掌握 pytorch 深度学习框架者优先;

(4) 有自然语言处理项目经验者优先。

有意参与自然语言处理算法方向实习的同学,请与我们联系。

邮箱:gdhc@pku.edu.cn 。邮件标题为:「NLP 实习+姓名」 。