跳至正文
古籍智能 > 专题研讨会 > 第八讲:古籍的自然语言处理

第八讲:古籍的自然语言处理

会议信息

时间:10月22日下午2:00-5:00 
腾讯会议号:287-711-582
B站直播:https://live.bilibili.com/22241979

主持人:

苏 祺(北京大学)

王东波(南京农业大学)

主讲人:

史晓东(厦门大学)

胡韧奋(北京师范大学)

王东波(南京农业大学)

李 炜(北京语言大学)

筹办人:王军、李斌

技术服务:李斌、王瑞、芦靖雅、张雨桐

承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

联合主办单位:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

中国古籍保护协会古籍智能开发与利用专委会

全国高等院校古籍整理研究工作委员会

特别支持:

字节跳动公益

内容介绍

中国古籍规模庞大,承载着中华民族数千年的历史文明,是我们极为宝贵的文化财富。随着技术的进步,古籍数字化实现了对庞大的古籍资源的整理和利用,古籍文本的内在知识和价值有待于进一步挖掘。前几期会议我们邀请了专家先后介绍了古籍的数字化平台建设、历史地理信息系统的建设、古籍录入技术、专题资源库建设、汉字编码字符集、古籍目录数据库的建设等方面的重要内容,展示了古籍数字化各方面的最新进展。

古籍由数字化到数据化很大程度上依赖于自然语言处理技术。自然语言处理(Natural Language Processing,NLP),即利用计算机对人类自然语言进行加工和处理,是古籍数据化的重要一环,也是确保古籍能“活”起来、“智”起来的根本。

本次会议我们非常荣幸地邀请到了有关古籍自然语言处理技术的专家:厦门大学史晓东老师、北京师范大学胡韧奋老师、南京农业大学信息管理学院王东波老师、北京语言大学李炜老师,将为大家介绍古籍自然语言处理方面的相关内容,以及自然语言处理技术在古籍数字化方面取得的进展与其实际应用。

报告主题与主讲人简介

报告1:基于大规模古籍数字化语料的异体字智能识别

摘要:许多汉字都有多种写法,其原因是汉字作为象形文字,造字方式多、书写工具丰富,有漫长的演变过程。这些异体字虽然有不少词典列出,但不会给出理由。我们提出确定两个字是否互为异体字的理论,并且给出了人工智能算法,能自动从数字化古籍中自动推断异体字。从一个多达23亿字的古籍语料库,我们利用算法自动推断出了74,000 组异体字,其中很多组异体字是首次发现。我们据此生成了一个在线《異體字詞典》,因为我们的异体字自动发现是基于异体词的概念。该词典是可以在线访问的,而且可以像维基百科那样自由编辑。本讲座中不但介绍异体字词典的构造算法,还介绍该其一个应用:为不认识的汉字定音。

报告人:史晓东。厦门大学教授,博士生导师。现任厦门大学人工智能系主任,闽台非遗文化数字化保护与智能处理文化与旅游部重点实验室主任,兼任中国中文信息学会常务理事及机器翻译专委会副主任,福建省人工智能学会副理事长,中国人工智能学会多语种智能信息处理专委会常务委员,中国计算机学会自然语言处理专委会委员。
主要研究领域:机器翻译、自然语言处理、人工智能、文化计算。在机器翻译、中文信息处理、少数民族语言处理均有深入研究。获2017年度西藏自治区科学技术奖一等奖、2016年钱伟长中文信息处理科学技术奖一等奖等。

报告2:浅探古汉语词义标注技术及其应用

摘要:古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,我们基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注,目前已构建并开源了规模超过百万字的词义标注语料库。在此基础上,依托预训练语言模型实现自动词义判别,进一步地,以词义注释、词义演变分析、义族归纳为案例,介绍词义标注技术在古籍整理、语言本体研究和词典编撰等领域的应用。

报告人:胡韧奋。北京师范大学讲师、硕士生导师,研究方向为计算语言学、计算机辅助语言教学、数字人文,中文信息学会青工委成员,国家新闻出版署“古籍数字化与知识工程重点实验室”成员。主持国家社科基金青年项目、国家自科基金青年项目、北京市社科青年学术带头人项目等多项课题,发表学术论文30余篇,曾获中国计算语言学大会(CCL)颁发的“最佳英文论文”(2018)、“最佳资源论文”(2021)奖项,获国家发明专利授权4项。作为主持人或核心成员构建了古汉语自动标点和专名识别系统、“唐诗别苑”知识图谱、“诗词别苑”竞技闯关游戏等应用平台,其中古汉语专名识别系统获“古联杯”古籍文献命名实体识别评测一等奖。

报告3:中国古代典籍跨语言自然语言处理研究

摘要:在深度学习、自然语言处理和文本挖掘等技术、方法和理念的基础上,如何基于中国古代典籍及翻译文本,进行基础的跨语言自然语言处理研究及开展应用探究,不仅有利于促进中国传统文化的传播和推广,而且对提升中国文化的软实力也具有重要的意义。面向中国古代典籍的古现和古外文本,研究团队进行了如下的探究。首先,基于SikuBERT预训练模型构建了中国古代典籍跨语言预训练模型。其次,在制定中国古代典籍跨语言对齐标准的基础上,对先秦诸子典籍完成了古英的对齐,对《二十四史》完成了古现的对齐,并构建了有监督的自动对齐模型。再次,在所制定的中国古代典籍跨语言分词与词性一体化标注规范的基础上,构建《二十四史》分词与词性精标注语料库,总规模为110万字,并构建相应的分词与词性一体化自动标注模型。最后,在所构建的句对齐平行语料库的基础上,开发了中国古代典籍跨语机器翻译模型,并搭建了呈现中国古代典籍跨语言自然语言处理探究成果的平台。

报告人:王东波。南京农业大学信息管理学院教授、博士生导师。主要从事古籍智能信息处理、科技文本知识挖掘研究。主持国家社科基金重大项目、国家自然科学基金面上、青年、国家社科基金重大项目子课题及其他省部级项目共计12项。发表SCI、SSCl、EI、CSSCI检索论文120篇。先后获得江苏省哲学社会科学优秀成果一等、二等和三等奖四次,高等学校科学研究优秀成果奖(人文社会科学)二等奖和三等奖各一次。先后入选江苏省社科优青、江苏省第六期“333工程”第二层次培养对象和江苏高校“青蓝工程”中青年学术带头人等人才项目。  

报告4:古籍文本的无监督匹配方法

摘要:在中国古代文献中,存在大量通过以作者所处时代的话语体系诠释古代经典的方式来阐发自己思想或主张的现象,而在现代语境下则需要以现当代表达方式对古代文献进行解释或翻译。在基于大数据的深度学习时代,能够自动化地匹配不同时代下具有相似语义的文本或文本片段是找到这种思想关联、构建翻译平行数据的基础。基于有监督学习方法的匹配模型需要人工标注大量的对齐语料,不仅需要花费较高成本,而且不同时代的文本具有不同的表达特点,因而在某个时代文本上训练得到的模型应用到其他时代文本上,效果往往不好。而利用在大规模数据上训练得到的预训练语言模型对数据分布规律的建模并根据不同的文本或任务,设定相应的无监督学习目标就是一种可行的解决办法。本报告以宋代二程对先秦经典的引用探测和历史古籍和现代文翻译的句对齐两个场景为例,分别介绍了讲者使用无监督方式进行目标无关和目标相关的无监督语义对齐方法的尝试。

报告人:李炜。北京语言大学讲师,2021年于北京大学获计算机软件与理论博士学位。主要研究方向为自然语言处理和深度学习,并对自然语言处理与数字人文领域的结合方向感兴趣。在包括ACL、EMNLP、AAAI、IJCAI、CIKM等国际顶级会议上发表论文十余篇,其中在自然语言处理国际顶级会议ACL、COLING和人工智能国际顶级会议IJCAI上以第一作者和共同第一作者身份发表论文4篇,以共同作者身份发表的论文《SGM: Sequence Generation Model for Multi-label Classification》获COLING2018最佳论文奖,论文《No Stock is an Island: Learning Internal and Relational Attributes of Stocks with Contrastive Learning》获FinNLP 2022最佳论文奖。谷歌学术引用量目前已经超过900+。

问题征集

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!

上期回顾
内容回顾:会议回顾|"古籍智能信息处理"系列研讨会第七讲
视频回放:https://www.bilibili.com/video/BV1Gt4y1w7Fp

志愿者招募

北京大学数字人文研究中心目前正在推进古籍智能领域的研究与探索,其中涉及到古籍有关的文字标点校对、元数据加工、段落篇章校对、实体标注校对、实体消歧校对、实体关系校对等方面的内容,亟需古籍爱好者协助完成,现长期招募有关古籍爱好者参与这项事业。具体要求如下:

1、热爱古籍事业,专业不限,学历不限,愿意参与志愿工作;

2、有一定空闲时间参与相关志愿工作,参与时长没有限制,可以随时退出。

参与志愿者的工作,除了可以了解古籍智能领域的前沿研究,熟悉相关古籍内容以外,您还将获得:

1、本中心为志愿者的劳动提供一定的报酬;

2、本中心面向社会举办的学术活动,志愿者优先参加;

3、参加一定时长、达到一定质量的志愿者,本中心可以开具相应的实习证明。

有意参与古籍智能工作的志愿者,请将个人简历发送至:gdhc@pku.edu.cn,标题请注明:“志愿者申请+姓名

欢迎感兴趣的同学或老师加入,谢谢大家的支持!

北京大学数字人文中心期望与一群热爱古籍事业的伙伴们一起在古籍智能前沿领域共同开拓古籍事业的未来!


会议回顾

2022年10月22日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第八讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学苏祺副教授和南京农业大学王东波教授主持。

此次讲座的主题为“古籍的自然语言处理”,厦门大学史晓东老师、北京师范大学胡韧奋老师、南京农业大学王东波老师以及北京语言大学李炜老师先后发表了精彩的报告,随后苏祺副教授主持了讨论和互动环节,各位老师针对观众的提问给出了自己的独到见解。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位学者共同观看,共襄盛会。

开场致词

会议开场,苏祺副教授提到古籍从数字化走向智能化的一个非常重要的环节,就是自然语言处理,即通过计算机、人工智能的手段对人类自然语言进行加工和处理,实现其数字化、智能化的转变。因此,自然语言处理技术可以说是古籍数字化或者数据化的重要一环,也是确保古籍能“活”起来、“智”起来的根本。随后,苏祺副教授介绍了参与本次研讨会的四位专家,各位专家先后发表了基于各自主题的精彩报告。

专题报告

一、基于大规模古籍数字化语料的异体字智能识别

史晓东老师从古籍数字化语料中的异体字出发,分别从异体字概念和研究意义、基于异体词的异体字自动识别、异体字词典的自动生成和应用以及未来工作等方面进行了相关介绍。通过对比传统异体字字典,史晓东老师指出采用古籍大数据+人工智能方法,以计算机算法自动进行异体字识别,并在线出版的方式更加具有优势。在异体字自动识别方面,史晓东老师提出了两种方法:搜索引擎和深度学习,并分别对其研究作了相关介绍。异体字词典在古籍可应用于繁简转换、古籍断句、古籍自动校勘、古籍命名实体识别、历史事件挖掘、异体字定音等任务。同时,史晓东老师也指出当前工作只是初步的,仍然需要进一步完善。

二、浅探古汉语词义标注技术及其应用

与史晓东老师不同,胡韧奋老师从词的角度入手,分享了古汉语词义标注技术以及应用。胡韧奋老师首先解释了古汉语语言现象的复杂性给词义标注和分析带来的挑战,提出词义标注技术分三步走:专名识别、通假识别和词义识别。胡韧奋老师重点介绍了词义识别这一方面的进展和成果,首先是建设词义知识库、义项标注语料库等语言资源,目前已建成覆盖300余古汉语常用多义词、3000余义项的词义知识库,并据此标注了超过5.8万条语料,语料库规模超过131万字;在此基础上,研发基于预训练语言模型的词义识别算法,取得了较好的效果。最后,胡韧奋老师表达了殷切希望:借助古汉语词义标注技术,可以更好地服务于古籍整理、词汇语义学研究、词典编纂等一系列工作。

三、中国古代典籍跨语言自然语言处理研究

王东波老师以“推动中华文化走向世界”和中国古代典籍存在的一些问题为研究背景,详细介绍了基于该背景下所作的一些研究和成果。首先是基础资源的构建,包括中国古代典籍外译目录、中国古代典籍跨语言词表、中国古代典籍跨语言预训练模型等的构建;其次是从数据源、规范和流程、规模和样例、模型构建等方面讲述了中国古代典籍跨语言句对齐语料库的构建;另外还通过成果和案例展示的方式对中国古代典籍跨语言词性标注和中国古代典籍跨语言机器翻译方面的内容作出讲解;最后,王东波老师介绍了中国古代典籍跨语言知识库平台,通过此平台可实现平行语料库检索、典籍智能处理、资源申请及获取古籍信息处理的教材等功能。

四、古籍文本的无监督匹配方法

李炜老师从无监督匹配方法入手介绍了两个部分:任务无关无监督学习和任务相关无监督学习。所谓无监督匹配就是不使用人工标注的数据,然后对模型直接进行训练,具有效率高和灵活性强的优势。而任务相关与任务无关则是基于匹配方法是否限定于具体任务、场景等。李炜老师通过具体的应用场景,提出借助计算机和人工智能从古代文献中自动挖掘文献之间的引述关系是非常必要的。随后,李炜老师从上下文语义建模、句子语义建模、结合动态规划目标的强化学习方法等计算语言技术方面演示了语义匹配的方法以及相关的实验结果。

互动问答

报告结束后,四位专家就评论区的留言,例如异体字自动识别研究中的技术难点、如果既有现代汉语,又有古代汉语,针对这些文献进行处理,是否具有好的标注语料用于训练或者无监督的学习方法等,纷纷给出了具体而详细的回答。在苏祺教授的主持下,专家们对古籍的自然语言处理技术面临的困境、未来工作的开展等方面也展开了热烈的讨论。最后,苏祺教授作了总结性的发言并与参会的各位老师、专家和学者合照留念,至此,本次研讨会在交流与收获的充实氛围中圆满结束。

反馈与建议&志愿者招募

为了与广大高校师生、古籍收藏整理从业者和数字人文爱好者更好、更充分地交流和学习,我们希望听到你的反馈与建议,也希望你能加入我们的志愿者行列:

(1)反馈与建议:如果对系列研讨会有什么发展建议,欢迎发送至邮箱:gdhc@pku.edu.cn。邮件标题为:“建议+建议标题”;

(2)志愿者招募:每期研讨会会后我们将发布会议回放视频,现招募志愿者整理会议文字内容。有意参与研讨会全文整理的志愿者,请与我们联系,报名邮箱:gdhc@pku.edu.cn。邮件标题为:“志愿者+姓名”。