「古联杯」 古籍文献命名实体识别评测大赛
由中国中文信息学会主办、海南大学承办的 「第十九届中国计算语言学大会」(The Nineteenth China National Conference on Computational Linguistics, CCL 2020) 将于 2020 年 10 月 30 日-11 月 1 日在海口举行。
古联公司积极参与了这次大会,并发布了一项测评任务——古籍文献命名实体识别。
古籍文献的整理和分析对数字人文研究和中华文化传承具有重要意义。命名实体识别在古籍文献数字化处理过程中极为重要,是其他工作得以顺利开展的关键。该项工作会影响到古文自动标点、文白翻译等一系列自动化处理工作,能够从古籍文献中自动识别出专名信息是一项非常重要且有价值的工作。
为推进古籍数字化工作谋求技术上的突破,我们在这次评测大会中发布古籍文献命名实体识别任务。
什么是古籍文献命名实体识别?命名实体识别即是从文献文本中自动识别出包括人名、地名、朝代名、民族名、书名等专名信息,并进行标引。关于哪些是专名,怎么标可以参见报名页面附件 《专名线、书名线使用细则举例》 。
本次评测大赛的数据由我公司提供,数据集将分为训练集、测试集两部分,内容涉及经、史、子、集等范围。训练集可以公开,测试集不公开,用于测试模型效果。
训练集包含 1929 本语料。经部 133 本、史部 508 本、子部 449 本、集部 837 本;涉及朝代情况为民国时期 8 本、清朝 424 本、明朝 167 本、元朝 50 本、宋朝 615 本、唐朝 146 本、春秋 20 本、战国 11 本、秦朝 127 本、汉朝 60 本、三国 9 本、晋朝 26 本、南北朝 35 本、隋朝 11 本、五代 11 本,其他 306 本。该数据集是随机提取的 2819 句,1063291 字符数 (计空格),含 11068 组书名,10040 组专名。
我们提供的数据集的数据格式为文本文件,含有书名和专名标签。参赛人员可以结合自己的训练模型,将数据先转化为特定的数据样式,再进行处理。
数据样例如下:
{{noun_bookname:: 肆命}} 二十,{{noun_bookname:: 原命}} 二十一,{{noun_bookname:: 武成}} 二十二,{{noun_bookname:: 旅獒}} 二十三, {{noun_bookname:: 冏命}} 二十四。以此二十四爲十六卷者,{{noun_bookname:: 九共}} 九篇共卷,除八篇,故爲十六是也。云 「爲五十七篇」 者, {{noun_bookname:: 書}} 疏又云:「{{noun_other: 鄭}} 於 {{noun_other: 伏生}} 二十九篇之内,分出 {{noun_bookname:: 盤庚}} 二篇、 {{noun_bookname:: 康王之誥}} 、又 {{noun_bookname:: 泰誓}} 三篇,爲三十四篇,更增益僞 {{noun_bookname:: 書}} 二十四篇,爲五十八。」 {{noun_other: 桓譚}}{{noun_bookname:: 新論}} 亦云:「古文 {{noun_bookname:: 尚書}},舊有四十五卷,爲五十八篇。」 僞 {{noun_bookname:: 武成}} 疏引 {{noun_other: 鄭}} 云:「{{noun_bookname:: 武成}},逸 {{noun_bookname:: 書}},{{noun_other: 建武}} 之際亡。」{{noun_other: 譚}} 云五十八者, {{noun_other: 譚}} 没於世祖時,在 {{noun_other: 建武}} 前,{{noun_bookname:: 武成}} 未亡。 {{noun_other: 班}} 云五十七者,{{noun_other: 班}} 作 {{noun_bookname:: 漢書}} 在 {{noun_other: 顯宗}} 時,{{noun_bookname:: 武成}} 已亡故也。
注:「noun_bookname」 意指 「书名」,「noun_other」 意指 「其他专名」 。
参赛者除了使用我们所提供的数据样例进行训练,也可以追加自己通过其他渠道获取的数据,最终目标就是得出一个高效、实用的命名实体识别算法或者程序。
比赛阶段
本次评测比赛分为三个阶段进行。
第一阶段 (2020.05.26-2020.07.31):开启比赛报名,提供专名提取及标引训练语料,用于编写模型进行训练。 7 月 24 日,举办方提供测试语料由报名团队在规定时间内对测试文本进行识别和标引,并将结果提交给主办方,主办方将对综合评估识别和标引正确率,7 月底公布结果,筛选出前 8 名的团队或个人。
第二阶段 (2020.08.15-2020.09.20):为第一阶段成绩前 8 名的团队或个人提供第二批训练语料,用于参赛模型调优。阶段结束后举办方提供测试语料进行第二测试,在规定时间内提交结果给主办方,主办方在平台上公布比赛结果,并最终筛选出成绩排在前 4 位的团队或个人进行奖励。
第三阶段 (2020.09.30-2020.10.25):公布最终成绩,并开展技术交流和颁奖活动。
评价方式
1. 命名实体提取的完整率和准确率。参赛者需要将测试集所提供的文献中的专名及书名提取出来。
(1) 评测方提供测试样本,内容为中华经典古籍库中收录的正式出版的,做过专名标引的数据,去标签后作为测试样本,字数约 10 万字。
(2) 根据专名提取的正确率及处理速度进行综合测评。
(3) 提取专名后,应记录专名的类型和出处。
2. 命名实体分类准确率。参赛者需要将提取到的实体名称分为:专名及书名两类。专名部分请参照附件 《专名线、书名线使用细则举例》 中所涉及的类型进行提取和归类。
奖励设置
本次测评将评选出一等奖 1 名,二等奖 1 名,三等奖 2 名。由主办方中国中文信息学会 (CIPS) 为获奖者提供荣誉证书认证;由古联 (北京) 数字传媒科技有限公司为获奖者提供奖金。
一等奖奖金为 20000 元;二等奖奖金为 10000 元;三等奖每名奖金为 5000 元。
评测委员会成员
本次评测任务的评测委员会成员包括:
洪 涛,古联 (北京) 数字传媒科技有限公司总经理
程瑞雪,古联 (北京) 数字传媒科技有限公司副总经理
朱翠萍,古联 (北京) 数字传媒科技有限公司总经理助理
如有问题或者特殊情况,请及时联系会务组
联系人:朱老师
办公电话:010-63498401-231
邮箱:zhucuiping@ancientbooks.cn