第一届古汉语分词与词性标注国际评测 EvaHan2022

背景:当下人工智能和数字人文浪潮风靡全球,现代汉语自动分析已取得很大成果。而古代汉语的自动分析研究相对薄弱,难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议,资源建设困难重重。因此,如何求得古代汉语分词与词性标注的客观评测就显得尤为重要。此次评测由国际语言资源与评测大会 LREC2022 的国际古代语言处理研讨会 (LT4HALA) 主办,针对先秦汉语 (经典的文言文) 的分词与词性标注任务,在国际上展开统一的评测,有利于综合评价目前学界已有古代汉语词法分析研究成果,更有利于发现、探讨当前研究进展的短板和不足,沟通众高校、研究单位一同推动古代汉语自动分析技术的研究。

01  评测简介

EvaHan2022 是目前发布的致力于古代汉语分词与词性标注评测任务的首个国际评测。汉语词法分析在 NLP 领域内已拥有众多较为成熟的评测,诸如 MUC 、 SemEval 、 CoNLL 、 EVALITA 和 SIGHAN 等,但以往大都集中于现代汉语的评测任务。因此,本次发布的古代汉语分词与词性标注评测也将是首次开展的以古代汉语为目标的国际评测任务。本次评测主要有两个目标:

● 推动古代汉语资源及语言技术的发展

● 促进古代汉语有关领域学者之间的合作,吸引多学科研究者共同攻坚

EvaHan2022 的参赛者需要完成分词 (Word Segmentation) 与词性标注 (POS Tagging) 的联合任务。本次国际评测组织者会为参赛者提供统一的测试数据集,并会评估参赛者最终提交数据的真实性。

02 评测方法

数据说明

原始文本亟請於武公,公弗許。
词性标注亟/d  請/v  於/p  武公/nr ,/w  公/n  弗/d  許/v  。/w

提供给参赛者一定规模的训练数据,格式如上表所示。每个词被切分开,并附上一个词类标记。

提供给参赛者的测试数据为仅包括中文字符和标点符号的原始格式,评测结果则会在评测结束后提供给参赛者。

组织方将会提供两个测试数据集。 Test_A(Zuozhuan_Test)  旨在查看系统对同一本书中的数据执行情况。 Zuozhuan_Test 摘自 《左传》,与 Zuozhuan_Train 不重叠。 Zuozhuan 语料库已由 Linguistic Data Consortium(LDC) 发布。但参赛团队不允许将 Zuozhuan_Test 用作训练数据。参赛团队可以在相关论文中查看这些数据和实验的具体情况。

Blind_Test 旨在查看系统在类似数据 (内容相似但来自不同书籍的文本) 上的表现。 Blind_Test 尚未公开发布,它的文本大小类似于 Zuozhuan_Test 。

评测后,会把测试数据的详细信息提供给参赛者。

03  重要日程

2021 年 12 月 20 日:发布训练数据。

2022 年 3 月 25 日:参赛报名截止,报名链接:

https://docs.qq.com/form/page/DR2xaT2dzbk1kaHFN

2022 年 3 月 31 日:发布测试数据,进行比赛和测试。

2022 年 4 月 6 日:参赛队提交数据。

2022 年 4 月  10 日:参赛队提交评测论文。

2022 年 5 月 10 日:论文评审截止日期。

2022 年 5 月 24 日:参赛队提交论文最终修订版。

2022 年 6 月 :LREC 2022 大会期间召开。

04  参赛方式

参赛者仅可提交经过如下两种方式的测试数据:

●  在封闭测试模式中,各团队只能使用测试数据 Zuozhuan_Train 和预训练模型 SIKU-Roberta(在 《四库全书》 上训练好的模型) 。

● 在开放测试模式下,不限制资源、数据和模型。各团队可以使用其他外部数据,例如汉字的部首或拼音,并且可以采用字向量或词向量等。需要注意的是,各团队在最终报告中都必须注明他们在每个测试中所使用的全部资源、数据和模型。

●    比赛详情请关注 https://circse.github.io/LT4HALA/2022/EvaHan

05 比赛奖项

由于每个参赛队可以提交多个结果,赛会将根据封闭和开放测试最高分综合考虑,对前三名设置现金奖励,以人民币转账结算,个税自理。奖金由北京大学数字人文中心倾情赞助。

一等奖:5000 元人民币 (税前)

二等奖:3000 元人民币 (税前)

三等奖:2000 元人民币 (税前)

主办团队

南京师范大学文学院计算语言学与数字人文 (CLDH) 研究组:

李斌、袁义国、冯敏萱、许超、曲维光

王东波 (南京农业大学信息科学技术学院)

协办单位 (排名不分先后)
北大数字人文研究中心

中国中文信息学会青年工作委员会

中国人工智能学会语言智能专委会

江苏省人工智能学会自然语言处理专委会

江苏省语言学会 

详情请关注 「比特人文」 微信公众号