干货 | 古汉语通假字资源库上线(附网址)
古汉语通假字资源库:助力古诗文学习与研究
破假字纷繁之扰,寻正字本来之容
文丨王兆基、张诗睿、张学涛、胡韧奋
古籍文本中的文字通假现象较为常见,这为准确理解文意造成了困难。如王引之在《经义述闻·经文假借》中所述:“学者改本字读之,则怡然理顺;依借字解之,则以文害辞。”除了专业学者整理古籍或考证词义时需要释读通假字,在中学文言文教学中,通假用法也是一项重点和难点。那么,如果能从语言信息处理视角构建通假字资源库,并实现通假字的自动识别,会为我们的学习和研究带来什么样的帮助呢?
近日,北京师范大学科研团队的论文《古汉语通假字资源库的构建及应用研究》获得了第二十二届中国计算语言学大会(CCL 2023)最佳中文论文奖。这项研究首先提供了包含通假字标注语料库、通假字知识库和通假字识别评测集在内的通假字资源库,并基于资源库构建了通假字自动识别算法,旨在为文言文教学、古籍整理和相关研究提供基础性资源。
让我们先来看看它可以做什么吧!
通假字语料检索
如下图所示,在资源库中输入关键字,选择检索字段,可查询通假字语料,语料标注了通假字用法、出处、时代、释义、读音等多种信息。
地址:https://tjz.zhaoji.ac.cn/corpus
查看大规模通假字关系网络
如下图所示,因为空间有限,只详细列出了两个字节点与他们之间的通假关系边、形声关系边。在图中,字节点属性标注在蓝框内;红色的有向边表示通假关系,通假关系的详细属性参见红框,与通假关系相关联的语料以紫框标注;绿色的有向边表示形声关系,对应的绿框为形声关系的具体属性。由图中内容可见,“辟”与“譬”之间存在3条通假关系连边,对应三种释义,同时,二者之间还包括一条形声关系连边,标识“辟”是“譬”的声符。
通假字自动识别
将图中所示例句交给训练好的语言模型识别,便可以分析出“考”通“拷”。表示笞击拷问。
提升大模型文言理解能力
即使是当前最先进的大型语言模型GPT-4,面对包含通假字的古汉语文本,也很容易犯“以文害辞”的错误。
但将通假字用法连同文本一起输入给GPT-4后,它便可以推理出正确的结果。
看完上述几则用例,我们再来一起看看资源库的内部构成和更多潜在的应用场景。
通假字资源库分为三部分,第一,标注语料库,含有上万条高质量标注语料,覆盖数千个通假字;第二,图结构的通假字知识库,包含大量的通假字、通假关系、形声关系;第三,通假字识别评测集,旨在为计算机识别通假字提供“教材”+“测试题”。下面将逐一介绍。
A. 通假字标注语料库
目前,学界尚无专门标注通假字的文言文语料库,包含通假字的句篇信息主要见于各类辞书和专门的通假字字典,如《会典》、《简帛古书通假字大系》等。在初步探索阶段,团队希望能够兼顾古汉语信息处理、文史研究与文言文教学的一般性需求,选择参考《汉语大词典》中的通假字标准,配合人工加工,构建通假字标注语料库。未来还有必要基于面向出土文献和传世文献的通假字辞书资源引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。
目前,该库包含语料文本、标注位置、通假字字头、正字字头、出处、时代、释义、拼音、注音、古音等属性。该库可为通假字相关研究和应用提供较高质量的基础性数据。
B. 通假字知识库
目前的通假字标注语料库在本质上是一个能支持检索的加强版字典。为了进一步建模通假字与通假关系,团队构建了图结构的通假字知识库,融合了来自汉语大词典、康熙字典、汉典、国学大师网汉语字典、以及之前学界构建的形声关系数据与汉字部件数据,加工层面涉及字音、字形、字义和字用。使用者可以根据自己的需求将其可视化后查看。
蓝边表示通假关系,区分释义,粗细由语料数量决定;黄边表示形声关系;点击汉字或者连边后,可获取更多信息。
从传统视角出发,知识库作为查询工具可以帮助研究者开展字词考证、词汇语义研究等。更重要的是,通假字知识库能够提供传统辞书无法呈现的大规模通假字关联网络信息,潜在的应用场景包括:
第一、有些通假关系分布广泛,存在大量例句,如上图“信”通“伸”,而有些则用例少见,如“勝”通“伸”。古代文献中字与字的通假关系不是简单二元的“有”或“无”,它们有的强,有的弱,我们可以用图结构知识库来量化通假强度,支持字用层面研究。
第二、我们可以根据分割条件迅速将所有数据划分为多个子图,研究子图中所有通假字节点与通假关系边的内在规律,并探讨子图间的联系,例如,研究一个通假字的所有通假变化轨迹,实际上就是寻找该节点所在的子图并获得一个子图的生成树。
第三、不少汉字的读音在历史上经历了变化,我们可以利用通假关系边的“出处时代”作为时间属性,将图动态化呈现,进而量化估计在某一特定时代,两个字的发音相似度,从历时角度利用图知识库为语音演变研究提供支持。
C. 通假字自动识别评测
古汉语信息处理研究需要立足传统,面向未来,面向算法,而算法的研究与评测集息息相关,有了评测集,才能为算法研究提供标准。团队提出了“通假字识别评测任务”,包括两个子任务:通假字检测和正字识别,两个任务的评测集均包括训练集和测试集,其中,训练集用于模型学习,而测试集用于评估模型识别效果,分为基础版和拓展版两种类型:基础版测试集包含的通假字和训练集一致,拓展版测试集中包含了大量训练集中未出现过的通假字,识别难度更高。
在通假字识别评测中,团队构建了从统计语言模型到预训练语言模型的22个基线模型,分为N-gram、GPT2、利用MLM能力的BERT模型和BERT微调模型四类,每一类模型都按照训练数据分为殆知阁版与四库全书版两个版本,详情可参见论文。下面示出了一些自动识别的案例。
在本例中,“考”通“拷”,“考”字通假用法在训练集中未出现,模型正确预测其为通假字,这说明模型具有一定的泛化能力,能够探测出训练阶段未见过的通假用法。
在本例中,模型未能识别“台”通“嗣”的用法,这说明通假字的检测和识别是一个复杂的的问题,本文搭建的基线模型对于不常见的通假关系仍然处理欠佳。
在本例中,词典中标注“共”通“恭”,而模型认为“共”通“供”。进一步查阅文献发现,不同学者的通假释读观点存在差异:唐代陆德明《经典释文》注此句中“共”音“恭”,成为清代中期之前学者共识。而以俞樾《群经平议》为代表的晚清学者观点认为该字通“供”,并为现代人所继承,如杨伯峻《春秋左传注》、中华书局版《左传》(郭丹等译注)皆同此观点。可见,模型判定虽不同于评测集中的“标准答案”,亦有其合理之处。
问题反馈
本文所开展的通假字资源库建设和自动识别算法研究只是该领域的初步探索性工作,研究还存在不少待改进之处。例如,针对文言文教学需求,有待细化数据标注;针对汉语史研究需求,有必要从出土文献和传世文献的专用通假字辞书资源中引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。
欢迎试用在线资源库或下载数据集,并为资源建设提出宝贵意见,共同开拓人文研究的新视野。如果您在使用在线资源库时,发现语料存在漏标、错标或部分字段错误的情况,请点击“报错”按钮向研究团队提交反馈,研发人员将尽快完成修正。
关于资源使用和建设,如果您有任何问题或建议,欢迎通过如下邮箱联系我们:
zhaoji.wang@mail.bnu.edu.cn
或 irishu@bnu.edu.cn
开源共享
目前,最新版资源库已在Github开源共享,欢迎研究者参考使用。
资源库在线浏览:https://tjz.zhaoji.ac.cn/
资源库下载:https://github.com/frederick-wang/tongjiazi-resources
评测实验代码:https://github.com/frederick-wang/tongjiazi-evaluation
论文下载链接:https://aclanthology.org/2023.ccl-1.47/
致谢
本研究得到国家语委重大项目“古籍整理智能化关键技术研究”(ZDA145-9)、国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021)、北京市社科重点项目“古典文献的智能化分析与关联技术研究”(21DTR037)资助。北京师范大学李隽琪、陈青、孟琢等师友为资源库设计提出了宝贵的建议,在此表示感谢。
向上滑动 查看参考文献
[1] 党怀兴. 1998. 通假成因说略. 陕西师范大学学报:哲学社会科学版, (1):61–65.
[2] 邓三鸿, 胡昊天, 王昊, and 王东波. 2021. 古文自动处理研究现状与新时代发展趋势展望. 科技情报研究, 3(1):1–20.
[3] 胡韧奋, 李绅, and 诸雨辰. 2021. 基于深层语言模型的古汉语知识表示及自动断句研究. 中文信息学报, 35(4):8–15.
[4] 胡韧奋, 曹冰, and 杜健一. 2013. 现代汉字形声字声符在普通话中的表音度测查. 中文信息学报, 27(3):41–48.
[5] 孔德明. 1993. 通假字概说. 北京广播学院出版社.
[6] Dayiheng Liu, Kexin Yang, Qian Qu, and Jiancheng Lv. 2019. Ancient–modern chinese translation with a new large training dataset. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 19(1):1–13.
[7] 柳建钰and 周晓文. 2017. 计算机辅助古籍版本校勘资源库建设浅议. 图书馆理论与实践, (3):54–58. 钱玄. 1980. 秦汉帛书简牍中的通借字. 南京师大学报(社会科学版), (3):44–48.
[8] 舒蕾, 郭懿鸾, 王慧萍, 张学涛, and 胡韧奋. 2022. 古汉语词义标注语料库的构建及应用研究. 中文信息学报, 36(5):21–30.
[9] 孙建伟. 2015. 假借和通假研究综论. 宁夏大学学报(人文社会科学版), (2):29–33.
[10] 苏祺, 胡韧奋, 诸雨辰, 严承希, and 王军. 2021. 古籍数字化关键技术评述. 数字人文研究, 1(3):83.
[11] 王宁. 2012. 古代汉语. 高等教育出版社.
[12] Zinong Yang, Ke-jia Chen, and Jingqiang Chen. 2021. Guwen-unilm: Machine translation between ancient and modern Chinese based on pre-trained models. In Natural Language Processing and Chinese Computing: 10th CCF International Conference, NLPCC 2021, Qingdao, China, October 13–17, 2021, Proceedings, Part I 10, pages 116–128. Springer.
[14] Xiaoyong Yan, Ying Fan, Zengru Di, Shlomo Havlin, and Jinshan Wu. 2013. Efficient learning strategy of chinese characters based on network approach. PloS one, 8(8):e69745.
[15] Xiaoyuan Yi, Maosong Sun, Ruoyu Li, and Wenhao Li. 2018. Automatic poetry generation with mutual reinforcement learning. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3143–3153.
[16] 由明智. 2013. 谈人教版中学语文教材的通假字注释. 课程.教材.教法, 33(9):46–50.
[17] 张儒. 1988. 关于竹书、帛书通假字的考察. 山西大学学报:哲学社会科学版, (2):37–43+113–114.
来源|章黄国学公众号
制作|绢生
审核|肖英 / 万顷
终审|清欢