推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

【摘要】张永伟、刘婷:汉语辞书词条自动编纂调查研究——以ChatGPT为例

   日期:2024-10-31     作者:caijiyuan    caijiyuan   评论:0    移动:http://keant.xrbh.cn/news/12072.html
核心提示:一引言词条又称条目,是词典的基本查检单位,一般包括词目、注音、释义、例证、语用说明和各种挂尾信息。词条释文的编纂是辞书编
 引言


【摘要】张永伟、刘婷:汉语辞书词条自动编纂调查研究——以ChatGPT为例

词条又称条目,是词典的基本查检单位,一般包括词目、注音、释义、例证、语用说明和各种挂尾信息。词条释文的编纂是辞书编纂最重要、最费时、最耗精力的工作。自动编纂词条释文可以大幅提高辞书编纂效率,对辞书的现代化编纂具有重要意义。


词条自动编纂的方法包括基于规则的方法(魏雪、袁毓林 2014)、基于深度学习的方法(Noraset et al. 2017;Gadetsky et al. 2018;Kong et al. 2022)等等。近年来,生成式大语言模型的发展为词条自动编纂提供了新方法和新契机,其中具有代表性的是OpenAI公司于2022年11月发布的智能聊天机器人程序ChatGPT。目前已经有一些研究(Phoodai & Rikk 2023;Lew 2023;Rees & Lew 2023)针对ChatGPT自动编纂词条的质量进行了测评和分析。现有研究使用的模型版本多为GPT-3.5,且主要集中在英语领域。本文面向汉语语文辞书读者,以ChatGPT(GPT-4)为例,通过问卷形式调查大语言模型自动编纂词条的认可度,分析大语言模型自动编纂的质量与特点,探讨大语言模型给词条自动编纂带来的机遇与挑战。


 研究方法


本文从《现代汉语词典》第7版(以下简称《现汉》)中选取40个调查词目,选取时充分考虑词性、词长、义项数、特殊用法的多样性,用尽可能少的词目覆盖尽可能多的调查项目。确定调查词目后,使用大模型自动编纂词条,具体步骤如下:(1)打开ChatGPT网页版人机对话窗口,输入提示语,约定自动编纂要求的同时引导ChatGPT在后续对话中直接根据词目生成释文;(2)输入一个词目,获取ChatGPT自动编纂的释文;(3)重复步骤(2),直至获取所有词目的释文。


调查采用问卷形式,借助问卷星的微信小程序发放和回收问卷。为每个词目设置1个问题,以《现汉》条目和ChatGPT自动编纂的条目作为两个候选项,受访者从中选择其认为更合理、质量更高的一项。调查共回收202份有效问卷,受访对象主要为接受过高等教育、有一定辞书使用需求和习惯的年轻学生群体。


 大语言模型词条自动编纂的整体表现


选择每个问题中支持ChatGPT编纂词条的受访者比例,作为该词目在自动编纂任务上的得分。全部词目自动编纂的平均得分为0.548,中位数为0.579,标准差为0.199。将0.0至1.0的得分均匀划分出5个子区间,每个区间的宽度为0.2,各区间的词条占比分别为0%、35%、27.5%、25%、12.5%,可见ChatGPT自动编纂呈现出平均分越高词条数量越少的趋势,大部分自动编纂的词条质量尚未达到很高的水平,明显优于传统词典释义的词条数量相对较少。从词性、兼类性质、词长、义项数、语体标记等维度分类,进一步统计词条平均分,结果显示,ChatGPT在实词、单一词性的词、二字词、单义词、普通语体词上的认可度,要高于虚词、兼类词、非二字词、多义词以及口语词、方言词、文言词等词语。


 大语言模型词条自动编纂的细节分析


问卷调查结果仅反映受访者对词条整体质量的评判,不足以细致呈现词条各组成部分的编纂效果。本节进一步从注音、词性标注、义项划分、释义和举例等方面对大语言模型自动编纂词条进行分析。


在注音准确性方面,本文从《现汉》中选取200个词语进行注音补充实验。结果显示,ChatGPT的平均注音准确率为93.0%,有14个词注音错误。对于多音字、轻声字、多字词、口语词、方言词、文言词等特殊类型字词,ChatGPT的注音准确率均低于90.0%,更依赖人工检查和修正。在词性标注准确性方面,ChatGPT词性标注错误的词语均为多义词,其中4个多义词的所有词性均标注错误,4个多义词的词性同时包含正确标注和错误标注。可见ChatGPT对单义词的词性标注较为准确,标注多义词的词性时,性能更加不稳定,可能出现标注错误。在义项划分合理性方面,与参照辞书相比,ChatGPT生成的词条在义项数量上总体较为精简。ChatGPT能够从新颖的角度提供具有启发性的义项,但对常用义和罕用义的处理尚有不足,存在义项划分颗粒度把握不当、遗漏部分义项等问题。在释义和举例准确性方面,ChatGPT生成词条的语言风格总体上较为简洁、通俗易懂,但释义和举例均出现了虚构和不准确的情况,编纂质量有待提高。


 余论


本文以ChatGPT为例,系统调查和分析了大语言模型在汉语辞书词条自动编纂中的表现。ChatGPT等大语言模型为传统辞书编纂模式带来了新的启示。一方面,ChatGPT可作为辞书编纂的辅助工具,通过高效生成词条初稿,实现人机协同,节省编纂时间,提升编纂质量。另一方面,针对性优化大语言模型在辞书编纂中的应用,如专门训练或微调模型、完善释义机制、丰富举例形式等,将有助于提高机编辞书的整体水平。此外,充分发挥大语言模型的技术优势,积极探索辞书编纂的创新路径,如拓展义项划分视角、实现辞书动态更新、满足用户个性化需求等,也是值得关注的发展方向。推动汉语辞书编纂理论和实践的创新发展,需要在借鉴大语言模型等前沿技术的同时,加强传统编纂理论与人工智能技术的深度融合,建立健全人机协同的辞书编纂新范式。只有在坚持传承与创新并重的基础加强多学科交叉融合,才能更好地推进汉语辞书编纂事业的智能化发展,为广大读者提供更加优质、高效、个性化的辞书服务。


参考文献

1. 魏雪袁毓林. 基于规则的汉语名名组合的自动释义研究.中文信息学报,2014(3):1-10.

2. 中国社会科学院语言研究所词典编辑室编,现代汉语词典(第7版).北京:商务印书馆,2016.

3. Gadetsky AYakubovskiy IVetrov D. Conditional generators of words definitions. //In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,2018,2:266-271.

4. Kong CChen YZhang HYang LYang E. Multitasking framework for Unsupervised Simple Definition Generation. //In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics,2022,1:5934-5943.

5. Lew R. ChatGPT as a COBUILD lexicographer. Humanities and Social Sciences Communications,2023,10:1-10.

6. Noraset TLiang CBirnbaum LDowney D. Definition Modeling:Learning to Define Word Embeddings in Natural Language. //In Proceedings of the AAAI Conference on Artificial Intelligence,2017,31:3259-3266.

7. Phoodai CRikk R. Exploring the Capabilities of ChatGPT for Lexicographical Purposes:A Comparison with Oxford Advanced Learner’s Dictionary within the Microstructural framework. //Proceedings of the eLex 2023 Conference,2023:335-365.

8. Rees GLew R. The Effectiveness of OpenAI GPT-Generated Definitions Versus Definitions from an English Learners’ Dictionary in a Lexically Orientated Reading Task. International Journal of Lexicography,2024,37(1):50-74.

原文刊于《辞书研究》2024年第5期


作者简介

张永伟,中国社会科学院大学文学院教授、中国社会科学院语言研究所研究员,主要研究方向为语料库语言学、计算词典学、计算语言学等。



刘婷,中国社会科学院大学文学院2022级硕士研究生。



本文地址:http://lianchengexpo.xrbh.cn/news/12072.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多
 
标签: 调查研究
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号