说到字典,我们都知道它的含义,那就是当我们遇到一个词不知道什么含义的时候,我们会查询字典,来获得它的定义,从而对于其含义进行理解。那么其实他就是一个键值对,键就是这个词,而值则是对这个词的解释。
然而,当我们在进行中文写作或者是英文写作的时候,我们都会遇到这样的一个问题,那就是我们想要描述一件事情时,由于词汇的缺乏我们很难描述的特别准确。这就相当于,我们拥有值,但是找不到键。这点在英文中尤为突出,可以用一个词解决的,非要使用一个从句进行描述,从而造成我们的论文的信息量由于篇幅的限制而大大减少。
那么有没有这样一个东西呢?在我去年就考虑这个事情的时候,当时还是仅有一些商业的字典公司提供相应的查询,不过那是查询相关词的。例如:https://www.onelook.com/thesaurus/ ,单纯使用的感受来讲,并不是非常的准确。
终于在2020年初,就有人帮我完成了这件事,那就是AAAI2020的一篇论文,Multi-channelReverse Dictionary Model ,他本来是说提出多通道的反向字典查询模型,并且在中英文语料库上都取得了非常不错的结果。而且,最关键的是它提供了一个开放的网站可以供我们使用:万词王。
从这个使用效果上看,还是相当不错的,虽然它的网站整体和onelook的风格非常像。
下面我们来看看它是怎么做的,首先先给出整体的模型图。
可以看到,对于查询的句子,他的编码方式是LSTM+Attention的形式,但是,重点在于它后面的5个任务,一个是基本的词打分,也是基础分,另外4个分别是上面的词素和义原的打分,下面的词性和词类打分。这些都需要额外的信息,来自于知识库。(wordnet, hownet以及同义词词林)
再来看看它的评估,它主要是用3种评价方法,一种是使用已知的定义,也就是标准的定义,而且还是知道的。另一种是未知的定义,也就是定义虽然是标准定义,但是没有见过。第三种就是描述,也就是说它并不是一个定义,而是一个相关描述。第三种才是我们平时常见的使用的方式。
可以看到这里使用作者提出的模型在第二种和第三种上都有非常好的效果。在第一种里已经见过的定义则使用onelook和MS-LSTM这种将原有定义融入模型之中的会更好。