AI通过语言体裁的元数据揭示古希腊文本意义的演变
2019年03月18日 由 冯鸥 发表
69330
0
Ageōmétrētosmēdeìseeistō,这是希腊语的“不要让任何没有学过几何学的人进来”,这句座右铭刻在柏拉图学院入口的上方。对于会希腊语的人来说这很简单,但不是每个案例都如此清晰。解释古代语言涉及对语义的猜测,以及多义词(词或短语的许多可能含义的共存)和语境。
艾伦图灵研究所,华威大学,赫尔辛基大学和亚马逊的研究人员在一篇新发表的论文中提出了一种新颖的解决方案。其中涉及神经网络,或模拟生物神经元的分层数学函数。它被称为古希腊语的流派意识语义变化(GASC),利用关于目标文本类型的分类元数据来揭示古希腊数据集中意义的演变。
模拟语义变化的AI系统本身并不新颖,研究人员采用了一系列基于主题和基于图形的自然语言处理模型来完成解释任务。但作者指出,很少有人关注古代语言,而且大多数都不考虑语言变异特征。
相比之下,团队的工作超越了文学数据集和历史语言数据,并且直接解决了关于流派的问题,包括哪种体裁最有可能与给定意义相关,那种体裁意义不同寻常,以及哪种体裁意义最相似。
“随着时间的推移,新词汇进入词典,一些词语过时了,现有词汇获得新的意义,”该论文的作者写道,“例如,在旧英语中,'thing'意味着'a public assembly',目前它更普遍地意味着'entity'。创新与变异之间的密切关系在历史语言学中是众所周知的,对古代语言至关重要,由于我们处理的数据有限,因此无法使用语料库;因此,模型需要明确考虑混淆变量,如体裁。”
研究人员首先编写了一个预处理的语料库,Diorises Annotated Ancient Greek Corpus,收录了820首诗歌、戏剧、演讲、哲学、散文、叙事、地图册、宗教手稿和公元前8世纪至公元5世纪的信件,共计超过1000万字。每个都被词形化(以变形形式组合在一起)和词性标记,模型的任务是检测与给定上下文中的目标词相关联的感觉并描述它们随时间的演变。
该团队解释道,“在技术文本中,我们希望多义词具有技术意义,另一方面,在更接近于一般语言(喜剧,演说,史学)的作品中,我们期望这些词语以更具体,隐喻更少的意义出现,在诸如哲学和悲剧等多种类型中,我们不能假设这种分布成立。”
为了评估AI系统的性能,研究人员创建了一个辅助数据集和框架。他们在语料库中选择了50个可以被识别为多义词的目标词,包括来自希腊技术词汇的17个词和来自最高频率词汇的33个词(在Diorisis语料库中选择代表词汇或意义单位的形式)。
对于每个单词,他们随机将源语料库划分为训练集(80%)和测试集(20%),并设计了一种方法,可以自动将模型中与每种意义关联的单词列表与专家标注的意义匹配。
在实验中,研究人员报告说,GASC能够提供词语意义演变的可解释性表示,并且与现有技术相比,它可以实现更好的预测性能。
作者表示,“之前没有任何研究系统地比较过从统计模型到古代文本的手工语义注释的估算值。现在这项工作可以看作是开发更丰富的评估方案和模型的一步,它们可以嵌入专家判断。”
论文:
arxiv.org/pdf/1903.05587.pdf