数据集:
Helsinki-NLP/tatoeba_mt
Tatoeba翻译挑战是一个多语种的机器翻译基准数据集,由 Tatoeba.org 收集的用户贡献的翻译提供的并作为平行语料库 OPUS 派生而来。该数据集包括按语言对进行排序的测试数据和开发数据。它包括数百种语言对的测试集,并且持续更新。请注意,要查看您正在使用的发布版本,请检查版本号标记。
翻译任务在 Tatoeba-Challenge repository 中详细描述,并涵盖不同数据覆盖范围和资源的各种子任务。 Training data 也来自同一个存储库,也收集了 results 。 Models 也可供公共使用,并且部分可从 huggingface model hub 获取。
数据集涵盖数百种语言和语言对,并按照ISO-639-3语言组织。当前版本包括以下语言:南非荷兰语、阿拉伯语、阿塞拜疆语、白俄罗斯语、保加利亚语、孟加拉语、布列塔尼语、波斯尼亚语、加泰罗尼亚语、查莫罗语、捷克语、楚瓦什语、威尔士语、丹麦语、德语、现代希腊语、英语、世界语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法罗语、法语、西弗里斯语、爱尔兰语、苏格兰盖尔语、加利西亚语、瓜拉尼语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、国际语、印度尼西亚语、随意语、伊多语、冰岛语、意大利语、日语、爪哇语、格鲁吉亚语、哈萨克语、高棉语、韩语、库尔德语、康沃尔语、拉丁语、卢森堡语、立陶宛语、拉脱维亚语、毛利语、马其顿语、马拉亚拉姆语、蒙古语、马拉地语、马来语、马耳他语、缅甸语、挪威博克曼语、荷兰语、挪威尼诺斯克语、挪威语、奥克西唐语、波兰语、葡萄牙语、盖丘亚语、隆迪语、罗马尼亚语、俄语、塞尔维亚-克罗地亚语、斯洛文尼亚语、阿尔巴尼亚语、塞尔维亚语、瑞典语、斯瓦希里语、泰米尔语、泰卢固语、泰语、土库曼语、塔加洛语、土耳其语、鞑靼语、维吾尔语、乌克兰语、乌尔都语、乌兹别克语、越南语、沃拉普克语、意第绪语、中文。
数据实例以TAB分隔的文件形式给出,其中包含四列:源语言和目标语言的ISO-639-3代码,源语言文本和目标语言文本。请注意,我们不指定翻译方向,并且认为数据集是对称的,可在两个方向上用作测试集。只使用按排序的ISO-639-3语言ID标记的一个方向的标签提供特定于语言对的子集。
一些子集包含多个子语言或语言变体。它们可以指代由ISO代码 "hbs" 覆盖的类似语言,如塞尔波克罗地亚语。语言变体还可以包括不同的书写系统,在这种情况下,脚本代码ISO15924会附加到语言代码上。下面是从英文到塞尔波-克罗地亚语测试集中的一些示例,包括西里尔字母和拉丁字母中的波斯尼亚、克罗地亚和塞尔维亚例子:
eng bos_Latn Children are the flowers of our lives. Djeca su cvijeće našeg života. eng hrv A bird was flying high up in the sky. Ptica je visoko letjela nebom. eng srp_Cyrl A bird in the hand is worth two in the bush. Боље врабац у руци, него голуб на грани. eng srp_Latn Canada is the motherland of ice hockey. Kanada je zemlja-majka hokeja na ledu.
还有一些包含同一语言句对的数据集。在大多数情况下,这些是具有轻微拼写差异的变体,但也包括重新表达的句子。以下是英文测试集的一些示例:
eng eng All of us got into the car. We all got in the car. eng eng All of us hope that doesn't happen. All of us hope that that doesn't happen. eng eng All the seats are booked. The seats are all sold out.
测试和开发数据集在句子对方面是不相交的,但可能在单个源语言或目标语言句子中具有重叠。开发数据不应直接用于训练。数据拆分的目标是创建具有广泛语言覆盖范围的测试集。测试集最多包括10,000个实例。并非所有语言对都有开发数据。
为了与其他结果进行比较,模型应使用从 Tatoeba MT Challenge Repository 中分发的训练数据,还包括在那里列出的单语数据集。
Tatoeba MT数据集将持续更新,数据准备过程也是公开的,并在 github 上发布。高语言覆盖是该项目的主要目标,数据集的准备旨在保持一致和系统化,具有标准化的语言标签和分发格式。
Tatoeba数据集来自于用户贡献的翻译提交给 Tatoeba.org ,并编译成 OPUS 中的多重平行语料库。测试和开发数据集随着Tatoeba数据收集的新版本逐步更新。新版本扩展了现有的数据集。测试集不应与任何已发布的开发数据集重叠。
源语言生产者是谁?该数据集来自于 Tatoeba.org ,它提供了一个庞大的句子数据库,其中包含广泛的语言翻译。它的内容因成千上万用户的自愿贡献而不断增长。最初的项目由Trang Ho于2006年创建,托管在Sourceforge上,代号为multilangdict。
句子是由志愿者进行翻译的,Tatoeba数据库还提供了有关每条记录的附加元数据,包括用户评级等。但是,目前没有以任何方式使用元数据来编制MT基准。贡献者的语言能力自然变化很大,不是所有的翻译都是目标语言的母语人士完成的。有关贡献的更多信息可以在 Tatoeba.org 找到。
谁是标注员?有关处理个人和敏感信息的信息,请参阅数据的 original provider 。此数据集未经过任何处理来检测或删除潜在的敏感或个人信息。
语言覆盖范围广,因此对于机器翻译的发展尤其对于资源较少的语言和语言对来说是一种非常宝贵的资源。不断增长的数据库还代表了一种动态资源,其价值将进一步增长。
原始来源依赖于其贡献者,他们的兴趣和背景会有一定的主观和文化偏见。语言覆盖和翻译质量也受到贡献者技能的影响。
这些句子通常非常简短,因此翻译起来相对容易。对于高资源语言而言,这导致的结果将比更具挑战性的基准测试结果更无用。对于资源较少的语言对来说,示例的复杂性有限实际上是在非常具有挑战性的情况下衡量进展的好方法。
该数据集由赫尔辛基大学及其 language technology research group 策划。用于创建和使用资源的数据和工具在 open source 上,并将作为用于并行数据和机器翻译研究的 OPUS ecosystem 的一部分进行维护。
数据集使用与原始Tatoeba数据库相同的许可协议进行分发,使用 CC-BY 2.0 license 进行了更多关于原始数据集使用条款的信息。
如果您使用了这些数据集,请引用以下论文: The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT
@inproceedings{tiedemann-2020-tatoeba, title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}", author = {Tiedemann, J{\"o}rg}, booktitle = "Proceedings of the Fifth Conference on Machine Translation", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.wmt-1.139", pages = "1174--1182", }
感谢 @jorgtied 和 @Helsinki-NLP 添加了这个数据集。同时感谢 CSC Finland 为OPUS和其他MT项目提供计算资源和存储空间。