数据集:
facebook/flores
Flores是一个用于英语和低资源语言机器翻译的基准数据集。
Flores-200的创建使FLORES-101的语言覆盖范围扩大一倍。由于新语言的特性,它们的标准化程度较低,需要更专业化的翻译,因此验证过程变得更加复杂。这需要对翻译工作流进行修改。FLORES-200包含了几种语言,这些语言并不是从英语翻译而来的。具体而言,有几种语言是从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的。此外,FLORES-200还包括了四种语言的两种书写方式。FLORES-200包含了来自842篇不同网络文章的翻译,总共3001个句子。这些句子被分成三个部分:dev、devtest和test(隐藏)。平均而言,每个句子大约有21个词。
免责声明:*Flores-200数据集由Facebook托管,并在 Creative Commons Attribution-ShareAlike 4.0 International License 下进行许可。
有关FLORES-101在WMT2021共享任务 Large-Scale Multilingual Machine Translation 上的模型评估的详细信息,请参阅 Dynabench leaderboard 。Flores 200是其扩展。
数据集包含200种语言的平行句子,如原始 Github 项目页面中所述。语言使用ISO 639-3代码标识(例如eng、fra、rus),并附加一个描述脚本的额外代码(例如"eng_Latn","ukr_Cyrl")。请参阅 the webpage for code descriptions 。
使用配置项"all"可以在单个命令中访问所有可用语言的完整平行句子集。
使用连字符配对可以获取一个数据点中的两种语言(例如"eng_Latn-ukr_Cyrl"将提供以下格式的句子)。
下面是乌克兰语(ukr_Cyrl配置)的"dev"拆分的示例。所有配置具有相同的结构,并且所有句子在配置和拆分之间都是对齐的。
{ 'id': 1, 'sentence': 'У понеділок, науковці зі Школи медицини Стенфордського університету оголосили про винайдення нового діагностичного інструменту, що може сортувати клітини за їх видами: це малесенький друкований чіп, який можна виготовити за допомогою стандартних променевих принтерів десь по одному центу США за штуку.', 'URL': 'https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet', 'domain': 'wikinews', 'topic': 'health', 'has_image': 0, 'has_hyperlink': 0 }
使用连字符配对或使用"all"函数时,数据将按以下方式呈现:
{ 'id': 1, 'URL': 'https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet', 'domain': 'wikinews', 'topic': 'health', 'has_image': 0, 'has_hyperlink': 0, 'sentence_eng_Latn': 'On Monday, scientists from the Stanford University School of Medicine announced the invention of a new diagnostic tool that can sort cells by type: a tiny printable chip that can be manufactured using standard inkjet printers for possibly about one U.S. cent each.', 'sentence_ukr_Cyrl': 'У понеділок, науковці зі Школи медицини Стенфордського університету оголосили про винайдення нового діагностичного інструменту, що може сортувати клітини за їх видами: це малесенький друкований чіп, який можна виготовити за допомогою стандартних променевих принтерів десь по одному центу США за штуку.' }
文本以原始数据集的形式提供,没有进一步的预处理或分词。
config | dev | devtest |
---|---|---|
all configurations | 997 | 1012: |
有关数据集创建的详细信息,请参阅原始文章 No Language Left Behind: Scaling Human-Centered Machine Translation 。
详见论文中的详细信息。
根据Creative Commons Attribution Share Alike 4.0许可证进行许可。许可证详见 here 。
如果您在工作中使用了这些语料库,请引用作者。
@article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }
还请引用此数据集所基于的先前工作。
@inproceedings{, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, Marc'Aurelio and Guzm\'{a}n, Francisco and Fan, Angela}, year={2021} }
@inproceedings{, title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English}, author={Guzm\'{a}n, Francisco and Chen, Peng-Jen and Ott, Myle and Pino, Juan and Lample, Guillaume and Koehn, Philipp and Chaudhary, Vishrav and Ranzato, Marc'Aurelio}, journal={arXiv preprint arXiv:1902.01382}, year={2019} }