数据集:

conll2002

源数据集:

original

批注创建人:

crowdsourced

语言创建人:

found

大小:

10K<n<100K

计算机处理:

multilingual

语言:

nl es
英文

CoNLL-2002 数据集卡片

数据集概述

命名实体是包含人名、组织名、地点名、时间和数量的短语。例如:

[PER Wolff] ,目前是 [LOC Argentina] 的一名记者,在七十年代后期与 [PER Del Bosque] 在 [ORG Real Madrid] 打球。

CoNLL-2002 的共享任务与与语言无关的命名实体识别有关。我们将集中关注四种类型的命名实体:人物、地点、组织和不属于前三组的其他命名实体名称。共享任务的参与者将提供至少两种语言的训练和测试数据。他们将使用这些数据来开发一个包含机器学习组件的命名实体识别系统。在这个共享任务中,可以使用除训练数据之外的其他信息来源。我们对能够使用附加未标注数据提高性能的方法特别感兴趣(例如协同训练)。

支持的任务和榜单

命名实体识别(NER)是信息抽取的子任务。不同的NER系统在1995年的第六届消息理解会议(MUC6)中进行了评估。目标语言是英语。参与的系统表现良好。然而,其中许多系统使用了特定于语言的资源来执行任务,不知道它们在英语以外的其他语言上的表现如何。

在1995年之后,已经为一些欧洲语言和少数亚洲语言开发了NER系统。已经有至少两项研究将一个NER系统应用于不同的语言。Palmer 和 Day [PD97] 使用统计方法在中文、英文、法文、日文、葡萄牙文和西班牙文的新闻文章中查找命名实体。他们发现,命名实体识别任务的难度在六种语言中是不同的,但是大部分任务可以用简单的方法完成。Cucerzan 和 Yarowsky [CY99] 使用形态和上下文线索来识别英语、希腊语、印地语、罗马尼亚语和土耳其语中的命名实体。他们在最少的监督下获得的整体F度量值在40到70之间,具体取决于使用的语言。

  • named-entity-recognition:此任务的性能是根据 F1 进行测量的(值越高越好)。只有与数据中的对应实体完全匹配的命名实体才是正确的。
  • parsing:此任务的性能根据 F1 进行测量(值越高越好)。只有与数据中的对应标签相等的词性标签才是正确的。

语言

提供了两种语言:西班牙语(es)和荷兰语(nl)。

数据集结构

数据示例

示例如下:

{'id': '0',
 'ner_tags': [5, 6, 0, 0, 0, 0, 3, 0, 0],
 'pos_tags': [4, 28, 13, 59, 28, 21, 29, 22, 20],
 'tokens': ['La', 'Coruña', ',', '23', 'may', '(', 'EFECOM', ')', '.']
}

荷兰语子数据集中的原始数据文件包含用于分隔文档的 -DOCSTART- 行,但在此处将删除这些行。的确, -DOCSTART- 是一行特殊行,用作两个不同文档之间的边界,并且在此实现中被过滤掉了。

数据字段

  • id:示例的id
  • tokens:示例文本的标记
  • ner_tags:每个标记的NER标签
  • pos_tags:每个标记的词性标签

对于西班牙语,词性标签对应以下列表:

'AO', 'AQ', 'CC', 'CS', 'DA', 'DE', 'DD', 'DI', 'DN', 'DP', 'DT', 'Faa', 'Fat', 'Fc', 'Fd', 'Fe', 'Fg', 'Fh', 'Fia', 'Fit', 'Fp', 'Fpa', 'Fpt', 'Fs', 'Ft', 'Fx', 'Fz', 'I', 'NC', 'NP', 'P0', 'PD', 'PI', 'PN', 'PP', 'PR', 'PT', 'PX', 'RG', 'RN', 'SP', 'VAI', 'VAM', 'VAN', 'VAP', 'VAS', 'VMG', 'VMI', 'VMM', 'VMN', 'VMP', 'VMS', 'VSG', 'VSI', 'VSM', 'VSN', 'VSP', 'VSS', 'Y', 'Z'

对于荷兰语,词性标签对应以下列表:

'Adj', 'Adv', 'Art', 'Conj', 'Int', 'Misc', 'N', 'Num', 'Prep', 'Pron', 'Punc', 'V'

NER标签对应以下列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC",

NER标签与分块任务中的格式相同:B表示短语的第一个词,I表示非初始词。有四种短语类型:人名(PER)、组织(ORG)、地点(LOC)和其他名称(MISC)。

假定命名实体不是递归的也不重叠。如果一个命名实体嵌入在另一个命名实体中,通常只有顶层实体会被标记。

数据切分

对于两种配置(西班牙语和荷兰语),有三种切分。

原始切分被命名为 train 、 testa 和 testb ,对应于 train 、 validation 和 test 切分。

切分的大小如下:

train validation test
N. Examples (Spanish) 8324 1916 1518
N. Examples (Dutch) 15807 2896 5196

数据集创建

策划原理

该数据集的目的是为那些当时在统计机器学习方面缺乏资源的荷兰语和西班牙语引入新的资源。

【需要更多信息】

来源数据

西班牙语数据是由西班牙EFE新闻社提供的一系列新闻稿。文章来自2000年5月。

荷兰语数据由2000年的比利时报纸《De Morgen》的四个版本组成(分别是6月2日、7月1日、8月1日和9月1日)。

初始数据收集和标准化

文章已进行字词标记化,但确切的预处理流程信息不可用。

资源语言的制作人员是谁?

以上提及的新闻机构和报纸的记者和作者创作了资源语言。

注释

注释过程

对于荷兰语数据,注释员在尽可能遵循MITRE和SAIC命名实体识别指南(Chinchor et al., 1999)的基础上进行了注释。

注释者是谁?

西班牙语数据的注释由加泰罗尼亚工业大学(UPC)的TALP研究中心和巴塞罗那大学(UB)的语言与计算中心(CLiC)进行。

荷兰语数据是安特卫普大学Atranos项目的一部分进行注释的。

个人和敏感信息

数据来源于报纸,仅包含公众人物或个人的提及。

使用数据的注意事项

数据的社会影响

命名实体识别系统可以用于高效地对新闻文本进行索引,从而可以轻松地收集与组织或个人有关的所有信息。将此类资源广泛提供给英语以外的其他语言可以支持更多世界人口的研究和用户体验。与此同时,更好的索引和可发现性也可以使国家行为者进行监视。

偏见讨论

新闻文本再现了社会的偏见,任何在新闻数据上训练的系统都应该意识到这些限制和模型在这种情况下学习假相关性的风险,例如人的性别和职业之间的关系。

其他已知限制

用户应该记住,数据集仅包含新闻文本,这可能限制了所开发系统的适用范围,无法应用于其他领域。

其他信息

数据集创建者

西班牙语数据的注释是通过欧洲委员会的NAMIC项目(IST-1999-12392)资助的。

授权信息

数据的授权状态,尤其是新闻来源文本,是未知的。

引用信息

为数据集提供格式化的引用。例如:

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://www.aclweb.org/anthology/W02-2024",
}

贡献

感谢 @lhoestq 添加了此数据集。