数据集:

conll2003

许可:

other

批注创建人:

crowdsourced

语言创建人:

found

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en
英文

"conll2003"的数据集卡片

数据集简介

CoNLL-2003的共享任务涉及与语言无关的命名实体识别。我们将集中讨论四种类型的命名实体:人物、地点、组织机构和不属于前三组的其他实体名称。

CoNLL-2003共享任务的数据文件包含四列,以单个空格分隔。每个词都单独放在一行上,并且每个句子之后有一个空行。每行的第一项是一个词,第二项是词性(POS)标签,第三项是句法块标签,第四项是命名实体标签。块标签和命名实体标签的格式为I-TYPE,表示该词在TYPE类型的短语内。只有当同一类型的两个短语紧随其后时,第二个短语的第一个词将具有B-TYPE标签,表示它开始了一个新的短语。具有O标签的词不属于任何短语。请注意,该数据集使用的是IOB2标记方案,而原始数据集使用的是IOB1。

有关更多详细信息,请参见 https://www.clips.uantwerpen.be/conll2003/ner/ https://www.aclweb.org/anthology/W03-0419

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

conll2003
  • 下载的数据集文件大小: 4.85 MB
  • 生成的数据集大小: 10.26 MB
  • 总磁盘使用量: 15.11 MB

'train'的一个示例如下所示。

{
    "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0],
    "id": "0",
    "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7],
    "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."]
}

原始数据文件有 -DOCSTART- 行,用于分隔文档,但这些行都被删除了。实际上, -DOCSTART- 是一个特殊行,用于在两个不同的文档之间进行边界分隔,在此实现中被过滤掉了。

数据字段

所有拆分的数据字段都是相同的。

conll2003
  • id : 是一个 字符串 特征。
  • tokens : 是一个 字符串 特征的列表。
  • pos_tags : 是一个 int 类别标签的列表。具有索引的完整标签集:
{'"': 0, "''": 1, '#': 2, '$': 3, '(': 4, ')': 5, ',': 6, '.': 7, ':': 8, '``': 9, 'CC': 10, 'CD': 11, 'DT': 12,
 'EX': 13, 'FW': 14, 'IN': 15, 'JJ': 16, 'JJR': 17, 'JJS': 18, 'LS': 19, 'MD': 20, 'NN': 21, 'NNP': 22, 'NNPS': 23,
 'NNS': 24, 'NN|SYM': 25, 'PDT': 26, 'POS': 27, 'PRP': 28, 'PRP$': 29, 'RB': 30, 'RBR': 31, 'RBS': 32, 'RP': 33,
 'SYM': 34, 'TO': 35, 'UH': 36, 'VB': 37, 'VBD': 38, 'VBG': 39, 'VBN': 40, 'VBP': 41, 'VBZ': 42, 'WDT': 43,
 'WP': 44, 'WP$': 45, 'WRB': 46}
  • chunk_tags : 是一个 int 类别标签的列表。具有索引的完整标签集:
{'O': 0, 'B-ADJP': 1, 'I-ADJP': 2, 'B-ADVP': 3, 'I-ADVP': 4, 'B-CONJP': 5, 'I-CONJP': 6, 'B-INTJ': 7, 'I-INTJ': 8,
 'B-LST': 9, 'I-LST': 10, 'B-NP': 11, 'I-NP': 12, 'B-PP': 13, 'I-PP': 14, 'B-PRT': 15, 'I-PRT': 16, 'B-SBAR': 17,
 'I-SBAR': 18, 'B-UCP': 19, 'I-UCP': 20, 'B-VP': 21, 'I-VP': 22}
  • ner_tags : 是一个 int 类别标签的列表。具有索引的完整标签集:
{'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}

数据拆分

name train validation test
conll2003 14041 3250 3453

数据集创建

策划理由

More Information Needed

原始数据

初始数据收集和规范化

More Information Needed

谁是源语言生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集筹备者

More Information Needed

许可信息

来自 CoNLL2003 shared task 页面:

英文数据是从路透社语料库中收集的新闻稿。注释是由安特卫普大学的人进行的。由于版权原因,我们只提供注释。要构建完整的数据集,您将需要访问路透社语料库。可以免费从NIST获取它来进行研究。

版权信息如下,来自 Reuters Corpus page

路透社语料库中的故事受Reuters Ltd和/或Thomson Reuters的版权保护,并受以下协议的约束:

Organizational agreement

此协议必须由贵机构的数据负责人签署,并发送给NIST。

Individual agreement

所有在贵机构使用路透社语料库的研究人员都必须签署此协议,并存档于贵机构。

引用信息

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}

贡献

感谢 @jplu @vblagoje @lhoestq 添加了这个数据集。