数据集:
conll2003
CoNLL-2003的共享任务涉及与语言无关的命名实体识别。我们将集中讨论四种类型的命名实体:人物、地点、组织机构和不属于前三组的其他实体名称。
CoNLL-2003共享任务的数据文件包含四列,以单个空格分隔。每个词都单独放在一行上,并且每个句子之后有一个空行。每行的第一项是一个词,第二项是词性(POS)标签,第三项是句法块标签,第四项是命名实体标签。块标签和命名实体标签的格式为I-TYPE,表示该词在TYPE类型的短语内。只有当同一类型的两个短语紧随其后时,第二个短语的第一个词将具有B-TYPE标签,表示它开始了一个新的短语。具有O标签的词不属于任何短语。请注意,该数据集使用的是IOB2标记方案,而原始数据集使用的是IOB1。
有关更多详细信息,请参见 https://www.clips.uantwerpen.be/conll2003/ner/ 和 https://www.aclweb.org/anthology/W03-0419
'train'的一个示例如下所示。
{ "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0], "id": "0", "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7], "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."] }
原始数据文件有 -DOCSTART- 行,用于分隔文档,但这些行都被删除了。实际上, -DOCSTART- 是一个特殊行,用于在两个不同的文档之间进行边界分隔,在此实现中被过滤掉了。
所有拆分的数据字段都是相同的。
conll2003{'"': 0, "''": 1, '#': 2, '$': 3, '(': 4, ')': 5, ',': 6, '.': 7, ':': 8, '``': 9, 'CC': 10, 'CD': 11, 'DT': 12, 'EX': 13, 'FW': 14, 'IN': 15, 'JJ': 16, 'JJR': 17, 'JJS': 18, 'LS': 19, 'MD': 20, 'NN': 21, 'NNP': 22, 'NNPS': 23, 'NNS': 24, 'NN|SYM': 25, 'PDT': 26, 'POS': 27, 'PRP': 28, 'PRP$': 29, 'RB': 30, 'RBR': 31, 'RBS': 32, 'RP': 33, 'SYM': 34, 'TO': 35, 'UH': 36, 'VB': 37, 'VBD': 38, 'VBG': 39, 'VBN': 40, 'VBP': 41, 'VBZ': 42, 'WDT': 43, 'WP': 44, 'WP$': 45, 'WRB': 46}
{'O': 0, 'B-ADJP': 1, 'I-ADJP': 2, 'B-ADVP': 3, 'I-ADVP': 4, 'B-CONJP': 5, 'I-CONJP': 6, 'B-INTJ': 7, 'I-INTJ': 8, 'B-LST': 9, 'I-LST': 10, 'B-NP': 11, 'I-NP': 12, 'B-PP': 13, 'I-PP': 14, 'B-PRT': 15, 'I-PRT': 16, 'B-SBAR': 17, 'I-SBAR': 18, 'B-UCP': 19, 'I-UCP': 20, 'B-VP': 21, 'I-VP': 22}
{'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}
name | train | validation | test |
---|---|---|---|
conll2003 | 14041 | 3250 | 3453 |
来自 CoNLL2003 shared task 页面:
英文数据是从路透社语料库中收集的新闻稿。注释是由安特卫普大学的人进行的。由于版权原因,我们只提供注释。要构建完整的数据集,您将需要访问路透社语料库。可以免费从NIST获取它来进行研究。
版权信息如下,来自 Reuters Corpus page :
路透社语料库中的故事受Reuters Ltd和/或Thomson Reuters的版权保护,并受以下协议的约束:
此协议必须由贵机构的数据负责人签署,并发送给NIST。
所有在贵机构使用路透社语料库的研究人员都必须签署此协议,并存档于贵机构。
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }