模型:
Davlan/bert-base-multilingual-cased-ner-hrl
语言:
bert-base-multilingual-cased-ner-hrl 是一个适用于10种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型,基于经过微调的mBERT基础模型。它已经训练用于识别三种类型的实体:位置(LOC)、组织(ORG)和人物(PER)。具体而言,该模型是基于bert-base-multilingual-cased模型,经过微调,在10种高资源语言的汇总数据上进行训练
您可以使用Transformers流水线进行NER的模型。
from transformers import AutoTokenizer, AutoModelForTokenClassification from transformers import pipeline tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl") model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl") nlp = pipeline("ner", model=model, tokenizer=tokenizer) example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute." ner_results = nlp(example) print(ner_results)限制和偏见
该模型受到其训练数据集的限制,训练数据集是特定时间段的实体注释新闻文章。这可能对不同领域的所有用例都不具有良好的泛化性。
这10种语言的训练数据来自于:
Language | Dataset |
---|---|
Arabic | 1231321 |
German | 1232321 |
English | 1232321 |
Spanish | 1234321 |
French | 1235321 |
Italian | 1236321 |
Latvian | 1237321 |
Dutch | 1234321 |
Portuguese | 1239321 |
Chinese | 12310321 |
训练数据集区分实体的开始和延续,因此如果相同类型的实体连续出现,模型可以输出第二个实体的起始位置。就像在数据集中一样,每个标记将被分类为以下类别之一:
Abbreviation | Description |
---|---|
O | Outside of a named entity |
B-PER | Beginning of a person’s name right after another person’s name |
I-PER | Person’s name |
B-ORG | Beginning of an organisation right after another organisation |
I-ORG | Organisation |
B-LOC | Beginning of a location right after another location |
I-LOC | Location |
该模型在NVIDIA V100 GPU上使用HuggingFace代码的推荐超参数进行训练。