模型:

Davlan/distilbert-base-multilingual-cased-ner-hrl

英文

Hugging Face的徽标

语言:

  • ar
  • de
  • en
  • es
  • fr
  • it
  • lv
  • nl
  • pt
  • zh
  • multilingual

distilbert-base-multilingual-cased-ner-hrl

模型描述

distilbert-base-multilingual-cased-ner-hrl 是一个用于10种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型,基于经过微调的Distiled BERT base模型。它已经训练出可以识别三种实体类型:位置(LOC)、组织机构(ORG)和人名(PER)。具体而言,该模型是一个distilbert-base-multilingual-cased模型,其经过微调,使用了10种高资源语言的综合数据集

预期用途和限制

如何使用

您可以使用这个模型与Transformers管道进行命名实体识别。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
限制和偏差

该模型受到其训练数据集的限制,该数据集由特定时间范围内的实体注释新闻文章组成。这可能对不同领域的所有用例都不适用。

训练数据

这10种语言的训练数据来自:

Language Dataset
Arabic 1231321
German 1232321
English 1232321
Spanish 1234321
French 1235321
Italian 1236321
Latvian 1237321
Dutch 1234321
Portuguese 1239321
Chinese 12310321

训练数据集区分实体开始和实体连续的部分,这样如果有相同类型的连续实体,模型可以输出第二个实体开始的位置。与数据集一样,每个标记将被归类为以下类别之一:

Abbreviation Description
O Outside of a named entity
B-PER Beginning of a person’s name right after another person’s name
I-PER Person’s name
B-ORG Beginning of an organisation right after another organisation
I-ORG Organisation
B-LOC Beginning of a location right after another location
I-LOC Location

训练过程

该模型是在NVIDIA V100 GPU上使用HuggingFace代码推荐的超参数进行训练的。