模型:

KB/bert-base-swedish-cased

英文

瑞典BERT模型

瑞典国家图书馆/KBLab发布了基于BERT和ALBERT的三个预训练语言模型。这些模型训练于大约15-20GB的文本(200M个句子,3000M个令牌),来自各种来源(图书、新闻、政府出版物、瑞典维基百科和互联网论坛),旨在为瑞典文本提供一个代表性的BERT模型。稍后将发布更详细的说明。

当前可用的三个模型如下:

  • bert-base-swedish-cased (v1)-使用与Google首次发布的BERT相同的超参数训练的BERT模型。
  • bert-base-swedish-cased-ner(实验性)-使用SUC 3.0进行NER微调的BERT模型。
  • albert-base-swedish-cased-alpha(alpha)-用于瑞典语的初始ALBERT模型。

所有模型都会对大小写进行区分,并采用整词掩码训练。

文件

name files
bert-base-swedish-cased 1237321 , 1238321 , 1239321
bert-base-swedish-cased-ner 12310321 , 12311321 12312321
albert-base-swedish-cased-alpha 12313321 , 12314321 , 12315321

TensorFlow模型权重将很快发布。

使用要求/安装说明

以下示例需要Huggingface Transformers 2.4.1和PyTorch 1.3.1或更高版本。对于Transformers<2.4.0,必须手动实例化分词器,并将do_lower_case标志参数设置为False,keep_accents设置为True(用于ALBERT)。

为了创建一个可以运行示例的环境,请在所选操作系统的终端上执行以下操作。

# git clone https://github.com/Kungbib/swedish-bert-models
# cd swedish-bert-models
# python3 -m venv venv
# source venv/bin/activate
# pip install --upgrade pip
# pip install -r requirements.txt

瑞典BERT基础模型

这是一个在各种来源上训练的瑞典语标准BERT基础模型。词汇表大小约为50k。使用Huggingface Transformers,在Python中可以如下加载该模型:

from transformers import AutoModel,AutoTokenizer

tok = AutoTokenizer.from_pretrained('KB/bert-base-swedish-cased')
model = AutoModel.from_pretrained('KB/bert-base-swedish-cased')

细调用于瑞典NER的BERT基础模型

该模型在SUC 3.0数据集上进行了微调。使用Huggingface pipeline,可以轻松实例化该模型。对于Transformer<2.4.1,似乎需要单独加载分词器以禁用输入字符串的小写:

from transformers import pipeline

nlp = pipeline('ner', model='KB/bert-base-swedish-cased-ner', tokenizer='KB/bert-base-swedish-cased-ner')

nlp('Idag släpper KB tre språkmodeller.')

运行上述Python代码应该会产生类似下面的结果。使用的实体类型为 TME (时间)、 PRS (个人名称)、 LOC (位置)、 EVN (事件)和 ORG (组织)。这些标签可能会有所变化。

[ { 'word': 'Idag', 'score': 0.9998126029968262, 'entity': 'TME' },
  { 'word': 'KB',   'score': 0.9814832210540771, 'entity': 'ORG' } ]

BERT分词器经常将单词拆分为多个标记,子部分以 ## 开头,例如字符串“Engelbert kör Volvo till Herrängens fotbollsklubb”会被分词为“Engel ##bert kör Volvo till Herr ##ängens fotbolls ##klubb”。要将部分拼接回来,可以使用以下代码:

text = 'Engelbert tar Volvon till Tele2 Arena för att titta på Djurgården IF ' +\
       'som spelar fotboll i VM klockan två på kvällen.'

l = []
for token in nlp(text):
    if token['word'].startswith('##'):
        l[-1]['word'] += token['word'][2:]
    else:
        l += [ token ]

print(l)

这应该得到以下结果(虽然格式不太干净):

[ { 'word': 'Engelbert',     'score': 0.99..., 'entity': 'PRS'},
  { 'word': 'Volvon',        'score': 0.99..., 'entity': 'OBJ'},
  { 'word': 'Tele2',         'score': 0.99..., 'entity': 'LOC'},
  { 'word': 'Arena',         'score': 0.99..., 'entity': 'LOC'},
  { 'word': 'Djurgården',    'score': 0.99..., 'entity': 'ORG'},
  { 'word': 'IF',            'score': 0.99..., 'entity': 'ORG'},
  { 'word': 'VM',            'score': 0.99..., 'entity': 'EVN'},
  { 'word': 'klockan',       'score': 0.99..., 'entity': 'TME'},
  { 'word': 'två',           'score': 0.99..., 'entity': 'TME'},
  { 'word': 'på',            'score': 0.99..., 'entity': 'TME'},
  { 'word': 'kvällen',       'score': 0.54..., 'entity': 'TME'} ]

瑞典ALBERT基础模型

最简单的方法是再次使用Huggingface Transformers:

from transformers import AutoModel,AutoTokenizer

tok = AutoTokenizer.from_pretrained('KB/albert-base-swedish-cased-alpha'),
model = AutoModel.from_pretrained('KB/albert-base-swedish-cased-alpha')

致谢 ❤️

  • 在为NER微调BERT时使用了斯德哥尔摩大学、乌默奥大学和哥德堡大学瑞典语言库的资源。
  • 模型的预训练部分由KBLab内部和(对于无版权的材料)来自Google的TensorFlow研究云(TFRC)的Cloud TPU的支持进行。
  • 模型由Huggingface ? 托管在S3上。