英文

SlovakBERT(基础型模型)

SlovakBERT是一个在斯洛伐克语上使用遮蔽语言建模(MLM)目标进行预训练的模型。此模型对大小写敏感:它区分slovensko和Slovensko。

使用目的和限制

您可以使用原始模型进行遮蔽语言建模,但它主要用于在下游任务上进行微调。重要提示:该模型未训练“和”(直引号)字符,因此在进行标记化之前,建议将所有“和”(直引号标记)替换为单个“(双引号标记)。

使用方法

您可以通过遮蔽语言建模的管道直接使用此模型:

from transformers import pipeline
unmasker = pipeline('fill-mask', model='gerulata/slovakbert')
unmasker("Deti sa <mask> na ihrisku.")

[{'sequence': 'Deti sa hrali na ihrisku.',
  'score': 0.6355380415916443,
  'token': 5949,
  'token_str': ' hrali'},
 {'sequence': 'Deti sa hrajú na ihrisku.',
  'score': 0.14731724560260773,
  'token': 9081,
  'token_str': ' hrajú'},
 {'sequence': 'Deti sa zahrali na ihrisku.',
  'score': 0.05016357824206352,
  'token': 32553,
  'token_str': ' zahrali'},
 {'sequence': 'Deti sa stretli na ihrisku.',
  'score': 0.041727423667907715,
  'token': 5964,
  'token_str': ' stretli'},
 {'sequence': 'Deti sa učia na ihrisku.',
  'score': 0.01886524073779583,
  'token': 18099,
  'token_str': ' učia'}]

以下是如何使用此模型从给定文本中获取特征的PyTorch示例:

from transformers import RobertaTokenizer, RobertaModel
tokenizer = RobertaTokenizer.from_pretrained('gerulata/slovakbert')
model = RobertaModel.from_pretrained('gerulata/slovakbert')
text = "Text ktorý sa má embedovať."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

以下是如何使用TensorFlow提取模型中的信息:

from transformers import RobertaTokenizer, TFRobertaModel
tokenizer = RobertaTokenizer.from_pretrained('gerulata/slovakbert')
model = TFRobertaModel.from_pretrained('gerulata/slovakbert')
text = "Text ktorý sa má embedovať."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

或者可以这样提取模型中的信息:

from transformers import pipeline
unmasker = pipeline('fill-mask', model='gerulata/slovakbert')
unmasker("Slovenské národne povstanie sa uskutočnilo v roku <mask>.")

[{'sequence': 'Slovenske narodne povstanie sa uskutočnilo v roku 1944.',
  'score': 0.7383289933204651,
  'token': 16621,
  'token_str': ' 1944'},...]

训练数据

SlovakBERT模型是在以下数据集上进行预训练的:

  • 维基百科(326MB文本),
  • OpenSubtitles(415MB文本),
  • Oscar(4.6GB文本),
  • Gerulata WebCrawl(12.7GB文本),
  • Gerulata Monitoring(214MB文本),
  • blbec.online(4.5GB文本)

然后,对文本进行了以下处理步骤:

  • URL和电子邮件地址被替换为特殊标记("url","email")。
  • 减少了连字符标点(例如--变为-)。
  • 删除了Markdown语法。
  • 删除了花括号中的所有文本内容,例如f.g,以减少标记和程序语言文本的数量。

我们将结果语料库分割成句子,并删除了重复项,得到了1.816亿个唯一句子。总体上,最终语料库包含了19.35GB的文本。

预训练

该模型在fairseq上使用4个Nvidia A100 GPU进行了300K步的训练,批大小为512,序列长度为512。使用的优化器是Adam,学习率为5e-4, β1 = 0.9,β2 = 0.98,ϵ = 1e-6,权重衰减为0.01,丢失率为0.1,在进行10k步的学习率预热后,学习率进行线性衰减。我们使用了16位浮点精度。

关于我们

Gerulata Technologies是一家致力于提供打击虚假信息和敌对宣传的工具的科技公司。

在Gerulata,我们专注于提供最先进的人工智能工具,赋予人类分析师权力,让他们能够做出明智的决策。

我们的工具可以监控和分析在线活动,检测和追踪虚假信息和敌对宣传活动。借助我们的产品,我们的客户能够更好地识别和应对实时的威胁。

BibTeX条目和引用信息

如果您认为我们的资源或论文有用,请考虑在您的论文中包含以下引用。

@misc{pikuliak2021slovakbert,
      title={SlovakBERT: Slovak Masked Language Model}, 
      author={Matúš Pikuliak and Štefan Grivalský and Martin Konôpka and Miroslav Blšták and Martin Tamajka and Viktor Bachratý and Marián Šimko and Pavol Balážik and Michal Trnka and Filip Uhlárik},
      year={2021},
      eprint={2109.15254},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}