模型:
gerulata/slovakbert
SlovakBERT是一个在斯洛伐克语上使用遮蔽语言建模(MLM)目标进行预训练的模型。此模型对大小写敏感:它区分slovensko和Slovensko。
您可以使用原始模型进行遮蔽语言建模,但它主要用于在下游任务上进行微调。重要提示:该模型未训练“和”(直引号)字符,因此在进行标记化之前,建议将所有“和”(直引号标记)替换为单个“(双引号标记)。
您可以通过遮蔽语言建模的管道直接使用此模型:
from transformers import pipeline unmasker = pipeline('fill-mask', model='gerulata/slovakbert') unmasker("Deti sa <mask> na ihrisku.") [{'sequence': 'Deti sa hrali na ihrisku.', 'score': 0.6355380415916443, 'token': 5949, 'token_str': ' hrali'}, {'sequence': 'Deti sa hrajú na ihrisku.', 'score': 0.14731724560260773, 'token': 9081, 'token_str': ' hrajú'}, {'sequence': 'Deti sa zahrali na ihrisku.', 'score': 0.05016357824206352, 'token': 32553, 'token_str': ' zahrali'}, {'sequence': 'Deti sa stretli na ihrisku.', 'score': 0.041727423667907715, 'token': 5964, 'token_str': ' stretli'}, {'sequence': 'Deti sa učia na ihrisku.', 'score': 0.01886524073779583, 'token': 18099, 'token_str': ' učia'}]
以下是如何使用此模型从给定文本中获取特征的PyTorch示例:
from transformers import RobertaTokenizer, RobertaModel tokenizer = RobertaTokenizer.from_pretrained('gerulata/slovakbert') model = RobertaModel.from_pretrained('gerulata/slovakbert') text = "Text ktorý sa má embedovať." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input)
以下是如何使用TensorFlow提取模型中的信息:
from transformers import RobertaTokenizer, TFRobertaModel tokenizer = RobertaTokenizer.from_pretrained('gerulata/slovakbert') model = TFRobertaModel.from_pretrained('gerulata/slovakbert') text = "Text ktorý sa má embedovať." encoded_input = tokenizer(text, return_tensors='tf') output = model(encoded_input)
或者可以这样提取模型中的信息:
from transformers import pipeline unmasker = pipeline('fill-mask', model='gerulata/slovakbert') unmasker("Slovenské národne povstanie sa uskutočnilo v roku <mask>.") [{'sequence': 'Slovenske narodne povstanie sa uskutočnilo v roku 1944.', 'score': 0.7383289933204651, 'token': 16621, 'token_str': ' 1944'},...]
SlovakBERT模型是在以下数据集上进行预训练的:
然后,对文本进行了以下处理步骤:
我们将结果语料库分割成句子,并删除了重复项,得到了1.816亿个唯一句子。总体上,最终语料库包含了19.35GB的文本。
该模型在fairseq上使用4个Nvidia A100 GPU进行了300K步的训练,批大小为512,序列长度为512。使用的优化器是Adam,学习率为5e-4, β1 = 0.9,β2 = 0.98,ϵ = 1e-6,权重衰减为0.01,丢失率为0.1,在进行10k步的学习率预热后,学习率进行线性衰减。我们使用了16位浮点精度。
Gerulata Technologies是一家致力于提供打击虚假信息和敌对宣传的工具的科技公司。
在Gerulata,我们专注于提供最先进的人工智能工具,赋予人类分析师权力,让他们能够做出明智的决策。
我们的工具可以监控和分析在线活动,检测和追踪虚假信息和敌对宣传活动。借助我们的产品,我们的客户能够更好地识别和应对实时的威胁。
如果您认为我们的资源或论文有用,请考虑在您的论文中包含以下引用。
@misc{pikuliak2021slovakbert, title={SlovakBERT: Slovak Masked Language Model}, author={Matúš Pikuliak and Štefan Grivalský and Martin Konôpka and Miroslav Blšták and Martin Tamajka and Viktor Bachratý and Marián Šimko and Pavol Balážik and Michal Trnka and Filip Uhlárik}, year={2021}, eprint={2109.15254}, archivePrefix={arXiv}, primaryClass={cs.CL} }