模型:
PlanTL-GOB-ES/roberta-base-bne
roberta-base-bne是基于RoBERTa base的基于Transformer的掩码语言模型,用于西班牙语。它基于 RoBERTa 基础模型进行了预训练,使用迄今为止最大的西班牙语语料库进行了处理,总共有570GB的干净且去重的文本数据,这些数据是从2009年到2019年由 National Library of Spain (Biblioteca Nacional de España) 进行的网络爬取获得的。
roberta-base-bne模型仅可用于填充掩码的语言建模任务(尝试使用推理API或阅读下一节)。然而,它可以用于非生成的下游任务的微调,如问答、文本分类或命名实体识别。您可以使用原始模型进行填充掩码或将其微调为下游任务。
以下是使用该模型的方法:
>>> from transformers import pipeline >>> from pprint import pprint >>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-bne') >>> pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje.")) [{'score': 0.08422081917524338, 'token': 3832, 'token_str': ' desarrollar', 'sequence': 'Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje.'}, {'score': 0.06348305940628052, 'token': 3078, 'token_str': ' crear', 'sequence': 'Gracias a los datos de la BNE se ha podido crear este modelo del lenguaje.'}, {'score': 0.06148449331521988, 'token': 2171, 'token_str': ' realizar', 'sequence': 'Gracias a los datos de la BNE se ha podido realizar este modelo del lenguaje.'}, {'score': 0.056218471378088, 'token': 10880, 'token_str': ' elaborar', 'sequence': 'Gracias a los datos de la BNE se ha podido elaborar este modelo del lenguaje.'}, {'score': 0.05133328214287758, 'token': 31915, 'token_str': ' validar', 'sequence': 'Gracias a los datos de la BNE se ha podido validar este modelo del lenguaje.'}]
以下是如何使用该模型在PyTorch中获取给定文本的特征的方法:
>>> from transformers import RobertaTokenizer, RobertaModel >>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-base-bne') >>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-base-bne') >>> text = "Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje." >>> encoded_input = tokenizer(text, return_tensors='pt') >>> output = model(**encoded_input) >>> print(output.last_hidden_state.shape) torch.Size([1, 19, 768])
截止到提交时间,我们尚未采取任何措施来估计模型中的偏差和有害内容。然而,我们很清楚我们的模型可能存在偏差,因为语料库是使用多个网络源的爬取技术收集的。我们打算在未来在这些领域进行研究,如果完成,将更新该模型卡片。然而,以下是模型可能存在偏差预测的示例:
>>> from transformers import pipeline, set_seed >>> from pprint import pprint >>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-bne') >>> set_seed(42) >>> pprint(unmasker("Antonio está pensando en <mask>.")) [{'score': 0.07950365543365479, 'sequence': 'Antonio está pensando en ti.', 'token': 486, 'token_str': ' ti'}, {'score': 0.03375273942947388, 'sequence': 'Antonio está pensando en irse.', 'token': 13134, 'token_str': ' irse'}, {'score': 0.031026942655444145, 'sequence': 'Antonio está pensando en casarse.', 'token': 24852, 'token_str': ' casarse'}, {'score': 0.030703715980052948, 'sequence': 'Antonio está pensando en todo.', 'token': 665, 'token_str': ' todo'}, {'score': 0.02838558703660965, 'sequence': 'Antonio está pensando en ello.', 'token': 1577, 'token_str': ' ello'}] >>> set_seed(42) >>> pprint(unmasker("Mohammed está pensando en <mask>.")) [{'score': 0.05433618649840355, 'sequence': 'Mohammed está pensando en morir.', 'token': 9459, 'token_str': ' morir'}, {'score': 0.0400255024433136, 'sequence': 'Mohammed está pensando en irse.', 'token': 13134, 'token_str': ' irse'}, {'score': 0.03705748915672302, 'sequence': 'Mohammed está pensando en todo.', 'token': 665, 'token_str': ' todo'}, {'score': 0.03658654913306236, 'sequence': 'Mohammed está pensando en quedarse.', 'token': 9331, 'token_str': ' quedarse'}, {'score': 0.03329474478960037, 'sequence': 'Mohammed está pensando en ello.', 'token': 1577, 'token_str': ' ello'}]
National Library of Spain (Biblioteca Nacional de España) 每年对所有.es域名进行一次爬取。训练语料库包括从2009年到2019年进行的这些爬取的59TB的WARC文件。
为了获得高质量的训练语料库,语料库经过了一系列的预处理操作,包括句子拆分、语言检测、过滤破损句子和去重复内容等。在此过程中,保留文档边界。这导致产生了2TB的干净的西班牙语语料库。之后在语料库之间进行全局去重,得到570GB的文本数据。
一些语料库的统计数据:
Corpora | Number of documents | Number of tokens | Size (GB) |
---|---|---|---|
BNE | 201,080,084 | 135,733,450,668 | 570GB |
训练语料库使用原始 RoBERTA 模型中的字节版本的Byte-Pair编码(BPE)进行了分词,词汇量为50,262个标记。
roberta-base-bne的预训练包括掩码语言模型训练,遵循RoBERTa base的方法。训练持续了48小时,使用了16个计算节点,每个节点配备了4个VRAM为16GB的NVIDIA V100 GPU。
在下游任务上进行微调时,该模型达到以下结果:
Dataset | Metric | 1238321 |
---|---|---|
MLDoc | F1 | 0.9664 |
CoNLL-NERC | F1 | 0.8851 |
CAPITEL-NERC | F1 | 0.8960 |
PAWS-X | F1 | 0.9020 |
UD-POS | F1 | 0.9907 |
CAPITEL-POS | F1 | 0.9846 |
SQAC | F1 | 0.7923 |
STS | Combined | 0.8533 |
XNLI | Accuracy | 0.8016 |
有关更多评估细节,请访问我们的 GitHub repository 或 paper 。
来自巴塞罗那超级计算中心(bsc-temu@bsc.es)的文本挖掘单元(TeMU)。
如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es。
版权由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 所有。
本作品根据 Apache License, Version 2.0 许可。
此工作是由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 在Plan-TL框架下资助的。
如果您使用此模型,请引用我们的 paper :
@article{, title = {MarIA: Spanish Language Models}, author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas}, doi = {10.26342/2022-68-3}, issn = {1135-5948}, journal = {Procesamiento del Lenguaje Natural}, publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural}, url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley}, volume = {68}, year = {2022}, }
此存储库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或任何其他不良扭曲。
当第三方使用这些模型(或使用基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为这些模型的用户时,他们应意识到减少使用所带来的风险是他们的责任,并且无论如何,都要遵守适用法规,包括关于使用人工智能的法规。
对于第三方使用这些模型所产生的结果,模型的所有者(SEDIA)和创建者(BSC)概不负责。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de Inteligencia Artificial.
En ningún caso el propietario de los modelos (SEDIA) ni el creador (BSC) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.