模型:
SZTAKI-HLT/hubert-base-cc
这是匈牙利语大小写敏感的BERT模型,使用Common Crawl中的(经过过滤和去重的)匈牙利语子集和匈牙利语维基百科的快照进行训练。
该模型可以像其他(大小写敏感的)BERT模型一样使用。它已经在分块和命名实体识别任务上经过测试,并在前者中达到了最新水平。
可在下方链接的博士论文中找到训练数据和训练过程的详细信息。(请注意,该论文仅包含基于维基百科子语料库的初步结果。对完整模型的评估将在未来的论文中呈现。)
在分块和命名实体识别任务上,经过微调(通过BertForTokenClassification),该模型的性能优于多语言BERT,并取得了最新水平的结果。具体得分为
| NER | Minimal NP | Maximal NP |
|---|---|---|
| 97.62% | 97.14% | 96.97% |
如果您使用了该模型,请引用以下论文:
Bibtex:
@PhDThesis{ Nemeskey:2020,
author = {Nemeskey, Dávid Márk},
title = {Natural Language Processing Methods for Language Modeling},
year = {2020},
school = {E\"otv\"os Lor\'and University}
}
Bibtex:
@InProceedings{ Nemeskey:2021a,
author = {Nemeskey, Dávid Márk},
title = {Introducing \texttt{huBERT}},
booktitle = {{XVII}.\ Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia ({MSZNY}2021)},
year = 2021,
pages = {TBA},
address = {Szeged},
}