huBERT基础模型（大小写敏感）

模型描述

这是匈牙利语大小写敏感的BERT模型，使用Common Crawl中的（经过过滤和去重的）匈牙利语子集和匈牙利语维基百科的快照进行训练。

预期用途和限制

该模型可以像其他（大小写敏感的）BERT模型一样使用。它已经在分块和命名实体识别任务上经过测试，并在前者中达到了最新水平。

训练

可在下方链接的博士论文中找到训练数据和训练过程的详细信息。（请注意，该论文仅包含基于维基百科子语料库的初步结果。对完整模型的评估将在未来的论文中呈现。）

评估结果

在分块和命名实体识别任务上，经过微调（通过BertForTokenClassification），该模型的性能优于多语言BERT，并取得了最新水平的结果。具体得分为

NER	Minimal NP	Maximal NP
97.62%	97.14%	96.97%

BibTeX条目和引用信息

如果您使用了该模型，请引用以下论文：

Nemeskey, Dávid Márk (2020). "Natural Language Processing Methods for Language Modeling." PhD Thesis. Eötvös Loránd University.

Bibtex:

@PhDThesis{ Nemeskey:2020,
  author = {Nemeskey, Dávid Márk},
  title  = {Natural Language Processing Methods for Language Modeling},
  year   = {2020},
  school = {E\"otv\"os Lor\'and University}
}

Nemeskey, Dávid Márk (2021). "Introducing huBERT." In: XVII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2021). Szeged, pp. 3-14

Bibtex:

@InProceedings{ Nemeskey:2021a,
  author = {Nemeskey, Dávid Márk},
  title = {Introducing \texttt{huBERT}},
  booktitle = {{XVII}.\ Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia ({MSZNY}2021)},
  year = 2021,
  pages = {TBA},
  address = {Szeged},
}

作者:

Human Language Technology Group at SZTAKI

数据集大小:

1.33 GB