模型:

snunlp/KR-ELECTRA-discriminator

英文

韩国专用的ELECTRA模型(KR-ELECTRA)

这是由首尔国立大学计算语言学实验室开发的具有可比或更好性能的韩国专用ELECTRA模型的发布。我们的模型在与评论文档等非正式文本相关的任务上显示出了卓越的性能,同时在其他任务上也显示出了可比的结果。

发布的模型

我们在 ELECTRA 的基础模型上预训练了我们的KR-ELECTRA模型。我们使用Google Cloud Platform上的v3-8 TPU基于Tensorflow-v1进行了模型训练。

模型详细信息

我们遵循了 ELECTRA 的基础模型的训练参数。

超参数
model # of layers embedding size hidden size # of heads
Discriminator 12 768 768 12
Generator 12 768 256 4
预训练
batch size train steps learning rates max sequence length generator size
256 700000 2e-4 128 0.33333
训练数据集

包括维基百科文档、新闻文章、法律文本、新闻评论、产品评论等共34GB的韩文文本。这些文本是平衡的,包含相同比例的书面和口语数据。

词汇表

词汇表大小为30,000,我们使用了基于 Mecab-Ko 的形态素分析器的基于形态素的单位标记。

下载链接
  • Tensorflow-v1模型( download

  • HuggingFace上的PyTorch模型

from transformers import ElectraModel, ElectraTokenizer

model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")

微调

我们使用并稍微编辑了从 KoELECTRA 获取的微调代码,并进行了调整超参数。您可以从我们的 github 中下载我们模型使用的代码和配置文件。

实验结果
NSMC (acc) Naver NER (F1) PAWS (acc) KorNLI (acc) KorSTS (spearman) Question Pair (acc) KorQuaD (Dev) (EM/F1) Korean-Hate-Speech (Dev) (F1)
KoBERT 89.59 87.92 81.25 79.62 81.59 94.85 51.75 / 79.15 66.21
XLM-Roberta-Base 89.03 86.65 82.80 80.23 78.45 93.80 64.70 / 88.94 64.06
HanBERT 90.06 87.70 82.95 80.32 82.73 94.72 78.74 / 92.02 68.32
KoELECTRA-Base 90.33 87.18 81.70 80.64 82.00 93.54 60.86 / 89.28 66.09
KoELECTRA-Base-v2 89.56 87.16 80.70 80.72 82.30 94.85 84.01 / 92.40 67.45
KoELECTRA-Base-v3 90.63 88.11 84.45 82.24 85.53 95.25 84.83 / 93.45 67.61
KR-ELECTRA (ours) 91.168 87.90 82.05 82.51 85.41 95.51 84.93 / 93.04 74.50

基准结果来自于 KoELECTRA

引用

@misc{kr-electra,
  author = {Lee, Sangah and Hyopil Shin},
  title = {KR-ELECTRA: a KoRean-based ELECTRA model},
  year = {2022},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snunlp/KR-ELECTRA}}
}