英文

KLUE BERT base

目录

  • 模型详情
  • 如何开始使用该模型
  • 用途
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • Citation信息
  • 模型卡作者

模型详情

模型描述:KLUE BERT base 是在韩语上预训练的BERT模型。KLUE BERT base的开发者在开发过程中参考了 Korean Language Understanding Evaluation (KLUE) Benchmark 的内容。

如何开始使用该模型

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

用途

该模型可以用于主题分类、语义文本相似性、自然语言推理、命名实体识别以及其他在 KLUE Benchmark 中定义的任务。

不良使用和超出范围的使用

不应该使用该模型有意创建对人们具有敌意或疏远感的环境。另外,该模型并非根据事实或事件进行训练,因此不应该使用该模型生成此类内容,这超出了该模型的能力范围。

风险、限制和偏见

许多研究已经探讨了语言模型的偏见和公平性问题(请参阅 Sheng et al. (2021) Bender et al. (2021) )。该模型的开发者在 paper 中讨论了与该模型相关的几个伦理考虑,包括:

  • 预训练语料库中公开可用数据的偏见问题(以及与过滤相关的考虑)
  • 预训练语料库中的个人身份信息(PII)问题(以及用于伪姓名的努力)

有关与KLUE Benchmark相关的伦理考虑,请参阅 paper

训练

训练数据:开发者在模型中使用了以下预训练语料库,详细描述在 associated paper 中:

我们从不同来源收集了以下五个公开可用的韩文语料库,以涵盖广泛的主题和多种不同风格。我们将这些语料库组合在一起,构建了最终的预训练语料库,大小约为62GB。

  • MODU:MODU是由 National Institute of Korean Languages 分发的韩文语料库集合。它包括正式文章(新闻和书籍)和口语文本(对话)。
  • CC-100-Kor:CC-100-Kor是使用CC-Net( Wenzek et al., 2020 )进行大规模多语言网页爬取的语料库。我们使用其中的韩文部分用于XLM-R的训练( Conneau et al., 2020 )。
  • NAMUWIKI:NAMUWIKI是韩文基于网络的百科全书,类似于维基百科,但知名度较低。具体而言,我们下载了 the dump 于2020年3月2日创建的版本。
  • NEWSCRAWL:NEWSCRAWL由某新闻聚合平台收集的1200万条新闻文章组成,发布时间从2011年到2020年。
  • PETITION:PETITION是一组针对社会问题向青瓦台(韩国总统办公机构)发布的公开请愿书。我们使用了 Blue House National Petition 中发布的文章。

作者还在 associated paper 中描述了与预训练语料库相关的伦理考虑。

训练过程预处理:作者在 associated paper 中描述了预处理过程:

我们使用与第2.3节中相同的方法过滤嘈杂文本和非韩文文本。使用基于规则的文本分句工具( Korean Sentence Splitter (KSS) 的C++实现v1.3.1),将语料库中的每个文档分成句子。对于CC-100-Kor和NEWSCRAWL,我们保留长度大于等于200个字符的句子,作为保持形式良好的句子的启发式方法。然后,我们使用BM25作为句子相似度度量,删除包含在我们的基准任务数据集中的句子( reference )。

分词:作者在 associated paper 中描述了分词过程:

我们设计并使用了一种新的分词方法,基于形态素的子词分词。在构建词汇表时,我们使用形态学分析器对原始文本进行预分词,然后使用字节对编码(BPE)得到最终的词汇表。对于形态素分割,我们使用 Mecab-ko 、适用于韩语的MeCab( Kudo, 2006 ),对于BPE分割,我们使用 Huggingface Tokenizers library 的字片段分词器。我们将词汇表大小设置为32k。构建词汇表之后,在推理过程中,我们仅使用BPE模型,这使得我们可以根据形态素对单词序列进行分词,而无需使用形态学分析器。这样可以提高可用性和速度。

培训配置进一步在 paper 中描述。

评估

测试数据、因素和指标:该模型在 KLUE Benchmark 上进行了评估。从KLUE Benchmark中选择的任务和指标如下所述。有关KLUE Benchmark的更多信息,请参阅 data card Github Repository associated paper

  • 任务:主题分类(TC)- 韩联社主题分类(YNAT),指标:宏观F1分数,定义为各主题F1分数的均值,对每个主题给予相同的重要性。
  • 任务:语义文本相似性(STS),指标:皮尔逊相关系数(Pearson's r)和F1分数
  • 任务:自然语言推理(NLI),指标:准确率
  • 任务:命名实体识别(NER),指标:实体级宏观F1(实体F1)和字符级宏观F1(字符F1)分数
  • 任务:关系抽取(RE),指标:关系存在案例的微观F1分数和所有类别的精确率-召回曲线下面积(AUPRC)
  • 任务:依存句法分析(DP),指标:未标记附着得分(UAS)和标记附着得分(LAS)
  • 任务:机器阅读理解(MRC),指标:精确匹配(EM)和字符级ROUGE-W(ROUGE),可以视为基于最长公共连续子序列(LCCS)的F1分数
  • 任务:对话状态跟踪(DST),指标:联合目标准确率(JGA)和槽位微观F1分数(槽位F1)

结果

Task TC STS NLI NER RE DP MRC DST
Metric F1 Pearsons' r F1 ACC Entity F1 Char F1 F1 AUPRC UAS LAS EM ROUGE JGA Slot F1
85.73 90.85 82.84 81.63 83.97 91.39 66.44 66.17 89.96 88.05 62.32 68.51 46.64 91.61

环境影响

可以使用 Machine Learning Impact calculator 中提供的方法估计碳排放量。根据 associated paper ,我们提供基于硬件类型的信息。

  • 硬件类型:TPU v3-8
  • 使用时间:未知
  • 云平台供应商:未知
  • 计算区域:未知
  • 碳排放量:未知

技术规格

有关模型架构(BERT)、目标、计算基础设施和训练详细信息,请参阅 associated paper

Citation信息

@misc{park2021klue,
      title={KLUE: Korean Language Understanding Evaluation},
      author={Sungjoon Park and Jihyung Moon and Sungdong Kim and Won Ik Cho and Jiyoon Han and Jangwon Park and Chisung Song and Junseong Kim and Yongsook Song and Taehwan Oh and Joohong Lee and Juhyun Oh and Sungwon Lyu and Younghoon Jeong and Inkwon Lee and Sangwoo Seo and Dongjun Lee and Hyunwoo Kim and Myeonghwa Lee and Seongbo Jang and Seungwon Do and Sunkyoung Kim and Kyungtae Lim and Jongwon Lee and Kyumin Park and Jamin Shin and Seonghyun Kim and Lucy Park and Alice Oh and Jungwoo Ha and Kyunghyun Cho},
      year={2021},
      eprint={2105.09680},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}