模型:
klue/bert-base
模型描述:KLUE BERT base 是在韩语上预训练的BERT模型。KLUE BERT base的开发者在开发过程中参考了 Korean Language Understanding Evaluation (KLUE) Benchmark 的内容。
from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained("klue/bert-base") tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
该模型可以用于主题分类、语义文本相似性、自然语言推理、命名实体识别以及其他在 KLUE Benchmark 中定义的任务。
不良使用和超出范围的使用
不应该使用该模型有意创建对人们具有敌意或疏远感的环境。另外,该模型并非根据事实或事件进行训练,因此不应该使用该模型生成此类内容,这超出了该模型的能力范围。
许多研究已经探讨了语言模型的偏见和公平性问题(请参阅 Sheng et al. (2021) 和 Bender et al. (2021) )。该模型的开发者在 paper 中讨论了与该模型相关的几个伦理考虑,包括:
有关与KLUE Benchmark相关的伦理考虑,请参阅 paper 。
训练数据:开发者在模型中使用了以下预训练语料库,详细描述在 associated paper 中:
我们从不同来源收集了以下五个公开可用的韩文语料库,以涵盖广泛的主题和多种不同风格。我们将这些语料库组合在一起,构建了最终的预训练语料库,大小约为62GB。
作者还在 associated paper 中描述了与预训练语料库相关的伦理考虑。
训练过程预处理:作者在 associated paper 中描述了预处理过程:
我们使用与第2.3节中相同的方法过滤嘈杂文本和非韩文文本。使用基于规则的文本分句工具( Korean Sentence Splitter (KSS) 的C++实现v1.3.1),将语料库中的每个文档分成句子。对于CC-100-Kor和NEWSCRAWL,我们保留长度大于等于200个字符的句子,作为保持形式良好的句子的启发式方法。然后,我们使用BM25作为句子相似度度量,删除包含在我们的基准任务数据集中的句子( reference )。
分词:作者在 associated paper 中描述了分词过程:
我们设计并使用了一种新的分词方法,基于形态素的子词分词。在构建词汇表时,我们使用形态学分析器对原始文本进行预分词,然后使用字节对编码(BPE)得到最终的词汇表。对于形态素分割,我们使用 Mecab-ko 、适用于韩语的MeCab( Kudo, 2006 ),对于BPE分割,我们使用 Huggingface Tokenizers library 的字片段分词器。我们将词汇表大小设置为32k。构建词汇表之后,在推理过程中,我们仅使用BPE模型,这使得我们可以根据形态素对单词序列进行分词,而无需使用形态学分析器。这样可以提高可用性和速度。
培训配置进一步在 paper 中描述。
测试数据、因素和指标:该模型在 KLUE Benchmark 上进行了评估。从KLUE Benchmark中选择的任务和指标如下所述。有关KLUE Benchmark的更多信息,请参阅 data card 、 Github Repository 和 associated paper 。
结果
Task | TC | STS | NLI | NER | RE | DP | MRC | DST | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Metric | F1 | Pearsons' r | F1 | ACC | Entity F1 | Char F1 | F1 | AUPRC | UAS | LAS | EM | ROUGE | JGA | Slot F1 |
85.73 | 90.85 | 82.84 | 81.63 | 83.97 | 91.39 | 66.44 | 66.17 | 89.96 | 88.05 | 62.32 | 68.51 | 46.64 | 91.61 |
可以使用 Machine Learning Impact calculator 中提供的方法估计碳排放量。根据 associated paper ,我们提供基于硬件类型的信息。
有关模型架构(BERT)、目标、计算基础设施和训练详细信息,请参阅 associated paper 。
@misc{park2021klue, title={KLUE: Korean Language Understanding Evaluation}, author={Sungjoon Park and Jihyung Moon and Sungdong Kim and Won Ik Cho and Jiyoon Han and Jangwon Park and Chisung Song and Junseong Kim and Yongsook Song and Taehwan Oh and Joohong Lee and Juhyun Oh and Sungwon Lyu and Younghoon Jeong and Inkwon Lee and Sangwoo Seo and Dongjun Lee and Hyunwoo Kim and Myeonghwa Lee and Seongbo Jang and Seungwon Do and Sunkyoung Kim and Kyungtae Lim and Jongwon Lee and Kyumin Park and Jamin Shin and Seonghyun Kim and Lucy Park and Alice Oh and Jungwoo Ha and Kyunghyun Cho}, year={2021}, eprint={2105.09680}, archivePrefix={arXiv}, primaryClass={cs.CL} }