kobart-base-v2(双向自回归变换器)是一个自动编码器模型,通过在输入文本中添加噪音并将其还原为原始文本。韩文BART(以下简称KoBART)使用论文中的文本填充噪音函数,并对40GB以上的韩文文本进行训练,是一种编码器-解码器语言模型。我们提供了基于KoBART-base训练的模型。
该模型可用于特征提取任务。
需要更多信息。
该模型不应用于故意创建对人们具有敌意或疏离环境的情况。
已经进行了许多研究,探讨了语言模型的偏差和公平性问题(例如, Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含针对受保护群体、身份特征和敏感的社会和职业群体的令人不安和有害的刻板印象。
用户(包括直接和下游用户)应意识到模型的风险、偏见和限制。需要更多信息以获取进一步的建议。
Data | # of Sentences |
---|---|
Korean Wiki | 5M |
Other corpus | 0.27B |
除了韩文维基百科,还使用了新闻、书籍、 모두의 말뭉치 v1.0(대화, 뉴스, ...) 和 청와대 국민청원 等多种数据进行模型训练。
词汇表大小为30,000,还添加了以下常用表情符号和表情符号等,以提高对该标记的识别能力。
?, ?, ?, ?, ?, .. , :-) , :) , -) , (-: ...
使用 tokenizers 包中的字符BPE分词器进行训练。
Model | # of params | Type | # of layers | # of heads | ffn_dim | hidden_dims |
---|---|---|---|---|---|---|
KoBART-base | 124M | Encoder | 6 | 16 | 3072 | 768 |
Decoder | 6 | 16 | 3072 | 768 |
需要更多信息
需要更多信息
需要更多信息
NSMC
模型作者还在 GitHub Repo 中指出:
12310321 (acc) | 12311321 (spearman) | 12312321 (acc) | |
---|---|---|---|
KoBART-base | 90.24 | 81.66 | 94.34 |
需要更多信息
可以使用 Machine Learning Impact calculator 中介绍的方法 Lacoste et al. (2019) 来估算碳排放量。
需要更多信息
需要更多信息
需要更多信息
需要更多信息
BibTeX:
需要更多信息
需要更多信息
需要更多信息
与 Ezi Ozoani 和 Hugging Face 团队合作的 Heewon(Haven) Jeon
模型作者在 GitHub Repo 中提到:请将与KoBART相关的问题发布在 이곳 上。
使用下面的代码来开始使用该模型。
Click to expandfrom transformers import PreTrainedTokenizerFast, BartModel tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2') model = BartModel.from_pretrained('gogamza/kobart-base-v2')