模型:

gogamza/kobart-base-v2

英文

Model Card for kobart-base-v2

Model Details

Model Description

kobart-base-v2(双向自回归变换器)是一个自动编码器模型,通过在输入文本中添加噪音并将其还原为原始文本。韩文BART(以下简称KoBART)使用论文中的文本填充噪音函数,并对40GB以上的韩文文本进行训练,是一种编码器-解码器语言模型。我们提供了基于KoBART-base训练的模型。

  • 开发者: 需要更多信息
  • 共享者[可选]: Heewon(Haven) Jeon
  • 模型类型: 特征提取
  • 语言(NLP): 韩文
  • 许可证: MIT
  • 父模型: BART
  • 获取更多信息的资源:

Uses

直接使用

该模型可用于特征提取任务。

下游使用[可选]

需要更多信息。

超出范围的使用

该模型不应用于故意创建对人们具有敌意或疏离环境的情况。

偏差、风险和限制

已经进行了许多研究,探讨了语言模型的偏差和公平性问题(例如, Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测可能包含针对受保护群体、身份特征和敏感的社会和职业群体的令人不安和有害的刻板印象。

建议

用户(包括直接和下游用户)应意识到模型的风险、偏见和限制。需要更多信息以获取进一步的建议。

Training Details

Training Data

Data # of Sentences
Korean Wiki 5M
Other corpus 0.27B

除了韩文维基百科,还使用了新闻、书籍、 모두의 말뭉치 v1.0(대화, 뉴스, ...) 청와대 국민청원 等多种数据进行模型训练。

词汇表大小为30,000,还添加了以下常用表情符号和表情符号等,以提高对该标记的识别能力。

?, ?, ?, ?, ?, .. , :-) , :) , -) , (-: ...

Training Procedure

分词器

使用 tokenizers 包中的字符BPE分词器进行训练。

速度、尺寸和时间

Model # of params Type # of layers # of heads ffn_dim hidden_dims
KoBART-base 124M Encoder 6 16 3072 768
Decoder 6 16 3072 768

Evaluation

Testing Data, Factors & Metrics

Testing Data

需要更多信息

Factors

需要更多信息

Metrics

需要更多信息

Results

NSMC

  • 准确率: 0.901

模型作者还在 GitHub Repo 中指出:

12310321 (acc) 12311321 (spearman) 12312321 (acc)
KoBART-base 90.24 81.66 94.34

Model Examination

需要更多信息

Environmental Impact

可以使用 Machine Learning Impact calculator 中介绍的方法 Lacoste et al. (2019) 来估算碳排放量。

  • 硬件类型: 需要更多信息
  • 使用时间: 需要更多信息
  • 云服务提供商: 需要更多信息
  • 计算域: 需要更多信息
  • 排放的碳量: 需要更多信息

Technical Specifications [optional]

Model Architecture and Objective

需要更多信息

Computing Infrastructure

需要更多信息

硬件

需要更多信息

软件

需要更多信息

Citation

BibTeX:

需要更多信息

Glossary [optional]

需要更多信息

More Information [optional]

需要更多信息

Model Card Authors [optional]

与 Ezi Ozoani 和 Hugging Face 团队合作的 Heewon(Haven) Jeon

Model Card Contact

模型作者在 GitHub Repo 中提到:请将与KoBART相关的问题发布在 이곳 上。

如何开始使用模型

使用下面的代码来开始使用该模型。

Click to expand
 from transformers import PreTrainedTokenizerFast, BartModel

tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')