英文

适用于brio-cnndm-uncased的模型卡

模型详情

模型描述

抽象概括模型通常通过最大似然估计进行训练,它假设一个确定性(一点)目标分布,理想模型将把所有的概率分配给参考摘要。这种假设可能导致推理过程中性能下降,因为模型需要比较与参考摘要偏离的多个系统生成的(候选)摘要。为了解决这个问题,我们提出了一种新颖的训练范式,它假设一个非确定性分布,以便不同的候选摘要根据其质量被分配概率质量。

  • 开发者: Yale LILY 实验室

  • 共享者 [可选]: Yale LILY 实验室

  • 模型类型: Text2Text 生成

  • 语言(自然语言处理): 需要更多信息

  • 许可证: 需要更多信息

  • 父模型: BART

  • 更多信息资源:

使用情况

直接使用

该模型可用于 Text2Text 生成的任务

下游使用情况 [可选]

进一步的分析还显示我们的模型可以估计与候选摘要质量更相关的概率。

超出范围的使用情况

模型不应该被用来刻意创建对人们有敌意或疏远的环境。

偏差、风险和局限性

已经有大量研究探讨了语言模型的偏差和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测可能包含针对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。

推荐事项

用户(直接和下游使用者)应该意识到模型的风险、偏差和局限性。需要更多信息以获取进一步的推荐事项。

训练详情

训练数据

模型创建者在 associated paper 中指出:

CNNDM4:是一个大规模的新闻数据集。Nallapati et al:我们将新闻文章视为源文档,相关的精华点摘为摘要。XSum5:是来自英国广播公司(BBC)的高度抽象的文章数据集。NYT6:包含来自纽约时报的文章和相关的摘要

训练过程

预处理

模型创建者在 associated paper 中指出:

我们按照 Kedzie 等人 (2018) 的数据预处理和分割方法,并使用相关的档案摘要作为摘要。

速度、大小和时间

需要更多信息

评估

测试数据、因素和度量

测试数据

需要更多信息

因素

需要更多信息

度量

需要更多信息

结果

CNNDM

ROUGE-1 ROUGE-2 ROUGE-L
BART 44.16 21.28 40.90
Ours 47.78 23.55 44.57

模型检查

模型创建者在 associated paper 中指出:

我们将 BRIO-Ctr 的卓越性能归因于它在候选生成和评分两个阶段都使用相同的模型架构(BART),而 SimCLS 使用 RoBERTa 作为评估模型。因此,BRIO-Ctr 在两个阶段之间最大程度地共享参数,并保留了在相同数据集上预训练的 Seq2Seq 模型的能力。

环境影响

可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提出的方法估计碳排放量。

  • 硬件类型: 需要更多信息
  • 使用小时数: 需要更多信息
  • 云服务提供商: 需要更多信息
  • 计算区域: 需要更多信息
  • 排放的碳: 需要更多信息

技术规格 [可选]

模型架构和目标

模型创建者在 associated paper 中指出:

将概括问题构造为序列到序列(Seq2Seq)问题

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息。

引用

BibTeX:

@misc{mesh-transformer-jax,
@misc{https://doi.org/10.48550/arxiv.2203.16804,
  doi = {10.48550/ARXIV.2203.16804},
  
  url = {https://arxiv.org/abs/2203.16804},
  
  author = {Liu, Yixin and Liu, Pengfei and Radev, Dragomir and Neubig, Graham},
  
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {BRIO: Bringing Order to Abstractive Summarization},

术语表 [可选]

需要更多信息

更多信息 [可选]

需要更多信息

模型卡作者 [可选]

Yale LILY 实验室与 Ezi Ozoani 和 Hugging Face 团队合作

模型卡联系方式

需要更多信息

如何开始使用模型

使用以下代码开始使用该模型。

Click to expand
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Yale-LILY/brio-cnndm-uncased")

model = AutoModelForSeq2SeqLM.from_pretrained("Yale-LILY/brio-cnndm-uncased")