模型:
Yale-LILY/brio-cnndm-uncased
任务:
文生文抽象概括模型通常通过最大似然估计进行训练,它假设一个确定性(一点)目标分布,理想模型将把所有的概率分配给参考摘要。这种假设可能导致推理过程中性能下降,因为模型需要比较与参考摘要偏离的多个系统生成的(候选)摘要。为了解决这个问题,我们提出了一种新颖的训练范式,它假设一个非确定性分布,以便不同的候选摘要根据其质量被分配概率质量。
开发者: Yale LILY 实验室
共享者 [可选]: Yale LILY 实验室
模型类型: Text2Text 生成
语言(自然语言处理): 需要更多信息
许可证: 需要更多信息
父模型: BART
更多信息资源:
该模型可用于 Text2Text 生成的任务
进一步的分析还显示我们的模型可以估计与候选摘要质量更相关的概率。
模型不应该被用来刻意创建对人们有敌意或疏远的环境。
已经有大量研究探讨了语言模型的偏差和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含针对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。
用户(直接和下游使用者)应该意识到模型的风险、偏差和局限性。需要更多信息以获取进一步的推荐事项。
模型创建者在 associated paper 中指出:
CNNDM4:是一个大规模的新闻数据集。Nallapati et al:我们将新闻文章视为源文档,相关的精华点摘为摘要。XSum5:是来自英国广播公司(BBC)的高度抽象的文章数据集。NYT6:包含来自纽约时报的文章和相关的摘要
模型创建者在 associated paper 中指出:
我们按照 Kedzie 等人 (2018) 的数据预处理和分割方法,并使用相关的档案摘要作为摘要。
需要更多信息
需要更多信息
需要更多信息
需要更多信息
ROUGE-1 | ROUGE-2 | ROUGE-L | |
---|---|---|---|
BART | 44.16 | 21.28 | 40.90 |
Ours | 47.78 | 23.55 | 44.57 |
模型创建者在 associated paper 中指出:
我们将 BRIO-Ctr 的卓越性能归因于它在候选生成和评分两个阶段都使用相同的模型架构(BART),而 SimCLS 使用 RoBERTa 作为评估模型。因此,BRIO-Ctr 在两个阶段之间最大程度地共享参数,并保留了在相同数据集上预训练的 Seq2Seq 模型的能力。
可以使用 Machine Learning Impact calculator 和 Lacoste et al. (2019) 中提出的方法估计碳排放量。
模型创建者在 associated paper 中指出:
将概括问题构造为序列到序列(Seq2Seq)问题
需要更多信息
需要更多信息
需要更多信息。
BibTeX:
@misc{mesh-transformer-jax, @misc{https://doi.org/10.48550/arxiv.2203.16804, doi = {10.48550/ARXIV.2203.16804}, url = {https://arxiv.org/abs/2203.16804}, author = {Liu, Yixin and Liu, Pengfei and Radev, Dragomir and Neubig, Graham}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {BRIO: Bringing Order to Abstractive Summarization},
需要更多信息
需要更多信息
Yale LILY 实验室与 Ezi Ozoani 和 Hugging Face 团队合作
需要更多信息
使用以下代码开始使用该模型。
Click to expandfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Yale-LILY/brio-cnndm-uncased") model = AutoModelForSeq2SeqLM.from_pretrained("Yale-LILY/brio-cnndm-uncased")