模型:

facebook/dpr-question_encoder-single-nq-base

英文

dpr-question_encoder-single-nq-base

目录

  • 模型详细信息
  • 如何开始使用模型
  • 使用场景
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引文信息
  • 模型卡片作者

模型详细信息

模型描述: Dense Passage Retrieval (DPR) 是一套用于最先进的开放域问答研究的工具和模型。dpr-question_encoder- single-nq-base是使用 Natural Questions (NQ) dataset Lee et al., 2019 Kwiatkowski et al., 2019 )进行训练的问题编码器。

如何开始使用模型

使用以下代码开始使用模型。

from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer

tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output

使用场景

直接使用

dpr-question_encoder-single-nq-base, dpr-ctx_encoder-single-nq-base dpr-reader-single-nq-base 可用于开放域问答任务。

滥用和超范围使用

该模型不应被用于有意创建对人们具有敌意或疏远的环境。此外,DPR模型集不是为了成为人或事件的准确或真实表达而进行训练的,因此使用该模型生成此类内容超出了该模型的能力范围。

风险、限制和偏见

内容警告:读者应该注意,本节内容可能包含令人不安、冒犯和能够传播历史和当前刻板印象的内容。

已经进行了大量研究来探讨语言模型的偏见和公平性问题(参见,例如, Sheng et al., 2021 Bender et al., 2021 )。模型生成的预测可能会涉及针对受保护的类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。

训练

训练数据

该模型是使用 Natural Questions (NQ) dataset Lee et al., 2019 Kwiatkowski et al., 2019 )进行训练的。模型作者写道:

[该数据集] 是为端到端问答而设计的。问题是从真实的谷歌搜索查询中提取的,答案是由注释者在维基百科文章中识别的片段。

训练过程

训练过程在 associated paper 中描述:

给定一个包含M个文本段落的集合,我们密集文本段落检索器(DPR)的目标是在低维连续空间中索引所有段落,以便在运行时为读者高效地检索与输入问题相关的前k个段落。

我们的密集段落检索器(DPR)使用一个密集编码器EP(·),将任何文本段落映射到一个d维实值向量,并为我们将在检索过程中使用的所有M个段落建立索引。在运行时,DPR应用不同的编码器EQ(·),将输入问题映射到一个d维向量,并检索与问题向量最接近的k个段落。

作者报告称,对于编码器,他们使用了两个独立的BERT( Devlin et al., 2019 )网络(基础,不区分大小写),并在推理时使用FAISS( Johnson et al., 2017 )对段落进行编码和索引。有关训练的更多详细信息,请参阅论文,包括编码器、推理、正向和负向段落以及批次内负例。

评估

以下是从 associated paper 中提取的评估信息。

测试数据、因素和指标

模型开发者报告了该模型在五个QA数据集上的性能,使用了top-k准确性(k ∈ {20, 100})。数据集为 NQ TriviaQA WebQuestions (WQ) CuratedTREC (TREC) SQuAD v1.1

结果
Top 20 Top 100
NQ TriviaQA WQ TREC SQuAD NQ TriviaQA WQ TREC SQuAD
78.4 79.4 73.2 79.8 63.2 85.4 85.0 81.4 89.1 77.2

环境影响

可以使用 Machine Learning Impact calculator (见 Lacoste et al. (2019) 中提供的)来估算碳排放量。我们提供了硬件类型,并根据 associated paper 进行了估算。

  • 硬件类型:8个32GB的GPU
  • 使用时间:未知
  • 云服务提供商:未知
  • 计算区域:未知
  • 排放的碳量:未知

技术规格

有关建模架构、目标、计算基础设施和训练详细信息,请参阅 associated paper

引文信息

  @inproceedings{karpukhin-etal-2020-dense,
    title = "Dense Passage Retrieval for Open-Domain Question Answering",
    author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
    doi = "10.18653/v1/2020.emnlp-main.550",
    pages = "6769--6781",
}

模型卡片作者

本模型卡片由Hugging Face团队撰写。