facebook/contriever-msmarco | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

facebook/contriever-msmarco

任务:

特征提取

类库:

PyTorch Transformers

其他:

bert

预印本库:

arxiv:2112.09118

模型介绍文件清单

英文

这个模型是预训练的contriever模型的精调版本，可以在这里找到 https://huggingface.co/facebook/contriever ，并根据 Towards Unsupervised Dense Information Retrieval with Contrastive Learning 中描述的方法进行处理。相关的GitHub存储库可在这里找到 https://github.com/facebookresearch/contriever 。

使用（HuggingFace Transformers）

直接使用HuggingFace Transformers中可用的模型需要添加一个平均池化操作，以获得句子嵌入。

import torch
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained('facebook/contriever-msmarco')
model = AutoModel.from_pretrained('facebook/contriever-msmarco')

sentences = [
    "Where was Marie Curie born?",
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# Apply tokenizer
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
outputs = model(**inputs)

# Mean pooling
def mean_pooling(token_embeddings, mask):
    token_embeddings = token_embeddings.masked_fill(~mask[..., None].bool(), 0.)
    sentence_embeddings = token_embeddings.sum(dim=1) / mask.sum(dim=1)[..., None]
    return sentence_embeddings
embeddings = mean_pooling(outputs[0], inputs['attention_mask'])

作者:

Meta AI

数据集大小:

418.39 MB