英文

ResNet-50 v1.5

ResNet模型是在ImageNet-1k上以224x224像素分辨率进行预训练的。它是由何等人在论文 深度残差网络用于图像识别 中引入的。

声明:发布ResNet的团队并没有为这个模型编写模型说明卡,所以该模型说明卡由Hugging Face团队编写。

模型描述

ResNet(残差网络)是一个卷积神经网络,使残差学习和跳跃连接的概念普及起来。这使得训练更深的模型成为可能。

这是ResNet v1.5,它与原始模型有所不同:在需要下采样的瓶颈块中,v1的第一个1x1卷积应用stride = 2,而v1.5的第一个1x1卷积应用stride = 2。这个差异使得ResNet50 v1.5比v1稍微更准确(top1提高了约0.5%),但性能稍有下降(图片处理速度减少了约5%)。

预期用途和限制

您可以使用原始模型进行图像分类。请查看 模型中心 来寻找您感兴趣的任务上进行fine-tuned的版本。

如何使用

下面是如何使用该模型将COCO 2017数据集的图像分类为1000个ImageNet类别之一的示例:

from transformers import AutoImageProcessor, ResNetForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

processor = AutoImageProcessor.from_pretrained("microsoft/resnet-50")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50")

inputs = processor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# model predicts one of the 1000 ImageNet classes
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

更多代码示例请参考 文档

BibTeX条目和引用信息

@inproceedings{he2016deep,
  title={Deep residual learning for image recognition},
  author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
  booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
  pages={770--778},
  year={2016}
}