模型:

MIT/ast-finetuned-audioset-10-10-0.4593

英文

音频谱图变换器(在AudioSet上微调)

音频谱图变换器(AST)模型在AudioSet上进行了微调。它是由Gong等人在 AST: Audio Spectrogram Transformer 论文中介绍的,并在 this repository 年首次发布。

免责声明:发布音频谱图变换器的团队没有为该模型编写模型卡,因此该模型卡是由Hugging Face团队编写的。

模型描述

音频谱图变换器等同于 ViT ,但应用在音频上。音频首先被转换为图像(作为谱图),然后应用了一个视觉变换器。该模型在几个音频分类基准上达到了最先进的结果。

用法

您可以使用原始模型将音频分类为AudioSet类之一。有关详细信息,请参阅 documentation