BiomedCLIP 是一种生物医学视觉语言基础模型,它是在PubMed Central的生物医学研究文章中提取的1500万个图像标题对上使用对比学习预训练的,使用PubMedBERT作为文本编码器和Vision Transformer作为图像编码器的领域特定自适应模型。它可以执行各种视觉语言处理(VLP)任务,如跨模态检索,图像分类和视觉问答。BiomedCLIP在多个标准数据集上建立了新的技术水平,并且明显优于之前的VLP方法:
@misc{https://doi.org/10.48550/arXiv.2303.00915, doi = {10.48550/ARXIV.2303.00915}, url = {https://arxiv.org/abs/2303.00915}, author = {Zhang, Sheng and Xu, Yanbo and Usuyama, Naoto and Bagga, Jaspreet and Tinn, Robert and Preston, Sam and Rao, Rajesh and Wei, Mu and Valluri, Naveen and Wong, Cliff and Lungren, Matthew and Naumann, Tristan and Poon, Hoifung}, title = {Large-Scale Domain-Specific Pretraining for Biomedical Vision-Language Processing}, publisher = {arXiv}, year = {2023}, }
请参考此 example notebook 。
此模型仅用于(I)未来的视觉语言处理研究和(II)重复性验证参考文献中报道的实验结果。
主要预期用途主要预期用途是支持在这项工作基础上构建的AI研究人员。BiomedCLIP及其相关模型应该对探索各种生物医学VLP研究问题特别是在放射学领域非常有帮助。
超出范围的使用目前超出范围的是模型的任何部署用例,包括商业用途。尽管我们使用了各种公开可用的研究基准进行了模型评估,但模型和评估不适用于部署用例。请参考 the associated paper 获取更多详细信息。
此模型建立在 PMC-15M dataset 的基础上,它是用于生物医学视觉语言处理的大规模并行图像文本数据集。它包含了从PubMed Central的生物医学研究文章中提取的1500万个图像标题对。它涵盖了各种各样的生物医学图像类型,如显微镜检查、X射线摄影、组织学等。
该模型是使用英文语料库开发的,因此仅考虑英文。
请参考相应的论文 "Large-Scale Domain-Specific Pretraining for Biomedical Vision-Language Processing" ,了解模型的培训和评估的其他细节。