英文

ClinicalBERT

本模型卡介绍了ClinicalBERT模型,该模型使用我们构建的包含12亿个单词的多中心疾病大语料库进行训练。然后,我们利用来自超过300万患者病历的大规模电子健康记录(EHR)语料库对基础语言模型进行了微调。

预训练数据

ClinicalBERT模型是在我们构建的包含12亿个单词的多中心疾病大语料库上进行训练的。

模型预训练

预训练过程

ClinicalBERT是从BERT初始化的。然后,训练遵循掩码语言模型的原则,即在给定一段文本的情况下,我们随机用MASK(一种特殊的掩码标记)替换一些标记,然后要求模型通过上下文推断出原始的标记。

预训练超参数

我们使用批大小为32,最大序列长度为256,学习率为5e-5来预训练我们的模型。

如何使用模型

通过transformers库加载该模型:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("medicalai/ClinicalBERT")
model = AutoModel.from_pretrained("medicalai/ClinicalBERT")