模型:
medicalai/ClinicalBERT
本模型卡介绍了ClinicalBERT模型,该模型使用我们构建的包含12亿个单词的多中心疾病大语料库进行训练。然后,我们利用来自超过300万患者病历的大规模电子健康记录(EHR)语料库对基础语言模型进行了微调。
ClinicalBERT模型是在我们构建的包含12亿个单词的多中心疾病大语料库上进行训练的。
ClinicalBERT是从BERT初始化的。然后,训练遵循掩码语言模型的原则,即在给定一段文本的情况下,我们随机用MASK(一种特殊的掩码标记)替换一些标记,然后要求模型通过上下文推断出原始的标记。
我们使用批大小为32,最大序列长度为256,学习率为5e-5来预训练我们的模型。
通过transformers库加载该模型:
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("medicalai/ClinicalBERT") model = AutoModel.from_pretrained("medicalai/ClinicalBERT")