ClinicalBERT

本模型卡介绍了ClinicalBERT模型，该模型使用我们构建的包含12亿个单词的多中心疾病大语料库进行训练。然后，我们利用来自超过300万患者病历的大规模电子健康记录（EHR）语料库对基础语言模型进行了微调。

预训练数据

ClinicalBERT模型是在我们构建的包含12亿个单词的多中心疾病大语料库上进行训练的。

模型预训练

预训练过程

ClinicalBERT是从BERT初始化的。然后，训练遵循掩码语言模型的原则，即在给定一段文本的情况下，我们随机用MASK（一种特殊的掩码标记）替换一些标记，然后要求模型通过上下文推断出原始的标记。

预训练超参数

我们使用批大小为32，最大序列长度为256，学习率为5e-5来预训练我们的模型。

如何使用模型

通过transformers库加载该模型：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("medicalai/ClinicalBERT")
model = AutoModel.from_pretrained("medicalai/ClinicalBERT")

作者:

medicalai

数据集大小:

517.68 MB