BlueBert-Base, Uncased, PubMed和MIMIC-III

模型描述

一个在PubMed摘要和临床笔记上预训练的BERT模型（ MIMIC-III ）。

预期用途和限制

如何使用请参见 https://github.com/ncbi-nlp/bluebert 。

训练数据

我们提供了用于预训练BlueBERT模型的 preprocessed PubMed texts 。该语料库包含从 PubMed ASCII code version 中提取的约4000M个单词。

预训练模型： https://huggingface.co/bert-base-uncased

训练过程

将文本转换为小写
删除特殊字符\x00-\x7F
使用 NLTK Treebank tokenizer 对文本进行分词

以下是用于获取更多细节的代码片段。

value = value.lower()
value = re.sub(r'[\r\n]+', ' ', value)
value = re.sub(r'[^\x00-\x7F]+', ' ', value)

tokenized = TreebankWordTokenizer().tokenize(value)
sentence = ' '.join(tokenized)
sentence = re.sub(r"\s's\b", "'s", sentence)

BibTeX条目和引文信息

@InProceedings{peng2019transfer,
  author    = {Yifan Peng and Shankai Yan and Zhiyong Lu},
  title     = {Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets},
  booktitle = {Proceedings of the 2019 Workshop on Biomedical Natural Language Processing (BioNLP 2019)},
  year      = {2019},
  pages     = {58--65},
}

致谢

这项工作得到了国立卫生研究院、国家医学院图书馆和临床中心的院内研究项目的支持。这项工作得到了国立卫生研究院国家医学院图书馆根据4R00LM013001-01号授予的奖励的支持。

我们还要感谢BERT和ELMo的作者将数据和代码公开发布。

我们要感谢Sun Kim博士处理PubMed文本。

免责声明

该工具展示了国家图书馆生物计算分部在NCBI（国家生物技术信息中心）进行的研究结果。本网站所产生的信息并不适用于直接诊断或医疗决策，须经临床专业人员审查和监督。个体不应仅基于本网站所提供的信息来改变其健康行为。国家卫生研究院未独立验证该工具所产生的信息的有效性或实用性。如果您对本网站所产生的信息有疑问，请咨询医疗保健专业人员。有关NCBI的免责声明政策的更多信息，请参阅相关内容。

作者:

Biomedical NLP

数据集大小:

2.05 GB