一个在PubMed摘要和临床笔记上预训练的BERT模型( MIMIC-III )。
如何使用请参见 https://github.com/ncbi-nlp/bluebert 。
我们提供了用于预训练BlueBERT模型的 preprocessed PubMed texts 。该语料库包含从 PubMed ASCII code version 中提取的约4000M个单词。
预训练模型: https://huggingface.co/bert-base-uncased
以下是用于获取更多细节的代码片段。
value = value.lower() value = re.sub(r'[\r\n]+', ' ', value) value = re.sub(r'[^\x00-\x7F]+', ' ', value) tokenized = TreebankWordTokenizer().tokenize(value) sentence = ' '.join(tokenized) sentence = re.sub(r"\s's\b", "'s", sentence)
@InProceedings{peng2019transfer, author = {Yifan Peng and Shankai Yan and Zhiyong Lu}, title = {Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets}, booktitle = {Proceedings of the 2019 Workshop on Biomedical Natural Language Processing (BioNLP 2019)}, year = {2019}, pages = {58--65}, }
这项工作得到了国立卫生研究院、国家医学院图书馆和临床中心的院内研究项目的支持。这项工作得到了国立卫生研究院国家医学院图书馆根据4R00LM013001-01号授予的奖励的支持。
我们还要感谢BERT和ELMo的作者将数据和代码公开发布。
我们要感谢Sun Kim博士处理PubMed文本。
该工具展示了国家图书馆生物计算分部在NCBI(国家生物技术信息中心)进行的研究结果。本网站所产生的信息并不适用于直接诊断或医疗决策,须经临床专业人员审查和监督。个体不应仅基于本网站所提供的信息来改变其健康行为。国家卫生研究院未独立验证该工具所产生的信息的有效性或实用性。如果您对本网站所产生的信息有疑问,请咨询医疗保健专业人员。有关NCBI的免责声明政策的更多信息,请参阅相关内容。