模型:
allenai/longformer-base-4096
Longformer 是一个用于长文档的转换器模型。
longformer-base-4096是从RoBERTa检查点开始的类似BERT的模型,并在长文档上进行了预训练的MLM。它支持长度最多为4,096的序列。
Longformer使用滑动窗口(局部)注意力和全局注意力的组合。全局注意力根据任务进行用户配置,以允许模型学习任务特定的表示。有关如何设置全局关注的更多细节,请参阅modeling_longformer.py中的示例和论文。
如果您在研究中使用Longformer,请引用 Longformer: The Long-Document Transformer 。
@article{Beltagy2020Longformer, title={Longformer: The Long-Document Transformer}, author={Iz Beltagy and Matthew E. Peters and Arman Cohan}, journal={arXiv:2004.05150}, year={2020}, }
Longformer是由 the Allen Institute for Artificial Intelligence (AI2) 开发的开源项目。AI2是一个非营利性研究所,致力于通过具有高影响力的AI研究和工程来为人类做出贡献。