模型:
megagonlabs/transformers-ud-japanese-electra-base-ginza-510
这是一个在约2亿个日本句子中预训练的模型,这些句子从 mC4 中提取,并由 spaCy v3 进行微调。
基本的预训练模型是 megagonlabs/transformers-ud-japanese-electra-base-discrimininator 。
整个spaCy v3模型被分发为一个名为 ja_ginza_electra 的python包,附带着 GiNZA v5 ,其中提供了一些自定义的管道组件以识别日语的文句结构。尝试按照以下方式运行它:
$ pip install ginza ja_ginza_electra $ ginza
这些模型按照 MIT License 的条款进行分发。
该模型根据NINJAL(国立国语研究所)和Megagon Labs Tokyo之间的联合研究协议,被允许在MIT许可下发布。
包含来自 mC4 的信息,该信息根据 ODC Attribution License 的条款提供。
@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }
Asahara, M., Kanayama, H., Tanaka, T., Miyao, Y., Uematsu, S., Mori, S., Matsumoto, Y., Omura, M., & Murawaki, Y. (2018). Universal Dependencies Version 2 for Japanese. In LREC-2018.