模型:
jurabi/bert-ner-japanese
BertForTokenClassification を用いて、日本語の文から固有表現を抽出します。
抽出される固有表現のタイプは、以下の8種類です。
必要なライブラリ(transformers、unidic_lite、fugashi)をpipなどでインストールして、下記のコードを実行するだけです。
from transformers import BertJapaneseTokenizer, BertForTokenClassification from transformers import pipeline model = BertForTokenClassification.from_pretrained("jurabi/bert-ner-japanese") tokenizer = BertJapaneseTokenizer.from_pretrained("jurabi/bert-ner-japanese") ner_pipeline = pipeline('ner', model=model, tokenizer=tokenizer) ner_pipeline("株式会社Jurabiは、東京都台東区に本社を置くIT企業である。")
東北大学乾研究室が公開している日本語BERTモデル( cl-tohoku/bert-base-japanese-v2 )
ストックマーク株式会社が公開しているWikipediaを用いた日本語の固有表現抽出データセット( stockmarkteam/ner-wikipedia-dataset )
ファインチューニングに使用したプログラムは、 jurabiinc/bert-ner-japanese で公開しています。