数据集:
shunk031/livedoor-news-corpus
本コーパスは、NHN Japan 株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限り HTML タグを取り除いて作成したものです。
[More Information Needed]
[More Information Needed]
from datasets import load_dataset dataset = load_dataset( "shunk031/livedoor-news-corpus", train_ratio=0.8, val_ratio=0.1, test_ratio=0.1, random_state=42, shuffle=True, ) print(dataset) # DatasetDict({ # train: Dataset({ # features: ['url', 'date', 'title', 'content', 'category'], # num_rows: 5894 # }) # validation: Dataset({ # features: ['url', 'date', 'title', 'content', 'category'], # num_rows: 737 # }) # test: Dataset({ # features: ['url', 'date', 'title', 'content', 'category'], # num_rows: 736 # }) # })
[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
Who are the source language producers?[More Information Needed]
[More Information Needed]
Who are the annotators?[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
各記事ファイルにはクリエイティブ・コモンズライセンス「表示 – 改変禁止」が適用されます。 クレジット表示についてはニュースカテゴリにより異なるため、ダウンロードしたファイルを展開したサブディレクトリにあるそれぞれの LICENSE.txt をご覧ください。 livedoor は NHN Japan 株式会社の登録商標です。
[More Information Needed]
Thanks to RONDHUIT Co., Ltd. for creating this dataset.