Summary: Dataset of news from several sources:
Script: create_ru_news.py
Point of Contact: Ilya Gusev
Languages: Russian.
Prerequisites:
pip install datasets zstandard jsonlines pysimdjson
Dataset iteration:
from datasets import load_dataset dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True) for example in dataset: print(example["text"])
{ "title": "Заместитель главы района в Якутии пожаловался на пьянство начальника", "text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц 'Интерфаксу', Андрей Фитисов пьет на рабочем месте и 'уходит в многодневные загулы'...", "timestamp": 1346284800, "url": "https://lenta.ru/news/2012/08/30/alco/", "source": "lenta" }
The dataset is not anonymized, so individuals' names can be found in the dataset. Information about the original authors is included in the dataset where possible.