RuNews dataset

Description

Summary: Dataset of news from several sources:

Script: create_ru_news.py

Point of Contact: Ilya Gusev

Languages: Russian.

Usage

Prerequisites:

pip install datasets zstandard jsonlines pysimdjson

Dataset iteration:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True)
for example in dataset:
    print(example["text"])

Data Instances

{
  "title": "Заместитель главы района в Якутии пожаловался на пьянство начальника",
  "text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц 'Интерфаксу', Андрей Фитисов пьет на рабочем месте и 'уходит в многодневные загулы'...",
  "timestamp": 1346284800,
  "url": "https://lenta.ru/news/2012/08/30/alco/",
  "source": "lenta"
}

Personal and Sensitive Information

The dataset is not anonymized, so individuals' names can be found in the dataset. Information about the original authors is included in the dataset where possible.

作者:

IlyaGusev

数据集大小:

3.42 GB