This is a Turkish summarization dataset 🇹🇷 prepared from the 2023 Wikipedia dump. The dataset has been cleaned, tokenized, and summarized using Huggingface Wikipedia dataset cleaner script, custom cleaning scripts, and OpenAI's gpt3.5-turbo API.
| Split | Num Bytes | Num Examples |
|---|---|---|
| train | 324,460,408.048 | 119,110 |
| validation | 17,077,006.952 | 6,269 |
The dataset was tokenized using Google's MT5 tokenizer. The following criteria were applied:
The generated raw texts were summarized using OpenAI's gpt3.5-turbo API 🤖.
This dataset can be used for various natural language processing tasks 👩💻, such as text summarization, machine translation, and language modeling in the Turkish language.
Example usage:
from datasets import load_dataset
# Load the dataset
dataset = load_dataset("musabg/wikipedia-tr-summarization")
# Access the data
train_data = dataset["train"]
validation_data = dataset["validation"]
# Iterate through the data
for example in train_data:
text = example["text"]
summary = example["summary"]
# Process the data as needed
Please make sure to cite the dataset as follows 📝:
@misc{musabg2023wikipediatrsummarization,
author = {Musab Gultekin},
title = {Wikipedia Turkish Summarization Dataset},
year = {2023},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}},
}
Bu, 2023 Wikipedia dökümünden hazırlanan Türkçe özetleme veri kümesidir. Veri kümesi, Huggingface Wikipedia veri kümesi temizleme betiği, özel temizleme betikleri ve OpenAI'nin gpt3.5-turbo API'si kullanılarak temizlenmiş, tokenleştirilmiş ve özetlenmiştir.
| Bölüm | Numara Baytı | Örnek Sayısı |
|---|---|---|
| train | 324.460.408,048 | 119.110 |
| validation | 17.077.006,952 | 6.269 |
Veri kümesi, Google'ın MT5 tokenleştiricisi kullanılarak tokenleştirildi. Aşağıdaki kriterler uygulandı:
Oluşturulan ham metinler, OpenAI'nin gpt3.5-turbo API'si kullanılarak özetlendi.
Bu veri kümesi, Türkçe dilinde metin özetleme, makine çevirisi ve dil modelleme gibi çeşitli doğal dil işleme görevleri için kullanılabilir.
Örnek kullanım:
from datasets import load_dataset
# Veri kümesini yükle
dataset = load_dataset("musabg/wikipedia-tr-summarization")
# Verilere erişin
train_data = dataset["train"]
validation_data = dataset["validation"]
# Verilerin üzerinden geçin
for example in train_data:
text = example["text"]
summary = example["summary"]
# Veriyi gerektiği gibi işleyin