This is a Turkish summarization dataset ?? prepared from the 2023 Wikipedia dump. The dataset has been cleaned, tokenized, and summarized using Huggingface Wikipedia dataset cleaner script, custom cleaning scripts, and OpenAI's gpt3.5-turbo API.
Split | Num Bytes | Num Examples |
---|---|---|
train | 324,460,408.048 | 119,110 |
validation | 17,077,006.952 | 6,269 |
The dataset was tokenized using Google's MT5 tokenizer. The following criteria were applied:
The generated raw texts were summarized using OpenAI's gpt3.5-turbo API ?.
This dataset can be used for various natural language processing tasks ??, such as text summarization, machine translation, and language modeling in the Turkish language.
Example usage:
from datasets import load_dataset # Load the dataset dataset = load_dataset("musabg/wikipedia-tr-summarization") # Access the data train_data = dataset["train"] validation_data = dataset["validation"] # Iterate through the data for example in train_data: text = example["text"] summary = example["summary"] # Process the data as needed
Please make sure to cite the dataset as follows ?:
@misc{musabg2023wikipediatrsummarization, author = {Musab Gultekin}, title = {Wikipedia Turkish Summarization Dataset}, year = {2023}, publisher = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}}, }
Bu, 2023 Wikipedia dökümünden hazırlanan Türkçe özetleme veri kümesidir. Veri kümesi, Huggingface Wikipedia veri kümesi temizleme betiği, özel temizleme betikleri ve OpenAI'nin gpt3.5-turbo API'si kullanılarak temizlenmiş, tokenleştirilmiş ve özetlenmiştir.
Bölüm | Numara Baytı | Örnek Sayısı |
---|---|---|
train | 324.460.408,048 | 119.110 |
validation | 17.077.006,952 | 6.269 |
Veri kümesi, Google'ın MT5 tokenleştiricisi kullanılarak tokenleştirildi. Aşağıdaki kriterler uygulandı:
Oluşturulan ham metinler, OpenAI'nin gpt3.5-turbo API'si kullanılarak özetlendi.
Bu veri kümesi, Türkçe dilinde metin özetleme, makine çevirisi ve dil modelleme gibi çeşitli doğal dil işleme görevleri için kullanılabilir.
Örnek kullanım:
from datasets import load_dataset # Veri kümesini yükle dataset = load_dataset("musabg/wikipedia-tr-summarization") # Verilere erişin train_data = dataset["train"] validation_data = dataset["validation"] # Verilerin üzerinden geçin for example in train_data: text = example["text"] summary = example["summary"] # Veriyi gerektiği gibi işleyin