数据集:
ttc4900
任务:
文本分类语言:
tr计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknownThe data set is taken from kemik group The data are pre-processed for the text categorization, collocations are found, character set is corrected, and so forth. We named TTC4900 by mimicking the name convention of TTC 3600 dataset shared by the study "A Knowledge-poor Approach to Turkish Text Categorization with a Comparative Analysis, Proceedings of CICLING 2014, Springer LNCS, Nepal, 2014"
If you use the dataset in a paper, please refer https://www.kaggle.com/savasy/ttc4900 as footnote and cite one of the papers as follows:
[More Information Needed]
The dataset is based on Turkish.
A text classification dataset with 7 different news category.
Here is an example from the dataset:
{ "category": 0, # politics/siyaset "text": "paris teki infaz imralı ile başlayan sürece bir darbe mi elif_çakır ın sunduğu söz_bitmeden in bugünkü konuğu gazeteci melih altınok oldu programdan satıbaşları imralı ile görüşmeler hangi aşamada bundan sonra ne olacak hangi kesimler sürece engel oluyor psikolojik mayınlar neler türk solu bu dönemde evrensel sorumluluğunu yerine getirebiliyor mu elif_çakır sordu melih altınok söz_bitmeden de yanıtladı elif_çakır pkk nın silahsızlandırılmasına yönelik olarak öcalan ile görüşme sonrası 3 kadının infazı enteresan çünkü kurucu isimlerden birisi sen nasıl okudun bu infazı melih altınok herkesin ciddi anlamda şüpheleri var şu an yürüttüğümüz herşey bir delile dayanmadığı için komple teorisinden ibaret kalacak ama şöyle bir durum var imralı görüşmelerin ilk defa bir siyasi iktidar tarafından açıkça söylendiği bir dönem ardından geliyor bu sürecin gerçekleşmemesini isteyen kesimler yaptırmıştır dedi" }
It is not divided into Train set and Test set.
[More Information Needed]
The data are pre-processed for the text categorization, collocations are found, character set is corrected, and so forth.
Who are the source language producers?Turkish online news sites.
[More Information Needed]
Who are the annotators?[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
[More Information Needed]
The dataset was created by Savaş Yıldırım
[More Information Needed]
@article{doi:10.5505/pajes.2018.15931, author = {Yıldırım, Savaş and Yıldız, Tuğba}, title = {A comparative analysis of text classification for Turkish language}, journal = {Pamukkale Univ Muh Bilim Derg}, volume = {24}, number = {5}, pages = {879-886}, year = {2018}, doi = {10.5505/pajes.2018.15931}, note ={doi: 10.5505/pajes.2018.15931}, URL = {https://dx.doi.org/10.5505/pajes.2018.15931}, eprint = {https://dx.doi.org/10.5505/pajes.2018.15931} }
Thanks to @yavuzKomecoglu for adding this dataset.