数据集:
imdb
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
other电影评论数据集。这是一个用于二元情感分类的数据集,包含比以前的基准数据集更多的数据。我们提供了25,000个极性极强的电影评论作为训练数据,另外还有25,000个用于测试的评论数据。还有一些未标记的数据可以使用。
'train' 的示例如下所示。
{ "label": 0, "text": "Goodbye world2\n" }
所有拆分都具有相同的数据字段。
plain_textname | train | unsupervised | test |
---|---|---|---|
plain_text | 25000 | 50000 | 25000 |
@InProceedings{maas-EtAl:2011:ACL-HLT2011, author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, title = {Learning Word Vectors for Sentiment Analysis}, booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, month = {June}, year = {2011}, address = {Portland, Oregon, USA}, publisher = {Association for Computational Linguistics}, pages = {142--150}, url = {http://www.aclweb.org/anthology/P11-1015} }
感谢 @ghazi-f , @patrickvonplaten , @lhoestq , @thomwolf 添加了该数据集。