数据集:
amazon_reviews_multi
我们提供了一个用于多语言文本分类的亚马逊产品评论数据集。该数据集包含2015年11月1日至2019年11月1日期间收集的英语、日语、德语、法语、中文和西班牙语的评论。数据集中的每条记录包含评论文本、评论标题、星级评价、匿名评审人ID、匿名产品ID和粗粒度的产品类别(例如“图书”、“家电”等)。该语料库在星级评价上保持平衡,因此每个星级评价在每种语言中占所有评论的20%。
对于每种语言,训练集、开发集和测试集分别包含20,000、5,000和5,000个评论。每位评论者的最大评论数量为20条,每个产品的最大评论数量为20条。所有评论的字符数不超过2,000个字符,且所有评论至少为20个字符长。
请注意,评论的语言不一定与其市场语言相匹配(例如,来自amazon.de的评论主要是德语,但也可能是英语等)。因此,我们采用了基于Bojanowski等人的工作(2017年)的语言检测算法来确定评论文本的语言,并删除了非预期语言的评论。
[需要更多信息]
数据集包含英语、日语、德语、法语、中文和西班牙语的评论。
每个数据实例对应一个评论。一个实例的原始JSON如下所示(德语示例):
{ "review_id": "de_0784695", "product_id": "product_de_0572654", "reviewer_id": "reviewer_de_0645436", "stars": "1", "review_body": "Leider, leider nach einmal waschen ausgeblichen . Es sieht super h\u00fcbsch aus , nur leider stinkt es ganz schrecklich und ein Waschgang in der Maschine ist notwendig ! Nach einem mal waschen sah es aus als w\u00e4re es 10 Jahre alt und hatte 1000 e von Waschg\u00e4ngen hinter sich :( echt schade !", "review_title": "Leider nicht zu empfehlen", "language": "de", "product_category": "home" }
每种语言配置都有自己的训练集、开发集和测试集。all_languages拆分是对所有语言对应拆分的连接。也就是说,all_languages的训练集是每种语言的训练集的连接,验证集和测试集也是如此。
该数据集的动机是为了推动非英语语言的情感分析和文本分类。
作者从美国、日本、德国、法国、西班牙和中国的市场上收集了英语、日语、德语、法语、西班牙语和中文的评论。然后,他们通过应用语言检测算法来确保语言的正确性,只保留目标语言的评论。在结果评论的随机样本中,作者观察到一小部分被错误地过滤掉了目标语言,还有一些被错误地保留了不匹配的语言。
语言源制片人是谁?原始文本来自亚马逊的顾客在各种产品类别上对市场的评论。
所有包含的字段都是用户在评论中提交的,或者与评论相关的。没有进行手动或机器驱动的注释。
注释者是谁?无
该数据集是鼓励非英语语言进行文本分类研究的一部分。这样的工作增加了自然语言技术对更多地区和文化的可访问性。不幸的是,这里包含的每种语言都是相对高资源和广泛研究的。
该数据集仅包含经过验证购买的评论(如文中第2.1节所述),并且评论应符合 Amazon Community Guidelines 。
该数据集的构建使得星级评价的分布保持平衡。这个特点在分类目的上有一些优势,但某些类型的语言可能相对于原始评论的分布被过多或过少表示,以实现此平衡。
由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith出版。由亚马逊管理。
亚马逊已根据其自己的协议为非商业研究使用许可了该数据集。该许可证相当限制,禁止在接受任何费用的地方使用,包括支付实习等。协议副本可在数据集网页上找到: https://docs.opendata.aws/amazon-reviews-ml/license.txt
通过访问Multilingual Amazon Reviews Corpus(“评论语料库”),您同意评论语料库是亚马逊服务,适用于 Amazon.com Conditions of Use ,并同意受其约束,具体条件如下:
除了根据使用条件授予的许可权利外,亚马逊或其内容提供商还向您授予有限的、非独占的、不可转让的、不可子许可的、可撤销的访问并使用评论语料库的许可,用于学术研究目的。您不得转售、重新发布或商业化使用评论语料库或其内容,包括将评论语料库用于商业研究,例如与资金或咨询合同、实习或向营利组织提供费用的关系相关的研究。您不得(a)将评论语料库中的内容与任何个人信息(包括亚马逊客户账户)链接或关联,或者(b)尝试确定评论语料库中任何内容的作者身份。如果您违反上述任何条件,您访问和使用评论语料库的许可将自动终止,而不影响亚马逊可能享有的任何其他权利或救济措施。
如果您发现此数据集有用,请引用以下论文(arXiv):
Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith。“The Multilingual Amazon Reviews Corpus。”发表于2020年自然语言处理会议论文集中。
@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }
感谢 @joeddav 添加了这个数据集。