数据集:

shibing624/nli-zh-all

许可:

cc-by-4.0

源数据集:

https

批注创建人:

shibing624

语言创建人:

shibing624

大小:

1M<n<10M

计算机处理:

monolingual

语言:

子任务:

text-scoring semantic-similarity-scoring natural-language-inference

任务:

文本分类

数据集介绍文件清单

中文

Dataset Card for nli-zh-all

Dataset Summary

中文自然语言推理（NLI）数据合集（nli-zh-all）

整合了文本推理，相似，摘要，问答，指令微调等任务的820万高质量数据，并转化为匹配格式数据集。

Supported Tasks and Leaderboards

Supported Tasks: 支持中文文本匹配任务，文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少，我罗列一个我自己训练的结果：

Leaderboard: NLI_zh leaderboard

Languages

数据集均是简体中文文本。

Dataset Structure

Data Instances

An example of 'train' looks as follows.

{"text1":"借款后多长时间给打电话","text2":"借款后多久打电话啊","label":1}
{"text1":"没看到微粒贷","text2":"我借那么久也没有提升啊","label":0}

label 有2个标签，1表示相似，0表示不相似。

Data Fields

The data fields are the same among all splits.

text1 : a string feature.
text2 : a string feature.
label : a classification label, with possible values including entailment(1), contradiction(0)。

Data Splits

after remove None and len(text) < 1 data:

$ wc -l nli-zh-all/*
   48818 nli-zh-all/alpaca_gpt4-train.jsonl
    5000 nli-zh-all/amazon_reviews-train.jsonl
  519255 nli-zh-all/belle-train.jsonl
   16000 nli-zh-all/cblue_chip_sts-train.jsonl
  549326 nli-zh-all/chatmed_consult-train.jsonl
   10142 nli-zh-all/cmrc2018-train.jsonl
  395927 nli-zh-all/csl-train.jsonl
   50000 nli-zh-all/dureader_robust-train.jsonl
  709761 nli-zh-all/firefly-train.jsonl
    9568 nli-zh-all/mlqa-train.jsonl
  455875 nli-zh-all/nli_zh-train.jsonl
   50486 nli-zh-all/ocnli-train.jsonl
 2678694 nli-zh-all/simclue-train.jsonl
  419402 nli-zh-all/snli_zh-train.jsonl
    3024 nli-zh-all/webqa-train.jsonl
 1213780 nli-zh-all/wiki_atomic_edits-train.jsonl
   93404 nli-zh-all/xlsum-train.jsonl
 1006218 nli-zh-all/zhihu_kol-train.jsonl
 8234680 total

Data Length

count text length script: https://github.com/shibing624/text2vec/blob/master/examples/data/count_text_length.py

Dataset Creation

Curation Rationale

受 m3e-base 启发，合并了中文高质量NLI(natural langauge inference)数据集，这里把这个数据集上传到huggingface的datasets，方便大家使用。

Source Data

Initial Data Collection and Normalization

如果您想要查看数据集的构建方法，你可以在 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_nli_dataset.py 中找到生成 nli-zh-all 数据集的脚本，所有数据均上传到 huggingface datasets。

数据集名称	领域	数量	任务类型	Prompt	质量	数据提供者	说明	是否开源/研究使用	是否商用	脚本	Done	URL	是否同质
cmrc2018	百科	14,363	问答	问答	优	Yiming Cui, Ting Liu, Wanxiang Che, Li Xiao, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Hu	https://github.com/ymcui/cmrc2018/blob/master/README_CN.md 专家标注的基于维基百科的中文阅读理解数据集，将问题和上下文视为正例	是	否	是	是	https://huggingface.co/datasets/cmrc2018	否
belle_0.5m	百科	500,000	指令微调	无	优	LianjiaTech/BELLE	belle 的指令微调数据集，使用 self instruct 方法基于 gpt3.5 生成	是	否	是	是	https://huggingface.co/datasets/BelleGroup/	否
firefily	百科	1,649,399	指令微调	无	优	YeungNLP	Firefly（流萤）是一个开源的中文对话式大语言模型，使用指令微调（Instruction Tuning）在中文数据集上进行调优。使用了词表裁剪、ZeRO等技术，有效降低显存消耗和提高训练效率。在训练中，我们使用了更小的模型参数量，以及更少的计算资源。	未说明	未说明	是	是	https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M	否
alpaca_gpt4	百科	48,818	指令微调	无	优	Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao	本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据，约5万条。	是	否	是	是	https://huggingface.co/datasets/shibing624/alpaca-zh	否
zhihu_kol	百科	1,006,218	问答	问答	优	wangrui6	知乎问答	未说明	未说明	是	是	https://huggingface.co/datasets/wangrui6/Zhihu-KOL	否
amazon_reviews_multi	电商	210,000	问答文本分类	摘要	优	亚马逊	亚马逊产品评论数据集	是	否	是	是	https://huggingface.co/datasets/amazon_reviews_multi/viewer/zh/train?row=8	否
mlqa	百科	85,853	问答	问答	良	patrickvonplaten	一个用于评估跨语言问答性能的基准数据集	是	未说明	是	是	https://huggingface.co/datasets/mlqa/viewer/mlqa-translate-train.zh/train?p=2	否
xlsum	新闻	93,404	摘要	摘要	良	BUET CSE NLP Group	BBC的专业注释文章摘要对	是	否	是	是	https://huggingface.co/datasets/csebuetnlp/xlsum/viewer/chinese_simplified/train?row=259	否
ocnli	口语	17,726	自然语言推理	推理	良	Thomas Wolf	自然语言推理数据集	是	否	是	是	https://huggingface.co/datasets/clue/viewer/ocnli	是
BQ	金融	60,000	文本分类	相似	优	Intelligent Computing Research Center, Harbin Institute of Technology(Shenzhen)	http://icrc.hitsz.edu.cn/info/1037/1162.htm BQ 语料库包含来自网上银行自定义服务日志的 120，000 个问题对。它分为三部分：100，000 对用于训练，10，000 对用于验证，10，000 对用于测试。数据提供者：哈尔滨工业大学（深圳）智能计算研究中心	是	否	是	是	https://huggingface.co/datasets/shibing624/nli_zh/viewer/BQ	是
lcqmc	口语	149,226	文本分类	相似	优	Ming Xu	哈工大文本匹配数据集，LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，其目标是判断两个问题的语义是否相同	是	否	是	是	https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train	是
paws-x	百科	23,576	文本分类	相似	优	Bhavitvya Malik	PAWS Wiki中的示例	是	是	是	是	https://huggingface.co/datasets/paws-x/viewer/zh/train	是
wiki_atomic_edit	百科	1,213,780	平行语义	相似	优	abhishek thakur	基于中文维基百科的编辑记录收集的数据集	未说明	未说明	是	是	https://huggingface.co/datasets/wiki_atomic_edits	是
chatmed_consult	医药	549,326	问答	问答	优	Wei Zhu	真实世界的医学相关的问题，使用 gpt3.5 进行回答	是	否	是	是	https://huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset	否
webqa	百科	42,216	问答	问答	优	suolyer	百度于2016年开源的数据集，数据来自于百度知道；格式为一个问题多篇意思基本一致的文章，分为人为标注以及浏览器检索；数据整体质量中，因为混合了很多检索而来的文章	是	未说明	是	是	https://huggingface.co/datasets/suolyer/webqa/viewer/suolyer--webqa/train?p=3	否
dureader_robust	百科	65,937	机器阅读理解问答	问答	优	百度	DuReader robust旨在利用真实应用中的数据样本来衡量阅读理解模型的鲁棒性，评测模型的过敏感性、过稳定性以及泛化能力，是首个中文阅读理解鲁棒性数据集。	是	是	是	是	https://huggingface.co/datasets/PaddlePaddle/dureader_robust/viewer/plain_text/train?row=96	否
csl	学术	395,927	语料	摘要	优	Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao and Hui Zhang	提供首个中文科学文献数据集（CSL），包含 396,209 篇中文核心期刊论文元信息（标题、摘要、关键词、学科、门类）。CSL 数据集可以作为预训练语料，也可以构建许多NLP任务，例如文本摘要（标题预测）、关键词生成和文本分类等。	是	是	是	是	https://huggingface.co/datasets/neuclir/csl	否
snli-zh	口语	419,402	文本分类	推理	优	liuhuanyong	中文SNLI数据集，翻译自英文SNLI	是	否	是	是	https://github.com/liuhuanyong/ChineseTextualInference/	是
SimCLUE	百科	2,678,694	平行语义	相似	优	数据集合，请在 simCLUE 中查看	整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集，并重新做了数据拆分和整理。	是	否	否	是	https://github.com/CLUEbenchmark/SimCLUE	是

Who are the source language producers?

数据集的版权归原作者所有，使用各数据集时请尊重原数据集的版权。

SNLI:

@inproceedings{snli:emnlp2015, Author = {Bowman, Samuel R. and Angeli, Gabor and Potts, Christopher, and Manning, Christopher D.}, Booktitle = {Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, Publisher = {Association for Computational Linguistics}, Title = {A large annotated corpus for learning natural language inference}, Year = {2015} }

Who are the annotators?

原作者。

Social Impact of Dataset

This dataset was developed as a benchmark for evaluating representational systems for text, especially including those induced by representation learning methods, in the task of predicting truth conditions in a given context.

Systems that are successful at such a task may be more successful in modeling semantic representations.

Licensing Information

for reasearch

用于学术研究

Contributions

shibing624 add this dataset.

作者:

shibing624

数据集大小:

4.71 GB