数据集:
argilla/databricks-dolly-15k-curated-en
在这个数据集中,你会找到一系列的记录,显示了一个类别,一个指令,一个上下文和对该指令的回应。该项目的目的是纠正指令、输入和回应,以确保它们的质量达到最高水平,并且与它们所属的任务类别相匹配。所有三个文本都应清晰明了,并包含真实信息。此外,回应应该尽可能完整但简洁。 为了策划这个数据集,您需要回答以下文本字段的问题: 1 - 最终指令:指令字段的最终版本。您可以使用指令字段中的复制图标进行复制。如果没有问题,可以保持不变,或者进行必要的更正。如果指令不能很好地表示任务类别,请修改指令。 2 - 最终上下文:上下文字段的最终版本。您可以使用上下文字段中的复制图标进行复制。如果任务类别和指令不需要上下文来完成,则将此问题留空。 3 - 最终回应:回应字段的最终版本。您可以使用回应字段中的复制图标进行复制。如果没有问题,可以保持不变,或进行必要的更正。请检查回应是否与以上所有字段一致。 您需要为所有记录至少提供一条指令和一条回应。如果对一条记录不确定,并且不想提供回应,请选择“丢弃”。 字段:
要使用Argilla加载这个数据集,您只需按照以下步骤安装Argilla:pip install argilla --upgrade,然后使用以下代码:
import argilla as rg ds = rg.FeedbackDataset.from_huggingface('argilla/databricks-dolly-15k-curated-en')通过Datasets加载:
要使用Datasets加载此数据集,您只需按照以下步骤安装Datasets:pip install datasets --upgrade,然后使用以下代码:
from datasets import load_dataset ds = load_dataset('argilla/databricks-dolly-15k-curated-en')