数据集:
sakusakumura/databricks-dolly-15k-ja-scored
For the English version, please click here .
databricks-dolly-15k-ja-scored は kunishou/databricks-dolly-15k-ja の派生であり、BERTScoreによって提供される翻訳品質スコアが追加されています。
このデータセットは、学術的・商業的問わず クリエイティブ・コモンズ 表示 - 継承 3.0 非移植ライセンス の条件の下で何にでも使用することができます。
databricks-dolly-15k-ja は、 databricks-dolly-15k を機械翻訳したものです。 databricks-dolly-15k-ja に含まれるデータを調べてみると、以下のような品質の悪いデータが存在することが分かりました。
なお、 databricks-dolly-15k では、
そこで、これらのデータを日本語から英語に逆翻訳し、 BertScore によって原文との類似度を調べました。 以下がprecisionとrecallの調和平均であるf1 scoreのヒストグラムです。
これらのスコアでフィルタリングをすることで、低品質のデータを除外することができます。 いくつか例を示します。
`output`が`instruction`にコピーされているデータindex | f1 score |
---|---|
1151 | 0.599859416 |
instruction | input | output |
---|---|---|
Linda Hargreaves is a British actress who has appeared on both stage and screen, making her television debut on the BBC soap opera "Doctors," and has since returned to the soap in three different roles, most recently as a regular on Constance Buchanan. She has also appeared in various television series, including "Containment" and "Call the Midwife." | About Linda Hargreaves | Linda Hargreaves is a British actress who has appeared on both stage and screen, making her television debut on the BBC soap opera "Doctors," and has since returned to the soap in three different roles, most recently as a regular on Constance Buchanan. She has also appeared in various television series, including "Containment" and "Call the Midwife." |
instruction | input | output |
---|---|---|
(empty) | Who is Linda Hargreaves | Linda Hargreaves is a British actress who has appeared on both stage and screen. She made her television debut in the BBC soap opera Doctors and has since returned to the soap on three separate occasions in different roles, most recently in the recurring role of Constance Buchanan. She has also appeared in various television series including Containment and Call the Midwife. |
json
{ "index": "1151", "instruction": "リンダ・ハーグリーヴスとは", "input": "リンダ・ハーグリーヴスはイギリスの女優で、舞台とスクリーンの両方に出演している。BBCのソープオペラ「ドクターズ」でテレビデビューし、その後、3度にわたって異なる役柄でソープに復帰し、最近ではコンスタンス・ブキャナンのレギュラー役を演じている。また、「Containment」や「Call the Midwife」など、さまざまなテレビシリーズにも出演している。", "output": "リンダ・ハーグリーヴスはイギリスの女優で、舞台とスクリーンの両方に出演している。BBCのソープオペラ「ドクターズ」でテレビデビューし、その後、3度にわたって異なる役柄でソープに復帰し、最近ではコンスタンス・ブキャナンのレギュラー役を演じている。また、「Containment」や「Call the Midwife」など、さまざまなテレビシリーズにも出演している。", "category": "summarization" }固有名詞などの翻訳に失敗しているデータ
index | f1 score |
---|---|
1157 | 0.580275774 |
instruction | input | output |
---|---|---|
(empty) | Which type of fish? Mutsugoro and Afro | mullet (hairstyle) |
instruction | input | output |
---|---|---|
(empty) | Which is a species of fish? Mullet or Afro | Mullet |
source:
{ "index": "1157", "instruction": "魚の種類はどれ?ムツゴロウとアフロ", "input": "", "output": "マレット", "category": "classification" }
導き出されるスコアは、和英翻訳に使用するサービス、BertScoreで用いるモデルによって変動します。 学習に使用しても問題ないデータでも、和英翻訳の精度によってスコアが下がることがあります。
例index | f1 score |
---|---|
565 | 0.799999774 |
instruction | input | output |
---|---|---|
(empty) | At the 64th Grammy Awards, the winner of the Best Album of the Year award was | John Baptiste Wins Best Album of the Year at the 64th Annual Grammy Awards |
instruction | input | output |
---|---|---|
(empty) | In 64th Annual Grammy Awards, best album of the year award was given to | Jon Batiste was awarded the best album of the year in 64th Annual Grammy Awards" |
source:
{ "index": "1157", "instruction": "魚の種類はどれ?ムツゴロウとアフロ", "input": "", "output": "マレット", "category": "classification" }
source:
{ "index": "565", "instruction": "第64回グラミー賞で、年間最優秀アルバム賞を受賞したのは", "input": "", "output": "ジョン・バティスト、第64回グラミー賞で年間最優秀アルバム賞を受賞", "category": "open_qa" }
追加した部分と、注意が必要な項目のみ説明します。
データの一意の識別子。 元々は databricks-dolly-15k のどの行を翻訳したものかを示すフィールドでしたが、 databricks-dolly-15k で削除された要素を反映していないため、実際の行数とは異なっています。
フィールド名 | 説明 |
---|---|
index | データの一意の識別子 |
BERTモデルによる評価スコア。 recall、precision、f1の3つの指標を持ちます。
フィールド名 | 説明 |
---|---|
recall | 再現率(正解テキストに含まれる情報が、生成されたテキストにどれだけ反映されているかを示す指標) |
precision | 適合率(生成されたテキストの各部分が、正解テキストとどれだけ一致しているかを示す指標) |
f1 | F1スコア(精度と再現率の調和平均。) |
使用された翻訳サービスの情報。 "en_ja" と "ja_en" の2つのフィールドがあり、それぞれ英語から日本語へ、日本語から英語への翻訳に使用されたサービスを表しています。
フィールド名 | 説明 |
---|---|
en_ja | 英語から日本語への翻訳に使用されたサービス |
ja_en | 日本語から英語への翻訳に使用されたサービス |
このデータセット databricks-dolly-15k-ja-scored は、クニえもんさんが作成した databricks-dolly-15k-ja データセットを基にしています。 クニえもんさんの貴重な作業とコミュニティへの貢献に深く感謝申し上げます。
databricks-dolly-15k-ja-scored Copyright (2023) Sakusakumura. This dataset is licensed under CC BY-SA 3.0.
databricks-dolly-15k-ja Developed by kun1em0n. Available at https://github.com/kunishou/databricks-dolly-15k-ja . This dataset is licensed under CC BY-SA 3.0.
databricks-dolly-15k Developed by Databricks, Inc. Available at https://huggingface.co/datasets/databricks/databricks-dolly-15k . This dataset is licensed under CC BY-SA 3.0.