模型描述: RoBERTa base OpenAI Detector 是通过使用来自1.5B参数的GPT-2模型输出来微调RoBERTa base模型得到的GPT-2输出检测模型。该模型可用于预测文本是否是由GPT-2模型生成的。该模型与OpenAI同时发布的 largest GPT-2 model 版本的权重一起发布。
该模型是一个分类器,可用于检测由GPT-2模型生成的文本。然而,强烈建议不要将其用作ChatGPT检测器,以便对本科生和其他人进行严重的学术不端指控,因为在ChatGPT生成的输入情况下,该模型可能会给出不准确的结果。
下游使用该模型的开发者表示他们开发和发布该模型是为了帮助与合成文本生成相关的研究,因此该模型可以用于与合成文本生成相关的下游任务。详情请参阅 associated paper 进行进一步讨论。
滥用和超范围使用该模型不应被用于有意创造对人类有敌意或疏远的环境。此外,模型开发者在其 associated paper 中讨论了对手使用模型以更好地逃避检测的风险,暗示使用该模型来逃避检测或支持逃避检测的努力将是对该模型的滥用。
内容警告: 读者应注意,本节的内容可能包含令人不安、冒犯的内容,可能会传播历史和现实的刻板印象。
用户(直接和下游使用者)应该了解模型的风险、偏见和限制。
风险和限制在他们的 associated paper 中,模型开发者讨论了该模型可能被不良用户用于开发逃避检测能力的风险,尽管发布该模型的目的之一是帮助改进检测研究。
在相关的 blog post 中,模型开发者还讨论了检测合成文本的自动化方法的局限性,以及将自动化检测工具与其他非自动化方法相结合的必要性。他们写道:
我们进行了内部的检测研究,并开发了一个检测模型,对于检测1.5B GPT-2生成的文本,检测率达到了约95%。我们认为这个准确率对于独立检测来说还不够高,需要与基于元数据的方法、人类判断和公众教育相结合,以提高效果。
该模型的开发者还发现根据模型规模的增加,内容的分类越困难,这表明使用本模型等自动化工具进行检测在模型规模增加时将会变得越来越困难。作者们发现,将检测器模型训练在更大模型的输出上可以提高准确性和鲁棒性。
偏见大量的研究探讨了语言模型存在的偏见和公平性问题(详见 Sheng et al. (2021) 和 Bender et al. (2021) )。基于RoBERTa base和GPT-2 1.5B(该模型有基于此构建/微调)生成的预测结果可能包含跨受保护群体的令人不安和有害的刻板印象;身份特征;以及敏感的社会群体和职业群体(详见 RoBERTa base 和 GPT-2 XL 的模型卡片了解更多信息)。该模型的开发者在他们的 paper 中进一步讨论了这些问题。
该模型是基于RoBERTa base的序列分类器(关于RoBERTa base训练数据的详细信息,请参见 RoBERTa base model card ),然后使用1.5B GPT-2模型的输出进行微调(可在 here 获取)。
训练过程该模型的开发者写道:
我们基于RoBERTaBASE (1.25亿参数)构建了一个序列分类器,并对其进行了微调,以将1.5B GPT-2模型的输出与用于训练GPT-2模型的WebText数据集进行分类。
他们后来表示:
为了开发出一个能够准确分类生成的文本的强大检测模型,无论采用何种采样方法,我们都对模型的转移性能进行了分析。
详细的训练过程请参见 associated paper 。
以下评估信息摘自 associated paper 。
测试数据、因素和指标该模型旨在用于检测GPT-2模型生成的文本,因此模型开发者在文本数据集上对模型进行测试,并通过以下方式测量准确性:
使用由WebText数据集中的5,000个样本和由GPT-2模型生成的5,000个样本组成的510令牌测试示例进行测试,这些样本在训练过程中没有被使用。
结果该模型的开发者表示:
我们的分类器能够以大约95%的准确率检测到由1.5十亿参数的GPT-2生成的文本...该模型的准确性取决于生成输出时使用的采样方法,如温度、Top-K 和nucleus采样 ( Holtzman et al., 2019 。其中,nucleus采样输出的正确分类最困难,但使用nucleus采样训练的检测器在其他采样方法中也表现良好。 如图1 [在论文中]所示,我们发现在nucleus采样训练时,一致性高的准确性。
详细结果请参见 associated paper ,图1(第14页)和图2(第16页)。可以使用 Machine Learning Impact calculator 中提到的 Lacoste et al. (2019) 来估计碳排放量。
该模型的开发者写道:
有关建模架构和训练细节的更多细节,请参见 associated paper 。
@article{solaiman2019release, title={Release strategies and the social impacts of language models}, author={Solaiman, Irene and Brundage, Miles and Clark, Jack and Askell, Amanda and Herbert-Voss, Ariel and Wu, Jeff and Radford, Alec and Krueger, Gretchen and Kim, Jong Wook and Kreps, Sarah and others}, journal={arXiv preprint arXiv:1908.09203}, year={2019} }
APA:
该模型卡片由Hugging Face团队编写。
该模型可以通过Transformers pipeline进行实例化和运行:
from transformers import pipeline pipe = pipeline("text-classification", model="roberta-base-openai-detector") print(pipe("Hello world! Is this content AI-generated?")) # [{'label': 'Real', 'score': 0.8036582469940186}]