英文

问题描述

处理和理解用户输入的能力对于各种应用程序非常重要,例如聊天机器人或下游任务。然而,在这些系统中面临的一个常见挑战是存在无意义的输入或语言。为了解决这个问题,我们提出了一个重点开发英语无意义检测器的项目。该项目的主要目标是将用户输入分类为无意义或有意义,从而实现与系统更准确、更有意义的互动。我们还旨在提高聊天机器人和其他依赖用户输入的系统的整体性能和用户体验。

什么是无意义的?

无意义是指缺乏连贯性或任何可辨认的含义的语言或文本,没有清晰理解的信息。它可以通过随机单词、无意义的短语、语法错误或语法异常的组合来表达,这些组合阻止了沟通传达一个清晰和可理解的信息。无意义的程度可以不同,从没有任何有意义的词语到在表面上看起来可能是正确的句子,但在仔细检查时缺乏连贯性或逻辑结构。检测和识别无意义在各种情况下都是至关重要的,例如自然语言处理、聊天机器人系统、垃圾邮件过滤和基于语言的安全措施,以确保有效的沟通和准确的用户输入处理。

标签说明

因此,我们将问题分解为4个类别:

  • 噪音: 零级无意义,即输入短语的不同组成部分(单词)本身没有意义。

    例如: dfdfer fgerfow2e0d qsqskdsd djksdnfkff swq.

  • 乱炖: 一级无意义,在独立的单词中有意义,但从更大的整体(短语)来看没有任何含义。

    例如: 22 madhur old punjab pickle chennai

  • 轻微无意义: 二级无意义,句子中存在语法错误、词义错误或任何语法异常的部分,导致句子缺乏连贯的含义。

    例如: Madhur study in a teacher

  • 清晰: 此类别表示一组单词在自己身上形成了一个完整且有意义的句子。

    例如: I love this website

  • 提示: 为了便于无意义检测,您可以根据所需的检测级别将标签组合起来。例如,如果您需要检测一级无意义的情况,您可以将噪音和乱炖组合为"无意义",而将轻微无意义和清晰单独视为"非无意义"。这种方法允许根据特定需求灵活地检测和分类不同级别的无意义。

    使用AutoNLP训练的模型

    • 问题类型: 多类别分类
    • 模型ID: 492513457
    • CO2排放量(以克为单位): 5.527544460835904

    验证指标

    • 损失: 0.07609463483095169
    • 准确度: 0.9735624586913417
    • 宏F1值: 0.9736173135739408
    • 微F1值: 0.9735624586913417
    • 加权F1值: 0.9736173135739408
    • 宏精确度: 0.9737771415197378
    • 微精确度: 0.9735624586913417
    • 加权精确度: 0.9737771415197378
    • 宏召回率: 0.9735624586913417
    • 微召回率: 0.9735624586913417
    • 加权召回率: 0.9735624586913417

    用法

    您可以使用cURL访问此模型:

    $ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love Machine Learning!"}' https://api-inference.huggingface.co/models/madhurjindal/autonlp-Gibberish-Detector-492513457
    

    或使用Python API:

    from transformers import AutoModelForSequenceClassification, AutoTokenizer
    
    model = AutoModelForSequenceClassification.from_pretrained("madhurjindal/autonlp-Gibberish-Detector-492513457", use_auth_token=True)
    
    tokenizer = AutoTokenizer.from_pretrained("madhurjindal/autonlp-Gibberish-Detector-492513457", use_auth_token=True)
    
    inputs = tokenizer("I love Machine Learning!", return_tensors="pt")
    
    outputs = model(**inputs)