研究人员开发机器学习算法，使其在没有负面数据的情况下进行分类

2018年11月29日由浅浅发表 204400 0

来自RIKEN Center高级智能项目中心（AIP）的研究团队成功开发了一种新的机器学习方法，允许AI在没有“负面数据”的情况下进行分类，这一发现可能会在各种分类任务中得到更广泛的应用。

分类对我们的日常生活至关重要，例如，我们要检测垃圾邮件，虚假的政治新闻，以及一些日常的东西，如物体或面孔。当使用AI时，这些任务基于机器学习中的“分类技术”，让计算机使用正负数据的边界进行学习，如“正面”数据将是带有幸福面孔的照片，“负面”数据是带有悲伤面部的照片。

一旦学习了分类边界，计算机就可以确定某个数据是正面还是负面的。这项技术的难点在于，在学习过程中，它需要正面和负面数据，但现实中，许多情况无法提供负面数据，例如，很难找到带有悲伤标记的照片，因为大多数人在照相时会微笑。

就现实生活中的项目而言，当零售商试图预测谁将购买商品时，它可以轻松地找到已经购买商品的客户的数据（正面数据），但基本上不可能获得没有购买商品的客户的数据（负面数据），因为他们无法获得竞争对手的数据。

另一个例子是应用程序开发人员常见的任务：他们需要预测哪些用户将继续使用应用程序（正面），而哪些停止使用（负面）。但是，当用户取消订阅时，开发人员会丢失用户的数据，因为他们必须根据隐私政策完全删除该用户的数据。

RIKEN AIP的主要作者Takashi Ishida表示，“以前的分类方法很难应对无法获得负面数据的情况，但只要我们有一个置信度分数，我们就可以让计算机只用正面数据进行学习。对于正面数据，可根据购买意图或应用用户的有效率等信息来构建。使用新方法，我们可以让计算机只从充满信心的正面数据中学习分类。”

Ishida与他的团队研究员Niu Gang，以及团队负责人Masashi Sugiyama的共同提出方法，他们通过添加置信度得分让计算机更好地学习，置信度得分在数学上对应数据是否属于正面类别的概率。他们成功地开发了一种方法，可以让计算机只从正面的数据和信息中学习边界分类，从而对机器学习的分类问题进行正面和负面的划分。

为了了解系统运作情况，他们在一组包含各种时尚商品标记的照片上使用它。例如，他们选择“T恤”作为正面的类别，而另一边，“凉鞋”作为负面类。然后他们在“T恤”照片上附上了置信分数。他们发现，如果不访问负面数据，在某些情况下，他们的方法与一起使用正面和负面数据的方法一样好。

Ishida指出，“这一发现可以扩展可以使用分类技术的应用范围。即使在正面使用机器学习的领域，我们的分类技术也可以用于新的情况，如由于数据监管或业务限制数据只能收集正面数据的情况。在不久的将来，我们希望将此技术应用于各种研究领域，如自然语言处理，计算机视觉，机器人和生物信息学。”

标签：

行业机器学习数据分类正面数据负面数据

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Instagram改进文本识别，为有视力障碍的用户描述照片内容

下一篇以假乱真！MIT新系统通过深度学习和3D打印复制经典画作

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）