通过实例说明机器学习如何处理歧义

2018年07月09日由浅浅发表 349420 0

在机器学习和人工智能的世界中，遇到的每个独特的现实世界问题都有其自身的影响和危险。尽管采用了所有有效的技术，但有时很难取代诸如“不确定性”的简单因素。例如，在图像分类中，如果未详细考虑数据中的图像特征，则即使学习算法相应地对它们进行分类，系统中的输出也将是模糊的。

当谈到ML中的模糊性时，这只是冰山一角。尽管ML系统经过精心设计，但有时会遇到新的，不确定的问题。不确定性可能存在于ML的任何部分，无论是在目标中还是在它收到的数据中。这些因素导致开放性的解释。在本文中，我们将研究ML以最合适的方式处理歧义的一些情况。

案例1：自然语言处理

对ML模糊性的最早研究之一是准确地开发自然语言任务，其中算法被作用于特征空间中的线性分离器。这是为了解决算法处理的语言中存在的语义错误和语法错误。在美国宾夕法尼亚大学教授Dan Roth的一项研究中，他提出了一种学习方法，其中线性分离器用于解决语言歧义。

该研究侧重于语言方面，如机器翻译的单词选择，词性标注和词义消歧。该研究的研究论文将语言学习过程视为消歧问题，并应用线性分离技术。消歧问题的正式定义是用不同的单词谓词，它们的分类和学习问题的特征来定义的。此外，还强调了各种消歧方法，以将它们用作线性分离器。

与其他方法，如Naive-Bayes和基于转换的学习（TBL）相比，该研究中提到的线性分离方法确实表现良好，从而为自然语言中的模糊性提供了更好的选择。

案例2：DNA测序

基因组学的进步非常迅速，已经为测序过程产生了大量可能的数据。测序是在DNA中排列核苷酸以确定遗传信息的过程。虽然有些机器能够在更快的时间内分析测序。德国马克斯普朗克进化人类学研究所开发了一种名为Ibis（改进的基础识别系统）的新机器，与Illumina合作，Illumina是一种使用荧光测序DNA碱基的分析仪（该过程称为碱基调用）。

该系统利用ML和统计方法，如聚类和支持向量机（SVM）。它主要通过学习数百万DNA分子中碱基的强度（强度）来改善碱基调用过程。强度在ML过程中标记。模糊性存在于基础的强度，如果错误地解释了整个测序过程可能无效，或者在整个过程中没有正确捕获它们。Ibis通过确保完美捕获强度水平来解决这个问题。因此，它使用多类SVM来实现。

案例3：图像分类识别单词，即视觉单词

ML中最具挑战性的问题之一是使用图像分类的语言描述（例如颜色或特征），这导致了许多种解释。表达视觉描绘的单词通常不考虑ML中的技术，例如图像分类，因为它应该同时考虑图像和文本特征。它需要大量数据，其中分类可能进一步复杂化。尽管已经有研究将文本和图像都考虑在一起用于训练“视觉单词”，但是这些依赖于每个视觉描绘的词的最佳可能定义。

一个研究已经缓解了这一问题，阿姆斯特丹大学的研究人员设计了一个“codebook”，这包含了通过ML映射到图像特征通用的词汇表。研究人员在五个数据集上测试这些数据，发现图像单词匹配明显更好。

上述少数案例仅涵盖了ML的文本方面。像这样，ML包含许多不同的数据，如图像，视频，代码等。如果加入更多高质量数据，歧义将更少。此外，ML理想化的目标应该是精确的，并且与图中ML项目的要求一致。

标签：

机器学习自然语言处理NLP 计算机视觉时间序列

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 MIT最新成果：利用AI系统PixelPlayer改变特定乐器音量

下一篇研究人员开发AI预测婴儿发育障碍

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）