研究人员教人工智能写出更好的图表标题

2023年06月30日由 Susan 发表 114756 0

解释复杂趋势和模式的图表标题对于提高读者理解和记忆所呈现数据的能力非常重要。对于视力障碍者来说，标题中的信息通常是他们理解图表的唯一途径。

但编写有效且详细的标题是一项费时费力的过程。虽然自动标题技术可以减轻这个负担，但往往无法描述提供额外上下文的认知特征。

为了帮助人们撰写高质量的图表标题，麻省理工学院的研究人员开发了一个数据集，以改进自动标题系统。利用这个工具，研究人员可以教导机器学习模型根据用户的需求，调整图表标题中的复杂程度和内容类型。

研究人员发现，使用他们的数据集训练的机器学习模型在自动标题生成方面始终能够产生准确、语义丰富、描述数据趋势和复杂模式的标题。定量和定性分析显示，相比其他自动标题系统，他们的模型在为图表添加标题方面效果更好。

该团队的目标是将这个名为VisText的数据集提供给其他研究人员，作为他们解决图表自动标题问题时可以使用的工具。这些自动化系统可以帮助为未添加标题的在线图表提供标题，并提升视觉障碍者的可访问性，麻省理工学院电气工程与计算机科学研究生、计算机科学与人工智能实验室（CSAIL）可视化组成员、本文的共同第一作者安吉·博古斯特说道。

她表示：“我们在数据集中注入了许多人类价值观，这样我们和其他研究人员在构建自动图表标题生成系统时，就不会得到不符合人们期望和需求的模型。”

本文的共同第一作者还包括本尼·J·唐，以及麻省理工学院计算机科学副教授、CSAIL可视化组负责人阿尔温德·萨蒂亚纳兰。该研究将在计算语言学协会年会上进行发布。

以人为本分析

该研究团队的灵感来自于可视化组的先前工作，该工作探索了什么是好的图表标题。在那项研究中，研究人员发现，有视力的用户与盲人或低视力用户对标题中的语义内容复杂性有不同的偏好。

该团队希望将这种以人为中心的分析引入自动标题研究中。为此，他们开发了VisText，这是一个包含图表及其相关标题的数据集，可用于训练机器学习模型生成准确、语义丰富且可定制的标题。

开发有效的自动标题系统并非易事。现有的机器学习方法常常尝试像处理图像一样为图表添加标题，但人类和模型解读自然图像与解读图表的方式不同。其他技术则完全跳过视觉内容，仅使用图表的基础数据表格为其添加标题。然而，这种数据表格在图表发布后通常不可用。

考虑到使用图像和数据表格的不足，VisText将图表表示为场景图。场景图可以从图表图像中提取出来，它包含了所有的图表数据，同时还包括了额外的图像语境。

唐解释说：“场景图就像最佳结合，它几乎包含了图像中的所有信息，并且从图像中提取比从数据表格中提取更容易。同时，作为文本，我们可以利用现代大型语言模型在自动生成标题方面的进展。”

他们编制了一个包含12,000多个图表的数据集，每个图表都表示为数据表格、图像和场景图，并附带标题。每个图表都有两个独立的标题：一个低层次标题，描述图表的构造（如其轴范围），以及一个高层次标题，描述统计数据、数据关系和复杂趋势。

研究人员使用自动化系统生成了低层次标题，并从人工智能的工作者中获取了高层次标题。

唐表示：“我们的标题受到了两个关键的先前研究的启发：关于可访问性描述视觉媒体的现有指南以及我们团队提出的一个用于分类语义内容的概念模型。这确保了我们的标题包含了对视觉障碍读者重要的低层次图表元素，如轴、刻度和单位，同时保留了人类在撰写标题时的可变性。”

翻译图表

研究人员使用VisText训练了五个自动标题的机器学习模型，并收集了图表图像和标题。他们想了解每种表示方式（图像、数据表格和场景图）以及这些表示方式的组合是如何影响标题质量的。

博古斯特说：“你可以把图表自动标题模型想象成一个语言翻译模型。但我们不是让它将德语文本翻译成英语，而是将‘图表语言’翻译成英语。”

研究结果显示，使用场景图训练的模型的表现与使用数据表格训练的模型相当甚至更好。由于从现有图表中提取场景图更加容易，研究人员认为它们可能是一种更有用的表示方式。

同时，他们将低层次和高层次标题分别用于训练模型。通过这种称为语义前缀调整的技术，他们可以教导模型改变标题内容的复杂度。

此外，他们对最佳表现方法生成的标题进行了定性评估，并对六种常见错误进行了分类。例如，如果模型说一个趋势在减少，而实际上它在增加，那么就会产生方向错误。

这种细粒度的、稳健的定性评估对于理解模型产生错误的原因非常重要。例如，使用定量方法，方向错误可能会受到与重复错误相同的惩罚，其中模型重复相同的词语或短语。但是，方向错误可能比重复错误更具误导性。博古斯特表示，定性分析帮助他们了解这些细微之处。

这些错误还揭示了当前模型的局限性，并引发了研究人员在开发自动标题系统时必须考虑的伦理问题。

生成式机器学习模型（例如ChatGPT）已经被证明会产生幻觉或提供错误信息，可能会误导用户。尽管使用这些模型为现有图表添加标题具有明显好处，但如果图表标题错误，可能会传播错误信息。

她表示：“也许这意味着我们不应该只是用人工智能为所有的图表都添加标题。相反，也许我们将这些自动标题系统提供给人们作为编辑的工具。在整个研究过程中都要考虑这些伦理问题，而不只是在最后部署模型时才考虑。”

博古斯特、唐和他们的同事希望继续优化模型，减少一些常见的错误。他们还希望扩展VisText数据集，包括更多、更复杂的图表，例如具有堆叠条形图或多条线的图表，并希望能够洞察这些自动标题模型对图表数据的实际学习情况。

来源：https://techxplore.com/news/2023-06-ai-captions.html

标签：

行业机器学习人工智能图表标题

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Microsoft推出首个生成式AI技能专业证书

下一篇 Inflection AI获13亿美元融资：微软，NVIDIA，比尔盖茨等加持

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）