生成式人工智能和机器学习：数据质量革命的引领者

2023年06月05日由 Neo 发表 679140 0

通过以前所未有的方式自动化和简化数据管理任务，生成式人工智能技术将彻底改变组织处理数据的方式。

一场新的数据质量革命正在进行，由使用生成式人工智能和机器学习技术（例如 ChatGPT）的模型提供支持。尽管到目前为止，人工智能在数据行业的应用主要集中在预测分析上，但今天我们正在进入一个创造性的生成人工智能时代，一个强大的自然语言处理、数据分析和自动化工具将塑造数据管理的未来和数据质量。

自上世纪50年代和60年代开始在数据行业中使用，早期的AI程序使用基于规则的系统、符号推理和专家系统来从数据中推断和生成见解。今天，AI的使用加速了：根据《数据和分析领导年度执行调查2023》的数据，80.5%的数据高管表示，AI/ML将是2023年数据和分析投资增长的领域，其中16.3%的组织将其作为最高投资优先事项，其次是10.6%的组织关注数据质量。

“数据质量是数据管理的关键方面，”数据集成和数据完整性领导者Talend的解决方案工程经理Davide Pelosi解释道。“它确保企业可以基于准确、完整和一致的信息做出明智的决策。当数据质量不佳时，可能会导致决策错误、收入损失和品牌声誉受损。

“幸运的是，软件解决方案提供商正在领先创新的数据质量工具和技术，帮助企业快速高效地识别和解决数据质量问题，”他说。“然而，还有很多工作要做。在最近的一项调查中，97% 的Talend受访者表示他们在使用数据时面临挑战，他们最关心的问题是确保数据质量，几乎半数受访者（49%）将其列为首要关注点。这意味着有巨大的改进机会——对于做得好的企业来说，回报是巨大的。”

未来的数据质量工作流程

根据 Gartner 的一份报告，到 2025 年，至少 50% 的数据管理任务将实现自动化。大多数将使用 AI/ML 驱动的自动化完成，例如生成语言模型，因此是时候让老式的数据管理技术靠边站了，因为 ChatGPT 和其他生成语言应用程序有望撼动市场。

从内容创建到开发任务自动化，这些技术已经在商业世界掀起波澜——坦率地说，它们对数据管理和数据质量计划的影响令人兴奋。

“通过以前所未有的方式自动化和简化数据管理任务，这些技术有望彻底改变组织处理数据的方式，”Pelosi评论道。“下一级自动化和效率的前景意味着企业比以往任何时候都更容易确保其数据的准确性、完整性和一致性。让我们以数据质量工作流程为例。

首先，使用机器学习算法进行技术数据质量评估，以识别异常并量化问题的严重程度。然后，基于评估结果，可以使用生成式语言模型建议自然语言文本中的数据质量规则和转换，业务利益相关者可以轻松理解。

从那里开始，这些提议的规则可以由数据质量专家和业务利益相关者进行审查和验证，他们可以接受或拒绝这些规则，或提出修改意见以更好地与他们的业务要求相一致。

“企业还可以通过使用自然语言询问来创建额外的业务规则，而无需开发复杂的UI，”Pelosi 补充道。“例如，企业用户可能会问，‘请将饮酒的可接受年龄提高到 18 岁，并将所有不遵守规定的人标记为不属于春季营销活动的目标’，就像我们今天对 Alexa 所做的那样。一旦接受了规则，就可以使用类似的基于模板的方法将它们转换为可执行代码，例如 Python 或 SQL。

当然，在将代码部署到生产环境之前，需要使用数据样本进行测试和验证，以确保规则按预期工作并满足数据质量指标。但是，一旦完成，清理后的数据可以用于各种下游任务，从数据分析和可视化到机器学习和业务智能。

“想象一下：数据管理和质量的世界即将经历一场重大变革，我们可以先睹为快。尽管生成语言模型在这一领域的使用仍处于起步阶段，并且正在由行业专家进行研究，但已经有一些令人瞠目结舌的研究项目和原型展示了这项技术令人难以置信的潜力。”

应对当前的局限性需要格外小心

凭借在各种专业和学术基准测试中的人类水平表现，OpenAI 的 GPT 技术的最新版本 GPT-4 令人印象深刻。

然而，GPT-4 与早期的 GPT 模型一样存在类似的限制。OpenAI 团队表示：“最重要的是，它仍然不是完全可靠的。在使用语言模型输出时应该非常小心，特别是在高风险的情况下，确切的协议（例如人工审查、附加上下文的基础或完全避免高风险使用）应该与特定用例的需求相匹配。"

Alation 的首席战略官兼联合创始人 Aaron Kalb重申了最后一点：不应该信任像 GPT 这样的工具来为重要决策提供建议。

“这是因为它旨在生成看起来正确且具有极大灵活性和流畅性的内容，这会产生一种虚假的可信度，并可能导致所谓的人工智能‘幻觉’。

正如 Kalb（在 Apple 工作时是其开创性的 Siri 语音助手背后的创始团队成员）所解释的那样，使 GPT 如此诱人的真实性和易用性也是其最明显的局限性：“只有当 GPT模型通过元数据上下文提供知识——因此本质上是关于它所在位置的上下文数据，它的可信度如何，以及它是否是高质量的——这些幻觉或不准确的反应是否可以得到修复，并让 GPT 成为值得信赖的 AI 顾问。”

“GPT听起来很聪明，令人印象深刻。问题是它仍然不知道它在说什么。它没有试图用语言表达的知识。它真的很擅长知道在之前的单词之后“感觉正确”的单词，因为它已经有效地阅读和记忆了整个互联网。它经常得到正确的答案，因为对于许多问题，人类已经集体在网上反复发布了答案。”

来源：https://aimagazine.com/articles/generative-ai-and-ml-fuelling-a-revolution-in-data-quality

标签：

人工智能未来机器学习应用数据质量

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇研究发现来源验证问题损害了 ChatGPT 的可靠性

下一篇机器学习帮助研究人员以 97% 的准确率识别热门歌曲

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）