Babylon:建立AI医生的数据挑战(4/5):理解非结构化数据

2019年08月23日 由 bie管我叫啥 发表 228562 0
这是系列的第四部分,探索了我们在创建个人AI医生时所面临的一些挑战。

当我们想到数据时,我们经常会想到数字整齐地列在表格中,易于转换,分析和使用。但许多医疗数据的结构不太方便。

医生的笔记,测试结果和推荐只是一些例子。在Babylon,当我们的成员使用我们的症状检查器聊天机器人时,还有来自我们成员的自由文本输入。处理非结构化医疗数据的大部分涉及理解自由文本。

问题:我们如何从形式自由、非结构化的医学文本中提取意义?

想想你第一次阅读一段文字的时候。

你要做的通常有两件事:1)在直接背景下理解它,2)以一种你可以在以后情况需要时应用它的方式存储你学到的东西。

机器阅读医学文本也不例外。

第10课:了解非结构化文本应同时考虑当前用例和潜在的未来用例。

1)在直接背景下理解文本:

在Babylon,我们正在开发各种自然语言处理(NLP)技术,专门用于处理不同类型的医疗文本输入以用于不同目的。

我们已经意识到的一些关键属性对于我们的NLP技术非常重要:

  • 将显著信息与背景噪声分开

  • 区分不同类别的医疗信息,例如病症,症状,药物,身体部位

  • 知道什么时候输入是清楚的,什么时候是模糊的或荒谬的,以致于不会返回潜在的误导性输出

  • 使用基于知识的方法,既可以提供更深入的理解,也可以为可解释的算法行为打开大门

  • 可扩展性以高精度和高速度处理大量医学文本


示例说明我们的NLP技术可以从医生的笔记中提取的关键信息


2)存储学到的知识备用:

我们将每个给定的数据点视为金粉。

这是因为我们知道,通过以各种方式将每个点与成员给我们的其他数据点相结合,我们可以创建大量的洞察力和价值,我们可以使用它来提供比以往更有效和个性化的关怀。

要结合来自不同来源的数据点并允许不同的Babylon服务相互交流,我们必须用单一的通用语言表达我们从数据中提取的所有概念。这是一个非常重要的一点,我们将在下面的部分解压缩。

第11课:要以有利于未来使用的方式从数据中提取含义,请使用单一的医学语言。

我们在机器理解复杂,自由流动的人类文本输入方面取得了很大进展。

但是,与我们之前讨论过的Accuracy挑战一样,输出质量受输入质量的限制。

看看这些医生笔记中摘录的例子:

当我们通过最复杂的NLP算法提供写得不好的医生笔记时,输出通常完全是垃圾。但是清晰且结构良好的笔记倾向于产生完全准确地反映预期含义的提取概念。

这就是为什么我们还要为我们的医生开发工具和指导,以便编写人员和机器等人都能轻易理解的咨询记录。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消