比OCR更智能!AWS推出Amazon Textract,自动提取文档中的文本和数据
2019年05月30日 由 bie管我叫啥 发表
269783
0
AWS宣布推出Amazon Textract,这是一项云托管和完全托管的服务,使用机器学习几乎在任何文档中自动提取文本和数据,包括表格,无需人工审查、自定义代码或机器学习经验。
Amazon Textract超越了简单的光学字符识别(OCR),它识别表单中的字段内容,存储在表格中的信息以及信息显示的上下文,例如税表中的姓名和社会安全号码。
提取的文本和数据可以很容易地用于在大型文档存档上构建智能搜索,或者可以加载到数据库中供应用程序使用,例如会计,审计和合规性软件。亚马逊Athena和其他机器学习服务可以从提取的文本和数据中获得更深层的含义。
许多公司通过手动数据输入或简单的OCR软件从合同,费用报告,抵押担保,基金招股说明书,税务文件,医院索赔和患者表格等文件中提取文本和数据。这非常耗时且不准确,它产生的输出需要进行大量的后处理才能以其他应用程序可用的格式进行。
而现有的OCR技术无法识别表单和表格等常见布局,只会生成冗长且通常不准确的文本转储。组织需要的是能够从任何格式的文档以及各种文件类型和模板中的表单和表中准确地识别和提取文本和数据。
亚马逊Textract几乎可以分析任何类型的文档,自动生成高度准确的文本,表单和表格数据。它支持包括扫描,PDF和照片在内的图像格式,并且它可以摄取一系列文档格式,包括特定于金融服务,保险和医疗保健的格式,无需任何定制或人为干预。
Amazon Textract使客户可以在几个小时内轻松准确地处理数百万个文档页面,从而显著降低文档处理成本,并使客户能够专注于从文本和数据中获取业务价值,而不是浪费时间和精力进行后期处理。
许多AWS客户已经在使用Textract,包括Globe and Mail,英国国家气象服务公司,普华永道会计师事务所,非营利性管理式医疗机构Healthfirst,机器人流程自动化公司UiPath。
亚马逊机器学习副总裁Swami Sivasubramanian说,“Amazon Textract的强大之处在于它可以准确地从几乎任何文档中提取文本和结构化数据,而无需任何机器学习经验。随后,开发人员可以使用我们的数据库和分析服务分析和查询提取的文本和数据,并与其他机器学习服务集成。”
除了与其他AWS服务的集成之外,围绕Amazon Textract开发的富裕合作伙伴社区使客户能够从文件集中获得真正的意义,更高效地运营。