IBM即将推出云服务,使用机器学习算法将PDF文档数字化
2018年08月16日 由 浅浅 发表
679267
0
IBM 将于下周在伦敦举行的2018年KDD会议上预览即将推出的云服务,该服务利用机器学习算法来读取PDF文档,从而可以使用这些文档中的数据来训练AI模型。
IBM研究院杰出研究人员兼认知解决方案基金经理Costas Bekas表示,尽管光学字符识别(OCR)技术可用于数十年的数字化,但IBM Corpus Conversion Service采用机器学习算法可以使用单独的服务器每天数字化100000个PDF文档。
更重要的是,这些文档中的数据可以通过直接查询数据或通过IBM为服务制作的应用程序编程接口(API)进行解析。
“所摄取的数据可由其他服务消费,”Bekas说。
Bekas表示,IBM语料库转换服务旨在使数据科学家能够克服创建人工智能模型所面临的最大挑战。该服务计划于今年晚些时候在IBM Cloud上发布。目前数据科学家需要几个月的时间才能获得一套训练AI模型所需的数据。
IBM Corpus转换服务不是依靠不灵活的规则来识别数据,而是旨在以一种识别文档片段(如摘要)的方式提取数据,无论它在文档中出现的位置或字体大小。
Bekas表示,这种能力意味着,组织将能够雇用只有高中文凭的办公室工作人员,只需按一下按钮即可获取数据,而无需依靠数据科学家团队来注释数据。