Dropbox推出机器学习驱动的AutoOCR,可以从PDF和图像中索引文本
2018年10月10日 由 浅浅 发表
14047
0
按文件名搜索PDF或图像是一项艰巨的工作,特别是如果这些文件名不具有描述性。但如果你是Dropbox用户,这就会变得更容易。
Dropbox今天宣布推出Auto OCR,这是一款机器学习驱动的光学字符识别(OCR)引擎,可自动从图片和PDF中提取和索引文本,包括已经存储在Dropbox超过5亿用户帐户中的240亿数据。Dropbox表示,这是其机器学习团队所进行的计算密集程度最高的项目。
团队在一篇博客文章中写道,“这项新功能利用我们的机器智能功能,使搜索变得更加智能。”
Auto OCR可以或多或少地按照你的预期运行。如果你要查找的文档包含唯一的标题,名称,地址或字符串,就在Dropbox的网络,桌面或移动设备的搜索栏中将其删除,这会将相关文件放到结果的顶部。在发布时,大多数新的和以前上传的JPEG,GIF,PNG,TIFF和PDF将被完整索引。
“想要寻找几年前队友扫描的合同?只需搜索供应商,”Dropbox写道。“试图追踪建筑师为你的改造整理的蓝图?输入他们的名字。不记得你保存那个航班的行程截图了吗?输入进入目的地机场。”
Auto OCR目前仅限英语,且必须注册三个高级计划之一:Dropbox Professional(每月每位用户12.5美元),Business Advance(每月每位用户20美元)或Enterprise。从本周开始,Dropbox Business Advanced和Enterprise管理员可以通过管理控制台打开自动OCR 。
Auto OCR是Dropbox智能计划(DBXi)的一部分,Dropbox希望将AI投入到其所有产品和服务中。
OCR在云存储领域并不算新鲜事;微软的OneDrive可以搜索文档内的文本,Google Drive也可以。Dropbox机器学习工程师Leonard Fink表示,尽管如此,设计一个可以扩展到数亿个文档和图像的系统是非常复杂的。
“我们想要处理的文件类型是那些目前没有可索引文本内容的文件,”Fink在博客文章中写道,“这包括没有文本数据的图像格式和PDF文件。但是,并非所有图像或PDF都包含文本;事实上,9%的JPEG只是没有任何文字的照片或插图。”
PDF提出了特殊的挑战。根据Fink的说法,Dropbox的平均文档有8.8页,如果文件没有按优先顺序排列,那么它的处理开销将是JPEG的10倍。
Dropbox团队的解决方案是将它们分成三部分:具有已经嵌入和可索引的文本的PDF,具有图像形式的文本的PDF,以及没有实质文本的PDF,并且将索引页面的数量限制在10(Fink指出,Dropbox中有一半的PDF只有一页,而90%有10页或更少)。
为了从PDF中提取单词,自动OCR使用基于PDF开发的服务器端组件将整个页面渲染为栅格数据,这是谷歌开源Chromium项目中的渲染器(以及Chrome浏览器的基础)。它与Dropbox用于生成PDF的预览缩略图以及检测PDF中的正文文本的系统相同。
从公共资源,用户和Dropbox员工收集的数千张图像上训练的TensorFlow模型确定哪些文件是文本提取的最佳候选者,第二种AI模型(在开源ImageNet数据集上训练的改进的Densenet-121深度卷积网络)检测图像中文档的角落。同时,另一个模型从大致对应于单词的文件中提取“标记”,它在列表中排列并添加到Dropbox的搜索索引中。
一个微型服务工作者lambda,使用Cape,Dropbox的内部大型异步事件流处理框架创建,每当文件上传或编辑时启动自动OCR管道。为了提高系统的稳健性,Dropbox团队实施了一个“重试”逻辑,可以在发生错误时连续尝试解析PDF或图像。(根据Fink的说法,它导致PDF元数据提取失败率降低了88%)。
“使文档图像可搜索是深入理解文档结构和内容的第一步,”Fink写道,“借助这些信息,Dropbox可以帮助用户更好地整理文件,以迈向更开明的工作方式。”
自DBXi和Dropbox首次公开募股开始以来的几个月,AI产品部署的数量有所增加。
“我们看到使用机器智能改善工作体验的巨大潜力,”Dropbox产品组经理Timo Mertens和Vinod Valloppillil在博客文章中写道,“从技术角度来看,这些都是需要解决的重要问题,而成功不仅意味着直观的用户界面,还意味着快速响应时间,业界领先的预测以及维护数据隐私的最高标准。”