科大讯飞包揽ICPR MTWI图文识别挑战赛三项冠军
2018年08月22日 由 荟荟 发表
1000066
0
近日,在第24届国际模式识别大会(ICPR 2018)举办的MTWI图文识别挑战赛中,科大讯飞与中科大语音及语言国家工程实验室联合团队以绝对实力包揽了全部三项任务的冠军,进一步彰显了科大讯飞在图文识别技术上的业界领先地位。
[caption id="attachment_28908" align="aligncenter" width="754"]
科大讯飞MTWI图文识别挑战赛排名图1[/caption]
任务一:网络图像的文本行(列)识别(Text Line Recognition of Web Images),共有70支队伍参赛
[caption id="attachment_28909" align="aligncenter" width="754"]
科大讯飞MTWI图文识别挑战赛排名图2[/caption]
任务二:网络图像的文本检测(Text Detection of Web Images),共有193支队伍参赛
[caption id="attachment_28911" align="aligncenter" width="751"]
科大讯飞MTWI图文识别挑战赛排名图3[/caption]
任务三:网络图像的端到端文本检测和识别(End-to-End Text Detection and Recognition of Web Images),共有26支队伍参赛
ICPR MTWI挑战赛是什么?
MTWI(Multi-Type Web Images,多样式网络图像)识别挑战赛由模式识别领域的国际盛会ICPR(International Conference on Pattern Recognition)举办,吸引了三星中国研究院、
商汤科技、网易、清华大学、北京大学、中科院等众多产业界和学术界的著名研究机构参与。
此次比赛共分为三个子任务:
任务一(文本行识别)要求参赛者识别出给定的文本行图像中的文字;
[caption id="attachment_28912" align="aligncenter" width="1053"]
科大讯飞MTWI图文识别挑战赛任务1图[/caption]
任务二(文本检测)要求参赛者在给定的网络图像中检测出文本行所在的位置;
[caption id="attachment_28913" align="aligncenter" width="1045"]
科大讯飞MTWI图文识别挑战赛任务2图[/caption]
任务三(端到端文本检测和识别)则需要同时对文本行进行检测并识别。
[caption id="attachment_28914" align="aligncenter" width="1053"]
科大讯飞MTWI图文识别挑战赛任务3图[/caption]
MTWI挑战赛使用的数据集是由华南理工大学联合阿里巴巴共同收集和标注的淘宝商品类图像,其中训练集和测试集各有一万张图像,每支参赛队伍有三次机会提交测试集的测试结果,由比赛举办方评测得分,并按照每支队伍的最优成绩排名。
新的难题,新的算法
作为亚太地区最大的智能语音与人工智能上市公司,科大讯飞不仅在智能语音、自然语言处理等领域硕果累累,也在图文识别领域深耕多年,并成功将文字文档识别技术应用在移动终端输入法、教育考试、司法辅助等领域。为了在其他场景中验证图文识别技术的有效性和领先性,科大讯飞与NELSLIP(National Engineering Laboratory for Speech and Language Information Processing,中科大语音及语言国家工程实验室)的杜俊教授、戴礼荣教授团队联合参加了此次场景更为复杂多变的MTWI识别挑战赛。
科大讯飞在图文识别领域的多年经验主要集中在教育、司法、输入法等场景下,已形成一套完备的基于深度神经网络模型的文档图像分析识别的系统。然而,与这些应用场景不同,网络图像识别的主要难点在于其字体变化多样、存在几个到几百像素字号、多种版式,并且还包含较多干扰背景。另外,在本次比赛中,相较于英文和其他字符,结构更复杂的汉字占很大比例,且统计发现在训练集中有75%的汉字出现不到50次,这无疑给识别和检测都带来了很大的困难。
针对上述现象,在识别任务中,科大讯飞与NELSLIP联合团队基于Encoder-Decoder思想,提出了一种新的结构分析算法,该算法将中文拆成多个部件、英文单词拆成单个字符后借助Attention进行识别,在准确识别出多个部件后再利用动态规划策略进行重组,从而得到最终的输出结果,这种依赖分析结构的方法,可以有效地解决字体多样、结构复杂带来的识别率低下的问题。除此之外,还使得模型具备了识别低频词和集外词的能力。在检测任务中,为了解决文字尺度变化大、文本行朝向不一致的问题,科大讯飞与NELSLIP联合团队对输入图像构建空间金字塔,在各个尺度上预测各种朝向文本行所在的任意四边形的顶点,从而完成文本行的准确定位。
图文识别用于现实场景
在手写识别应用方向,科大讯飞AI研究院图文识别团队具有行业内领先的在线和离线手写识别系统,可以进行中文、英文、数学公式等多种应用场景下的在线和离线文字字符识别,相关的技术已经成功在讯飞输入法、教育评测、智能辅助评卷等应用场景获得实用;面向公检法等应用场景的文档图像分析与识别系统,目前也已经在自动编目、辅助判案等场景、智慧城市中的文档信息结构化处理等应用场景获得实用。
在讯飞语记、讯飞阅读、讯飞有声等app中,也有图文识别系统的应用。日常的工作学习中,纸质文献、PDF、老师板书等再也不需要拍下来再逐字敲进文档,比如用讯飞语记就可以将图片中的文字直接转成可编辑的文本,大大提高工作学习效率。
计算机视觉的发展,特别是文档图像的分析与识别应用,和智能语音、智能交互、大数据信息分析等多方面的综合应用一样具有十分广阔的前景。依托科大讯飞的“平台+赛道”的AI落地战略,通过讯飞开放平台,必将使得各项AI能力更好地为改变信息的交流以及互联互通,创造更大价值。