Facebook开发大型机器学习系统Rosetta，每天从10亿张图片中提取文本

2018年09月13日由浅浅发表 891415 0

在网络上人们不仅要用文字交流，还要与图片交流。对于像Facebook这样每月活跃用户超过20亿的平台，这意味着每天都会发布大量图片，包括表情包。

为了包括在相关的照片搜索结果的文本图像，让屏幕阅读器进行阅读，确保它们不包含仇恨言论和其他违反网站内容政策的词语，Facebook已经创建和部署了一个名为“Rosetta”的大型机器学习系统。

Facebook需要一个可以定期处理大量内容的光学字符识别系统，因此它必须让人联想到自己的技术。根据社交网络，Rosetta每天实时从各种语言中提取超过十亿个图像和视频帧的文本。

在一篇新的博客文章中，Facebook解释了Rosetta的工作原理：它首先检测可能包含文本的图像中的矩形区域。然后它使用卷积神经网络来识别和转录在该区域中写的内容，甚至是非英语单词或非拉丁字母表，例如阿拉伯语和印地语。为了训练这个系统，Facebook使用了人机和机器注释的公共图像。

Rosetta已被Facebook和Instagram内的各种产品和团队广泛采用。从图像中提取的文本被用作各种上游机器学习模型中的特征，例如用于提高照片搜索的相关性和质量的文本，自动识别在平台上以各种语言违反我们的仇恨言语策略的内容，并提高准确性。 News Feed中的照片分类表面更加个性化的内容。

当超越图像这一格式时，最大的挑战之一是从视频中有效地提取文本。随着视频作为一种分享内容的方式的快速增长，支持更多语言的需求，以及人们分享内容的方式越来越多，使得从图像和视频中提取文本成为一项激动人心的挑战，有助于推动计算机视觉研究的前沿和应用程序。

由于平台上视频的大量增长，将基于图像的文本提取应用于每个视频帧的简单方法是不可扩展的，并且只会导致浪费的计算资源。最近，3D卷积已经获得广泛采用，因为它们除了空间域之外还能够对时域进行建模。我们开始探索应用3D卷积的方法，以便更智能地选择感兴趣的视频帧以进行文本提取。

文献中研究的文本识别模型主要集中在英语或拉丁字母数据集上。为了支持全球平台，Facebook还继续投资扩展使用的大量语言的文本识别模型。虽然SynthText作为一种引导训练的方式很有帮助，但它还不能替代人类注释的数据集。因此，团队正在探索如何弥合合成引擎与图像上文本的真实分布之间的领域差距。

说到语言，Facebook还增加了24种新语言的自动翻译服务，包括塞尔维亚，白俄罗斯，马拉地语，僧伽罗语，泰卢固语，尼泊尔语，卡纳达语，乌尔都语，旁遮普语，柬埔寨语，普什图语，蒙，祖鲁，科萨和索马里。

Facebook承认这些语言的翻译处于早期阶段，因此它们仍然会有很多错误。不过，它计划继续改进它们，并在未来推出更多语言。

论文：www.kdd.org/kdd2018/accepted-papers/view/rosetta-large-scale-system-for-text-detection-and-recognition-in-images

标签：

视觉识别 Facebook 计算机视觉

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 MIT新AI模型揭开黑匣子：使用透明的、类似人类的推理解决问题

下一篇 Mapillary与Amazon Rekognition合作开发AI系统，便于在拥挤地区寻找停车位

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）