IBM即将推出云服务，使用机器学习算法将PDF文档数字化

登录注册

行业学习

支撑

数据算量系统

企业招聘智能体

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

公司板科大讯飞

科大讯飞包揽ICPR MTWI图文识别挑战赛三项冠军

行业人工智能

所以，能动手就别吵吵了

行业人工智能

人工智能对 IT 技能和人才发展的影响

常用工具

ChatGPT

OpenAI旗下AI对话工具

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Midjourney

AI图像和插画生成工具，测试测试测试测试测试测测试

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

2018年08月16日由浅浅发表 679445 0

IBM 将于下周在伦敦举行的2018年KDD会议上预览即将推出的云服务，该服务利用机器学习算法来读取PDF文档，从而可以使用这些文档中的数据来训练AI模型。

IBM研究院杰出研究人员兼认知解决方案基金经理Costas Bekas表示，尽管光学字符识别（OCR）技术可用于数十年的数字化，但IBM Corpus Conversion Service采用机器学习算法可以使用单独的服务器每天数字化100000个PDF文档。

更重要的是，这些文档中的数据可以通过直接查询数据或通过IBM为服务制作的应用程序编程接口（API）进行解析。

“所摄取的数据可由其他服务消费，”Bekas说。

Bekas表示，IBM语料库转换服务旨在使数据科学家能够克服创建人工智能模型所面临的最大挑战。该服务计划于今年晚些时候在IBM Cloud上发布。目前数据科学家需要几个月的时间才能获得一套训练AI模型所需的数据。

IBM Corpus转换服务不是依靠不灵活的规则来识别数据，而是旨在以一种识别文档片段（如摘要）的方式提取数据，无论它在文档中出现的位置或字体大小。

Bekas表示，这种能力意味着，组织将能够雇用只有高中文凭的办公室工作人员，只需按一下按钮即可获取数据，而无需依靠数据科学家团队来注释数据。

标签：

机器学习 IBM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇机器学习和人工智能开启了太空探索的新时代

下一篇 Oracle开源Graphpipe：简化机器学习模型在框架中的部署

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）