DefinedCrowd筹集1180万美元为AI模型建立定制数据集

2018年08月01日由浅浅发表 19233 0

收集用于训练机器学习模型的数据并不是简单的工作。算法需要标记良好的高质量源，这就是为什么整理数据集所花费的时间几乎与开发模型一样长，甚至更长。

这是DefinedCrowd旨在解决的问题。这家拥有三年历史的西雅图创业公司将自己描述为“智能”数据策划平台，为客户服务，汽车，零售，医疗保健和其他企业部门的客户提供定制的模型培训服务。今天它宣布它在Evolution Equity Partners，万事达卡，Kibo Ventures和Energias de Portugal（EDP）领导的融资轮融资中募集了1180万美元，并从现有投资者Sony，Portugal Ventures，Amazon和Busy Angels获得额外资金。

DefinedCrowd的首席执行官Daniela Braga在电话采访中表示，“数据需要高质量，如果不是这样，可能会损害品牌。简单地说，我们可以轻松收集和注释模型的高质量训练数据。”

Braga拥有博士学位。在语音技术方面，非常了解数据收集的Sisyphean性质。在创立DefinedCrowd之前，她管理者1400万美元以改善微软的人工智能语音助手小娜，她称这是一场艰苦的战斗。她说，每个产品开发周期大约需要18个月才能获得数据以刷新基础模型。

Braga在众包中找到了出路。DefinedCrowd的新颖方法采用了一个由超过45000名人类贡献者组成的社区（Neevo），他们完成了涉及标签，打字和说出单词和短语的工作。他们每天将超过500000单位的数据上传到填充DefinedCrowd的自然语言处理，语音识别和计算机视觉工具的数据集。

通过API和Web界面，所述工具为DefinedCrowd的客户提供了过滤人口统计数据的自由，他们可以指定贡献成员的年龄，位置和性别，甚至他们对特定语言的熟练程度。该平台支持高达46种语言，约占世界上使用最广泛语言的90％，准确率高达98％。

但它的真正价值主张是它的灵活性，客户使用DefinedCrowd平台不仅可以从头开始训练机器学习模型，还可以使用根据其特定需求量身定制的数据集来扩充现有模型。同时，那些具有更简单要求的人可以利用专门的工作流程，模板和现成的解决方案。

想象一下：亚马逊的Alexa平台上的新闻策划技术拥有大量的国际用户，因此其开发人员需要培养一种在市场上同样准确的语音识别模型。使用DefinedCrowd的工具，他们可以生成多个数据集以提高算法的性能。

DefinedCrowd已经增长了6倍，其中包括宝马，万事达卡，Nuance和雅虎日本等财富500强企业在其冗长的客户名单中名列前茅。其员工超过40人，分布在葡萄牙，西雅图和日本的办事处，并希望在今年年底之前再招聘40名员工。

该公司将利用这笔资金来扩展其产品，发展其开发人员和销售团队，并增加其全球业务。

标签：

机器学习数据集

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI创作十四行诗，堪比莎士比亚

下一篇 Quicksilver：利用AI技术修复百科存在的问题

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）