谷歌开发语音命令数据集的目的——帮助大家创建基础且有用的语音交互

登录注册

行业学习

支撑

数据算量系统

企业招聘智能体

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

公司板科大讯飞

科大讯飞包揽ICPR MTWI图文识别挑战赛三项冠军

行业人工智能

所以，能动手就别吵吵了

行业人工智能

人工智能对 IT 技能和人才发展的影响

常用工具

ChatGPT

OpenAI旗下AI对话工具

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Midjourney

AI图像和插画生成工具，测试测试测试测试测试测测试

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

2017年08月25日由 nanan 发表 211485 0

谷歌的工程师们经常被问到这样的一个问题——怎么上手用深度学习做语音识别或其它音频识别，比如关键词或指令？

目前，出现了一些很优秀的开源语音识别系统，例如Kaldi，就能把神经系统作为其中的一个模块。但其的高度复杂性，并不适合解决简单问题的指南。更重要的是，对于新手而言，免费、公开可获取到的数据并不多，适合简单的关键词也不是很多。

为解决这一问题，谷歌的TensorFlow 和 AIY 团队创建了TensorFlow 和 AIY 团队创建了Speech Commands Dataset，即“语音命令数据集”。据了解，谷歌在今日宣布开源该数据集。

对于30个命令短语，会有65000次的长约一秒钟的发音，这来源于65000个不同人的贡献。该数据集未来将会不断的扩大。

建立这数据集的目的，是帮助大家为应用创建基础但有用的语音交互。谷歌也已经将开发这一数据集的基础设施开源，尤其是针对冷门语言和应用。

下载预建的 TensorFlow 安卓演示 APP，打开 “TF Speech”，就能体验谷歌基于该数据集开发的识别模型。

标签：

行业数据集数据开源项目

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI空前火爆，“智能时代”真的到来了吗？

下一篇比特币应用AI新技术，达到追踪人口贩卖和性交易犯罪的目的

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）