亚马逊宣布Transcribe支持实时音频转录功能

2018年11月21日由浅浅发表 441374 0

在新推出的Comprehend服务之后，亚马逊今天宣布其自动语音识别（ASR）服务Amazon Transcribe获得对实时转录的支持。

实时音频转录功能本周可用，使开发人员能够将流传输到Transcribe并实时接收文本脚本。AWS机器学习部高级产品经理Paul Zhao，Amazon Transcribe高级软件工程师Paul Kohan表示，它利用数据传输协议HTTP / 2在应用程序和转录之间传输音频和转录，特别是HTTP / 2的双向流实现，它允许应用程序同时发送和接收数据。

“实时转录使各种垂直行业的用例受益，包括联络中心，媒体和娱乐，法庭记录保存，财务和保险，”Zhao和Kohan在博客中写道，“在媒体中，新闻或节目的直播可以从现场字幕中受益。视频游戏公司可以使用流式转录来满足游戏内聊天的可访问性要求，帮助有听力障碍的玩家。在法律领域，法庭可以利用实时转录来实现速记，而律师也可以在实时成绩单之上进行法律注释以用于存放目的。在企业生产力方面，公司可以利用实时转录动态捕捉会议记录。”

不过实时转录并不是什么新鲜事了：如谷歌的云语音到文本服务，Twilio的语音识别API，以及IBM的Watson Speech to Text。但是Zhao和Kohan声称，转录的解决方案会导致“更快”和“更具反应性”的结果。

亚马逊制作了一个示例应用程序，演示了如何使用Amazon Web Services软件开发工具包来利用实时音频流。它在Github上以开源形式提供。

亚马逊转录在4月份与Translate一起公开发布。它目前支持16 kHz和8kHz音频流；多种音频编码，如WAV，MP3，MP4和FLAC；多种语言，包括美国英语，西班牙语，英国英语，澳大利亚英语和加拿大法语。

预构建的AI API处于AWS的其他AI服务套件中，其中Lex用于自然语言理解，Polly用于语音生成，Rekognition用于图像处理。

代码：github.com/aws-samples/aws-transcribe-streaming-example-java

标签：

行业语音识别自然语言处理NLP 亚马逊Amazon

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Zeroth和软银旗下的Deepcore联手，为早期AI项目寻找机会

下一篇时隔三年半，英特尔发布开源计算机视觉库OpenCV 4.0

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）