亚马逊宣布Transcribe支持实时音频转录功能
2018年11月21日 由 浅浅 发表
441151
0
在新推出的Comprehend服务之后,亚马逊今天宣布其自动语音识别(ASR)服务Amazon Transcribe获得对实时转录的支持。
实时音频转录功能本周可用,使开发人员能够将流传输到Transcribe并实时接收文本脚本。AWS机器学习部高级产品经理Paul Zhao,Amazon Transcribe高级软件工程师Paul Kohan表示,它利用数据传输协议HTTP / 2在应用程序和转录之间传输音频和转录,特别是HTTP / 2的双向流实现,它允许应用程序同时发送和接收数据。
“实时转录使各种垂直行业的用例受益,包括联络中心,媒体和娱乐,法庭记录保存,财务和保险,”Zhao和Kohan在博客中写道,“在媒体中,新闻或节目的直播可以从现场字幕中受益。视频游戏公司可以使用流式转录来满足游戏内聊天的可访问性要求,帮助有听力障碍的玩家。在法律领域,法庭可以利用实时转录来实现速记,而律师也可以在实时成绩单之上进行法律注释以用于存放目的。在企业生产力方面,公司可以利用实时转录动态捕捉会议记录。”
不过实时转录并不是什么新鲜事了:如谷歌的云语音到文本服务,Twilio的语音识别API,以及IBM的Watson Speech to Text。但是Zhao和Kohan声称,转录的解决方案会导致“更快”和“更具反应性”的结果。
亚马逊制作了一个示例应用程序,演示了如何使用Amazon Web Services软件开发工具包来利用实时音频流。它在Github上以开源形式提供。
亚马逊转录在4月份与Translate一起公开发布。它目前支持16 kHz和8kHz音频流;多种音频编码,如WAV,MP3,MP4和FLAC;多种语言,包括美国英语,西班牙语,英国英语,澳大利亚英语和加拿大法语。
预构建的AI API处于AWS的其他AI服务套件中,其中Lex用于自然语言理解,Polly用于语音生成,Rekognition用于图像处理。
代码:github.com/aws-samples/aws-transcribe-streaming-example-java