阿里达摩院博士薛少飞：在阿里巴巴做博士后是一种怎样的体验？

2018年06月26日由荟荟发表 333893 0

[caption id="attachment_30865" align="aligncenter" width="640"]

薛少飞（左九）与他所在的机器智能技术实验室团队[/caption]

阿里巴巴又招博士后了。近日，阿里巴巴发布2018年博士后招聘启事，针对人工智能、机器学习、数据挖掘、机器人、高性能计算、通信技术、人机交互、物联网等研究方向，邀请海内外博士加入阿里博士后科研工作站。

针对人才，阿里也开出了丰厚的条件。除了提供“具有市场竞争力的薪酬福利”，协助申请国家级、省级和市级多种科研经费之外，阿里还将协助博士后解决北京或杭州户口。

那么，在阿里做博士后究竟是一种怎样的体验呢？阿里薛少飞博士后和我们聊了聊他们的故事。

做真正影响用户的技术和产品

—— 薛少飞（阿里北京站第一批出站博士后），阿里巴巴 iDST 语音识别专家，中国科学技术大学博士。现负责阿里声学模型研究与应用：包括语音识别声学建模和深度学习在业务场景中的应用。博士期间的研究方向为语音识别说话人自适应，提出基于 Speaker Code 的模型域自适应方法，在语音相关的会议和期刊上发表论文十余篇。

我是去年11月份出站的，现在的Title是阿里达摩院机器智能技术实验室算法专家，主要负责语音识别的技术创新和产品落地。我在这个领域已经做了快十年——本科是中国科学技术大学电子信息专业，大三就进了实验室，后来保送硕博连读，在中科大一直读完博士。

[caption id="attachment_30867" align="aligncenter" width="640"]

薛少飞（左一）参加ICASSP2017国际学术会议[/caption]

到阿里做博士后，我看重的是阿里这个平台。它有很多的应用场景，有很多的数据。我们做语音识别需要大数据以及资源、平台，阿里都具备，而且我在进入之前就对我们团队有所了解，这是一群能够做出事情的人。

我是阿里北京站第一批博士后，2015年9月进站。刚到阿里做的第一个项目就很有成就感。那是一个智能客服的项目，在用户咨询人工客服之前，先去分析用户的行为，猜测他遇到了哪些问题，推荐给用户一些解决方案。这在当年的“双11”就体现了价值。做项目过程中跟支付宝团队有很多协作，会和他们一块儿头脑风暴。这个过程非常有自我价值实现的感觉，一个做技术的人最希望的就是自己做的东西能够体现出它的价值。

2016年阿里云年会上，我们做的语音识别系统和金牌速记员去做了一个PK，在识别准确率上以微弱优势战胜了人类速记员。我们在业界首个采用了LC-BLSTM声学模型。在当时这个语音识别模型很前沿，在学术研究上也是正在进行当中的。我们首先需要从学术的角度去判断这个东西会不会比现有的模型有一个明显的提升，然后你要迅速地去实现和证明，并进行落地。后来这套模型也用到了其他的产品里面。

现在我的工作与博后期间的研究是有延续的。这两年我做了好几个远场语音识别的项目，最近在云栖大会上亮相的“阿里AI收银员”、“上海地铁语音购票机”都是我参与的项目，我负责其中的远场语音识别部分。上海地铁站的环境非常嘈杂，在那种环境下作出一个非常准确的识别，其实非常难。而且真正的用户行为可能和我们想象的很不一样。比如开始我们会设想很多正常交互的场景，但实际上用户可能很随意，比如只说了地铁站名字，或者中间带许多语气词和停顿。这个过程中我们踩了很多坑。

这是一个根据用户反馈不断迭代的过程。在大学里不会有这些机会。在学校里进行研究的时候，通常你是在做某一个点，其他的都是fix（固定）的——在这种情况下进行这个点的创新。在阿里你会跳出来，跳到一个系统的层面去考虑问题。这个可能涉及学术创新、工程创新、方法创新……它会更全面地要求你，思考的方式是完全不一样的。

标签：

公司板阿里巴巴

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇百度AI人脸离线采集SDK免费下载方法

下一篇 Cisco推出支持人工智能和机器学习的服务器

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）