MarTechApe

View Original

亚马逊Alexa组招人不停歇!但,你知道Alexa是怎么听懂人话的吗?

Amazon Echo是一款语音交互式蓝牙音箱,可以使用其内置的Alexa语音交互系统,实现包括播放音乐、设定闹铃、查询信息、在线订购、智能家居控制等多方面的功能。Alexa语音识别不仅仅是简单地知道人们在说什么,而是即使在声音嘈杂的场景下,也能分辨出人们是否在对Alexa讲话。

举例来说,在一个正在播放电视节目的房间里,用户如果说出了“Alexa”这个唤醒词,即使很吵闹,Alexa也会通过算法自动对房间中的诸多杂音进行识别和过滤,以实现对“Alexa”这个唤醒词的敏感反应。随后,Echo音箱会“滴”地一声,表示它已经在等待指令的状态。

Amazon Alexa在亚马逊内部共分成19个团队,目前正开放1232个职位积极招聘。这19个团队包括了Alexa AI(人工智能组)、Alexa Data Services(数据服务组)、Alexa Shopping(购物组)、Alex Speech(语音组)等等。

Amazon Alexa的19个正在招聘的团队

那么问题来了,虽然很多人知道Alexa很智能,但是你知道她是怎么理解人说的话的吗?

首先,识别不完整的语义和语法

Alexa研究团队发现,人们对Alexa下达的语音指令往往在主题、内容、对话流程、语法和语义结构方面与人之间的对话不同。非设备导向的语音(人之间的对话)通常由语义和语法不完整的片段组成,而这些不完整的语义和语法可以被Alexa所使用的长短期内存网络(long-short-term-memory, LSTM) 的机器学习模型识别出来。

此外,研究团队发现,由于识别语法和语义特征需要利用句子结构,所以词汇顺序很重要。LSTM模型按顺序处理输入,在处理一个新词汇之后生出一个新输出,且最后的输出将对之前词汇的序列信息进行编码。

最近,Alexa研究团队通过添加用户话语的语义和语法特征,进一步改进了Alexa对设备导向语音(人与设备之间的对话)的检测。改进后,新增的“跟进模式”使得用户与Alexa的交流更加随意。启用“跟进模式”后,用户可以问“Alexa, 今天天气怎么样?”,接着询问“明天呢?”,而不必重复唤醒词“Alexa”。

很显然,“跟进”语句同样可能是由语义和语法不完整的片段组成,例如上文中提到的“明天呢?”。但由于这些片段往往可以和用户之前下达的指令相结合而成为连贯的语句,因此,Alexa可以通过既输入当前语句也输入用户之前的语句来进行识别。

然而,当出现“谢谢”,“停止”或者“好的”这样的语句时,即使联系之前的语句,Alexa还是会因为语义含糊而难以正确识别语句类型。因此,自动语音识别系统(Automatic Speech Recognition, ASR)的声学特征也被纳入机器学习模型作为辅助判断。

模型的基本原理是:如果ASR对其语音转换文字的置信度低,那么该语音大概率不同于模型训练数据。由于模型是对设备导向的语句进行机器学习训练,那么不同于训练数据的该语音更有可能是非设备导向的语句,即不是对Alexa发出的指令。

其次,通过运用注意力机制(Attention Mechanism)识别关键词

在许多自然语言理解的环境中, 包含注意力机制的LSTM模型会有更好的运行效果。注意力机制可以确定输入的每个词汇应为最终输出贡献多少。例如,在许多语句中,实体的名称(“ Blinding Lights”,“ Dance Monkey”)比介词(“to”,“of”)更重要,因此,注意力机制将为他们分配更大的权重。

Alexa也使用这种注意力机制来帮助模型输入语音中的词汇,这对于区分设备导向语音和非设备导向语音特别有效。

最后,通过使用迁移学习(Transfer learning)提升识别准确度

Alexa研究团队选择使用迁移学习来改善模型的性能。顾名思义,迁移学习就是把已训练好的模型参数迁移到新的模型来帮助新模型训练。他们首先对模型进行一次单交互预训练,然后对多次交互进行精细调整。在预训练期间,研究团队同时使用正面和负面语句示例,使得模型同时学习了设备导向语音和非设备导向语音的特征。

在随后的模型对比实验中,研究团队将Alexa语音交互系统与最先进的用于识别设备导向语音的纯声学模型以及使用深度神经网络(DNN)而非LSTM的模型版本进行了比较。为了使比较公平,只有声学模型在用于迁移学习的预训练(单交互)数据集和微调(多次交互)数据集上进行了训练。

实验结果显示,使用深度神经网络的模型的输入方式是捕获语音中所有词汇的语义信息,但不反映词汇顺序。它的性能显著低于纯声学基准—等错误率为19.2%,且基准误差为10.6%。但是Alexa语音交互系统所使用的LSTM模型将等错误率降低到9.1%,提高了14%。

如果想要离各大互联网高科技公司的数据科学岗位更进一步,那么你有必要系统性学习一下自然语言处理这一门应用非常广泛的前沿技术。在科技浸透生活方方面面的现在,自然语言处理应用已经变成数据人才必须掌握的重要领域之一。MarTechApe携手谷歌美国软件工程师、东南亚独角兽公司Grab的资深数据科学家,共同打造《Python自然语言处理》课程,教你从0到1地学会应用超级广泛的NLP技术!

1. 来自Google和Grab的课程主讲老师

2. 理论与实践相结合的课程安排

这门课共分6章节,每章节都由理论课程与编程实践两部分组成。确保每一位学员可以学以致用、真正理解课堂内容。在完成课程后,学员不仅对自然语言处理有了一定的掌握,同时也熟练运用Python编程语言。

完整的课程大纲

3. 课程适合人群与学员收获

适合人群

  • 想要系统性学习自然语言处理,了解如何应用NLP解决文本分析问题的人

  • 想学习如何用Python做数据科学项目的人

  • 想在数据科学、人工智能等领域,找到职业方向的人

  • 想进入高科技公司的人

  • 虽然从没有过数据科学经验,但是想要用数据科学前沿技术来提升自己工作能力与求职竞争力的人(尤其是,当你的工作需要经常与用户调研、定性研究、文本分析打交道时,NLP可以大大提高你的工作效率!)

  • 在工作/学习中需要与自然语言处理打交道的人(尤其推荐工作中负责AI产品的人来报名课程)

  • 希望从其他行业领域转型到数据科学的人

你将获得

  • 来自Google美国与Grab新加坡的资深数据科学家的一手经验输出

  • 丰富的行业洞察与NLP的实际案例

  • 理论和动手实践相结合,掌握典型自然语言分析的底层逻辑

  • 在课程中完成一份自己的NLP语义分析与主题模型

  • 课程结束后,可以将完整的数据科学工作方法运用到感兴趣的数据集上

  • 获得数据岗位资深面试官的内部分享,助力数据科学的求职进程

4. 常见问题

课程形式是怎样的?

  • 录播课程可随时随地轻松上课,永久回放

  • 移动端、桌面端两种方式观看课程

  • 可获得完整的课件、丰富的课外阅读材料

课程上线时间是?

  • 第一课将于6月13日上线,此后每周日上线新一章节的课程,共6周解锁所有课程

  • 对于每一章节的课程,上线后,学员可自行选择学习时间

遇到课程问题如何咨询?

  • 可在班级群内提出课程内容问题并获得解答

5. 新课上线,预售优惠!

课程形式是怎样的?

  • 课程原价:¥399人民币

  • 预售优惠(双人团购)6折优惠:仅需¥239人民币

  • 预售期:5/20~6/20,之后恢复原价

    还等什么,快来一起走进自然语言处理的世界吧!

官网购买通道

-预售团购不接受美元支付-