科普信息网

从“ Hey Siri ”到“ Siri ”这一小步,是苹果语音识别的一大步

发布时间:2022-11-21 22:51:32 来源:三易生活 责任编辑:caobo

来源:三易生活

尽管只是很小的一个改变,却意味着 Siri 将迎来更多调整。


(相关资料图)

"Hey Siri,讲个笑话 ",相信许多 iPhone 用户都尝试过这样与苹果的智能语音助手 Siri 对话,但在未来,大家与 Siri 聊天时可能就要换一个词了。日前有消息显示,苹果方面计划将智能语音助理 Siri 的唤醒词从 "Hey Siri" 简化为 "Siri",这一变化预计将在 2023 年某个时候或 2024 年推出,同时苹果正在将 Siri 整合至第三方 APP,来为用户提供更多语境和帮助。

作为苹果推出的智能语音助手,早在 2011 年就已亮相的 Siri,无疑是这十余年来手机厂商在 AI 领域探索的代表之一。别看苹果未来仅仅只是去掉了 "Hey" 这个单词,但这一微小变化的背后却代表着苹果 AI 技术的长足进步,同时也意味着苹果在智能语音助手领域已经追上了竞争对手亚马逊的脚步。毕竟在很长一段时间里,尽管作为智能语音助手领域的先行者,Siri 却一直被用户吐槽 " 有点蠢 "、" 不智能 "。

从 "Hey Siri" 到 "Siri",反映的是苹果在语音识别技术上有了重大的突破。就像每个人都有自己的名字一样,智能语音助手其实也需要特定的词汇来让它知道用户是在喊自己。从某种程度上来说,唤醒词同时也是智能语音助手品牌形象的一大组成部分,通过每一次激活语音助手时说出的唤醒词,消费者关于这个品牌的记忆就在这样日复一日的复读中不断被强化。

那么为什么智能语音助手一定需求一个唤醒词呢?这是因为智能语音助手如今还不可能 24 小时时刻保持在线状态,需要保证只有在用户需要时才进入工作状态,其他时间则保持休眠。相比于按专属按键唤醒、点击图标唤醒这类触摸唤醒机制,使用特定的唤醒词来激活智能语音助手,也更契合这一产品的特质。

语音唤醒被称之为 keyword spotting(下文简称为 KWS),即在连续语流中实时检测出说话人的特定片段,而这个特定片段就是唤醒词。通常来说,如果不是手动禁用语音助手,后者作为系统级服务会长时间驻留在后台,然而智能语音助手作为一个需要大量 AI 算力支撑的功能,在工作状态下需要不低的性能开销,同时也会相应的提升功耗。

面对这一问题,开发者想出的办法是通过专用于语音唤醒的低功耗协处理器来实时监听麦克风,一旦监听到类似 "Hey Siri"、" 小爱同学 "、"Hey Google" 这类关键唤醒词时,就会将语音助手从休眠状态转换到工作状态。这个策略的好处除了降低对设备的续航压力外,也会避免一直处于工作状态的语音助手,处理并不是发送给自己的音频信息。

其实语音唤醒的难点,主要就是低功耗与用户临时需求之间的矛盾,一个既能有效唤醒语音助手,又不至于让系统误判的唤醒词也是整个 KWS 机制的核心。大家想必已经发现,目前国内市场的智能语音助手唤醒词往往是 4 个字,比如 " 天猫精灵 "、" 小爱同学 "、" 小度小度 "。这是由于汉语发音与音节的关系,大家可以简单的把字数理解为音节。

为什么唤醒词普遍是 4 音节,而不是中国人更习惯的 3 音节或 2 音节?这是因为音节越短,误唤醒的问题就会越严重,可如果音节再长,就从短语变成了句子,会降低用户的交流体验。同理,"Hey" 作为一个英文语气词,就像在中文语境中使用 " 你好 " 一样,是为了增加唤醒词的音节,让系统能更准确的判断监听到的声音到底是对谁说的。

反过来说,省略掉 "Hey" 就意味着苹果的 KWS 技术有了巨大的进步,已经能够实现只需要一个单词即可判断用户意图的水平。之所以能够实现这一效果,技术原理其实并不复杂,苹果方面大概率是利用声纹识别技术实现定向人声分离,再通过卷积神经网络搭配声纹识别编码器,在复杂的声学环境下准确捕捉到目标用户的声音。

到目前为止,谷歌相关设备依然需要通过 "OK Google" 与 "Hey Google" 来唤醒 Google Assistant,其中一个很重要的原因,就是 "Google" 一词本身由于谷歌已经深入到了用户的日常生活中,所以并不算冷门,只有这个词作为唤醒 Google Assistant 的 " 钥匙 ",会不可避免的导致频繁误唤醒。作为对比,Siri 这个被生造出来的词汇适用范围就很窄了,iPhone 只需监听到契合 "Siri" 发音的声纹,即可判断用户有使用智能语音助手的需求。

并且值得一提的是,据悉苹果还计划允许 Siri 与第三方应用结合,而这对于 Siri 的易用性将有着极大的促进作用。要知道,此前曾有前 Siri 团队的成员表示,领导力的缺乏和管理层的不断变化拖累了 Siri 前进的脚步,其中最关键的原因,就是苹果方面一直以来坚持的封闭模式并没有对 Siri 破例,也未能让第三方开发者有更多机会创造更多有用的 Siri 应用。

在 Siri 还没有被登录 iPhone 或被收购前,其创始团队的预想其实是希望能够拥有一个第三方的开发生态,而这一点也被后来的一众智能语音助手陆续实现。比如说,最初 Siri 被希望实现的预约餐饮功能,是包含着日期、地点、菜品等多方位要素,而非简单地搜索一个餐厅的订餐电话。

未来 Siri 能够接入第三方应用,也就意味着苹果的智能语音助手可以借助第三方的力量,来为自己赋予更多的功能、完成更多的任务。如果这一消息属实,也就意味着在被忽视了多年后,Siri 或许将要雄起了。

标签: 工作状态 语音识别 这是因为

上一篇:
下一篇:

新闻排行