首页 > 智能网

度家语音语义一体化方案是语音识别最优解?

来源:智能网
时间:2021-06-25 10:05:55
热度:190

度家语音语义一体化方案是语音识别最优解?什么是智能?可以找到的回答有很多,不过近几年逐渐有了统一的答案。当你想要知道明天的天气情况时,可以直接问家里的智能音箱;当你开车时想要切换导

什么是智能?

可以找到的回答有很多,不过近几年逐渐有了统一的答案。

当你想要知道明天的天气情况时,可以直接问家里的智能音箱;当你开车时想要切换导航路线,可以直接说出新的目的地;当你感觉空调不够凉爽的时候,也可以直接告诉空调把温度调低一些……

智能化的标准或许很广泛,但语音交互已经是最基础的门槛。

刚刚结束的2021云智技术论坛上,百度智能云将不小的篇幅留给了度家语音语义一体化平台。在语音能力逐渐成为“智能”的代名词,并升格为IoT产品标配的大环境下,百度智能云所谋为何?

01 技术的幸存者偏差

和机器“对话”似乎并不是什么新概念。

早在上世纪80年代,语音识别就开始走出实验室有了商业应用,尽管机器还只能识别单个词汇,识别准确率也维持在相当低的水准,却未能阻挡人们的尝鲜心态,IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统等先后诞生。

2010年是语音识别的转折点,一些学者开始将深度学习技术引入到语音识别领域,语音识别的准确率不断刷新纪录。

到了2015年末,百度语音识别的准确率首次达到90%,等同于人类速记同样一段对话的水平。Google在2017年6月宣布语音识别的准确率达到95%,短短10个月后就被百度以97%的准确率超越。

技术被证实是产业繁荣的催化剂,语音识别的商业化就是直接的例子。

根据华西证券的调研报告,AIoT是大众接触消费者最普遍的渠道,目前智能语音已经应用于智能手机、可穿戴设备、智能车载、智能家居等产品,2020年的市场规模为241.1亿元,预计到2023年市场规模将达到570.3亿元。

语音技术的成熟以及语音市场的持续繁荣,是否预示着语音交互的用户体验已经彻底告别尝鲜期?

事实可能会让人有些失望。心理学中有个概念叫幸存者偏差,如果把目光聚焦于百度这样的技术派,语音交互已然迈向了新台阶,但在相当比重的智能硬件产品中,诸如唤醒率偏低、识别率低、答非所问等现象仍然是一种常态。像百度这样的头部玩家仍在刷新纪录,可很多主打语音控制产品还处于伪智能的阶段。

02 度家给出的最优解

并不难对这一市场现象给出合理的解释。

语音技术在消费级业务中的落地通常有两种方式:一是将语音技术能力封装为SDK或API,下游的客户或开发者可以直接调用,优势在于成本较低,但技术能力因人而异;二是提供定制化的解决方案,即根据客户需求进行定制化、深度合作,在一定程度上保障了终端的用户体验,缺点是成本偏高。

这大抵也是百度智能云推出度家平台的原因所在,区别于上述两种合作模式,度家语音语义一体化的思路让外界看到了三重优势:

首先,度家输出的是软硬一体的解决方案,集成了百度自主研发的鸿鹄芯片,在性能、兼容性、扩展性上打破了传统方案的制约。

比如传统芯片的平均功耗往往很高,而鸿鹄芯片将提取的语音特征直接在云端进行高精准识别,既保证了语音识别的准确性,平均功耗也只有100mw;鸿鹄芯片支持多达六路的麦克阵列语音信号,并支持deep peak、deep cnn语音唤醒以及百度最新的双麦克模型波束算法,可以满足设备唤醒后360度无死角识别;同时还能和各种安卓、linux芯片集成为onboard方案。

其次,语音语义一体化弥补了语义能力的短板,如果只有语音识别而缺少语义理解,折射到用户体验上就是答非所问的尴尬。

除了流式多级截断注意力模型、端到端建模等语音识别上的算法优势,百度智能云的另一个强项在于语义理解。在传统的开发模式中,开发者想要让理解语音的指令,需要花费很大的功夫理解意图、词槽、模板、特征词等等,度家平台的方案是语义物模型,开发者只需要理解设备属性、控制动作、设备状态等内容,进行简单的配置就能驱动设备根据用户的语音指令作出正确的反应。

最后,通过开源框架和订制开发板的产品矩阵,帮助开发者进一步降低技术落地的时间和成本,加速语音技术的规模化应用。

譬如在硬件层面,度家和乐鑫联合开发了集成鸿鹄芯片的开发模组,采用了双麦克风的设计,可以在5米范围内精准拾音,同时搭载了DeepPeak唤醒引擎、端到端建模技术和流式截断的多层注意力模型,极大地提升了语音识别的准确度,并且拥有方言识别、中英文混合识别等能力。配合百度官方的开源框架,开发者在极短时间里就能将智能语音应用于智能家居、智能机器人等产品。

在智能语音市场高速增长,而语音控制的用户体验却有些掉队的局面下,度家的语音语义一体化方案可以说是当前的最优解。

03 万物皆可语音控制

百度智能云押注度家的野心也就不难理解。

一种解释是智能语音市场的掘金空间。曾有人在2019年对AI市场进行细分,其中智能语音的市场占比为22%,仅次于已经实现大规模商业化的机器视觉,倘若算上自然语言理解16%的市场份额,等待语音语义一体化的将是一个体量不输于机器视觉的蓝海市场,百度智能云无疑有着充足的用武之地。

即使是在智能家居市场,行业也还处于起步阶段。2020年空调的出货量为5100万台,智能语音的搭载率仅为15%,小家电市场在2020年的销售额约为7000亿元,可智能语音的搭载率却不到1%。以电视市场高达70%的智能语音搭载率为准绳的话,仅智能家居行业就存在着毋庸置疑的机会。

如果只是从市场规模的维度审视度家,可能会低估百度的战略布局,何况还有一种站在长远视角上的解释。

综合不同调研机构的报告,目前智能音箱在国内的月销量稳定在300万台左右,累计出货量已经超过1亿台。按照国内当前的城镇化水平,智能音箱在城镇家庭中的渗透率业已超过20%,等同于智能手机在2012年前后的渗透程度,也就预示着语音交互的市场教育有了初步的基础。

在百度的战略谋划中,小度系列产品担纲了消费者教育的角色,小度的屡屡破圈就是最直接的写照。作为百度AI To B的核心渠道,百度智能云自然扮演了智能语音向B端输出的角色,进而从B和C两端加速智能语音的市场渗透。

可以佐证的是:度家已经为TCL的高端电视提供音唤醒及识别服务,解决了TCL原有语音方案远场唤醒效果不佳、抗外噪能力弱等痛点,重构了TCL高端电视的语音交互体验,未来TCL会有更多的家电将搭载度家的服务;针对扫地机器人、集成灶等工作环境复杂难以语音控制的产品,度家通过端云一体的方案消除了技术落地的瓶颈;即便是智能风扇、咖啡机等低成本的小家电上,在鸿鹄芯片的赋能下实现了控制场景下的自由说,不再局限于划定的指令词。

就度家最新的动作来看,正在借助端云一体、开源框架、订制硬件的综合优势,给予开发者足够的自主权,进一步降低智能语音技术的应用和开发门槛,让开发者们以极低的成本将智能语音移植到新产品中,以潜移默化的方式逐步消除幸存者偏差的现象。

毕竟人类大脑每天处理的信息中,声音信息的占比高达20%。作为人类和外界最重要的沟通纽带,智能语音注定是人机交互的主流趋势之一,万物皆可语音控制将是属于智能化时代的鲜明特征。

04 写在最后

确切地说,度家只是百度智能云在IoT领域的落子之一。根据IDC发布的报告,在中国AI公有云服务市场,百度智能云市场份额连续四年排名中国第一。

正如2021云智技术论坛苏州站上所呈现的,端边云全面智能化的天工AIoT平台将AI能力和物联网进行了深度融合,诸如美欣达等合作伙伴在百度智能云的赋能下实现了低碳运营,AIoT视觉智能已经深入到工业质检、智能制造、城市管理等场景中……

携AI进场的百度智能云,正进一步释放了物联网底层能量。