当前位置: 智能网 > 机器人 > 神经网络声码器：让机器人“说人话”

神经网络声码器：让机器人“说人话”

发布日期：2021-01-07 14:03:30 浏览次数：214

核心提示：2021年01月07日关于神经网络声码器：让机器人“说人话”的最新消息：往往在放下手机之后你才会意识到，电话那头的客服其实是个机器人；或者准确地说，是“一位”智能客服。没错，今天越来越多的工作正在被交给人工智能技术去完成，文本转语音（TTS，Text

往往在放下手机之后你才会意识到，电话那头的客服其实是个机器人；或者准确地说，是“一位”智能客服。

没错，今天越来越多的工作正在被交给人工智能技术去完成，文本转语音（TTS，Text To Speech）就是其中非常成熟的一部分。它的发展，决定了今天我们听到的许多“人声”，是如此地逼真，以至于和真人发声无异。

除了我们接触最多的智能客服，智能家居中的语音助手、可以服务听障人士的无障碍播报，甚至是新闻播报和有声朗读等服务，事实上都基于TTS这项技术。它是人机对话的一部分——简单地说，就是让机器说人话。

它被称为同时运用语言学和心理学的杰出之作。不过在今天，当我们称赞它的杰出时，更多的是因为它在在线语音生成中表现出的高效。

要提升语音合成效率当然不是一件容易的事。这里的关键是如何让神经声码器高效地用于序列到序列声学模型，来提高TTS质量。

科学家已经开发出了很多这样的神经网络声码器，例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等，它们各有千秋。

WaveNet声码器可以生成高保真音频，但在计算上它那巨大的复杂性，限制了它在实时服务中的部署；

LPCNet声码器利用WaveRNN架构中语音信号处理的线性预测特性，可在单个处理器内核上生成超实时的高质量语音；但可惜，这对在线语音生成任务而言仍不够高效。

科学家们希望TTS能够在和人的“交流”中，达到让人无感的顺畅——不仅是语调上的热情、亲切，或冷静；更要“毫无”延迟。

新的突破出现在腾讯。腾讯 AI Lab（人工智能实验室）和云小微目前已经率先开发出了一款基于WaveRNN多频带线性预测的全新神经声码器FeatherWave。经过测试，这款高效高保真神经声码器可以帮助用户显著提高语音合成效率。

英特尔的工程团队也参与到了这项开发工作中。他们把面向第三代英特尔至强可扩展处理器所做的优化进行了全面整合，并采用了英特尔深度学习加速技术（英特尔 DL Boost）中全新集成的 16 位 Brain Floating Point （bfloat16）功能。

bfloat16是一个精简的数据格式，与如今的32位浮点数（FP32）相比，bfloat16只通过一半的比特数且仅需对软件做出很小程度的修改，就可达到与FP32同等水平的模型精度；与半浮点精度（FP16）相比，它可为深度学习工作负载提供更大的动态范围；与此同时，它无需使用校准数据进行量化／去量化操作，因此比 INT8 更方便。这些优势不仅让它进一步提升了模型推理能力，还让它能为模型训练提供支持。

事实上，英特尔至强可扩展处理器本就是专为运行复杂的人工智能工作负载而设计的。借助英特尔深度学习加速技术，英特尔志强可扩展处理器将嵌入式 AI 性能提升至新的高度。目前，此种处理器现已支持英特尔高级矢量扩展 512 技术（英特尔AVX－512 技术）和矢量神经网络指令（VNNI）。

在腾讯推出的全新神经声码器FeatherWave 声码器中，就应用了这些优化技术。

FeatherWave 声码器框图

关键词： 英特尔声码人工智能

下一篇：资本与产品，科亚医疗一年四融资的背后逻辑
上一篇：白色脂肪和棕色脂肪，带来风险和降低风险

[ 智能网搜索 ] [ 打印本文 ] [ 违规举报 ]

• 乘坐出租车是否会增加病毒传播的风险？	• 购买桌面级3D打印机，你要知道这些事！
• 天际汽车首创5+X智能科技座舱	• 宜美照明璀璨系列吊灯：以人为本，满足北欧现代
• 转型遇上行业红利期，联电未来未来两年内的8英	• 特朗普签令禁止与8款中国应用交易：金山办公回
• 智算中心：积极构建智能生态迎接智者新时代	• 自动驾驶出租车技术标准正式发布！
• 比亚迪“夏”曝光：油耗4L纯电200KM 百公里加速	• 河北冀衡药业股份有限公司完成A股上市辅导备案
• 新1.5L车型,三缸版的雷凌和卡罗拉怎么选择？	• 公共交通工具的焦虑——乘坐出租车是否会增加病
• 谁来解锁千亿级的高精度定位市场	• “十三五”期间广西电力市场化交易规模持续扩大

工业机器人的几大主要	实现机器人智能行走的
传感器解决机器人发展	如何了解工业机器人？