人声编码器理论

人声编码器理论

2022/07/15150 作者：佚名

导读：人讲话时，人声是由喉头的声带开关声门所产生，其中包括了许多周期性的波形与许多谐波，这些周期波可视为基本的声源信号。这些声源信号接着经由鼻子和喉咙（可视为复杂的共振系统），借由改变嘴型来改变此系统，而产生不同的谐波含量，创造了各式各样的语音；另外浊音与塞音则是气流经由不同嘴型产生。声码器发信端的分析器对话音信号进行分析，将该信号被分裂成多个频带（这个数字越大，会得到更准确的分析）。输入信号通过一个

人讲话时，人声是由喉头的声带开关声门所产生，其中包括了许多周期性的波形与许多谐波，这些周期波可视为基本的声源信号。这些声源信号接着经由鼻子和喉咙（可视为复杂的共振系统），借由改变嘴型来改变此系统，而产生不同的谐波含量，创造了各式各样的语音；另外浊音与塞音则是气流经由不同嘴型产生。声码器发信端的分析器对话音信号进行分析，将该信号被分裂成多个频带（这个数字越大，会得到更准确的分析）。输入信号通过一个多频带滤波器，并将每个频带分别通过一个包络检测器，将包络检测器得到的控制信号输出给解码器。由于控制信号与原来的语音波形相比变化速度缓慢许多，因此声码器大幅降低了语音传输所需的频带。若将控制信号进行加密，则可以保证语音传输安全性，以防拦截。比起原始的语音资料，大约可将传输资料压缩到原先的十几分之一。语音信号的重建则将步骤反转；接收端接到每个频带的包络线参数以后，分别得到每个频带的包络线，可视为多个随时变的滤波器。接着由一个新的“丰富频率成分”的声源信号（可视为噪音讯号），通过每个频带的滤波器得到每个频带的包络线讯号，最后将这些讯号得加，得到还原语音讯号。值得注意的是，通过以上的编码方法，丢弃了许多原本信号的资讯，主要丢弃了信息频谱的瞬时频率，也就是频谱的相位。这样的资讯流失虽然保留了语音的可辨识度，但相位的遗失意味着音高的遗失，如中文的“平、上、去、入”等五声的资讯将遗失，而听起来的声音会像机器人讲话一般，没有“抑扬顿挫”。这种“机器人式”的特殊音色，在流行音乐和音效娱乐受到欢迎，在电子音乐中广泛的被应用。

*文章为作者独立观点，不代表造价通立场，除来源是“造价通”外。

关注微信公众号造价通（zjtcn_Largedata），获取建设行业第一手资讯

造价通

造价通

建设工程知识

热门推荐

相关阅读