1939年以后,已经制出的声码器主要有:通道声码器、共振峰声码器、同态声码器、线性预测声码器和音素声码器。
通道声码器:在这种声码器中,输入语音信号的幅度谱通过由14~20个带通滤波器所组成的滤波器组进行分析,滤波器组把频率范围分成许多相邻频带或通道,每个滤波器的输出都是一个包络缓慢变化的信号,包络的大小反映了该频带内信号的功率。所以各带通滤波器输出的包络总起来就能近似表示语音信号的幅度谱。另一方面基音检测和清浊音鉴别器提供基音周期和清油音指示。在译码端,有与编码端相同的滤波器组。淸浊音指示用于选择滤波器组的激励源,浊音时用脉冲串,清音时用噪声。脉冲串的频率由基音控制,谱包络信息则用来控制各滤波器输出的大小,因而最终能合成与原始谱包络相近的语音信号。通道声码器的语音质量,即使在2.4kbit/s速率下也可以达到相当高的清晰度,且抗背景噪声的能力强,稳定性好,因而得到了广泛的应用,对它的兴趣多年不衰。
共振峰声码器:是通道声码器的一种变型,它在编码的是共振峰频率和带宽。根据听觉试验的结论,一般只需传送3~4个共振峰,因此可以达到很低的数据率。当共振峰提取正确时,共振峰声码器可以在语音质量上超过通道声码器而速率只需后者的一半。只是由于正确跟踪共振峰频率在实现时相当困难,阻碍了这种声码器的实用,但对它的研究始终不断。
同态声码器:又称倒谱声码器,它传送的模型参数是语音的倒谱和语音的幅度谱一样,可以反映声道的响应,但是在理论上,利用倒谱可以使语音模型中激励源和声道响应的参数得到理想的分离,在理论上虽是一种方法,但在实际实现时同态声码器需要很大的计算量,数据率在相同的语音质量下高于通道声码器,而且抗语音背景噪声的能力差,所以只获得有限的应用。
线性预测声码器:是应用最多的一种声码器。其最主要的特点是利用线性预测对声道的响应进行建模。声码器传送的参数除激励参数外,就是线性预测系数。典型的线性预测系数代表了声道的冲激响应,但是语音质量对这些系数的量化非常敏感,每个参数要求的比特数也较多,所以在实用时往往使用各种等价的但要求量化比特数少且对比特数不敏感的参数,如反射系数和线谱对等。线性预测声码器的激励模型现已得到改进,如采用浊音声门波激励模型或多脉冲激励模型等。在进行这些改进后,线性预测声码器的语音质量在声码器中居于前列。
音素声码器:声码器中速率最低的一种,主要由音素识别器与音素综合器组成。但实际使用的语音单位一般不是音素而是复合音素等较大的语音单位,因为不考虑上下文影响而连接的音素串是不可懂的。这种声码器的语音质量基本上已完全失去自然度,声码器所需的数据速率则可在200bit/s以下。
在声码器历史上还出现过相关声码器、相位声码器以及由F.莫策提出的莫策声码器等。其中相位声码器,虽然在一般文献上把它归入声码器,实际上属于子备编码。它和相关声码器都没有得到实际应用,只有莫策声码器获得一些应用。2100433B