人讲话时,人声是由喉头的声带开关声门所产生,其中包括了许多周期性的波形与许多谐波,这些周期波可视为基本的声源信号。这些声源信号接着经由鼻子和喉咙(可视为复杂的共振系统),借由改变嘴型来改变此系统,而产生不同的谐波含量,创造了各式各样的语音;另外浊音与塞音则是气流经由不同嘴型产生。 声码器发信端的分析器对话音信号进行分析,将该信号被分裂成多个频带(这个数字越大,会得到更准确的分析)。输入信号通过一个多频带滤波器,并将每个频带分别通过一个包络检测器,将包络检测器得到的控制信号输出给解码器。由于控制信号与原来的语音波形相比变化速度缓慢许多,因此声码器大幅降低了语音传输所需的频带。若将控制信号进行加密,则可以保证语音传输安全性,以防拦截。比起原始的语音资料,大约可将传输资料压缩到原先的十几分之一。 语音信号的重建则将步骤反转;接收端接到每个频带的包络线参数以后,分别得到每个频带的包络线,可视为多个随时变的滤波器。接着由一个新的“丰富频率成分”的声源信号(可视为噪音讯号),通过每个频带的滤波器得到每个频带的包络线讯号,最后将这些讯号得加,得到还原语音讯号。 值得注意的是,通过以上的编码方法,丢弃了许多原本信号的资讯,主要丢弃了信息频谱的瞬时频率,也就是频谱的相位。这样的资讯流失虽然保留了语音的可辨识度,但相位的遗失意味着音高的遗失,如中文的“平、上、去、入”等五声的资讯将遗失,而听起来的声音会像机器人讲话一般,没有“抑扬顿挫”。这种“机器人式”的特殊音色,在流行音乐和音效娱乐受到欢迎,在电子音乐中广泛的被应用。