基于TMS320C6201的G.723.1多通道语音编解码的实现-电子产品世界手机版

基于TMS320C6201的G.723.1多通道语音编解码的实现

时间：2008-06-02来源：嵌入式开发网

　　３．１．２提高寄存器的利用率

　　ＤＳＰ芯片内部的运算单元运行效率非常高，但如果寄存器和数据总线之间的数据交换频繁，将使ＤＳＰ的执行效率大打折扣。因为ＤＳＰ在进行内存操作时，往往需要若干周期的延迟，如Ｌｏａｄ指令要有４个周期的延迟，Ｓｔｏｒｅ指令需要２个周期的延迟。为了减少耗时的内存操作，可以在程序进入循环体之前，将要频繁使用的数据预先放入寄存器，然后反复调用，实践证明这种方法可以提高一部分效率。

　　３．１．３使用内在函数（Ｉｎｔｒｉｎｓｉｃ）

　　内在函数是在某些Ｃ６２０１ＤＳＰ的汇编指令前加上“＿”构成它可以方便地实现某些需若干Ｃ语句才能实现的功能。它是一种非常简便高效的优化方法，它的调用格式和普通Ｃ函数一样，但在编译时编译器会自动将Ｉｎｔｒｉｎｓｉｃ用对应的汇编指令替代。Ｃ６２０１指令集中绝大多数的运算逻辑指令都可以这样使用，比如饱和绝对值、饱和加、饱和减、饱和乘、两个字中的对应半字同时加或同时减、两个字中的对应半字同时乘或交叉乘、归一化及位操作等。经过此步优化后，大部分循环体都可以生成较为有效的流水内核（ｐｉｐｌｉｎｅｄｋｅｒｎｅｌ）。用Ｉｎｔｒｉｎｓｉｃ替代Ｇ．７２３．１原先的Ｃ代码，运算量下降为原来的１／１０。

　　３．１．４对算法的冗余部分合理精简

　　经过检查，发现ＩＴＵ－ＴＧ．７２３．１的Ｃ代码存在冗余部分。象６．３ｋ码率的ＭＰ－ＭＬＱ搜索模块中，只需要用到偶数位置的脉冲响应的自相关，所以对奇数位置的脉冲响应自相关计算可以省略。

　　另外，在Ｇ．７２３．１标准中存在大量的１０阶ＦＩＲ和１０阶ＩＩＲ滤波器运算，如编码部分的感知加权、零输入响应、解码部分综合滤波器和后滤波等，ＦＩＲ和ＩＩＲ的通用形式可以表示为：

　　每次循环，ＦＩＲ滤波器内存要用新的输入值更新，ＩＩＲ滤波器内存要用新的输出值更新，使用按标准提供的算法，要专门用一个１０阶循环更新内存。如果用一个１０单位大小的循环缓存区，每次用新值覆盖最老的样值，动态调整循环缓存区的头指针，可以节省原先用于内存更新的ｃｙｃｌｅ。

　　３．２汇编级优化

　　由于Ｃ编译器只能完成７０％的工作且对于复杂的循环，Ｃ编译器无法生成高效率的代码，所以对运算量大的模块只能用手写汇编。

　　３．２．１字长优化

　　Ｃ６２０１的字长为３２位，它支持按字节、半字、字存取。对于１６位的数组，当它在内存中连续排列时，用３２位读写指令ＬＤＷ或ＳＴＷ替代１６位读写指令ＬＤＨ或ＳＴＨ，循环次数可减少一半。另外，Ｃ６２０１的汇编指令支持两个３２位寄存器的高１６位和低１６位之间互乘，结果分别放到不同的寄存器中，互不影响。具体指令为ＳＭＰＹ(Ｌ×Ｌ)、ＳＭＰＹＨ(Ｈ×Ｈ)、ＳＭＰＹＨＬ(Ｈ×Ｌ)和ＳＭＰＹＬＨ(Ｌ×Ｈ)。通过字长优化，可以大大提高程序的运行效率。必须注意的是，在使用字长优化时，数组在内存中的位置必须对齐３２位边界。

　　３．２．２对外循环的优化

　　Ｃ６２０１的Ｃ编译器对多重循环的最内层一般能较好地优化到一句到两句，但对外循环的优化效率则差很多。手写汇编时，可以先将内循环展开，再把外循环的指令并入其中，可以减少所耗费的ｃｙｃｌｅ数。

　　Ｃ６２０１的循环一般分前导(Ｐｒｏｌｏｇ)、内核(Ｋｅｒｎｅｌ)及排空(Ｅｐｉｌｏｇ)三部分。代码的并行程度从Ｐｒｏｌｏｇ开始不断提高，Ｋｅｒｎｅｌ内的并行程度最高，Ｅｐｉｌｏｇ与Ｐｒｏｌｏｇ相反，并行性逐渐降低。在多重循环中，如果尽量把内循环前导部分的指令与填入排空部分未用的单元，一起执行，可以在执行本次循环的排空语句的同时执行下次循环的前导语句。这样可不多花ｃｙｃｌｅ而提高整个循环的效率。

　　４实现结果

　　经过Ｃ语言级和汇编级的多种优化，最后实现了一路Ｇ．７２３．１的编解码需要花费１０．６ＭＣＰＳ，整个代码的程序空间为２０８Ｋｂｙｔｅ（程序中包括了部分ｃ６２０１的库函数），数据空间为８Ｋｂｙｔｅ，码本大小２０ｋｂｙｔｅ，多通道的上下文数据为１．４８Ｋｂｙｔｅ。２００ＭＨｚ的Ｃ６２０１每秒可以实时编解码１６路语音信号。所有代码全部通过了ＩＴＵ－Ｔ测试矢量的测试。表１是各主要模块的运算量。

表1 G.723.1各主要模块运算量

　　本文提出的利用Ｃ６２０１ＤＳＰ进行ＩＴＵ－ＴＧ．７２３．１全双工实时多通道语音编解码的实现。该实现可以在ＩＰ电话、视频会议中得到广泛应用。

1 2

关键词：ＶｏＩＰＤＳＰ语音编码

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

基于TMS320C6201的G.723.1多通道语音编解码的实现

相关文章