2024年4月13日发(作者:毛杏)
第29卷第3期
2007年3月
电子与信息学报
Journalof
Vbl.29No.3
Electronic8&Information
Tbchn0109y
Mar.2007
多媒体会议中新型快速实时混音算法
王文林
廖建新朱晓民沈奇成
(北京邮电大学网络与交换技术国家重点实验室北京100876)
摘要:混音处理是多媒体会议系统中的一个关键环节,直接影响用户之问的相互交流。现有常用的混音算法巾存
在着音量突变的问题,通过对这些混音算法的分析,得出了变化的混音权重是导致音量忽大忽小的主要原因的结
论。在此基础上,该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法,该算法混音结
果自然流畅,避免了音量突变的问题。该算法运算简单,速度快,没有乘除法操作,容易硬件实现。可以广泛应用
于大规模的多媒体会议系统中。
关键词:多媒体会议;音频处理单元;非均匀;波形收缩;混音
中图分类号:TN919.8文献标识码:A文章编号:1009.5896(2007)03.0690.06
ANoVelFhstReal-Ti】meAudio
‘in
Wang
Wbn—lin
M奴iIlg
Algorithm
Shen
Multi]media
Conference
LiaoJian-xinZhu
Xia伊min
Qi—wei
(&o钯‰∥工n6.o,^kt叫D嘲礼9口凡d鼬itc九i佗9死c^.,Be彬哪咖饥o,PDs幻口砌死把cDmm.,Be彬叼100876,∞{nn)
Abstmct:In
multimedia
between
conference,audio
mi)cing
i8an_es8ential
component,which
aff&ts
the
communication
118er8.At
present,the
commonly瑚ed
audio
mi)【ingalgorithms
have
protean
Volume.By
analyziI培those
drawn.Base
weight
algorith瑚,the
conclusionof
mutative
mi)【ingⅥreights七ring
on
protean
volume
is
algorithm
n砌ed
Asymmetric8l、)Vrave-Shrinking(AWS)i8
prop08ed.A
f-Ⅸed
mi)【ing
i8瑚ed
to
this,a
novel
independent
of
input8
anddivision
applied
thenatllralandnuent
output8
without
protean
i8
volume.Without
multiplication
by
oper8tio珊,the
algorithm
iIl
large
8cale
8imple
and
f缸t
thatit
can
be
easily
implemented
hard、视re
and
widely
IImltimedia
conference
Bystems.
Key
words:Multimedia
1
conference;APu(Audio
Proce88
unit);A8ymmetrical;Ⅵ‘孙静·shriIll【ing;Audio
mi)(ing
满足大规模会议的应用。文献【3】中的平均混音算法随着混音
路数的增加音量急剧降低;文献【4,5】提出的对齐混音算法在
混音过程巾会出现明显的音量忽大忽小的变化;文献【6】提出
的自对齐混音算法则引入了部分噪音,并且音量偏小;实际
应用较多的箝位混音算法17】也存在音量突然变化情况。本文
基于H.323多媒体会议中集中式会议工作模式,提出一种新
型的快速实时混音算法,采用与混音输入无关的恒定混音权
重,杜绝音量变化,复杂度低,基本不引入噪音,且速度快,
极易于软硬件实现。
引言
近年来,多媒体会议成为多媒体通信发展的热点之一。
在多媒体会议中,音频交流最为频繁,实时性的要求也远远
高于视频及数据,是多媒体会议中最基本的要素。为了具有
更好的会议临场感.与会者希望能同时听到多个发言者的声
音。在分散控制会议模式下,每个发言者的语音信号都单独
传送给每个与会者,在终端处进行混音后再播放,这种方式
需要占用大量的网络带宽,影响语音信号的QoS(Quality
of
Ser、rice),并对终端有较高的要求。为此,ITU-T提出了集巾
控制会议模式%在Mcu(Multipoint
control
un“)中对来
2混音处理过程
根据ITU.T的H.323规范,在MCU中有
MC(MultipointController)和MP(MultipointPmce880r)两
.大核心模块.其中MP提供音频、视频和数据的集中处理能
自各发言者的语音信号进行混音处理,再将结果传送到每个
与会者,极大地降低了网络传输的负担和终端的处理能
力【2lo
目前各种混音算法都有其难以弥补的缺陷和不足,很难
力,划分为AMP(AudioMP),VMP(VideoMP)和
DMP(DataMP)3大模块。其中的AMP包括了多个
2005-08-18收到,2006-01.03改回
国家杰出青年科学基金(60525110),新世纪优秀人才支持计划
(NCET.0垂0111),高等学校博士学科点专项科研基金
APU(Audio
Proces8ing
Unit),分别对应一个会议,各APU
之间独立并行工作。APU的结构如图1所示16J.
(20030013006),国家移动通信产品研究开发专项基金和电子信息产
业发展基金资助课题
万方数据
第3期王文林等:多媒体会议中新型快速实时混音算法
691
H缓冲器1H解码器1卜.
叫编码器1
_缓冲器2
H解码器2卜.
一编码器2
混音器
一编码器ⅣI
H缓冲器ⅣH解码器吖卜-
oL…………………………!
一编码器Ⅳ+lI
图l音频处理器结构图
在H.323集巾控制模式下,每个与会终端与MCU建立
双工单播连接,实时与MCU交换数据流。其中音频流的编
码格式可以采用G.71l,G.722,G.723.1,G.728和G.729编
码规范,与AMP中的某一个APU相连,APU.中的Buffer
作为抖动缓冲使用,可以在一定的程度上减少由传输导致的
丢包、顺序不一致和抖动带来的影响。
经过缓冲的音频还必须经过相应解码器处理后才能由
混音器进行混音,混音完成后,再根据输出终端不同采用相
应编码器进行编码。所以。混音一般以音频流的一帧为单位
进行处理。
混音原理
原理1声音是由于物体振动对周围的空气产生压力而
传播的一种压力波,转换成电信号后,再经过抽样、量化,仍
然是一种连续平滑的波形信号。
原理2量化后的语音信号的频率与声音的频率对应,
振幅与声音的音量对应。
原理3量化的语音信号的叠加等价于空气中声波的叠
加。
所以当各信号的抽样率一致时,混音可以实现为将各信
号的采样数据线性叠加。在上述的ITU.T的G.7)()【系列编
码规范巾,只有G.722的抽样率是16000。其它规范的抽样
率是8000。如果要将G.722解码器的输出与其他解码器的输
出混音,只需要隔位丢弃采样数据即可。
假设在会议t,中,有M路音频参与混音,在时刻t第
i(待1,2,…,蚴路音频解码输出的数据为Ⅱl(t),其值域为
【一2‘}一,2Q一一1】,其中0是量化精度。要求有^r+1路编码
输出,通常Ⅳ-从不失一般性,可以约定第如=1,2,…,岣
路输出数据为6,(t),其巾6l(t)是除0l(t)外其他肛l路的混
音输出,而%+1(£)则是全部M路的混音输出,则
6J(£)=∑G,(£)'歹=1,2,…,M;%+l(t)=∑q(t)
(1)
‘=l,l薯J
由式(1)可知,6,(t)的值域不再是【-2Q~,2Q一一1】,产
生了溢出,破坏了语音信号的特征参数,从而引入了噪音。
随着Ⅳ的不断增大,发生溢出的频率不断上升,一般来说,
在M兰4时,溢出引入的噪音过大将导致混音后的语音无法
辨认。所以,混音算法的难点在于如何处理混音后采样值溢
出问题。
万 方数据
4
已有混音算法分析
目前混音后采样值溢出处理方案较多,但基本思想一
致,即根据原理2对语音信号的振幅做一定的平滑处理,即
可以在不破坏(或基本不破坏)语音信号原有的频率的基础上
避免溢出.故有
6J(£)=∑毗.j(£)q(£),歹=1,2,…,M
i;1.‘#』
Ⅳ
‰+l(£)=∑毗肌。(t)口。(£)
几乎所有的算法都由式(2)而来,其中%(z)称为混音权
重,不同算法之间的区别往往仅仅是权重不相同。
(1)平均算法
平均算法(a_verage
audio
mi)cing
加后取平均值【31'所以其混音权重函数如下:
‰∽=击,i茹¨,歹=1'2'..·,M
%㈣∽=击,江1,2,…,M
该算法的实质是将各路语音的音量减少了肛1(或∽
(2)对齐算法文献【4】中的混音算法是一种典型的对齐
audio
mi)【ing
algorithm,简称A算法),该算法令
T。talMaXj。tE【r'n毯阳(M1)
tE【r,r+4t1'l≠,、I…17
TotalMax黼2。。In粉。l(№)I)
M妇dM吗=吲#粉。。(№)I)
TotalMax;),否则将导致溢出。.
%,(力=差易,i=1'2'…,肘,歹=1’2,…,肘+1(5)
文献[51提出的混音算法与A算法类似,但每一路语音有
·3
algorithm,简称V算法)最为简单,就是将采样数据线性叠
倍,所以随着M的增大,各路语音的衰减将愈加严重,最终
导致语音细不可闻。而且,随着会议的进行,发言者数量吖
不断变化,则叫(曲也不断变化,导致音量忽大忽小甚至声音
断续,影响语音效果。所以V算法实际应用受到很大的限制,
无法适应大规模会议的混音需求。
算法(align
各路音频流当前混音帧巾采样值的绝对值的最大值为
TotalMax,累加结果中采样值的绝对值的最大值为
MiXedMax。即
其中r为该混音帧的起始时刻,4t为帧的长度。而混音权重
如式(5),其中易∈【l,Mi)cedMaX,/TotalMaxf】,用来调整
最终输出混音结果的值。但文献【41没有考虑到MixedMax。
可能大于极限值2口一一1,此时只能取厶∈【l,(2口~一1)/
各自的权重,所以能将低强度信号加强,增大其可识别度,
2024年4月13日发(作者:毛杏)
第29卷第3期
2007年3月
电子与信息学报
Journalof
Vbl.29No.3
Electronic8&Information
Tbchn0109y
Mar.2007
多媒体会议中新型快速实时混音算法
王文林
廖建新朱晓民沈奇成
(北京邮电大学网络与交换技术国家重点实验室北京100876)
摘要:混音处理是多媒体会议系统中的一个关键环节,直接影响用户之问的相互交流。现有常用的混音算法巾存
在着音量突变的问题,通过对这些混音算法的分析,得出了变化的混音权重是导致音量忽大忽小的主要原因的结
论。在此基础上,该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法,该算法混音结
果自然流畅,避免了音量突变的问题。该算法运算简单,速度快,没有乘除法操作,容易硬件实现。可以广泛应用
于大规模的多媒体会议系统中。
关键词:多媒体会议;音频处理单元;非均匀;波形收缩;混音
中图分类号:TN919.8文献标识码:A文章编号:1009.5896(2007)03.0690.06
ANoVelFhstReal-Ti】meAudio
‘in
Wang
Wbn—lin
M奴iIlg
Algorithm
Shen
Multi]media
Conference
LiaoJian-xinZhu
Xia伊min
Qi—wei
(&o钯‰∥工n6.o,^kt叫D嘲礼9口凡d鼬itc九i佗9死c^.,Be彬哪咖饥o,PDs幻口砌死把cDmm.,Be彬叼100876,∞{nn)
Abstmct:In
multimedia
between
conference,audio
mi)cing
i8an_es8ential
component,which
aff&ts
the
communication
118er8.At
present,the
commonly瑚ed
audio
mi)【ingalgorithms
have
protean
Volume.By
analyziI培those
drawn.Base
weight
algorith瑚,the
conclusionof
mutative
mi)【ingⅥreights七ring
on
protean
volume
is
algorithm
n砌ed
Asymmetric8l、)Vrave-Shrinking(AWS)i8
prop08ed.A
f-Ⅸed
mi)【ing
i8瑚ed
to
this,a
novel
independent
of
input8
anddivision
applied
thenatllralandnuent
output8
without
protean
i8
volume.Without
multiplication
by
oper8tio珊,the
algorithm
iIl
large
8cale
8imple
and
f缸t
thatit
can
be
easily
implemented
hard、视re
and
widely
IImltimedia
conference
Bystems.
Key
words:Multimedia
1
conference;APu(Audio
Proce88
unit);A8ymmetrical;Ⅵ‘孙静·shriIll【ing;Audio
mi)(ing
满足大规模会议的应用。文献【3】中的平均混音算法随着混音
路数的增加音量急剧降低;文献【4,5】提出的对齐混音算法在
混音过程巾会出现明显的音量忽大忽小的变化;文献【6】提出
的自对齐混音算法则引入了部分噪音,并且音量偏小;实际
应用较多的箝位混音算法17】也存在音量突然变化情况。本文
基于H.323多媒体会议中集中式会议工作模式,提出一种新
型的快速实时混音算法,采用与混音输入无关的恒定混音权
重,杜绝音量变化,复杂度低,基本不引入噪音,且速度快,
极易于软硬件实现。
引言
近年来,多媒体会议成为多媒体通信发展的热点之一。
在多媒体会议中,音频交流最为频繁,实时性的要求也远远
高于视频及数据,是多媒体会议中最基本的要素。为了具有
更好的会议临场感.与会者希望能同时听到多个发言者的声
音。在分散控制会议模式下,每个发言者的语音信号都单独
传送给每个与会者,在终端处进行混音后再播放,这种方式
需要占用大量的网络带宽,影响语音信号的QoS(Quality
of
Ser、rice),并对终端有较高的要求。为此,ITU-T提出了集巾
控制会议模式%在Mcu(Multipoint
control
un“)中对来
2混音处理过程
根据ITU.T的H.323规范,在MCU中有
MC(MultipointController)和MP(MultipointPmce880r)两
.大核心模块.其中MP提供音频、视频和数据的集中处理能
自各发言者的语音信号进行混音处理,再将结果传送到每个
与会者,极大地降低了网络传输的负担和终端的处理能
力【2lo
目前各种混音算法都有其难以弥补的缺陷和不足,很难
力,划分为AMP(AudioMP),VMP(VideoMP)和
DMP(DataMP)3大模块。其中的AMP包括了多个
2005-08-18收到,2006-01.03改回
国家杰出青年科学基金(60525110),新世纪优秀人才支持计划
(NCET.0垂0111),高等学校博士学科点专项科研基金
APU(Audio
Proces8ing
Unit),分别对应一个会议,各APU
之间独立并行工作。APU的结构如图1所示16J.
(20030013006),国家移动通信产品研究开发专项基金和电子信息产
业发展基金资助课题
万方数据
第3期王文林等:多媒体会议中新型快速实时混音算法
691
H缓冲器1H解码器1卜.
叫编码器1
_缓冲器2
H解码器2卜.
一编码器2
混音器
一编码器ⅣI
H缓冲器ⅣH解码器吖卜-
oL…………………………!
一编码器Ⅳ+lI
图l音频处理器结构图
在H.323集巾控制模式下,每个与会终端与MCU建立
双工单播连接,实时与MCU交换数据流。其中音频流的编
码格式可以采用G.71l,G.722,G.723.1,G.728和G.729编
码规范,与AMP中的某一个APU相连,APU.中的Buffer
作为抖动缓冲使用,可以在一定的程度上减少由传输导致的
丢包、顺序不一致和抖动带来的影响。
经过缓冲的音频还必须经过相应解码器处理后才能由
混音器进行混音,混音完成后,再根据输出终端不同采用相
应编码器进行编码。所以。混音一般以音频流的一帧为单位
进行处理。
混音原理
原理1声音是由于物体振动对周围的空气产生压力而
传播的一种压力波,转换成电信号后,再经过抽样、量化,仍
然是一种连续平滑的波形信号。
原理2量化后的语音信号的频率与声音的频率对应,
振幅与声音的音量对应。
原理3量化的语音信号的叠加等价于空气中声波的叠
加。
所以当各信号的抽样率一致时,混音可以实现为将各信
号的采样数据线性叠加。在上述的ITU.T的G.7)()【系列编
码规范巾,只有G.722的抽样率是16000。其它规范的抽样
率是8000。如果要将G.722解码器的输出与其他解码器的输
出混音,只需要隔位丢弃采样数据即可。
假设在会议t,中,有M路音频参与混音,在时刻t第
i(待1,2,…,蚴路音频解码输出的数据为Ⅱl(t),其值域为
【一2‘}一,2Q一一1】,其中0是量化精度。要求有^r+1路编码
输出,通常Ⅳ-从不失一般性,可以约定第如=1,2,…,岣
路输出数据为6,(t),其巾6l(t)是除0l(t)外其他肛l路的混
音输出,而%+1(£)则是全部M路的混音输出,则
6J(£)=∑G,(£)'歹=1,2,…,M;%+l(t)=∑q(t)
(1)
‘=l,l薯J
由式(1)可知,6,(t)的值域不再是【-2Q~,2Q一一1】,产
生了溢出,破坏了语音信号的特征参数,从而引入了噪音。
随着Ⅳ的不断增大,发生溢出的频率不断上升,一般来说,
在M兰4时,溢出引入的噪音过大将导致混音后的语音无法
辨认。所以,混音算法的难点在于如何处理混音后采样值溢
出问题。
万 方数据
4
已有混音算法分析
目前混音后采样值溢出处理方案较多,但基本思想一
致,即根据原理2对语音信号的振幅做一定的平滑处理,即
可以在不破坏(或基本不破坏)语音信号原有的频率的基础上
避免溢出.故有
6J(£)=∑毗.j(£)q(£),歹=1,2,…,M
i;1.‘#』
Ⅳ
‰+l(£)=∑毗肌。(t)口。(£)
几乎所有的算法都由式(2)而来,其中%(z)称为混音权
重,不同算法之间的区别往往仅仅是权重不相同。
(1)平均算法
平均算法(a_verage
audio
mi)cing
加后取平均值【31'所以其混音权重函数如下:
‰∽=击,i茹¨,歹=1'2'..·,M
%㈣∽=击,江1,2,…,M
该算法的实质是将各路语音的音量减少了肛1(或∽
(2)对齐算法文献【4】中的混音算法是一种典型的对齐
audio
mi)【ing
algorithm,简称A算法),该算法令
T。talMaXj。tE【r'n毯阳(M1)
tE【r,r+4t1'l≠,、I…17
TotalMax黼2。。In粉。l(№)I)
M妇dM吗=吲#粉。。(№)I)
TotalMax;),否则将导致溢出。.
%,(力=差易,i=1'2'…,肘,歹=1’2,…,肘+1(5)
文献[51提出的混音算法与A算法类似,但每一路语音有
·3
algorithm,简称V算法)最为简单,就是将采样数据线性叠
倍,所以随着M的增大,各路语音的衰减将愈加严重,最终
导致语音细不可闻。而且,随着会议的进行,发言者数量吖
不断变化,则叫(曲也不断变化,导致音量忽大忽小甚至声音
断续,影响语音效果。所以V算法实际应用受到很大的限制,
无法适应大规模会议的混音需求。
算法(align
各路音频流当前混音帧巾采样值的绝对值的最大值为
TotalMax,累加结果中采样值的绝对值的最大值为
MiXedMax。即
其中r为该混音帧的起始时刻,4t为帧的长度。而混音权重
如式(5),其中易∈【l,Mi)cedMaX,/TotalMaxf】,用来调整
最终输出混音结果的值。但文献【41没有考虑到MixedMax。
可能大于极限值2口一一1,此时只能取厶∈【l,(2口~一1)/
各自的权重,所以能将低强度信号加强,增大其可识别度,