2024年8月15日发(作者:乐正代玉)
深度解读智能音箱技术:
解剖智能音箱的耳朵
度360
深度解读智能音箱技术:
360度解剖智能音箱的"耳朵"
智能音箱产业系列报道导读:
最近数月,智能行业第一媒体智东西已深入智能
音箱产业链,围绕智能语音交互入口之争和智能
音箱之热,连发数篇深度报道,该系列还将覆盖
业内数十家关键公司、核心操盘手和热点话题,
本文为系列报道之一。
如果没有“它”,所有的人工智能设备都是“聋子”,所有的智能音箱都是智障
音箱;如果没有它,背后的人工智能技术牛X到天都没用!它是智能设备的“耳
朵”——麦克风阵列。
“Alexa”,当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应,“今
天天气怎么样”,它就会“听懂”你的意图,用柔和的声音告诉你天气状况。
而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音),否则
无论云端的虚拟助手多么智能,也是无头苍蝇。麦克风阵列是语音交互的第一步,
在智能音箱落地中有关键作用,不仅传统的芯片公司,语音技术巨头和有深厚技
术背景的初创公司纷纷加入这一领域。
同时,随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,
“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有
必要看清“麦克风阵列”产品技术的过去现在和产业链现状,也是本文作为智东
西智能音箱产业系列报道的主要目的。
那么我们经常提及的麦克风阵列究竟是什么?它有哪些类别及作用?哪些玩家
参与其中?市场上各家智能音箱使用的麦克风阵列又有什么不同?
一、麦克风阵列:拾音
简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空
间对声音进行获取和处理的录音系统,它是远讲语音(超过1米以上)设备的
一个关键部分。(注:本文所讨论的为远讲语音设备中的消费级麦克风阵列)
麦克风阵列的功能就是拾音。在远讲语音设备中,麦克风阵列通过声源定位、波
束形成、噪声抑制、回声消除等远讲算法,有效拾取声音,从而保证具体场景中
语音的识别率。
具体来讲,以智能音箱为例,在家庭场景中会存在各种噪声等,麦克风阵列的作
用就是“众里寻他千百度”,在众多干扰噪声中寻找到你,但只是找到还不够,
还需要抑制噪声、消除自身发出声音的影响,并增强你的声音,从而确保在云端
进行有效识别,并满足你的任务指令。
而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。比如,以Siri为代
表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下
拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,
Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。
而这正是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。不仅如此,
由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能
真正做到“听清”。
二、麦克风阵列中的关键技术
在远场拾音中,麦克风阵列可以提供前端信号处理,拾取有效的语音信号输送到
云端进行识别。这其中就几项关键的技术:声源定位、波束形成、噪声抑制、回
声消除、语音增强。
1、声源定位
声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”,以便
后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测,确定在
特定空间中说话者的位置关系。尤其是在移动场景中,实时的声源定位就显得重
要。
2、波束形成
波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间
指向性。这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方
向的人声。
以叮咚音箱的AIUI模式为例,开启了一定时间的多伦对话后,它会优先默认第
一个说话者作为它拾音的主方向,从而抑制其他方向的声音,来保证和一个对话
者的交互。这也意味着,当前技术下,智能音箱不可能同时和多人进行交互。
3、噪声抑制
你在卧室中开着电视,是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是
它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱,这正是噪声抑制
的作用。
简单来讲,噪声抑制就是在目标信号和干扰噪声中,保留目标声音,削弱周围的
噪声,从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算
法,实现有效识别理解。
4、抗混响
混响就是声源发出后,在空间中经过多次物体(墙壁)的反射和吸收,若干声波
混合在一起所形成的现象,它会影响语音信号的处理,声源定位的精度以及语音
识别效果。通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。
5、回声抵消
回声抵消简单来讲,就是不让语音设备自己发出的声音干扰到拾音过程。比如在
智能音箱播放音乐时,你唤醒设备并下达命令,这时麦克风阵列同时采集你发出
的声音和正在播放的音乐的声音,而回声抵消就是要去掉其中音乐的声音并保留
人的声音,以供云端进行语音识别。
6、语音增强
在家居环境中,存在着背景噪音、回声、混响等噪音干扰,这些噪音相互叠加严
重影响语音识别效果。除了降低各种噪声外,还可以从语音增强进行改善。
远距离拾音的另一个问题就是获取的语音信号较弱,需要通过麦克风阵列进行噪
声分离,提取目标信号,并增强语音信号的能量,从而提升语音识别效果。
三、消费级麦克风阵列的里程碑事件
早在20世纪七八十年代,麦克风阵列已经被应用到语音信号处理中,进入90
年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。近
年来随着语音交互成为趋势,麦克风阵列逐渐进入消费市场领域,日趋火热。
在麦克风阵列领域拥有丰富经验的先声互联创始人付强曾谈到,麦克风阵列在消
费级领域出现有几个里程碑事件:
第一个里程碑事件是微软在2010年6月份正式推出的Kinect,它是Xbox 360
游戏主机的体感周边设备,内置了红外线摄像头、传感器、麦克风阵列,可通过
对用户身体动作的变化和发出指令来操作游戏。Kinect曾累计销量2900万部,
但近几年逐渐推出了人们的视野。
第二个是三星在2012年推出的全球首款具有远讲语音能力的智能电视,该电视
使用麦克风阵列,科胜讯的语音芯片,支持语音操控,并带动了国内的智能电视
潮。
第三个里程碑事件就是亚马逊Echo智能音箱在2014年底的推出,其采用6+1
麦克风阵列,支持5米远讲语音操控。Echo不但是第一款真正意义上的智能音
箱设备,还是消费级麦克风阵列应用的里程碑事件,并带火了当下国内这波智能
音箱浪潮。
其中,三星的第一款智能电视和亚马逊的Echo智能音箱都用了4年时间去打磨,
才有了今天的技术成熟。而反观国内的智能音箱浪潮,我们还缺少这种对技术的
长线投入和对产品的耐心打磨。
四、麦克风阵列的代表性玩家
随着国内智能音箱以及语音交互的火热,在麦克风阵列以及远讲算法领域诞生了
一波方案提供商,其中能够提供麦克风阵列的硬件方案,又能够提供前端算法的
厂商并不太多,智东西选出了具有代表性的几家方案厂商。
1、科大讯飞——国内语音龙头
科大讯飞是国内一家老牌智能语音公司,其有一个专门的团队在研究麦克风阵列
技术。目前在讯飞开放平台上,提供二麦线性阵列、四麦线性阵列和六麦环形阵
列。中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。
叮咚音箱就是由京东和科大讯飞联合成立的灵隆科技推出的,其中科大讯飞提供
语音语义等技术支持。叮咚音箱A1是国内第一款真正意义上的智能音箱,于
2015年8月正式推出,它采用7+1麦克风阵列,豪恩声学提供的ECM麦克风,
并采用科胜讯CX20810-11Z音频芯片。在结构上不同于其他智能音箱置于顶
部,而是位于主控电路板下面,并采用中空结构,麦克风向外侧倾斜拾音,颇具
创意。
(叮咚音箱A1的7+1环形麦克风阵列,黑色为麦克风)
2、科胜讯——国际语音方案巨头
科胜讯成立于1999年,曾是全球最大的独立通讯芯片提供商,后来几经波折被
新思科技收购。在语音交互领域,它主要提供语音芯片和麦克风阵列技术,其方
案最大优势在于降噪和语音增强算法,技术打磨也更加成熟。难怪科胜讯总裁
Saleel Awsare会说,其双麦克风就可以实现友商5-8麦克风的解决方案的效
果。
亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知声等都是其
客户或合作伙伴。据了解科胜讯为Alexa Voice Service (AVS) 量身定做了
AudioSmart 语音处理开发套件出货量已超过3000万套,涵盖智能音箱、智
能家居、智能电视、机器人等多个品类。出门问问刚刚发布的智能音箱也采用科
胜讯的方案,此外,苹果HomePod也可能采用了科胜讯AudioSmart开发套
件。
3、先声互联——阵列研究先行者
先声互联是一家成立于2016年的创业公司,主要提供麦克风阵列以及前端信号
处理技术。其创始人付强曾在中科院声学所有10余年的声学研究,在语音信号
处理领域有20余年的积淀。先声互联目前主要提供两麦、四麦、六麦等解决方
案,在抗混响、回声消除、语音增强等方面表现不俗。
先声互联是百度的合作伙伴,其多麦克风硬件开发套件也应用在百度DuerOS
平台中。目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、
数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组。
此外,先声互联也正在和腾讯、联想、小米等公司就某些智能硬件产品展开合作。
4、思必驰——成熟方案输出商
思必驰成立于2007年,是一家面向B端客户的语音语义技术提供商。其副总
裁雷国雄告诉智东西,思必驰从2012年就开始研究麦克风阵列技术,并配备一
个专门的团队研究语音信号处理,结合思必驰的语音进行优化。目前思必驰提供
单麦、两麦、四麦、六麦等解决方案,经过5、6年时间的积累,在性能和稳定
性上均表现不错。
近期阿里推出的天猫精灵X1就是采用思必驰的环形6麦克风阵列,模拟麦克风
则来自敏芯微电子,天猫精灵在降噪、回声消除等拾音方面均有不错表现。此外,
联想、小米、美的、360、DOSS等都是其客户。
5、声智科技——新起之秀
声智科技也成立于2016年,提供麦克风阵列以及远讲算法,目前其推出了单麦、
两麦、四麦、六麦、八麦的阵列解决方案,也有不错的表现。有趣的是其创始人
陈孝良也来自中科院声学所。
近期刚刚发布的小米AI音箱,就采用了声智科技的环形6麦克风阵列和唤醒技
术方案。声智科技也是百度的合作伙伴,推出了基于DuerOS的语音解决方案。
此外,腾讯、阿里巴巴、奇虎360、华为、海尔等都是其客户。
五、麦克风阵列:两路分化
目前智能音箱中的麦克风阵列呈现两路分化,主要包括环形和线性。亚马逊
Echo、叮咚音箱、天猫精灵、小米AI音箱等技术路线相似,都使用6(+1)、
7(+1)个麦克风的环形阵列,而Google Home、出门问问的问问音箱则采
用了2麦克风的线性阵列。
(亚马逊Echo的6+1环形麦克风阵列,金色为麦克风)
为何各家使用的麦克风数目不一,真的是数目越多越好吗?先声互联付强曾从技
术的角度谈到,事实并非如此。目前麦克风阵列语音增强大致可分为两种技术路
线:
一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目以及阵列
拓扑结构(排列位置)依赖较大,通过使用较多的麦克风以及特定结构,从而使
得波束的空间区分性更强,保证声源定位和拾音效果。
另外一种就是以科胜讯为代表的路线,该路线更加依赖语音增强算法,而对麦克
风阵列数量和阵列拓扑结构依赖较小,通过通过自适应降噪、降低混响、语音分
离等技术,从而靠少量麦克风获得良好的拾音效果。
有趣的是,刚刚在8月24日发布的出门问问的智能音箱采用的就是科胜讯的2
麦克风阵列,从其测试结果来看,远场拾音唤醒能力并不输于竞品。
(黄色方框为Google Home 2麦线性阵列)
关于阵列麦克风数目的选择,思必驰副总裁雷雄国则从产品层面谈到:首先从性
能上考虑,思必驰从单麦、6麦、8麦、12麦都有尝试,思必驰最终选择6麦
作为主要的阵列方案,是成本和性能的一个综合考虑。6麦以上尽管性能也会提
升,但提升的效果和成本不成正比,但6麦一下数目的减少,成本会降低,性
能也会相对降低。
其次,产品形态会影响阵列的选择,比如电视上的Soundbar等设备是长条形,
就适合线性阵列;而Echo、叮咚是椭圆,它就可以选择环形阵列。
此外,麦克风数目的选择还和产品定位有关。定位高端产品,对体验有更高要求,
则可以选择6麦阵列,而中低端的产品可选择2麦或4麦。
六、麦克风阵列在远场交互中存在的问题
尽管智能音箱经过一段时间的打磨,在拾音、唤醒、识别方面都能够欧达到一个
不错的效果,但在远场交互中麦克风阵列仍存在一些亟待解决的问题。
第一,误唤醒是一个问题。雷雄国也谈到,表面看这个是唤醒的问题,但实际跟
阵列有较强的关系,唤醒拿到的是阵列拾音的信号,阵列对信号噪声处理效果的
好坏直接影响到误唤醒。这个问题也可以从产品的思路进行解决,如唤醒之后只
是亮灯而不“说话”,这样会好很多。
第二,声源定位需要提升。在声学环境中,尤其是在反射较强、回声较强、噪音
环境下,声源定位需要较大的提升空间。
第三,动态环境中对用户位置的跟踪也需要提升。在家庭场景中, 人会处于一
种移动的状态,唤醒和指令可能不在同一个方位,在下一次人机交互中会重点处
理刚刚那个方向的信号,如果房间存在多个音源,就可能无法执行指令。
第四,麦克风阵列无法同时进行多人声的识别和处理,当下的波束形成和噪声抑
制,会使阵列在同一时间处理同一个方向的声源,从而抑制其他声源,这就意味
着当下的技术路线下,机器无法同时与多人进行交互。
结语:麦克风阵列赋予智能硬件“耳朵”
提起未来,我们会幻想无处不在的智能,虚拟助手帮助我们做任何想做的事情。
而机器具备智能的第一步应该是听懂人类的心声,那么它首先应该具备的就是一
双“耳朵”。
而在人工智能的当下,麦克风阵列的作用就是赋予智能硬件以“耳朵”,让它更
好的听到人类的声音,然后将声音传输到云端的智能“大脑”去理解,去调动自
身的“技能”,满足人类的需求。
但这双“耳朵”在各种场景中是否灵敏好用,能否“耳听八方”,还需要底层声
学技术的进一步研究。
2024年8月15日发(作者:乐正代玉)
深度解读智能音箱技术:
解剖智能音箱的耳朵
度360
深度解读智能音箱技术:
360度解剖智能音箱的"耳朵"
智能音箱产业系列报道导读:
最近数月,智能行业第一媒体智东西已深入智能
音箱产业链,围绕智能语音交互入口之争和智能
音箱之热,连发数篇深度报道,该系列还将覆盖
业内数十家关键公司、核心操盘手和热点话题,
本文为系列报道之一。
如果没有“它”,所有的人工智能设备都是“聋子”,所有的智能音箱都是智障
音箱;如果没有它,背后的人工智能技术牛X到天都没用!它是智能设备的“耳
朵”——麦克风阵列。
“Alexa”,当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应,“今
天天气怎么样”,它就会“听懂”你的意图,用柔和的声音告诉你天气状况。
而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音),否则
无论云端的虚拟助手多么智能,也是无头苍蝇。麦克风阵列是语音交互的第一步,
在智能音箱落地中有关键作用,不仅传统的芯片公司,语音技术巨头和有深厚技
术背景的初创公司纷纷加入这一领域。
同时,随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,
“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有
必要看清“麦克风阵列”产品技术的过去现在和产业链现状,也是本文作为智东
西智能音箱产业系列报道的主要目的。
那么我们经常提及的麦克风阵列究竟是什么?它有哪些类别及作用?哪些玩家
参与其中?市场上各家智能音箱使用的麦克风阵列又有什么不同?
一、麦克风阵列:拾音
简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空
间对声音进行获取和处理的录音系统,它是远讲语音(超过1米以上)设备的
一个关键部分。(注:本文所讨论的为远讲语音设备中的消费级麦克风阵列)
麦克风阵列的功能就是拾音。在远讲语音设备中,麦克风阵列通过声源定位、波
束形成、噪声抑制、回声消除等远讲算法,有效拾取声音,从而保证具体场景中
语音的识别率。
具体来讲,以智能音箱为例,在家庭场景中会存在各种噪声等,麦克风阵列的作
用就是“众里寻他千百度”,在众多干扰噪声中寻找到你,但只是找到还不够,
还需要抑制噪声、消除自身发出声音的影响,并增强你的声音,从而确保在云端
进行有效识别,并满足你的任务指令。
而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。比如,以Siri为代
表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下
拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,
Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。
而这正是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。不仅如此,
由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能
真正做到“听清”。
二、麦克风阵列中的关键技术
在远场拾音中,麦克风阵列可以提供前端信号处理,拾取有效的语音信号输送到
云端进行识别。这其中就几项关键的技术:声源定位、波束形成、噪声抑制、回
声消除、语音增强。
1、声源定位
声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”,以便
后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测,确定在
特定空间中说话者的位置关系。尤其是在移动场景中,实时的声源定位就显得重
要。
2、波束形成
波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间
指向性。这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方
向的人声。
以叮咚音箱的AIUI模式为例,开启了一定时间的多伦对话后,它会优先默认第
一个说话者作为它拾音的主方向,从而抑制其他方向的声音,来保证和一个对话
者的交互。这也意味着,当前技术下,智能音箱不可能同时和多人进行交互。
3、噪声抑制
你在卧室中开着电视,是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是
它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱,这正是噪声抑制
的作用。
简单来讲,噪声抑制就是在目标信号和干扰噪声中,保留目标声音,削弱周围的
噪声,从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算
法,实现有效识别理解。
4、抗混响
混响就是声源发出后,在空间中经过多次物体(墙壁)的反射和吸收,若干声波
混合在一起所形成的现象,它会影响语音信号的处理,声源定位的精度以及语音
识别效果。通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。
5、回声抵消
回声抵消简单来讲,就是不让语音设备自己发出的声音干扰到拾音过程。比如在
智能音箱播放音乐时,你唤醒设备并下达命令,这时麦克风阵列同时采集你发出
的声音和正在播放的音乐的声音,而回声抵消就是要去掉其中音乐的声音并保留
人的声音,以供云端进行语音识别。
6、语音增强
在家居环境中,存在着背景噪音、回声、混响等噪音干扰,这些噪音相互叠加严
重影响语音识别效果。除了降低各种噪声外,还可以从语音增强进行改善。
远距离拾音的另一个问题就是获取的语音信号较弱,需要通过麦克风阵列进行噪
声分离,提取目标信号,并增强语音信号的能量,从而提升语音识别效果。
三、消费级麦克风阵列的里程碑事件
早在20世纪七八十年代,麦克风阵列已经被应用到语音信号处理中,进入90
年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。近
年来随着语音交互成为趋势,麦克风阵列逐渐进入消费市场领域,日趋火热。
在麦克风阵列领域拥有丰富经验的先声互联创始人付强曾谈到,麦克风阵列在消
费级领域出现有几个里程碑事件:
第一个里程碑事件是微软在2010年6月份正式推出的Kinect,它是Xbox 360
游戏主机的体感周边设备,内置了红外线摄像头、传感器、麦克风阵列,可通过
对用户身体动作的变化和发出指令来操作游戏。Kinect曾累计销量2900万部,
但近几年逐渐推出了人们的视野。
第二个是三星在2012年推出的全球首款具有远讲语音能力的智能电视,该电视
使用麦克风阵列,科胜讯的语音芯片,支持语音操控,并带动了国内的智能电视
潮。
第三个里程碑事件就是亚马逊Echo智能音箱在2014年底的推出,其采用6+1
麦克风阵列,支持5米远讲语音操控。Echo不但是第一款真正意义上的智能音
箱设备,还是消费级麦克风阵列应用的里程碑事件,并带火了当下国内这波智能
音箱浪潮。
其中,三星的第一款智能电视和亚马逊的Echo智能音箱都用了4年时间去打磨,
才有了今天的技术成熟。而反观国内的智能音箱浪潮,我们还缺少这种对技术的
长线投入和对产品的耐心打磨。
四、麦克风阵列的代表性玩家
随着国内智能音箱以及语音交互的火热,在麦克风阵列以及远讲算法领域诞生了
一波方案提供商,其中能够提供麦克风阵列的硬件方案,又能够提供前端算法的
厂商并不太多,智东西选出了具有代表性的几家方案厂商。
1、科大讯飞——国内语音龙头
科大讯飞是国内一家老牌智能语音公司,其有一个专门的团队在研究麦克风阵列
技术。目前在讯飞开放平台上,提供二麦线性阵列、四麦线性阵列和六麦环形阵
列。中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。
叮咚音箱就是由京东和科大讯飞联合成立的灵隆科技推出的,其中科大讯飞提供
语音语义等技术支持。叮咚音箱A1是国内第一款真正意义上的智能音箱,于
2015年8月正式推出,它采用7+1麦克风阵列,豪恩声学提供的ECM麦克风,
并采用科胜讯CX20810-11Z音频芯片。在结构上不同于其他智能音箱置于顶
部,而是位于主控电路板下面,并采用中空结构,麦克风向外侧倾斜拾音,颇具
创意。
(叮咚音箱A1的7+1环形麦克风阵列,黑色为麦克风)
2、科胜讯——国际语音方案巨头
科胜讯成立于1999年,曾是全球最大的独立通讯芯片提供商,后来几经波折被
新思科技收购。在语音交互领域,它主要提供语音芯片和麦克风阵列技术,其方
案最大优势在于降噪和语音增强算法,技术打磨也更加成熟。难怪科胜讯总裁
Saleel Awsare会说,其双麦克风就可以实现友商5-8麦克风的解决方案的效
果。
亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知声等都是其
客户或合作伙伴。据了解科胜讯为Alexa Voice Service (AVS) 量身定做了
AudioSmart 语音处理开发套件出货量已超过3000万套,涵盖智能音箱、智
能家居、智能电视、机器人等多个品类。出门问问刚刚发布的智能音箱也采用科
胜讯的方案,此外,苹果HomePod也可能采用了科胜讯AudioSmart开发套
件。
3、先声互联——阵列研究先行者
先声互联是一家成立于2016年的创业公司,主要提供麦克风阵列以及前端信号
处理技术。其创始人付强曾在中科院声学所有10余年的声学研究,在语音信号
处理领域有20余年的积淀。先声互联目前主要提供两麦、四麦、六麦等解决方
案,在抗混响、回声消除、语音增强等方面表现不俗。
先声互联是百度的合作伙伴,其多麦克风硬件开发套件也应用在百度DuerOS
平台中。目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、
数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组。
此外,先声互联也正在和腾讯、联想、小米等公司就某些智能硬件产品展开合作。
4、思必驰——成熟方案输出商
思必驰成立于2007年,是一家面向B端客户的语音语义技术提供商。其副总
裁雷国雄告诉智东西,思必驰从2012年就开始研究麦克风阵列技术,并配备一
个专门的团队研究语音信号处理,结合思必驰的语音进行优化。目前思必驰提供
单麦、两麦、四麦、六麦等解决方案,经过5、6年时间的积累,在性能和稳定
性上均表现不错。
近期阿里推出的天猫精灵X1就是采用思必驰的环形6麦克风阵列,模拟麦克风
则来自敏芯微电子,天猫精灵在降噪、回声消除等拾音方面均有不错表现。此外,
联想、小米、美的、360、DOSS等都是其客户。
5、声智科技——新起之秀
声智科技也成立于2016年,提供麦克风阵列以及远讲算法,目前其推出了单麦、
两麦、四麦、六麦、八麦的阵列解决方案,也有不错的表现。有趣的是其创始人
陈孝良也来自中科院声学所。
近期刚刚发布的小米AI音箱,就采用了声智科技的环形6麦克风阵列和唤醒技
术方案。声智科技也是百度的合作伙伴,推出了基于DuerOS的语音解决方案。
此外,腾讯、阿里巴巴、奇虎360、华为、海尔等都是其客户。
五、麦克风阵列:两路分化
目前智能音箱中的麦克风阵列呈现两路分化,主要包括环形和线性。亚马逊
Echo、叮咚音箱、天猫精灵、小米AI音箱等技术路线相似,都使用6(+1)、
7(+1)个麦克风的环形阵列,而Google Home、出门问问的问问音箱则采
用了2麦克风的线性阵列。
(亚马逊Echo的6+1环形麦克风阵列,金色为麦克风)
为何各家使用的麦克风数目不一,真的是数目越多越好吗?先声互联付强曾从技
术的角度谈到,事实并非如此。目前麦克风阵列语音增强大致可分为两种技术路
线:
一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目以及阵列
拓扑结构(排列位置)依赖较大,通过使用较多的麦克风以及特定结构,从而使
得波束的空间区分性更强,保证声源定位和拾音效果。
另外一种就是以科胜讯为代表的路线,该路线更加依赖语音增强算法,而对麦克
风阵列数量和阵列拓扑结构依赖较小,通过通过自适应降噪、降低混响、语音分
离等技术,从而靠少量麦克风获得良好的拾音效果。
有趣的是,刚刚在8月24日发布的出门问问的智能音箱采用的就是科胜讯的2
麦克风阵列,从其测试结果来看,远场拾音唤醒能力并不输于竞品。
(黄色方框为Google Home 2麦线性阵列)
关于阵列麦克风数目的选择,思必驰副总裁雷雄国则从产品层面谈到:首先从性
能上考虑,思必驰从单麦、6麦、8麦、12麦都有尝试,思必驰最终选择6麦
作为主要的阵列方案,是成本和性能的一个综合考虑。6麦以上尽管性能也会提
升,但提升的效果和成本不成正比,但6麦一下数目的减少,成本会降低,性
能也会相对降低。
其次,产品形态会影响阵列的选择,比如电视上的Soundbar等设备是长条形,
就适合线性阵列;而Echo、叮咚是椭圆,它就可以选择环形阵列。
此外,麦克风数目的选择还和产品定位有关。定位高端产品,对体验有更高要求,
则可以选择6麦阵列,而中低端的产品可选择2麦或4麦。
六、麦克风阵列在远场交互中存在的问题
尽管智能音箱经过一段时间的打磨,在拾音、唤醒、识别方面都能够欧达到一个
不错的效果,但在远场交互中麦克风阵列仍存在一些亟待解决的问题。
第一,误唤醒是一个问题。雷雄国也谈到,表面看这个是唤醒的问题,但实际跟
阵列有较强的关系,唤醒拿到的是阵列拾音的信号,阵列对信号噪声处理效果的
好坏直接影响到误唤醒。这个问题也可以从产品的思路进行解决,如唤醒之后只
是亮灯而不“说话”,这样会好很多。
第二,声源定位需要提升。在声学环境中,尤其是在反射较强、回声较强、噪音
环境下,声源定位需要较大的提升空间。
第三,动态环境中对用户位置的跟踪也需要提升。在家庭场景中, 人会处于一
种移动的状态,唤醒和指令可能不在同一个方位,在下一次人机交互中会重点处
理刚刚那个方向的信号,如果房间存在多个音源,就可能无法执行指令。
第四,麦克风阵列无法同时进行多人声的识别和处理,当下的波束形成和噪声抑
制,会使阵列在同一时间处理同一个方向的声源,从而抑制其他声源,这就意味
着当下的技术路线下,机器无法同时与多人进行交互。
结语:麦克风阵列赋予智能硬件“耳朵”
提起未来,我们会幻想无处不在的智能,虚拟助手帮助我们做任何想做的事情。
而机器具备智能的第一步应该是听懂人类的心声,那么它首先应该具备的就是一
双“耳朵”。
而在人工智能的当下,麦克风阵列的作用就是赋予智能硬件以“耳朵”,让它更
好的听到人类的声音,然后将声音传输到云端的智能“大脑”去理解,去调动自
身的“技能”,满足人类的需求。
但这双“耳朵”在各种场景中是否灵敏好用,能否“耳听八方”,还需要底层声
学技术的进一步研究。