最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

汽车语音交互技术发展趋势综述

IT圈 admin 26浏览 0评论

2024年4月28日发(作者:穆醉冬)

Automotive Digest

汽车语音交互技术发展趋势综述

王兴宝

雷琴辉梅林海

张亚

邢猛

(科大讯飞股份有限公司智能汽车事业部

合肥230088

)

欢迎引用

王兴宝

雷琴辉

梅林海

.

汽车语音交互技术发展趋势综述

[J].

汽车文摘

,2021(2):

9-15.

[

Cite

this

paper

]

Wang

X,

Lei

Q,

Mei

L,

et

al.

A

Review

on

Development

Trends

of

Automotive

Voice

InLeracLion

Technologies

[J].

Au-

LomoLive

Digest

(Chinese),

2021

(2)

:9-15.

摘要

汽车网联化和智能化创造了汽车人机交互创新发展的机遇与前景

其中语音交互已经成为人机交互的主要方

首先

综述了从早期的物理按键到触屏以及发展到现在的语音多模态交互模式等人机交互发展进程

进而分析了国内

外语音交互技术研究和应用现状

最后

对语音交互技术发展趋势进行展望

总结出人机交互将围绕从

基本可用

好用

易用

”,

主副驾交互

多乘客交互

从“

被动式执行机器人

拟人化贴心助理”,

车内交互

“跨场景交互

及从

语音交互

多模态交互融合协同

等趋势发展

主题词:语音交互

人机交互

语音识别

多模态

中图分类号:

U461.99

文献标识码:

A

DOI

10.

19822/.

1671

-6329.20200187

A

Review

on

Development

Trends

of

Automotive

Voice

Interaction

Technologies

Wang

Xingbao,

Lei

Qinhui,

Mei

Linhai,

Zhang

Ya,

Xing

Meng

(

Intelligent

Automobile

Business

Unit,

iflytek

Co.,

Ltd.,

Hefei

230088

)

[

Abstract

]

Automotive

networking

and

intelligence

create

opportunities

and

prospects

for

innovative

development

of

automotive

human-

computer

interaction,

in

which

voice

interaction

has

become

the

main

way

of

human-

computer

interaction.

Firstly,

the

development

process

of

human-computer

interaction

from

the

early

physical

buttons

to

touch

screen

and

voice

multimodal

interaction

mode

is

summarized,

and

then

the

research

and

application

status

of

voice

interaction

technology

at

home

and

abroad

is

analyzed.

Finally,

the

development

trend

of

voice

interaction

technology

is

prospected,

and

it

is

concluded

that

human-computer

interaction

will

focus

on

"

basic

available

to

"

easy

to

use

from

"

main

and

auxiliary

driving

from

"

interactive

to

"

multi

passenger

interaction

from

"

passive

executive

robot

to

"

personified

intimate

assistant

,

from

"

in

car

interaction

to

"

cross

scene

interaction

,

and

from

"

voice

interaction

to

"

multimodal

interaction

fusion

and

cooperation

.

Key

words:

Voice

interaction,

HMI,

Speech

recognition,

Multi-modal

0

前言

近年来随着车联网系统迅速发展,

汽车人机交互

越受车企重视

其中语音作为最便捷的交互入口

在人

机交互中发挥至关重要的价值,分析汽车行业近百年

法改进

,在各个算法模块都进行了升级,

语音交互在部

分垂类场景达到可用门槛

从汽车市场分析报告得出

2020

年中国汽车保有量将超过

2

亿辆,其中网联化备

受人们关注,人机交互也面临着重大挑战

用户不再满

足于基础的功能可用

期望更智能的交互模式

因此,

发展史

,从早期的物理按键到触屏以及发展到现在的

语音多模态等交互模式,每次变革都是围绕如何提升

未来的人机交互模式发展是重要研究课题

人机交互的体验为目标

语音交互全链路包括语音增

1

汽车人机交互发展概述

1.1

汽车人机交互重要性

智能化和网联化已经成为汽车行业发展的必然

汽车文摘

9

语音识别

语义理解等多个环

如果其中一环亮红

灯则会导致整体交互失败

,但近几年由于深度学习算

汽车文摘

趋势,越来越多的汽车企业正在积极向人工智能

件服务

生态平台等方向发展

在汽车安全

性能全面

提升的同时

让驾驶更智能

更有趣叫在此过程中

汽车与人之间的交互变的更为重要

如何让人与汽车

之间更便捷和更安全的交互一直是各大车企及相关

研究机构的研发方向

1.2

汽车人机交互方式发展

1.2.1

物理按键

汽车在早期主要是以驾驶为目的

,

内饰也比较单

主要集中在中控仪表盘上

车载收音机和

CD

的出现

成为了第一代车机主要娱乐功能

,

人与汽车

交互开启了物理按键时代

在上世纪

90

年代,车内主

要靠大量的物理开关按键进行控制车载影音娱乐系

,

并且这些物理开关和按钮在空间设计上进行了一

系列优化

,

由最初全部集中在中控仪表

,

慢慢迁移到

驾驶员方向盘上

这些设计优化使人机交互的安全

性和便捷性得到提升

物理按键虽然是最原始的交互模式

,但是在车内

是最可靠的方式,车内安全性较高的部位还是使用物

理按键

如:发动机起动

驻车以及车门开关等

随着

汽车电子技术的发展及大规模的应用

,

汽车功能越来

越丰富

收音机

空调

音响及电子系统开关按键分区

排列,

单一的物理按键方式已经不能满足用户的驾驶

体验

于是屏幕显示开始引入车机

1.2.2

触屏

在上世纪

80

年代触摸屏被大规模商用化

,

但是触

摸屏根据材料不一样可分为:红外线式

电阻式

表面

声波式和电容式触摸屏

4

1986

年别克推出全触

屏中控的量产车型

Riviera

,

内部使用了一块带有触摸

传感器的

CRT

阴极射线显像管

显示屏

,该屏幕在功

能上集成了比传统物理按键更多的控制功能

,包括:

电台

空调

音量调节

汽车诊断

、油量显示等功能

使

得整个车内人机交互体验上升一个档次

2007

iPhone

手机将触摸屏做到了极致的交互体验,开创了

手机正面无键盘触摸屏操作的时代

之后各家车企

也着手中控屏幕的设计,以及相应的人机交互系统的

设计

大屏支持音

视频播放,触屏操控的交互方式

成为第

2

代车机的标配

2013

特斯拉全新推出了采用垂直定向搭载

17

英寸车载显示屏的电动车一

MODEL

S,

全面取消中控

物理按键

几乎可利用屏幕操控所有的车载功能

2018

,比亚迪第

2

代唐推出了支持

90

旋转功能大

尺寸的悬浮式中控屏。

中控屏也朝着大尺寸

可移

10

2021

年第2

多屏幕方向发展

1.2.3

语音交互

在互联网通信技术以及智能交通快速发展的环

境下

,

汽车本身也逐渐演变成能集成各种信息源的载

体,随着人工智能技术的突飞猛进和车联网应用的大

范围普及

,语音交互的准确率

响应速度

便利性上有

了很大提高

在国际上

宝马、

奔驰

福特

大众等多家车企已

经将语音交互技术整合到车机内,

为用户提供方便

安全

高效的车内人机交互方案

而在

2012

年之前,

中国汽车市场的语音交互几乎都是由国外公司定义

随着

2010

年科大讯飞发布了全球首个智能语音

云开放平台

自主语音技术占据市场主导

2011~

2013

+

端技术架构

全球首个车载麦克风阵列降

噪模块的发布

标志着中国自主的车载语音交互产品

效果已经反超国外

,

2014

年在行车高噪环境下识别

率已经超过

90

%

o

吉利

长安

奇瑞

上汽等自主品牌

积极与语音技术和产品公司合作

,

深度定制搭载语音

交互技术的车载系统

2015

科大讯飞和奇瑞汽车联合打造的

iCloud-

rive

2.0

智能车载系统上市发布,产品以高效的语音体

验颠覆了人们对于交互场景的认知

,

以语音交互深度

打通了车机功能和信息娱乐服务

成为了业内追捧的

人车交互标杆产品

2016

上汽和阿里联合打造的斑马智行

1.0

载荣威

RX5

上市发布

通过集成丰富的互联网生态服

务和内容

以语音交互的方式作为连接用户的桥梁

成了当时行业内公认的互联网汽车标杆

2017

年,蔚来

ES8

首次在车内搭载

Nomi

机器人

让人机交互更形象好

用户对人机交互助理的热度提

升,定位开车旅途中的伙伴更拟人化

随着技术的发展

3

代车机在往信息化

智能化

发展

采用更好

兼容性更强的安卓等车机系统

过快速集成免唤醒

语音增强

声源定位

声纹识别

自然语音交互

主动式交互

智能语音提示等新的技

,

全面增强了驾驶空间的安全性

趣味性

,

互动性冋

,

打造了沉浸式交互体验的智能驾舱

1.2.4

多模态交互

人与人交流除听觉外

还有许多感官通道

为了

提供更好的人机交互体验

,

需充分利用人的多种感知

通道(

听觉通道

视觉通道

触觉通道

嗅觉通道

意识

通道等

以不同形式的输入组合

语音

图像

手势

触摸

姿势

表情

眼动

脑电波等

为人机交互通道提

Automotive Digest

供多种选择

提咼人机交互的自然度和效率

多模态

并非多个模态的集合

而是各单一模态之间的有机协

同和整合

|3I

o

机器利用电脑视觉技术,识别人类的姿势和动

理解其传递的信息

指令

使得人机交互体验更加

自然

高效

而识别人类的面部表情和目光,更重要

的意义在于传递的情感,进而增强语言

手势传递的

含义

这也解释了为什么我们在面对面交流时

会试

图注视对方的表情和目光

就是为了准确判断对方的

意图和情绪

因此,使机器从

能听会说

理解思

再到

“察言观色

才能全面提高人机交互的智能

化水平

2019

年北美

CES

展上

奔驰

CLA

车型搭载的

最新人机交互系统

支持复杂语音指令和手势识别

拜腾保留了

48

寸的车载大屏

同时将触摸屏

语音控

手势控制

物理按键进行了充分的融合

日产展

示了全新的车载

AR

概念,应用了无形可视化

I2V

丰田发布了搭载个性化

情感化感知的全新汽车

驾舱

围绕语音识别

手势识别

、图像识别等多模态

融合交互方式必将成为新的制高点

成为下一代人机

交互势不可挡的发展趋势

2

汽车语音交互技术发展现状

2.1

语音交互技术发展

从语音交互整个处理链路来看

1

,

可将其分

3

部分:语音输入

语音处理和语音输出,

其中语音

输入包括:语音增强

;

语音处理包括:语音唤醒

语音

识别

语义理解

;

语音输出包括:语音合成和音效增

2006

年人工智能第

3

次浪潮推动下

,

利用深度

学习理论框架将语音交互链路中各模块算法得到升

,

并且配合大量数据持续迭代

,

语音交互成功率得

到较大提升

达到可用的门槛,另外随着芯片算力的

显著提升以及

5G

的普及

,

提高语音交互整体交互成

功率

Q

>

58

誰强

1

语音交互全链路

2.2

语音交互核心技术

2.2.1

语音增强

声音的信号特征提取的质量将直接影响语音识

别的准确率

车内环境噪音源包含发动机噪声

风噪

周围车辆噪声

转向灯噪声以及媒体播放声

这些噪声源都会减弱人声的信号特征

从而加大

识别难度

,■■

,

,

1

=

2

语音增强处理流程

基于麦克风阵列的语音增强算法如图

2

3,

括:波束形成

语音分离

远场拾音与去混响

多通道

降噪

声源定位和冋声消除等技术

可有效抑制周围

环境噪音

消除混响

冋声干扰

判断声源的方向

障输入较干净的音频

提高识别准确率

做到机器能

听得清

4-5

目前最新采用基于神经网络的降噪技

术在高噪环境下取得较好效果叫

||

:

1

.

::

:

・・,

—皿

»

3

麦克风阵列结构

2.2.2

语音唤醒

语音唤醒是现阶段语音交互的第一入口

通过指

定的唤醒词来开启人机交互对话

其技术原理是指在

连续语流中实时检测说话人特定语音片段

要求高时

效性和低功耗

语音唤醒在技术发展上也经历

3

个阶

4

:启蒙阶段

新技术探索阶段和大规模产业化

阶段

。从最初的模板规则到最新基于神经网络的方

171

另外

配合语音增强中声源定位技术

可实现车

内主副驾

前后排等多音区唤醒

1973

1988<|

199MF

2000*

2014<|

201

7<|-

...

)

技术脚段

4

语音唤醒技术发展史

汽车文摘

11

汽车文摘

2.2.3

语音识别

语音识别是将人的语音内容转成文字

,

其技术原

理主要包括

2

大模型

5

声学模型和语言模型

技术从最初的基于模板的孤立词识别,发展到基于统

计模型的连续词识别

,

并且在近几年深度学习爆发,

将语音识别率达到新水平

8

-

9

o

当前语音识别屮重点

需解决如下

3

类问题

1

语音尾端点检测问题

能量

VAD

Voice

Active

Detection

语义

VAD

和多模态

VAD

;

2

多语种和多方言统一建模问题;

3

垂类场景和针对单独人群的个性化识别问题

1

特征提取

1

识别结果

1

1

i

解码

文本信息

降噪

1

|

1

适应度

.............

!

/

5

语音识别处理流程

2.2.4

语义理解

语义理解是当前语音交互屮最难的一环,将人类

的表达抽象成统一表示形式以让机器能够理解

在语

音交互对话系统屮

,

主要包括:语义抽取

对话管理和

语言生成

在技术方案上

6

,

近几年随着词向量

模型

端到端注意力模型以及谷歌最新

BERT

模型进

1

i

7

,

语义理解正确率在部分垂直领域达到基

本可用

如汽车领域头部技能

导航

音乐

车控

收音

机和电话

l2

o

但是

语义理解最核心的难点是语义

表示问题和开放性说法等问题,导致在语义效果评判

上很难统一,也是未来人机交互屮最核心板块

6

对话理解技术方案

2.2.5

语音合成

语音合成是将文字信息转化为可听的声音信息

,

让机器会说话

,

其技术原理上将文字序列转换成音韵

序列

,

再用语音合成器生成语音波形

8

c

.

语音合

12

2021

年第2

成的方法主要有共振峰合成

发音规则合成

波形拼

接合成和基于

HMM

参数合成

4

2

种是基于规

则驱动

2

种基于数据驱动

目前主要以数据驱动为

主。

近年来基于神经网络技术的语音合成

在主观体

MOS

分达

4.5

,

接近播音员水平

13-14

另外

当前

在个性化合成

情感化合成以及方言小语种合成等方

面继续探索

Mikolov

et

2vec

attention

机制模型

谷歌首次公开源码

201

google

mind

图像分类

nip

获得更

大突破

被替换成

RNN/CNNIS

2015

2017

B

googleJS

ahdanau

et

al

IfFttention

机器翻译

2001

>

2013

2014

2015

2018

Bengio

et

al.

NNLM

Sutskever

et

al.

Seq2Seq

Devlin

et

al.

Bert

神经网络语吕模型

序列到序列模型

"个

NLP

任务刷榜

词嵌入向

BI

机器翻译取得西大突破

开启

NLP

新范式

word

embeddings

500

行取代

50wfi

7

自然语言处理叫⑴

8

语音合成处理流程

2.2.6

音效增强

音效增强是语音交互全链路最后一环,

在基于车

内复杂噪声环境及扬声器位置造成的复杂声场环境

进行专业的声学系统设计与调教

还原出自然清晰舞

台感明确的音响效果

未经过专业声学处理的音响

系统

,会丢失声音的定位信息

不能还原音乐的左右

空间感和前后纵深感

声音出现杂乱无章

从各个地

方出来并互相干扰

根据不同场景包括:

3D

沉浸环绕

EOC

Engine

Order

Cancellation

、超重低音

咼精

度声场重建

声浪模拟

提示音播报优化

延时修正

声场重建

虚拟低音

限幅调整和车速补偿等音效算

法技术

15

o

通过加入高级环绕算法

,音量随车速动态

增益

,

主动降噪

,

引擎声优化

能为汽车打造音乐厅级

的听感体验

9

o

不限于扬声器的安装位置

不管是

使整个

音晌系

统貝有

台感

1

让音乐就在耳边.

鬲中低的位題

经过精心的调试

级的

音乐,

使其

变为移动的音

S

均可以提升芦场高度,

让芦音听起

更自然更淸晰

9

音效增强的优势

Automotive Digest

3

汽车未来人机交互发展展望

3.1

汽车人机交互的市场价值

从当前的市场和行业发展趋势可预测

,

2020

中国汽车的保有量也将超过

2

亿辆

,

市场增长空间依

然巨大

智能化

、网联化

电动化

共享化已成为汽车

产业发展的趋势,国家层面陆续发布一系列政策推动

汽车产业变革

根据中国汽车流通协会发布的

2019

中国汽车消费趋势报告

"

6

得出

,

消费者正从基础功能

满足延伸至科技智能追求,智能化

网联化越来越受

到关注

,

2019

年智能化关注度相比

2018

年同比增长

30.8

%

,

网联化关注度同比增长

52.3

%

其中网联化最

关注语音和导航体验

另外消费者对语音识别的准确

性和反应速度比较看重,而从具体配置上来看

消费

者对

CarLife

CarPlay

和语音识别的需求上升趋势较

为明显

这也说明消费者对汽车联网有诉求,但是对

原生车机应用效果不满

10

8M%

75.1%

74.4% 72.5%

72.4%

71.3%

§8.3%

语地车语联

网图

停更

10

消费者对汽车网联化的需求

1161

目前

中国在汽车智能化网联方面处于领先水

,

这涉及到

中国汽车市场规模全球最大

中国互

联网和移动互联网发展迅速

国家政策倾向

主车企进步较大”

等众多因素影响

面对重大的机遇

与挑战

车联网人机交互作为整个智能化的入口

何给用户提供最便捷和安全的交互方式,

对于其未来

的发展至关重要

在人机交互方面的升级将会为未来汽车产生革

命性的消费体验

车云研究院发布的《

2020

智能汽车

趋势洞察及消费者调研报告中

,

提到智能汽车

3

体验革命:个性化体验

智能交互体验和车路协同体

验,其中智能交互

1.0

基本围绕功能交互

触控交互和

初级语音交互

智能汽车

2.0

应建立起以人为中心的

个性化服务全新体验

,

多模

主动和情感交互将成为

智能交互典型特征

3.2

汽车人机交互发展趋势

3.2.1

基本可用

好用易用

语音交互的整个链条

包括了语音增强

-

语音唤

-

语音识别

-

语义理解

-

语音合成

-

音效增强

优秀

的语音交互系统,需要全闭环的技术链条上每一个环

节都是优秀的,

如果过程中某一技术环节出问题

会导致整个交互过程失败,用户体验效果不好

201

201

9

C

C

a

a

语远路

r

线

r

线

U

f

e

a

y

F

_

11

消费者对汽车网联化具体配置需求

1161

n

s

m

tl

M

HKI

IRMKSmtKSWOMra

12

智能汽车

2.0

未来发展典型特征阿

当前语音交互已经达到基本可用状态

用户已经

可以通过语音做垂类领域信息查询以及车辆控制等,

但还有许多待解决的问题,主要体现如下

3

个方面

1

核心技术上需要继续突破

,包括高噪环境

口音

童声等因素下语音识别鲁棒性问题

,

语义理

解的泛化性以及歧义性问题

,

个性化和情感化语音合

成问题等;

2

语音交互模式上的持续优化

从最初单轮

one-shot

模式到全双工免唤醒模式

需要在系统误触

发方面技术突破;

汽车文摘

13

汽车文摘

3

信源内容深度对接和打磨

,语音交互只是入

用户希望通过语音便捷的获取到更有价值以及更

有趣的内容

则需要语音交互各模块能力与信源内容

深度耦合

3.2.2

主副驾交互

多乘客交互

目前智能汽车中应用场景交互主要考虑的是主

驾驶方位和副驾驶方位

2

而对于后排的乘车人员

的交互过程和交互效果没有得到很好的保证

例如,

在功能范围内

主驾驶和副驾驶人员基本可以自由的

与车机对话,

实现相应的功能

但是对于后排乘客

,

有很多制约条件

后排人员距离麦克风位置较远

,

音指令不能被很好的检测到

,

整体交互效果较差

基于整车多乘客需求

未来将会在车内实现

乘客交互

的目标

所谓

多乘客交互

就是说,将以往

采用的双音区技术更改为四音区技术,在每一个位置

前都装

1

个麦克风

可以让各自位置的乘客通过语音

或者其他交互方式控制各自的交互设备

即使在同一

时间说出指令也互不影响

例如

,

当后排右后座位乘

客想要打开或者关闭自侧车窗时

可以直接语音指令

打开车窗

/

关闭车窗

就可以打开右后侧车窗

其它

方位不受影响

而驾驶员

主驾驶

语音指令说

打开

车窗

时也只会打开主驾驶一侧的车窗

不会打开车

内全部车窗

这也是未来智能汽车更智能更人性化的

一种表现

3.2.3

被动式执行机器人

拟人化贴心助理

随着智能化技术的不断进步

,单纯的功能型产品

已经不能满足用户的需求了

用户想要在保证功能的

前提下也可以感受到更多的

以人为中心

的产品服

真正实现让汽车越来越理解人

越来越有温度的理

通过用户交互的历史数据生成用户的知识图谱和

交流风格画像

生成一个针对用户的个性化人机交互

策略,该策略具备调动车载系统各项服务

比如车控

音乐

导航

游戏等

的能力

以虚拟形象或实体机器人

的方式生成符合用户个性化需求的外表和声音特性与

用户主动或被动的进行交流

例如

,用户在车上说

找附近的餐馆

,

机器会依据用户的口味和习惯自动推

荐符合该用户餐馆;另外驾驶员在开车过程中,机器预

测到驾驶途中天气情况恶劣

,

则主动告知驾驶员天气

信息注意开车

;

车辆发生故障

,

机器主动告知车辆故障

情况

,

并引导驾驶员到最近的

4S

店维修

心情不好时

候,能够推荐一些喜欢的歌曲或者讲一些笑话等等

3.2.4

车内交互

跨场景交互

物联网的出现可以让所有能行使独立功能的普

14

2021

年第2

通物体实现互联互通

,

借助于物联网的浪潮

汽车内

跨场景交互也将是智能汽车未来发展的必然趋势

当前,汽车人机交互的使用场景过于单一

车机

系统放在车内只可以控制车内的设备,而对于车外其

他场景的控制却无能为力

比如在车内控制自己家

中的设备

在车内控制自己办公室的设备

在家中控

制车内的设备

在公司控制自己车内的设备

未来

能汽车

-

智能家居

智能汽车

-

智能公司

的跨场景

交互的实现

不仅可以给车主提供一体化的车

-

-

公司的互联生活

也让智能汽车的发展达到了一

个崭新的制高点

3.2.5

语音交互

多模态交互融合协同

语音交互的方式已经成为汽车内人机交互的主

流方式

但是当车内的噪音比较大时,单纯的语音交

互方式就不能完全满足用户的需求

,此时多模态融合

的交互方式就显得尤为重要

此时用户的诉求就可以

通过手势识别

表情识别等多模态相协作的方式来更

好的完成交互过程

多模态融合的交互方式可以根据用户当前所处

的场景需要给用户提供不同的交互过程

当驾驶员

正在行驶时

,

眼动跟踪技术会持续检测驾驶员的眼

,

表情识别会随时检测驾驶员脸部表情

当检测出

现眼皮下垂、

眨眼次数频繁或者驾驶员正在打哈欠

,

就会对驾驶员执行语音提示

并自动打开空调设

备或者是打开车窗

做一系列给车内通风的动作来帮

助驾驶员恢复清醒的意识

如果在高速行驶会自动

导航至附近的休息站或者是服务区

,不在高速行驶时

就会语音提示驾驶员临时靠边停车

,

以确保驾驶员的

行车安全

表情识别可以实时检测驾驶员的面部表

情,进而根据驾驶员当前所处的场景来判断其心理情

并根据其情绪自动语音打开合适类型的音乐

启相对应的氛围灯

调节车内氛围以适应车内用户的

当下心情

,

给用户更亲和

更智能化

更沉浸式的体验

感受

4

结束语

汽车领域在基于人工智能的人机交互整体还算

刚起步阶段

,

语音交互虽然取得较大进步但是还不够

稳定

许多场景下替代不了触摸和按键等操作

目前

需要在语音

图像以及语义方面拥有技术上的突破,

多模态融合和协同的交互模式将成为下一代汽车人

机交互的重点

此外

随着无人驾驶和智能驾舱的发

,

人们对人机交互的要求越来越高

,

需要在保障交

Automotive Digest

互的安全性前提下

不断提升交互体验

使驾驶更安

更便捷和更有趣

参考文献

[1]

林小新.

汽车人机交互的前世今生

[J].

计算机与网络

,

2018,

44(19):42.

[2]

练艺

曾晓辉

.

智能语音在汽车中的应用

[J].

无线互联科

,201

&

147(23):141-144.

[3]

杨明浩

陶建华

.

多模态人机对话

:

交互式学习能力愈发

重要

[J].

前沿科学

,

2019(

2):41-45.

[4]

Warsitz

E,

Haeb-

Umbach

M

R.

Blind

Acoustic

Beamforming

Based

on

Generalized

Eigenvalue

Decomposition[J].

IEEE

Transactions

on

Audio

Speech

&

Language

Processing,

2007,

15(5):1529-1539.

[5]

王科攀

高勇

.

信号相位匹配算法的语音降噪及性能评估

[J].

声学技术

,

2010(06):615-619.

[6]

Zhang

S,

Liu

C,

Jiang

H,

et

al.

Feedforward

Sequential

Memory

Networks:

A

New

Structure

to

Learn

Long-

term

Dependency[J].

Computer

Science,

2015.

[7]

刘凯

.

基于深度学习的语音唤醒研究及其应用

[D].

厦门:

厦门大学

,2018.

Wang

D,

Wang

X,

Lv

S.

An

Overview^

of

End-to-End

Auto

­

matic

Speech

Recognition[J].

Symmetry,

2019,

11(8):1018.

[9]

冯志伟

.

自然语言处理综论

(

第二版

)[M].

电子工业出版

2018.

[10]

Mikolov

T,

Chen

K,

Corrado

G,

et

al.

Efficient

Estimation

of

Word

Representations

in

Vector

Space[J].

Computer

Science,

2013.

[11]

Devlin

J,

Chang

M

W,

Lee

K,

et

al.

BERT:

Pre-training

of

Deep

Bidirectional

Transformers

for

Language

Understanding[EB/OL].[2018-10-11]

/abs/

1810.04805.

[12]

李晓林

张懿

李霖

.

基于地址语义理解的中文地址识别

方法

[J].

计算机工程与科学

,

2019,

41(03):171-178.

[13]

邱泽宁

,屈丹,

张连海

.

基于

WaveNet

的端到端语音合成

方法

[J].

计算机应用

,

2019,

39(05):1325-1329.

[14]

Juvela

L,

Bollepalli

B,

Tsiaras

V,

et

al.

GlotNet-

A

Raw

Waveform

Model

for

the

Glottal

Excitation

in

Statistical

Parametric

Speech

Synthesis[J].

IEEE/ACM

Transactions

on

Audio,

Speech,

and

Language

Processing,

2019(6):1-1.

[15]

Gimm

M,

Bulling

P,

Schmidt

G.

Energy-

Decay

Based

Postfilter

for

ICC

Systems

with

Feedback

Cancellation[C].

Electronic

Speech

Signal

Processing,

2018.

[16]

佚名

.

2012

中国汽车消费趋势报告

[M]//

中国汽车社会

发展报告

(

2012

~

2013

)

.

北京

社会科学文献出版社

,

2013.

[17]

车云网

.

2020

智能汽车趋势洞察及消费者调研报告

[R/

OL].

(2020

-

03

-

10)

[2021

-

01-

06].

/

archives/.

作者简介

王兴宝

,

苏州大学工学硕士,

现就职于科大讯飞股份有限公

司主要研究方向为人机交互

自然语言处理和知识图谱等

领域

联系方式:

******************

汽车文摘

15

2024年4月28日发(作者:穆醉冬)

Automotive Digest

汽车语音交互技术发展趋势综述

王兴宝

雷琴辉梅林海

张亚

邢猛

(科大讯飞股份有限公司智能汽车事业部

合肥230088

)

欢迎引用

王兴宝

雷琴辉

梅林海

.

汽车语音交互技术发展趋势综述

[J].

汽车文摘

,2021(2):

9-15.

[

Cite

this

paper

]

Wang

X,

Lei

Q,

Mei

L,

et

al.

A

Review

on

Development

Trends

of

Automotive

Voice

InLeracLion

Technologies

[J].

Au-

LomoLive

Digest

(Chinese),

2021

(2)

:9-15.

摘要

汽车网联化和智能化创造了汽车人机交互创新发展的机遇与前景

其中语音交互已经成为人机交互的主要方

首先

综述了从早期的物理按键到触屏以及发展到现在的语音多模态交互模式等人机交互发展进程

进而分析了国内

外语音交互技术研究和应用现状

最后

对语音交互技术发展趋势进行展望

总结出人机交互将围绕从

基本可用

好用

易用

”,

主副驾交互

多乘客交互

从“

被动式执行机器人

拟人化贴心助理”,

车内交互

“跨场景交互

及从

语音交互

多模态交互融合协同

等趋势发展

主题词:语音交互

人机交互

语音识别

多模态

中图分类号:

U461.99

文献标识码:

A

DOI

10.

19822/.

1671

-6329.20200187

A

Review

on

Development

Trends

of

Automotive

Voice

Interaction

Technologies

Wang

Xingbao,

Lei

Qinhui,

Mei

Linhai,

Zhang

Ya,

Xing

Meng

(

Intelligent

Automobile

Business

Unit,

iflytek

Co.,

Ltd.,

Hefei

230088

)

[

Abstract

]

Automotive

networking

and

intelligence

create

opportunities

and

prospects

for

innovative

development

of

automotive

human-

computer

interaction,

in

which

voice

interaction

has

become

the

main

way

of

human-

computer

interaction.

Firstly,

the

development

process

of

human-computer

interaction

from

the

early

physical

buttons

to

touch

screen

and

voice

multimodal

interaction

mode

is

summarized,

and

then

the

research

and

application

status

of

voice

interaction

technology

at

home

and

abroad

is

analyzed.

Finally,

the

development

trend

of

voice

interaction

technology

is

prospected,

and

it

is

concluded

that

human-computer

interaction

will

focus

on

"

basic

available

to

"

easy

to

use

from

"

main

and

auxiliary

driving

from

"

interactive

to

"

multi

passenger

interaction

from

"

passive

executive

robot

to

"

personified

intimate

assistant

,

from

"

in

car

interaction

to

"

cross

scene

interaction

,

and

from

"

voice

interaction

to

"

multimodal

interaction

fusion

and

cooperation

.

Key

words:

Voice

interaction,

HMI,

Speech

recognition,

Multi-modal

0

前言

近年来随着车联网系统迅速发展,

汽车人机交互

越受车企重视

其中语音作为最便捷的交互入口

在人

机交互中发挥至关重要的价值,分析汽车行业近百年

法改进

,在各个算法模块都进行了升级,

语音交互在部

分垂类场景达到可用门槛

从汽车市场分析报告得出

2020

年中国汽车保有量将超过

2

亿辆,其中网联化备

受人们关注,人机交互也面临着重大挑战

用户不再满

足于基础的功能可用

期望更智能的交互模式

因此,

发展史

,从早期的物理按键到触屏以及发展到现在的

语音多模态等交互模式,每次变革都是围绕如何提升

未来的人机交互模式发展是重要研究课题

人机交互的体验为目标

语音交互全链路包括语音增

1

汽车人机交互发展概述

1.1

汽车人机交互重要性

智能化和网联化已经成为汽车行业发展的必然

汽车文摘

9

语音识别

语义理解等多个环

如果其中一环亮红

灯则会导致整体交互失败

,但近几年由于深度学习算

汽车文摘

趋势,越来越多的汽车企业正在积极向人工智能

件服务

生态平台等方向发展

在汽车安全

性能全面

提升的同时

让驾驶更智能

更有趣叫在此过程中

汽车与人之间的交互变的更为重要

如何让人与汽车

之间更便捷和更安全的交互一直是各大车企及相关

研究机构的研发方向

1.2

汽车人机交互方式发展

1.2.1

物理按键

汽车在早期主要是以驾驶为目的

,

内饰也比较单

主要集中在中控仪表盘上

车载收音机和

CD

的出现

成为了第一代车机主要娱乐功能

,

人与汽车

交互开启了物理按键时代

在上世纪

90

年代,车内主

要靠大量的物理开关按键进行控制车载影音娱乐系

,

并且这些物理开关和按钮在空间设计上进行了一

系列优化

,

由最初全部集中在中控仪表

,

慢慢迁移到

驾驶员方向盘上

这些设计优化使人机交互的安全

性和便捷性得到提升

物理按键虽然是最原始的交互模式

,但是在车内

是最可靠的方式,车内安全性较高的部位还是使用物

理按键

如:发动机起动

驻车以及车门开关等

随着

汽车电子技术的发展及大规模的应用

,

汽车功能越来

越丰富

收音机

空调

音响及电子系统开关按键分区

排列,

单一的物理按键方式已经不能满足用户的驾驶

体验

于是屏幕显示开始引入车机

1.2.2

触屏

在上世纪

80

年代触摸屏被大规模商用化

,

但是触

摸屏根据材料不一样可分为:红外线式

电阻式

表面

声波式和电容式触摸屏

4

1986

年别克推出全触

屏中控的量产车型

Riviera

,

内部使用了一块带有触摸

传感器的

CRT

阴极射线显像管

显示屏

,该屏幕在功

能上集成了比传统物理按键更多的控制功能

,包括:

电台

空调

音量调节

汽车诊断

、油量显示等功能

使

得整个车内人机交互体验上升一个档次

2007

iPhone

手机将触摸屏做到了极致的交互体验,开创了

手机正面无键盘触摸屏操作的时代

之后各家车企

也着手中控屏幕的设计,以及相应的人机交互系统的

设计

大屏支持音

视频播放,触屏操控的交互方式

成为第

2

代车机的标配

2013

特斯拉全新推出了采用垂直定向搭载

17

英寸车载显示屏的电动车一

MODEL

S,

全面取消中控

物理按键

几乎可利用屏幕操控所有的车载功能

2018

,比亚迪第

2

代唐推出了支持

90

旋转功能大

尺寸的悬浮式中控屏。

中控屏也朝着大尺寸

可移

10

2021

年第2

多屏幕方向发展

1.2.3

语音交互

在互联网通信技术以及智能交通快速发展的环

境下

,

汽车本身也逐渐演变成能集成各种信息源的载

体,随着人工智能技术的突飞猛进和车联网应用的大

范围普及

,语音交互的准确率

响应速度

便利性上有

了很大提高

在国际上

宝马、

奔驰

福特

大众等多家车企已

经将语音交互技术整合到车机内,

为用户提供方便

安全

高效的车内人机交互方案

而在

2012

年之前,

中国汽车市场的语音交互几乎都是由国外公司定义

随着

2010

年科大讯飞发布了全球首个智能语音

云开放平台

自主语音技术占据市场主导

2011~

2013

+

端技术架构

全球首个车载麦克风阵列降

噪模块的发布

标志着中国自主的车载语音交互产品

效果已经反超国外

,

2014

年在行车高噪环境下识别

率已经超过

90

%

o

吉利

长安

奇瑞

上汽等自主品牌

积极与语音技术和产品公司合作

,

深度定制搭载语音

交互技术的车载系统

2015

科大讯飞和奇瑞汽车联合打造的

iCloud-

rive

2.0

智能车载系统上市发布,产品以高效的语音体

验颠覆了人们对于交互场景的认知

,

以语音交互深度

打通了车机功能和信息娱乐服务

成为了业内追捧的

人车交互标杆产品

2016

上汽和阿里联合打造的斑马智行

1.0

载荣威

RX5

上市发布

通过集成丰富的互联网生态服

务和内容

以语音交互的方式作为连接用户的桥梁

成了当时行业内公认的互联网汽车标杆

2017

年,蔚来

ES8

首次在车内搭载

Nomi

机器人

让人机交互更形象好

用户对人机交互助理的热度提

升,定位开车旅途中的伙伴更拟人化

随着技术的发展

3

代车机在往信息化

智能化

发展

采用更好

兼容性更强的安卓等车机系统

过快速集成免唤醒

语音增强

声源定位

声纹识别

自然语音交互

主动式交互

智能语音提示等新的技

,

全面增强了驾驶空间的安全性

趣味性

,

互动性冋

,

打造了沉浸式交互体验的智能驾舱

1.2.4

多模态交互

人与人交流除听觉外

还有许多感官通道

为了

提供更好的人机交互体验

,

需充分利用人的多种感知

通道(

听觉通道

视觉通道

触觉通道

嗅觉通道

意识

通道等

以不同形式的输入组合

语音

图像

手势

触摸

姿势

表情

眼动

脑电波等

为人机交互通道提

Automotive Digest

供多种选择

提咼人机交互的自然度和效率

多模态

并非多个模态的集合

而是各单一模态之间的有机协

同和整合

|3I

o

机器利用电脑视觉技术,识别人类的姿势和动

理解其传递的信息

指令

使得人机交互体验更加

自然

高效

而识别人类的面部表情和目光,更重要

的意义在于传递的情感,进而增强语言

手势传递的

含义

这也解释了为什么我们在面对面交流时

会试

图注视对方的表情和目光

就是为了准确判断对方的

意图和情绪

因此,使机器从

能听会说

理解思

再到

“察言观色

才能全面提高人机交互的智能

化水平

2019

年北美

CES

展上

奔驰

CLA

车型搭载的

最新人机交互系统

支持复杂语音指令和手势识别

拜腾保留了

48

寸的车载大屏

同时将触摸屏

语音控

手势控制

物理按键进行了充分的融合

日产展

示了全新的车载

AR

概念,应用了无形可视化

I2V

丰田发布了搭载个性化

情感化感知的全新汽车

驾舱

围绕语音识别

手势识别

、图像识别等多模态

融合交互方式必将成为新的制高点

成为下一代人机

交互势不可挡的发展趋势

2

汽车语音交互技术发展现状

2.1

语音交互技术发展

从语音交互整个处理链路来看

1

,

可将其分

3

部分:语音输入

语音处理和语音输出,

其中语音

输入包括:语音增强

;

语音处理包括:语音唤醒

语音

识别

语义理解

;

语音输出包括:语音合成和音效增

2006

年人工智能第

3

次浪潮推动下

,

利用深度

学习理论框架将语音交互链路中各模块算法得到升

,

并且配合大量数据持续迭代

,

语音交互成功率得

到较大提升

达到可用的门槛,另外随着芯片算力的

显著提升以及

5G

的普及

,

提高语音交互整体交互成

功率

Q

>

58

誰强

1

语音交互全链路

2.2

语音交互核心技术

2.2.1

语音增强

声音的信号特征提取的质量将直接影响语音识

别的准确率

车内环境噪音源包含发动机噪声

风噪

周围车辆噪声

转向灯噪声以及媒体播放声

这些噪声源都会减弱人声的信号特征

从而加大

识别难度

,■■

,

,

1

=

2

语音增强处理流程

基于麦克风阵列的语音增强算法如图

2

3,

括:波束形成

语音分离

远场拾音与去混响

多通道

降噪

声源定位和冋声消除等技术

可有效抑制周围

环境噪音

消除混响

冋声干扰

判断声源的方向

障输入较干净的音频

提高识别准确率

做到机器能

听得清

4-5

目前最新采用基于神经网络的降噪技

术在高噪环境下取得较好效果叫

||

:

1

.

::

:

・・,

—皿

»

3

麦克风阵列结构

2.2.2

语音唤醒

语音唤醒是现阶段语音交互的第一入口

通过指

定的唤醒词来开启人机交互对话

其技术原理是指在

连续语流中实时检测说话人特定语音片段

要求高时

效性和低功耗

语音唤醒在技术发展上也经历

3

个阶

4

:启蒙阶段

新技术探索阶段和大规模产业化

阶段

。从最初的模板规则到最新基于神经网络的方

171

另外

配合语音增强中声源定位技术

可实现车

内主副驾

前后排等多音区唤醒

1973

1988<|

199MF

2000*

2014<|

201

7<|-

...

)

技术脚段

4

语音唤醒技术发展史

汽车文摘

11

汽车文摘

2.2.3

语音识别

语音识别是将人的语音内容转成文字

,

其技术原

理主要包括

2

大模型

5

声学模型和语言模型

技术从最初的基于模板的孤立词识别,发展到基于统

计模型的连续词识别

,

并且在近几年深度学习爆发,

将语音识别率达到新水平

8

-

9

o

当前语音识别屮重点

需解决如下

3

类问题

1

语音尾端点检测问题

能量

VAD

Voice

Active

Detection

语义

VAD

和多模态

VAD

;

2

多语种和多方言统一建模问题;

3

垂类场景和针对单独人群的个性化识别问题

1

特征提取

1

识别结果

1

1

i

解码

文本信息

降噪

1

|

1

适应度

.............

!

/

5

语音识别处理流程

2.2.4

语义理解

语义理解是当前语音交互屮最难的一环,将人类

的表达抽象成统一表示形式以让机器能够理解

在语

音交互对话系统屮

,

主要包括:语义抽取

对话管理和

语言生成

在技术方案上

6

,

近几年随着词向量

模型

端到端注意力模型以及谷歌最新

BERT

模型进

1

i

7

,

语义理解正确率在部分垂直领域达到基

本可用

如汽车领域头部技能

导航

音乐

车控

收音

机和电话

l2

o

但是

语义理解最核心的难点是语义

表示问题和开放性说法等问题,导致在语义效果评判

上很难统一,也是未来人机交互屮最核心板块

6

对话理解技术方案

2.2.5

语音合成

语音合成是将文字信息转化为可听的声音信息

,

让机器会说话

,

其技术原理上将文字序列转换成音韵

序列

,

再用语音合成器生成语音波形

8

c

.

语音合

12

2021

年第2

成的方法主要有共振峰合成

发音规则合成

波形拼

接合成和基于

HMM

参数合成

4

2

种是基于规

则驱动

2

种基于数据驱动

目前主要以数据驱动为

主。

近年来基于神经网络技术的语音合成

在主观体

MOS

分达

4.5

,

接近播音员水平

13-14

另外

当前

在个性化合成

情感化合成以及方言小语种合成等方

面继续探索

Mikolov

et

2vec

attention

机制模型

谷歌首次公开源码

201

google

mind

图像分类

nip

获得更

大突破

被替换成

RNN/CNNIS

2015

2017

B

googleJS

ahdanau

et

al

IfFttention

机器翻译

2001

>

2013

2014

2015

2018

Bengio

et

al.

NNLM

Sutskever

et

al.

Seq2Seq

Devlin

et

al.

Bert

神经网络语吕模型

序列到序列模型

"个

NLP

任务刷榜

词嵌入向

BI

机器翻译取得西大突破

开启

NLP

新范式

word

embeddings

500

行取代

50wfi

7

自然语言处理叫⑴

8

语音合成处理流程

2.2.6

音效增强

音效增强是语音交互全链路最后一环,

在基于车

内复杂噪声环境及扬声器位置造成的复杂声场环境

进行专业的声学系统设计与调教

还原出自然清晰舞

台感明确的音响效果

未经过专业声学处理的音响

系统

,会丢失声音的定位信息

不能还原音乐的左右

空间感和前后纵深感

声音出现杂乱无章

从各个地

方出来并互相干扰

根据不同场景包括:

3D

沉浸环绕

EOC

Engine

Order

Cancellation

、超重低音

咼精

度声场重建

声浪模拟

提示音播报优化

延时修正

声场重建

虚拟低音

限幅调整和车速补偿等音效算

法技术

15

o

通过加入高级环绕算法

,音量随车速动态

增益

,

主动降噪

,

引擎声优化

能为汽车打造音乐厅级

的听感体验

9

o

不限于扬声器的安装位置

不管是

使整个

音晌系

统貝有

台感

1

让音乐就在耳边.

鬲中低的位題

经过精心的调试

级的

音乐,

使其

变为移动的音

S

均可以提升芦场高度,

让芦音听起

更自然更淸晰

9

音效增强的优势

Automotive Digest

3

汽车未来人机交互发展展望

3.1

汽车人机交互的市场价值

从当前的市场和行业发展趋势可预测

,

2020

中国汽车的保有量也将超过

2

亿辆

,

市场增长空间依

然巨大

智能化

、网联化

电动化

共享化已成为汽车

产业发展的趋势,国家层面陆续发布一系列政策推动

汽车产业变革

根据中国汽车流通协会发布的

2019

中国汽车消费趋势报告

"

6

得出

,

消费者正从基础功能

满足延伸至科技智能追求,智能化

网联化越来越受

到关注

,

2019

年智能化关注度相比

2018

年同比增长

30.8

%

,

网联化关注度同比增长

52.3

%

其中网联化最

关注语音和导航体验

另外消费者对语音识别的准确

性和反应速度比较看重,而从具体配置上来看

消费

者对

CarLife

CarPlay

和语音识别的需求上升趋势较

为明显

这也说明消费者对汽车联网有诉求,但是对

原生车机应用效果不满

10

8M%

75.1%

74.4% 72.5%

72.4%

71.3%

§8.3%

语地车语联

网图

停更

10

消费者对汽车网联化的需求

1161

目前

中国在汽车智能化网联方面处于领先水

,

这涉及到

中国汽车市场规模全球最大

中国互

联网和移动互联网发展迅速

国家政策倾向

主车企进步较大”

等众多因素影响

面对重大的机遇

与挑战

车联网人机交互作为整个智能化的入口

何给用户提供最便捷和安全的交互方式,

对于其未来

的发展至关重要

在人机交互方面的升级将会为未来汽车产生革

命性的消费体验

车云研究院发布的《

2020

智能汽车

趋势洞察及消费者调研报告中

,

提到智能汽车

3

体验革命:个性化体验

智能交互体验和车路协同体

验,其中智能交互

1.0

基本围绕功能交互

触控交互和

初级语音交互

智能汽车

2.0

应建立起以人为中心的

个性化服务全新体验

,

多模

主动和情感交互将成为

智能交互典型特征

3.2

汽车人机交互发展趋势

3.2.1

基本可用

好用易用

语音交互的整个链条

包括了语音增强

-

语音唤

-

语音识别

-

语义理解

-

语音合成

-

音效增强

优秀

的语音交互系统,需要全闭环的技术链条上每一个环

节都是优秀的,

如果过程中某一技术环节出问题

会导致整个交互过程失败,用户体验效果不好

201

201

9

C

C

a

a

语远路

r

线

r

线

U

f

e

a

y

F

_

11

消费者对汽车网联化具体配置需求

1161

n

s

m

tl

M

HKI

IRMKSmtKSWOMra

12

智能汽车

2.0

未来发展典型特征阿

当前语音交互已经达到基本可用状态

用户已经

可以通过语音做垂类领域信息查询以及车辆控制等,

但还有许多待解决的问题,主要体现如下

3

个方面

1

核心技术上需要继续突破

,包括高噪环境

口音

童声等因素下语音识别鲁棒性问题

,

语义理

解的泛化性以及歧义性问题

,

个性化和情感化语音合

成问题等;

2

语音交互模式上的持续优化

从最初单轮

one-shot

模式到全双工免唤醒模式

需要在系统误触

发方面技术突破;

汽车文摘

13

汽车文摘

3

信源内容深度对接和打磨

,语音交互只是入

用户希望通过语音便捷的获取到更有价值以及更

有趣的内容

则需要语音交互各模块能力与信源内容

深度耦合

3.2.2

主副驾交互

多乘客交互

目前智能汽车中应用场景交互主要考虑的是主

驾驶方位和副驾驶方位

2

而对于后排的乘车人员

的交互过程和交互效果没有得到很好的保证

例如,

在功能范围内

主驾驶和副驾驶人员基本可以自由的

与车机对话,

实现相应的功能

但是对于后排乘客

,

有很多制约条件

后排人员距离麦克风位置较远

,

音指令不能被很好的检测到

,

整体交互效果较差

基于整车多乘客需求

未来将会在车内实现

乘客交互

的目标

所谓

多乘客交互

就是说,将以往

采用的双音区技术更改为四音区技术,在每一个位置

前都装

1

个麦克风

可以让各自位置的乘客通过语音

或者其他交互方式控制各自的交互设备

即使在同一

时间说出指令也互不影响

例如

,

当后排右后座位乘

客想要打开或者关闭自侧车窗时

可以直接语音指令

打开车窗

/

关闭车窗

就可以打开右后侧车窗

其它

方位不受影响

而驾驶员

主驾驶

语音指令说

打开

车窗

时也只会打开主驾驶一侧的车窗

不会打开车

内全部车窗

这也是未来智能汽车更智能更人性化的

一种表现

3.2.3

被动式执行机器人

拟人化贴心助理

随着智能化技术的不断进步

,单纯的功能型产品

已经不能满足用户的需求了

用户想要在保证功能的

前提下也可以感受到更多的

以人为中心

的产品服

真正实现让汽车越来越理解人

越来越有温度的理

通过用户交互的历史数据生成用户的知识图谱和

交流风格画像

生成一个针对用户的个性化人机交互

策略,该策略具备调动车载系统各项服务

比如车控

音乐

导航

游戏等

的能力

以虚拟形象或实体机器人

的方式生成符合用户个性化需求的外表和声音特性与

用户主动或被动的进行交流

例如

,用户在车上说

找附近的餐馆

,

机器会依据用户的口味和习惯自动推

荐符合该用户餐馆;另外驾驶员在开车过程中,机器预

测到驾驶途中天气情况恶劣

,

则主动告知驾驶员天气

信息注意开车

;

车辆发生故障

,

机器主动告知车辆故障

情况

,

并引导驾驶员到最近的

4S

店维修

心情不好时

候,能够推荐一些喜欢的歌曲或者讲一些笑话等等

3.2.4

车内交互

跨场景交互

物联网的出现可以让所有能行使独立功能的普

14

2021

年第2

通物体实现互联互通

,

借助于物联网的浪潮

汽车内

跨场景交互也将是智能汽车未来发展的必然趋势

当前,汽车人机交互的使用场景过于单一

车机

系统放在车内只可以控制车内的设备,而对于车外其

他场景的控制却无能为力

比如在车内控制自己家

中的设备

在车内控制自己办公室的设备

在家中控

制车内的设备

在公司控制自己车内的设备

未来

能汽车

-

智能家居

智能汽车

-

智能公司

的跨场景

交互的实现

不仅可以给车主提供一体化的车

-

-

公司的互联生活

也让智能汽车的发展达到了一

个崭新的制高点

3.2.5

语音交互

多模态交互融合协同

语音交互的方式已经成为汽车内人机交互的主

流方式

但是当车内的噪音比较大时,单纯的语音交

互方式就不能完全满足用户的需求

,此时多模态融合

的交互方式就显得尤为重要

此时用户的诉求就可以

通过手势识别

表情识别等多模态相协作的方式来更

好的完成交互过程

多模态融合的交互方式可以根据用户当前所处

的场景需要给用户提供不同的交互过程

当驾驶员

正在行驶时

,

眼动跟踪技术会持续检测驾驶员的眼

,

表情识别会随时检测驾驶员脸部表情

当检测出

现眼皮下垂、

眨眼次数频繁或者驾驶员正在打哈欠

,

就会对驾驶员执行语音提示

并自动打开空调设

备或者是打开车窗

做一系列给车内通风的动作来帮

助驾驶员恢复清醒的意识

如果在高速行驶会自动

导航至附近的休息站或者是服务区

,不在高速行驶时

就会语音提示驾驶员临时靠边停车

,

以确保驾驶员的

行车安全

表情识别可以实时检测驾驶员的面部表

情,进而根据驾驶员当前所处的场景来判断其心理情

并根据其情绪自动语音打开合适类型的音乐

启相对应的氛围灯

调节车内氛围以适应车内用户的

当下心情

,

给用户更亲和

更智能化

更沉浸式的体验

感受

4

结束语

汽车领域在基于人工智能的人机交互整体还算

刚起步阶段

,

语音交互虽然取得较大进步但是还不够

稳定

许多场景下替代不了触摸和按键等操作

目前

需要在语音

图像以及语义方面拥有技术上的突破,

多模态融合和协同的交互模式将成为下一代汽车人

机交互的重点

此外

随着无人驾驶和智能驾舱的发

,

人们对人机交互的要求越来越高

,

需要在保障交

Automotive Digest

互的安全性前提下

不断提升交互体验

使驾驶更安

更便捷和更有趣

参考文献

[1]

林小新.

汽车人机交互的前世今生

[J].

计算机与网络

,

2018,

44(19):42.

[2]

练艺

曾晓辉

.

智能语音在汽车中的应用

[J].

无线互联科

,201

&

147(23):141-144.

[3]

杨明浩

陶建华

.

多模态人机对话

:

交互式学习能力愈发

重要

[J].

前沿科学

,

2019(

2):41-45.

[4]

Warsitz

E,

Haeb-

Umbach

M

R.

Blind

Acoustic

Beamforming

Based

on

Generalized

Eigenvalue

Decomposition[J].

IEEE

Transactions

on

Audio

Speech

&

Language

Processing,

2007,

15(5):1529-1539.

[5]

王科攀

高勇

.

信号相位匹配算法的语音降噪及性能评估

[J].

声学技术

,

2010(06):615-619.

[6]

Zhang

S,

Liu

C,

Jiang

H,

et

al.

Feedforward

Sequential

Memory

Networks:

A

New

Structure

to

Learn

Long-

term

Dependency[J].

Computer

Science,

2015.

[7]

刘凯

.

基于深度学习的语音唤醒研究及其应用

[D].

厦门:

厦门大学

,2018.

Wang

D,

Wang

X,

Lv

S.

An

Overview^

of

End-to-End

Auto

­

matic

Speech

Recognition[J].

Symmetry,

2019,

11(8):1018.

[9]

冯志伟

.

自然语言处理综论

(

第二版

)[M].

电子工业出版

2018.

[10]

Mikolov

T,

Chen

K,

Corrado

G,

et

al.

Efficient

Estimation

of

Word

Representations

in

Vector

Space[J].

Computer

Science,

2013.

[11]

Devlin

J,

Chang

M

W,

Lee

K,

et

al.

BERT:

Pre-training

of

Deep

Bidirectional

Transformers

for

Language

Understanding[EB/OL].[2018-10-11]

/abs/

1810.04805.

[12]

李晓林

张懿

李霖

.

基于地址语义理解的中文地址识别

方法

[J].

计算机工程与科学

,

2019,

41(03):171-178.

[13]

邱泽宁

,屈丹,

张连海

.

基于

WaveNet

的端到端语音合成

方法

[J].

计算机应用

,

2019,

39(05):1325-1329.

[14]

Juvela

L,

Bollepalli

B,

Tsiaras

V,

et

al.

GlotNet-

A

Raw

Waveform

Model

for

the

Glottal

Excitation

in

Statistical

Parametric

Speech

Synthesis[J].

IEEE/ACM

Transactions

on

Audio,

Speech,

and

Language

Processing,

2019(6):1-1.

[15]

Gimm

M,

Bulling

P,

Schmidt

G.

Energy-

Decay

Based

Postfilter

for

ICC

Systems

with

Feedback

Cancellation[C].

Electronic

Speech

Signal

Processing,

2018.

[16]

佚名

.

2012

中国汽车消费趋势报告

[M]//

中国汽车社会

发展报告

(

2012

~

2013

)

.

北京

社会科学文献出版社

,

2013.

[17]

车云网

.

2020

智能汽车趋势洞察及消费者调研报告

[R/

OL].

(2020

-

03

-

10)

[2021

-

01-

06].

/

archives/.

作者简介

王兴宝

,

苏州大学工学硕士,

现就职于科大讯飞股份有限公

司主要研究方向为人机交互

自然语言处理和知识图谱等

领域

联系方式:

******************

汽车文摘

15

发布评论

评论列表 (0)

  1. 暂无评论