最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

语音识别错误对翻译性能的影响分析

IT圈 admin 29浏览 0评论

2024年5月25日发(作者:溥韶敏)

61

4

2022

7

:/

.0438-0479.202110002

j

)

JournalofXiamenUniversitNaturalScience

y

(

厦门大学学报

(

自然科学版

)

Vol.61 No.4

Jul.2022

语音识别错误对翻译性能的影响分析

()

苏州大学计算机科学与技术学院

,

江苏苏州

215006

田新宇

,

李军辉

*

摘要

:

传统的机器翻译模型均基于无噪声环境

,

即输入的数据是无错误的

.

但在实际同声传译中

,

语音识别不可避免会

存在错误

,

这些错误在机器翻译过程中会直接影响其他内容的翻译

.

因此

,

统计分析语音识别错误的种类及产生的影响

对提高机器翻译的鲁棒性具有指导意义

.

为了模拟真实语音识别错误

,

本文通过人工朗读

N

并采

IST

汉英实验测试集

,

)

语音识别错误对翻译性能的影响

;)

语音识别错误对其他词翻译的影响

.

类型分析

;

得出的主要结论为

:

名词和动词

34

出现语音识别错误的次数较多

,

人名最易出现语音识别错误

;

同音异形字的语音识别错误出现次数最多

;

长度较小的句

子在翻译时受到语音识别错误影响的程度更加明显

;

与语音识别错误词距离更近的词的翻译更易受到影响

.

)

语音识别错误的词性分析

;)

语音识别错误的

用讯飞语音识别系统获取其语音识别结果进行统计分析

,

主要包括

:

12

关键词

:

语音识别错误

;

机器翻译

;

翻译性能

;

错误类型

()

中图分类号

:

TP391.2

文献标志码

:

A

文章编号

:

04-0682-07

语音识别技术也在逐渐趋于成

随着科技的发展

,

]

1

,

[

不少学者都基于语音识别技术来拓展或延伸相

关的研究方向

,

重点集中在自然语言处理

实时语音

]

2

识别以及语音识别鲁棒性等方面

[

在自然语言处理

.

领域中

,

语音识别结果可作为机器翻译源语言的一种

]]

34

,,

形式

[

用于让计算机能够听懂人类说的话

[

即让

机器接收人的语音输入

,

理解其语言类型和目的

,

合语法规定

,

例如句子成分缺失等

;

在词语方面

,

不规

范语言会夹杂着地域色彩

,

即方言土语等

.

这也解释

]

8

了语音识别结果中错误词汇产生的原因

.

李萌

[

以信

息论为依托

,

哈利

·

波特

中专有名词翻译为例

,

对错误词汇在翻译过程中信息传递的影响进行了分

]

9

.

周美玲

[

通过对机器音译

,

即人名

地名

机构名

作出相应的反应

,

如按需做出记录

查询或相应的其

]

5

他操作

[

.

和组织名等专有名词的错误分析

,

总结了基于语音的

机器音译的不足

,

提出了两种机器音译的方法

:

基于

字形的音译方法和机器翻译的方法

.

然而

,

以上研究

针对以上问题

,

本文基于

N

IST

汉英实验

,

[]

0

提出的

TVaswani

1

ransformer

模型为基础架构

,

利用

N

采用

IST

汉英实验中的训练集进行模型训练

,

讯飞语音识别系统获取

NIST

汉英实验测试集的语音

识别结果作为测试集进行测试

.

实验通过对比标准测

试集和语音识别结果构成测试集的翻译结果

,

对常见

语音识别错误的类型

,

以及错误词汇对其他词语翻译

的影响进行了分析讨论

,

希望以此为提高面向语音识

别错误的机器翻译鲁棒性研究提供参考

.

均未系统地分析语音识别结果中易出现的错误词性

和错误类型

,

以及语音识别错误对翻译产生的影响

.

在汉语的语音识别过程中

,

由于机器识别本身的

]

6

局限性

,

不可避免地会出现一些语音识别错误

[

.

与环境噪声

说话人的人为因素

(

如发音

用词

造句

等的规范性

)

共同作用

,

影响同声传译的翻译结果

.

往不少学者对语音识别错误的来源

种类及其对某类

]

7

词性词语的翻译所产生的影响进行了研究

.

赵晓瑞

[

提出的不规范语言翻译策略分析了各种不规范语言

的来源

,

指出在发音

拼写

句法

修辞等方面

,

英语和

汉语都具有一套完整的语言规范体系

.

在发音上

,

规范语言的形成来自于很多现象

,

例如省略读音

漏音调

吞音等现象

;

在句法上

,

不规范语言一般不符

:

htt

p

j

收稿日期

:

2021-10-02

录用日期

:

2022-03-30

)

基金项目

:

国家自然科学基金

(

61876120

*

通信作者

:

liunhui@

j

]

,

,():

引文格式

:

田新宇

,

李军辉

.

语音识别错误对翻译性能的影响分析

[

厦门大学学报

(

自然科学版

)

J.2022614682-688.

:[]

CitationTIANXY

,

softheeffectsofseechreconitionerrorsontranslation

p

nUniv

ypg

,,():()

ese

4

期田新宇等

:

语音识别错误对翻译性能的影响分析

·

683

·

1

数据与方法

1.1

数据来源

本文使用汉英翻译经常使用的

两个测试集

.

通过两位朗读者朗读这两个测试集得到

NIST02

NIST03

语音音频

,

音频文件格式为

在线语音转文字软件获得语音识别的结果

M4A

,

再调用

讯飞听见

,

并以此作

为含语音识别错误的中文数据集

试集的数据统计

,

分词均采用结

.

1

给出了两个测

分词

(

g

htt

p

s

:

错误率

ithub.c

(

o

误数据的差异

w

m

or

/

d

fx

e

s

.

r

j

r

y

o

/

r

j

ie

ra

b

t

a

e

)

,

,

W

并通过计算基于字的字词

ER

)

来衡量有错误和无错

Tab.1 S

1

ta

N

tist

I

i

S

cs

T0

re

2

sults

NI

ofN

ST0

I

3

测试集的统计结果

ST02andNIST03test

E

s

R

et

数据集篇章数句子数单词数字数基于字的

W

/

%

N

N

I

I

S

S

T

T

0

0

2

31

9

0

5

0

8

9

7

1

8

9

1

2

8

0

7

0

3

4

0

1

3

4

9

2

9

6

8

3

8

6

1

1

1

6

.

.

2

8

4

0

1.2

分析内容和方法

本文以

Transformer

[

10

]

为基础架构进行汉英翻译

模型的训练

,

评估比较不同模型应用在开发集

.

通过对训练过程中保留的所有模型进行

翻译测试

(

即源端无

错误的

,

挑选出性能最佳的模型用于本文实验

NIST06

数据集

)

上的双语互译评估

(

BLEU

)

[

11

]

和分析方法如下

给定一个无错误的句子

.

.

分析内容

S

=

n

个单词

,

以及其语音识别版本

{

s

T

1

,

s

=

2

,…,

s

n

},

共包

个单词

,

为确定

S

中哪些词出现语音识别错

{

t

1

,

t

2

,…,

t

m

共包含

m

},

,

本文通过以下步骤来进行原词

)

同时遍历

S

T

中的每一个单词

-

错误词对的提取

(

.

殊符号除外

1

标点及特

),

若当前单词

s

i

t

j

相同

,

则继续向后遍

,

否则转到

)

)

S

记录

S

2

.

T

当前错误起始词汇的下标

p

q

并找到

2

T

中距离错误起始词汇最近的相同单词

,

,

记录其下标分别为

x

y

下标

3

.

转到

)

S

3

)

,

即为当前错误结束词汇的

中提取出

.

O

=

{

s

p

前错误的原词组

,

T

中提取出

,…,

s

x

-1

N

=

}

{

s

的单词组成当

q

,…,

s

y

-1

单词组成当前错误词组

(

,

将二者结合为原词

O

,

N

转到

-

错误词对

}

例如原句为

)

.1

)

.

:“

以公务员所共同遵循的行为规范

至理名言

之风

治理名言

.

错误句为

为书法作品创作内容

:“

以公务员所共同遵循的行为规范

,

倡导公务员廉洁奉公

指望

”“

.

治理名言

该句所提取出的原词

为书法作品创作内容

,

倡导公务员廉洁奉公

错误词对为

(“

”)

(“

之风

”“

指望

-

:

至理名

”)

本文首先分析哪些词容易引起语音识别错误

.

,

后再从多个角度分析语音识别错误对机器翻译性能

的影响

语音识别错误对翻译性能的影响分析

.

分析的内容包括错误词性分析

错误类型分

、,

以及错误

词对其他词翻译的影响分析等

错误词性分析

分析语音识别错误中各词性的

.

占比

.

.

错误类型分析

.

常见的语音识别错误包括替换

缺词或多词等

.

有别于英语等西方语言

,

汉语语音识

别存在着大量同音异形字或者近音异形字

工对比原句和语音识别结果

,

将错误类型分为同音异

.

为此

,

形字

人名

近音异形字和多字少字等类别

,

并统计它

们的比例

语音识别错误对翻译性能的影响

.

准测试集和含语音识别错误的测试集经

.

对比和分析标

翻译后的

BLEU

值的翻译性能

Transformer

错误词对其他词翻译的影响

.

,

分析错误词容易引起其他哪些词的翻

.

当一个句子存在语

音识别错误时

译错误

.

为了分析每处错误词对翻译的影响

,

实验时

确保每个句子只有一处错误

,

比如

,

如果某个句子出

现多处错误

,

针对每一处错误生成一个句子

,

以保证

该句中只保留一处错误

.

S

T

分别表示无错误句

子和只有一处错误的句子

,

S

中发生语音识别错误

的单词为

))

的翻译是否受错误词影响

s

i

.

为了判断

S

中其他某个单词

,

(

分别获取

s

j

i

S

T

的译

(

,

然后通过双语词对齐工具

fast

_

alin

:

译文中的翻译结果

/

cha

gg

e

,

/

f

如果两个译文相同

ast

_

ali

g

n

),

获取

s

j

g

在两个句子

(

htt

p

s∥

,

即认为

s

j

翻译不受

s

i

发生语音识别错误的影响

,

反之受其影

.

具体地

,

根据与发生语音识别错误词

s

i

的平面或

结构距离

,

分析哪些词更容易受语音识别错误的影

.

以下以为例

,

1

)

平面距离

s

i

:

即与

解释平面距离和结构距离

s

i

的表面距离

,

.

j

,

其与

如果当前词为

2

)

s

结构距离

i

的距离为

:

即与

|

i

-

s

i

j

在句法依存上的距离

|.

,

s

i

出发

,

沿父节点或子节点方向能到达

分析

.

s

j

过程中经历的

边数为了得到句子

S

的句法树

,

本文使用依存句法

工具

DDParser

)

.

DDParser

(

htt

p

s

:

g

/

baidu

/

htt

p

:

j

j

g

s

·

684

·

厦门大学学报

(

自然科学版

)

2022

2

数据集中汉语语料的语音识别结果进行语音识别错

误分析

,

结合含语音识别错误的汉语语料的翻译结果

来统计错误词汇的词性

类型及其他翻译受影响词的

6

占比

.

本文采用训练集语料共包括

2

句对

,

来源于

×10

、、、、

LDC2002E18LDC2003E07LDC2003E14LDC2004T08

2.2

结果与分析

2.2.1

错误词性分析

1

统计了不同词性在语音识别错误词汇和总词

,

汇中的占比

,

总错误词数为

48

总词数为

3

108771.

验按错误占比大小的顺序统计了

1

剩下更

5

种词性

,

多错误占比较小的词性合计占比为

1

从图

11.39%.

可以看出

,

在所有词中

,

名词和动词的错误占比和总

占比都较高

,

这也比较符合人们日常生活中的用词习

,

实词占据了日常交流词汇中的大部分

.

此外

,

数词和代词等更容易出现语音识别错误

,

其错误

占比明显大于总占比的

.

其中

,

人名的错误占比远大

于总占比

,

这说明人名词性在语音识别的过程中最容

易出现语音识别错误

.

因此

,

在处理语音识别结果的

过程中

,

可重点关注名词和动词等出现次数较多的实

,

结合语境进行文本纠错

.

对于最容易出现语音识

别错误人名

,

在语音识别的过程中

,

可预先导入常见

人名表

,

从而提升语音识别系统对人名识别的准确

.

由于在统计过程中

,

与原文不一致的表述均作为

识别错误

,

所以对于较易出现识别错误的数词

,

错误

原因往往来自于不同类型的表述

,

对翻译的影响

2.2.2

错误类型分析

语音识别错误可分为多种类型

.

2

给出了一个

原句及其语音识别结果举例

.

在该例中

阿姆丹说

较小

.

本研究对

NIST

汉英实验的

NIST02

NIST03

、、、、

LDC2002T01LDC2004T07LDC2005T06LDC2005T10

LDC2009T02LDC2009T15

LDC2010T03

等多个

数据集

.

开发集使用

N

汉语端使用结巴分词

,

IST06.

英语端使用

M

以及小写

oses

脚本对句子进行词切分

,

.

汉英两端分别做子词化处理

,

不共享两端词表

,

[]

12

节对编码

(

操作数均设置为

3BPE

)

2000.

2.1

实验设置

[]

3

本文基准模型为开源

O

实现的

enNMT

1

p

[]

0

训练时

,

汉英模型设置相同的参数

Transformer

1

.

:

编码器与解码器的层数均为

6

,

多头注意力机

,

制设置

8

个头

,

批处理大小设置为

4

词向量

编码

096

器和解码器的隐藏层维度均为

5

前馈神经网络

12

,

[]

4

的维度设置为

20

设置为

0

使用

48

,

droout

1

.1.

p

其他参数均使用默认配

Glorot

方法初始化模型参数

,

.

翻译模型在一块

G

在网络

TX1080Ti

显卡上训练

.

,,

训练过程中每隔

50.9.99800

步保存一

1

0

2

0

ββ

次模型

.

在翻译测试集句子时

,

beamsize

设置为

5.

训练过程中

,

采用

A

其参数

dam

算法进行参数更新

,

于人名类型的错误

,

红星月会

属于专有名词类型

““

的错误

,

进东

属于同音异形字类型的错误

,

建林

属于专有名词类型的错误

,

制定

属于同音异形字类

:

htt

p

j

Fi.1Percentaeofdifferentartsofseechinerrorwordsandtotalwords

ggpp

1

不同词性在错误词汇和总词汇中的占比

4

期田新宇等

:

语音识别错误对翻译性能的影响分析

·

685

·

型的错误

.

Tab.2 Anexam

p

l

2

e

原句与语音识别结果举例

ofanin

p

utanditss

p

eechreco

g

nitionout

p

ut

类型举

(

已分词

原句

)

哈姆丹说

,

负责运作此事的阿联酋红新月会

在与联合国近东巴勒斯坦难民救济和工程

处协调后

,

已就修复杰宁难民营内被毁坏

的建筑物和公用设施制订了具体计划

.

语音识

阿姆丹说

,

负责运作此事的阿联酋红星月

(

别结果

已分词

)

会在与联合国进东巴勒斯坦难民救济和工

程处协调后

,

已就修复建林难民营内被毁

坏的建筑物和公用设施制定了具体计划

.

2

统计了不同类型的错误在所有语音识别错

误中的占比

,

总错误为

要的错误类型包括同音异形字

2806

.

从图

人名

2

可以看出

,

近音异形字和

多字少字等

,

其中同音异形字的错误占比最高

,

且远

高于占比第二的人名类型的错误

.

同音异形字和近音

异形字的错误类型反映了语音识别软件不完全准确

的现象

,

如果词汇不是很常见或者朗读音调有所偏

,

那么语音识别系统较容易识别为同音异形字或近

音异形字

;

而对于人名或专有名词

,

由于这些词中的

汉字组合无规律

,

所以也较易出现识别错误

处理语音识别结果的过程中

,

针对同音异形字和近音

.

因此

,

异形字的识别错误

,

可根据常见词生成同音

/

近音字

对照表

,

结合语义计算概率

,

从而预测出当前错误词

对应的正确词

.

Fi

g

.2Pro

p

2

or

不同类型的错误占比

tionofdifferentt

yp

esoferrors

.2.3

语音识别错误对翻译性能的影响

的翻译性能

3

给出了语音识别与标准的

.

从表

3

可以看出

,

有语音识别错误的测试

NIST

汉英测试集

集翻译结果的

BLEU

值比标准语料低了

10

个百分点

左右

.

Tab

3

.3

语音识别错误对机器翻译结果的影响

o

I

nm

nflu

a

e

c

n

h

c

i

e

ne

of

tr

s

a

p

n

e

s

e

l

c

at

h

io

r

n

ec

r

o

e

g

s

n

u

i

l

t

t

i

s

onerrors

语料类型

NIST02

BLEU

/

%

NIST03

有错误

无错误

3

4

5

6

.

.

5

1

2

3

3

4

2

1

.

.

0

6

6

6

译性能

3

展示了不同长度有错误和无错误句子的翻

,

句子长度划分区间为

(

0

,

10

]、(

10

,

20

]、(

20

,

以下的句子在翻译时受到语音识别错误影响的程度

0

]、(

30

,

40

]、(

40

,

+∞

)

.

从图

3

可以看出

,

长度在

20

更加明显

,

值低

BLEU

值比无语音识别错误句子的

BLE

受到语音识别错误影响的程度略有降低

7~9

个百分点

;

而长度大于

20

的句子在翻译时

U

,

BLEU

值比

无错误句子的翻译低

识别结果进行翻译的过程中

4~7

个百分点因此

,

在对语音

,

对于长度较小

.

(

句子

,

其提供的语义信息较少

,

所以需要重点关注句

≤20

)

中错误词的纠错结果

,

通过对不同错误词纠错结果的

比较和筛选

(

短句中错误词较少

),

尽可能达到或接近

原句所表示的含义

,

从而降低语音识别错误对长度较

小句子的翻译产生的较严重影响

(

.

而对于长度较大

来对错误词进行纠错

>20

)

的句子

,

可以结合语境

.

,

利用句子的语义信息

Fi

g

3

.3

不同长度有错误和无错误句子的翻译性能

T

s

r

e

a

n

n

t

s

e

l

n

a

c

ti

e

o

sw

n

p

i

e

t

r

h

fo

a

r

n

m

dw

an

i

c

t

e

h

o

o

f

ut

di

e

f

r

f

r

e

o

r

r

e

s

ntlen

g

th

.2.4

错误词对其他词翻译的影响

统计翻译受错误词汇影响的正常词汇与错误词

汇的平面与结构距离区间均为

htt

p

:

j

x

1

m

~

u

5

.

.

xm

4

给出了一个

3

2

2

·

686

·

厦门大学学报

(

自然科学版

)

2022

原句及其语音识别结果的翻译举例

.

在该例中

,

由于

伤愈

复出

乔丹

一词的识别错误

复出

,

,

对与其平面距离为

1

的词

的翻译均产生了影响

平面距离为

2

的词

最早

平面距离为

3

的词

的翻译产生了影响

.

;

对与其结构距离为

1

Tab.4 T

4

原句与语音识别结果的翻译举例

ra

s

n

p

s

e

l

e

a

c

ti

h

o

r

n

e

e

co

xa

g

n

m

it

p

i

l

o

e

n

sofanin

p

utandits

类型

out

p

ut

举例

原句及翻译

(

已分词

)

i

J

乔丹

n

o

j

r

u

d

r

a

y

nt

最早

as

o

ea

c

周日

rl

o

y

m

a

e

伤愈

s

b

S

a

u

c

n

kf

复出

da

y

ro

.

m

.

hisrecover

y

of

语音识别乔丹最早周日商誉复出

结果及翻

(

已分词

)

Jordan

2024年5月25日发(作者:溥韶敏)

61

4

2022

7

:/

.0438-0479.202110002

j

)

JournalofXiamenUniversitNaturalScience

y

(

厦门大学学报

(

自然科学版

)

Vol.61 No.4

Jul.2022

语音识别错误对翻译性能的影响分析

()

苏州大学计算机科学与技术学院

,

江苏苏州

215006

田新宇

,

李军辉

*

摘要

:

传统的机器翻译模型均基于无噪声环境

,

即输入的数据是无错误的

.

但在实际同声传译中

,

语音识别不可避免会

存在错误

,

这些错误在机器翻译过程中会直接影响其他内容的翻译

.

因此

,

统计分析语音识别错误的种类及产生的影响

对提高机器翻译的鲁棒性具有指导意义

.

为了模拟真实语音识别错误

,

本文通过人工朗读

N

并采

IST

汉英实验测试集

,

)

语音识别错误对翻译性能的影响

;)

语音识别错误对其他词翻译的影响

.

类型分析

;

得出的主要结论为

:

名词和动词

34

出现语音识别错误的次数较多

,

人名最易出现语音识别错误

;

同音异形字的语音识别错误出现次数最多

;

长度较小的句

子在翻译时受到语音识别错误影响的程度更加明显

;

与语音识别错误词距离更近的词的翻译更易受到影响

.

)

语音识别错误的词性分析

;)

语音识别错误的

用讯飞语音识别系统获取其语音识别结果进行统计分析

,

主要包括

:

12

关键词

:

语音识别错误

;

机器翻译

;

翻译性能

;

错误类型

()

中图分类号

:

TP391.2

文献标志码

:

A

文章编号

:

04-0682-07

语音识别技术也在逐渐趋于成

随着科技的发展

,

]

1

,

[

不少学者都基于语音识别技术来拓展或延伸相

关的研究方向

,

重点集中在自然语言处理

实时语音

]

2

识别以及语音识别鲁棒性等方面

[

在自然语言处理

.

领域中

,

语音识别结果可作为机器翻译源语言的一种

]]

34

,,

形式

[

用于让计算机能够听懂人类说的话

[

即让

机器接收人的语音输入

,

理解其语言类型和目的

,

合语法规定

,

例如句子成分缺失等

;

在词语方面

,

不规

范语言会夹杂着地域色彩

,

即方言土语等

.

这也解释

]

8

了语音识别结果中错误词汇产生的原因

.

李萌

[

以信

息论为依托

,

哈利

·

波特

中专有名词翻译为例

,

对错误词汇在翻译过程中信息传递的影响进行了分

]

9

.

周美玲

[

通过对机器音译

,

即人名

地名

机构名

作出相应的反应

,

如按需做出记录

查询或相应的其

]

5

他操作

[

.

和组织名等专有名词的错误分析

,

总结了基于语音的

机器音译的不足

,

提出了两种机器音译的方法

:

基于

字形的音译方法和机器翻译的方法

.

然而

,

以上研究

针对以上问题

,

本文基于

N

IST

汉英实验

,

[]

0

提出的

TVaswani

1

ransformer

模型为基础架构

,

利用

N

采用

IST

汉英实验中的训练集进行模型训练

,

讯飞语音识别系统获取

NIST

汉英实验测试集的语音

识别结果作为测试集进行测试

.

实验通过对比标准测

试集和语音识别结果构成测试集的翻译结果

,

对常见

语音识别错误的类型

,

以及错误词汇对其他词语翻译

的影响进行了分析讨论

,

希望以此为提高面向语音识

别错误的机器翻译鲁棒性研究提供参考

.

均未系统地分析语音识别结果中易出现的错误词性

和错误类型

,

以及语音识别错误对翻译产生的影响

.

在汉语的语音识别过程中

,

由于机器识别本身的

]

6

局限性

,

不可避免地会出现一些语音识别错误

[

.

与环境噪声

说话人的人为因素

(

如发音

用词

造句

等的规范性

)

共同作用

,

影响同声传译的翻译结果

.

往不少学者对语音识别错误的来源

种类及其对某类

]

7

词性词语的翻译所产生的影响进行了研究

.

赵晓瑞

[

提出的不规范语言翻译策略分析了各种不规范语言

的来源

,

指出在发音

拼写

句法

修辞等方面

,

英语和

汉语都具有一套完整的语言规范体系

.

在发音上

,

规范语言的形成来自于很多现象

,

例如省略读音

漏音调

吞音等现象

;

在句法上

,

不规范语言一般不符

:

htt

p

j

收稿日期

:

2021-10-02

录用日期

:

2022-03-30

)

基金项目

:

国家自然科学基金

(

61876120

*

通信作者

:

liunhui@

j

]

,

,():

引文格式

:

田新宇

,

李军辉

.

语音识别错误对翻译性能的影响分析

[

厦门大学学报

(

自然科学版

)

J.2022614682-688.

:[]

CitationTIANXY

,

softheeffectsofseechreconitionerrorsontranslation

p

nUniv

ypg

,,():()

ese

4

期田新宇等

:

语音识别错误对翻译性能的影响分析

·

683

·

1

数据与方法

1.1

数据来源

本文使用汉英翻译经常使用的

两个测试集

.

通过两位朗读者朗读这两个测试集得到

NIST02

NIST03

语音音频

,

音频文件格式为

在线语音转文字软件获得语音识别的结果

M4A

,

再调用

讯飞听见

,

并以此作

为含语音识别错误的中文数据集

试集的数据统计

,

分词均采用结

.

1

给出了两个测

分词

(

g

htt

p

s

:

错误率

ithub.c

(

o

误数据的差异

w

m

or

/

d

fx

e

s

.

r

j

r

y

o

/

r

j

ie

ra

b

t

a

e

)

,

,

W

并通过计算基于字的字词

ER

)

来衡量有错误和无错

Tab.1 S

1

ta

N

tist

I

i

S

cs

T0

re

2

sults

NI

ofN

ST0

I

3

测试集的统计结果

ST02andNIST03test

E

s

R

et

数据集篇章数句子数单词数字数基于字的

W

/

%

N

N

I

I

S

S

T

T

0

0

2

31

9

0

5

0

8

9

7

1

8

9

1

2

8

0

7

0

3

4

0

1

3

4

9

2

9

6

8

3

8

6

1

1

1

6

.

.

2

8

4

0

1.2

分析内容和方法

本文以

Transformer

[

10

]

为基础架构进行汉英翻译

模型的训练

,

评估比较不同模型应用在开发集

.

通过对训练过程中保留的所有模型进行

翻译测试

(

即源端无

错误的

,

挑选出性能最佳的模型用于本文实验

NIST06

数据集

)

上的双语互译评估

(

BLEU

)

[

11

]

和分析方法如下

给定一个无错误的句子

.

.

分析内容

S

=

n

个单词

,

以及其语音识别版本

{

s

T

1

,

s

=

2

,…,

s

n

},

共包

个单词

,

为确定

S

中哪些词出现语音识别错

{

t

1

,

t

2

,…,

t

m

共包含

m

},

,

本文通过以下步骤来进行原词

)

同时遍历

S

T

中的每一个单词

-

错误词对的提取

(

.

殊符号除外

1

标点及特

),

若当前单词

s

i

t

j

相同

,

则继续向后遍

,

否则转到

)

)

S

记录

S

2

.

T

当前错误起始词汇的下标

p

q

并找到

2

T

中距离错误起始词汇最近的相同单词

,

,

记录其下标分别为

x

y

下标

3

.

转到

)

S

3

)

,

即为当前错误结束词汇的

中提取出

.

O

=

{

s

p

前错误的原词组

,

T

中提取出

,…,

s

x

-1

N

=

}

{

s

的单词组成当

q

,…,

s

y

-1

单词组成当前错误词组

(

,

将二者结合为原词

O

,

N

转到

-

错误词对

}

例如原句为

)

.1

)

.

:“

以公务员所共同遵循的行为规范

至理名言

之风

治理名言

.

错误句为

为书法作品创作内容

:“

以公务员所共同遵循的行为规范

,

倡导公务员廉洁奉公

指望

”“

.

治理名言

该句所提取出的原词

为书法作品创作内容

,

倡导公务员廉洁奉公

错误词对为

(“

”)

(“

之风

”“

指望

-

:

至理名

”)

本文首先分析哪些词容易引起语音识别错误

.

,

后再从多个角度分析语音识别错误对机器翻译性能

的影响

语音识别错误对翻译性能的影响分析

.

分析的内容包括错误词性分析

错误类型分

、,

以及错误

词对其他词翻译的影响分析等

错误词性分析

分析语音识别错误中各词性的

.

占比

.

.

错误类型分析

.

常见的语音识别错误包括替换

缺词或多词等

.

有别于英语等西方语言

,

汉语语音识

别存在着大量同音异形字或者近音异形字

工对比原句和语音识别结果

,

将错误类型分为同音异

.

为此

,

形字

人名

近音异形字和多字少字等类别

,

并统计它

们的比例

语音识别错误对翻译性能的影响

.

准测试集和含语音识别错误的测试集经

.

对比和分析标

翻译后的

BLEU

值的翻译性能

Transformer

错误词对其他词翻译的影响

.

,

分析错误词容易引起其他哪些词的翻

.

当一个句子存在语

音识别错误时

译错误

.

为了分析每处错误词对翻译的影响

,

实验时

确保每个句子只有一处错误

,

比如

,

如果某个句子出

现多处错误

,

针对每一处错误生成一个句子

,

以保证

该句中只保留一处错误

.

S

T

分别表示无错误句

子和只有一处错误的句子

,

S

中发生语音识别错误

的单词为

))

的翻译是否受错误词影响

s

i

.

为了判断

S

中其他某个单词

,

(

分别获取

s

j

i

S

T

的译

(

,

然后通过双语词对齐工具

fast

_

alin

:

译文中的翻译结果

/

cha

gg

e

,

/

f

如果两个译文相同

ast

_

ali

g

n

),

获取

s

j

g

在两个句子

(

htt

p

s∥

,

即认为

s

j

翻译不受

s

i

发生语音识别错误的影响

,

反之受其影

.

具体地

,

根据与发生语音识别错误词

s

i

的平面或

结构距离

,

分析哪些词更容易受语音识别错误的影

.

以下以为例

,

1

)

平面距离

s

i

:

即与

解释平面距离和结构距离

s

i

的表面距离

,

.

j

,

其与

如果当前词为

2

)

s

结构距离

i

的距离为

:

即与

|

i

-

s

i

j

在句法依存上的距离

|.

,

s

i

出发

,

沿父节点或子节点方向能到达

分析

.

s

j

过程中经历的

边数为了得到句子

S

的句法树

,

本文使用依存句法

工具

DDParser

)

.

DDParser

(

htt

p

s

:

g

/

baidu

/

htt

p

:

j

j

g

s

·

684

·

厦门大学学报

(

自然科学版

)

2022

2

数据集中汉语语料的语音识别结果进行语音识别错

误分析

,

结合含语音识别错误的汉语语料的翻译结果

来统计错误词汇的词性

类型及其他翻译受影响词的

6

占比

.

本文采用训练集语料共包括

2

句对

,

来源于

×10

、、、、

LDC2002E18LDC2003E07LDC2003E14LDC2004T08

2.2

结果与分析

2.2.1

错误词性分析

1

统计了不同词性在语音识别错误词汇和总词

,

汇中的占比

,

总错误词数为

48

总词数为

3

108771.

验按错误占比大小的顺序统计了

1

剩下更

5

种词性

,

多错误占比较小的词性合计占比为

1

从图

11.39%.

可以看出

,

在所有词中

,

名词和动词的错误占比和总

占比都较高

,

这也比较符合人们日常生活中的用词习

,

实词占据了日常交流词汇中的大部分

.

此外

,

数词和代词等更容易出现语音识别错误

,

其错误

占比明显大于总占比的

.

其中

,

人名的错误占比远大

于总占比

,

这说明人名词性在语音识别的过程中最容

易出现语音识别错误

.

因此

,

在处理语音识别结果的

过程中

,

可重点关注名词和动词等出现次数较多的实

,

结合语境进行文本纠错

.

对于最容易出现语音识

别错误人名

,

在语音识别的过程中

,

可预先导入常见

人名表

,

从而提升语音识别系统对人名识别的准确

.

由于在统计过程中

,

与原文不一致的表述均作为

识别错误

,

所以对于较易出现识别错误的数词

,

错误

原因往往来自于不同类型的表述

,

对翻译的影响

2.2.2

错误类型分析

语音识别错误可分为多种类型

.

2

给出了一个

原句及其语音识别结果举例

.

在该例中

阿姆丹说

较小

.

本研究对

NIST

汉英实验的

NIST02

NIST03

、、、、

LDC2002T01LDC2004T07LDC2005T06LDC2005T10

LDC2009T02LDC2009T15

LDC2010T03

等多个

数据集

.

开发集使用

N

汉语端使用结巴分词

,

IST06.

英语端使用

M

以及小写

oses

脚本对句子进行词切分

,

.

汉英两端分别做子词化处理

,

不共享两端词表

,

[]

12

节对编码

(

操作数均设置为

3BPE

)

2000.

2.1

实验设置

[]

3

本文基准模型为开源

O

实现的

enNMT

1

p

[]

0

训练时

,

汉英模型设置相同的参数

Transformer

1

.

:

编码器与解码器的层数均为

6

,

多头注意力机

,

制设置

8

个头

,

批处理大小设置为

4

词向量

编码

096

器和解码器的隐藏层维度均为

5

前馈神经网络

12

,

[]

4

的维度设置为

20

设置为

0

使用

48

,

droout

1

.1.

p

其他参数均使用默认配

Glorot

方法初始化模型参数

,

.

翻译模型在一块

G

在网络

TX1080Ti

显卡上训练

.

,,

训练过程中每隔

50.9.99800

步保存一

1

0

2

0

ββ

次模型

.

在翻译测试集句子时

,

beamsize

设置为

5.

训练过程中

,

采用

A

其参数

dam

算法进行参数更新

,

于人名类型的错误

,

红星月会

属于专有名词类型

““

的错误

,

进东

属于同音异形字类型的错误

,

建林

属于专有名词类型的错误

,

制定

属于同音异形字类

:

htt

p

j

Fi.1Percentaeofdifferentartsofseechinerrorwordsandtotalwords

ggpp

1

不同词性在错误词汇和总词汇中的占比

4

期田新宇等

:

语音识别错误对翻译性能的影响分析

·

685

·

型的错误

.

Tab.2 Anexam

p

l

2

e

原句与语音识别结果举例

ofanin

p

utanditss

p

eechreco

g

nitionout

p

ut

类型举

(

已分词

原句

)

哈姆丹说

,

负责运作此事的阿联酋红新月会

在与联合国近东巴勒斯坦难民救济和工程

处协调后

,

已就修复杰宁难民营内被毁坏

的建筑物和公用设施制订了具体计划

.

语音识

阿姆丹说

,

负责运作此事的阿联酋红星月

(

别结果

已分词

)

会在与联合国进东巴勒斯坦难民救济和工

程处协调后

,

已就修复建林难民营内被毁

坏的建筑物和公用设施制定了具体计划

.

2

统计了不同类型的错误在所有语音识别错

误中的占比

,

总错误为

要的错误类型包括同音异形字

2806

.

从图

人名

2

可以看出

,

近音异形字和

多字少字等

,

其中同音异形字的错误占比最高

,

且远

高于占比第二的人名类型的错误

.

同音异形字和近音

异形字的错误类型反映了语音识别软件不完全准确

的现象

,

如果词汇不是很常见或者朗读音调有所偏

,

那么语音识别系统较容易识别为同音异形字或近

音异形字

;

而对于人名或专有名词

,

由于这些词中的

汉字组合无规律

,

所以也较易出现识别错误

处理语音识别结果的过程中

,

针对同音异形字和近音

.

因此

,

异形字的识别错误

,

可根据常见词生成同音

/

近音字

对照表

,

结合语义计算概率

,

从而预测出当前错误词

对应的正确词

.

Fi

g

.2Pro

p

2

or

不同类型的错误占比

tionofdifferentt

yp

esoferrors

.2.3

语音识别错误对翻译性能的影响

的翻译性能

3

给出了语音识别与标准的

.

从表

3

可以看出

,

有语音识别错误的测试

NIST

汉英测试集

集翻译结果的

BLEU

值比标准语料低了

10

个百分点

左右

.

Tab

3

.3

语音识别错误对机器翻译结果的影响

o

I

nm

nflu

a

e

c

n

h

c

i

e

ne

of

tr

s

a

p

n

e

s

e

l

c

at

h

io

r

n

ec

r

o

e

g

s

n

u

i

l

t

t

i

s

onerrors

语料类型

NIST02

BLEU

/

%

NIST03

有错误

无错误

3

4

5

6

.

.

5

1

2

3

3

4

2

1

.

.

0

6

6

6

译性能

3

展示了不同长度有错误和无错误句子的翻

,

句子长度划分区间为

(

0

,

10

]、(

10

,

20

]、(

20

,

以下的句子在翻译时受到语音识别错误影响的程度

0

]、(

30

,

40

]、(

40

,

+∞

)

.

从图

3

可以看出

,

长度在

20

更加明显

,

值低

BLEU

值比无语音识别错误句子的

BLE

受到语音识别错误影响的程度略有降低

7~9

个百分点

;

而长度大于

20

的句子在翻译时

U

,

BLEU

值比

无错误句子的翻译低

识别结果进行翻译的过程中

4~7

个百分点因此

,

在对语音

,

对于长度较小

.

(

句子

,

其提供的语义信息较少

,

所以需要重点关注句

≤20

)

中错误词的纠错结果

,

通过对不同错误词纠错结果的

比较和筛选

(

短句中错误词较少

),

尽可能达到或接近

原句所表示的含义

,

从而降低语音识别错误对长度较

小句子的翻译产生的较严重影响

(

.

而对于长度较大

来对错误词进行纠错

>20

)

的句子

,

可以结合语境

.

,

利用句子的语义信息

Fi

g

3

.3

不同长度有错误和无错误句子的翻译性能

T

s

r

e

a

n

n

t

s

e

l

n

a

c

ti

e

o

sw

n

p

i

e

t

r

h

fo

a

r

n

m

dw

an

i

c

t

e

h

o

o

f

ut

di

e

f

r

f

r

e

o

r

r

e

s

ntlen

g

th

.2.4

错误词对其他词翻译的影响

统计翻译受错误词汇影响的正常词汇与错误词

汇的平面与结构距离区间均为

htt

p

:

j

x

1

m

~

u

5

.

.

xm

4

给出了一个

3

2

2

·

686

·

厦门大学学报

(

自然科学版

)

2022

原句及其语音识别结果的翻译举例

.

在该例中

,

由于

伤愈

复出

乔丹

一词的识别错误

复出

,

,

对与其平面距离为

1

的词

的翻译均产生了影响

平面距离为

2

的词

最早

平面距离为

3

的词

的翻译产生了影响

.

;

对与其结构距离为

1

Tab.4 T

4

原句与语音识别结果的翻译举例

ra

s

n

p

s

e

l

e

a

c

ti

h

o

r

n

e

e

co

xa

g

n

m

it

p

i

l

o

e

n

sofanin

p

utandits

类型

out

p

ut

举例

原句及翻译

(

已分词

)

i

J

乔丹

n

o

j

r

u

d

r

a

y

nt

最早

as

o

ea

c

周日

rl

o

y

m

a

e

伤愈

s

b

S

a

u

c

n

kf

复出

da

y

ro

.

m

.

hisrecover

y

of

语音识别乔丹最早周日商誉复出

结果及翻

(

已分词

)

Jordan

与本文相关的文章

发布评论

评论列表 (0)

  1. 暂无评论