2024年5月25日发(作者:溥韶敏)
第
61
卷
第
4
期
2022
年
7
月
:/
.0438-0479.202110002
j
)
JournalofXiamenUniversitNaturalScience
y
(
厦门大学学报
(
自然科学版
)
Vol.61 No.4
Jul.2022
语音识别错误对翻译性能的影响分析
()
苏州大学计算机科学与技术学院
,
江苏苏州
215006
田新宇
,
李军辉
*
摘要
:
传统的机器翻译模型均基于无噪声环境
,
即输入的数据是无错误的
.
但在实际同声传译中
,
语音识别不可避免会
存在错误
,
这些错误在机器翻译过程中会直接影响其他内容的翻译
.
因此
,
统计分析语音识别错误的种类及产生的影响
对提高机器翻译的鲁棒性具有指导意义
.
为了模拟真实语音识别错误
,
本文通过人工朗读
N
并采
IST
汉英实验测试集
,
)
语音识别错误对翻译性能的影响
;)
语音识别错误对其他词翻译的影响
.
类型分析
;
得出的主要结论为
:
名词和动词
34
出现语音识别错误的次数较多
,
人名最易出现语音识别错误
;
同音异形字的语音识别错误出现次数最多
;
长度较小的句
子在翻译时受到语音识别错误影响的程度更加明显
;
与语音识别错误词距离更近的词的翻译更易受到影响
.
)
语音识别错误的词性分析
;)
语音识别错误的
用讯飞语音识别系统获取其语音识别结果进行统计分析
,
主要包括
:
12
关键词
:
语音识别错误
;
机器翻译
;
翻译性能
;
错误类型
()
中图分类号
:
TP391.2
文献标志码
:
A
文章编号
:
04-0682-07
语音识别技术也在逐渐趋于成
随着科技的发展
,
]
1
,
熟
[
不少学者都基于语音识别技术来拓展或延伸相
关的研究方向
,
重点集中在自然语言处理
、
实时语音
]
2
识别以及语音识别鲁棒性等方面
[
在自然语言处理
.
领域中
,
语音识别结果可作为机器翻译源语言的一种
]]
34
,,
形式
[
用于让计算机能够听懂人类说的话
[
即让
机器接收人的语音输入
,
理解其语言类型和目的
,
并
合语法规定
,
例如句子成分缺失等
;
在词语方面
,
不规
范语言会夹杂着地域色彩
,
即方言土语等
.
这也解释
]
8
了语音识别结果中错误词汇产生的原因
.
李萌
[
以信
息论为依托
,
以
《
哈利
·
波特
》
中专有名词翻译为例
,
对错误词汇在翻译过程中信息传递的影响进行了分
]
9
析
.
周美玲
[
通过对机器音译
,
即人名
、
地名
、
机构名
作出相应的反应
,
如按需做出记录
、
查询或相应的其
]
5
他操作
[
.
和组织名等专有名词的错误分析
,
总结了基于语音的
机器音译的不足
,
提出了两种机器音译的方法
:
基于
字形的音译方法和机器翻译的方法
.
然而
,
以上研究
针对以上问题
,
本文基于
N
以
IST
汉英实验
,
[]
0
提出的
TVaswani
等
1
ransformer
模型为基础架构
,
利用
N
采用
IST
汉英实验中的训练集进行模型训练
,
讯飞语音识别系统获取
NIST
汉英实验测试集的语音
识别结果作为测试集进行测试
.
实验通过对比标准测
试集和语音识别结果构成测试集的翻译结果
,
对常见
语音识别错误的类型
,
以及错误词汇对其他词语翻译
的影响进行了分析讨论
,
希望以此为提高面向语音识
别错误的机器翻译鲁棒性研究提供参考
.
均未系统地分析语音识别结果中易出现的错误词性
和错误类型
,
以及语音识别错误对翻译产生的影响
.
在汉语的语音识别过程中
,
由于机器识别本身的
]
6
局限性
,
不可避免地会出现一些语音识别错误
[
其
.
与环境噪声
、
说话人的人为因素
(
如发音
、
用词
、
造句
等的规范性
)
共同作用
,
影响同声传译的翻译结果
.
以
往不少学者对语音识别错误的来源
、
种类及其对某类
]
7
词性词语的翻译所产生的影响进行了研究
.
赵晓瑞
[
提出的不规范语言翻译策略分析了各种不规范语言
的来源
,
指出在发音
、
拼写
、
句法
、
修辞等方面
,
英语和
汉语都具有一套完整的语言规范体系
.
在发音上
,
不
规范语言的形成来自于很多现象
,
例如省略读音
、
遗
漏音调
、
吞音等现象
;
在句法上
,
不规范语言一般不符
:
htt
∥
p
j
收稿日期
:
2021-10-02
录用日期
:
2022-03-30
)
基金项目
:
国家自然科学基金
(
61876120
*
通信作者
:
liunhui@
j
]
,
,():
引文格式
:
田新宇
,
李军辉
.
语音识别错误对翻译性能的影响分析
[
厦门大学学报
(
自然科学版
)
J.2022614682-688.
:[]
CitationTIANXY
,
softheeffectsofseechreconitionerrorsontranslation
p
nUniv
ypg
,,():()
ese
第
4
期田新宇等
:
语音识别错误对翻译性能的影响分析
·
683
·
1
数据与方法
1.1
数据来源
本文使用汉英翻译经常使用的
两个测试集
.
通过两位朗读者朗读这两个测试集得到
NIST02
和
NIST03
语音音频
,
音频文件格式为
在线语音转文字软件获得语音识别的结果
M4A
,
再调用
“
讯飞听见
,
并以此作
”
为含语音识别错误的中文数据集
试集的数据统计
,
分词均采用结
.
表
巴
1
给出了两个测
分词
(
g
htt
p
s
:
∥
错误率
ithub.c
(
o
误数据的差异
w
m
or
/
d
fx
e
s
.
r
j
r
y
o
/
r
j
ie
ra
b
t
a
e
)
,
,
W
并通过计算基于字的字词
ER
)
来衡量有错误和无错
表
Tab.1 S
1
ta
N
tist
I
i
S
cs
T0
re
2
和
sults
NI
ofN
ST0
I
3
测试集的统计结果
ST02andNIST03test
E
s
R
et
数据集篇章数句子数单词数字数基于字的
W
/
%
N
N
I
I
S
S
T
T
0
0
2
31
9
0
5
0
8
9
7
1
8
9
1
2
8
0
7
0
3
4
0
1
3
4
9
2
9
6
8
3
8
6
1
1
1
6
.
.
2
8
4
0
1.2
分析内容和方法
本文以
Transformer
[
10
]
为基础架构进行汉英翻译
模型的训练
,
评估比较不同模型应用在开发集
.
通过对训练过程中保留的所有模型进行
翻译测试
(
即源端无
错误的
值
,
挑选出性能最佳的模型用于本文实验
NIST06
数据集
)
上的双语互译评估
(
BLEU
)
[
11
]
和分析方法如下
给定一个无错误的句子
.
.
分析内容
S
=
含
n
个单词
,
以及其语音识别版本
{
s
T
1
,
s
=
2
,…,
s
n
},
共包
个单词
,
为确定
S
中哪些词出现语音识别错
{
t
1
,
t
2
,…,
t
m
共包含
m
},
误
,
本文通过以下步骤来进行原词
)
同时遍历
S
和
T
中的每一个单词
-
错误词对的提取
(
.
殊符号除外
1
标点及特
),
若当前单词
s
i
和
t
j
相同
,
则继续向后遍
历
,
否则转到
)
)
S
记录
S
2
和
.
T
当前错误起始词汇的下标
p
和
q
并找到
2
和
T
中距离错误起始词汇最近的相同单词
,
,
记录其下标分别为
x
和
y
下标
3
.
转到
)
在
S
3
)
,
即为当前错误结束词汇的
中提取出
.
O
=
{
s
p
前错误的原词组
,
在
T
中提取出
,…,
s
x
-1
N
=
}
{
s
的单词组成当
q
,…,
s
y
-1
单词组成当前错误词组
(
,
将二者结合为原词
O
,
N
转到
-
错误词对
}
的
例如原句为
)
.1
)
.
:“
以公务员所共同遵循的行为规范
、
至理名言
之风
治理名言
.
”
错误句为
为书法作品创作内容
:“
以公务员所共同遵循的行为规范
,
倡导公务员廉洁奉公
指望
言
”“
.
治理名言
”
该句所提取出的原词
为书法作品创作内容
,
倡导公务员廉洁奉公
、
错误词对为
(“
”)
和
(“
之风
”“
指望
-
:
至理名
”)
本文首先分析哪些词容易引起语音识别错误
.
,
然
后再从多个角度分析语音识别错误对机器翻译性能
的影响
语音识别错误对翻译性能的影响分析
.
分析的内容包括错误词性分析
、
错误类型分
析
、,
以及错误
词对其他词翻译的影响分析等
错误词性分析
分析语音识别错误中各词性的
.
占比
.
.
错误类型分析
.
常见的语音识别错误包括替换
、
缺词或多词等
.
有别于英语等西方语言
,
汉语语音识
别存在着大量同音异形字或者近音异形字
工对比原句和语音识别结果
,
将错误类型分为同音异
.
为此
,
人
形字
、
人名
、
近音异形字和多字少字等类别
,
并统计它
们的比例
语音识别错误对翻译性能的影响
.
准测试集和含语音识别错误的测试集经
.
对比和分析标
翻译后的
BLEU
值的翻译性能
Transformer
错误词对其他词翻译的影响
.
,
分析错误词容易引起其他哪些词的翻
.
当一个句子存在语
音识别错误时
译错误
.
为了分析每处错误词对翻译的影响
,
实验时
确保每个句子只有一处错误
,
比如
,
如果某个句子出
现多处错误
,
针对每一处错误生成一个句子
,
以保证
该句中只保留一处错误
.
记
S
和
T
分别表示无错误句
子和只有一处错误的句子
,
记
S
中发生语音识别错误
的单词为
))
的翻译是否受错误词影响
s
i
.
为了判断
S
中其他某个单词
,
(
分别获取
如
s
j
i
≠
S
和
T
的译
(
文
,
然后通过双语词对齐工具
fast
_
alin
:
译文中的翻译结果
/
cha
gg
e
,
/
f
如果两个译文相同
ast
_
ali
g
n
),
获取
s
j
g
在两个句子
(
htt
p
s∥
,
即认为
s
j
的
翻译不受
s
i
发生语音识别错误的影响
,
反之受其影
响
.
具体地
,
根据与发生语音识别错误词
s
i
的平面或
结构距离
,
分析哪些词更容易受语音识别错误的影
响
.
以下以为例
,
1
)
平面距离
s
i
:
即与
解释平面距离和结构距离
s
i
的表面距离
,
.
j
,
其与
如果当前词为
2
)
s
结构距离
i
的距离为
:
即与
|
i
-
s
i
j
在句法依存上的距离
|.
,
从
s
i
出发
,
沿父节点或子节点方向能到达
分析
.
s
j
过程中经历的
边数为了得到句子
S
的句法树
,
本文使用依存句法
工具
DDParser
)
.
DDParser
(
htt
p
s
:
∥
g
/
baidu
/
htt
p
:
∥
j
j
g
s
·
684
·
厦门大学学报
(
自然科学版
)
2022
年
2
实
验
数据集中汉语语料的语音识别结果进行语音识别错
误分析
,
结合含语音识别错误的汉语语料的翻译结果
来统计错误词汇的词性
、
类型及其他翻译受影响词的
6
占比
.
本文采用训练集语料共包括
2
句对
,
来源于
×10
、、、、
LDC2002E18LDC2003E07LDC2003E14LDC2004T08
2.2
结果与分析
2.2.1
错误词性分析
图
1
统计了不同词性在语音识别错误词汇和总词
,
汇中的占比
,
总错误词数为
48
总词数为
3
实
108771.
验按错误占比大小的顺序统计了
1
剩下更
5
种词性
,
多错误占比较小的词性合计占比为
1
从图
11.39%.
可以看出
,
在所有词中
,
名词和动词的错误占比和总
占比都较高
,
这也比较符合人们日常生活中的用词习
惯
,
实词占据了日常交流词汇中的大部分
.
此外
,
人
名
、
数词和代词等更容易出现语音识别错误
,
其错误
占比明显大于总占比的
.
其中
,
人名的错误占比远大
于总占比
,
这说明人名词性在语音识别的过程中最容
易出现语音识别错误
.
因此
,
在处理语音识别结果的
过程中
,
可重点关注名词和动词等出现次数较多的实
词
,
结合语境进行文本纠错
.
对于最容易出现语音识
别错误人名
,
在语音识别的过程中
,
可预先导入常见
人名表
,
从而提升语音识别系统对人名识别的准确
性
.
由于在统计过程中
,
与原文不一致的表述均作为
识别错误
,
所以对于较易出现识别错误的数词
,
错误
原因往往来自于不同类型的表述
,
对翻译的影响
2.2.2
错误类型分析
语音识别错误可分为多种类型
.
表
2
给出了一个
原句及其语音识别结果举例
.
在该例中
“
阿姆丹说
”
属
较小
.
本研究对
NIST
汉英实验的
NIST02
和
NIST03
、、、、
LDC2002T01LDC2004T07LDC2005T06LDC2005T10
、
LDC2009T02LDC2009T15
和
LDC2010T03
等多个
数据集
.
开发集使用
N
汉语端使用结巴分词
,
IST06.
英语端使用
M
以及小写
oses
脚本对句子进行词切分
,
化
.
汉英两端分别做子词化处理
,
不共享两端词表
,
字
[]
12
节对编码
(
操作数均设置为
3BPE
)
2000.
2.1
实验设置
[]
3
本文基准模型为开源
O
实现的
enNMT
1
p
[]
0
训练时
,
汉英模型设置相同的参数
Transformer
1
.
有
:
编码器与解码器的层数均为
6
层
,
多头注意力机
,
制设置
8
个头
,
批处理大小设置为
4
词向量
、
编码
096
器和解码器的隐藏层维度均为
5
前馈神经网络
12
维
,
[]
4
的维度设置为
20
设置为
0
使用
48
维
,
droout
1
.1.
p
其他参数均使用默认配
Glorot
方法初始化模型参数
,
置
.
翻译模型在一块
G
在网络
TX1080Ti
显卡上训练
.
,,
训练过程中每隔
50.9.99800
步保存一
1
为
0
2
为
0
ββ
次模型
.
在翻译测试集句子时
,
beamsize
设置为
5.
训练过程中
,
采用
A
其参数
dam
算法进行参数更新
,
“
于人名类型的错误
,
红星月会
”
属于专有名词类型
““
的错误
,
进东
”
属于同音异形字类型的错误
,
建林
”
“
属于专有名词类型的错误
,
制定
”
属于同音异形字类
:
htt
∥
p
j
Fi.1Percentaeofdifferentartsofseechinerrorwordsandtotalwords
ggpp
图
1
不同词性在错误词汇和总词汇中的占比
第
4
期田新宇等
:
语音识别错误对翻译性能的影响分析
·
685
·
型的错误
.
表
Tab.2 Anexam
p
l
2
e
原句与语音识别结果举例
ofanin
p
utanditss
p
eechreco
g
nitionout
p
ut
类型举
例
(
已分词
原句
)
哈姆丹说
,
负责运作此事的阿联酋红新月会
在与联合国近东巴勒斯坦难民救济和工程
处协调后
,
已就修复杰宁难民营内被毁坏
的建筑物和公用设施制订了具体计划
.
语音识
阿姆丹说
,
负责运作此事的阿联酋红星月
(
别结果
已分词
)
会在与联合国进东巴勒斯坦难民救济和工
程处协调后
,
已就修复建林难民营内被毁
坏的建筑物和公用设施制定了具体计划
.
图
2
统计了不同类型的错误在所有语音识别错
误中的占比
,
总错误为
要的错误类型包括同音异形字
2806
处
.
从图
、
人名
、
2
可以看出
,
主
近音异形字和
多字少字等
,
其中同音异形字的错误占比最高
,
且远
高于占比第二的人名类型的错误
.
同音异形字和近音
异形字的错误类型反映了语音识别软件不完全准确
的现象
,
如果词汇不是很常见或者朗读音调有所偏
差
,
那么语音识别系统较容易识别为同音异形字或近
音异形字
;
而对于人名或专有名词
,
由于这些词中的
汉字组合无规律
,
所以也较易出现识别错误
处理语音识别结果的过程中
,
针对同音异形字和近音
.
因此
,
在
异形字的识别错误
,
可根据常见词生成同音
/
近音字
对照表
,
结合语义计算概率
,
从而预测出当前错误词
对应的正确词
.
图
Fi
g
.2Pro
p
2
or
不同类型的错误占比
tionofdifferentt
yp
esoferrors
.2.3
语音识别错误对翻译性能的影响
表
的翻译性能
3
给出了语音识别与标准的
.
从表
3
可以看出
,
有语音识别错误的测试
NIST
汉英测试集
集翻译结果的
BLEU
值比标准语料低了
10
个百分点
左右
.
表
Tab
3
.3
语音识别错误对机器翻译结果的影响
o
I
nm
nflu
a
e
c
n
h
c
i
e
ne
of
tr
s
a
p
n
e
s
e
l
c
at
h
io
r
n
ec
r
o
e
g
s
n
u
i
l
t
t
i
s
onerrors
语料类型
NIST02
BLEU
/
%
NIST03
有错误
无错误
3
4
5
6
.
.
5
1
2
3
3
4
2
1
.
.
0
6
6
6
图
译性能
3
展示了不同长度有错误和无错误句子的翻
,
句子长度划分区间为
(
0
,
10
]、(
10
,
20
]、(
20
,
以下的句子在翻译时受到语音识别错误影响的程度
0
]、(
30
,
40
]、(
40
,
+∞
)
.
从图
3
可以看出
,
长度在
20
更加明显
,
值低
BLEU
值比无语音识别错误句子的
BLE
受到语音识别错误影响的程度略有降低
7~9
个百分点
;
而长度大于
20
的句子在翻译时
U
,
BLEU
值比
无错误句子的翻译低
识别结果进行翻译的过程中
4~7
个百分点因此
,
在对语音
,
对于长度较小
.
(
句子
,
其提供的语义信息较少
,
所以需要重点关注句
≤20
)
的
中错误词的纠错结果
,
通过对不同错误词纠错结果的
比较和筛选
(
短句中错误词较少
),
尽可能达到或接近
原句所表示的含义
,
从而降低语音识别错误对长度较
小句子的翻译产生的较严重影响
(
.
而对于长度较大
来对错误词进行纠错
>20
)
的句子
,
可以结合语境
.
,
利用句子的语义信息
图
Fi
g
3
.3
不同长度有错误和无错误句子的翻译性能
T
s
r
e
a
n
n
t
s
e
l
n
a
c
ti
e
o
sw
n
p
i
e
t
r
h
fo
a
r
n
m
dw
an
i
c
t
e
h
o
o
f
ut
di
e
f
r
f
r
e
o
r
r
e
s
ntlen
g
th
.2.4
错误词对其他词翻译的影响
统计翻译受错误词汇影响的正常词汇与错误词
汇的平面与结构距离区间均为
htt
p
:
∥
j
x
1
m
~
表
u
5
.
.
xm
4
给出了一个
3
2
2
·
686
·
厦门大学学报
(
自然科学版
)
2022
年
“
原句及其语音识别结果的翻译举例
.
在该例中
,
由于
“
伤愈
“
复出
”
乔丹
”
一词的识别错误
复出
”
,
,
对与其平面距离为
、
1
的词
的翻译均产生了影响
平面距离为
2
的词
“
最早
”
平面距离为
3
的词
”
的翻译产生了影响
.
;
对与其结构距离为
1
的
词
“
表
Tab.4 T
4
原句与语音识别结果的翻译举例
ra
s
n
p
s
e
l
e
a
c
ti
h
o
r
n
e
e
co
xa
g
n
m
it
p
i
l
o
e
n
sofanin
p
utandits
类型
out
p
ut
举例
原句及翻译
(
已分词
)
i
J
乔丹
n
o
j
r
u
d
r
a
y
nt
最早
as
o
ea
c
周日
rl
o
y
m
a
e
伤愈
s
b
S
a
u
c
n
kf
复出
da
y
ro
.
m
.
hisrecover
y
of
语音识别乔丹最早周日商誉复出
结果及翻
译
(
已分词
)
Jordan
2024年5月25日发(作者:溥韶敏)
第
61
卷
第
4
期
2022
年
7
月
:/
.0438-0479.202110002
j
)
JournalofXiamenUniversitNaturalScience
y
(
厦门大学学报
(
自然科学版
)
Vol.61 No.4
Jul.2022
语音识别错误对翻译性能的影响分析
()
苏州大学计算机科学与技术学院
,
江苏苏州
215006
田新宇
,
李军辉
*
摘要
:
传统的机器翻译模型均基于无噪声环境
,
即输入的数据是无错误的
.
但在实际同声传译中
,
语音识别不可避免会
存在错误
,
这些错误在机器翻译过程中会直接影响其他内容的翻译
.
因此
,
统计分析语音识别错误的种类及产生的影响
对提高机器翻译的鲁棒性具有指导意义
.
为了模拟真实语音识别错误
,
本文通过人工朗读
N
并采
IST
汉英实验测试集
,
)
语音识别错误对翻译性能的影响
;)
语音识别错误对其他词翻译的影响
.
类型分析
;
得出的主要结论为
:
名词和动词
34
出现语音识别错误的次数较多
,
人名最易出现语音识别错误
;
同音异形字的语音识别错误出现次数最多
;
长度较小的句
子在翻译时受到语音识别错误影响的程度更加明显
;
与语音识别错误词距离更近的词的翻译更易受到影响
.
)
语音识别错误的词性分析
;)
语音识别错误的
用讯飞语音识别系统获取其语音识别结果进行统计分析
,
主要包括
:
12
关键词
:
语音识别错误
;
机器翻译
;
翻译性能
;
错误类型
()
中图分类号
:
TP391.2
文献标志码
:
A
文章编号
:
04-0682-07
语音识别技术也在逐渐趋于成
随着科技的发展
,
]
1
,
熟
[
不少学者都基于语音识别技术来拓展或延伸相
关的研究方向
,
重点集中在自然语言处理
、
实时语音
]
2
识别以及语音识别鲁棒性等方面
[
在自然语言处理
.
领域中
,
语音识别结果可作为机器翻译源语言的一种
]]
34
,,
形式
[
用于让计算机能够听懂人类说的话
[
即让
机器接收人的语音输入
,
理解其语言类型和目的
,
并
合语法规定
,
例如句子成分缺失等
;
在词语方面
,
不规
范语言会夹杂着地域色彩
,
即方言土语等
.
这也解释
]
8
了语音识别结果中错误词汇产生的原因
.
李萌
[
以信
息论为依托
,
以
《
哈利
·
波特
》
中专有名词翻译为例
,
对错误词汇在翻译过程中信息传递的影响进行了分
]
9
析
.
周美玲
[
通过对机器音译
,
即人名
、
地名
、
机构名
作出相应的反应
,
如按需做出记录
、
查询或相应的其
]
5
他操作
[
.
和组织名等专有名词的错误分析
,
总结了基于语音的
机器音译的不足
,
提出了两种机器音译的方法
:
基于
字形的音译方法和机器翻译的方法
.
然而
,
以上研究
针对以上问题
,
本文基于
N
以
IST
汉英实验
,
[]
0
提出的
TVaswani
等
1
ransformer
模型为基础架构
,
利用
N
采用
IST
汉英实验中的训练集进行模型训练
,
讯飞语音识别系统获取
NIST
汉英实验测试集的语音
识别结果作为测试集进行测试
.
实验通过对比标准测
试集和语音识别结果构成测试集的翻译结果
,
对常见
语音识别错误的类型
,
以及错误词汇对其他词语翻译
的影响进行了分析讨论
,
希望以此为提高面向语音识
别错误的机器翻译鲁棒性研究提供参考
.
均未系统地分析语音识别结果中易出现的错误词性
和错误类型
,
以及语音识别错误对翻译产生的影响
.
在汉语的语音识别过程中
,
由于机器识别本身的
]
6
局限性
,
不可避免地会出现一些语音识别错误
[
其
.
与环境噪声
、
说话人的人为因素
(
如发音
、
用词
、
造句
等的规范性
)
共同作用
,
影响同声传译的翻译结果
.
以
往不少学者对语音识别错误的来源
、
种类及其对某类
]
7
词性词语的翻译所产生的影响进行了研究
.
赵晓瑞
[
提出的不规范语言翻译策略分析了各种不规范语言
的来源
,
指出在发音
、
拼写
、
句法
、
修辞等方面
,
英语和
汉语都具有一套完整的语言规范体系
.
在发音上
,
不
规范语言的形成来自于很多现象
,
例如省略读音
、
遗
漏音调
、
吞音等现象
;
在句法上
,
不规范语言一般不符
:
htt
∥
p
j
收稿日期
:
2021-10-02
录用日期
:
2022-03-30
)
基金项目
:
国家自然科学基金
(
61876120
*
通信作者
:
liunhui@
j
]
,
,():
引文格式
:
田新宇
,
李军辉
.
语音识别错误对翻译性能的影响分析
[
厦门大学学报
(
自然科学版
)
J.2022614682-688.
:[]
CitationTIANXY
,
softheeffectsofseechreconitionerrorsontranslation
p
nUniv
ypg
,,():()
ese
第
4
期田新宇等
:
语音识别错误对翻译性能的影响分析
·
683
·
1
数据与方法
1.1
数据来源
本文使用汉英翻译经常使用的
两个测试集
.
通过两位朗读者朗读这两个测试集得到
NIST02
和
NIST03
语音音频
,
音频文件格式为
在线语音转文字软件获得语音识别的结果
M4A
,
再调用
“
讯飞听见
,
并以此作
”
为含语音识别错误的中文数据集
试集的数据统计
,
分词均采用结
.
表
巴
1
给出了两个测
分词
(
g
htt
p
s
:
∥
错误率
ithub.c
(
o
误数据的差异
w
m
or
/
d
fx
e
s
.
r
j
r
y
o
/
r
j
ie
ra
b
t
a
e
)
,
,
W
并通过计算基于字的字词
ER
)
来衡量有错误和无错
表
Tab.1 S
1
ta
N
tist
I
i
S
cs
T0
re
2
和
sults
NI
ofN
ST0
I
3
测试集的统计结果
ST02andNIST03test
E
s
R
et
数据集篇章数句子数单词数字数基于字的
W
/
%
N
N
I
I
S
S
T
T
0
0
2
31
9
0
5
0
8
9
7
1
8
9
1
2
8
0
7
0
3
4
0
1
3
4
9
2
9
6
8
3
8
6
1
1
1
6
.
.
2
8
4
0
1.2
分析内容和方法
本文以
Transformer
[
10
]
为基础架构进行汉英翻译
模型的训练
,
评估比较不同模型应用在开发集
.
通过对训练过程中保留的所有模型进行
翻译测试
(
即源端无
错误的
值
,
挑选出性能最佳的模型用于本文实验
NIST06
数据集
)
上的双语互译评估
(
BLEU
)
[
11
]
和分析方法如下
给定一个无错误的句子
.
.
分析内容
S
=
含
n
个单词
,
以及其语音识别版本
{
s
T
1
,
s
=
2
,…,
s
n
},
共包
个单词
,
为确定
S
中哪些词出现语音识别错
{
t
1
,
t
2
,…,
t
m
共包含
m
},
误
,
本文通过以下步骤来进行原词
)
同时遍历
S
和
T
中的每一个单词
-
错误词对的提取
(
.
殊符号除外
1
标点及特
),
若当前单词
s
i
和
t
j
相同
,
则继续向后遍
历
,
否则转到
)
)
S
记录
S
2
和
.
T
当前错误起始词汇的下标
p
和
q
并找到
2
和
T
中距离错误起始词汇最近的相同单词
,
,
记录其下标分别为
x
和
y
下标
3
.
转到
)
在
S
3
)
,
即为当前错误结束词汇的
中提取出
.
O
=
{
s
p
前错误的原词组
,
在
T
中提取出
,…,
s
x
-1
N
=
}
{
s
的单词组成当
q
,…,
s
y
-1
单词组成当前错误词组
(
,
将二者结合为原词
O
,
N
转到
-
错误词对
}
的
例如原句为
)
.1
)
.
:“
以公务员所共同遵循的行为规范
、
至理名言
之风
治理名言
.
”
错误句为
为书法作品创作内容
:“
以公务员所共同遵循的行为规范
,
倡导公务员廉洁奉公
指望
言
”“
.
治理名言
”
该句所提取出的原词
为书法作品创作内容
,
倡导公务员廉洁奉公
、
错误词对为
(“
”)
和
(“
之风
”“
指望
-
:
至理名
”)
本文首先分析哪些词容易引起语音识别错误
.
,
然
后再从多个角度分析语音识别错误对机器翻译性能
的影响
语音识别错误对翻译性能的影响分析
.
分析的内容包括错误词性分析
、
错误类型分
析
、,
以及错误
词对其他词翻译的影响分析等
错误词性分析
分析语音识别错误中各词性的
.
占比
.
.
错误类型分析
.
常见的语音识别错误包括替换
、
缺词或多词等
.
有别于英语等西方语言
,
汉语语音识
别存在着大量同音异形字或者近音异形字
工对比原句和语音识别结果
,
将错误类型分为同音异
.
为此
,
人
形字
、
人名
、
近音异形字和多字少字等类别
,
并统计它
们的比例
语音识别错误对翻译性能的影响
.
准测试集和含语音识别错误的测试集经
.
对比和分析标
翻译后的
BLEU
值的翻译性能
Transformer
错误词对其他词翻译的影响
.
,
分析错误词容易引起其他哪些词的翻
.
当一个句子存在语
音识别错误时
译错误
.
为了分析每处错误词对翻译的影响
,
实验时
确保每个句子只有一处错误
,
比如
,
如果某个句子出
现多处错误
,
针对每一处错误生成一个句子
,
以保证
该句中只保留一处错误
.
记
S
和
T
分别表示无错误句
子和只有一处错误的句子
,
记
S
中发生语音识别错误
的单词为
))
的翻译是否受错误词影响
s
i
.
为了判断
S
中其他某个单词
,
(
分别获取
如
s
j
i
≠
S
和
T
的译
(
文
,
然后通过双语词对齐工具
fast
_
alin
:
译文中的翻译结果
/
cha
gg
e
,
/
f
如果两个译文相同
ast
_
ali
g
n
),
获取
s
j
g
在两个句子
(
htt
p
s∥
,
即认为
s
j
的
翻译不受
s
i
发生语音识别错误的影响
,
反之受其影
响
.
具体地
,
根据与发生语音识别错误词
s
i
的平面或
结构距离
,
分析哪些词更容易受语音识别错误的影
响
.
以下以为例
,
1
)
平面距离
s
i
:
即与
解释平面距离和结构距离
s
i
的表面距离
,
.
j
,
其与
如果当前词为
2
)
s
结构距离
i
的距离为
:
即与
|
i
-
s
i
j
在句法依存上的距离
|.
,
从
s
i
出发
,
沿父节点或子节点方向能到达
分析
.
s
j
过程中经历的
边数为了得到句子
S
的句法树
,
本文使用依存句法
工具
DDParser
)
.
DDParser
(
htt
p
s
:
∥
g
/
baidu
/
htt
p
:
∥
j
j
g
s
·
684
·
厦门大学学报
(
自然科学版
)
2022
年
2
实
验
数据集中汉语语料的语音识别结果进行语音识别错
误分析
,
结合含语音识别错误的汉语语料的翻译结果
来统计错误词汇的词性
、
类型及其他翻译受影响词的
6
占比
.
本文采用训练集语料共包括
2
句对
,
来源于
×10
、、、、
LDC2002E18LDC2003E07LDC2003E14LDC2004T08
2.2
结果与分析
2.2.1
错误词性分析
图
1
统计了不同词性在语音识别错误词汇和总词
,
汇中的占比
,
总错误词数为
48
总词数为
3
实
108771.
验按错误占比大小的顺序统计了
1
剩下更
5
种词性
,
多错误占比较小的词性合计占比为
1
从图
11.39%.
可以看出
,
在所有词中
,
名词和动词的错误占比和总
占比都较高
,
这也比较符合人们日常生活中的用词习
惯
,
实词占据了日常交流词汇中的大部分
.
此外
,
人
名
、
数词和代词等更容易出现语音识别错误
,
其错误
占比明显大于总占比的
.
其中
,
人名的错误占比远大
于总占比
,
这说明人名词性在语音识别的过程中最容
易出现语音识别错误
.
因此
,
在处理语音识别结果的
过程中
,
可重点关注名词和动词等出现次数较多的实
词
,
结合语境进行文本纠错
.
对于最容易出现语音识
别错误人名
,
在语音识别的过程中
,
可预先导入常见
人名表
,
从而提升语音识别系统对人名识别的准确
性
.
由于在统计过程中
,
与原文不一致的表述均作为
识别错误
,
所以对于较易出现识别错误的数词
,
错误
原因往往来自于不同类型的表述
,
对翻译的影响
2.2.2
错误类型分析
语音识别错误可分为多种类型
.
表
2
给出了一个
原句及其语音识别结果举例
.
在该例中
“
阿姆丹说
”
属
较小
.
本研究对
NIST
汉英实验的
NIST02
和
NIST03
、、、、
LDC2002T01LDC2004T07LDC2005T06LDC2005T10
、
LDC2009T02LDC2009T15
和
LDC2010T03
等多个
数据集
.
开发集使用
N
汉语端使用结巴分词
,
IST06.
英语端使用
M
以及小写
oses
脚本对句子进行词切分
,
化
.
汉英两端分别做子词化处理
,
不共享两端词表
,
字
[]
12
节对编码
(
操作数均设置为
3BPE
)
2000.
2.1
实验设置
[]
3
本文基准模型为开源
O
实现的
enNMT
1
p
[]
0
训练时
,
汉英模型设置相同的参数
Transformer
1
.
有
:
编码器与解码器的层数均为
6
层
,
多头注意力机
,
制设置
8
个头
,
批处理大小设置为
4
词向量
、
编码
096
器和解码器的隐藏层维度均为
5
前馈神经网络
12
维
,
[]
4
的维度设置为
20
设置为
0
使用
48
维
,
droout
1
.1.
p
其他参数均使用默认配
Glorot
方法初始化模型参数
,
置
.
翻译模型在一块
G
在网络
TX1080Ti
显卡上训练
.
,,
训练过程中每隔
50.9.99800
步保存一
1
为
0
2
为
0
ββ
次模型
.
在翻译测试集句子时
,
beamsize
设置为
5.
训练过程中
,
采用
A
其参数
dam
算法进行参数更新
,
“
于人名类型的错误
,
红星月会
”
属于专有名词类型
““
的错误
,
进东
”
属于同音异形字类型的错误
,
建林
”
“
属于专有名词类型的错误
,
制定
”
属于同音异形字类
:
htt
∥
p
j
Fi.1Percentaeofdifferentartsofseechinerrorwordsandtotalwords
ggpp
图
1
不同词性在错误词汇和总词汇中的占比
第
4
期田新宇等
:
语音识别错误对翻译性能的影响分析
·
685
·
型的错误
.
表
Tab.2 Anexam
p
l
2
e
原句与语音识别结果举例
ofanin
p
utanditss
p
eechreco
g
nitionout
p
ut
类型举
例
(
已分词
原句
)
哈姆丹说
,
负责运作此事的阿联酋红新月会
在与联合国近东巴勒斯坦难民救济和工程
处协调后
,
已就修复杰宁难民营内被毁坏
的建筑物和公用设施制订了具体计划
.
语音识
阿姆丹说
,
负责运作此事的阿联酋红星月
(
别结果
已分词
)
会在与联合国进东巴勒斯坦难民救济和工
程处协调后
,
已就修复建林难民营内被毁
坏的建筑物和公用设施制定了具体计划
.
图
2
统计了不同类型的错误在所有语音识别错
误中的占比
,
总错误为
要的错误类型包括同音异形字
2806
处
.
从图
、
人名
、
2
可以看出
,
主
近音异形字和
多字少字等
,
其中同音异形字的错误占比最高
,
且远
高于占比第二的人名类型的错误
.
同音异形字和近音
异形字的错误类型反映了语音识别软件不完全准确
的现象
,
如果词汇不是很常见或者朗读音调有所偏
差
,
那么语音识别系统较容易识别为同音异形字或近
音异形字
;
而对于人名或专有名词
,
由于这些词中的
汉字组合无规律
,
所以也较易出现识别错误
处理语音识别结果的过程中
,
针对同音异形字和近音
.
因此
,
在
异形字的识别错误
,
可根据常见词生成同音
/
近音字
对照表
,
结合语义计算概率
,
从而预测出当前错误词
对应的正确词
.
图
Fi
g
.2Pro
p
2
or
不同类型的错误占比
tionofdifferentt
yp
esoferrors
.2.3
语音识别错误对翻译性能的影响
表
的翻译性能
3
给出了语音识别与标准的
.
从表
3
可以看出
,
有语音识别错误的测试
NIST
汉英测试集
集翻译结果的
BLEU
值比标准语料低了
10
个百分点
左右
.
表
Tab
3
.3
语音识别错误对机器翻译结果的影响
o
I
nm
nflu
a
e
c
n
h
c
i
e
ne
of
tr
s
a
p
n
e
s
e
l
c
at
h
io
r
n
ec
r
o
e
g
s
n
u
i
l
t
t
i
s
onerrors
语料类型
NIST02
BLEU
/
%
NIST03
有错误
无错误
3
4
5
6
.
.
5
1
2
3
3
4
2
1
.
.
0
6
6
6
图
译性能
3
展示了不同长度有错误和无错误句子的翻
,
句子长度划分区间为
(
0
,
10
]、(
10
,
20
]、(
20
,
以下的句子在翻译时受到语音识别错误影响的程度
0
]、(
30
,
40
]、(
40
,
+∞
)
.
从图
3
可以看出
,
长度在
20
更加明显
,
值低
BLEU
值比无语音识别错误句子的
BLE
受到语音识别错误影响的程度略有降低
7~9
个百分点
;
而长度大于
20
的句子在翻译时
U
,
BLEU
值比
无错误句子的翻译低
识别结果进行翻译的过程中
4~7
个百分点因此
,
在对语音
,
对于长度较小
.
(
句子
,
其提供的语义信息较少
,
所以需要重点关注句
≤20
)
的
中错误词的纠错结果
,
通过对不同错误词纠错结果的
比较和筛选
(
短句中错误词较少
),
尽可能达到或接近
原句所表示的含义
,
从而降低语音识别错误对长度较
小句子的翻译产生的较严重影响
(
.
而对于长度较大
来对错误词进行纠错
>20
)
的句子
,
可以结合语境
.
,
利用句子的语义信息
图
Fi
g
3
.3
不同长度有错误和无错误句子的翻译性能
T
s
r
e
a
n
n
t
s
e
l
n
a
c
ti
e
o
sw
n
p
i
e
t
r
h
fo
a
r
n
m
dw
an
i
c
t
e
h
o
o
f
ut
di
e
f
r
f
r
e
o
r
r
e
s
ntlen
g
th
.2.4
错误词对其他词翻译的影响
统计翻译受错误词汇影响的正常词汇与错误词
汇的平面与结构距离区间均为
htt
p
:
∥
j
x
1
m
~
表
u
5
.
.
xm
4
给出了一个
3
2
2
·
686
·
厦门大学学报
(
自然科学版
)
2022
年
“
原句及其语音识别结果的翻译举例
.
在该例中
,
由于
“
伤愈
“
复出
”
乔丹
”
一词的识别错误
复出
”
,
,
对与其平面距离为
、
1
的词
的翻译均产生了影响
平面距离为
2
的词
“
最早
”
平面距离为
3
的词
”
的翻译产生了影响
.
;
对与其结构距离为
1
的
词
“
表
Tab.4 T
4
原句与语音识别结果的翻译举例
ra
s
n
p
s
e
l
e
a
c
ti
h
o
r
n
e
e
co
xa
g
n
m
it
p
i
l
o
e
n
sofanin
p
utandits
类型
out
p
ut
举例
原句及翻译
(
已分词
)
i
J
乔丹
n
o
j
r
u
d
r
a
y
nt
最早
as
o
ea
c
周日
rl
o
y
m
a
e
伤愈
s
b
S
a
u
c
n
kf
复出
da
y
ro
.
m
.
hisrecover
y
of
语音识别乔丹最早周日商誉复出
结果及翻
译
(
已分词
)
Jordan