虚拟数字人智能语音交互控制技术简述-USB迷|专注于互联网分享

2024年10月13日发(作者：李又香)

Research and Exploration

研究与探索

·智能制造与趋势

虚拟数字人智能语音交互控制技术简述

李雪骜

（中海油信息科技有限公司天津分公司，天津 300450）

摘要：

随着数字化转型和人工智能技术的不断发展，虚拟数字人在各个领域的应用越来越广泛。本文以国有企业为例，探讨虚拟数

字人在企业中的应用及其优势。通过关键技术分析和论证，进一步挖掘虚拟数字人技术的应用场景和价值，为企业带来更多的商业机会和

竞争优势。

关键词：

虚拟数字人；数字化转型；NLP自然语言理解；语音交互；语音智控

中图分类号：

TN912

文献标识码：

文章编号：

1671-0711（2023）12（上）-0028-03

1 研究背景及意义

数字化时代下，组织成员的角色和职能已经发生改

变。随着数字技术的不断成熟和应用，数字员工逐渐进

入了人们的视野，并不断应用于各个领域和行业。未来，

人机共生，大量数字员工的应用将成为常态。这也促使

组织管理不断进化，员工能力不断跃升。2021年，虚拟

数字技术被纳入“十四五”规划纲要。在数实融合的趋

势下，科技企业以技术进步推动应用创新，加速数字人

的场景化应用落地。随着NLP、ASR、TTS等技术的高速发展，

数字员工技术正是聚合这些技术的典型应用之一，通过

AI技术的赋能，能让数字员工建立与真实世界的感知、

连接、交互，真正做到服务型数字劳动生产力，让传统

劳动力从烦琐和消耗精力的流程性工作中解放出来，专

注创新以及更具价值的活动，这种人类与计算机的交互、

融合、共创，可以充分提升人的潜能，创造更大的价值。

2 虚拟数字人技术概述

2.1 虚拟数字人的技术基础

（1）计算机图形学。虚拟数字人需要具有逼真的

外观和动作，因此计算机图形学是其技术基础之一。计

※

实验时间

2022-12-15 09：00

2022-12-15 10：00

2022-12-15 11：00

2022-12-15 12：00

2022-12-15 13：00

2022-12-15 14：00

2022-12-15 15：00

2022-12-15 16：00

2022-12-15 17：00

2022-12-15 18：00

表1 故障隔离数据统计表

传统方法

隔离效率

隔离数

1835

所提方法

隔离效率

隔离数

4079

100

算机图形学可以通过三维建模、纹理映射等技术，实现

虚拟数字人的外观设计和动画效果。通过图像处理和模

式识别等方法，实现对虚拟人物的面部表情、动作和

姿态等方面的模拟。

（2）语音合成技术。虚拟数字人需要能够发出自

然流畅的声音，因此，语音合成技术是其重要组成部分。

语音合成技术可以将文本转换为声音信号，使得虚拟数

字人能够像真正的人类一样说话。主要分为语言分析部

分和声学系统部分，也称为前端部分和后端部分。语

言分析部分主要是根据输入的文字进行分析，提取出

其中的语法、词汇等信息；而声学系统部分则是将这

些信息转换成声音信号。

（3）自然语言处理技术。虚拟数字人需要能够理

解人类的语言，并做出相应的回应。自然语言处理技术

可以分析人类语言的语义和语法，从而实现虚拟数字人

的智能交互。

（4）机器学习和人工智能技术。虚拟数字人需要

具备一定的智能和学习能力，以便更好地适应不同的场

景和需求。机器学习和人工智能技术可以通过数据训练

路段依然可以正常运行，无须大规模停电，保证了人们

用电的需求，同时也能够尽快将故障隔离，在较短时间

内实现故障点供电。所以，为了能够将配电网自动化、

智能化水平大幅度提高，就要不断强化智能配电网故障

的快速识别、定位，采用有效的方法进行处理，确保智

能配电网高效安全地运行。

参考文献：

[1]王

赟

.智能配电网故障自愈技术的应用[J].光源与照明，

2022(9):193-195.

[2]邰彬,王朋,赵伟.分布式电源网损约束下智能配电网故障定位

方法研究[J].电子设计工程,2020,28(8):145-149.

[3]欧阳卫年,谭振鹏,李响.基于粒子群算法的智能配电网故障自

愈控制[J].信息技术,2020,44(12):134-138.

[4]刘兵.物联网技术在智能配电网故障定位中的应用[J].现代信

息科技,2020,4(13):177-179.

[5]林江龙.智能配电网故障定位与隔离方法研究[J].低碳世界，

2019,9(12):74-76.

能够在很大程度上确保配电网运行更加稳定、更加安全，

通过采取切实可行的方法将故障区域开关快速断开，同

时将其他线路环网开关闭合，进而保证未出现故障的线

中国设备工程 2023.12 （上）

和模型优化，提高虚拟数字人的智能水平和交互效果。

通过对大量数据的学习，让虚拟人物能够自主学习和

适应不同的场景。

（5）语音驱动口唇技术。数字人形象依托语音驱动，

鉴于语音与口唇动作有强相关性，对此设计语音特征抽

取以及口唇系数预测模块。语音特征抽取网络，抽取语

音高阶特征，捕说话人的共性信息；基于提取到的高阶

语音特征映射到口唇相关系数网络，基于拟合的口唇相

关系数，可良好地控制头部运动和嘴型等相关信息。

（6）传感器技术和物联网技术。虚拟数字人可以

通过传感器技术和物联网技术获取外部环境的信息，并

作出相应的反应和调整。例如，在客户服务领域，虚拟

数字人可以通过传感器感知用户的位置和姿态，从而提

供更加个性化的服务。

2.2 虚拟数字人的特点和优势

（1）高度可定制化。虚拟数字人可以通过计算机

技术和人工智能技术进行个性化定制，从而满足不同用

户的需求和喜好。

（2）24小时不间断服务。虚拟数字人可以全天候、

全年无休地提供服务，不会受到时间和空间的限制。

（3）高效便捷。虚拟数字人可以快速响应用户的

请求，提高服务效率，减少人力成本和时间成本。

（4）智能交互。虚拟数字人可以通过自然语言处

理技术和机器学习技术实现智能交互，能够理解人类的

语言和意图，并做出相应的回应。

（5）可扩展性强。虚拟数字人可以通过添加新的组

件和技术进行扩展和升级，不断提高其性能和服务水平。

（6）应用场景广泛。虚拟数字人可以应用于多个

领域，如客户服务、教育、医疗、娱乐等，具有非常广

泛的应用前景和发展空间。

3 智能语音交互

3.1 系统架构

系统由前端、服务端和管理端组成。

（1）前端包括。智能语音辅助客户端和chrome浏

览器插件。采集客户语音输入发送到服务端进行转写和

语义解析，同时根据语义解析结果执行指令，控制终端

设备显示和语音播报。客户端支持windows以及Chrome

浏览器操作。

（2）服务端提供。语音识别服务、语音合成服务和

语义理解服务。支持用户级、终端级智控方案配置，即智

控内容和指令配置。系统预置通用方案，用户可按需定制

专属智控方案。知识库支持闲聊、知识问答等知识配置。

（3）管理端主要包括演示管理和词库配置功能。

演示管理用来设置和演示相关的清单、指令等信息，支

持人工演示指令、录音演示指令、扩展指令和播报内容

配置；词库配置用来管理专有名词和同义词。

3.2 系统流程

3.2.1 整体流程

客户端采集并识别真人语音输入对终端设备进行操

中国设备工程

China Plant

Engineering

控，并支持播放场景智控录音实现自动解说与终端操控。

3.2.2 语音指令解析流程

语音指令的解析流程是语音智控系统中最重要的流

程。为保障系统的智能交互效果，语音智控系统采用了

4种方法支撑智能交互过程。

（1）关键词匹配。分析文本中的关键词及其同义词，

从语音智控系统的管理后台的语音指令库中匹配相关的

指令。

（2）知识库查询。对接智能知识库（XK语言模型库），

从知识库中匹配知识点，获取答案并返回。

（3）语义解析。集成语义理解引擎，通过语义解

析流程获取用户的真实意图，匹配知识点，最终获取答

案并返回，支持多轮对话。

（4）AIUI人工智能服务。对接在线人工智能交互

服务接口（即AIUI服务）。AIUI提供通用场景下以自

然语言理解为核心的全链路人机交互服务，使语音智控

系统不需要后台配置即可实现闲聊、查询天气、播放音

视频资源等语音交互过程。

3.3 核心技术简述

本系统采用JAVAEE技术体系进行研发，采用的开

发框架为struts2+spring+hibernate。软件基于组件

开发，通过相关的类和文件组装成 JavaEE应用程序，

与其他组件相交互，代码重复减少，重用率高。有利于

良好的分工与协作，实现并行开发。系统使用三层结构

开发，层与数据访问层相互独立，方便扩充表示层，具

有良好可扩展性。

JavaEE的技术结构分为三层，分别是表示层、中间

层、数据层。表示层技术是在JSP页面中用HTML标签、

JavaScript脚本、Ajax。需要注意的是，Ajax并不是

一种技术，而是几种技术的整合。它采用异步请求的方

式，主要功能是向服务器端发送请求，处理数据或者根

据返回的数据重新显示页面。中间层技术主要是JSP、

Servlet、JSTL、JavaBean、Struts框架。其中JSP是

显示动态内容的服务器网页，Servlet是接收客户端的

请求并作出响应，JSTL是帮助JSP显示动态内容的标准

标签库，JavaBean是JavaEE的模型组件。数据层技术

用的是JDBC、JNDI、Hibernate框架。其中，JDBC是

传统的数据库连接方式，JNDI和Hibernate只是扩展

了功能，并没有完全替代了JDBC。现在流行的是关系型

的数据库，我们所用的大多数都是，如SQL Server、

Oracle、MySQL等，Hibernate框架技术是以对象的方

式操作关系型的数据库，以减少内存的使用。

本系统主要涉及语音识别、语义理解、语音合成等

三项技术。

3.3.1 语音识别技术

系统具备非特定人连续语音识别能力，能够自动识

别用户语音并转换为文字或语义。语音识别支持端点检

测、智能打断，能够识别带方言口音的普通话，并具备

对国内各主要方言的识别能力。标准普通话的语音识别

中国设备工程 2023.12 （上）

Research and Exploration

研究与探索

·智能制造与趋势

准确率90%以上。

语音识别能力可正确识别客户语音并理解意思，完

成人机对话咨询和业务等相关操作，并且是一款与说

话人无关的语音识别系统，该产品具备优秀的识别率，

产品核心技术上达到了国际领先水平。针对语音识别

应用中面临的方言口音、背景噪声等问题，基于实际

业务系统中所收集的涵盖不同方言和不同类型背景噪

声的海量语音数据，通过先进的区分性训练方法进行

语音建模，使语音识别在复杂应用环境下均有良好的

效果表现。

3.3.2 语音合成服务

系统提供语音合成，即能够将任意文字内容实时转

换为清晰、流畅、自然的语音。语音合成支持中文普通话，

提供符合机器人定位的音色。语音合成自然度4.0分及

以上。

语音合成（Text-To-Speech），又称为文语转化，

是将文本信息转化为语音数据的技术，涉及声学、语言

学、数字信号处理、多媒体等多种前沿的高新科技，是

中文信息处理领域的一项前沿技术。

语音合成系统的合成引擎在完成文本到语音数据的

转化过程中可以简单分解为两个步骤的处理。文本先经

过前端的语法分析，通过词典和规则的处理，得到格式

规范，携带语法层次的信息，传送到后端。后端在前端

分析的结果基础上，经过韵律方面的分析处理，得到语

音的时长、音高等韵律信息，再根据这些信息在音库中

挑选最合适的语音单元，语音单元再经过调整和拼接，

就能得到最终的语音数据。

3.3.3 语义理解服务

自然语言理解服务，理解客户说话内容并解析除对

应指令，以控制终端设备显示及操作。能理解口语化表

达的自然语言话术，能有效地理解查询中的模糊词语、

别名、简称、俗称、错别字等。分词和句式识别是自然

语言理解的基础，通过将用户完整的表述转换成相应的

关键词，并通过语意获取相关的语义，最后通过内容查

询到相关答案，影响分词效果的好坏主要在于词典的覆

盖程度和分词的方法。

具备完善的通用词典和通信行业应用词典，覆盖到

日常生活语言中的99%以上的词条，拥有专业、准确通

信行业内容储备。

具有性能优异的快速分词匹配算法，对于中文而言，

存在一个分词算法的问题，因为中文在书写的时候并没

有像英文那样以空格隔开一个个的词，而且，也没有统

一的中文词典。不同的分词词典导致不同的分词结果，

而不同的分词结果必然对应不同的搜索关键词候选，对

最终搜索性能产生重要的影响。主要具有以下特点。

（1）超大规模的词典。词典规模已经达到：中文

24万、英文12万。同时，由于互联网时代的到来，各

种新词、热词不断涌现，词典还在不断的发展中，主要

采用自动统计的方法发现新词、热词，然后人工确认之

中国设备工程 2023.12 （上）

后才加入到词典中。这样一个超大规模的词典已经能够

覆盖到日常生活语言中的99%以上的词条。并且拥有专

业、准确的行业内容储备。

（2）性能优异的快速分词匹配算法。对于中文而言，

存在一个分词算法的问题，因为中文在书写的时候并没

有像英文那样以空格隔开一个个的词，而且，也没有统

一的中文词典。如“小花”，既可以是一个词，也可以

算是“小”和“花”两个词，类似的还有许多许多，如“囚

衣”“千米”等。不同的分词词典导致不同的分词结果，

而不同的分词结果必然对应不同的搜索关键词候选，对

最终搜索性能产生重要的影响。直观上，采用大的词典

使得分词结果具有较大的粒度，因此词语共现次数减少，

同时也会使得结果中的每个词具有更明确的语义，也因

此可以避免一些无关的共现，起到一定的语义消歧作作

用，而采用小的词典则正好相反。

根据在中文语音合成系统研究中分词算法的研究经

验，采用了较为常规但相当有效的分词算法，具体算法

分为两步。

首先，在给定词典的基础上，分别基于前向和后向

最长匹配分词算法构建分词网格，统计说明这样构建的

分词网格对正确分词路径的覆盖率达到99.5%以上。

然后，以公式所示的词频连乘积最大为搜索目标，

引入Viterbi算法，从网格中搜索出最佳分词路径输出。

该分词算法能够较好地做到分词正确率和分词效率

的平衡，在固定分词词典的情况下，此分词算法能比仅

前向或者后向的分词算法有较为明显的提高。

前后向最大匹配算法后，我们做了分词歧义处理来

进一步提升分词的精度，采用了规则来处理，规则库中

含有数千条不同歧义的规则处理定义。具体来说，分词

歧义主要解决“复合肥”“和服务”之类的问题，以提

高分词的精度。

4 技术价值

结合NLP、ASR等技术，通过ASR-NLP-TTS实现文

本驱动，通过预先设置的知识图谱、语言模型、知识问

答库等与数字人你对话系统进行对接，从而实现虚拟数

字人从感知阶段到表达阶段的闭环驱动。依靠智能语音

交互控制技术，与业务系统结合，将系统操作简单化、

界面菜单扁平化。

通过创新性的数字员工形象，提供基于语音对话、

触控点选为一体的多模态虚拟交互服务，解决了真人服

务成本高、效率低等问题，为企业数字化转型提供有力

抓手。所以，数字人作为企业的一种数字生产力，是企

业降本增效、数智化转型不可或缺的生产工具，是多重

技术融合应用创造出的新型技术。利用虚拟形象资产，

以应用场景为中心持续创新，进一步巩固企业的数字化

业务能力，为企业探索组织发展、创新增效提供了全新

的视角。

2024年10月13日发(作者：李又香)

Research and Exploration

研究与探索

·智能制造与趋势

虚拟数字人智能语音交互控制技术简述

李雪骜

（中海油信息科技有限公司天津分公司，天津 300450）

摘要：

随着数字化转型和人工智能技术的不断发展，虚拟数字人在各个领域的应用越来越广泛。本文以国有企业为例，探讨虚拟数

字人在企业中的应用及其优势。通过关键技术分析和论证，进一步挖掘虚拟数字人技术的应用场景和价值，为企业带来更多的商业机会和

竞争优势。

关键词：

虚拟数字人；数字化转型；NLP自然语言理解；语音交互；语音智控

中图分类号：

TN912

文献标识码：

文章编号：

1671-0711（2023）12（上）-0028-03

1 研究背景及意义

数字化时代下，组织成员的角色和职能已经发生改

变。随着数字技术的不断成熟和应用，数字员工逐渐进

入了人们的视野，并不断应用于各个领域和行业。未来，

人机共生，大量数字员工的应用将成为常态。这也促使

组织管理不断进化，员工能力不断跃升。2021年，虚拟

数字技术被纳入“十四五”规划纲要。在数实融合的趋

势下，科技企业以技术进步推动应用创新，加速数字人

的场景化应用落地。随着NLP、ASR、TTS等技术的高速发展，

数字员工技术正是聚合这些技术的典型应用之一，通过

AI技术的赋能，能让数字员工建立与真实世界的感知、

连接、交互，真正做到服务型数字劳动生产力，让传统

劳动力从烦琐和消耗精力的流程性工作中解放出来，专

注创新以及更具价值的活动，这种人类与计算机的交互、

融合、共创，可以充分提升人的潜能，创造更大的价值。

2 虚拟数字人技术概述

2.1 虚拟数字人的技术基础

（1）计算机图形学。虚拟数字人需要具有逼真的

外观和动作，因此计算机图形学是其技术基础之一。计

※

实验时间

2022-12-15 09：00

2022-12-15 10：00

2022-12-15 11：00

2022-12-15 12：00

2022-12-15 13：00

2022-12-15 14：00

2022-12-15 15：00

2022-12-15 16：00

2022-12-15 17：00

2022-12-15 18：00

表1 故障隔离数据统计表

传统方法

隔离效率

隔离数

1835

所提方法

隔离效率

隔离数

4079

100

算机图形学可以通过三维建模、纹理映射等技术，实现

虚拟数字人的外观设计和动画效果。通过图像处理和模

式识别等方法，实现对虚拟人物的面部表情、动作和

姿态等方面的模拟。

（2）语音合成技术。虚拟数字人需要能够发出自

然流畅的声音，因此，语音合成技术是其重要组成部分。

语音合成技术可以将文本转换为声音信号，使得虚拟数

字人能够像真正的人类一样说话。主要分为语言分析部

分和声学系统部分，也称为前端部分和后端部分。语

言分析部分主要是根据输入的文字进行分析，提取出

其中的语法、词汇等信息；而声学系统部分则是将这

些信息转换成声音信号。

（3）自然语言处理技术。虚拟数字人需要能够理

解人类的语言，并做出相应的回应。自然语言处理技术

可以分析人类语言的语义和语法，从而实现虚拟数字人

的智能交互。

（4）机器学习和人工智能技术。虚拟数字人需要

具备一定的智能和学习能力，以便更好地适应不同的场

景和需求。机器学习和人工智能技术可以通过数据训练

路段依然可以正常运行，无须大规模停电，保证了人们

用电的需求，同时也能够尽快将故障隔离，在较短时间

内实现故障点供电。所以，为了能够将配电网自动化、

智能化水平大幅度提高，就要不断强化智能配电网故障

的快速识别、定位，采用有效的方法进行处理，确保智

能配电网高效安全地运行。

参考文献：

[1]王

赟

.智能配电网故障自愈技术的应用[J].光源与照明，

2022(9):193-195.

[2]邰彬,王朋,赵伟.分布式电源网损约束下智能配电网故障定位

方法研究[J].电子设计工程,2020,28(8):145-149.

[3]欧阳卫年,谭振鹏,李响.基于粒子群算法的智能配电网故障自

愈控制[J].信息技术,2020,44(12):134-138.

[4]刘兵.物联网技术在智能配电网故障定位中的应用[J].现代信

息科技,2020,4(13):177-179.

[5]林江龙.智能配电网故障定位与隔离方法研究[J].低碳世界，

2019,9(12):74-76.

能够在很大程度上确保配电网运行更加稳定、更加安全，

通过采取切实可行的方法将故障区域开关快速断开，同

时将其他线路环网开关闭合，进而保证未出现故障的线

中国设备工程 2023.12 （上）

和模型优化，提高虚拟数字人的智能水平和交互效果。

通过对大量数据的学习，让虚拟人物能够自主学习和

适应不同的场景。

（5）语音驱动口唇技术。数字人形象依托语音驱动，

鉴于语音与口唇动作有强相关性，对此设计语音特征抽

取以及口唇系数预测模块。语音特征抽取网络，抽取语

音高阶特征，捕说话人的共性信息；基于提取到的高阶

语音特征映射到口唇相关系数网络，基于拟合的口唇相

关系数，可良好地控制头部运动和嘴型等相关信息。

（6）传感器技术和物联网技术。虚拟数字人可以

通过传感器技术和物联网技术获取外部环境的信息，并

作出相应的反应和调整。例如，在客户服务领域，虚拟

数字人可以通过传感器感知用户的位置和姿态，从而提

供更加个性化的服务。

2.2 虚拟数字人的特点和优势

（1）高度可定制化。虚拟数字人可以通过计算机

技术和人工智能技术进行个性化定制，从而满足不同用

户的需求和喜好。

（2）24小时不间断服务。虚拟数字人可以全天候、

全年无休地提供服务，不会受到时间和空间的限制。

（3）高效便捷。虚拟数字人可以快速响应用户的

请求，提高服务效率，减少人力成本和时间成本。

（4）智能交互。虚拟数字人可以通过自然语言处

理技术和机器学习技术实现智能交互，能够理解人类的

语言和意图，并做出相应的回应。

（5）可扩展性强。虚拟数字人可以通过添加新的组

件和技术进行扩展和升级，不断提高其性能和服务水平。

（6）应用场景广泛。虚拟数字人可以应用于多个

领域，如客户服务、教育、医疗、娱乐等，具有非常广

泛的应用前景和发展空间。

3 智能语音交互

3.1 系统架构

系统由前端、服务端和管理端组成。

（1）前端包括。智能语音辅助客户端和chrome浏

览器插件。采集客户语音输入发送到服务端进行转写和

语义解析，同时根据语义解析结果执行指令，控制终端

设备显示和语音播报。客户端支持windows以及Chrome

浏览器操作。

（2）服务端提供。语音识别服务、语音合成服务和

语义理解服务。支持用户级、终端级智控方案配置，即智

控内容和指令配置。系统预置通用方案，用户可按需定制

专属智控方案。知识库支持闲聊、知识问答等知识配置。

（3）管理端主要包括演示管理和词库配置功能。

演示管理用来设置和演示相关的清单、指令等信息，支

持人工演示指令、录音演示指令、扩展指令和播报内容

配置；词库配置用来管理专有名词和同义词。

3.2 系统流程

3.2.1 整体流程

客户端采集并识别真人语音输入对终端设备进行操

中国设备工程

China Plant

Engineering

控，并支持播放场景智控录音实现自动解说与终端操控。

3.2.2 语音指令解析流程

语音指令的解析流程是语音智控系统中最重要的流

程。为保障系统的智能交互效果，语音智控系统采用了

4种方法支撑智能交互过程。

（1）关键词匹配。分析文本中的关键词及其同义词，

从语音智控系统的管理后台的语音指令库中匹配相关的

指令。

（2）知识库查询。对接智能知识库（XK语言模型库），

从知识库中匹配知识点，获取答案并返回。

（3）语义解析。集成语义理解引擎，通过语义解

析流程获取用户的真实意图，匹配知识点，最终获取答

案并返回，支持多轮对话。

（4）AIUI人工智能服务。对接在线人工智能交互

服务接口（即AIUI服务）。AIUI提供通用场景下以自

然语言理解为核心的全链路人机交互服务，使语音智控

系统不需要后台配置即可实现闲聊、查询天气、播放音

视频资源等语音交互过程。

3.3 核心技术简述

本系统采用JAVAEE技术体系进行研发，采用的开

发框架为struts2+spring+hibernate。软件基于组件

开发，通过相关的类和文件组装成 JavaEE应用程序，

与其他组件相交互，代码重复减少，重用率高。有利于

良好的分工与协作，实现并行开发。系统使用三层结构

开发，层与数据访问层相互独立，方便扩充表示层，具

有良好可扩展性。

JavaEE的技术结构分为三层，分别是表示层、中间

层、数据层。表示层技术是在JSP页面中用HTML标签、

JavaScript脚本、Ajax。需要注意的是，Ajax并不是

一种技术，而是几种技术的整合。它采用异步请求的方

式，主要功能是向服务器端发送请求，处理数据或者根

据返回的数据重新显示页面。中间层技术主要是JSP、

Servlet、JSTL、JavaBean、Struts框架。其中JSP是

显示动态内容的服务器网页，Servlet是接收客户端的

请求并作出响应，JSTL是帮助JSP显示动态内容的标准

标签库，JavaBean是JavaEE的模型组件。数据层技术

用的是JDBC、JNDI、Hibernate框架。其中，JDBC是

传统的数据库连接方式，JNDI和Hibernate只是扩展

了功能，并没有完全替代了JDBC。现在流行的是关系型

的数据库，我们所用的大多数都是，如SQL Server、

Oracle、MySQL等，Hibernate框架技术是以对象的方

式操作关系型的数据库，以减少内存的使用。

本系统主要涉及语音识别、语义理解、语音合成等

三项技术。

3.3.1 语音识别技术

系统具备非特定人连续语音识别能力，能够自动识

别用户语音并转换为文字或语义。语音识别支持端点检

测、智能打断，能够识别带方言口音的普通话，并具备

对国内各主要方言的识别能力。标准普通话的语音识别

中国设备工程 2023.12 （上）

Research and Exploration

研究与探索

·智能制造与趋势

准确率90%以上。

语音识别能力可正确识别客户语音并理解意思，完

成人机对话咨询和业务等相关操作，并且是一款与说

话人无关的语音识别系统，该产品具备优秀的识别率，

产品核心技术上达到了国际领先水平。针对语音识别

应用中面临的方言口音、背景噪声等问题，基于实际

业务系统中所收集的涵盖不同方言和不同类型背景噪

声的海量语音数据，通过先进的区分性训练方法进行

语音建模，使语音识别在复杂应用环境下均有良好的

效果表现。

3.3.2 语音合成服务

系统提供语音合成，即能够将任意文字内容实时转

换为清晰、流畅、自然的语音。语音合成支持中文普通话，

提供符合机器人定位的音色。语音合成自然度4.0分及

以上。

语音合成（Text-To-Speech），又称为文语转化，

是将文本信息转化为语音数据的技术，涉及声学、语言

学、数字信号处理、多媒体等多种前沿的高新科技，是

中文信息处理领域的一项前沿技术。

语音合成系统的合成引擎在完成文本到语音数据的

转化过程中可以简单分解为两个步骤的处理。文本先经

过前端的语法分析，通过词典和规则的处理，得到格式

规范，携带语法层次的信息，传送到后端。后端在前端

分析的结果基础上，经过韵律方面的分析处理，得到语

音的时长、音高等韵律信息，再根据这些信息在音库中

挑选最合适的语音单元，语音单元再经过调整和拼接，

就能得到最终的语音数据。

3.3.3 语义理解服务

自然语言理解服务，理解客户说话内容并解析除对

应指令，以控制终端设备显示及操作。能理解口语化表

达的自然语言话术，能有效地理解查询中的模糊词语、

别名、简称、俗称、错别字等。分词和句式识别是自然

语言理解的基础，通过将用户完整的表述转换成相应的

关键词，并通过语意获取相关的语义，最后通过内容查

询到相关答案，影响分词效果的好坏主要在于词典的覆

盖程度和分词的方法。

具备完善的通用词典和通信行业应用词典，覆盖到

日常生活语言中的99%以上的词条，拥有专业、准确通

信行业内容储备。

具有性能优异的快速分词匹配算法，对于中文而言，

存在一个分词算法的问题，因为中文在书写的时候并没

有像英文那样以空格隔开一个个的词，而且，也没有统

一的中文词典。不同的分词词典导致不同的分词结果，

而不同的分词结果必然对应不同的搜索关键词候选，对

最终搜索性能产生重要的影响。主要具有以下特点。

（1）超大规模的词典。词典规模已经达到：中文

24万、英文12万。同时，由于互联网时代的到来，各

种新词、热词不断涌现，词典还在不断的发展中，主要

采用自动统计的方法发现新词、热词，然后人工确认之

中国设备工程 2023.12 （上）

后才加入到词典中。这样一个超大规模的词典已经能够

覆盖到日常生活语言中的99%以上的词条。并且拥有专

业、准确的行业内容储备。

（2）性能优异的快速分词匹配算法。对于中文而言，

存在一个分词算法的问题，因为中文在书写的时候并没

有像英文那样以空格隔开一个个的词，而且，也没有统

一的中文词典。如“小花”，既可以是一个词，也可以

算是“小”和“花”两个词，类似的还有许多许多，如“囚

衣”“千米”等。不同的分词词典导致不同的分词结果，

而不同的分词结果必然对应不同的搜索关键词候选，对

最终搜索性能产生重要的影响。直观上，采用大的词典

使得分词结果具有较大的粒度，因此词语共现次数减少，

同时也会使得结果中的每个词具有更明确的语义，也因

此可以避免一些无关的共现，起到一定的语义消歧作作

用，而采用小的词典则正好相反。

根据在中文语音合成系统研究中分词算法的研究经

验，采用了较为常规但相当有效的分词算法，具体算法

分为两步。

首先，在给定词典的基础上，分别基于前向和后向

最长匹配分词算法构建分词网格，统计说明这样构建的

分词网格对正确分词路径的覆盖率达到99.5%以上。

然后，以公式所示的词频连乘积最大为搜索目标，

引入Viterbi算法，从网格中搜索出最佳分词路径输出。

该分词算法能够较好地做到分词正确率和分词效率

的平衡，在固定分词词典的情况下，此分词算法能比仅

前向或者后向的分词算法有较为明显的提高。

前后向最大匹配算法后，我们做了分词歧义处理来

进一步提升分词的精度，采用了规则来处理，规则库中

含有数千条不同歧义的规则处理定义。具体来说，分词

歧义主要解决“复合肥”“和服务”之类的问题，以提

高分词的精度。

4 技术价值

结合NLP、ASR等技术，通过ASR-NLP-TTS实现文

本驱动，通过预先设置的知识图谱、语言模型、知识问

答库等与数字人你对话系统进行对接，从而实现虚拟数

字人从感知阶段到表达阶段的闭环驱动。依靠智能语音

交互控制技术，与业务系统结合，将系统操作简单化、

界面菜单扁平化。

通过创新性的数字员工形象，提供基于语音对话、

触控点选为一体的多模态虚拟交互服务，解决了真人服

务成本高、效率低等问题，为企业数字化转型提供有力

抓手。所以，数字人作为企业的一种数字生产力，是企

业降本增效、数智化转型不可或缺的生产工具，是多重

技术融合应用创造出的新型技术。利用虚拟形象资产，

以应用场景为中心持续创新，进一步巩固企业的数字化

业务能力，为企业探索组织发展、创新增效提供了全新

的视角。

USB迷 | 专注于互联网分享

虚拟数字人智能语音交互控制技术简述

与本文相关的文章

评论列表 (0)