最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

用于在电子装置中执行语音命令的方法和设备

IT圈 admin 37浏览 0评论

2024年4月30日发(作者:公冶子琳)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.5

(22)申请日 2013.05.29

(71)申请人 三星电子株式会社

地址 韩国京畿道水原市

(72)发明人 萨博豪吉特·查克拉德 李相勋 金凞云

(74)专利代理机构 北京铭硕知识产权代理有限公司

代理人 王艳娇

(51)

G10L17/22

G10L15/30

G06F3/01

(10)申请公布号 CN 103456306 A

(43)申请公布日 2013.12.18

权利要求说明书 说明书 幅图

(54)发明名称

用于在电子装置中执行语音命令的

方法和设备

(57)摘要

本发明提供一种用于在电子装置中

执行语音命令的方法和设备。在示例性实

施例中,检测语音信号并识别语音信号的

言语。当识别的言语包含唤醒命令时,语

音命令模式被激活,并且至少包含检测到

的语音信号的一部分的信号被发送到服务

器。服务器产生与语音命令相应的控制信

号或结果信号,并将所述控制信号和结果

信号发送到电子装置。所述装置接收和处

理控制信号或结果信号,并被唤醒。从

而,在不需要用户物理地触摸电子装置的

情况下执行语音命令。

法律状态

法律状态公告日

法律状态信息

法律状态

权 利 要 求 说 明 书

1.一种电子装置中的方法,包括:

检测语音信号并识别语音信号的言语;

当所述言语被识别为包含唤醒命令时,激活语音命令模式并将至少包含

响应于由服务器识别的发送信号之内的语音命令,接收并处理由服务器

2.如权利要求1所述的方法,其中,语音信号包括唤醒命令,其中,唤

3.如权利要求1所述的方法,其中,唤醒命令还包括语音命令。

4.如权利要求2所述的方法,还包括:

确定在唤醒命令和语音命令之间的沉默持续时间。

5.如权利要求1所述的方法,其中,处理控制信号或结果信号的步骤包

醒命令紧接着语音命令。

产生和发送的控制信号或结果信号。

检测到的语音信号的一部分的信号发送到服务器;

括:执行电子装置的特定应用。

6.如权利要求1所述的方法,其中,处理控制信号或结果信号的步骤包

7.如权利要求1所述的方法,还包括:一旦进入语音命令模式,就在指

8.如权利要求7所述的方法,其中,当屏幕在识别言语中的语音命令之

9.如权利要求1所述的方法,其中,只要语音信号的预定说话者被识别,

10.如权利要求9所述的方法,其中,当识别预定说话者的语音时,自

11.如权利要求9所述的方法,其中,当识别预定说话者的语音并且在

动检测唤醒命令。

言语就被识别为包含预定唤醒命令。

前被锁定时,响应于识别的唤醒命令对屏幕进行解锁。

示语音命令模式被激活的显示器上激活对象。

括:显示与所述结果信号相应的数据。

预定说话者的言语之内识别预定唤醒命令时,检测到唤醒命令。

12.如权利要求1所述的方法,其中,在空闲模式下通过电子装置的麦

13.一种用于在电子装置中执行语音命令的方法,包括:

检测包含唤醒命令和语音命令中的至少一个的语音信号;

将所述语音信号发送到服务器;

在接收指示服务器检测到语音信号中的唤醒命令的结果信号时,唤醒电

从服务器接收与语音命令相应的控制信号或结果信号;

处理与语音命令相应的控制信号或结果信号。

14.如权利要求13所述的方法,其中,处理与语音命令相应的控制信号

或结果信号的步骤包括:

子装置;

克风输入语音信号,当在空闲模式下检测到唤醒命令时,语音命令模式被激

活。

根据控制信号控制电子装置的功能或执行电子装置的特定应用。

15.如权利要求13所述的方法,其中,处理与语音命令相应的控制信号

显示与结果信号相应的数据。

16.如权利要求13所述的方法,还包括:

当接收到说话者验证成功消息时,激活用于识别与语音命令相应的第二

17.如权利要求16所述的方法,还包括:

当屏幕被锁定时,对屏幕进行解锁。

18.如权利要求13所述的方法,其中,说话者验证是说话者依赖识别方

19.如权利要求16所述的方法,其中,在空闲模式或锁屏模式下通过电

案或说话者独立识别方案之一。

语音信号的对象。

或结果信号的步骤包括:

子装置的麦克风输入与唤醒命令或语音命令相应的语音信号。

20.一种可在用于支持电子装置的语音命令的服务器中进行操作的方法,

从电子装置接收至少包含语音命令的发送的语音信号;

通过识别和分析所述语音命令来产生与所述语音命令相应的控制信号或

将与第一语音命令相应的控制信号或结果信号发送到电子装置。

21.一种电子装置,包括:

一个或多个处理器;

存储器;

存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程

其中,所述程序包括如下指令:用于检测语音信号并识别语音信号的言

序,

结果信号;

包括:

语的指令,当所述言语被识别为包含唤醒命令时,激活语音命令模式并将至

少包含检测到的语音信号的一部分的发送信号发送到服务器,

并响应于由服 务器识别的发送信号之内的语音命令,接收并处

制信号或结果信号的指令。 理由服务器产生和发送的控

22.一种电子装置,包括:

一个或多个处理器;

存储器;

存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程

其中,所述程序包括如下指令:用于检测包含唤醒命令和语音命令中的

序,

至少一个的语音信号的指令,将所述语音信号发送到服务器的指令,当接收

指示服务器检测到语音信号中的唤醒命令的结果信号时唤醒电

令,从服务器接收与唤醒命令相应的控制信号或结果信

与语音命令相应的控制信号或结果信号的

子装置的指

号的指令,以及处理

指令。

23.一种电子装置,包括:

一个或多个处理器;

存储器;

存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程

其中,所述程序包括以下指令:用于从电子装置接收至少包含语音命令

序,

的发送的语音信号的指令,通过识别和分析所述语音命令产生与所述语音命

制信号或结果

令相应的控制信号或结果信号,并将与第一语音命令相应的控

信号发送到电子装置的指令。

说 明 书

技术领域

本公开总体涉及一种电子装置。更具体地讲,本公开涉及一种用于在电

背景技术

近来,随着多媒体技术已发展,具有多功能的电子装置已激增。这样的

多功能装置的示例包括便携式终端(例如,智能电话、平板PC、智能相机)

以及固定的基于家庭的装置(例如,与家用厨房电器集成的电子装

装置大多包括组合多个功能的汇聚功能。

子装置中执行语音命令的设备和方法。

置)。电子

便携式终端设计者努力实现先进的性能以及汇聚功能,以及装置的纤薄

在可用的各种功能中,最近商业化的装置提供相对高的精确度的语音识

例如,语音识别功能允许用户在便携式终端(例如,智能电话)中无需

为了执行语音识别功能,现有技术驱动相应的语音识别应用,激活语音

识别功能,随后执行相应的功能。

单独的操纵而做出呼叫或编写文本消息,以发送产生的消息,并容易地设置

各种功能(例如,路线规划、互联网搜索和闹铃)。

别功能。这样的语音识别功能精确地识别用户的语音以在没有按压分离的按

钮或触摸键或触摸屏的情况下容易地执行装置的相应功能。

和审美设计作为一体。终端制造者竞争来呈现大致相同或先进的性能,并设

计比先前的设计更小和更薄的新的模型。

然而,为了执行语音识别,响应于分离的键或触摸屏上的触摸输入命令,

语音识别应用被初始启动。此操作违背用于促进数据输入(而没有触摸)的

语音识别的独特功能。另外,开始语音识别应用需要在包括各种应用

显示屏上找出语音识别应用,这在特定情况下可能会困难并且

对象的

费时。

发明内容

公开了一种用于在一种电子装置中执行语音命令的设备和方法的实施

例。在示例性实施例中,检测语音信号并识别语音信号

语包含唤醒命令时,激活语音命令模式,并且至

一部分的信号被发送到服务器。服务器产

果信号,并将所述与语音命令相应

电子装置接收并处理控制信

物理地触摸电子装置

的言语。当识别的言

少包含检测到的语音信号的

生与语音命令相应的控制信号或结

的控制信号或结果信号发送回电子装置。

号或结果信号,并被唤醒。从而,在不需要用户

的情况下执行语音命令。

在各种实施例中:

语音信号可包括唤醒命令,其中,唤醒命令紧接着语音命令。

唤醒命令还可包括语音命令。

可在在唤醒命令和语音命令之间确定沉默持续时间。

处理控制信号或结果信号的步骤可包括执行电子装置的特定应用。

处理控制信号或结果信号的步骤可包括显示与所述结果信号相应的数

据。

一旦激活语音命令模式,就可在指示语音命令模式被激活的显示器上激

当在言语中的唤醒命令被识别之前屏幕被锁定时,可响应于识别的唤醒

只要语音信号的预定说话者被识别,言语可被识别为包含预定唤醒命令。

可选择地,当识别预定说话者的语音并且在预定说话者的言语之内识别

预定唤醒命令时,可检测到唤醒命令。在另一实施例中,一种用于在电子装

置中执行语音命令的方法,包括:检测包含唤醒命令和语音命令中的

个的语音信号;将所述语音信号发送到服务器;在接收指示服

音信号中的唤醒命令的结果信号时,唤醒电子装置;从

令相应的控制信号或结果信号;处理所述与语音

信号。

当预定说话者的语音被识别时,可自动检测唤醒命令。

命令对屏幕进行解锁。

活对象。

至少一

务器检测到语

服务器接收与语音命

命令相应的控制信号或结果

在实施例中,一种可在用于支持电子装置的语音命令的服务器中进行操

在实施例中,一种电子装置包括:一个或多个处理器;存储器;存储在

作的方法,包括:从电子装置接收至少包含语音命令的发送的语音信号;

通过识别和分析所述语音命令来产生与所述语音命令相应的控制信号或结果

信号;将与第一语音命令相应的控制信号或结果信号发送到电子装置。

存储器中并被配置为被一个或多个处理器执行的一个或

述程序包括用于检测语音信号并识别语音信号的多个程序,其中,所

言语的指令;当所述言语被 识别为包含唤醒命令时,激活语音命令模

的部分的发送信号发送到服务器;

音命令,接收并处理由服务

式并将至少包含检测到的语音信号

响应于由服务器识别的发送信号之内的语

器产生和发送的控制信号或结果信号。

根据本发明的另一方面,通过下面结合附图公开本发明的示例性实施例

附图说明

从以下结合附图进行的描述,本发明的特定示例性实施例的上述和其它

图1A是根据本发明的示例性实施例的用于执行语音命令的电子装置的

图1B是根据实施例的用于执行语音命令的系统的示图;

图2是根据本发明的一个示例性实施例的用于在电子装置中执行唤醒命

图3是根据本发明的一个示例性实施例的可在服务器中进行操作的方法

图4是根据本发明的另一示例性实施例的用于在电子装置中执行语音命

图5是根据本发明的另一示例性实施例的可在服务器中进行操作的另一

令的方法的流程图;

的流程图;

令和语音命令的方法的流程图;

框图;

方面、特点和优点将会变得更加清楚,其中:

的详细描述,本发明的其他方面、优点和突出特点对本领域的技术人员会变

得清楚。

方法的流程图;

图6是根据本发明的另一示例性实施例的用于在电子装置中执行语音命

图7示出根据本发明的实施例的包括可检测到和识别的唤醒命令和语音

图8A、图8B和图8C示出根据本发明的示例性实施例的基于包括唤醒命

图9A和图9B描绘根据本发明的示例性实施例的用于示出通过唤醒命令

贯穿附图,相同的标号将被理解为指示相同的部件、组件和结构。

具体实施方式

提供以下参照附图进行的描述以帮助全面理解由权利要求及其等同物限

定的本发明的示例性实施例。所述描述包括各种特定细节来帮助理解,但是

这些细节将被认为仅仅是示例性的。因此,本领域的普通技术人员将

在不脱离本发明的范围和精神的情况下,可对在此描述的实施

变和修改。另外,为了清楚和简明,可省略对公知功能

检测解锁的屏幕的屏幕截图。

令和语音命令的语音信号的拨号;

命令的语音信号;

令的方法的流程图;

认识到,

例进行各种改

和构造的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义,而是仅被发

明人使用以使得能够清楚和一致地理解本发明。因此,本领域的技术人员应

清楚,提供下面对本发明的示例性实施例的描述仅是为了说明目的,

而不是

为了限制由所附权利要求及其等同物限定的本发明的目的。

应该理解,除非上下文清楚地另有指示,否则单数形式包括复数指示物。

对于术语“大体上”,它意味着叙述的特征、参数或值不需要精确达到,

而是,包括例如公差、测量误差、测量精度限制和对本领域技术人员已知的

其他因素的偏差或变化可以以不妨碍所述特征意图提供的效果的量而

因此,例如,提到“组件表面”包括提到一个或多个这样的表面。

发生。

本发明的示例性实施例提供一种用于在电子装置和服务器中执行语音命

图1A描绘根据本发明的示例性实施例的用于执行语音命令的电子装置

100。电子装置100可以是各种固定或便携式装置中的任意一个。便携式装

可以是便携式终端、移动终端、移动平板电脑、移动播放器、平板计

智能电话、笔记本/台式计算机、个人数字助理(PDA)、智

置可以是组合这些装置的两个或多个功能的便携式电子

的示例是连接到家用电器(例如,厨房电器)的

令的设备和方法。

算机、

能相机等。电子装

装置。固定电子装置

电子显示装置。

电子装置100可包括控制器110、扬声器/麦克风112、相机120、全球

简单地说,根据本发明的实施例,装置100检测语音信号并识别言语。

当所述言语被识别为包含唤醒命令时,装置100激活语音命令模式。在语音

定位系统(GPS)接收器130、射频(RF)单元140、传感器模块150、触摸屏

160、触摸屏控制器165和外部存储器170。

命令模式下,装置100能够响应于随后的语音命令。因此,如果装置处于锁

屏状态或空闲状态(或条件允许的情况下处于这

过唤醒命令识别被唤醒,而不需要用户物

一旦检测到唤醒命令,就执行言语

果识别出语音命令,则装置

两种状态),则装置100可通

理地触摸装置100上的键或触摸屏。

识别处理以辨别是否已发出语音命令。如

100可随后执行与所述命令相关的操作。

在一个实施例中,在装置100中执行唤醒命令检测和语音命令检测两者。

控制器100可包括接口101、一个或多个处理器102和103以及内部存

储器104。在一些情况下,整个控制器110可被称为处理器。接口101、应

处理器102、通信处理器103和内部存储器104可以是单独的组件或

在一个或多个集成电路上。

在另一个实施例中,在装置100中执行唤醒命令检测,并在服务器中执行语

音命令识别,接着将来自装置100的语音信号的一部分发送到服务器。在另

一个实施例中,在服务器中执行唤醒命令检测和语音命令识别两者。

被集成

应用处理器102通过运行各种软件程序来执行用于电子装置的各种功

信处理器103处理并控制语音通信和数据通信。除这些典型的功能之

理器102和103还执行存储在外部存储器170或内部存储器104中的

软件模块(指令集),并进行与所述模块相应的特定功能。即,处理器

根据本发明的一个示例性实施例(与图2的方法相应),应用处理器102

能,通

外,处

特定的

102和103执行与存储在外部存储器170或内部存储器104中的软件模块相

关的本发明的方法。

通过麦克风110从用户接收包括唤醒命令和随后的语音命令的语音信号,并

对所述语音信号执行言语识别,以检测唤醒命令的存在。当检测到唤醒命令

时,应用处理器102可检测在语音信号中的唤醒命令和随后的语音命

的沉默持续时间。因此,应用处理器102确定与语音命令相应

一部分是否开始,当确定与语音命令相应的语音信号的

处理器102将所述语音信号的一部分发送到服务

从服务器接收与所述语音命令相应的语音

的操作。

令之间

的语音信号的

一部分开始时,应用

器。接下来,应用处理器102

识别结果,并基于此结果执行相应

根据本发明的另一示例性实施例(与图4的方法相应),应用处理器102

将包括唤醒命令部分和语音命令部分的所有语音信号发送到服务器,并从服

务器接收与唤醒命令相应的说话者验证结果。当所述结果指示检测到

令时,应用处理器102激活系统。接下来,应用处理器102接

相应的语音识别结果,并基

唤醒命

收与语音命令

于所述语音识别结果执行操作。

根据本发明的另一示例性实施例(与图6的方法相应),应用处理器102

一个或多个语音识别处理器和说话者验证处理器可以是应用处理器102

的一部分,或可被提供为单独的处理器。语音识别处理器和说话者验证处理

器可被统一,并包括根据其实施方式用于不同的功能的多个处理器。

将电子装置100的触摸屏控制器165与外部存储器170或内部

互连接。

通过麦克风110从用户接收包括唤醒命令和语音命令的语音信号,并使用言

语识别执行唤醒命令检测。当检测到唤醒命令时,应用处理器102使用语音

识别算法识别语音信号的随后的部分中的语音命令,并基于识别的语音命令

执行相应的操作。

接口101

存储器104相

传感器模块150被连接到接口101以允许各种功能。例如,运动传感器

和光学传感器可被连接到接口101以检测电子装置的运动或检测来自外部的

光。除了这些之外,其它传感器(例如,位置确定系统、温度传感器或生物

识别传感器)可被连接到接口101以进行相关的功能。

相机120通过接口101被连接到传感器150以执行相机功能(例如,拍

可包括至少一个处理器的RF单元140执行通信功能。例如,在通信处理

器103的控制下,RF单元140将RF信号转换为基带信号,并将基带信号提

供给通信处理器103,或者将从通信处理器103输出的基带信号转换为RF

号,并通过天线ANT发送RF信号。这里,通信处理器103根据各

处理基带信号。例如,通信方案可包括但不限于:全球移动通

通信方案、增强型数据GSM环境(EDGE)通信方案、

方案、W-CDMA通信方案、长期演进(LTE)

通信方案、无线保真(Wi-Fi)通

案。

摄和视频剪辑录制)。

种通信方案

信系统(GSM)

码分多址(CDMA)通信

通信方案、正交频分多址(OFDMA)

信方案、WiMax通信方案和/或蓝牙通信方

扬声器/麦克风110可输入和输出用于诸如语音识别(在训练处理期间使

用以训练装置100识别特定说话者和/或唤醒命令和/或语音命令)、语音再

现、数字记录和电话功能之一的语音信号。即,扬声器/麦克风110将语音

号转换为电子信号或者将电子信号转换为语音信号。可连接的和可拆

机、头戴受话器或头戴式耳机(未示出)可通过外部端口连接到

卸的耳

电子装置。

触摸屏控制器165可被连接到触摸屏160。触摸屏160和触摸屏控制器

165可使用但不限于用于确定与触摸屏160的一个或多个触摸点的电容式、

电阻式、红外线和表面声波技术和包括各种接近传感器阵列或其它元素的多

点触摸检测技术,来检测触摸和运动或触摸和运动的停止。

触摸屏160提供电子装置和用户之间的输入/输出接口。即,触摸屏160

触摸屏160可采用各种显示器,所述各种显示器的示例包括但不限于:

液晶显示器(LCD)、发光二极管(LED)、发光聚合物显示器(LPD)、

LED(OLED)、有源矩阵OLED(AMOLED)或柔性LED(FLED)。

将用户的触摸输入转发到电子装置100。触摸屏160还将装置100的输出呈

现给用户。即,触摸屏160将视觉输出呈现给用户。即,视觉输出可被表示

为文本、图像、视频以及它们的组合。

有机

GPS接收器130将从“人造”卫星接收的信号转换为诸如位置、速度或

信息。例如,卫星和GPS接收器130之间的距离可通过将光的速度乘

外部存储器170或内部存储器104可包括快速随机存取存储器(例如,

时间的

以信号到达时间来计算,并通过获取三个卫星的准确位置和距离使用公知的

三角测量法来测量电子装置的位置。

一个或多个磁盘存储装置)和/或非易失性存储器、一个或多个光学存储装

和/或闪速存储器(例如,NAND和NOR)。 置、

外部存储器170或内部存储器104存储软件。软件组件包括操作系统软

件模块、通信软件模块、图形软件模块、用户界面软件模块、MPEG模块、

机软件模块以及一个或多个应用软件模块。用于作为软件组件的模块

一组指令,因此所述模块可被称为指令组。所述模块可被称为

可以是

程序。

操作系统软件包括用于控制一般系统操作的各种软件组件。一般系统操

作的控制包括:例如,存储器管理和控制、存储器硬件(装置)控制和管理

及电力控制和管理。操作系统软件可对各种硬件装置和软件组件(模

块)之

间的正常通信进行处理。

通信软件模块允许通过RF单元140与其它电子装置(例如,计算机、服

图形软件模块包括用于在触摸屏160上提供和显示图形的各种软件组

语“图形”包含文本、网页、图标、数字图像、视频、动画等。

用户界面软件模块包括与用户界面相关的各种软件组件。用户界面软件

相机软件模块包括允许相机相关处理和功能的相机相关软件组件。应用

模块包括:浏览器、电子邮件、即时消息、词语处理、键盘仿真、地址簿、

触摸列表、窗口小部件、数字版权管理(DRM)、语音识别、语音

确定功能、基于位置的服务等。除上述的模块之外,存储器

括附加的模块(指令)。可选择地,如果需要,则可不

模块涉及用户界面的状态改变和用户界面状态改变的条件。

件。术

务器、和/或便携式终端)进行通信。以相应的通信方案的协议构架配置通

软件模块。

再现、位置

170和104可包

使用一些模块(指令)。

在此,应用模块包括用于执行说话者识别功能或言语识别功能和语音命

4

以上提及和将被解释的电子装置100的各种功能可在包括一个或多个信

图1B中示出根据本发明的实施例的用于执行语音命令的系统195。系统

号处理和/或专用集成电路(ASIC)的硬件和/或软件和/或他们的组合中被

行。

令执行功能的指令。根据本发明的示例性实施例的指令与用于执行图2、图

和图6中所示的操作的指令相应。

190

195包括通过网络180与服务器190进行通信的便携式终端100。服务器

可以是例如家庭网络服务器或通过大型网络(例如,互联网)访问的

务器。可选择地,服务器190可以是能够对发送到服务器190

行言语/语言/说话者识别和分析功能的第三方便携式电

最少包括至少一个处理器192和存储器194,以执行操

结合电子装置100描述服务器190的示例性操作。

远程服

的语音信号执

子装置。服务器190

作的主机。下文中将

图2是根据本发明的一个示例性实施例的用于在电子装置100中执行唤

在步骤201,电子装置100通过麦克风110从用户检测可包含唤醒命令

和语音命令的语音信号。唤醒命令激活系统的语音命令模式,其中,为了接

收和分析语音命令,不需要与触摸屏或键的触摸接触。在接收此语音

前,装置100可处于空闲模式或锁屏模式。在一些实施例中,

号之前,装置100可处于这样的应用执行模式,其中,

令的收听或响应于语音命令的操作。

醒命令和语音命令的方法200的流程图。

信号之

在接收语音信

没有执行用于语音命

在以下描述中,将假设唤醒命令一般独立于临时跟随在唤醒命令之后的

语音命令。然而,在下面另外讨论的一些“说话者依赖”实施例中,由预定

的说话者说出的被检测的语音信号可用作唤醒命令。在一些其它实施例中

话者依赖或说话者独立),唤醒命令还包

唤醒命令激活语音命令模式并且是

行由用户设置的预定义应用)的催

(说

含固有的语音命令。在后者的情况下,

装置100执行附加的预定任务(例如,运

化剂。

例如,唤醒命令可命令切换到用于输入语音命令的模式(“语音命令模

式”)和/或对屏幕进行解锁。语音命令执行由电子装置100提供的各种功能。

例如,语音命令执行拨号、拍摄、MP3播放等。在各种实施方式中,

令可请求服务器190搜索地图并计划路线。 语音命

在步骤202,电子装置100对语音信号执行言语识别,以辨别语音信号

是否包含预定的唤醒命令。此言语识别可包括在一个实施例中的说话者依赖

识别方案或在另一实施例中的说话者独立识别方案。另外的方案是可

其中,多个不同的唤醒命令被预定,其中,一个或多个预定命

赖唤醒命令,一个或多个其他命令是说话者独立命令。

行的,

令是说话者依

根据说话者依赖识别方案,特定说话者或用户需要提前以他/她自己的语

音训练识别器。在此情况下,言语识别器可仅识别训练的语音的言语。说话

者独立识别方案可识别任意说话者语音的言语。说话者独立识别方案

取关于成百上千的语音的信息并将所述信息存入数据库,因此,

使用所述信息,而无需单独的训练处理。

提前提

任何用户可

在一些实施例中,使用说话者依赖识别,说话者可使用语音信号(可包

括整个语音信号)中的语音命令部分被验证。因此,不存在输入单独的唤醒

命令的需要。例如,当使用用户的唯一语音特征来验证说话者时,不

入单独的唤醒命令的需要。因此,在这些实施例中,语音命令

醒命令。因此在步骤202和204,识别特定用户的特定

识别来自动检测唤醒命令。

存在输

还可操作为唤

语音,并通过此言语

可选择地,使用以预定义文本和用户的唯一语音特征的说话者依赖识别,

用户可通过输入与预定义文本相应的他的语音来训练装置100以验证说话者

(和特定的唤醒命令)。这样做,需要输入唤醒命令。在此,预定义文本可

用户直接输入或通过若干次输入语音被转换。电子装置100或服务器

将语音转换为文本。 190可

当在步骤204检测到唤醒命令时,所述方法进行到步骤206。否则,所

尽管未示出在图2中,当成功检测到唤醒命令时,在锁屏模式下“用于

述方法返回到201。

识别语音命令的对象”在显示器上被激活(见图8A)。

此对象指示语音命令模式的激活(即,装置正积

果一个褪了色的版本先前可见,则该对象

被强调的方式被显示。此时,与言

也可被显示。可选择地,当

语音识别相关的

可以是虚拟麦克风的

极收听语音命令)。此时,如

可在锁屏中被首先显示,或者,以

语/语音识别相关的图形用户界面(GUI)

检测到唤醒命令时,显示的对象可被激活并且与

GUI可立即被显示在锁屏中。

在实施例变化中,当在空闲模式下检测到唤醒命令并且屏幕被锁定时,

用于识别语音命令的对象和与语音识别相关的GUI被一起显示。当屏幕没

被锁定时,用于识别语音命令的对象和与语音识别相关的GUI也可

示。 被一起显

在步骤206,电子装置100检测在与唤醒命令相应的检测到的语音信号

的第一部分(在下文中,“第一语音信号”)和与语音命令相应的检测到的语

音信号的第二部分(在下文中,“第二语音信号”)之间的沉默持续时间(如

存在)。当然,这假设语音命令是与唤醒命令分离的实体(如上所述,

命令也是语音命令的情况下实施例是可行的)。例如,假设唤

Galaxy”,并且语音命令是“呼叫Hong Gil-dong”,当用

Galaxy”和“呼叫Hong Gil-dong”时,沉默持续时间存在

和“呼叫Hong Gil-dong”之间。

在唤醒

醒命令是“你好

户连续发音“你好

于“你好Galaxy”

在检测到的言语中的两个词语之间的短暂的停顿可被用于检测语音命令

的开始。在实施例中,紧跟着唤醒命令的检测到的语音信号的无关的部分可

被阻止与随后的语音命令一起被发送到服务器。这样做,可使用语音

测(VAD)技术。例如,语音信号通常具有比包括“沉默”时

信号具有更多的能量。然而,当背景噪声低时,可附加

特的特征。通常,通过观察贯穿各种频率的能量

的特征。人的声音包括特征标志

VAD技术可区分言语和包

置100等待直到检测

开始的声音信

送到服

段的噪

活动检

间段的背景噪声

地识别人的声音的独

分布来识别人的声音的独特

(characteristics signature)而不包括噪声。因此,

括背景噪声的沉默时间段。因此,在实施例中,装

到言语,此后,仅发送跟随唤醒命令的已检测到的言语

号,而不将包括唤醒命令之后检测到的所有声音的音频信号发

务器。即,方法200避免发送只是包含唤醒命令检测之后的沉默时间

声的信号。

在步骤208,装置100确定与语音命令相应的第二语音信号是否开始。

例如,装置100检查与“呼叫Hong Gil-dong”相应的语

当第二语音信号开始时,在步骤210,装置100将与所

叫Hong Gil-dong”)相应的语音信号发送到服务

信号的部分在此不同地被称为“发送信

号在208没有开始时,所述流程返

到服务器,装置100使得处

音信号的开始点。

述语音命令(例如,“呼

器。(发送到服务器的语音

号”)。(当与语音命令相应的语音信

回到206)。有利地,通过将语音命令发送

理器免受识别语音命令的言语的增强任务。

在步骤212,装置100从服务器接收与语音命令相应的语音识别结果。

在步骤214,装置100基于与语音命令相应的语音识别结果执行相应的

例如,服务器分析语音命令“呼叫Hong Gil-dong”,并将与“呼叫Hong

Gil-dong”相应的控制信号发送到装置100或发送路线规划请求或地图搜索

请求的搜索结果。

操作,或显示与语音识别相应的结果。例如,当从服务器接收到与“呼叫

Gil-dong”相应的控制信号时,装置100在电话簿搜索Hong Gil-dong

话号码并尝试以搜索的电话号码连接呼叫。在地图/路线请求的情况

100显示路线规划请求或地图搜索请求的搜索结果。此后,所

Hong

的电

下,装置

述处理结束。

图3是示出根据本发明的一个示例性实施例的由服务器190执行的方法

300的流程图。此方法可补足在装置100中进行操作的上述方法200的操作。

在此实施例中,在步骤301,服务器从电子装置接收发送信号(例如,

的步骤210发送的)(即,与语音命令(例如,“呼叫Hong Gil-

应的语音信号。

在图2

dong”))相

接下来,在步骤302,服务器使用语音识别算法(相当于“言语识别”

分析与语音命令相应的语音信号。即,服务器分析语音信号以识别言

当与语音识别相应的结果不是控制信号时,在步骤308,服务器将与语

算法)

语并从识别的言语辨别语音命令。在步骤304,服务器随后确定与语音识别

相应的结果是否是控制信号。如果是,则在步骤306,服务器将与语音识别

相应的控制信号发送到装置100。例如,在识别“呼叫Hong Gil-dong”之后,

服务器将相应的控制信号提供给装置100,以指示装置100以从装置100的

电话簿存储器提取的相关的电话号码呼叫Hong Gil-dong。

音识别相应的结果提供给电子装置。可选择地,服务器发送包含路线规划请

求或地图搜索请求的搜索结果的图像内容,装置100藉此显示所述内

容。

可选择地,在方法200和300的示例性实施例中,电子装置来实现唤醒

命令检测,并且服务器实现语音命令的语音识别。根据

实施例,服务器执行唤醒命令检测和语音命令的本发明的另一示例性

语音识别。

图4是根据本发明的另一示例性实施例的在装置100中执行的另一示例

方法的流程图。这里,在步骤401,在空闲模式和/或锁屏模式下,装置100

通过麦克风110从用户接收包括唤醒命令的语音信号,其中,在唤醒命令不

久之后(或连续之后)紧接着语音命令。如前所述,当识别到唤醒命令时,

激活系统。例如,唤醒命令可指示切换到用于输入语音命令的模式和

幕进行解锁。语音命令指示执行由电子装置100提供的各种功

音命令执行拨号、拍摄、MP3播放等。

/或对屏

能。例如,语

在步骤402,装置100将包括唤醒命令和语音命令的整个语音信号发送

到服务器作为发送信号。接下来,从服务器接收到与唤醒命令相应的语音验

证结果(步骤404)。即,当服务器检测到发送信号包含唤醒命令时,

发送在步骤404接收的语音识别结果;否则,服务器可不将任

送回装置100。例如,当装置在步骤404接收到识别结

唤醒命令,并且在步骤406,装置100激活系统。

或从空闲模式切换到激活模式或语音命令模式。

音命令模式,装置100随后可如步骤401

并相应地重复步骤402至404和随

服务器

何识别信号发

果时,这指示检测到

系统激活对屏幕进行解锁

(随着系统激活并且处于语

检测包含语音命令的新的语音信号,

后的步骤。)

接下来,在步骤408,装置100接收与语音命令相应的语音识别结果,

并在步骤410,基于语音识别结果执行操作或显示与语音识别相应的结果。

例如,当从服务器接收到与“呼叫Hong Gil-dong”相应的控制信号时,装

置100在电话簿搜索Hong Gil-dong的电话号码并尝试以搜索的电话号码连

接呼叫。在地图/路线示例中,装置100显示路线规划请求或地图搜索请求

搜索结果。此后,所述处理结束,装置100可在步骤401接收新的语

并且将这些新的语音信号转发到服务器以进行处理,服务器藉音信号,

此可继续通过 发送控制信号和/或与随后的语音命令相应的结果来进

100已经被唤醒,因此可以以仅用于语音命令的

相关操作重复步骤401至410。

行响应。即,由于装置

(而当然不是用于唤醒命令)

图5是根据本发明的另一示例性实施例的由服务器190执行的示例性方

在步骤501,服务器从电子装置501接收包括唤醒命令和语音命令的语

音信号(即,在步骤402发送的发送信号)。在步骤502,服务器语音识别

证算法分析与唤醒命令相应的语音信号。即,服务器分析与唤醒命令

语音信号,因此确定是否检测唤醒命令。此操作可与在实施例

执行的图2中的步骤202和204相同。注意,如图2的实施例

话者依赖和/或说话者独立算法操作(在考虑多个预定

可采用两种类型的识别方案)。

法500的流程图。此方法可完成在装置100中进行操作的上述方法400的操

相应的

中由装置100

中,可执行说

的唤醒命令的情况下,

在步骤504,服务器将言语验证结果提供给电子装置。注意,在其他实

当在步骤506检测到唤醒命令作为言语识别处理的结果时,在步骤508,

服务器随后使用语音识别算法分析与语音命令相应的语音信号。即,服务器

识别与语音命令相应的言语,并产生与将由装置100执行的动作相应

信号,用于特定辨别的语音命令。相反地,当在语音信号中未

令时,流程返回到步骤501。为此,服务器可发送通知

醒命令的信号,在步骤501,装置100藉此可继续将新

送到服务器。在各种实施方式中,当与先前的语

常时,服务器可请求和接收仅与唤醒命令

施方式中可省略步骤504。

的响应

检测到唤醒命

装置100未检测到唤

检测到的语音信号发

音命令相应的语音信号是正

相应的第一语音信号。

尽管未示出,服务器可检测与唤醒命令相应的语音信号和与语音命令相

在步骤510,服务器向电子装置通知唤醒命令结果和语音识别结果(响

接下来,服务器结束此处理,并可被配置为收听如在步骤501来自装置

图6是描绘根据本发明的另一示例性实施例的由电子装置执行的示例性

步骤601、602、604、606和608可分别与图2的201、202、204、206

在步骤601,在空闲模式或锁屏模式下,电子装置100通过麦克风110

从用户接收包括唤醒命令和语音命令的语音信号。所述唤醒命令激活系统。

例如,唤醒命令可指示切换到用于输入语音命令的模式或对屏幕进行

语音命令执行由电子装置100提供的各种功能。例如,语音命

和208相同。以下对步骤601至608的描述重述结合步骤201至208描述的

一些概念。

方法600的操作的流程图。在此实施例中,电子装置执行用于语音命令的唤

醒命令检测和语音识别两者。

100的随后的语音信号发送。为此,在装置100和服务器190之间的适当的

信令可被设计为向服务器190通知装置100是否已返回到空闲模式或锁屏模

式。如果是,服务器将把随后接收的语言信号视作可包含唤醒命令的语音信

号。如果不是,服务器将指示自然地收听新的语音命令。

应信号)。例如,服务器通过分析言语是否包含短语“你好Galaxy”来确定

是否检测到唤醒命令,分析语音命令“呼叫Hong Gil-dong”,因此将与“呼

叫Hong Gil-dong”相应的控制信号发送给电子装置100。

应的语音信号之间的沉默持续时间,因此区分唤醒命令和语音命令。

解锁。

令执行拨号、

拍摄、MP3播放等。

在步骤602,装置100使用言语识别验证算法分析语音信号,以确定语

音信号是否包含唤醒命令。如前所述,如果采用了说话者依赖识别,此操作

可涉及仅检测语音与预定语音匹配,或者预定语音还包含与预定唤醒

配的特定言语。可选择地,可使用说话者独立识别方案。当在

唤醒命令时,流程进行到步骤606;否则,流程返回到步骤

命令匹

步骤604识别

600。

在步骤606,装置100检测与唤醒命令相应的语音信号部分和与语音命

在步骤608,电子装置100确定与语音命令相应的语音信号是否开始。

当在步骤608,与语音命令相应的语音信号开始时,在步骤610,电子装

在步骤612,电子装置100基于识别的语音命令执行相应的操作。例如,

图7描绘可在上述的实施例中被分析的包括唤醒命令和语音命令的示例

当识别的语音命令是“呼叫Hong Gil-dong”时,电子装置100在电话簿搜

索Hong Gil-dong的电话号码,并尝试以搜索的电话号码连接呼叫。此后,

所述处理结束。

置100使用语音识别算法分析所述与语音命令相应的语音信号。

例如,在步骤608,电子装置100检查与“呼叫Hong Gil-dong”相应的语音

信号的开始点。

令相应的语音信号部分之间的沉默持续时间。例如,假设唤醒命令是“你好

Galaxy”并且语音命令是“呼叫Hong Gil-dong”,当用户连续发音“你好

Galaxy”和“呼叫Hong Gil-dong”时,沉默持续时间介于“你好Galaxy”

和“呼叫Hong Gil-dong”之间。

语音信号。输入到电子装置100的示意性语音信号可连续包含唤醒命令和语

音命令。即,语音信号可具有与唤醒命令相应的部分700和与语音命令相应

的部分720,其中,所述部分700和720连续输入到电子装置。沉默持续时

间部分710介于唤醒命令部分700和语音命令部

分720之间。

图8A、图8B和图8C是描绘根据本发明的示例性实施例的使用包含唤醒

命令和语音命令的语音信号进行拨号操作的屏幕截图。如图8A中所示,用

识别语音命令的图标对象800根据与唤醒命令相应的语音信号部分

活。如图8B中所示,与语音信号的语音命令部分720相应的

叫Hong Gil-dong”)被识别,随后所述操作根据所述语

Hong Gil-dong的电话号码在电话簿中被搜索,

索的电话号码自动开始呼叫连接。

700被激

语音命令(“呼

音命令被执行。例如,

并且如图8C中所示,使用搜

图9A和图9B描绘根据本发明的示例性实施例的通过言语识别和控制操

作解锁的屏幕的屏幕截面。图9A描绘示例锁定屏幕;图9B示出示例解锁

幕。可以以图2、图4和图6的上述方法(例如,步骤214、406、

中的任意方法执行用于产生如图9A和图9B中所示的解锁屏

解锁的处理。

410或612)

幕的对锁屏进行

响应于检测到与预定唤醒命令匹配或与特定用户的语音匹配的语音信号

的唤醒命令部分700,图9A的锁定屏幕被切换到图9B的解锁屏幕。尽管

示出,在屏幕被解锁之后,可通过识别与唤醒命令相应的语音信号

的与语音命令(“呼叫Hong Gil-dong”)相应的语音命令部分

应的操作。

700之后

720来执行相

在上述的本发明的示例性实施例中,唤醒命令和语音命令是分离的。可

选择地,与语音命令相应的语音信号可被用于说话者验证和语音命令。即,

使用与语音命令相应的语音信号来验证说话者。当说话者验证成功时,

据语音命令控制或执行电子装置的相应的功能。 可根

根据本公开的上述方法可单独在硬件或软件中被实施,或在硬件和软件

对于软件,可提供包含一个或多个程序(软件模块)的计算机可读存储

介质。存储到计算机可读存储介质的一个或多个程序被配置用于执行电子装

置和/或服务器的一个或多个处理器。一个或多个程序包括使电子装

服务器执行根据如在本公开的权利要求和/或说明书中所述的

的指令。

的组合中被实施。

置和/或

实施例的方法

这样的程序(软件模块,软件)可被存储到随机存取存储器、包括闪速

存储器、只读存储器(ROM)、电可擦可编程ROM(EEPROM)、磁盘存储

紧凑盘ROM(CD-ROM)、数字通

储器和磁带。可选择

或全部组合的

装置、

用磁盘(DVD)或其它光学存储装置的非易失存

地,所述程序可被存储到将这些存储介质进行部分组合

存储器。可配备多个存储器。

所述程序可被存储到通过通信网络(例如,互联网、局域网(LAN)、广

LAN(WLAN)或存储区域网(SAN)或通过组合这些网络的通信网络)可访

电子装置和/或服务器的可连接的存储装置。存储装置可通过外部端

子装置和/或服务器。

问的

口访问电

通信网络中分离的存储装置可访问便携式电子装置/服务器。

如上所述,由于包括唤醒命令部分和语音命令部分的检测到的语音信号

被处理,因此用户可容易地执行所述语音命令。

另外,由于在执行语音命令之前完成唤醒命令检测,因此可基于安全/

尽管已经参照本发明的特定示例性实施例示出和描述了本发明,但是本

领域的技术人员将理解,在不脱离权利要求及其等同物所限定的本发明的精

神和范围的情况下,可以对其进行形式和细节上的各种改变。

个人信息保护来执行语音命令。

2024年4月30日发(作者:公冶子琳)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.5

(22)申请日 2013.05.29

(71)申请人 三星电子株式会社

地址 韩国京畿道水原市

(72)发明人 萨博豪吉特·查克拉德 李相勋 金凞云

(74)专利代理机构 北京铭硕知识产权代理有限公司

代理人 王艳娇

(51)

G10L17/22

G10L15/30

G06F3/01

(10)申请公布号 CN 103456306 A

(43)申请公布日 2013.12.18

权利要求说明书 说明书 幅图

(54)发明名称

用于在电子装置中执行语音命令的

方法和设备

(57)摘要

本发明提供一种用于在电子装置中

执行语音命令的方法和设备。在示例性实

施例中,检测语音信号并识别语音信号的

言语。当识别的言语包含唤醒命令时,语

音命令模式被激活,并且至少包含检测到

的语音信号的一部分的信号被发送到服务

器。服务器产生与语音命令相应的控制信

号或结果信号,并将所述控制信号和结果

信号发送到电子装置。所述装置接收和处

理控制信号或结果信号,并被唤醒。从

而,在不需要用户物理地触摸电子装置的

情况下执行语音命令。

法律状态

法律状态公告日

法律状态信息

法律状态

权 利 要 求 说 明 书

1.一种电子装置中的方法,包括:

检测语音信号并识别语音信号的言语;

当所述言语被识别为包含唤醒命令时,激活语音命令模式并将至少包含

响应于由服务器识别的发送信号之内的语音命令,接收并处理由服务器

2.如权利要求1所述的方法,其中,语音信号包括唤醒命令,其中,唤

3.如权利要求1所述的方法,其中,唤醒命令还包括语音命令。

4.如权利要求2所述的方法,还包括:

确定在唤醒命令和语音命令之间的沉默持续时间。

5.如权利要求1所述的方法,其中,处理控制信号或结果信号的步骤包

醒命令紧接着语音命令。

产生和发送的控制信号或结果信号。

检测到的语音信号的一部分的信号发送到服务器;

括:执行电子装置的特定应用。

6.如权利要求1所述的方法,其中,处理控制信号或结果信号的步骤包

7.如权利要求1所述的方法,还包括:一旦进入语音命令模式,就在指

8.如权利要求7所述的方法,其中,当屏幕在识别言语中的语音命令之

9.如权利要求1所述的方法,其中,只要语音信号的预定说话者被识别,

10.如权利要求9所述的方法,其中,当识别预定说话者的语音时,自

11.如权利要求9所述的方法,其中,当识别预定说话者的语音并且在

动检测唤醒命令。

言语就被识别为包含预定唤醒命令。

前被锁定时,响应于识别的唤醒命令对屏幕进行解锁。

示语音命令模式被激活的显示器上激活对象。

括:显示与所述结果信号相应的数据。

预定说话者的言语之内识别预定唤醒命令时,检测到唤醒命令。

12.如权利要求1所述的方法,其中,在空闲模式下通过电子装置的麦

13.一种用于在电子装置中执行语音命令的方法,包括:

检测包含唤醒命令和语音命令中的至少一个的语音信号;

将所述语音信号发送到服务器;

在接收指示服务器检测到语音信号中的唤醒命令的结果信号时,唤醒电

从服务器接收与语音命令相应的控制信号或结果信号;

处理与语音命令相应的控制信号或结果信号。

14.如权利要求13所述的方法,其中,处理与语音命令相应的控制信号

或结果信号的步骤包括:

子装置;

克风输入语音信号,当在空闲模式下检测到唤醒命令时,语音命令模式被激

活。

根据控制信号控制电子装置的功能或执行电子装置的特定应用。

15.如权利要求13所述的方法,其中,处理与语音命令相应的控制信号

显示与结果信号相应的数据。

16.如权利要求13所述的方法,还包括:

当接收到说话者验证成功消息时,激活用于识别与语音命令相应的第二

17.如权利要求16所述的方法,还包括:

当屏幕被锁定时,对屏幕进行解锁。

18.如权利要求13所述的方法,其中,说话者验证是说话者依赖识别方

19.如权利要求16所述的方法,其中,在空闲模式或锁屏模式下通过电

案或说话者独立识别方案之一。

语音信号的对象。

或结果信号的步骤包括:

子装置的麦克风输入与唤醒命令或语音命令相应的语音信号。

20.一种可在用于支持电子装置的语音命令的服务器中进行操作的方法,

从电子装置接收至少包含语音命令的发送的语音信号;

通过识别和分析所述语音命令来产生与所述语音命令相应的控制信号或

将与第一语音命令相应的控制信号或结果信号发送到电子装置。

21.一种电子装置,包括:

一个或多个处理器;

存储器;

存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程

其中,所述程序包括如下指令:用于检测语音信号并识别语音信号的言

序,

结果信号;

包括:

语的指令,当所述言语被识别为包含唤醒命令时,激活语音命令模式并将至

少包含检测到的语音信号的一部分的发送信号发送到服务器,

并响应于由服 务器识别的发送信号之内的语音命令,接收并处

制信号或结果信号的指令。 理由服务器产生和发送的控

22.一种电子装置,包括:

一个或多个处理器;

存储器;

存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程

其中,所述程序包括如下指令:用于检测包含唤醒命令和语音命令中的

序,

至少一个的语音信号的指令,将所述语音信号发送到服务器的指令,当接收

指示服务器检测到语音信号中的唤醒命令的结果信号时唤醒电

令,从服务器接收与唤醒命令相应的控制信号或结果信

与语音命令相应的控制信号或结果信号的

子装置的指

号的指令,以及处理

指令。

23.一种电子装置,包括:

一个或多个处理器;

存储器;

存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程

其中,所述程序包括以下指令:用于从电子装置接收至少包含语音命令

序,

的发送的语音信号的指令,通过识别和分析所述语音命令产生与所述语音命

制信号或结果

令相应的控制信号或结果信号,并将与第一语音命令相应的控

信号发送到电子装置的指令。

说 明 书

技术领域

本公开总体涉及一种电子装置。更具体地讲,本公开涉及一种用于在电

背景技术

近来,随着多媒体技术已发展,具有多功能的电子装置已激增。这样的

多功能装置的示例包括便携式终端(例如,智能电话、平板PC、智能相机)

以及固定的基于家庭的装置(例如,与家用厨房电器集成的电子装

装置大多包括组合多个功能的汇聚功能。

子装置中执行语音命令的设备和方法。

置)。电子

便携式终端设计者努力实现先进的性能以及汇聚功能,以及装置的纤薄

在可用的各种功能中,最近商业化的装置提供相对高的精确度的语音识

例如,语音识别功能允许用户在便携式终端(例如,智能电话)中无需

为了执行语音识别功能,现有技术驱动相应的语音识别应用,激活语音

识别功能,随后执行相应的功能。

单独的操纵而做出呼叫或编写文本消息,以发送产生的消息,并容易地设置

各种功能(例如,路线规划、互联网搜索和闹铃)。

别功能。这样的语音识别功能精确地识别用户的语音以在没有按压分离的按

钮或触摸键或触摸屏的情况下容易地执行装置的相应功能。

和审美设计作为一体。终端制造者竞争来呈现大致相同或先进的性能,并设

计比先前的设计更小和更薄的新的模型。

然而,为了执行语音识别,响应于分离的键或触摸屏上的触摸输入命令,

语音识别应用被初始启动。此操作违背用于促进数据输入(而没有触摸)的

语音识别的独特功能。另外,开始语音识别应用需要在包括各种应用

显示屏上找出语音识别应用,这在特定情况下可能会困难并且

对象的

费时。

发明内容

公开了一种用于在一种电子装置中执行语音命令的设备和方法的实施

例。在示例性实施例中,检测语音信号并识别语音信号

语包含唤醒命令时,激活语音命令模式,并且至

一部分的信号被发送到服务器。服务器产

果信号,并将所述与语音命令相应

电子装置接收并处理控制信

物理地触摸电子装置

的言语。当识别的言

少包含检测到的语音信号的

生与语音命令相应的控制信号或结

的控制信号或结果信号发送回电子装置。

号或结果信号,并被唤醒。从而,在不需要用户

的情况下执行语音命令。

在各种实施例中:

语音信号可包括唤醒命令,其中,唤醒命令紧接着语音命令。

唤醒命令还可包括语音命令。

可在在唤醒命令和语音命令之间确定沉默持续时间。

处理控制信号或结果信号的步骤可包括执行电子装置的特定应用。

处理控制信号或结果信号的步骤可包括显示与所述结果信号相应的数

据。

一旦激活语音命令模式,就可在指示语音命令模式被激活的显示器上激

当在言语中的唤醒命令被识别之前屏幕被锁定时,可响应于识别的唤醒

只要语音信号的预定说话者被识别,言语可被识别为包含预定唤醒命令。

可选择地,当识别预定说话者的语音并且在预定说话者的言语之内识别

预定唤醒命令时,可检测到唤醒命令。在另一实施例中,一种用于在电子装

置中执行语音命令的方法,包括:检测包含唤醒命令和语音命令中的

个的语音信号;将所述语音信号发送到服务器;在接收指示服

音信号中的唤醒命令的结果信号时,唤醒电子装置;从

令相应的控制信号或结果信号;处理所述与语音

信号。

当预定说话者的语音被识别时,可自动检测唤醒命令。

命令对屏幕进行解锁。

活对象。

至少一

务器检测到语

服务器接收与语音命

命令相应的控制信号或结果

在实施例中,一种可在用于支持电子装置的语音命令的服务器中进行操

在实施例中,一种电子装置包括:一个或多个处理器;存储器;存储在

作的方法,包括:从电子装置接收至少包含语音命令的发送的语音信号;

通过识别和分析所述语音命令来产生与所述语音命令相应的控制信号或结果

信号;将与第一语音命令相应的控制信号或结果信号发送到电子装置。

存储器中并被配置为被一个或多个处理器执行的一个或

述程序包括用于检测语音信号并识别语音信号的多个程序,其中,所

言语的指令;当所述言语被 识别为包含唤醒命令时,激活语音命令模

的部分的发送信号发送到服务器;

音命令,接收并处理由服务

式并将至少包含检测到的语音信号

响应于由服务器识别的发送信号之内的语

器产生和发送的控制信号或结果信号。

根据本发明的另一方面,通过下面结合附图公开本发明的示例性实施例

附图说明

从以下结合附图进行的描述,本发明的特定示例性实施例的上述和其它

图1A是根据本发明的示例性实施例的用于执行语音命令的电子装置的

图1B是根据实施例的用于执行语音命令的系统的示图;

图2是根据本发明的一个示例性实施例的用于在电子装置中执行唤醒命

图3是根据本发明的一个示例性实施例的可在服务器中进行操作的方法

图4是根据本发明的另一示例性实施例的用于在电子装置中执行语音命

图5是根据本发明的另一示例性实施例的可在服务器中进行操作的另一

令的方法的流程图;

的流程图;

令和语音命令的方法的流程图;

框图;

方面、特点和优点将会变得更加清楚,其中:

的详细描述,本发明的其他方面、优点和突出特点对本领域的技术人员会变

得清楚。

方法的流程图;

图6是根据本发明的另一示例性实施例的用于在电子装置中执行语音命

图7示出根据本发明的实施例的包括可检测到和识别的唤醒命令和语音

图8A、图8B和图8C示出根据本发明的示例性实施例的基于包括唤醒命

图9A和图9B描绘根据本发明的示例性实施例的用于示出通过唤醒命令

贯穿附图,相同的标号将被理解为指示相同的部件、组件和结构。

具体实施方式

提供以下参照附图进行的描述以帮助全面理解由权利要求及其等同物限

定的本发明的示例性实施例。所述描述包括各种特定细节来帮助理解,但是

这些细节将被认为仅仅是示例性的。因此,本领域的普通技术人员将

在不脱离本发明的范围和精神的情况下,可对在此描述的实施

变和修改。另外,为了清楚和简明,可省略对公知功能

检测解锁的屏幕的屏幕截图。

令和语音命令的语音信号的拨号;

命令的语音信号;

令的方法的流程图;

认识到,

例进行各种改

和构造的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义,而是仅被发

明人使用以使得能够清楚和一致地理解本发明。因此,本领域的技术人员应

清楚,提供下面对本发明的示例性实施例的描述仅是为了说明目的,

而不是

为了限制由所附权利要求及其等同物限定的本发明的目的。

应该理解,除非上下文清楚地另有指示,否则单数形式包括复数指示物。

对于术语“大体上”,它意味着叙述的特征、参数或值不需要精确达到,

而是,包括例如公差、测量误差、测量精度限制和对本领域技术人员已知的

其他因素的偏差或变化可以以不妨碍所述特征意图提供的效果的量而

因此,例如,提到“组件表面”包括提到一个或多个这样的表面。

发生。

本发明的示例性实施例提供一种用于在电子装置和服务器中执行语音命

图1A描绘根据本发明的示例性实施例的用于执行语音命令的电子装置

100。电子装置100可以是各种固定或便携式装置中的任意一个。便携式装

可以是便携式终端、移动终端、移动平板电脑、移动播放器、平板计

智能电话、笔记本/台式计算机、个人数字助理(PDA)、智

置可以是组合这些装置的两个或多个功能的便携式电子

的示例是连接到家用电器(例如,厨房电器)的

令的设备和方法。

算机、

能相机等。电子装

装置。固定电子装置

电子显示装置。

电子装置100可包括控制器110、扬声器/麦克风112、相机120、全球

简单地说,根据本发明的实施例,装置100检测语音信号并识别言语。

当所述言语被识别为包含唤醒命令时,装置100激活语音命令模式。在语音

定位系统(GPS)接收器130、射频(RF)单元140、传感器模块150、触摸屏

160、触摸屏控制器165和外部存储器170。

命令模式下,装置100能够响应于随后的语音命令。因此,如果装置处于锁

屏状态或空闲状态(或条件允许的情况下处于这

过唤醒命令识别被唤醒,而不需要用户物

一旦检测到唤醒命令,就执行言语

果识别出语音命令,则装置

两种状态),则装置100可通

理地触摸装置100上的键或触摸屏。

识别处理以辨别是否已发出语音命令。如

100可随后执行与所述命令相关的操作。

在一个实施例中,在装置100中执行唤醒命令检测和语音命令检测两者。

控制器100可包括接口101、一个或多个处理器102和103以及内部存

储器104。在一些情况下,整个控制器110可被称为处理器。接口101、应

处理器102、通信处理器103和内部存储器104可以是单独的组件或

在一个或多个集成电路上。

在另一个实施例中,在装置100中执行唤醒命令检测,并在服务器中执行语

音命令识别,接着将来自装置100的语音信号的一部分发送到服务器。在另

一个实施例中,在服务器中执行唤醒命令检测和语音命令识别两者。

被集成

应用处理器102通过运行各种软件程序来执行用于电子装置的各种功

信处理器103处理并控制语音通信和数据通信。除这些典型的功能之

理器102和103还执行存储在外部存储器170或内部存储器104中的

软件模块(指令集),并进行与所述模块相应的特定功能。即,处理器

根据本发明的一个示例性实施例(与图2的方法相应),应用处理器102

能,通

外,处

特定的

102和103执行与存储在外部存储器170或内部存储器104中的软件模块相

关的本发明的方法。

通过麦克风110从用户接收包括唤醒命令和随后的语音命令的语音信号,并

对所述语音信号执行言语识别,以检测唤醒命令的存在。当检测到唤醒命令

时,应用处理器102可检测在语音信号中的唤醒命令和随后的语音命

的沉默持续时间。因此,应用处理器102确定与语音命令相应

一部分是否开始,当确定与语音命令相应的语音信号的

处理器102将所述语音信号的一部分发送到服务

从服务器接收与所述语音命令相应的语音

的操作。

令之间

的语音信号的

一部分开始时,应用

器。接下来,应用处理器102

识别结果,并基于此结果执行相应

根据本发明的另一示例性实施例(与图4的方法相应),应用处理器102

将包括唤醒命令部分和语音命令部分的所有语音信号发送到服务器,并从服

务器接收与唤醒命令相应的说话者验证结果。当所述结果指示检测到

令时,应用处理器102激活系统。接下来,应用处理器102接

相应的语音识别结果,并基

唤醒命

收与语音命令

于所述语音识别结果执行操作。

根据本发明的另一示例性实施例(与图6的方法相应),应用处理器102

一个或多个语音识别处理器和说话者验证处理器可以是应用处理器102

的一部分,或可被提供为单独的处理器。语音识别处理器和说话者验证处理

器可被统一,并包括根据其实施方式用于不同的功能的多个处理器。

将电子装置100的触摸屏控制器165与外部存储器170或内部

互连接。

通过麦克风110从用户接收包括唤醒命令和语音命令的语音信号,并使用言

语识别执行唤醒命令检测。当检测到唤醒命令时,应用处理器102使用语音

识别算法识别语音信号的随后的部分中的语音命令,并基于识别的语音命令

执行相应的操作。

接口101

存储器104相

传感器模块150被连接到接口101以允许各种功能。例如,运动传感器

和光学传感器可被连接到接口101以检测电子装置的运动或检测来自外部的

光。除了这些之外,其它传感器(例如,位置确定系统、温度传感器或生物

识别传感器)可被连接到接口101以进行相关的功能。

相机120通过接口101被连接到传感器150以执行相机功能(例如,拍

可包括至少一个处理器的RF单元140执行通信功能。例如,在通信处理

器103的控制下,RF单元140将RF信号转换为基带信号,并将基带信号提

供给通信处理器103,或者将从通信处理器103输出的基带信号转换为RF

号,并通过天线ANT发送RF信号。这里,通信处理器103根据各

处理基带信号。例如,通信方案可包括但不限于:全球移动通

通信方案、增强型数据GSM环境(EDGE)通信方案、

方案、W-CDMA通信方案、长期演进(LTE)

通信方案、无线保真(Wi-Fi)通

案。

摄和视频剪辑录制)。

种通信方案

信系统(GSM)

码分多址(CDMA)通信

通信方案、正交频分多址(OFDMA)

信方案、WiMax通信方案和/或蓝牙通信方

扬声器/麦克风110可输入和输出用于诸如语音识别(在训练处理期间使

用以训练装置100识别特定说话者和/或唤醒命令和/或语音命令)、语音再

现、数字记录和电话功能之一的语音信号。即,扬声器/麦克风110将语音

号转换为电子信号或者将电子信号转换为语音信号。可连接的和可拆

机、头戴受话器或头戴式耳机(未示出)可通过外部端口连接到

卸的耳

电子装置。

触摸屏控制器165可被连接到触摸屏160。触摸屏160和触摸屏控制器

165可使用但不限于用于确定与触摸屏160的一个或多个触摸点的电容式、

电阻式、红外线和表面声波技术和包括各种接近传感器阵列或其它元素的多

点触摸检测技术,来检测触摸和运动或触摸和运动的停止。

触摸屏160提供电子装置和用户之间的输入/输出接口。即,触摸屏160

触摸屏160可采用各种显示器,所述各种显示器的示例包括但不限于:

液晶显示器(LCD)、发光二极管(LED)、发光聚合物显示器(LPD)、

LED(OLED)、有源矩阵OLED(AMOLED)或柔性LED(FLED)。

将用户的触摸输入转发到电子装置100。触摸屏160还将装置100的输出呈

现给用户。即,触摸屏160将视觉输出呈现给用户。即,视觉输出可被表示

为文本、图像、视频以及它们的组合。

有机

GPS接收器130将从“人造”卫星接收的信号转换为诸如位置、速度或

信息。例如,卫星和GPS接收器130之间的距离可通过将光的速度乘

外部存储器170或内部存储器104可包括快速随机存取存储器(例如,

时间的

以信号到达时间来计算,并通过获取三个卫星的准确位置和距离使用公知的

三角测量法来测量电子装置的位置。

一个或多个磁盘存储装置)和/或非易失性存储器、一个或多个光学存储装

和/或闪速存储器(例如,NAND和NOR)。 置、

外部存储器170或内部存储器104存储软件。软件组件包括操作系统软

件模块、通信软件模块、图形软件模块、用户界面软件模块、MPEG模块、

机软件模块以及一个或多个应用软件模块。用于作为软件组件的模块

一组指令,因此所述模块可被称为指令组。所述模块可被称为

可以是

程序。

操作系统软件包括用于控制一般系统操作的各种软件组件。一般系统操

作的控制包括:例如,存储器管理和控制、存储器硬件(装置)控制和管理

及电力控制和管理。操作系统软件可对各种硬件装置和软件组件(模

块)之

间的正常通信进行处理。

通信软件模块允许通过RF单元140与其它电子装置(例如,计算机、服

图形软件模块包括用于在触摸屏160上提供和显示图形的各种软件组

语“图形”包含文本、网页、图标、数字图像、视频、动画等。

用户界面软件模块包括与用户界面相关的各种软件组件。用户界面软件

相机软件模块包括允许相机相关处理和功能的相机相关软件组件。应用

模块包括:浏览器、电子邮件、即时消息、词语处理、键盘仿真、地址簿、

触摸列表、窗口小部件、数字版权管理(DRM)、语音识别、语音

确定功能、基于位置的服务等。除上述的模块之外,存储器

括附加的模块(指令)。可选择地,如果需要,则可不

模块涉及用户界面的状态改变和用户界面状态改变的条件。

件。术

务器、和/或便携式终端)进行通信。以相应的通信方案的协议构架配置通

软件模块。

再现、位置

170和104可包

使用一些模块(指令)。

在此,应用模块包括用于执行说话者识别功能或言语识别功能和语音命

4

以上提及和将被解释的电子装置100的各种功能可在包括一个或多个信

图1B中示出根据本发明的实施例的用于执行语音命令的系统195。系统

号处理和/或专用集成电路(ASIC)的硬件和/或软件和/或他们的组合中被

行。

令执行功能的指令。根据本发明的示例性实施例的指令与用于执行图2、图

和图6中所示的操作的指令相应。

190

195包括通过网络180与服务器190进行通信的便携式终端100。服务器

可以是例如家庭网络服务器或通过大型网络(例如,互联网)访问的

务器。可选择地,服务器190可以是能够对发送到服务器190

行言语/语言/说话者识别和分析功能的第三方便携式电

最少包括至少一个处理器192和存储器194,以执行操

结合电子装置100描述服务器190的示例性操作。

远程服

的语音信号执

子装置。服务器190

作的主机。下文中将

图2是根据本发明的一个示例性实施例的用于在电子装置100中执行唤

在步骤201,电子装置100通过麦克风110从用户检测可包含唤醒命令

和语音命令的语音信号。唤醒命令激活系统的语音命令模式,其中,为了接

收和分析语音命令,不需要与触摸屏或键的触摸接触。在接收此语音

前,装置100可处于空闲模式或锁屏模式。在一些实施例中,

号之前,装置100可处于这样的应用执行模式,其中,

令的收听或响应于语音命令的操作。

醒命令和语音命令的方法200的流程图。

信号之

在接收语音信

没有执行用于语音命

在以下描述中,将假设唤醒命令一般独立于临时跟随在唤醒命令之后的

语音命令。然而,在下面另外讨论的一些“说话者依赖”实施例中,由预定

的说话者说出的被检测的语音信号可用作唤醒命令。在一些其它实施例中

话者依赖或说话者独立),唤醒命令还包

唤醒命令激活语音命令模式并且是

行由用户设置的预定义应用)的催

(说

含固有的语音命令。在后者的情况下,

装置100执行附加的预定任务(例如,运

化剂。

例如,唤醒命令可命令切换到用于输入语音命令的模式(“语音命令模

式”)和/或对屏幕进行解锁。语音命令执行由电子装置100提供的各种功能。

例如,语音命令执行拨号、拍摄、MP3播放等。在各种实施方式中,

令可请求服务器190搜索地图并计划路线。 语音命

在步骤202,电子装置100对语音信号执行言语识别,以辨别语音信号

是否包含预定的唤醒命令。此言语识别可包括在一个实施例中的说话者依赖

识别方案或在另一实施例中的说话者独立识别方案。另外的方案是可

其中,多个不同的唤醒命令被预定,其中,一个或多个预定命

赖唤醒命令,一个或多个其他命令是说话者独立命令。

行的,

令是说话者依

根据说话者依赖识别方案,特定说话者或用户需要提前以他/她自己的语

音训练识别器。在此情况下,言语识别器可仅识别训练的语音的言语。说话

者独立识别方案可识别任意说话者语音的言语。说话者独立识别方案

取关于成百上千的语音的信息并将所述信息存入数据库,因此,

使用所述信息,而无需单独的训练处理。

提前提

任何用户可

在一些实施例中,使用说话者依赖识别,说话者可使用语音信号(可包

括整个语音信号)中的语音命令部分被验证。因此,不存在输入单独的唤醒

命令的需要。例如,当使用用户的唯一语音特征来验证说话者时,不

入单独的唤醒命令的需要。因此,在这些实施例中,语音命令

醒命令。因此在步骤202和204,识别特定用户的特定

识别来自动检测唤醒命令。

存在输

还可操作为唤

语音,并通过此言语

可选择地,使用以预定义文本和用户的唯一语音特征的说话者依赖识别,

用户可通过输入与预定义文本相应的他的语音来训练装置100以验证说话者

(和特定的唤醒命令)。这样做,需要输入唤醒命令。在此,预定义文本可

用户直接输入或通过若干次输入语音被转换。电子装置100或服务器

将语音转换为文本。 190可

当在步骤204检测到唤醒命令时,所述方法进行到步骤206。否则,所

尽管未示出在图2中,当成功检测到唤醒命令时,在锁屏模式下“用于

述方法返回到201。

识别语音命令的对象”在显示器上被激活(见图8A)。

此对象指示语音命令模式的激活(即,装置正积

果一个褪了色的版本先前可见,则该对象

被强调的方式被显示。此时,与言

也可被显示。可选择地,当

语音识别相关的

可以是虚拟麦克风的

极收听语音命令)。此时,如

可在锁屏中被首先显示,或者,以

语/语音识别相关的图形用户界面(GUI)

检测到唤醒命令时,显示的对象可被激活并且与

GUI可立即被显示在锁屏中。

在实施例变化中,当在空闲模式下检测到唤醒命令并且屏幕被锁定时,

用于识别语音命令的对象和与语音识别相关的GUI被一起显示。当屏幕没

被锁定时,用于识别语音命令的对象和与语音识别相关的GUI也可

示。 被一起显

在步骤206,电子装置100检测在与唤醒命令相应的检测到的语音信号

的第一部分(在下文中,“第一语音信号”)和与语音命令相应的检测到的语

音信号的第二部分(在下文中,“第二语音信号”)之间的沉默持续时间(如

存在)。当然,这假设语音命令是与唤醒命令分离的实体(如上所述,

命令也是语音命令的情况下实施例是可行的)。例如,假设唤

Galaxy”,并且语音命令是“呼叫Hong Gil-dong”,当用

Galaxy”和“呼叫Hong Gil-dong”时,沉默持续时间存在

和“呼叫Hong Gil-dong”之间。

在唤醒

醒命令是“你好

户连续发音“你好

于“你好Galaxy”

在检测到的言语中的两个词语之间的短暂的停顿可被用于检测语音命令

的开始。在实施例中,紧跟着唤醒命令的检测到的语音信号的无关的部分可

被阻止与随后的语音命令一起被发送到服务器。这样做,可使用语音

测(VAD)技术。例如,语音信号通常具有比包括“沉默”时

信号具有更多的能量。然而,当背景噪声低时,可附加

特的特征。通常,通过观察贯穿各种频率的能量

的特征。人的声音包括特征标志

VAD技术可区分言语和包

置100等待直到检测

开始的声音信

送到服

段的噪

活动检

间段的背景噪声

地识别人的声音的独

分布来识别人的声音的独特

(characteristics signature)而不包括噪声。因此,

括背景噪声的沉默时间段。因此,在实施例中,装

到言语,此后,仅发送跟随唤醒命令的已检测到的言语

号,而不将包括唤醒命令之后检测到的所有声音的音频信号发

务器。即,方法200避免发送只是包含唤醒命令检测之后的沉默时间

声的信号。

在步骤208,装置100确定与语音命令相应的第二语音信号是否开始。

例如,装置100检查与“呼叫Hong Gil-dong”相应的语

当第二语音信号开始时,在步骤210,装置100将与所

叫Hong Gil-dong”)相应的语音信号发送到服务

信号的部分在此不同地被称为“发送信

号在208没有开始时,所述流程返

到服务器,装置100使得处

音信号的开始点。

述语音命令(例如,“呼

器。(发送到服务器的语音

号”)。(当与语音命令相应的语音信

回到206)。有利地,通过将语音命令发送

理器免受识别语音命令的言语的增强任务。

在步骤212,装置100从服务器接收与语音命令相应的语音识别结果。

在步骤214,装置100基于与语音命令相应的语音识别结果执行相应的

例如,服务器分析语音命令“呼叫Hong Gil-dong”,并将与“呼叫Hong

Gil-dong”相应的控制信号发送到装置100或发送路线规划请求或地图搜索

请求的搜索结果。

操作,或显示与语音识别相应的结果。例如,当从服务器接收到与“呼叫

Gil-dong”相应的控制信号时,装置100在电话簿搜索Hong Gil-dong

话号码并尝试以搜索的电话号码连接呼叫。在地图/路线请求的情况

100显示路线规划请求或地图搜索请求的搜索结果。此后,所

Hong

的电

下,装置

述处理结束。

图3是示出根据本发明的一个示例性实施例的由服务器190执行的方法

300的流程图。此方法可补足在装置100中进行操作的上述方法200的操作。

在此实施例中,在步骤301,服务器从电子装置接收发送信号(例如,

的步骤210发送的)(即,与语音命令(例如,“呼叫Hong Gil-

应的语音信号。

在图2

dong”))相

接下来,在步骤302,服务器使用语音识别算法(相当于“言语识别”

分析与语音命令相应的语音信号。即,服务器分析语音信号以识别言

当与语音识别相应的结果不是控制信号时,在步骤308,服务器将与语

算法)

语并从识别的言语辨别语音命令。在步骤304,服务器随后确定与语音识别

相应的结果是否是控制信号。如果是,则在步骤306,服务器将与语音识别

相应的控制信号发送到装置100。例如,在识别“呼叫Hong Gil-dong”之后,

服务器将相应的控制信号提供给装置100,以指示装置100以从装置100的

电话簿存储器提取的相关的电话号码呼叫Hong Gil-dong。

音识别相应的结果提供给电子装置。可选择地,服务器发送包含路线规划请

求或地图搜索请求的搜索结果的图像内容,装置100藉此显示所述内

容。

可选择地,在方法200和300的示例性实施例中,电子装置来实现唤醒

命令检测,并且服务器实现语音命令的语音识别。根据

实施例,服务器执行唤醒命令检测和语音命令的本发明的另一示例性

语音识别。

图4是根据本发明的另一示例性实施例的在装置100中执行的另一示例

方法的流程图。这里,在步骤401,在空闲模式和/或锁屏模式下,装置100

通过麦克风110从用户接收包括唤醒命令的语音信号,其中,在唤醒命令不

久之后(或连续之后)紧接着语音命令。如前所述,当识别到唤醒命令时,

激活系统。例如,唤醒命令可指示切换到用于输入语音命令的模式和

幕进行解锁。语音命令指示执行由电子装置100提供的各种功

音命令执行拨号、拍摄、MP3播放等。

/或对屏

能。例如,语

在步骤402,装置100将包括唤醒命令和语音命令的整个语音信号发送

到服务器作为发送信号。接下来,从服务器接收到与唤醒命令相应的语音验

证结果(步骤404)。即,当服务器检测到发送信号包含唤醒命令时,

发送在步骤404接收的语音识别结果;否则,服务器可不将任

送回装置100。例如,当装置在步骤404接收到识别结

唤醒命令,并且在步骤406,装置100激活系统。

或从空闲模式切换到激活模式或语音命令模式。

音命令模式,装置100随后可如步骤401

并相应地重复步骤402至404和随

服务器

何识别信号发

果时,这指示检测到

系统激活对屏幕进行解锁

(随着系统激活并且处于语

检测包含语音命令的新的语音信号,

后的步骤。)

接下来,在步骤408,装置100接收与语音命令相应的语音识别结果,

并在步骤410,基于语音识别结果执行操作或显示与语音识别相应的结果。

例如,当从服务器接收到与“呼叫Hong Gil-dong”相应的控制信号时,装

置100在电话簿搜索Hong Gil-dong的电话号码并尝试以搜索的电话号码连

接呼叫。在地图/路线示例中,装置100显示路线规划请求或地图搜索请求

搜索结果。此后,所述处理结束,装置100可在步骤401接收新的语

并且将这些新的语音信号转发到服务器以进行处理,服务器藉音信号,

此可继续通过 发送控制信号和/或与随后的语音命令相应的结果来进

100已经被唤醒,因此可以以仅用于语音命令的

相关操作重复步骤401至410。

行响应。即,由于装置

(而当然不是用于唤醒命令)

图5是根据本发明的另一示例性实施例的由服务器190执行的示例性方

在步骤501,服务器从电子装置501接收包括唤醒命令和语音命令的语

音信号(即,在步骤402发送的发送信号)。在步骤502,服务器语音识别

证算法分析与唤醒命令相应的语音信号。即,服务器分析与唤醒命令

语音信号,因此确定是否检测唤醒命令。此操作可与在实施例

执行的图2中的步骤202和204相同。注意,如图2的实施例

话者依赖和/或说话者独立算法操作(在考虑多个预定

可采用两种类型的识别方案)。

法500的流程图。此方法可完成在装置100中进行操作的上述方法400的操

相应的

中由装置100

中,可执行说

的唤醒命令的情况下,

在步骤504,服务器将言语验证结果提供给电子装置。注意,在其他实

当在步骤506检测到唤醒命令作为言语识别处理的结果时,在步骤508,

服务器随后使用语音识别算法分析与语音命令相应的语音信号。即,服务器

识别与语音命令相应的言语,并产生与将由装置100执行的动作相应

信号,用于特定辨别的语音命令。相反地,当在语音信号中未

令时,流程返回到步骤501。为此,服务器可发送通知

醒命令的信号,在步骤501,装置100藉此可继续将新

送到服务器。在各种实施方式中,当与先前的语

常时,服务器可请求和接收仅与唤醒命令

施方式中可省略步骤504。

的响应

检测到唤醒命

装置100未检测到唤

检测到的语音信号发

音命令相应的语音信号是正

相应的第一语音信号。

尽管未示出,服务器可检测与唤醒命令相应的语音信号和与语音命令相

在步骤510,服务器向电子装置通知唤醒命令结果和语音识别结果(响

接下来,服务器结束此处理,并可被配置为收听如在步骤501来自装置

图6是描绘根据本发明的另一示例性实施例的由电子装置执行的示例性

步骤601、602、604、606和608可分别与图2的201、202、204、206

在步骤601,在空闲模式或锁屏模式下,电子装置100通过麦克风110

从用户接收包括唤醒命令和语音命令的语音信号。所述唤醒命令激活系统。

例如,唤醒命令可指示切换到用于输入语音命令的模式或对屏幕进行

语音命令执行由电子装置100提供的各种功能。例如,语音命

和208相同。以下对步骤601至608的描述重述结合步骤201至208描述的

一些概念。

方法600的操作的流程图。在此实施例中,电子装置执行用于语音命令的唤

醒命令检测和语音识别两者。

100的随后的语音信号发送。为此,在装置100和服务器190之间的适当的

信令可被设计为向服务器190通知装置100是否已返回到空闲模式或锁屏模

式。如果是,服务器将把随后接收的语言信号视作可包含唤醒命令的语音信

号。如果不是,服务器将指示自然地收听新的语音命令。

应信号)。例如,服务器通过分析言语是否包含短语“你好Galaxy”来确定

是否检测到唤醒命令,分析语音命令“呼叫Hong Gil-dong”,因此将与“呼

叫Hong Gil-dong”相应的控制信号发送给电子装置100。

应的语音信号之间的沉默持续时间,因此区分唤醒命令和语音命令。

解锁。

令执行拨号、

拍摄、MP3播放等。

在步骤602,装置100使用言语识别验证算法分析语音信号,以确定语

音信号是否包含唤醒命令。如前所述,如果采用了说话者依赖识别,此操作

可涉及仅检测语音与预定语音匹配,或者预定语音还包含与预定唤醒

配的特定言语。可选择地,可使用说话者独立识别方案。当在

唤醒命令时,流程进行到步骤606;否则,流程返回到步骤

命令匹

步骤604识别

600。

在步骤606,装置100检测与唤醒命令相应的语音信号部分和与语音命

在步骤608,电子装置100确定与语音命令相应的语音信号是否开始。

当在步骤608,与语音命令相应的语音信号开始时,在步骤610,电子装

在步骤612,电子装置100基于识别的语音命令执行相应的操作。例如,

图7描绘可在上述的实施例中被分析的包括唤醒命令和语音命令的示例

当识别的语音命令是“呼叫Hong Gil-dong”时,电子装置100在电话簿搜

索Hong Gil-dong的电话号码,并尝试以搜索的电话号码连接呼叫。此后,

所述处理结束。

置100使用语音识别算法分析所述与语音命令相应的语音信号。

例如,在步骤608,电子装置100检查与“呼叫Hong Gil-dong”相应的语音

信号的开始点。

令相应的语音信号部分之间的沉默持续时间。例如,假设唤醒命令是“你好

Galaxy”并且语音命令是“呼叫Hong Gil-dong”,当用户连续发音“你好

Galaxy”和“呼叫Hong Gil-dong”时,沉默持续时间介于“你好Galaxy”

和“呼叫Hong Gil-dong”之间。

语音信号。输入到电子装置100的示意性语音信号可连续包含唤醒命令和语

音命令。即,语音信号可具有与唤醒命令相应的部分700和与语音命令相应

的部分720,其中,所述部分700和720连续输入到电子装置。沉默持续时

间部分710介于唤醒命令部分700和语音命令部

分720之间。

图8A、图8B和图8C是描绘根据本发明的示例性实施例的使用包含唤醒

命令和语音命令的语音信号进行拨号操作的屏幕截图。如图8A中所示,用

识别语音命令的图标对象800根据与唤醒命令相应的语音信号部分

活。如图8B中所示,与语音信号的语音命令部分720相应的

叫Hong Gil-dong”)被识别,随后所述操作根据所述语

Hong Gil-dong的电话号码在电话簿中被搜索,

索的电话号码自动开始呼叫连接。

700被激

语音命令(“呼

音命令被执行。例如,

并且如图8C中所示,使用搜

图9A和图9B描绘根据本发明的示例性实施例的通过言语识别和控制操

作解锁的屏幕的屏幕截面。图9A描绘示例锁定屏幕;图9B示出示例解锁

幕。可以以图2、图4和图6的上述方法(例如,步骤214、406、

中的任意方法执行用于产生如图9A和图9B中所示的解锁屏

解锁的处理。

410或612)

幕的对锁屏进行

响应于检测到与预定唤醒命令匹配或与特定用户的语音匹配的语音信号

的唤醒命令部分700,图9A的锁定屏幕被切换到图9B的解锁屏幕。尽管

示出,在屏幕被解锁之后,可通过识别与唤醒命令相应的语音信号

的与语音命令(“呼叫Hong Gil-dong”)相应的语音命令部分

应的操作。

700之后

720来执行相

在上述的本发明的示例性实施例中,唤醒命令和语音命令是分离的。可

选择地,与语音命令相应的语音信号可被用于说话者验证和语音命令。即,

使用与语音命令相应的语音信号来验证说话者。当说话者验证成功时,

据语音命令控制或执行电子装置的相应的功能。 可根

根据本公开的上述方法可单独在硬件或软件中被实施,或在硬件和软件

对于软件,可提供包含一个或多个程序(软件模块)的计算机可读存储

介质。存储到计算机可读存储介质的一个或多个程序被配置用于执行电子装

置和/或服务器的一个或多个处理器。一个或多个程序包括使电子装

服务器执行根据如在本公开的权利要求和/或说明书中所述的

的指令。

的组合中被实施。

置和/或

实施例的方法

这样的程序(软件模块,软件)可被存储到随机存取存储器、包括闪速

存储器、只读存储器(ROM)、电可擦可编程ROM(EEPROM)、磁盘存储

紧凑盘ROM(CD-ROM)、数字通

储器和磁带。可选择

或全部组合的

装置、

用磁盘(DVD)或其它光学存储装置的非易失存

地,所述程序可被存储到将这些存储介质进行部分组合

存储器。可配备多个存储器。

所述程序可被存储到通过通信网络(例如,互联网、局域网(LAN)、广

LAN(WLAN)或存储区域网(SAN)或通过组合这些网络的通信网络)可访

电子装置和/或服务器的可连接的存储装置。存储装置可通过外部端

子装置和/或服务器。

问的

口访问电

通信网络中分离的存储装置可访问便携式电子装置/服务器。

如上所述,由于包括唤醒命令部分和语音命令部分的检测到的语音信号

被处理,因此用户可容易地执行所述语音命令。

另外,由于在执行语音命令之前完成唤醒命令检测,因此可基于安全/

尽管已经参照本发明的特定示例性实施例示出和描述了本发明,但是本

领域的技术人员将理解,在不脱离权利要求及其等同物所限定的本发明的精

神和范围的情况下,可以对其进行形式和细节上的各种改变。

个人信息保护来执行语音命令。

发布评论

评论列表 (0)

  1. 暂无评论