CN104995865A

CN104995865A - 基于声音和/或面部辨识的服务提供

Info

Publication number: CN104995865A
Application number: CN201380073090.0A
Authority: CN
Inventors: J.A.鲍德温; 张广立
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-03-14
Filing date: 2013-03-14
Publication date: 2015-10-21
Anticipated expiration: 2033-03-14
Also published as: KR101731404B1; CN104995865B; EP2974124A4; WO2014139117A1; EP2974124A1; US9218813B2; KR20150103264A; JP6093040B2; JP2016517548A; US20150134330A1

Abstract

在此提供了与基于声音和/或面部辨识的服务提供相关联的装置、方法和存储介质。在实施例中，一种装置可以包括声音辨识引擎(204a)和面部辨识引擎(204b)，其被配置成单独地或彼此合作地以多个识别级别提供对用户的识别。该装置还可以包括服务代理（206），其被配置成在用户已经至少以接收服务所要求的识别级别被识别之后向该装置的用户提供服务。

Description

基于声音和/或面部辨识的服务提供

技术领域

本公开内容涉及数据处理领域，特别涉及与基于声音和/或面部辨识的服务提供相关联的装置、方法和存储介质。

背景技术

在此所提供的背景描述为了大体上呈现本公开内容的上下文的目的。除非在此另外指出，此部分中所描述的材料对于此申请中的权利要求而言不是现有技术，并且所述材料并不由于包括在此部分中而被承认是现有技术。

计算、联网和相关技术的进展已经导致在线服务的使用激增，从多媒体内容的消费到电子商务和金融服务，仅举几个例子。用户常常更喜欢利用相同的客户端设备来接入大量的服务。然而，从范围的一端，像在线观看视频文件，至另一端，像在线实施银行交易，安全要求在不同的服务之间常常大大地改变。当前现有技术缺乏相干的用户友好的提供，该提供能够可靠地满足不同在线服务的大范围的安全要求。

附图说明

结合附图通过以下详细描述将容易理解实施例。为了促进此描述，同样的附图标记指明同样的结构元件。在附图中的各图中，通过示例而不是通过限制来说明实施例。

图1说明依据各种实施例的包括适合于实践本公开内容的客户端设备的计算环境的概观。

图2说明依据各种实施例的基于声音和/或面部辨识的服务提供的示例过程。

图3说明依据各种实施例的适合用作客户端设备的示例计算环境。

图4说明依据各种实施例的具有指令的示例存储介质，所述指令被配置成使装置能够实践本公开内容的过程。

具体实施方式

在此公开了与基于声音和/或面部辨识的服务提供相关联的装置、方法和存储介质。在实施例中，例如机顶盒或计算平板电脑的装置可以包括声音辨识引擎和面部辨识引擎，所述声音辨识引擎和面部辨识引擎被配置成单独地或彼此合作地以多个识别级别提供对用户的识别。该装置还可以包括服务代理，该服务代理被配置成在用户已经至少以接收服务所要求的识别级别被识别之后向该装置的用户提供服务。服务代理的示例可以包括用于消费多媒体内容的增强型媒体播放器，或者用于实施电子商务或在线金融交易的增强型浏览器。

在以下详细描述中参考形成其一部分的附图，其中在各处同样的附图标记指明同样的部分，以及在附图中通过说明示出了可以被实践的实施例。应当理解，可以利用其它实施例以及在不偏离本公开内容的范围的情况下可以进行结构或逻辑改变。因此，以下详细说明不应在限制意义上来理解，并且实施例的范围由所附权利要求书及其等同物来限定。

可以以在理解所要求保护的主题方面最有帮助的方式将各种操作依次描述为多个分离动作或操作。然而，描述的次序不应当被解释为暗示这些操作必然是次序相关的。特别地，这些操作可以不按呈现的次序来执行。所描述的操作可以按与所描述的实施例不同的次序来执行。各种附加操作可以被执行和/或所描述的操作在附加实施例中可以被省略。

为了本公开内容的目的，短语“A和/或B”意味着（A）、（B）或（A和B）。为了本公开内容的目的，短语“A、B和/或C”意味着（A）、（B）、（C）、（A和B）、（A和C）、（B和C）、或（A、B和C）。

该描述可以使用短语“在一实施例中”或“在实施例中”，它们可以各自指代相同的或不同的实施例中的一个或更多个。此外，如关于本公开内容的实施例所使用的术语“包括”、“包含”、“具有”等等是同义的。

如在此所使用的，术语“模块”可以指代下列项的一部分或者包括下列项：专用集成电路（“ASIC”）、电子电路、执行一个或更多个软件或固件程序的处理器（共享、专用或组）和/或存储器（共享、专用或组）、组合逻辑电路、和/或提供所描述功能性的其它合适的部件。

现在参考图1，其中说明了依据各种实施例的用于实践本公开内容的包括客户端设备的计算环境。如所示的，在实施例中，环境100可以包括多个客户端设备102，其经由网络106耦合到在线服务提供商的多个服务器104。服务器104可以被配置成提供具有不同用户识别要求的大量的在线服务。这样的在线服务及它们的提供商的示例可以包括但不限于由内容分发商提供的用户定制多媒体内容服务，诸如有线电视提供商或在线多媒体内容提供商，像Youtube、Netflix等；由宿主促进的电子商务，诸如Ebay、Best Buy等；或由金融机构提供的金融服务，诸如美国银行、电子贸易（Etrade）等。如下面将更详细地描述的，在实施例中，客户端设备102可以被配置成潜在地提供更相干的、用户友好且可靠的方法以提供各种用户识别级别来满足不同在线服务的不同用户识别要求。

在实施例中，一些在线服务可以仅要求基于用户的声音特性的用户的声音辨识。其它在线服务可以仅要求基于用户的面部特征的用户的面部辨识。还有其它在线服务可以要求早先描述的用户的声音和面部辨识这二者，以及潜在地要在下面更充分地描述的甚至其它更复杂的声音和/或面部辨识识别。

在实施例中，如所示的，客户端设备102可以包括如所示出的那样彼此耦合的声音和面部辨识引擎204a和204b、以及多个服务代理206。此外，在实施例中，客户端设备102可以包括彼此耦合的呈现引擎134、用户接口引擎136、显示器124和用户输入设备126，引擎204a和204b和代理206，如所示出的。在实施例中，为了促进声音和面部辨识引擎204a和204b的合作使用，客户端设备102还可以包括至引擎204a和204b的公用接口（未示出）。在实施例中，声音和面部辨识引擎204a和204b可以被配置成单独地或与彼此合作地以多个识别级别提供用户识别。在实施例中，声音辨识引擎204a可以被配置成基于用户声音的声音特性提供对用户的识别，而面部辨识引擎204b可以被配置成基于用户面部特征提供对用户的识别。在实施例中，声音辨识引擎204a和面部辨识引擎204b可以协作来提供上面的识别。例如，在一些实施例中，可以首先采用声音辨识引擎204a将用户的识别缩小到多个潜在识别，并且然后可以采用面部辨识引擎204b基于缩小的潜在识别列表进行最终识别。在其它实施例中，合作可以被反向，也就是说，可以首先采用面部辨识引擎204b将用户的识别缩小到多个潜在识别，并且然后可以采用声音辨识引擎204a基于缩小的潜在识别列表进行最终识别。因而，对于这些合作实施例，对于首先采用的辨识引擎可以实施不太精确的（以及典型地计算不太密集的）技术，以及通过较后采用的辨识引擎可以实施更精确的（以及典型地计算更密集的）技术。总共，合作方法可以产生更准确的识别，但是利用总体更少的计算，并且因而更高效以及更有效率。

因而，根据实施例，声音辨识引擎204a可以实施大量的声音辨识技术中的任何一个或更多个来将用户的声音输入和多个声音模板进行比较以识别用户。大量的声音辨识技术可以包括但不限于频率估计技术、马尔可夫（Markov）模型技术、高斯混合模型技术、模式匹配技术、神经网络技术、矩阵表示技术、向量量化技术或决策树技术。类似地，面部辨识引擎204b可以实施大量的面部辨识技术中的任何一个或更多个来将用户的图像输入和多个参考图像进行比较。大量的声音辨识技术可以包括但不限于眼睛、鼻子、颊骨或下巴的相对位置、大小或形状的分析。

在实施例中，声音辨识引擎204a还可以被配置成识别声音输入的语义内容以使得例如所要求的通行码能够经由声音输入登录到要提供的在线服务。在其它实施例中，声音和面部辨识引擎204a和204b还可以被配置成进行合作以识别声音输入是否与如利用伴随的一系列图像输入所看到的嘴唇运动衰减同步。同步的识别可以通过至两个引擎204a和204b的公用接口基于这两个引擎204a和204b的分析来提供。在其它实施例中，声音和面部辨识引擎204a和204b还可以被配置成进行合作以识别声音输入是否与伴随图像输入位置同步，也就是提供声音输入的声音源的位置是否与图像输入的对象的位置相同。在实施例中，客户端设备102可以包括位置服务，诸如全球定位系统（GPS）部件，例如作为其它输入设备126中的一个。

仍参照图1，服务代理204可以被配置成为客户端设备102的用户提供和/或促进各种在线服务。服务代理和所促进的服务的示例可以包括但不限于：多媒体播放器，其被配置成促进包括用户定制服务在内的多媒体内容服务的提供；浏览器，其被配置成促进接入电子商务或金融服务；等等。这些多媒体播放器和浏览器将是增强版本以利用由声音和/或面部辨识引擎204a和204b提供的多级别识别服务。因而，除了使用由声音和/或面部辨识引擎204a和204b提供的多级别识别服务以外，服务代理204意图表示在客户端设备上发现的范围广泛的服务代理，包括但不限于多媒体播放器、浏览器或服务特定应用。

在实施例中，呈现引擎134可以被配置成响应于用户选择/输入呈现内容以显示在显示器124上。用户接口引擎136可以被配置成从用户接收用户选择/输入。此外，在各种实施例中，呈现引擎136和用户引擎136可以被配置成实行内容的呈现的适配以在响应一些用户命令期间增强用户体验，其中另外所述适配是对用户命令的标称响应。例如见2012年12月26日提交的名称为“CONTENT PRESENTATION WITH ENHANCED USER EXPERIENCE”的美国专利申请13/727,138。

显示器124意图表示现有技术中已知的范围广泛的显示设备/屏幕，而输入设备126意图表示现有技术中已知的范围广泛的输入设备，其包括但不限于（硬或软）键盘和光标控制设备、用于声音输入的麦克风、用于图像输入的摄像机等等。虽然被示出为客户端设备102的一部分，但是对于客户端设备102的不同实施例而言，显示器124和/或（多个）用户输入设备126可以是独立的设备或集成的。例如，对于电视布置，显示器124可以是独立的电视机、液晶显示器（LCD）、等离子体等，而元件204、206、134和136可以是单独的机顶盒的一部分，以及其它用户输入设备126可以是单独的遥控器或键盘。类似地，对于台式计算机布置，托管（hosting）具有元件204、206、134和136的计算平台的机箱、显示器124和（多个）其它输入设备126都可以是单独的独立单元。另一方面，对于膝上型电脑、超极本、平板电脑或智能电话布置，元件204、106、134和136、显示器124和其它输入设备126可以一起集成为单个形式因素。此外，对于平板电脑或智能电话布置，触敏显示屏还可以用作（多个）其它用户输入设备126之一，以及元件204、206、134和136可以是具有软键盘的计算平台的部件，所述计算平台还包括（多个）用户输入设备126之一。

网络106可以是私有和/或公共、有线和/或无线、局域和/或广域网络的任何组合。私有网络可以例如包括但是不限于企业网。公共网络可以例如包括但是不限于因特网。有线网络可以例如包括但是不限于以太网。无线网络可以例如包括但是不限于Wi-Fi、或3G/4G及其以后的网络。将理解的是，在服务器端，网络106可以包括具有网关和防火墙的一个或更多个局域网，服务器104通过所述网关和防火墙与客户端设备102通信。类似地，在客户端设备端，网络106可以包括基站和/或接入点，客户端设备102通过基站和/或接入点与服务器104通信。在客户端设备102和服务器104中的每一个内，可以存在通信/网络接口，以及在这两个端之间可以存在任何数目的网络路由器、交换机和其它联网设备等等。然而，为了便于理解，未示出这些通信/网络接口、网关、防火墙、路由器、交换机、基站、接入点等等。

现在参照图2，其中说明了依据各种实施例的用于呈现内容的示例过程。如所示的，过程300可以开始于块302，其中初始声音和/或面部识别可以通过声音和/或面部辨识引擎204a和204b来建立。如早先所描述的，使用早先所描述的多个声音辨识技术中的任何一个，初始声音识别可以由声音辨识引擎204a通过比较用户的声音输入与多个声音模板来进行。使用早先所描述的多个面部特征分析技术中的任何一个，初始面部识别可以由面部辨识引擎204b通过比较包括用户的图像输入与多个参考图像来进行。此外，如早先所描述的，初始声音和面部识别可以由声音辨识引擎204a和面部辨识引擎204b合作地进行。

从块302，过程300可以进行到块304。在块304处，例如可以由服务代理206中的每一个进行关于是否请求了服务的确定。如果例如由服务代理206之一进行的确定的结果指示对服务代理206请求了服务，对于服务代理，过程300可以从块304进行到块306。在块306处，例如可以由服务代理206进行关于用户的当前识别级别是否足以或足够允许接入所请求的服务的另一确定。如果确定的结果指示当前识别级别足以或足够允许接入所请求的服务，对于服务代理206，则过程可以从块306进行到块310。

如果确定的结果指示当前识别级别不足以或不足够允许接入所请求的服务，则过程300可以从块306进行到块308。在块308处，可以尝试附加识别级别。如早先所描述的，附加识别级别可以包括要求用户通过另一声音输入提供通行码。声音辨识引擎204a可以分析附加声音输入的语义内容以确定语义内容是否匹配预期/所要求的通行码。此外，如果需要，可以尝试诸如嘴唇同步、和/或位置同步的识别的附加识别级别。

如果成功（succ），对于服务代理206，过程300可以从块308返回到块306以确认现在足够的识别级别是适当的。如早先所描述的，在确认所要求的识别级别现在是适当的时，对于服务代理206，过程300可以从块306进行到块310。在块310处，服务代理206可以提供或促进所请求的服务。此后，对于服务代理206，过程可以进行到块314，以返回到块304，再连接等待服务请求的其它服务代理206。从块304，过程300可以如早先所描述的那样继续。

另一方面，如果在块308处过程300未能获取必要的（多个）附加识别级别来提供所请求的服务，则对于服务代理206，过程300可以进行到块312。在块312处，服务代理206可以拒绝所请求的服务并且返回到块304。再次，从块304，过程300可以如早先所描述的那样继续。

后退在块304处，如果确定的结果指示没有请求服务，则可以进行另一确定以确定是否请求了过程300的终止。如果否，则过程300可以返回到块304并且等待服务请求。如果请求了过程300的终止，则过程300可以结束。

如早先所描述的，在实施例中，服务可以包括用于消费的多媒体内容的定制提供、电子商务和/或金融服务。例如，对于多媒体内容的定制提供，在建立所要求的级别的识别时，多媒体播放器可以适配多媒体呈现，其包括但不限于：

-自动加载所识别用户的偏好

-切换到所识别用户的喜爱频道或最后观看的频道/电影

-为了更好地理解当前会话而加载所识别用户与机顶盒之间的会话历史

-加载特定于所识别用户的警告、通知和日历

-基于所识别用户的观看历史推荐频道/内容

-显示明确地以所识别用户为目标的广告

-检索所识别用户的邮件

-显示针对所识别用户过滤的或由所识别用户订阅的新闻

-为了推送更相关的信息而分析所识别用户的行为

-识别视频电话的说话者并显示该说话者的信息

-定制对来自所识别用户的服务呼叫的响应。

在另一服务场景中，要求登录的服务可以如下被提供：

1）用户可以通过向客户端设备说“嗨。”来开始处理。

2）客户端设备可以分析声音的声音生物测定并且在注册用户生物测定数据库中找到匹配；客户端设备于是可以加载所识别用户的信息，并且可以通过声音、例如说：“你好, 亲爱的大卫, 我能帮你做什么吗?”来响应于所识别用户。

3）用户大卫于是可以向客户端设备说：“让我登录到Youtube。”。

4）客户端设备可以确定登录要求附加识别级别，并且通过声音、例如说：“请面对摄像机并且说你的通行码。”来进行响应。

5）用户大卫于是可以面向摄像机并且说“我是大卫。”。

6)客户端设备于是可以确认用户的面部和声音匹配于数据库中用户的信息，以及在用声音和从面部识别了大卫之后，客户端设备于是可以继续加载用于大卫的Youtube登录的用户名和密码，并且让大卫登录到他的Youtube账号。

在又一服务场景中，要求非常高级别识别的服务、诸如银行服务可以如下被提供给用户，该用户想要从他的银行账号转账以为在线购买付款：

-具有初始识别的用户可以拿着他的银行卡到客户端设备的摄像机并且说：“嗨, 这是我的银行卡”；

-客户端设备可以首先识别银行卡号和银行名称，并且确定需要较高的识别级别；

-在确定时，客户端设备可以通过例如说“请面对摄像机并且说你的银行通行码”来作出响应；

-用户于是可以通过面向摄像机并且说“我是大卫, 并且我的生日是1980年8月”来进行响应。

-作为响应，除了提取声音输入的实质之外，客户端设备可以：

a.检查如从图像输入所看到的用户的嘴唇运动是否与声音输入同步；

b.检查被辨识为声音源的用户的位置是否与通过视觉辨识所辨识的用户的位置相同；

c.检查和确定用户的环境是否与所识别的位置一致（以防止视频记录欺骗）；

-在确认所有的附加检查/识别都已经通过时，客户端设备于是可以继续向银行系统发送用户的登录信息和声音通行码；

-此外，在银行系统已经返回了交易的成功结果之后，客户端设备随后可以通知用户交易成功。

现在参照图3，其中说明了依据各种实施例的适合于用作客户端设备的示例计算机。如所示的，计算机400可以包括一个或更多个处理器或处理器核心402、以及系统存储器404。为了包括权利要求书在内的此申请的目的，术语“处理器”和“处理器核心”可以被视为同义的，除非上下文明确另外要求。附加地，计算机400可以包括大容量存储设备406（诸如磁盘、硬盘驱动器、光盘只读存储器（CD-COM）等等）、输入/输出设备408（诸如显示器、键盘、光标控制等等）以及通信接口410（诸如网络接口卡、调制解调器等等）。这些元件可以经由可以表示一个或更多个总线的系统总线412彼此耦合。在多个总线的情况下，它们可以通过一个或更多个总线桥（未示出）进行桥接。

这些元件中的每一个可以执行其现有技术中已知的常规功能。特别地，可以采用系统存储器404和大容量存储设备406来存储编程指令的工作副本和永久副本，所述编程指令实施与早先所描述的客户端设备102实践图2的方法300相关联的操作。各种元件可以通过（多个）处理器402所支持的汇编指令或诸如例如C的可以被编译成这样的指令的高级语言来实施。

编程指令的永久副本可以（从分发服务器（未示出））通过例如分发介质（未示出）、诸如光盘（CD）或者通过通信接口410而被放到工厂中或在现场的永久存储设备406中。也就是说，可以采用具有代理程序的实施方案的一个或更多个分发介质来分发代理和对各种计算设备进行编程。

图4说明依据各种实施例的具有指令的示例非瞬时计算机可读存储介质，所述指令被配置成实践与早先所描述的图2的方法300相关联的操作中的所有操作或所选操作。如所说明的，非瞬时计算机可读存储介质502可以包括多个编程指令504。编程指令504可以被配置成响应于编程指令的执行而使设备、例如计算机400能够执行例如图2的过程300的各种操作，例如，但不限于，与建立一个或更多个用户识别级别、以及基于所建立的声音/面部识别级别提供/促进服务相关联地执行的操作。

参照回图3，对于一个实施例，处理器402中的至少一个可以与计算逻辑422一起被封装，所述计算逻辑422被配置成实践图2的过程的各方面。对于一个实施例，处理器402中的至少一个可以与计算逻辑422一起被封装以形成封装中系统（SiP），所述计算逻辑422被配置成实践图3的过程的各方面。对于一个实施例，处理器402中的至少一个可以集成在具有计算逻辑422的同一裸片上，所述计算逻辑422被配置成实践图3的过程的各方面。对于一个实施例，处理器402中的至少一个可以与计算逻辑422一起被封装以形成芯片上系统（SoC），所述计算逻辑422被配置成实践图3的过程的各方面。对于至少一个实施例，可以在例如、但不限于计算平板电脑中利用SoC。

以下段落描述各种实施例的示例。

示例1可以是具有声音辨识引擎和面部辨识引擎的装置，所述声音辨识引擎和面部辨识引擎被配置成单独地或彼此合作地以多个识别级别提供对该装置的用户的识别。该装置还可以包括服务代理，该服务代理与所述声音辨识引擎和所述面部辨识引擎中的至少一个耦合，以及被配置成在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务。

示例2可以是示例1，其中所述声音辨识引擎被配置成响应于声音输入单独地以第一识别级别提供对用户的识别，以及与所述面部辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

示例3可以是示例2，其中所述声音辨识引擎被配置成响应于所述声音输入，经由所述声音输入与多个声音模板的比较，单独地以所述第一识别级别提供对用户的识别。

示例4可以是示例3，其中所述声音辨识引擎被配置成采用以下技术之一将所述声音输入与所述多个声音模板进行比较：频率估计技术、马尔可夫模型技术、高斯混合模型技术、模式匹配技术、神经网络技术、矩阵表示技术、向量量化技术或决策树技术。

示例5可以是示例2，其中所述声音输入是第一声音输入，以及所述声音辨识引擎被配置成响应于所述第一声音输入，通过将所述第一声音输入与多个声音模板进行比较，单独地以所述第一识别级别提供对用户的识别；其中所述声音辨识引擎还被配置成响应于第二声音输入单独地以第三识别级别提供对用户的识别，其中所述第三识别级别是比所述第二识别级别更高的识别级别，使得用户能够对于要求至少所述第三识别级别的服务是合格的。

示例6可以是示例5，其中所述声音辨识引擎被配置成确定所述第二声音输入的语义内容以及比较所述第二声音输入的语义内容与语义参考。

示例7可以是示例6，其中所述语义参考是通行码。

示例8可以是示例1，其中所述面部辨识引擎被配置成响应于图像输入单独地以第一识别级别提供对用户的识别，以及与所述声音辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

示例9可以是示例8，其中所述面部辨识引擎被配置成经由所述图像输入与多个参考图像的比较单独地以所述第一识别级别提供对用户的识别。

示例10可以是示例9，其中所述面部辨识引擎被配置成经由至少对眼睛、鼻子、颊骨或下巴的相对位置、大小或形状的分析来比较所述图像输入和所述多个参考图像。

示例11可以是示例1-10中的任何一个，其中所述服务代理被配置成提供定制多媒体呈现服务，该定制多媒体呈现服务要求包括由所述声音辨识引擎和所述面部辨识引擎二者对用户的第一识别和第二识别的识别级别。

示例12可以是示例1-10中的任何一个，其中所述服务代理被配置成促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、以及由所述声音辨识引擎基于第二声音输入的语义内容的第三识别。

示例13可以是示例1-10中的任何一个，其中所述服务代理被配置成促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、由所述声音辨识引擎基于第二声音输入的语义内容的第三识别、以及使用所述声音辨识引擎和所述面部辨识引擎二者的至少第四识别。

示例14可以是示例13，其中所述第四识别包括识别至所述声音辨识引擎的实时声音输入与至所述面部辨识引擎的实时图像输入中的嘴唇运动的同步。

示例15可以是示例13，其中所述第四识别包括识别提供声音输入给所述声音辨识引擎的声音源的位置与基于至所述面部辨识引擎的图像输入所确定的用户的位置的同步。

示例16可以是示例13，其中所述在线服务包括在线金融服务。

示例17可以是示例1-10中的任何一个，其中所述装置是下列装置中的所选装置：电视机、机顶盒、智能电话、计算平板电脑、超极本、膝上型计算机或台式计算机。

示例18可以是用于提供服务的方法。该方法可以包括由计算设备经由声音辨识引擎、面部辨识引擎、或这二者单独地或彼此合作地以多个识别级别提供对所述计算设备的用户的识别；以及由所述计算设备在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务。

示例19可以是示例18，其中提供对用户的识别包括所述声音辨识引擎响应于声音输入单独地以第一识别级别提供对用户的识别，以及与所述面部辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

示例20可以是示例19，其中所述声音辨识引擎单独地提供对用户的识别包括所述声音辨识引擎通过将所述声音输入与多个声音模板进行比较而响应于所述声音输入单独地以所述第一识别级别提供对用户的识别。

示例21可以是示例20，其中所述声音辨识引擎将所述声音输入与多个声音模板进行比较包括所述声音辨识引擎采用下列技术之一将所述声音与所述多个声音模板进行比较：频率估计技术、马尔可夫模型技术、高斯混合模型技术、模式匹配技术、神经网络技术、矩阵表示技术、向量量化技术或决策树技术。

示例22可以是示例19，其中所述声音输入是第一声音输入，以及所述声音辨识引擎通过将所述第一声音输入与多个声音模板进行比较而响应于所述第一声音输入单独地以所述第一识别级别提供对用户的识别；其中所述声音辨识引擎还响应于第二声音输入单独地以第三识别级别提供对用户的识别，其中所述第三识别级别是比所述第二识别级别更高的识别级别，使得用户能够对于要求至少所述第三识别级别的服务是合格的。

示例23可以是示例22，其中所述声音辨识引擎响应于第二声音输入单独地以第三识别级别提供对用户的识别包括：所述声音辨识引擎确定所述第二声音输入的语义内容并且将所述第二声音输入的语义内容与语义参考进行比较。

示例24可以是示例23，其中所述语义参考是通行码。

示例25可以是示例18，其中经由面部辨识引擎以多个识别级别提供对所述计算设备的用户的识别包括：所述面部辨识引擎响应于图像输入单独地以第一识别级别提供对用户的识别，以及与所述声音辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

示例26可以是示例25，其中所述面部辨识引擎单独地提供对用户的识别包括：所述面部辨识引擎通过将所述图像输入与多个参考图像进行比较而单独地以所述第一识别级别提供对用户的识别。

示例27可以是示例26，其中所述面部辨识引擎通过将所述图像输入与多个参考图像进行比较而单独地以第一识别级别提供对用户的识别包括：所述面部辨识引擎经由至少对眼睛、鼻子、颊骨或下巴的相对位置、大小或形状的分析将所述图像输入与所述多个参考图像进行比较。

示例28可以是示例18-27中的任何一个，其中在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务包括：提供定制多媒体呈现服务，该定制多媒体呈现服务要求包括由所述声音辨识引擎和所述面部辨识引擎二者对用户的第一识别和第二识别的识别级别。

示例29可以是示例18-27中的任何一个，其中在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务包括：促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、以及由所述声音辨识引擎基于第二声音输入的语义内容的第三识别。

示例30可以是示例18-27中的任何一个，其中在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务包括：促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、由所述声音辨识引擎基于第二声音输入的语义内容的第三识别、以及使用所述声音辨识引擎和所述面部辨识引擎二者的至少第四识别。

示例31可以是示例30，其中所述第四识别包括识别至所述声音辨识引擎的实时声音输入与至所述面部辨识引擎的实时图像输入中的嘴唇运动的同步。

示例32可以是示例30，其中所述第四识别包括识别提供声音输入给所述声音辨识引擎的声音源的位置与基于至所述面部辨识引擎的图像输入所确定的用户的位置的同步。

示例33可以是示例30，其中所述在线服务包括在线金融服务。

示例34可以是包括多个指令的至少一个存储介质，所述多个指令被配置成响应于所述指令的执行促使客户端设备执行示例18-33的方法中的任何一个。

尽管在此为了描述的目的已经说明和描述了某些实施例，但是在不偏离本公开内容的范围的情况下可以用为了实现相同目的所计算的各种各样的替代和/或等同实施例或实施方案来代替所示出和所描述的实施例。本申请意图覆盖在此所论述的实施例的任何适配或变化。因此显然意图是在此所描述的实施例仅受权利要求书限制。

虽然本公开内容记载了“一个”或“第一”元件或其等同物，但是这样的公开内容包括一个或更多个这样的元件，既不是要求也不排除两个或更多个这样的元件。此外，针对所识别元件的序数指示符（例如，第一、第二或第三）被用来在这些元件之间进行区分，并且不指示或暗示这样的元件的所要求或有限的数目，它们也不指示这样的元件的特殊位置或次序，除非另外具体陈述。

Claims

1.一种装置，包括：

声音辨识引擎和面部辨识引擎，所述声音辨识引擎和所述面部辨识引擎被配置成单独地或彼此合作地以多个识别级别提供对所述装置的用户的识别；以及

服务代理，所述服务代理与所述声音辨识引擎和所述面部辨识引擎中的至少一个耦合，以及被配置成在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务。

2.如权利要求1所述的装置，其中，所述声音辨识引擎被配置成响应于声音输入单独地以第一识别级别提供对用户的识别，以及与所述面部辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

3.如权利要求2所述的装置，其中，所述声音辨识引擎被配置成响应于所述声音输入经由所述声音输入与多个声音模板的比较单独地以所述第一识别级别提供对用户的识别。

4.如权利要求3所述的装置，其中，所述声音辨识引擎被配置成采用以下技术之一将所述声音输入与所述多个声音模板进行比较：频率估计技术、马尔可夫模型技术、高斯混合模型技术、模式匹配技术、神经网络技术、矩阵表示技术、向量量化技术或决策树技术。

5.如权利要求2所述的装置，其中，所述声音输入是第一声音输入，以及所述声音辨识引擎被配置成响应于所述第一声音输入通过将所述第一声音输入与多个声音模板进行比较而单独地以所述第一识别级别提供对用户的识别；其中所述声音辨识引擎还被配置成响应于第二声音输入单独地以第三识别级别提供对用户的识别，其中所述第三识别级别是比所述第二识别级别更高的识别级别，使得用户能够对于要求至少所述第三识别级别的服务是合格的。

6.如权利要求5所述的装置，其中，所述声音辨识引擎被配置成确定所述第二声音输入的语义内容以及将所述第二声音输入的语义内容与语义参考进行比较。

7.如权利要求6所述的装置，其中，所述语义参考是通行码。

8.如权利要求1所述的装置，其中，所述面部辨识引擎被配置成响应于图像输入单独地以第一识别级别提供对用户的识别，以及与所述声音辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

9.如权利要求8所述的装置，其中，所述面部辨识引擎被配置成经由所述图像输入与多个参考图像的比较单独地以所述第一识别级别提供对用户的识别。

10.如权利要求9所述的装置，其中，所述面部辨识引擎被配置成经由至少对眼睛、鼻子、颊骨或下巴的相对位置、大小或形状的分析来将所述图像输入与所述多个参考图像进行比较。

11.如权利要求1-10中任一项所述的装置，其中，所述服务代理被配置成提供定制多媒体呈现服务，该定制多媒体呈现服务要求包括由所述声音辨识引擎和所述面部辨识引擎二者对用户的第一识别和第二识别的识别级别。

12.如权利要求1-10中任一项所述的装置，其中，所述服务代理被配置成促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、以及由所述声音辨识引擎基于第二声音输入的语义内容的第三识别。

13.如权利要求1-10中任一项所述的装置，其中，所述服务代理被配置成促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、由所述声音辨识引擎基于第二声音输入的语义内容的第三识别、以及使用所述声音辨识引擎和所述面部辨识引擎二者的至少第四识别。

14.如权利要求13所述的装置，其中，所述第四识别包括识别至所述声音辨识引擎的实时声音输入与至所述面部辨识引擎的实时图像输入中的嘴唇运动的同步。

15.如权利要求13所述的装置，其中，所述第四识别包括识别提供声音输入给所述声音辨识引擎的声音源的位置与基于至所述面部辨识引擎的图像输入所确定的用户的位置的同步。

16.一种用于提供服务的计算机实现的方法，包括：

由计算设备经由声音辨识引擎、面部辨识引擎、或这二者单独地或彼此合作地以多个识别级别提供对所述计算设备的用户的识别；以及

由所述计算设备在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务。

17.如权利要求16所述的方法，其中，提供对用户的识别包括所述声音辨识引擎响应于声音输入单独地以第一识别级别提供对用户的识别，以及与所述面部辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

18.如权利要求16所述的方法，其中，所述声音输入是第一声音输入，以及所述声音辨识引擎通过将所述第一声音输入与多个声音模板进行比较而响应于所述第一声音输入单独地以所述第一识别级别提供对用户的识别；其中所述声音辨识引擎还响应于第二声音输入单独地以第三识别级别提供对用户的识别，其中所述第三识别级别是比所述第二识别级别更高的识别级别，使得用户能够对于要求至少所述第三识别级别的服务是合格的。

19.如权利要求18所述的方法，其中，所述声音辨识引擎响应于第二声音输入单独地以第三识别级别提供对用户的识别包括：所述声音辨识引擎确定所述第二声音输入的语义内容并且将所述第二声音输入的语义内容与语义参考进行比较。

20.如权利要求16所述的方法，其中，经由面部辨识引擎以多个识别级别提供对所述计算设备的用户的识别包括：所述面部辨识引擎响应于图像输入单独地以第一识别级别提供对用户的识别，以及与所述声音辨识引擎合作以便以第二识别级别提供对用户的识别，所述第二识别级别是比所述第一识别级别更高的识别级别，使得用户能够对于要求至少所述第二识别级别的服务是合格的。

21.如权利要求16-20中任一项所述的方法，其中，在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务包括：提供定制多媒体呈现服务，该定制多媒体呈现服务要求包括由所述声音辨识引擎和所述面部辨识引擎二者对用户的第一识别和第二识别的识别级别。

22.如权利要求16-20中任一项所述的方法，其中，在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务包括：促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、以及由所述声音辨识引擎基于第二声音输入的语义内容的第三识别。

23.如权利要求16-20中任一项所述的方法，其中，在用户已经至少以接收服务所要求的识别级别被识别之后向用户提供所述服务包括：促进对在线服务的接入，所述在线服务要求识别级别，所述识别级别包括由所述声音辨识引擎和所述面部辨识引擎二者相应地基于第一声音输入和图像输入对用户的第一识别和第二识别、由所述声音辨识引擎基于第二声音输入的语义内容的第三识别、以及使用所述声音辨识引擎和所述面部辨识引擎二者的至少第四识别。

24.如权利要求23所述的方法，其中，所述第四识别包括识别至所述声音辨识引擎的实时声音输入与至所述面部辨识引擎的实时图像输入中的嘴唇运动的同步。

25.如权利要求23所述的方法，其中，所述第四识别包括识别提供声音输入给所述声音辨识引擎的声音源的位置与基于至所述面部辨识引擎的图像输入所确定的用户的位置的同步。

26.包括多个指令的至少一个存储介质，所述多个指令被配置成响应于所述指令的执行促使客户端设备执行如权利要求18-25所述的方法中的任何一个。