基于音频指纹的视频多匹配检测和对媒体频道识别消歧

文档序号：1755585 发布日期：2019-11-29 浏览：20次 >En<

阅读说明：本技术 基于音频指纹的视频多匹配检测和对媒体频道识别消歧 (More matching detections of video based on audio-frequency fingerprint and identifying to media channel disambiguate ) 是由徐忠源权宁抚李载炯于 2017-02-28 设计创作，主要内容包括：公开了在媒体内容的视频指纹与与多个不同频道分别对应的多个参考视频指纹匹配的情况下帮助对频道识别进行消歧的方法和系统。对于这种多匹配情况,实体可以基于媒体内容的音频分量消歧,例如通过进一步确定所讨论的媒体内容的音频指纹与该多个频道中的仅一个频道的音频指纹匹配,从而确定这即是由媒体呈现设备正在展示的媒体内容正在其上到达的频道。(It discloses and helps to identify the method and system disambiguated to channel in the case where the multiple reference video fingerprint matchings corresponding with multiple and different channels of the video finger print of media content.For this more match conditions, entity can be disambiguated based on the audio component of media content, such as by further determining that the audio-frequency fingerprint of discussed media content is matched with the audio-frequency fingerprint of the only one channel in multiple channel, so that it is determined that this is the channel just reached on it by the media content that media presentation devices are being shown.)

本申请是分案申请，其原案申请是申请号为PCT/US2017/019908、申请日为2017年2月28日的PCT申请并且于2018年8月29日进入中国国家阶段，申请号为201780014047.5，名称为“基于音频指纹的视频多匹配检测和对媒体频道识别消歧”。

相关申请的交叉引用

本申请要求2016年8月31日提交的美国专利申请15/253,354的优先权，该申请是2016年7月28日提交的美国专利申请15/222,405和2016年6月10日提交的美国专利申请15/179,143的部分继续申请；并且要求2016年2月29日提交的美国临时专利申请62/301,616的优先权。通过引用的方式将这些优先权申请中的每一个的全部内容并入本文。另外，通过引用的方式将公开号为2015/0181263的美国专利申请的公开内容整体并入本文。

背景技术

典型的媒体呈现设备操作以接收表示具有视频和音频分量的媒体内容的模拟或数字媒体流，并且在包括显示屏和音频扬声器的用户界面上展示并输出媒体内容。这样的设备的示例包括但不限于(例如，具有单独的或集成的视频展示和音频展示组件的)电视机、多媒体展示系统等。

在许多情况下，这种媒体呈现设备可以与接收器通信，例如本地机顶盒或其他类似设备或远程服务器，该接收器可以接入许多离散的媒体内容频道，并且能够选择性地将给定的这种频道的媒体内容传送到媒体呈现设备以进行播放。

举例来说，电视机可以与能够接入一组有线电视频道的有线电视机顶盒通信地连接，并且机顶盒可以配置成接收选择特定频道的用户输入并响应地调谐到所选频道，并将所选频道的视频和音频分量输出到电视机，并且电视机可以配置成展示那些视频和音频分量以展示给用户。作为另一个例子，具有单独或集成的显示器和扬声器组件的多媒体展示系统可以与能够接入大量电视或在线流媒体频道的计算机、机顶盒或其他接收器通信地连接，并且接收器可以配置成接收选择特定频道的用户输入，以响应地开始接收所选频道，并且向显示器提供频道的视频分量以展示给用户，同时向扬声器提供媒体内容的音频分量以展示给用户。

发明内容

当媒体呈现设备接收并展示媒体内容时，媒体呈现设备可能不具有哪个频道承载了媒体内容的指示。选择性地调谐到频道并接收媒体内容并向媒体呈现设备提供媒体内容的接收器或其他设备可以具有这样的信息，但是从其他设备接收媒体内容的媒体呈现设备可能没有这样的信息。例如，如果电视机与有线电视机顶盒耦合，并且用户在机顶盒上选择了特定有线频道，由于机顶盒在该频道上接收输出到电视的媒体内容，则机顶盒因此可以具有所选频道的指示。但是电视机本身可能仅仅接收和展示媒体内容，而可能没有所选频道的指示。

然而，出于各种原因，确定各种频道中的哪个频道是承载由媒体呈现设备正在展示的内容的频道可以是有用的。此外，在没有从频道选择设备(例如，接收器或遥控器)接收该设备被调谐到的频道的报告以及可能没有频道选择设备的任何参与的情况下，这样做可以是有用的。例如，对于媒体呈现设备本身和/或与媒体呈现设备协作工作的网络服务器来说，基于对媒体呈现设备展示(例如，已经展示，当前正在展示，或者在待展示队列中)的媒体内容的评估来确定频道可以是有用的。如果知道媒体内容在其上到达的频道，则媒体呈现设备、网络服务器和/或另一实体然后可以执行针对该频道的一个或更多个操作，例如，确定和记录正在播放该频道的媒体内容的广度，选择性地用替代内容(例如替换广告)替换媒体内容的预定部分，或者在媒体内容上叠加特定于频道的内容，以便与媒体内容一起展示，等等。

确定媒体内容在其上到达的频道的一种方法是使媒体呈现设备(或者可能的附属设备)和/或网络服务器生成由媒体呈现设备展示的媒体内容的数字指纹，然后将该指纹与为已知在特定频道上提供的媒体内容建立的参考指纹数据进行比较。

例如，网络服务器或其他这样的实体可以建立或以其他方式访问参考数据，参考数据包括可向媒体呈现设备提供媒体内容的每个频道(例如，向媒体呈现设备提供媒体内容的机顶盒的订阅计划内的每个频道)的参考视频指纹，并将每个参考视频指纹映射到提供媒体内容的频道。当媒体呈现设备接收并展示给定媒体内容时，媒体呈现设备进而可以生成该媒体内容的视频指纹，并且通过网络通信接口将所生成的视频指纹报告给网络服务器以供分析。然后，网络服务器可以将报告的视频指纹与参考视频指纹数据进行比较，以找到匹配的参考视频指纹，从而确定媒体内容在其上到达的频道是参考数据将该参考视频指纹映射到的频道。在由此确定了媒体内容在其上到达的频道时，网络服务器然后可以将该频道的指示传送到媒体呈现设备，并且媒体呈现设备可以执行特定于频道的动作。替选地，网络服务器本身或另一实体可以基于所确定的频道执行特定于频道的动作。

然而，不幸的是，在该过程中可能出现的问题是多个不同的频道上可能提供相同的媒体内容，可能是同时也可能是在不同时间提供的，因此，由媒体呈现设备展示的媒体内容的视频指纹可能不仅仅与媒体内容在其上到达的频道相关联。例如，体育比赛或政治事件可以在多个不同频道上同时广播，或者联合电视或广播节目可以同时或不同时地在多个不同的这样的频道上广播。在这些或其他场景中，如果媒体呈现设备展示这样的媒体内容并且生成并提供媒体内容的视频指纹，则该视频指纹可能被映射到多个参考视频指纹，因此频道识别将是不确定的。

作为这种情况的具体示例，考虑如下场景，两个不同的内容提供商分别在单独的频道上广播相同的体育比赛，而广告商只与其中一个内容提供商签订了在该提供商的广告中展示弹出广告的合同。在这种场景下，当媒体呈现设备正在接收并展示这些广播中的一个时，如果媒体呈现设备生成并向网络服务器提供广播的视频指纹，则网络服务器可以确定视频指纹与两个内容提供商的比赛广播都匹配，因此不清楚媒体呈现设备是否应该展示弹出广告。

本文公开了在媒体内容的视频指纹数据与多个不同频道分别对应的多个参考视频指纹匹配的情况下帮助对频道识别消歧的方法和系统。根据本公开，当网络服务器或其他实体检测到这种多匹配情况时，该实体然后将基于媒体内容的音频分量执行消歧。具体地，实体可以首先通过确定所讨论的媒体内容的视频指纹与多个不同频道的参考视频指纹匹配来检测多匹配场景。针对检测到的多匹配场景，实体将基于进一步确定所讨论的媒体内容的音频指纹与多个频道中的仅一个的音频指纹匹配来执行消歧，从而确定这是由媒体呈现设备展示的媒体内容在其上到达的频道，以促进执行特定于频道的动作。

在实践中，构成这种消歧的基础的音频可以是媒体内容的语言轨道。例如，多个频道可能具有彼此相同的视频轨道，但它们可能具有彼此不同的音频轨道，例如，一个用英语录音或配音，另一个用西班牙语或其它语言或声音来录音或配音。例如，在不同频道上提供相同的广播但频道具有不同语言以便于使用不同语言的用户接收和欣赏的情况下，可能出现这种情况。针对与此类频道的视频轨道相关的多匹配情况，执行该过程的实体可以使用被展示的媒体内容的音频指纹作为基础来确定哪个频道是由媒体呈现设备展示的频道。

可选地或另外地，形成该消歧的基础的音频可以采用其他形式，包括例如背景音乐、音效和/或其他音频分量。

因此，公开了一种涉及基于通过基于音频指纹的消歧而确定的频道来执行动作的方法。该方法包括计算系统，其确定由媒体呈现设备展示的媒体内容的视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配。此外，该方法包括，响应于至少确定视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配，至少部分地基于确定由媒体呈现设备展示的媒体内容的音频指纹与仅对应于单个频道的参考音频指纹匹配来执行消歧，所述消歧确定了媒体呈现设备正在该单个频道上接收媒体内容。并且该方法包括基于确定媒体呈现设备正在该单个频道上接收媒体内容来执行动作。

此外，公开了一种系统，其包括网络通信接口、处理单元、非暂时性数据存储器以及存储在非暂时性数据存储器中(例如，在其上)并且可由处理单元运行以执行各种操作的程序指令。操作包括经由网络通信接口从媒体呈现设备接收正在由媒体呈现设备展示的媒体内容的视频指纹。此外，操作包括确定所接收的视频指纹与对应于多个频道的参考视频指纹匹配。此外，操作包括经由网络通信接口从媒体呈现设备接收正在由媒体呈现设备展示的媒体内容的音频指纹。并且操作包括使用所接收的音频指纹来确定多个频道中的哪个承载了由媒体呈现设备展示的媒体内容。然后，操作包括基于所确定的频道执行动作。

并且还公开了一种非暂时性计算机可读介质，其上存储有可由处理单元执行的指令，以执行诸如本文所述的各种操作。

通过阅读以下详细描述并在需要时参考附图，这些以及其他方面、优点和替代方案对于本领域普通技术人员而言将变得显而易见。此外，应该理解，在发明内容和下文中提供的描述旨在仅通过示例而非限制的方式说明本发明。

附图说明

图1是能够应用所公开的各个原理的示例系统的简化框图。

图2是媒体呈现设备与网络服务器通信以便于实现所公开的各个原理的示例网络布置的简化框图。

图3是描绘能够根据本公开执行的操作的流程图。

图4是示例网络服务器的简化框图。

图5是示例媒体呈现设备的简化框图。

具体实施方式

参考附图，图1是能够应用所公开的各个原理的示例系统的简化框图。然而，应该理解，本文描述的这个和其他布置和过程可以采用各种其他形式。例如，元素和操作可以重新排序、分布、复制、组合、省略、添加或以其他方式修改。此外，应当理解，本文描述的由一个或更多个实体执行的功能可以通过硬件、固件和/或软件由这些实体和/或代表这些实体来实现，例如，通过执行程序指令等的一个或更多个处理单元来实现。

如图1所示，示例系统包括一个或更多个媒体内容源12(例如，广播装置、网络服务器等)，一个或更多个媒体内容分发器14(例如，多频道分发器，如有线电视提供商、卫星提供商、无线广播提供商、网络聚合器等)，一个或更多个媒体内容接收器16(例如，有线接收器、***、空中广播接收器、计算机或其他流媒体接收器等)，以及一个或更多个客户端或媒体呈现设备18(例如，电视机或其他显示设备、扬声器或其他音频输出设备等)。

在实践中，例如，媒体内容源12可以是国家广播公司，例如ABC、NBC、CBS、FOX、HBO和CNN，媒体内容分发器14可以是特定的指定市场区域(DMA)内的本地分支机构和/或其他本地内容分发者，接收器16和媒体呈现设备18可以位于诸如家或商业机构的用户端。通过这种或其他布置，内容源12可以将媒体内容传送到内容分发器14，以便分发给用户端处的接收器16，并且内容分发者可以在离散信道(例如，特定频率)上将媒体内容分发给接收器16。然后，每个接收器可以通过调谐到所选择的频道并向媒体呈现设备18输出在所选频道上到达的媒体内容来响应用户输入或一个或更多个其他触发。并且媒体呈现设备18可以接收并展示媒体内容(例如，显示或以其他方式展示内容)。

在这种布置中，当媒体呈现设备接收并展示该媒体内容时，媒体呈现设备可能不具有媒体内容在其上到达的频道的指示，即接收机调谐到的频道的指示。而是，媒体呈现设备可以被配置成仅从接收器以媒体流的形式接收媒体内容并展示接收到的媒体内容。然而，根据本公开，媒体呈现设备可以与网络服务器通信，并且可以与网络服务器一起工作以促进频道的识别，从而促进执行有用的特定于频道的动作。

媒体呈现设备18配置成从接收器16接收媒体内容的频道并且展示媒体内容以展示给用户。在这种布置中，媒体呈现设备可以是上述类型，例如电视机或包括集成或单独的视频和音频展示组件(例如，视频显示模块和相关的软件/硬件以及音频输出模块和相关的软件/硬件)的其他系统。并且接收器可以是上述类型，例如有线电视机顶盒、计算机等，配置成选择性地调谐到并输出各个媒体内容频道中的任一个。在实践中，媒体呈现设备可以与接收器具有一个或更多个连接(例如，有线或无线连接)，以促进从接收器接收：该接收器被调谐到的频道的视频和音频分量(例如，视频和音频轨道)。然后，媒体呈现设备的视频和音频展示组件可以用于展示从接收器接收的视频和音频以展示给用户。

图2接下来示出了示例网络布置，其中这种媒体呈现设备18经由诸如因特网的网络22与网络服务器20通信。在实践中，媒体呈现设备18可以作为用户端处的局域网(LAN)上的节点，其中媒体呈现设备具有在LAN中分配的网络协议(IP)地址，并且LAN具有在因特网中的IP地址。此外，网络服务器20也可以通过因特网中的IP地址来访问。通过这种布置，媒体呈现设备可以经由因特网发起和参与与网络服务器的IP通信，以报告正在由媒体呈现设备展示的媒体内容的指纹，以促进识别频道和相关联的动作。

如上所述，网络服务器20或根据本公开运作的另一实体可以建立或访问参考数据24来获得媒体内容，媒体内容被承载或计划承载在媒体呈现设备18可访问的各种频道中的至少每一个上。可以存储在关系数据库或其他形式的数据库中的参考数据可以包括针对每个频道的一个或更多个参考指纹，可能最近(例如，在覆盖最近一段时间的滑动窗口基础上)由频道承载的媒体内容的参考指纹流。可选地或另外地，参考数据可以包括可用和/或计划承载在特定频道上的每个媒体内容节目(例如，电视广播、流媒体文件等)的一个或更多个相应参考指纹(例如，参考指纹流)。此外，参考数据可以将每个参考指纹映射到其上承载或可能承载相关联的媒体内容(即，由参考视频和音频指纹唯一识别的内容)的频道。

例如，最佳地，每个频道的参考数据可以包括频道的视频分量的参考视频指纹和频道的音频分量的参考音频指纹。例如，对于每个频道，参考数据可以存储与数据记录相关联的各个参考视频指纹(例如，参考视频指纹流)和各个音频指纹(例如，参考音频指纹流)。并且参考数据还可以包括存储与数据记录相关联的相关频道的映射。

在将参考指纹映射到频道时，参考数据可以通过各种属性来表征频道，以帮助将频道彼此区分开。例如，在接收器或其他这样的设备提供可通过频道号选择的多个不同频道的情况下，参考数据可以通过其各自的频道号来表征频道。作为另一示例，在每个频道承载特定内容源的内容(例如，特定广播公司之一的内容)的情况下，参考数据可以通过其各自的内容源的标识来表征频道。此外，在不止一个内容分发者(例如，多渠道分发者)分发内容源的内容的情况下，参考数据可以通过其各自的内容分发者的标识来表征频道。在实践中，参考数据可以将每个参考指纹与这些或其他属性中的一个或更多个相关联。

网络服务器20或根据本公开操作的其他实体可以通过分析在各个频道中的每个频道上到达的媒体内容(例如，至少在服务于媒体呈现设备的接收器可用的各种频道中的每一个频道上到达的媒体内容)来建立该参考数据中的一些或全部。为了促进这一点，如图所示，服务器可以包括一个或更多个接收器16或与其互连，其中接收器16配置成在各种频道上从一个或更多个媒体内容分发器14接收媒体内容，其接收方式与接收器被配置为在用户端处接收内容的方式非常相似。例如，服务器可以包括一个或更多个有线电视机顶盒、计算机或其他媒体接收器或与之互连，或者可以配置成模拟一个或更多个这样的接收器。然后，服务器可以被配置成：使用现在已知或以后开发的任何媒体指纹识别方法，来接收和分析在每个频道上到达的相应媒体内容，并且为每个频道生成频道的视频分量的参考视频指纹和频道的音频分量的音频指纹(例如，在每帧或其他基础上计算散列，或以其他方式识别、提取并以数字的形式表示媒体内容特有的分量特征)。

在实际中，服务器可以配置成在多个这样的频道(可以是所有频道)上同时接收并且并行地分析和生成频道的相应指纹，或者服务器可以配置成从一个频道跳到另一个频道，可能重复地循环这些频道，以分析和生成每个频道的相应视频和音频指纹。此外，服务器可以继续实时地这样做，为每个频道保存媒体内容的至少最近时间窗口的相应视频和音频指纹，以供参考。并且服务器可以在参考数据中记录每个频道的参考指纹，参考数据与该频道的特性(例如，上面提到的那些属性)和指示接收到相关媒体内容的时间的时间戳信息相关联。这里，服务器知道每个频道(例如，频道号)，就像接收机通常知道接收机被调谐到的频道一样。此外，服务器可以访问指定每个这样的频道的属性(例如，内容源标识、内容分发者标识等)的指南信息或其他这样的数据，以便服务器能够分别为每个参考指纹或频道记录确定和记录频道属性。

可替代地或另外地，服务器可以接收或者可能为可用或计划在特定频道上提供的媒体内容节目建立这样的视频和音频参考指纹。例如，各种媒体内容节目的提供者或分发者可以同样使用现在已知或以后开发的任何媒体指纹识别方法为媒体内容节目生成参考视频和音频指纹，并且可以向服务器提供那些参考指纹。替选地，服务器可以预先接收媒体内容节目的副本，并且可以自己生成这样的参考指纹。此外，服务器可以从节目指南信息接收或确定媒体内容节目可用或计划提供媒体内容节目的频道，以及可以是计划提供媒体内容的日期和时间。然后，服务器可以将每个媒体内容节目的参考指纹记录在参考数据中，参考数据与媒体内容节目可用的或计划承载媒体内容节目的频道相关联，同样具有相关的频道属性，并且可以与计划提供媒体内容节目的日期和时间相关联。

此外，服务器通常可以分别为每个频道或媒体内容节目仅建立参考视频指纹而不是参考音频指纹，以促进频道识别。然后，服务器可以响应于确定存在关于那些频道的视频多匹配情况，开始建立一个或更多个特定频道中的每个频道的参考音频指纹，以进而帮助解决多匹配情况。

给定这个或其他这样的参考数据，当向服务器展示在未知频道上接收的媒体内容的指纹时，服务器可以使用现在已知或以后开发的任何指纹匹配方法将指纹与存储的参考指纹之一进行匹配，从而可以断定：所讨论的媒体内容是从参考数据将匹配参考指纹映射到的频道上到达的。因此，如果服务器面对由媒体呈现设备18展示的媒体内容的指纹，则服务器可以将指纹与参考数据中的参考指纹进行比较。并且如果服务器因此找到匹配的参考指纹，则服务器可以识别参考数据映射将匹配的参考指纹映射到的频道，并且可以断定：这是媒体呈现设备正在其上接收媒体内容的频道(即，即承载媒体呈现设备正在展示的媒体内容的频道)。转而，服务器可以响应地基于所识别的频道执行特定于频道的动作，或者使一个或更多个其他实体基于所识别的频道执行特定于频道的动作。

在实践中，与已知频道的参考视频指纹相比，由媒体呈现设备正在展示的频道的视频指纹通常可以足够用作识别正在展示的频道的基础。因此，在一般实践中，媒体呈现设备18或另一实体可以配置成生成由媒体呈现设备正在展示的频道的视频指纹，并将视频指纹发送到服务器20以进行分析。

然而，如本公开所述的，可能还存在由媒体呈现设备展示的频道的视频指纹与多个频道相关联的多个参考视频指纹匹配的情况。并且在这种情况下，正在展示的频道的音频指纹可以用作消歧的基础。因此，无论是在一般实践中还是对发生这种视频多匹配的情况做出响应时，媒体呈现设备或其他实体还可以配置成生成由媒体呈现设备正在展示的频道的音频指纹，并且将该音频指纹发送到服务器20以用于分析。

为此目的，图2示出了媒体呈现设备18可以包括视频指纹生成器26和音频指纹生成器28，其可以被提供成例如硬件和/或软件(编程处理器)组件。视频指纹生成器26可以配置成生成由媒体呈现设备正在展示的媒体内容的数字视频指纹，并且音频指纹生成器28可以配置成生成由媒体呈现设备正在展示的媒体内容的数字音频指纹。此外，这样的指纹生成器可以配置成当媒体呈现设备从接收器16接收媒体内容时和/或当媒体呈现设备正在处理媒体内容以供展示时生成媒体内容的指纹。这样，指纹生成器可以接收从接收器到达媒体呈现设备和/或被媒体呈现设备处理以供展示的媒体内容的副本作为输入，并且应用现在已知或以后开发的任何媒体指纹识别方法来生成媒体内容的指纹。

视频指纹生成器26可以配置成对在持续的基础生成视频指纹作为指纹流，例如对于每帧(例如，每个关键帧基础)或其他基础。并且媒体呈现设备可以配置成经由网络22将视频指纹发送到服务器20以进行分析。作为示例，媒体呈现设备可以配置成周期性地或不时地向服务器发送视频指纹，该视频指纹表示由媒体呈现设备正在展示的媒体内容的最新帧、一系列帧或其他片段或部分。特别地，媒体呈现设备可以生成承载最新生成的视频指纹连同一个或更多个时间戳和/或其他此类数据以及媒体呈现设备的标识符的消息，并且可以将该消息发送到服务器的IP地址。并且服务器因此可以接收视频指纹以进行分析。

替选地，媒体呈现设备可以向服务器发送，并且服务器因此可以接收关于由媒体呈现设备正在展示的媒体内容的各种数据，同样地，对于持续的基础或其他基础，使服务器本身或另一实体能够生成由媒体呈现设备正在展示的媒体内容的视频指纹。例如，媒体呈现设备可以向服务器发送由媒体呈现设备正在展示的视频分量的部分，比如单独的帧(例如，快照)或视频分量的其他片段。并且服务器可以应用现在已知或以后开发的任何视频指纹识别方法来生成媒体内容的视频指纹以供分析。

通过上述过程，服务器然后可以使用现在已知或以后开发的任何数字视频指纹比较方法，将由媒体呈现设备正在展示的媒体内容的视频指纹与参考数据中的参考视频指纹进行比较。并且如上所述，如果服务器因此找到匹配的参考视频指纹，则服务器可以确定参考数据将匹配的参考视频指纹映射到的频道，并且可以断定所确定的频道是承载由媒体呈现设备正在展示的媒体内容的频道。

响应于由此确定了所讨论的频道，服务器然后可以基于频道的确定来执行或促使执行一个或更多个特定于频道的动作。特别地，服务器本身可以基于频道确定来执行动作，或者服务器可以向另一个实体发信号，可能向媒体呈现设备发信号，以使另一个实体基于频道确定而执行动作。

例如，服务器可以记录媒体呈现设备正在展示该特定频道的内容的事实，作为频道评级或分析系统用来测量媒体呈现设备正在展示的特定频道的广度的一部分。例如，媒体呈现设备可以定期(例如，周期性地)向服务器报告媒体呈现设备正在展示的媒体内容的视频指纹，并且服务器可以执行诸如本文讨论的那些过程以确定正在展示的频道。每次服务器因此确定正在展示的频道时，服务器可以增加正在展示的频道的计数或其他统计数据，作为指示该频道被展示的广度的数据。此外，这些计数或其他统计可以是每个媒体呈现设备的(作为特定于设备的观看分析)，指示媒体呈现设备展示所讨论的频道的广度。

在另一个例子中，服务器可以响应地使媒体呈现设备展示补充内容，例如，如上所述的弹出广告、商业广告或频道标识等等，可能用作媒体内容的一个或更多个部分的替代，以及用作视频和/或音频内容。例如，在知道所讨论的频道的情况下，服务器可以生成或选择(例如，从服务器数据存储器)与所确定的频道特别相关联的特定补充媒体内容(并且可能还基于与特定媒体呈现设备相关联的简档数据(例如，特定于设备的观看分析)来生成或选择)，并且可以将补充媒体内容发送到媒体呈现设备，以使媒体呈现设备结合媒体呈现设备正从接收器接收的媒体内容来展示。因此，媒体呈现设备可以从服务器接收补充媒体内容，并将其与媒体呈现设备正从接收器接收的媒体内容一起展示。

在实际应用中，该过程可以涉及服务器从媒体呈现设备实时接收由媒体呈现设备正在展示的媒体内容的视频指纹，以及服务器确定所接收的视频指纹与服务器在已知频道上同时(或在预定时间)接收的媒体内容的参考指纹匹配。

在一些情况下，媒体呈现设备展示媒体内容和时间戳并将视频指纹发送到服务器的时间以及服务器在已知频道上接收媒体内容并以其它方式为参考视频指纹加时间戳的时间之间可能存在时间差。服务器可以通过在参考视频指纹的滑动窗口上比较接收的视频指纹来考虑该时间差，反之亦然。此外，服务器可以在响应于所接收的视频指纹与参考视频指纹之间的确定的匹配而执行动作时考虑该时间差。例如，如果媒体呈现设备接收的媒体内容足够早于服务器的内容时间戳(例如，早超过几秒的时间)，则服务器仍然可以识别视频指纹匹配并且可以记录分析数据。但是响应于检测到该时间差，服务器可能放弃使媒体呈现设备展示相关联的补充内容，以从用户的角度来帮助避免媒体呈现设备过晚(例如，不同步)展示补充内容的情况。另一方面，如果服务器检测到视频指纹匹配足够长的时间段和/或确定匹配内容将继续，则服务器可以使媒体呈现设备展示补充内容，即使在面对这样的时间差时也是如此。

在任何情况下，通过这些或其他这样的过程，网络服务器或其他实体能够确定媒体呈现设备正在接收所讨论的媒体内容的频道。并且一旦实体确定了频道，则实体可以基于频道确定来执行动作。替选地，实体可以向另一个实体发信号，可能返回给媒体呈现设备信号，以使另一个实体基于频道确定来执行动作。其他例子也是可以的。

根据上面的讨论，服务器20或可以访问如上所述的参考数据的其他实体可以配置成识别视频多匹配场景，可能通过在参考数据中检测彼此匹配并且与媒体呈现设备正在展示的媒体内容的视频指纹匹配的各个参考视频指纹。

例如，在一种实施方式中，服务器可以使用任何现在已知或以后开发的视频指纹匹配方法比较参考数据中的视频参考指纹对，来定期分析参考数据以搜索视频多匹配场景，以试图找到彼此匹配的参考视频指纹。在找到至少两个参考视频指纹的每个这样的匹配时，服务器然后可以将参考视频指纹标记为多匹配组。如果由媒体呈现设备正在展示的媒体内容的视频指纹与标记的多匹配组中的任何参考视频指纹匹配，则这样的标记可以指示将存在潜在的歧义性。服务器可以以各种方式将参考视频指纹标记为多匹配组。例如，服务器可以交叉引用参考数据中的多匹配组的参考视频指纹，以指示它们是多匹配组的成员。

利用该实施方式，当服务器从媒体呈现设备接收由媒体呈现设备正在展示的媒体内容的视频指纹并且服务器确定所接收的视频指纹与参考视频指纹匹配时，服务器进而可以容易地从参考数据确定是否存在多匹配情况。如果匹配的参考视频指纹未被标记为多匹配组的成员，则服务器可以断定存在单匹配情况(而不是多匹配情况)，在这种情况下，如上所述，然后，服务器可以容易地从参考数据确定与匹配参考指纹相关联的频道，并且可以断定这是承载由媒体呈现设备正在展示的媒体内容的频道。然而，如果匹配的参考视频指纹被标记为多匹配组的成员，则服务器可以断定存在多匹配情况(而不是单匹配情况)，在这种情况下，服务器可能需要执行消歧处理以帮助从与多匹配组的参考视频指纹相关联的那些中识别所讨论的频道。

替选地，在另一实施方式中，服务器可以在服务器从媒体呈现设备接收视频指纹时识别视频多匹配组。例如，当(例如，在)服务器从媒体呈现设备接收视频指纹时，服务器可以将接收到的视频指纹与参考数据中的所有参考视频指纹进行比较。如果服务器由此检测到所接收的视频指纹仅与参考视频指纹中的一个匹配，则服务器可以断定存在单匹配情况(而不是多匹配情况)，在这种情况下，服务器然后可以容易地从参考数据确定与匹配参考指纹相关联的频道，并且可以断定这即是承载由媒体呈现设备正在展示的媒体内容的频道。然而，如果服务器检测到所接收的视频指纹与两个或更多个参考视频指纹匹配，则服务器可以断定存在多匹配情况(而不是单匹配情况)，在这种情况下，服务器可能需要执行消歧处理以帮助从与多匹配组的参考视频指纹相关联的频道中识别所讨论的频道。

注意，类似于上面讨论的过程，可以执行检测涉及两个或更多个参考视频指纹的多匹配情况的过程，即使两个参考视频指纹表示相对于彼此在有时间延迟的两个不同频道上承载的相同媒体内容，即，其中一个频道上的媒体内容的展示相对于另一个频道上的相同媒体内容的展示存在时间偏移。指纹匹配过程可以考虑该时间偏移，并且如果视频指纹彼此匹配则仍然可以找到匹配项，例如通过将一个视频指纹在滑动窗口上与另一个视频指纹进行比较。例如，在参考数据内找到匹配的参考视频指纹的过程可以涉及搜索满足如下条件的参考视频指纹：彼此匹配并且在彼此的阈值时间间隔内的相应时间展示和/或调度。

如上所述，当执行该分析的服务器或其他实体检测到由媒体呈现设备正在展示的媒体内容的视频指纹与多个频道分别对应的多个参考指纹匹配时，该实体可以应用消歧方法来帮助确定与多匹配组相关联的频道中的哪个频道是承载由媒体呈现设备正在展示的媒体内容的实际频道。

根据本公开，消歧方法能够以进一步确定由媒体呈现设备正在展示的媒体内容的音频指纹仅与单个频道匹配为基础。

如上所述，这种消歧形式可以应用于多个频道提供具有相关音频的相同视频并且频道上的视频大部分相同但频道具有彼此不同的音频轨道的情况。在这种情况下，当面对视频多匹配时，服务器或其他实体然后可以利用由媒体呈现设备正在展示的音频分量的音频指纹作为消歧的基础。特别地，服务器可以将从媒体呈现设备接收的音频指纹和与视频多匹配组相关联的频道的参考音频指纹进行比较，从而可以确定音频指纹仅那些频道中的一个频道的参考音频指纹匹配，从而支持这样的结论：该一个频道是承载由媒体呈现设备正在展示的媒体内容的频道。

为了在实践中促进这一点，如上所述，服务器可以定期从媒体呈现设备接收由媒体呈现设备正在展示的音频分量的音频指纹(例如，音频指纹流)。并且服务器可以定期建立或接收包括各种可用频道的参考音频指纹(例如，参考音频指纹流)的参考数据。因此，当面对视频多匹配情况时，服务器可以容易地将来自媒体呈现设备的音频指纹与多匹配组成员的音频指纹进行比较以便消歧。

替选地，如上所述，服务器可以定期从媒体呈现设备接收视频指纹而不接收音频指纹，在这种情况下，一旦检测到视频多匹配情况，服务器就可以请求媒体呈现设备提供正在展示的媒体内容的音频指纹，以促进消歧。此外，服务器可以定期仅生成每个可用频道的参考视频指纹，在这种情况下，一旦检测到视频多匹配情况，服务器就可以开始生成与视频多匹配组相关联的频道的音频指纹，以便消歧。

还要注意，在某些情况下，两个不同频道的音频轨道可能仅部分地彼此不同。例如，两个频道可以提供彼此相同的电影内容，包括相同的背景音乐和音效，但是频道可以具有彼此不同的语言轨道(例如，一个用英语而另一个用西班牙语配音)。为了考虑这样的部分音频轨道差异，服务器可以在一段时间内执行音频指纹比较，并且可以识别和跟踪音频轨道之间的区别，以用于消歧和解决视频多匹配情况。

例如，服务器可以从媒体呈现设备接收音频指纹流一段时间(例如，大约60-120秒)，并且服务器可以确定音频指纹流的一个时间片段与多匹配组的多个参考音频指纹匹配，但是可以确定音频指纹流的另一时间片段仅与该参考音频指纹中的一个匹配，从而确定与匹配参考音频指纹相关联的频道是所讨论的频道。序列号为15/222,405的美国专利申请提供了使用较早或较晚的指纹时间片段作为基础来执行这种消歧的进一步讨论，并且其中讨论的原理也可以应用于此情景中。

此外，在服务器预先评估参考视频指纹并在参考数据中标记视频多匹配组的实施方式中，服务器可以比较与多匹配组相关联的频道的参考音频指纹，以确定参考音频指纹是否彼此不同，如果是，可以进一步标记视频多匹配组，以指示音频指纹分析可以促进消歧。例如，服务器可以记录与视频多匹配组相关联的布尔值或音频指纹分析可以促进消歧的其他指示。在稍后检测到关于由媒体呈现设备提供的视频指纹的视频多匹配情况之后，服务器然后可以检测到视频多匹配组被如此进一步标记，并且，响应于检测到视频多匹配情况以及检测到进一步的标记，服务器可以响应地开始基于音频指纹分析寻求消歧的方法。

上面结合视频指纹分析讨论的各个方面也可以应用于音频指纹分析以促进多匹配的消歧。例如，正如媒体呈现设备可以向服务器提供媒体内容数据(例如，正在展示的媒体内容的单独的视频帧或其他片段)以使服务器自身能够生成媒体内容的视频指纹以供分析，媒体呈现设备也可以向服务器提供媒体内容(例如，正在展示的媒体内容的音频片段)，以使服务器自身能够生成媒体内容的音频指纹以供分析。作为另一个例子，就像服务器在比较视频指纹时可以考虑时移并且可以小心避免执行某些动作来响应足够陈旧的视频指纹数据一样，当比较音频指纹时，服务器也可以考虑时移，并且可以小心避免执行某些动作来响应足够陈旧的音频指纹数据。并且作为又一个示例，正如服务器可以使用现在已知或以后开发的任何视频指纹匹配方法来比较视频指纹一样，服务器也可以使用现在已知或以后开发的任何音频指纹匹配方法来比较音频指纹。其他例子也是可以的。

另外，请注意，虽然本文的讨论主要集中在基于音频指纹分析来识别视频多匹配情况并进而消歧的服务器20上，但是所描述的一些或所有操作可替代地由一个或更多个其他实体代替服务器或与服务器协作来执行。

例如，操作中一个或更多个可以由媒体呈现设备本身执行，或者由与媒体呈现设备本地通信的附属系统执行。举例来说，媒体呈现设备本身可以被提供或可以访问如上所述的参考数据，媒体呈现设备本身可以参考参考数据来识别视频多匹配情况，基于音频指纹分析执行消歧，从而识别提供由媒体呈现设备正在展示的媒体内容的频道。此外，响应于检测到视频多匹配情况，媒体呈现设备然后可以向服务器请求并接收与视频多匹配组相关联的频道的参考音频指纹，或者媒体呈现设备可以被单独提供这样的参考音频指纹数据。然后，媒体呈现设备本身可以通过将这样的音频指纹与正被展示的音频分量的音频指纹进行比较来执行消歧。此外，媒体呈现设备然后可以自己执行特定于频道的动作，例如展示特定于频道的内容、记录频道呈现等，或者可以使一个或更多个其他实体或与一个或更多个其他实体一起执行这样的动作。

接下来，图3是描绘能够根据上述讨论执行的方法的流程图。图3所示方法中的一个或更多个操作可以由一个或更多个实体来执行，包括但不限于网络服务器、媒体呈现设备、和/或代表这些或其他实体或与这些或其他实体合作的一个或更多个实体。任何这样的实体可以包括被配置成执行一个或更多个方法操作的计算系统，例如编程处理单元等。此外，非暂时性数据存储器(例如，盘存储器、闪存存储器或其他计算机可读介质)可以在其上存储可由处理单元执行以执行各种所描绘的操作的指令。

如图3所示，在框30处，该方法包括计算系统确定由媒体呈现设备正在展示的媒体内容的视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配。在框32处，该方法然后包括，响应于至少确定视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配，至少部分地基于确定由媒体呈现设备正在展示的媒体内容的音频指纹与仅对应于单个频道的参考音频指纹匹配来执行消歧，所述消歧确定媒体呈现设备正在该单个频道上接收媒体内容。在框34处，该方法包括基于确定媒体呈现设备正在该单个频道上接收媒体内容来执行动作。

如上所述，由媒体呈现设备正在展示的媒体内容可以具有视频轨道和音频轨道(例如，至少语言轨道)，并且视频指纹可以是视频轨道的指纹，音频指纹可以是音频轨道的指纹。

此外，如上所述，在计算系统是除媒体呈现设备之外的服务器或其他实体的情况下，媒体呈现设备可以生成由媒体呈现设备正在展示的媒体内容的视频和音频指纹，并且计算系统可以从媒体呈现设备接收那些指纹。

此外，在示例实施方式中，可以从参考数据中的数个参考指纹中选择多个参考指纹，在这种情况下，确定由媒体呈现设备正在展示的媒体内容的视频指纹与该多个参考视频指纹匹配可以涉及(i)将由媒体呈现设备正在展示的媒体内容的视频指纹与参考数据中的数个参考视频指纹进行比较，(ii)基于比较结果，确定由媒体呈现设备正在展示的媒体内容的第一片段的视频指纹与该多个参考视频指纹匹配。

而且，该方法还可以包括检测和标记由该多个参考指纹组成的多匹配组，在这种情况下，确定由媒体呈现设备正在展示的媒体内容的视频指纹与多个参考视频指纹匹配的动作可以涉及：确定由媒体呈现设备正在展示的媒体内容的视频指纹与标记的多匹配组的参考视频指纹匹配。

并且该方法还可以包括(i)比较与标记的多匹配组的视频指纹相对应的音频指纹；(ii)基于比较结果，检测比较的音频指纹之间的差异；(iii)响应于检测到差异，进一步标记多匹配组以指示音频指纹分析可以促进消歧。并且在该情况下，基于确定媒体呈现设备正在展示的媒体内容的音频指纹与仅对应于单个频道的参考音频指纹的匹配来执行消歧的动作可以进一步对确定进一步标记多匹配组以指示音频指纹分析可以促进消歧做出响应。

同样根据上面的讨论，该方法可以包括确定由媒体呈现设备正在展示的媒体内容的音频指纹与仅对应于单个频道的参考音频指纹匹配。例如，该方法可以包括(i)将媒体呈现设备正在展示的媒体内容的音频指纹和与多个该参考视频指纹的相同的频道对应的参考音频指纹进行比较，(ii)基于比较结果，确定媒体呈现设备正在展示的媒体内容的音频指纹仅与参考音频指纹中的单个参考音频指纹匹配。

此外，如上所述，计算系统可以是媒体呈现设备之外的实体。并且该方法还可以包括：响应于至少确定视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配，计算系统向媒体呈现设备请求并接收由媒体呈现设备正在展示的媒体内容的音频指纹，以促进基于获得的音频指纹执行消歧。

并且进一步地，该方法可以包括，响应于至少确定视频指纹与各自对应于不同的相应频道的多个参考指纹匹配，生成与该多个参考视频指纹相同的频道对应的参考音频指纹，以促进比较。

此外，如上所述，基于确定媒体呈现设备正在该单个频道上接收媒体内容而执行动作的操作可以涉及执行从以下操作中选择的操作：(i)使补充的特定于频道的内容与媒体呈现设备正在展示的媒体内容一起展示，(ii)记录该单个频道的呈现，用于频道评级系统。并且，如上所述，该方法能够至少部分地由媒体呈现设备执行。

接下来，图4是可根据本公开操作的示例系统的简化框图。该系统可以表示如上所述的网络服务器，和/或一个或更多个其他实体(可能包括媒体呈现设备)。如图4所示，示例系统包括网络通信接口40、处理单元42、非暂时性数据存储器44，其中任一个或全部可以集成在一起，或者如图所示，通过系统总线、网络或其他连接机制46通信地连接在一起。

网络通信接口40可以包括一个或更多个物理网络连接机制，以促进在诸如上面讨论的网络22的网络上进行通信，和/或用于与一个或更多个其他本地或远程实体进行直接或联网通信。这样，网络通信接口可以包括无线或有线以太网接口或其他类型的网络接口，用于参与IP通信和/或其他类型的网络通信。

然后，处理单元42可以包括一个或更多个通用处理器(例如，微处理器)和/或一个或更多个专用处理器(例如，专用集成电路)。并且非暂时性数据存储器44可以包括一个或更多个易失性和/或非易失性存储组件，例如光学、磁性或闪存存储器。

如图所示，数据存储器44然后存储程序指令48，程序指令48可由处理单元42执行以实施本文所述的各种操作。例如，程序指令可以被执行，以(i)经由网络通信接口从媒体呈现设备接收由媒体呈现设备正在展示的媒体内容的视频指纹，(ii)确定所接收的视频指纹与多个频道对应的参考视频指纹匹配，(iii)经由网络通信接口从媒体呈现设备接收由媒体呈现设备正在展示的媒体内容的音频指纹，(iv)使用所接收的音频指纹来确定多个频道中的哪个频道承载了由媒体呈现设备正在展示的媒体内容，以及(v)基于所确定的频道执行动作。

根据本文的讨论，这些操作可以采取各种形式。例如，从媒体呈现设备接收由媒体呈现设备正在展示的媒体内容的音频指纹的动作可以在确定所接收的视频指纹与多个频道对应的参考视频指纹匹配之前的某个时刻发生，可能同时接收音频指纹和视频指纹。替选地，从媒体呈现设备接收由媒体呈现设备正在展示的媒体内容的音频指纹的动作可以响应于确定所接收的视频指纹与多个频道对应的参考视频指纹匹配而执行，例如，通过向媒体呈现设备发送对由媒体呈现设备正在展示的媒体内容的音频指纹的请求并响应于发送该请求而接收音频指纹来响应视频多匹配。其他例子也是可以的。

最后，图5是可根据本公开操作的示例媒体呈现设备的简化框图。根据上面的讨论，该媒体呈现设备可以采用各种形式。例如，它可以是电视机、计算机监视器或用于接收和展示视频内容的其他设备，和/或它可以是扬声器、一对耳机或用于接收和展示音频内容的其他设备。许多其他例子也是可以的。

如图5所示，示例媒体呈现设备包括媒体输入接口50、媒体呈现接口52、网络通信接口54、处理单元56和非暂时性数据存储器58，其中任何一个或全部可以集成在一起，或者如图所示，通过系统总线、网络或其他连接机制60通信地连接在一起。

媒体输入接口50可以包括物理通信接口，用于接收由媒体呈现设备展示的媒体内容。这样，媒体输入接口可以包括一个或更多个有线和/或无线接口，用于与接收器或其他设备或系统建立通信连接并从其接收以模拟或数字形式的媒体内容。例如，媒体输入接口可以包括一个或更多个符合诸如DVI、HDMI、VGA、USB、蓝牙、WIFI等协议的接口。

然后，媒体呈现接口52可以包括一个或更多个组件，以促进展示所接收的媒体内容。作为示例，媒体呈现接口可以包括用户界面，例如显示屏和/或扬声器，以及用于处理所接收的媒体内容的一个或更多个驱动器或其他组件，以促进在用户界面上展示内容。

网络通信接口54可以包括物理网络连接机制，以促进在诸如上面讨论的网络22的网络上进行通信，和/或用于与一个或更多个其他本地或远程实体进行直接或联网通信。这样，网络通信接口可以包括无线或有线以太网接口或其他类型的网络接口，用于参与IP通信和/或其他类型的网络通信。

然后，处理单元56可以包括一个或更多个通用处理器(例如，微处理器)和/或一个或更多个专用处理器(例如，专用集成电路)。并且非暂时性数据存储器58可以包括一个或更多个易失性和/或非易失性存储组件，例如光学、磁性或闪存存储器。另外，如图所示，数据存储器58然后存储程序指令62，程序指令62可由处理单元56执行以执行本文所述的各种操作。例如，程序指令可以被执行以：基于对在媒体输入接口50处接收的媒体内容的分析和/或在媒体呈现接口处处理的媒体内容的分析，以在持续的基础上或根据请求生成由媒体呈现设备正在展示的媒体内容的视频指纹和音频指纹，并且在持续的基础上或根据请求提供所生成的指纹以促进如本文所述的频道识别。

上面已描述了示例性实施例。然而，本领域技术人员将理解，在不脱离本发明实际范围和精神的情况下，可以对这些实施例进行改变和修改。

本申请公开了以下实施例A1-G51

A1、一种基于通过基于音频指纹的消歧而确定的频道来执行动作的方法，包括：

由计算系统确定由媒体呈现设备正在展示的媒体内容的数字视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配；

响应于至少确定所述数字视频指纹与各自对应于不同的相应频道的所述多个参考视频指纹匹配，至少部分地基于确定由所述媒体呈现设备正在展示的媒体内容的数字音频指纹与仅对应于所述多个参考视频指纹所对应的频道的单个频道的参考音频指纹匹配来由计算系统执行消歧，所述消歧确定所述媒体呈现设备正在所述单个频道上接收媒体内容；以及

基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容由计算系统来执行动作。

A2、根据权利要求A1所述的方法，其中，由所述媒体呈现设备正在展示的媒体内容具有视频轨道和音频轨道，其中所述数字视频指纹是所述视频轨道的指纹，并且所述数字音频指纹是所述音频轨道的指纹。

A3、根据权利要求A1所述的方法，其中，由所述媒体呈现设备正在展示的媒体内容的数字音频指纹至少表示由所述媒体呈现设备正在展示的媒体内容的语言轨道。

A4、根据权利要求A1所述的方法，其中，所述计算系统是除媒体呈现设备之外的实体，并且其中，所述数字视频指纹和数字音频指纹是由所述媒体呈现设备生成的，所述方法还包括：

由所述计算系统从所述媒体呈现设备接收所述数字视频指纹和数字音频指纹。

A5、根据权利要求A1所述的方法，其中，所述多个参考视频指纹选自参考数据中的数个参考视频指纹，并且其中，确定由所述媒体呈现设备正在展示的媒体内容的数字视频指纹与所述多个参考视频指纹匹配包括：

将由所述媒体呈现设备正在展示的媒体内容的数字视频指纹与所述参考数据中的所述数个参考视频指纹进行比较，以及

基于比较结果，确定由所述媒体呈现设备正在展示的媒体内容的数字视频指纹与所述多个参考视频指纹匹配。

A6、根据权利要求A1所述的方法，所述方法还包括检测和标记由所述多个参考视频指纹组成的多匹配组，

其中，确定由所述媒体呈现设备正在展示的媒体内容的数字视频指纹与所述多个参考视频指纹匹配包括：确定由所述媒体呈现设备正在展示的媒体内容的数字视频指纹与标记的多匹配组的参考视频指纹匹配。

A7、根据权利要求A6所述的方法，所述方法还包括：

比较与标记的多匹配组的参考视频指纹相对应的参考音频指纹；

基于比较结果，检测比较的参考音频指纹之间的差异；以及

响应于检测到差异，进一步标记所述多匹配组以指示音频指纹分析能够促进消歧，

其中，进一步响应于确定进一步标记所述多匹配组以指示音频指纹分析能够促进消歧，基于确定由所述媒体呈现设备正在展示的媒体内容的数字音频指纹与仅对应于单个频道的参考音频指纹匹配来执行消歧。

A8、根据权利要求A1所述的方法，其中，所述计算系统是除所述媒体呈现设备之外的实体，所述方法还包括：

响应于至少确定所述数字视频指纹与各自对应于不同的相应频道的所述多个参考视频指纹匹配，由所述计算系统向所述媒体呈现设备请求并接收由所述媒体呈现设备正在展示的媒体内容的数字音频指纹，以促进基于所获得的数字音频指纹执行消歧。

A9、根据权利要求A1所述的方法，所述方法还包括：

响应于至少确定所述数字视频指纹与各自对应于不同的相应频道的所述多个参考指纹匹配，生成与所述多个参考视频指纹所对应的频道对应的参考音频指纹，以促进消歧。

A10、根据权利要求A1所述的方法，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：使补充的特定于频道的内容与媒体呈现设备正在展示的媒体内容一起展示。

A11、根据权利要求A1所述的方法，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：选择性地用替换广告替换媒体内容的预定部分。

A12、根据权利要求A1所述的方法，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：记录所述单个频道的呈现以用于频道评级系统。

A13、根据权利要求A1所述的方法，所述方法至少部分地由所述媒体呈现设备执行。

B14、一种非暂时性计算机可读介质，其上存储有指令，所述指令能够由处理单元执行以执行操作，所述操作包括：

确定由媒体呈现设备正在展示的媒体内容的数字视频指纹与各自对应于不同的相应频道的多个参考视频指纹匹配；

响应于至少确定所述数字视频指纹与各自对应于不同的相应频道的所述多个参考视频指纹匹配，至少部分地基于确定由所述媒体呈现设备正在展示的媒体内容的数字音频指纹与仅对应于所述多个参考视频指纹所对应的频道的单个频道的参考音频指纹匹配来执行消歧，所述消歧确定媒体呈现设备正在所述单个频道上接收媒体内容；以及

基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作。

B15、根据权利要求B14所述的非暂时性计算机可读介质，其中，由所述媒体呈现设备正在展示的媒体内容的数字音频指纹至少表示由所述媒体呈现设备正在展示的媒体内容的语言轨道。

B16、根据权利要求B14所述的非暂时性计算机可读介质，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：使补充的特定于频道的内容与媒体呈现设备正在展示的媒体内容一起展示。

B17、根据权利要求B14所述的非暂时性计算机可读介质，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：记录所述单个频道的呈现以用于频道评级系统。

C18、一种基于通过基于音频指纹的消歧而确定的频道来执行动作的系统，包括：

网络通信接口；

处理单元；

非暂时性数据存储器；和

程序指令，所述程序指令存储在所述非暂时性数据存储器中，并能够由所述处理单元执行以执行操作，所述操作包括：

经由所述网络通信接口从媒体呈现设备接收由所述媒体呈现设备正在展示的媒体内容的数字视频指纹，

确定所接收的数字视频指纹与对应于多个频道的参考视频指纹匹配，

经由所述网络通信接口从所述媒体呈现设备接收由所述媒体呈现设备正在展示的媒体内容的数字音频指纹，

使用所接收的数字音频指纹来确定所述多个频道中的哪个频道承载了由所述媒体呈现设备正在展示的媒体内容，

其中，使用所接收的数字音频指纹来确定所述多个频道中的哪个频道承载了由所述媒体呈现设备正在展示的媒体内容，包括：

确定所接收的数字音频指纹与仅与所述多个频道的单个频道相对应的参考音频指纹匹配，以及

基于所确定的频道来执行动作。

C19、根据权利要求C18所述的系统，其中，所述操作还包括：

响应于至少确定所接收的数字视频指纹与对应于所述多个频道的参考视频指纹匹配，向所述媒体呈现设备发送对媒体呈现设备正在展示的媒体内容的音频指纹的请求，

其中，从所述媒体呈现设备接收由所述媒体呈现设备正在展示的媒体内容的数字音频指纹是响应于发送所述请求而进行的。

C20、根据权利要求C18所述的系统，其中，基于所确定的频道执行动作包括：使补充的特定于频道的内容与媒体呈现设备正在展示的媒体内容一起展示。

C21、根据权利要求C18所述的系统，其中，基于所确定的频道执行动作包括：选择性地用替换广告替换媒体内容的预定部分。

C22、根据权利要求C17所述的系统，其中，基于所确定的频道执行动作包括：记录所确定的频道的呈现以用于频道评级系统。

D23、一种基于通过基于音频指纹数据消歧确定的频道来执行动作的方法，包括：

由计算系统确定表示由媒体呈现设备正在展示的媒体内容的数字视频指纹数据与对应于多个频道的参考视频指纹数据匹配；

响应于至少确定所述数字视频指纹数据与对应于多个频道的参考视频指纹数据匹配，至少部分地基于确定表示由所述媒体呈现设备正在展示的媒体内容的数字音频指纹数据与仅对应于所述多个频道的单个频道的参考音频指纹数据匹配来由计算系统执行消歧，所述消歧确定媒体呈现设备正在所述单个频道上接收媒体内容；以及

基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作。

D24、根据权利要求D23所述的方法，其中，媒体内容具有视频轨道和音频轨道，其中所述数字视频指纹数据是表示所述视频轨道的指纹数据，并且所述数字音频指纹数据是表示所述音频轨道的指纹。

D25、根据权利要求D23所述的方法，其中，数字音频指纹数据至少表示媒体内容的语言轨道。

D26、根据权利要求D23所述的方法，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：使媒体呈现设备将补充的特定于频道的内容与媒体呈现设备正在展示的媒体内容一起展示。

D27、根据权利要求D26所述的方法，其中，所述补充的特定于频道的内容包括弹出广告、商业广告或频道标识中的至少一个。

D28、根据权利要求D26所述的方法，

其中，所述补充的特定于频道的内容包括广告，和

其中，使媒体呈现设备将补充的特定于频道的内容与媒体呈现设备正在展示的媒体内容一起展示包括使媒体呈现作为媒体内容的一部分的替换来展示广告。

D29、根据权利要求D23所述的方法，其中，基于确定所述媒体呈现设备正在所述单个频道上接收媒体内容来执行动作包括：***代替媒体内容的一部分的广告。

E30、一种媒体呈现设备，包括：

媒体输入接口，通过所述媒体输入接口来接收由媒体呈现设备展示的媒体内容；

媒体呈现接口，用于展示媒体内容；

网络通信接口；

处理单元；

非暂时性数据存储器；

程序指令，其存储在非暂时性数据存储器中并且由处理单元执行以执行包括以下各项的操作：

基于媒体内容的分析，生成表示媒体内容的数字视频指纹数据，并且输出生成的数字视频指纹数据，用于通过网络通信接口传输到服务器，

在输出数字视频指纹数据以用于传输到服务器之后，从服务器接收表示媒体内容的音频指纹数据的请求，所述请求响应于确定数字视频指纹数据与对应于多个频道的参考视频指纹数据匹配的服务器，

响应于所述请求，输出表示媒体内容的数字音频指纹数据，用于通过网络通信接口将数字音频指纹数据传输到服务器，以及

使媒体呈现设备将与所述多个频道中的一个频道相关联的补充的特定于频道的内容与媒体内容一起展示，所述一个频道基于确定数字音频指纹数据与仅表示所述多个频道中的一个频道的参考音频指纹数据匹配从所述多个频道进行识别。

E31、根据权利要求E30所述的媒体呈现设备，其中，媒体内容具有视频轨道和音频轨道，其中所述数字视频指纹数据是表示所述视频轨道的指纹数据，并且所述数字音频指纹数据是表示所述音频轨道的指纹数据。

E32、根据权利要求E30所述的媒体呈现设备，其中，数字音频指纹数据至少表示媒体内容的语言轨道。

E33、根据权利要求E30所述的媒体呈现设备，其中，所述操作还包括：

响应于所述请求，生成表示媒体内容的数字音频指纹数据。

E34、根据权利要求E30所述的媒体呈现设备，其中，补充的特定于频道的内容包括弹出广告、商业广告或频道标识中的至少一个。

E35、根据权利要求E30所述的媒体呈现设备，其中，补充的特定于频道的内容是用于媒体内容的一个或更多个部分的替换。

E36、根据权利要求E30所述的媒体呈现设备，

其中，补充的特定于频道的内容是广告，以及

其中，使媒体呈现设备将补充的内容与媒体内容一起展示包括使媒体呈现设备展示代替媒体内容的一部分的广告。

E37、根据权利要求E30所述的媒体呈现设备，其中，媒体呈现设备包括电视。

F38、一种用于呈现补充的特定于频道的内容的方法，该方法包括：

基于对由媒体呈现设备展示的媒体内容的分析，由媒体呈现设备生成表示由媒体呈现设备展示的媒体内容的数字视频指纹数据；

由媒体呈现设备输出生成的视频指纹数据，以通过网络传输到服务器；

在输出数字视频指纹数据以用于通过网络传输到服务器之后，由媒体呈现设备从服务器接收表示媒体内容的音频指纹数据的请求，所述请求响应于确定数字视频指纹数据与对应于多个频道的参考视频指纹数据匹配的服务器；

响应于所述请求，由媒体呈现设备输出表示媒体内容的数字音频指纹数据，用于通过网络将数字音频指纹数据传输到服务器；以及

由媒体呈现设备将与所述多个频道中的一个频道相关联的补充的特定于频道的内容与媒体内容一起展示，所述一个频道基于确定数字音频指纹数据与仅对应于所述多个频道中的一个频道的参考音频指纹数据匹配从所述多个频道进行识别。

F39、根据权利要求F38所述的方法，其中，媒体内容具有视频轨道和音频轨道，其中所述数字视频指纹数据是表示所述视频轨道的指纹数据，并且所述数字音频指纹数据是表示所述音频轨道的指纹数据。

F40、根据权利要求F38所述的方法，其中，数字音频指纹数据至少表示媒体内容的语言轨道。

F41、根据权利要求F38所述的方法，还包括：

响应于所述请求，生成表示媒体内容的数字音频指纹数据。

F42、根据权利要求F38所述的方法，其中，补充的特定于频道的内容包括弹出广告、商业广告或频道标识中的至少一个。

F43、根据权利要求F38所述的方法，其中，补充的特定于频道的内容是用于媒体内容的一个或更多个部分的替换。

F44、根据权利要求F38所述的方法，

其中，补充的特定于频道的内容是广告，以及

其中，使媒体呈现设备将补充的内容与媒体内容一起展示包括使媒体呈现设备展示代替媒体内容的一部分的广告。

G45、一种非暂时性计算机可读介质，其上存储有指令，所述指令能够由处理单元执行以执行操作，所述操作包括：

基于对由媒体呈现设备展示的媒体内容的分析，生成表示由媒体呈现设备展示的媒体内容的数字视频指纹数据，并且由媒体呈现设备输出生成的视频指纹数据，以通过网络传输到服务器；

在输出数字视频指纹数据以用于传输到服务器之后，当服务器已经确定数字视频指纹数据与对应于多个频道的参考视频指纹数据匹配时，从服务器接收针对表示媒体内容的音频指纹数据的请求；

响应于所述请求，输出表示媒体内容的数字音频指纹数据，用于通过网络将数字音频指纹数据传输到服务器；以及

使媒体呈现设备将与所述多个频道中的一个频道相关联的补充的特定于频道的内容与媒体内容一起展示，所述一个频道基于确定数字音频指纹数据与仅对应于所述多个频道中的一个频道的参考音频指纹数据匹配从所述多个频道进行识别。

G46、根据权利要求G45所述的非暂时性计算机可读介质，其中，媒体内容具有视频轨道和音频轨道，其中所述数字视频指纹数据是表示所述视频轨道的指纹数据，并且所述数字音频指纹数据是表示所述音频轨道的指纹数据。

G47、根据权利要求G45所述的非暂时性计算机可读介质，其中，数字音频指纹数据至少表示媒体内容的语言轨道。

G48、根据权利要求G45所述的非暂时性计算机可读介质，还包括：

响应于所述请求，生成表示媒体内容的数字音频指纹数据。

G49、根据权利要求G45所述的非暂时性计算机可读介质，其中，补充的特定于频道的内容包括弹出广告、商业广告或频道标识中的至少一个。

G50、根据权利要求G45所述的非暂时性计算机可读介质，其中，补充的特定于频道的内容是用于媒体内容的一个或更多个部分的替换。

G51、根据权利要求G45所述的非暂时性计算机可读介质，其中，非暂时性计算机可读介质在媒体呈现设备中实现。

27页详细技术资料下载

基于音频指纹的视频多匹配检测和对媒体频道识别消歧

相关技术

网友询问留言