神经网络中的盲点实施

文档序号:1253279 发布日期:2020-08-21 浏览:8次 >En<

阅读说明:本技术 神经网络中的盲点实施 (Blind spot implementation in neural networks ) 是由 L.布埃 M.克梅尔马赫 R.比特曼 于 2019-11-13 设计创作,主要内容包括:公开了用于在神经网络模型中实施盲点的技术。在一些示例实施例中,一种计算机实施的方法包括:获得在图像捕获设备的视场内捕获的并且包括占据视场内的特定位置的特定类型的对象的图像,以及使用神经网络模型基于对象的特定位置来确定对象的置信值。置信值表示对象是感兴趣对象的可能性,并且神经网络模型被训练为当特定类型的对象占据特定位置时,为特定类型的对象生成比当特定类型的对象不占据特定位置时更低的置信值。(Techniques for implementing blind spots in a neural network model are disclosed. In some example embodiments, a computer-implemented method includes: the method includes obtaining an image captured within a field of view of an image capture device and including a particular type of object occupying a particular location within the field of view, and determining a confidence value for the object based on the particular location of the object using a neural network model. The confidence value represents a likelihood that the object is an object of interest, and the neural network model is trained to generate a lower confidence value for the object of the particular type when the object of the particular type occupies the particular location than when the object of the particular type does not occupy the particular location.)

神经网络中的盲点实施

技术领域

本申请一般涉及神经网络的技术领域,并且在各种实施例中,涉及用于神经网络模型中的盲点实施的系统和方法。

背景技术

随着实践应用开始出现在从计算机视觉到语音识别的各种领域中,工业上对人工智能的兴趣正经历指数级增长。尽管早期取得了成功,但机器学习(Machine Learning,ML)模型在某些情况下仍然遭受不一致性。例如,基于ML的模型对小的对抗性扰动并不稳健,并且一般缺乏可解释性。当前,用来检测图像捕获设备(例如,安全相机)的视场(field ofvision)中的感兴趣对象并提供这样的检测的指示的计算机视觉模型在其检测中没有实施任何盲点。结果,如果在图像捕获设备的视场内的任何地方检测到潜在的感兴趣对象,则其被视为检测到的感兴趣对象。这些当前的计算机视觉模型不能提供对感兴趣对象的选择性检测,这造成指示对感兴趣对象的检测的不必要通知被生成,并且因此导致电子资源的过度消耗,诸如与生成并发送不必要通知相关联的附加的处理器工作负荷和网络带宽消耗。另外,由当前计算机视觉模型的这种失败造成的不必要通知需要过度的人的注意,导致了对通知的注意的负载平衡中的问题,并且恶化了用户体验。

发明内容

根据本公开的一方面,提供了一种用于神经网络模型中的盲点实施的计算机实施的方法,该方法包括:获得在图像捕获设备的视场内捕获的第一图像,第一图像包括占据视场内的第一位置的第一类型的第一对象;由至少一个硬件处理器使用神经网络模型基于第一对象的第一位置来确定第一对象的第一置信值,第一置信值表示第一对象是感兴趣对象的可能性,所述神经网络模型被配置为当第一类型的对象占据视场内的第一位置时,为第一类型的对象生成比当第一类型的对象不占据视场内的第一位置时更低的置信值;获得在图像捕获设备的视场内捕获的第二图像,第二图像包括占据图像捕获设备的视场内的第二位置的第一类型的第二对象,第二位置不同于第一位置;由至少一个硬件处理器使用神经网络模型基于第二对象的第二位置来确定第二对象的第二置信值,第二置信值表示第二对象是感兴趣对象的可能性,并且基于第二对象处于第二位置而不是第一位置,第二对象的第二置信值高于第一对象的第一置信值;基于第二对象的第二置信值来确定第二对象是感兴趣对象;以及基于确定第二对象是感兴趣对象,经由网络向计算设备通信传送指令,所述指令被配置为使得计算设备基于第二对象是感兴趣对象来执行功能。

根据本公开的又一方面,提供了一种用于神经网络模型中的盲点实施的系统,该系统包括:至少一个处理器;以及一种存储可执行指令的非暂时性计算机可读介质,其中所述可执行指令在被执行时使得至少一个处理器执行操作,所述操作包括:获得在图像捕获设备的视场内捕获的第一图像,第一图像包括占据视场内的第一位置的第一类型的第一对象;使用神经网络模型基于第一对象的第一位置来确定第一对象的第一置信值,第一置信值表示第一对象是感兴趣对象的可能性,所述神经网络模型被配置为当第一类型的对象占据视场内的第一位置时,为第一类型的对象生成比当第一类型的对象不占据视场内的第一位置时更低的置信值;获得在图像捕获设备的视场内捕获的第二图像,第二图像包括占据图像捕获设备的视场内的第二位置的第一类型的第二对象,第二位置不同于第一位置;使用神经网络模型基于第二对象的第二位置来确定第二对象的第二置信值,第二置信值表示第二对象是感兴趣对象的可能性,并且基于第二对象处于第二位置而不是第一位置,第二对象的第二置信值高于第一对象的第一置信值;基于第二对象的第二置信值来确定第二对象是感兴趣对象;以及基于确定第二对象是感兴趣对象,经由网络向计算设备通信传送指令,所述指令被配置为使得计算设备基于第二对象是感兴趣对象来执行功能。

根据本公开的再一方面,提供了一种有形地具体体现指令集合的非暂时性机器可读存储介质,其中所述指令集合在由至少一个处理器执行时使得至少一个处理器执行操作,所述操作包括:获得在图像捕获设备的视场内捕获的第一图像,第一图像包括占据视场内的第一位置的第一类型的第一对象;使用神经网络模型基于第一对象的第一位置来确定第一对象的第一置信值,第一置信值表示第一对象是感兴趣对象的可能性,所述神经网络模型被配置为当第一类型的对象占据视场内的第一位置时,为第一类型的对象生成比当第一类型的对象不占据视场内的第一位置时更低的置信值;获得在图像捕获设备的视场内捕获的第二图像,第二图像包括占据图像捕获设备的视场内的第二位置的第一类型的第二对象,第二位置不同于第一位置;使用神经网络模型基于第二对象的第二位置来确定第二对象的第二置信值,第二置信值表示第二对象是感兴趣对象的可能性,并且基于第二对象处于第二位置而不是第一位置,第二对象的第二置信值高于第一对象的第一置信值;基于第二对象的第二置信值来确定第二对象是感兴趣对象;以及基于确定第二对象是感兴趣对象,经由网络向计算设备通信传送指令,所述指令被配置为使得计算设备基于第二对象是感兴趣对象来执行功能。

附图说明

本公开的一些示例实施例在附图中通过示例而非限制的方式而示出,其中相似的附图标记指示类似的元件。

图1是示出根据一些示例实施例的客户端-服务器系统的网络图。

图2是示出根据一些示例实施例的企业应用平台中的企业应用和服务的框图。

图3是示出根据一些示例实施例的计算机视觉系统的框图。

图4A-图4C示出了根据一些示例实施例的在图像捕获设备的视场内捕获的不同图像。

图5A-图5C示出了根据一些示例实施例的在图像捕获设备的视场内捕获的不同图像。

图6是示出根据一些示例实施例的盲点实施的流程图。

图7示出了根据一些示例实施例的用于盲点实施的流程。

图8是根据一些示例实施例的可以在其上执行本文描述的方法的示例计算机系统的框图。

具体实施方式

公开了用于神经网络中的盲点实施的示例方法和系统。在以下描述中,为了解释的目的,阐述了许多特定细节,以便提供对示例实施例的透彻理解。然而,对于本领域技术人员将清楚的是,可以在没有这些特定细节的情况下实践本实施例。

在一些示例实施例中,计算机视觉系统被配置为在用来检测感兴趣对象的神经网络模型中实施一个或多个盲点。计算机视觉系统可以接收在图像捕获设备的视场内捕获的图像,该图像包括对象,然后使用神经网络模型基于对象在视场内的位置来确定对象是否是感兴趣对象。在一些示例实施例中,计算机视觉系统被配置为:如果对象的位置在视场内的一个或多个盲点区域的集合中的一个盲点区域内(例如,占据特定位置的对象),则将对象分类为不是感兴趣对象,而如果对象的位置不在视场内的一个或多个盲点区域的集合中的任何一个盲点区域内,则将对象分类为感兴趣对象。计算机视觉系统可以被配置为响应于或以其他方式基于将对象分类为感兴趣对象来执行与感兴趣对象检测相关的一个或多个功能,以及响应于或以其他方式基于将对象分类为不是感兴趣对象来忽略该对象并且不执行与感兴趣对象检测相关的任何功能。神经网络模型可以被训练为基于对象在视场内的位置来确定对象的置信值。置信值表示对象是感兴趣对象的可能性。神经网络模型可以被配置为当对象在一个或多个盲点区域的集合中的任何一个盲点区域内时,为对象生成比当对象不在一个或多个盲点区域的集合中的任何一个盲点区域内时更低的置信值。计算机视觉系统可以基于对象的置信值来确定对象是否是感兴趣对象。

本文公开的特征的实施方式涉及非通用的、非传统的和非常规的操作或操作的组合。通过应用本文公开的解决方案中的一个或多个,本公开的系统和方法的一些技术效果是对感兴趣对象的更加可控、细微和准确的检测,从而减少与对由图像捕获设备在图像中捕获的特定区域内的某些对象的过度和不必要检测相关联的电子资源和人的注意的消耗。结果,改善了计算机视觉系统的功能。从本公开中,其他技术效果也将是清楚的。

本文公开的方法或实施例可以被实施为具有一个或多个模块(例如,硬件模块或软件模块)的计算机系统。这样的模块可以由计算机系统的一个或多个硬件处理器执行。在一些示例实施例中,非暂时性机器可读存储设备可以存储指令集合,其中该指令集合在由至少一个处理器执行时使得至少一个处理器执行本公开内讨论的操作和方法步骤。

在附图和下面的描述中阐述了本文描述的主题的一个或多个变化的细节。从描述和附图以及从权利要求中,本文描述的主题的其他特征和益处将是清楚的。

在本公开中,术语“第一”、“第二”和“第三”与其他术语结合使用,以将那些其他术语彼此区分开来,而不是指那些其他术语的特定次序。例如,本公开中的术语“第一图像”、“第二图像”和“第三图像”不应当被解释为意味着“第一图像”被第一捕获或获得,“第二图像”被第二捕获或获得,或者“第三图像”被第三捕获或获得。相反,与术语“图像”一起使用术语“第一”、“第二”和“第三”应当仅被解释为意味着这些图像都彼此不同。术语的这种非顺序解释也应当应用于它们在本公开中与其他词语的使用,包括但不限于对象、类型、位置、训练数据集合、多个训练数据图像、以及置信值。

图1是示出根据一些示例实施例的客户端-服务器系统100的网络图。以企业应用平台112的示例形式的平台(例如,机器和软件)经由网络114(例如,互联网)向一个或多个客户端提供服务器侧功能。图1示出了例如具有编程客户端118(例如,浏览器)的客户端机器116、具有小型设备网络客户端120(例如,没有脚本引擎的浏览器)的小型设备客户端机器122和具有编程客户端119的客户端/服务器机器117。

具体转到示例企业应用平台112,网络服务器124和应用程序接口(ApplicationProgram Interface,API)服务器125可以耦合到应用服务器126并向应用服务器126提供网络和程序接口。应用服务器126可以转而耦合到促进对一个或多个数据库130的访问的一个或多个数据库服务器128。跨功能服务132可以包括关系数据库模块,以为对包括用户界面(user interface)库136的(多个)数据库130的访问提供支持服务。网络服务器124、API服务器125、应用服务器126和数据库服务器128可以托管跨功能服务132。应用服务器126可以进一步托管域应用134。

跨功能服务132向利用企业应用平台112的用户和过程提供服务。例如,跨功能服务132可以为操作客户端机器116、客户端/服务器机器117和小型设备客户端机器122的用户提供门户服务(例如,网络服务)、数据库服务和到域应用134的连接。此外,跨功能服务132可以提供用于递送对现有应用的增强并用于将第三方和传统应用与现有跨功能服务132和域应用134集成的环境。此外,虽然图1中所示的系统100采用客户端-服务器架构,但本公开的实施例当然不限于这样的架构,并且同样可以在分布式或对等架构系统中寻找应用。

企业应用平台112可以改善(例如,增加)跨计算机系统架构的不同环境的数据可访问性。例如,当在开发环境中测试软件解决方案的实例时,企业应用平台112可以有效且高效地使得用户能够使用根据由一个或多个终端用户在生产环境中对软件解决方案的部署实例的使用而创建的真实数据。下面结合图2-图8更详细地描述企业应用平台112。

图2是示出根据示例实施例的企业应用平台112中的企业应用和服务的框图。企业应用平台112可以包括跨功能服务132和域应用134。跨功能服务132可以包括门户模块140、关系数据库模块142、连接器和消息传递模块144、API模块146和开发模块148。

门户模块140可以为客户端机器116、小型设备客户端机器122和客户端/服务器机器117启用对其他跨功能服务132和域应用134的单点访问。可以利用门户模块140来处理、制作和维护向用户呈现内容(例如,用户界面元素和导航控件)的网页。此外,门户模块140可以使得用户角色能够执行任务、利用服务、以及与其他用户在定义范围内交换信息,所述用户角色是将角色与由用户利用的专用环境相关联的构造。例如,角色可以确定用户可用的内容和用户可以执行的活动。门户模块140包括生成模块、通信模块、接收模块和再生模块。此外,门户模块140可以符合网络服务标准和/或利用包括Java、J2EE、SAP的高级商业应用编程语言(Advanced Business Application Programming Language,ABAP)和WebDynpro、XML、JCA、JAAS、X.509、LDAP、WSDL、WSRR、SOAP、UDDI和Microsoft.NET的各种互联网技术。

关系数据库模块142可以为对包括用户界面库136的(多个)数据库130的访问提供支持服务。关系数据库模块142可以为对象关系映射、数据库独立性和分布式计算提供支持。可以利用关系数据库模块142来添加、删除、更新和管理数据库元素。此外,关系数据库模块142可以符合数据库标准和/或利用包括SQL、SQLDBC、Oracle、MySQL、Unicode、JDBC等的各种数据库技术。

连接器和消息传递模块144可以通过提供公共消息传递应用处理接口来启用跨由跨功能服务132和域应用134利用的不同类型的消息传递系统的通信。连接器和消息传递模块144可以在企业应用平台112上实现异步通信。

API模块146可以通过将接口暴露给现有的和新的应用作为服务,来启用基于服务的应用的开发。存储库可以被包括在平台中,作为在构建应用时寻找可用服务的中心地方。

开发模块148可以为企业应用平台112上的软件组件的添加、集成、更新和扩展提供开发环境,而不影响现有的跨功能服务132和域应用134。

转向域应用134,顾客关系管理应用150可以启用对多个数据源和业务过程的访问并且可以促进对来自多个数据源和业务过程的相关个性化信息的收集和存储。肩负将买方发展为长期顾客的任务的企业人员可以利用顾客关系管理应用150在整个顾客参与周期中向买方提供帮助。

企业人员可以利用财务应用152和业务过程来跟踪和控制企业应用平台112内的财务交易。财务应用152可以促进与财务管理相关联的操作任务、分析任务和协作任务的执行。具体地,财务应用152可以启用与财务问责、规划、预测和管理财务成本相关的任务的执行。

可以由企业人员和业务过程利用人力资源应用154来管理、部署和跟踪企业人员。具体地,人力资源应用154可以启用对人力资源问题的分析并基于实时信息来促进人力资源决策。

产品生命周期管理应用156可以启用在产品的整个生命周期中对产品的管理。例如,产品生命周期管理应用156可以启用业务伙伴之间的协作工程、定制产品开发、项目管理、资产管理和质量管理。

供应链管理应用158可以启用对供应链中观察到的性能的监控。供应链管理应用158可以促进遵守生产计划以及产品和服务的按时交付。

第三方应用160以及传统应用162可以与域应用134集成,并且利用企业应用平台112上的跨功能服务132。

图3是示出根据一些示例实施例的计算机视觉系统300的框图。在一些示例实施例中,计算机视觉系统300使用所操纵的训练数据来在用来检测感兴趣对象的计算机视觉模型中开发可控盲点。训练数据集合可以包括训练图像的集合,其中每个训练图像包含可变数量的感兴趣对象。人或可以查看所有训练图像并诸如通过使用图像注释工具来手动注释每个感兴趣对象的位置,其中该图像注释工具允许用户手动定义图像中的区域并创建那些区域的文本描述或某种其他类型的分类标识符。例如,用户可以使用图像注释工具,使用边界框来定义图像的区域。在一些示例实施例中,训练图像由计算机使用自动图像注释系统自动注释。带注释的训练图像可以被馈送到神经网络中,以在训练神经网络模型以检测并分类感兴趣对象时用作训练数据。

在一些示例实施例中,训练数据被操纵,使得占据图像中的特定位置的感兴趣对象有时是未注释的(例如,没有以任何方式被标记为感兴趣对象)。这些感兴趣对象没有注释的次数的百分比被称为污染率。不注释感兴趣对象具有告诉基于ML的模型将其分类为不相关背景的隐含效果。通过实验,本公开的发明人已经发现,在以甚至可忽略不计的污染率(例如,小于1%)而污染的数据集上训练的模型在图像的可控地点中变得盲化。从技术上讲,这种有意的“失败”是基于该基于深度学习的大容量ML模型学习表面细节并且过拟合其训练数据集的能力。

操纵数据集以便ML模型具有单个盲点提供了有用的功能。例如,可以想象建筑物中的安全系统,其中安全员对建筑物中的移动警报感兴趣,但对拥挤且由接待员监控的接待处附近存在的警报不太感兴趣。在该示例中,本公开的特征可以用来在接待处附近的感兴趣对象检测中创建并实施盲点。此外,通过引入多个盲点而将操纵概括到整个图像的地点集合引起其他种类的利用。例如,可以防止沿着非常特定的区域或路径(如浴室)对人们的检测。因此,可以利用基于ML的模型的这种可控盲性而无需任何修改,以通过使得在盲点中极不可能检测到某些对象来提供隐私区。

在一些示例实施例中,计算机视觉系统300被配置为诸如通过训练神经网络模型以基于对象在视场内的位置来确定对象是否是感兴趣对象,在用来检测感兴趣对象的神经网络模型中实施一个或多个盲点,使得在神经网络模型的训练盲点内检测到的对象不被分类、识别、或以其他方式确定为感兴趣对象,甚至认为相同对象将被确定为处于不是神经网络模型的训练盲点的位置的感兴趣对象。

在一些实施例中,计算机视觉系统300包括图像捕获设备310、检测模块320、接口模块330、机器学习模块340和一个或多个数据库350中的一个或多个的任意组合。模块310、320、330和340以及(多个)数据库350可以驻留在具有存储器和至少一个处理器(未示出)的计算机系统或其他机器上。在一些实施例中,模块310、320、330和340以及(多个)数据库350可以被合并到图1中的(多个)应用服务器126中。然而,预期模块310、320、330和340以及(多个)数据库350的其他配置也在本公开的范围内。

在一些示例实施例中,模块310、320、330和340中的一个或多个被配置为提供各种用户界面功能,诸如生成用户界面、向用户交互地呈现用户界面、从用户接收信息(例如,与用户界面的交互)等等。向用户呈现信息可以包括引起对用户的信息呈现(例如,用指令向设备通信传送信息以向用户呈现信息)。可以使用包括视觉显示信息和使用其他设备输出(例如,音频、触觉等)的各种手段呈现信息。类似地,可以经由包括字母数字输入或其他设备输入(例如,一个或多个触摸屏、相机、触觉传感器、光传感器、红外传感器、生物传感器、麦克风、陀螺仪、加速度计、其他传感器等)的各种手段接收信息。在一些示例实施例中,模块310、320、330、340中的一个或多个被配置为接收用户输入。例如,模块310、320、330和340中的一个或多个可以呈现用户可以用其提交输入的一个或多个GUI元素(例如,下拉菜单、可选按钮、文本域)。在一些示例实施例中,模块310、320、330和340中的一个或多个被配置为诸如通过使用有线或无线连接经由网络114与计算设备305通信来执行各种通信功能,以促进本文描述的功能。

在一些示例实施例中,图像捕获设备310被配置为捕获图像捕获设备310的视场内的图像。视场是可以经由光学设备而查看的开放的可观察区域。在一些示例实施例中,图像捕获设备310包括摄像机(例如,移动图像相机)。然而,其他类型的图像捕获设备310也在本公开的范围内,包括但不限于静止图像相机、热成像相机或红外相机、成像雷达和声波传感器。

在一些示例实施例中,检测模块320被配置为获得由图像捕获设备310捕获的任何图像。检测模块320可以从图像捕获设备310接收作为流数据的图像,或者可以访问其中正存储图像的数据库以获得图像。每个所捕获的图像可以包括一个或多个对象。所捕获的图像中的对象可以是可以被看到的任何物质实体或事物。每个对象可以是某种类型的。一类型的对象的一个示例是人。另一类型的对象是诸如汽车的车辆。然而,其他类型的对象也在本公开的范围内。

在一些示例实施例中,检测模块320被配置为,对于图像中的每个对象,使用神经网络模型基于对象在图像的视场内的位置来确定对象是否是感兴趣对象。在一些示例实施例中,神经网络模型包括卷积神经网络模型。然而,其他类型的神经网络模型也在本公开的范围内。

神经网络模型可以被配置为基于对象的特定位置为每个对象生成置信值。在一些示例实施例中,置信值表示对象是感兴趣对象的可能性,并且神经网络模型被训练为当特定类型的对象在一个或多个盲点区域的集合中的一个盲点区域内(例如,占据特定位置)时,为特定类型的对象生成比当特定类型的对象不在一个或多个盲点区域的集合中的任何一个盲点区域内(例如,不占据特定位置)时更低的置信值。例如,神经网络模型可以为相同对象生成两个不同的置信值,其中基于对象在盲点内,对象的一个置信值低,以及基于对象不在任何盲点内,另一个置信值高。

在一些示例实施例中,检测模块320被配置为:如果对象的位置在视场内的一个或多个盲点区域的集合中的一个盲点区域内(例如,占据特定位置的对象),则将对象分类为不是感兴趣对象,而如果对象的位置不在视场内的一个或多个盲点区域的集合中的任何一个盲点区域内,则将对象分类为感兴趣对象。检测模块320可以使用对象的置信值来确定对象是否是感兴趣对象。在一些示例实施例中,检测模块320使用阈值来确定对象是否是感兴趣对象,使得具有在阈值以上的置信值的对象被确定为感兴趣对象,以及具有在阈值以下的置信值的对象被确定为不是感兴趣对象。在一个示例中,检测模块320在确定对象是否是感兴趣对象时使用0.5的阈值,并且神经网络模型被配置为为任何盲点内的对象生成小于0.5的置信值,以及为不在任何盲点内的对象生成大于0.5的置信值。

图4A-图4C示出了根据一些示例实施例的分别在图像捕获设备310的视场410内捕获的不同图像400A、400B和400C。在图4A中,图像400A包括第一类型的对象414,诸如人。在该示例中,神经网络模型已经被训练为实施盲点区域412,其中在该盲点区域412中,对象不被确定为感兴趣对象,并且在该盲点区域412之外,对象被确定为感兴趣对象。因此,在图4A中,基于对象414处于盲点区域412之外的位置,检测模块320使用神经网络模型生成高置信值(例如,0.75),并且基于高置信值来确定对象414是感兴趣对象。

在一些示例实施例中,接口模块330被配置为响应于或以其他方式基于将对象414确定为感兴趣对象来执行与感兴趣对象检测相关的一个或多个功能。接口模块330可以包括人机交互(Human-Computer Interaction,HCI)模块。在一些示例实施例中,接口模块330可以响应于或以其他方式基于将对象414确定为感兴趣对象,经由网络向诸如图3中的计算设备305的计算设备发送或以其他方式通信传送指令。该指令被配置为使得计算设备305基于对象414是感兴趣对象来执行功能。在一些示例实施例中,该功能包括在计算设备305上显示对象414存在于视场内的指示。例如,可以在计算设备305的屏幕上显示警报,以向计算设备305的用户通知对象414的存在。然而,其他类型的功能也在本公开的范围内。

在图4B中,对象414处于盲点区域412之内的位置。基于对象414处于盲点区域412之内的位置,检测模块320使用神经网络生成低置信值(例如,0.25),并且基于所述低置信值来确定对象414不是感兴趣对象。作为对对象414不是感兴趣对象的该确定的结果,检测模块320不执行与对象414的感兴趣对象检测相关的任何功能。

在一些示例实施例中,检测模块320被配置为基于对象的位置(例如,盲点412之内或之外)以及基于对象的类型来确定对象是否是感兴趣对象。神经网络模型可以被配置为为特定类型的对象生成高置信值并为非特定类型的对象生成低置信值。神经网络模型还可以被配置为为特定类型的对象生成低置信值以及为非特定类型的对象生成低置信值。如先前所讨论的,这些高置信值和低置信值可以由检测模块320用来确定对象是否是感兴趣对象。

在一些示例实施例中,盲点区域412之内的第一类型的对象被确定为不是感兴趣对象,而盲点区域412之内的、与第一类型不同的第二类型的对象被确定为感兴趣对象。在图4C中,与图4B中的对象414不同类型的对象417处于盲点区域412之内的位置。在该示例中,尽管对象416在盲点区域412之内,但检测模块320基于对象416是特定类型(例如,对象是车辆)或者对象416不是特定类型(例如,对象不是人)的事实来确定对象416是感兴趣对象。作为对对象416是感兴趣对象的该确定的结果,接口模块330执行与对象416的感兴趣对象检测相关的一个或多个功能。

图5A-图5C示出了根据一些示例实施例的在图像捕获设备310的视场410内分别捕获的不同图像500A、500B和500C。在图5A中,图像500A包括诸如人的第一类型的对象414A和诸如另一人的第一类型的另一对象414B。在该示例中,神经网络模型已经被训练为为盲点区域412内的对象生成低置信值,使得盲点区域内的对象不被确定为感兴趣对象,并且为盲点区域412之外的对象生成高置信值,使得盲点区域412之外的对象被确定为感兴趣对象。因此,在图5A中,基于对象414A处于盲点区域412之外的位置,检测模块320确定对象414A是感兴趣对象,以及基于对象414A处于盲点区域412之内的位置,检测模块320确定对象414B不是感兴趣对象。

在图5B中,与第一类型不同的第二类型的对象416处于盲点区域412之内的位置。在该示例中,尽管对象416在盲点区域412之内,但检测模块320基于对象416是第二类型的事实来确定对象416是感兴趣对象。作为对对象416是感兴趣对象的该确定的结果,接口模块330执行与对象416的感兴趣对象检测相关的一个或多个功能。

在图5C中,与第一类型和第二类型不同的第三类型的对象518处于盲点区域412之内的位置。在该示例中,检测模块320基于对象518在盲点区域之内的位置和对象518是第三类型的事实来确定对象518不是感兴趣对象。在这方面,将盲点区域412之内的对象分类为是感兴趣对象或不是感兴趣对象可以取决于该对象的对象类型(例如,人对车辆),因为神经网络模型可以被配置为即使特定类型的对象在盲点内,也为该特定类型的对象生成高置信值。

参考回图3,在一些示例实施例中,机器学习模块340被配置为训练由检测模块320用来确定对象是感兴趣对象还是不是感兴趣对象的神经网络模型。机器学习模块340可以使用包括训练图像的训练数据,其中该训练图像将处于某些位置的特定类型的对象标记为感兴趣对象,而不将处于其他盲点位置的相同特定类型的其他对象标记为感兴趣对象,从而训练神经网络模型以在特定类型的对象处于盲点位置中的任何一个内时,为特定类型的对象生成比在特定类型的对象不处于盲点位置中的任何一个内时更低的置信值。作为这种训练神经网络模型以包括这些盲点位置的结果,如果该特定类型的对象处于那些盲点位置中的一个,则该特定类型的对象被确定为不是感兴趣对象。在一些示例实施例中,训练数据被存储在(多个)数据库350中,其中该(多个)数据库350可以由机器学习模块340访问以用于在训练神经网络模型时使用。

图6是示出根据一些示例实施例的盲点实施的方法600的流程图。方法600可以由可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微码等)、软件(例如,在处理设备上运行的指令)、或者它们的组合的处理逻辑执行。方法600包括操作610、620、630(630A和630B)、640(640A和640B)、650(650A和650B)和660。在一个示例实施例中,方法600由如上所述的图3的计算机视觉系统或其模块中的一个或多个的任意组合执行。操作610和620是机器学习操作并且可以由机器学习模块340执行。操作630、640和650是检测操作并且可以由检测模块320执行。操作660是交互操作并且可以由接口模块330执行。

在操作610处,计算机视觉系统300获得包括多个训练数据图像的训练数据集合。训练数据可以通过访问其中存储训练数据的数据库(例如,(多个)数据库350)并检索训练数据而获得。多个训练数据图像中的每一个可以包括占据视场内的盲点位置的对应训练数据对象。在一些示例实施例中,每个对应训练数据对象是相同类型的(例如,人),并且在训练数据集合中被标记为不是感兴趣对象。训练数据集合中的该多个训练数据图像或另外多个训练数据图像可以每一个都包括处于除盲点位置之外的位置的其他训练数据对象。在一些示例实施例中,这些其他训练数据对象也是相同类型的(例如,也是人),并且在训练数据集合中被标记为感兴趣对象。

在操作620处,计算机视觉系统300使用训练数据集合和一个或多个机器学习算法来训练神经网络模型。在一些示例实施例中,神经网络模型包括卷积神经网络模型。然而,其他类型的神经网络模型也在本公开的范围内。

操作630A、640A、650A和660A对应于其中对象处于盲点位置内的场景。在操作630A处,计算机视觉系统300获得已经在图像捕获设备310的视场内被捕获的图像,其中对象处于视场内的盲点位置。在一些示例实施例中,图像包括特定类型的对象。计算机视觉系统300可以通过从图像捕获设备310接收作为流数据的一部分的图像或者通过访问其中存储图像的数据库(例如,(多个)数据库350)并检索图像来获得图像。

在操作640A处,计算机视觉系统300使用神经网络模型基于对象的特定位置来确定对象的置信值。置信值表示对象是感兴趣对象的可能性。在一些示例实施例中,神经网络模型被配置为当特定类型的对象占据视场内的特定位置时,为特定类型的对象生成比当特定类型的对象不占据视场内的特定位置时更低的置信值。

在操作650A处,计算机视觉系统300基于对象的置信值来确定对象不是感兴趣对象。在一些示例实施例中,如先前所讨论的,该确定基于对象的置信值在阈值以下。

在操作660A处,基于对对象不是感兴趣对象的确定,计算机视觉系统300不向任何计算设备发送被配置为使得计算设备执行功能的任何指令。

操作630B、640B、650B和660B对应于其中对象不处于盲点位置内的场景。在操作630B处,计算机视觉系统300获得已经在图像捕获设备310的视场内被捕获的图像,其中对象不处于盲点位置。在一些示例实施例中,图像包括特定类型的对象。计算机视觉系统300可以通过从图像捕获设备310接收作为流数据的一部分的图像或者通过访问其中存储图像的数据库(例如,(多个)数据库350)并检索图像来获得图像。

在操作640B处,计算机视觉系统300使用神经网络模型基于对象的特定位置(例如,不是盲点位置)来确定对象的置信值。置信值表示对象是感兴趣对象的可能性。

在操作650B处,计算机视觉系统300基于对象的置信值来确定对象是感兴趣对象。在一些示例实施例中,如先前所讨论的,该确定基于对象的置信值在阈值以上。

在操作660B处,计算机视觉系统300向计算设备发送指令,其中该指令被配置为使得计算设备基于对象是感兴趣对象来执行功能,诸如在计算设备上显示对象存在于视场内的指示。

预期在本公开内描述的任何其他特征可以合并到方法600中。

图7示出了根据一些示例实施例的用于盲点实施的流程700。在所述流程中,诸如通过用户使用计算设备的用户界面手动选择训练图像710或者通过机器学习模块340自动选择训练图像710来访问训练图像710的数据库。训练图像710包括视场内的对象,并且数据操纵过程720由用户或由机器学习模块340执行。在数据操纵过程720中,训练图像710的视场内的一个或多个地点或区域被选择作为盲点,使得那些地点之外的对象被注释为感兴趣对象,但是对于大多数或所有训练图像710,那些地点之内的对象不被注释为感兴趣对象,即使对象是相同类型的。该数据操纵过程720生成污染图像的数据库730,其中该数据库然后用于对基于ML的模型的训练740以检测感兴趣对象,如先前所讨论的。作为训练740的结果,生成了被操纵的预测模型760。新图像750的流被馈送到被操纵的预测模型760中,并且被操纵的预测模型760为新图像750中的每一个生成关于新图像中是否存在任何感兴趣对象的推断770(例如,置信值)。基于对被操纵的预测模型的使用,原本将被另外识别为感兴趣对象的对象基于它们在盲点中的一个内的定位而不被识别为感兴趣对象。预期在本公开内描述的任何其他特征可以合并到流程700中。

某些实施例在本文中被描述为包括逻辑或多个组件、模块或机制。模块可以构成软件模块(例如,体现在机器可读介质上或传输信号中的代码)或硬件模块。硬件模块是能够执行某些操作的有形单元,并且可以以某种方式而配置或布置。在示例实施例中,一个或多个计算机系统(例如,独立、客户端或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如,处理器或一组处理器)可以通过软件(例如,应用或应用部分)而配置为操作以执行如本文所述的某些操作的硬件模块。

在各种实施例中,硬件模块可以被机械地或电子地实施。例如,硬件模块可以包括被永久配置(例如,被配置为专用处理器,诸如现场可编程门阵列(Field ProgrammableGate Array,FPGA)或专用集成电路(Application-Specific Integrated Circuit,ASIC))的专用电路或逻辑以执行某些操作。硬件模块还可以包括通过软件而临时配置的可编程逻辑或电路(例如,如被包含在通用处理器或其他可编程处理器内)以执行某些操作。将理解,机械地、在专用和永久配置的电路中、或者在临时配置(例如,通过软件而配置)的电路中实施硬件模块的决策可以被成本考量和时间考量驱动。

因此,术语“硬件模块”应当被理解为包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)为以某种方式操作和/或执行本文描述的某些操作的实体。考虑其中硬件模块被临时配置(例如,编程)的实施例,硬件模块中的每一个不需要在任何一个时间实例处被配置或实例化。例如,在硬件模块包括使用软件而配置的通用处理器的情况下,通用处理器可以在不同时间处被配置为各自不同的硬件模块。软件可以相应地配置处理器,例如以在一个时间实例处构成特定的硬件模块并在不同的时间实例处构成不同的硬件模块。

硬件模块可以向其他硬件模块提供信息并从其他硬件模块接收信息。因此,所描述的硬件模块可以被视为是通信耦合的。在多个这样的硬件模块同时存在的情况下,通信可以通过连接硬件模块的(例如,通过适当的电路和总线的)信号传输而实现。在其中多个硬件模块在不同时间处被配置或实例化的实施例中,这样的硬件模块之间的通信可以例如通过所述多个硬件模块可以访问的存储器结构中的信息的存储和检索而实现。例如,一个硬件模块可以执行操作并将该操作的输出存储在其通信耦合到的存储器设备中。又一硬件模块然后可以在稍后的时间访问存储器设备,以检索并处理所存储的输出。硬件模块还可以启动与输入设备或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。

本文描述的示例方法的各种操作可以至少部分地由临时(例如,通过软件)配置或永久配置为执行相关操作的一个或多个处理器执行。无论是临时配置还是永久配置,这样的处理器都可以构成操作以执行一个或多个操作或功能的处理器实施的模块。在一些示例实施例中,本文提到的模块可以包括处理器实施的模块。

类似地,本文描述的方法可以至少部分地是处理器实施的。例如,方法的操作中的至少一些可以由一个或多个处理器或处理器实施的模块执行。某些操作的执行可以分布在一个或多个处理器当中,不仅驻留在单个机器内,而且跨多个机器而部署。在一些示例实施例中,处理器或多个处理器可以位于(例如,家庭环境、办公室环境内的或作为服务器群的)单个地点,而在其他实施例中,处理器可以跨多个地点而分布。

一个或多个处理器还可以操作以支持相关操作在“云计算”环境中或作为“软件即服务(Software as a Service,SaaS)”的执行。例如,操作中的至少一些可以由(作为包括处理器的机器的示例的)一组计算机执行,这些操作可经由网络(例如,图1的网络114)以及经由一个或多个适当的接口(例如,API)被访问。

示例实施例可以在数字电子电路中或者在计算机硬件、固件、软件或它们的组合中实施。示例实施例可以使用例如有形地体现在信息载体中(例如,有形地体现在用于由例如可编程处理器、计算机或多个计算机的数据处理装置执行或用以控制数据处理装置的操作的机器可读介质中)的计算机程序的计算机程序产品而实施。

计算机程序可以以包括编译语言或解释语言的任何形式的编程语言而编写,并且其可以以任何形式而部署,包括作为独立程序或者作为模块、子程序或适合于在计算环境中使用的其他单元。计算机程序可以被部署以在一个计算机上、或者在一个站点处或跨多个站点而分布并通过通信网络而互连的多个计算机上被执行。

在示例实施例中,操作可以由执行计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器执行。方法操作还可以由专用逻辑电路(例如,FPGA或ASIC)执行,并且示例实施例的装置可以被实施为专用逻辑电路。

计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离并且通常通过通信网络进行交互。客户端和服务器之间的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在部署可编程计算系统的实施例中,将理解,硬件架构和软件架构两者都值得考虑。具体地,将理解,选择是在永久配置的硬件(例如,ASIC)、临时配置的硬件(例如,软件和可编程处理器的组合)、还是永久和临时配置的硬件的组合中实施某些功能可以是设计选择。下面陈述了可以在各种示例实施例中部署的硬件(例如,机器)架构和软件架构。

图8是以计算机系统800的示例形式的机器的框图,其中可以在该计算机系统800内执行用于使得机器执行本文讨论的方法中的任何一种或多种的指令824。在替换实施例中,机器作为独立设备而操作,或者可以被连接(例如,联网)到其他机器。在联网部署中,机器可以在服务器-客户端网络环境中以服务器或客户端机器的身份而操作,或者在对等(或分布式)网络环境中作为对等机器而操作。机器可以是个人计算机(Personal Computer,PC)、平板PC、机顶盒(Set-Top Box,STB)、个人数字助理(Personal Digital Assistant,PDA)、蜂窝电话、网络设备、网络路由器、交换机或网桥、或者能够执行指定要由该机器采取的动作的(顺序的或其他的)指令的任何机器。此外,虽然仅示出了单个机器,但术语“机器”还应当被当作包括单独或联合执行指令的集合(或多个集合)以执行本文讨论的方法中的任何一种或多种的任何机器集合。

示例计算机系统800包括经由总线808彼此通信的处理器802(例如,中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)或两者)、主存储器804和静态存储器806。计算机系统800可以进一步包括图形或视频显示单元810(例如,液晶显示器(Liquid Crystal Display,LCD)或阴极射线管(Cathode Ray Tube,CRT))。计算机系统800还包括字母数字输入设备812(例如,键盘)、用户界面(UI)导航(或光标控制)设备814(例如,鼠标)、存储单元(例如,磁盘驱动单元)816、音频或信号生成设备818(例如,扬声器)和网络接口设备820。

存储单元816包括机器可读介质822,其中在该机器可读介质822上存储体现本文描述的方法或功能中的任何一种或多种或由其利用的数据结构和指令824(例如,软件)的一个或多个集合。在由计算机系统800执行指令824期间,指令824还可以完全或至少部分地驻留在主存储器804内和/或处理器802内,主存储器804和处理器802还构成机器可读介质。指令824还可以完全或至少部分地驻留在静态存储器806内。

虽然机器可读介质822在示例实施例中被示出为单个介质,但术语“机器可读介质”可以包括存储一个或多个指令824或数据结构的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“机器可读介质”还应当被当作包括能够存储、编码或承载用于由机器执行并使得机器执行本实施例的方法中的任何一种或多种的指令或者能够存储、编码或承载由这样的指令利用或与这样的指令相关联的数据结构的任何有形介质。术语“机器可读介质”应当相应地被当作包括但不限于固态存储器以及光学和磁性介质。机器可读介质的特定示例包括非易失性存储器,例如包括半导体存储器设备(例如,可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,EEPROM)和快闪存储器设备);磁盘,诸如内部硬盘和可移动磁盘;磁光盘;以及光盘只读存储器(Compact Disc-Read-Only Memory,CD-ROM)和数字多功能盘(或数字视频盘)只读存储器(Digital Versatile Disc Read-Only Memory,DVD-ROM)盘。

可以使用传输介质通过通信网络826来进一步发送或接收指令824。可以使用网络接口设备820和多个众所周知的传输协议(例如,HTTP)中的任何一个来发送指令824。通信网络的示例包括LAN、WAN、互联网、移动电话网络、POTS网络和无线数据网络(例如,WiFi和WiMax网络)。术语“传输介质”应当被当作包括能够存储、编码或承载用于由机器执行的指令的任何无形介质,并包括数字或模拟通信信号或者促进这样的软件的通信的其他无形介质。

可以单独或者与其他特征和教导结合利用本文公开的特征和教导中的每一个,以提供用于神经网络中的盲点实施的系统和方法。参考附图更详细地描述了以单独地和组合地这两种方式来利用许多这些附加特征和教导的代表性示例。该详细描述仅旨在教导本领域技术人员用于实践本教导的某些方面的进一步细节,而不旨在限制权利要求的范围。因此,以上在详细描述中公开的特征的组合可能不是实践最广义的教导所必要的,而仅被教导以描述本教导的具体代表性的示例。

本文中的详细描述的一些部分根据对计算机存储器内数据位的操作的算法和符号表示而呈现。这些算法描述和表示是由数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域的其他技术人员的手段。这里的算法一般被认为是引起期望结果的自洽步骤序列。该步骤是需要对物理量的物理操纵的那些步骤。通常,尽管不是必要的,这些量采取能够被存储、传输、组合、比较和以其它方式操纵的电信号或磁信号的形式。主要由于习惯用法的原因,有时将这些信号称为比特、值、元素、符号、字符、术语、数字等被证明是方便的。

然而,应当记住,所有这些和类似的术语都与适当的物理量相关联并且仅仅是应用于这些量的方便标记。如从下面的讨论中清楚的,除非另有具体声明,应理解,在整个描述中,利用诸如“处理”或“计算”或“推算”或“确定”或“显示”等的术语的讨论是指计算机系统或类似的电子计算设备的动作和过程,其中该计算机系统或类似的电子计算设备将计算机系统的寄存器和存储器内表示为物理(电子)量的数据操纵和转换为计算机系统存储器或寄存器或其他这样的信息存储设备、传输设备或显示设备内类似地表示为物理量的其他数据。

本公开还涉及一种用于执行本文中的操作的装置。该装置可以为所需目的而专门构造,或者它可以包括由存储在计算机中的计算机程序选择性激活或重新配置的通用计算机。这样的计算机程序可以被存储在计算机可读存储介质中,诸如但不限于任何类型的盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、EPROM、EEPROM、磁卡或光卡,或者适合于存储电子指令的任何类型的介质,并且每个都耦合到计算机系统总线。

本文呈现的示例方法或算法并不固有地与任何特定计算机或其他装置相关。各种通用系统、计算机服务器或个人计算机可以根据本文中的教导与程序一起使用,或者它可以证明构造更专用的装置以执行本文公开的方法步骤是方便的。各种这些系统的结构将从本文中的描述中显现。将理解,可以使用各种编程语言来实施如本文所描述的本公开的教导。

此外,代表性示例和从属权利要求的各种特征可以以未具体和明确列举的方式而组合,以便提供本教导的附加有用实施例。还应特别注意,为了原始公开的目的以及为了限制所要求保护的主题的目的,实体组的所有值范围或指示公开了每个可能的中间值或中间实体。还应特别注意,图中所示的组件的尺寸和形状被设计以帮助理解本教导是如何被实践的,但并不旨在限制示例中所示的尺寸和形状。

尽管已经参考特定的示例实施例描述了实施例,但很明显的是,在不脱离本公开的更宽的精神和范围的情况下,可以对这些实施例进行各种修改和改变。因此,说明书和附图应被视为说明性而非限制性意义。形成本文的一部分的附图通过图示而非限制的方式示出了其中可以实践主题的特定实施例。示出的实施例被足够详细地描述,以使得本领域技术人员能够实践本文公开的教导。可以利用并从其导出其他实施例,使得在不脱离本公开的范围的情况下,可以进行结构上和逻辑上的替换和改变。因此,该具体实施方式不应被当作限制性意义,并且各种实施例的范围仅由所附权利要求以及这样的权利要求有权享有的等同物的全部范围限定。

本发明主题的这样的实施例在本文中可以单独和/或共同地由术语“发明”指代,仅仅是为了方便,而如果事实上公开了多于一个发明或发明构思,并不旨在自愿地将本申请的范围限制到任何单个发明或发明构思。因此,尽管本文已经示出和描述了特定实施例,但是应当理解,打算实现相同目的的任何布置都可以替代所示的特定实施例。本公开旨在覆盖各种实施例的任何和所有改编或变化。在查看以上描述后,以上实施例的组合以及本文未具体描述的其他实施例对于本领域技术人员而言将是清楚的。

示例

1.一种计算机实施的方法,包括:

获得在图像捕获设备的视场内捕获的第一图像,该第一图像包括占据视场内的第一位置的第一类型的第一对象;

由至少一个硬件处理器使用神经网络模型基于第一对象的第一位置来确定第一对象的第一置信值,该第一置信值表示第一对象是感兴趣对象的可能性,该神经网络模型被配置为当第一类型的对象占据视场内的第一位置时,为第一类型的对象生成比当第一类型的对象不占据视场内的第一位置时更低的置信值;

获得在图像捕获设备的视场内捕获的第二图像,该第二图像包括占据图像捕获设备的视场内的第二位置的第一类型的第二对象,第二位置不同于第一位置;

由至少一个硬件处理器使用神经网络模型基于第二对象的第二位置来确定第二对象的第二置信值,该第二置信值表示第二对象是感兴趣对象的可能性,并且基于第二对象处于第二位置而不是第一位置,第二对象的第二置信值高于第一对象的第一置信值;

基于第二对象的第二置信值来确定第二对象是感兴趣对象;以及

基于确定第二对象是感兴趣对象,经由网络向计算设备通信传送指令,该指令被配置为使得计算设备基于第二对象是感兴趣对象来执行功能。

2.根据示例1所述的计算机实施的方法,其中,图像捕获设备包括摄像机。

3.根据示例1或示例2所述的计算机实施的方法,其中,第一类型是人。

4.根据示例1至3中任一项所述的计算机实施的方法,其中,神经网络模型包括卷积神经网络模型。

5.根据示例1至4中任一项所述的计算机实施的方法,其中,功能包括在计算设备上显示第二对象存在于视场内的指示。

6.根据示例1至5中任一项所述的计算机实施的方法,进一步包括,在获得第一图像和第二图像之前:

访问数据库以获得包括第一多个训练数据图像的第一训练数据集合,第一多个训练数据图像中的每一个包括占据视场内的第一位置的第一类型的对应训练数据对象,占据第一位置的每个第一类型的对应训练数据对象在第一训练数据集合中不被标记为感兴趣对象;

访问数据库以获得包括第二多个训练数据图像的第二训练数据集合,第二多个训练数据图像中的每一个包括占据视场内的第一位置的第二类型的对应训练数据对象,占据第一位置的每个第二类型的对应训练数据对象在第二训练数据集合中被标记为感兴趣对象;以及

由至少一个硬件处理器使用第一训练数据集合、第二训练数据集合和一个或多个机器学习算法来训练神经网络模型。

7.根据示例1至6中任一项所述的计算机实施的方法,进一步包括:

获得视场的第三图像,该第三图像已经由图像捕获设备捕获并且包括占据视场内的第一位置的第二类型的第三对象,该第二类型不同于第一类型;

由至少一个硬件处理器使用神经网络模型基于第三对象的第一位置来确定第三对象的第三置信值,该第三置信值表示第三对象是感兴趣对象的可能性,并且基于第三对象是第二类型而不是第一类型,第三对象的第三置信值高于第一对象的第一置信值;

基于第三对象的第三置信值来确定第三对象是感兴趣对象;以及

基于确定第三对象是感兴趣对象,经由网络向计算设备通信传送另一指令,该另一指令被配置为使得计算设备基于第三对象是感兴趣对象来执行功能。

8.根据示例7所述的计算机实施的方法,进一步包括,在获得第三图像之前:

访问数据库以获得包括第三多个训练数据图像的第三训练数据集合,第三多个训练数据图像中的每一个包括占据视场内的第一位置的第二类型的对应训练数据对象,占据第一位置的每个第二类型的对应训练数据对象在第三训练数据集合中不被标记为感兴趣对象;以及

由至少一个硬件处理器使用第三训练数据集合和一个或多个机器学习算法来训练神经网络模型。

9.根据示例1至8中任一项所述的计算机实施的方法,其中,第一图像进一步包括占据视场内的第一位置的第二类型的第三对象,第二类型不同于第一类型,并且该方法进一步包括:

由至少一个硬件处理器使用神经网络模型基于第三对象的第一位置来确定第三对象的第三置信值,该第三置信值表示第三对象是感兴趣对象的可能性,并且基于第三对象是第二类型而不是第一类型,第三对象的第三置信值高于第一对象的第一置信值;

基于第三对象的第三置信值来确定第三对象是感兴趣对象;以及

基于确定第三对象是感兴趣对象,经由网络向计算设备通信传送另一指令,该另一指令被配置为使得计算设备基于第三对象是感兴趣对象来执行功能。

10.根据示例1至9中任一项所述的计算机实施的方法,进一步包括,在获得第一图像之前:

访问数据库以获得包括多个训练数据图像的训练数据集合,所述多个训练数据图像中的每一个包括占据视场内的第一位置的第一类型的对应训练数据对象和占据视场内的第一位置的第二类型的对应训练数据对象,占据第一位置的每个第一类型的对应训练数据对象在训练数据集合中被标记为不是感兴趣对象,并且占据第二位置的每个第二类型的对应训练数据对象在训练数据集合中不被标记为感兴趣对象;以及

由至少一个硬件处理器使用训练数据集合和一个或多个机器学习算法来训练神经网络模型。

11.一种系统,包括:

至少一个处理器;以及

存储可执行指令的非暂时性计算机可读介质,其中该可执行指令在被执行时使得至少一个处理器执行根据示例1至10中任一项所述的方法。

12.一种有形地体现指令集合的非暂时性机器可读存储介质,其中该指令集合在由至少一个处理器执行时使得至少一个处理器执行根据示例1至10中任一项所述的方法。

13.一种承载指令集合的机器可读介质,其中该指令集合在由至少一个处理器执行时使得至少一个处理器执行根据示例1至10中任一项所述的方法。

提供了本公开的摘要以允许读者快速确定技术公开的本质。提交摘要时应理解,摘要将不用来解释或限制权利要求的范围或含义。此外,在前面的具体实施方式中,可以看出,为了简化本公开的目的,各种特征一起被分组在单个实施例中。本公开的该方法不被解释为反映所要求保护的实施例需要比在每个权利要求中明确记载的更多的特征的意图。相反,如所附权利要求反映的,发明主题在于少于单个公开实施例的所有特征。因此,所附权利要求在此被合并到具体实施方式中,每个权利要求独立地作为单独的实施例。

30页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种箱号识别方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!