用于基于机器学习的视觉设备选择的装置

文档序号:1942816 发布日期:2021-12-07 浏览:4次 >En<

阅读说明:本技术 用于基于机器学习的视觉设备选择的装置 (Apparatus for machine learning based visual device selection ) 是由 J·安多科 E·内特 于 2020-04-09 设计创作,主要内容包括:本披露内容涉及确定用于患者或用户的视觉设备。在实施例中,基于机器学习的方法在标记的面部和视觉设备的数据库的上下文中考虑用户的面部,所述标记的图像中的每一个反映了建议的视觉设备相对于患者或用户的面部的美学价值。(The present disclosure relates to determining a visual device for a patient or user. In an embodiment, a machine learning based approach considers a user&#39;s face in the context of a database of labeled faces and visual devices, each of the labeled images reflecting the aesthetic value of a proposed visual device relative to the patient or the user&#39;s face.)

用于基于机器学习的视觉设备选择的装置

技术领域

本披露内容涉及眼睛配戴物,具体地涉及视觉设备与患者面部的匹配。

背景技术

在选择新的视觉设备或眼睛配戴物的过程中,患者经常需要进行自我审视,以确定他们脸上的新眼睛配戴物的美感。与此同时,患者可能会纠结于其自己对脸上新眼睛配戴物的看法以及第三方(例如,朋友、家人、专业人士等)对脸上新眼睛配戴物是否合适的假想看法。考虑到审美吸引力以及眼睛配戴物对正确视力的必要性,眼睛配戴物选择的任务可能是繁重的,没有有效的方法来自信地购买一套用户、用户的医生和用户的朋友一定会满意的眼睛配戴物。本披露内容提供了此问题的解决方案。

前述“背景”说明是为了总体上介绍本披露内容的上下文。发明人的工作(在本背景部分中所描述的程度上)、以及说明书中在申请之时可能不被认定为现有技术的方面,既没有明确地也没有隐含地承认是针对本发明的现有技术。

发明内容

本披露内容涉及一种用于确定适合的视觉设备的装置、方法和计算机可读存储介质。

根据实施例,本披露内容进一步涉及一种用于确定适合的视觉设备的装置,所述装置包括处理电路系统,所述处理电路系统被配置为:接收至少一个输入,所述至少一个输入包括人的面部图像;将神经网络应用于所述至少一个输入,所述神经网络生成所述至少一个输入的至少一个适合性度量;并且基于由所述神经网络生成的所述至少一个适合性度量,确定所述适合的视觉设备,其中,所述至少一个适合性度量与所述人的面部与视觉设备之间的相关性同步相对应。

根据实施例,本披露内容进一步涉及一种用于确定适合的视觉设备的方法,所述方法包括通过处理电路系统接收至少一个输入,所述至少一个输入包括人的面部图像;通过所述处理电路系统将神经网络应用于所述至少一个输入,所述神经网络生成所述至少一个输入的至少一个适合性度量;以及通过所述处理电路系统、基于由所述神经网络生成的所述至少一个适合性度量来确定所述适合的视觉设备,其中,所述神经网络包括隐式输入,其中,所述至少一个适合性度量与所述人的面部与视觉设备之间的相关性同步相对应。

前面的段落是作为一般性介绍提供的,而不旨在限制以下权利要求的范围。通过参考以下结合附图的详细说明,将最好地理解所描述的实施例以及进一步优点。

附图说明

将容易获得对本披露内容的更全面了解及其许多的伴随优点,因为这些优点通过参考以下详细说明、在结合附图考虑时将变得更好理解,在附图中:

图1是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的实施方式的流程图;

图2A是根据本披露内容的示例性实施例的图像输入过程的一个方面的示意图;

图2B是根据本披露内容的示例性实施例的图像准备过程的一个方面的示意图;

图3是根据本披露内容的示例性实施例的图像准备过程的一个方面的示意图;

图4是根据本披露内容的示例性实施例的视觉设备选择工具的神经网络的训练过程的流程图的一个方面;

图5A是根据本披露内容的示例性实施例的标记过程的输入的示意图;

图5B是根据本披露内容的示例性实施例的标记过程的示意图;

图6A是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图;

图6B是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图;

图6C是根据本披露内容的示例性实施例的机器学习视觉设备选择工具的训练过程的输入的图;

图6D是根据本披露内容的示例性实施例的机器学习视觉设备选择工具的训练过程的输入的图

图6E是根据本披露内容的示例性实施例的机器学习视觉设备选择工具的训练过程的输入的图

图7A是展示了根据本披露内容的示例性实施例的对输入进行标记的示意图;

图7B是展示了根据本披露内容的示例性实施例的对输入进行标记的示意图;

图7C是展示了根据本披露内容的示例性实施例的对输入进行标记的示意图;

图7D是展示了根据本披露内容的示例性实施例的对输入进行标记的示意图;

图8A是展示了根据本披露内容的示例性实施例的多个标记组的示意图;

图8B是展示了根据本披露内容的示例性实施例的通过多个标记组对输入进行标记的示意图;

图8C是展示了根据本披露内容的示例性实施例的通过多个标记组对输入进行标记的示意图;

图8D是展示了根据本披露内容的示例性实施例的通过多个标记组对输入进行标记的示意图;

图8E是展示了根据本披露内容的示例性实施例的通过多个标记组对输入进行标记的示意图;

图9A是展示了根据本披露内容的示例性实施例的标记组的示意图;

图9B是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图;

图9C是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图;

图9D是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图;

图9E是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图;

图9F是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的训练过程的输入的图

图10A是展示了根据本披露内容的示例性实施例的通过标记组对输入进行标记的示意图;

图10B是展示了根据本披露内容的示例性实施例的通过标记组对输入进行标记的示意图;

图10C是展示了根据本披露内容的示例性实施例的通过标记组对输入进行标记的示意图;

图10D是展示了根据本披露内容的示例性实施例的通过标记组对输入进行标记的示意图;

图11A是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征和视觉设备属性;

图11B是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征和视觉设备属性;

图11C是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是面部图像和视觉设备属性;

图11D是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征和视觉设备图像;

图11E是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是面部图像和视觉设备图像;

图11F是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征、视觉测量结果和视觉设备属性;

图11G是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征、视觉测量结果和视觉设备属性;

图11H是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是面部图像、视觉测量结果和视觉设备属性;

图11I是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征、视觉测量结果和视觉设备图像;

图11J是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是面部图像、视觉测量结果和视觉设备图像;

图11K是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征;

图11L是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征;

图11M是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征;

图11N是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征;

图11O是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征和视觉测量结果;

图11P是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是形态特征和视觉测量结果;

图11Q是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是面部图像和视觉测量结果;

图11R是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的神经网络的示意图,其中,输入是面部图像和视觉测量结果;

图12A是展示了根据本披露内容的示例性实施例的用于神经网络训练过程的训练数据库的准备的示意图;

图12B是基于机器学习的视觉设备选择工具的训练过程的神经网络的示意图,其中,输入是度量面部标志坐标;

图13A是根据本披露内容的示例性实施例的被配置为处理异类输入数据的神经网络的概括流程图;

图13B是根据本披露内容的示例性实施例的被配置为处理异类输入数据的神经网络的概括流程图的一个方面;

图13C是根据本披露内容的示例性实施例的被配置为处理异类输入数据的神经网络的概括流程图的一个方面;

图13D是根据本披露内容的示例性实施例的被配置为处理异类输入数据的神经网络的概括流程图的一个方面;

图13E是根据本披露内容的示例性实施例的被配置为处理异类输入数据的神经网络的概括流程图的一个方面;

图13F是根据本披露内容的示例性实施例的被配置为处理异类输入数据的神经网络的概括流程图的一个方面;

图14是根据本披露内容的示例性实施例的对基于机器学习的视觉设备选择工具的神经网络进行训练的流程图;

图15A是人工神经网络的实施方式的概括流程图;

图15B是根据本披露内容的示例性实施例的卷积神经网络的实施方式的流程图;

图16是前馈人工神经网络的示例;以及

图17是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具的硬件配置。

具体实施方式

如本文所使用的术语“一个(a)”或“一个(an)”被定义为一个或多于一个。如本文所使用的术语“多个”被定义为两个或多于两个。如本文所使用的术语“另一个”被定义为至少第二个或更多。如本文所使用的术语“包括(including)”和/或“具有”被定义为“包括(comprising)”(即,开放式语言)。术语“视觉设备(visual equipment)”、“眼镜(eyeglass)”、“眼镜(eyeglasses)”和“视觉设备(visual equipments)”可以互换使用,以指具有框架和镜片两者的装置。术语“视觉设备(visual equipment)”可以用于指单个视觉设备,而术语“视觉设备(visual equipments)”可以用于指多于一个视觉设备。在整个本文件中提及“一个实施例”、“某些实施例”、“实施例”、“实施方式”、“示例”或类似术语意味着结合实施例描述的具体特征、结构或特性包括在本披露内容的至少一个实施例中。类似地,术语“面部图像”和“人的面部图像”是可以互换使用的对应术语。因此,在整个说明书中这样的短语的出现或在各个地方的出现不一定都指的是同一个实施例。另外,具体特征、结构或特性可以在一个或多个实施例中以任何适当的方式无限制地组合。

今天,寻求视觉设备或眼镜的患者或其他用户通常几乎没有关于眼科上合适的和美学上令人满意的指导。对一些患者或用户来说,文化趋势推动其决策。对其他患者或用户来说,朋友和家人的意见最重要。对于优先考虑符合人体工程学和视敏度的仍其他患者或用户来说,训练有素的视觉专家的意见是必要的。目前,用户可以使用提供一些但不是所有上述特征的方法。例如,在一种方法中,可以实施决策树来将视觉设备的框架与从个人面部上的标志(landmark)检测到的形态特征相匹配,该匹配确定了理想的视觉设备。在另一种方法中,可以要求用户回答关于其自身风格、生活方式和个性等问题,以便确定用户的品味和习惯。然后,基于决策树或基于内容的过滤的实施方式,这些特征可以用于推荐理想的视觉设备。作为上述的扩展,仍另一种方法采用用户偏好模型执行对用户浏览历史的分析以确定如框架等似乎与用户相关的视觉设备特征(例如,基于内容的过滤)或用户最接近的消费者简档(例如,基于协作的过滤)。

上述方法虽然部分地解决了用户的需求,但是在做出视觉设备选择时并未向用户提供稳健的、端到端的输入。为此,本披露内容描述了一种基于机器学习的视觉设备选择工具,用于基于形态和结构特征、眼科需求和美学吸引力向用户呈现适合的视觉设备选择。

现在参考附图,图1是根据本披露内容的示例性实施例的基于机器学习的视觉设备选择工具(ML-VEST)100的概括流程图。ML-VEST 100可以包括输入准备过程110、机器学习应用过程115和视觉设备选择过程125。最初,用户向ML-VEST 1000提供输入105。基于神经网络训练,输入105可以直接提供114给机器学习应用过程115,或者可以提供给输入准备过程110,其中输入105是根据机器学习应用过程115的特定实施方式的规范来准备的。在实施例中,输入105可以是需要准备的用户面部图像,并且相应地被提供给输入准备过程110。然后可以将准备的输入或准备的图像传递到机器学习应用过程115。适合性度量120可以从机器学习应用过程115生成,其中,与用户面部相对应的准备的图像基于视觉设备或眼镜的“适合性”来评分,适合性是提供量化用户面部与视觉设备之间的适合性的度量的相关同步。基于针对视觉设备或多个视觉设备评分的适合性度量120的量值,视觉设备选择过程125可以为提供输入的用户的面部选择理想的眼镜。在实施例中,用户可以提供用户的面部图像和感兴趣的视觉设备图像。在处理图像时,ML-VEST 100可以生成适合性度量120,当与适合性度量120的预定阈值进行比较时,该适合性度量指示视觉设备应当被选择为用户的理想的视觉设备。在实施例中,适合性度量120可以与置信水平相关联,当与置信水平阈值进行比较时,该置信水平指示适合性度量120是否准确。在另一个实施例中,用户可以仅提供面部图像作为输入,并且理想的视觉设备或适合的视觉设备可以是从多个眼镜的数据库中选择的视觉设备,或者可以例如从用户预先选择的或可供用户使用的眼镜的子集中选择。为此,如上所述,可以为每个所选视觉设备生成适合性度量120,并且生成的适合性度量120的比较可以指示要被选择为理想的视觉设备的视觉设备。进而,可以向用户推荐该理想的视觉设备,该理想的视觉设备在用户关于审美吸引力和视敏度的偏好的背景下反映用户的独特的形态特性。

图2A描述了可以由用户提供给ML-VEST的至少一个输入205。如参考图1所描述的,可以将至少一个输入205提供给输入准备过程,或者可以直接提供给机器学习应用过程。用户提供的至少一个输入205还可以包括用户的面部图像206、用户面部图像以及单独提供的视觉设备的图像207、佩戴视觉设备的用户的面部图像208和与用户相对应的视觉测量结果209等。视觉测量结果可以是视敏度的标准眼科测量结果。

当提供给输入准备过程时,如图2B所示,可以在提供给机器学习应用过程之前准备上述至少一个输入中的每一个。因此,图2B描述了可以对接收到的至少一个输入实施的输入准备过程210。在实施例中,本文所描述的输入准备过程210可以对由用户在ML-VEST的应用期间提供的输入和在ML-VEST的神经网络的训练期间提供的输入实施。

从高水平来看,如在ML-VEST的应用或ML-VEST的训练期间所应用的,输入准备过程210执行至少一个输入准备功能211并生成至少一个输入准备输出213。如本领域普通技术人员将理解的,可以选择至少一个输入准备功能211和至少一个输入准备输出213,使得在ML-VEST的应用期间和ML-VEST的神经网络的训练期间执行类似的过程。

从低水平来看,至少一个输入准备功能211例如可以包括图像分类、图像分割和卷积212等。可以执行图像分割,以在对ML-VEST的神经网络进行训练期间和应用ML-VEST期间检测至少一个输入的相关特性。在被称为至少一个输入准备输出213的情况下,这些相关特性可以是例如形态特征,如“面部宽度”和“鼻子大小”,或者可以是视觉设备属性,如“框架形状”和“框架颜色”。附加的形态特征包括面部形状、皮肤颜色、眼睛颜色、头发颜色等。这种形态特征可以经由如上所述的图像处理(即,图像分割/分类)来计算,或者可以在输入图像上手动确定或测量,其中,手动测量需要校准对象准确地计算特征的尺寸。附加的视觉设备属性可以包括镜片宽度、镜片高度、鼻梁距离、镜腿长度等。这种视觉设备属性可以经由如上所述的图像处理(即,图像分割/分类)来计算,或者可以在输入图像上手动确定或测量,如上所述,其中,手动测量需要校准对象准确地计算属性。在一些情况下,可以从包含视觉设备属性的数据库中访问视觉设备属性。

在实施例中,并且除了上述图像分割和图像分类之外,可以对至少一个输入执行卷积212。卷积212可以包括卷积滤波器的使用,并且可以加快特征提取。如稍后将描述的,卷积212也可以由ML-VEST的神经网络来执行,从而避免输入准备过程210。

在实施例中,可以将至少一个输入提供给输入准备过程210,或者可以直接提供给机器学习应用过程。例如,至少一个输入可以是对应用户的视觉测量结果。在由用户提供的情况下,至少一个输入可以包括球镜和下加光,并且可以提供给ML-VEST的神经网络。

参考图3,在输入准备过程之后,如果需要,则可以将准备的至少一个输入递送到ML-VEST的机器学习应用过程315。一般地,机器学习应用过程的输入可以包括直接提供给机器学习应用过程的至少一个输入(例如,面部图像和视觉设备图像、面部图像、佩戴视觉设备的面部图像)和准备的至少一个输入(例如,来自面部图像的形态特征、来自视觉设备图像的视觉设备属性)。综合考虑,可以考虑输入ML-VEST的神经网络的几个用例:(1)从面部图像和视觉设备图像或从佩戴视觉设备的面部图像获取的形态特征和视觉设备属性;(2)面部图像和视觉设备属性;(3)形态特征和视觉设备属性;(4)面部图像和视觉设备图像;(5)形态特征、视觉设备属性和视觉测量结果;(6)面部图像、视觉设备属性和视觉测量结果;(7)形态特征、视觉设备图像和视觉测量结果;(8)面部图像、视觉设备图像和视觉测量结果;(9)形态特征;(10)面部图像;(11)形态特征和视觉测量结果;(12)面部图像和视觉测量结果。

返回至图3,并且基于所选用例(如上所概述的),可以将机器学习应用于准备的至少一个输入,其中,可以生成适合性度量320作为机器学习应用过程315的输出。对于每个用例,将参考后续的附图提供对ML-VEST的神经网络的详细描述。然后,单个适合性度量的量值的评估或者多个适合性度量的量值的比较可以用于为用户选择理想的视觉设备325。

适合性度量320的类型和最终选择的理想的视觉设备325可以基于ML-VEST的神经网络的训练。因此,图4A提供了在ML-VEST 435的机器学习应用过程期间使用的神经网络的训练的流程图。

一般地,训练包括向ML-VEST和标记者组提供相同的输入,该标记者组在标记过程440期间对输入的适合性进行评分,以便生成训练适合性度量数据或“真实”数据。为了训练神经网络430,由ML-VEST的神经网络430生成的适合性度量420可以与标记者组在标记过程440期间评分的训练适合性度量进行比较。可以评估其间生成的误差值438并且可以调整439ML-VEST的神经网络430的参数,因此,使得由ML-VEST的神经网络430生成的未来适合性度量相对于在标记过程440期间评分的适合性度量越来越准确。

具体地,训练最初包括从训练数据库436接收至少一个输入405。如图2A所提及的,训练数据库436可以由多个输入组成,包括面部图像、与视觉设备图像并排的面部图像、佩戴视觉设备的面部图像以及与用户眼睛的视敏度相对应的视觉测量结果。存储在训练数据库436中的多个输入旨在来自模糊的人群和各种视觉设备,从而允许ML-VEST能够稳健地为随机用户选择理想的视觉设备。然而,可以理解,存储在训练数据库436中的多个输入可以是任何种类的输入,并且可以针对特定的应用进行定制。例如,存储在训练数据库436中的多个输入还可以包括来自人群的人脸图像(或其形态特征)、与人脸图像相对应的视觉测量结果以及视觉设备图像(或其视觉设备属性)等。

如果需要,则可以将来自多个输入的至少一个输入405提供给输入准备过程410,或者直接提供给神经网络430。另外地,可以将至少一个输入405提供给标记过程440。在实施例中,同时提供给输入准备过程410和标记过程440的至少一个输入405可以是存储在训练数据库中的多个输入的子集,如图5A所示。在实例中,子集可以包括面部图像和视觉设备图像。因此,经训练的神经网络430将能够为任何视觉设备生成适合性度量420。在另一个实例中,子集可以仅包括面部图像。相比于关于视觉设备图像提供面部图像,面部图像与视觉设备的预定义列表一起提供,视觉设备的预定义列表是神经网络430的隐式输入。在对神经网络430进行训练时,可以针对视觉设备的预定义列表中的每个视觉设备对面部图像进行评分(即,标记),并且神经网络430的输出然后可以是视觉设备的预定义列表中的每个视觉设备与面部图像的匹配分数列表。换言之,隐式输入可以是视觉设备的图像的所选子集或预定义列表。如用例中所描述的,视觉设备的所选子集可以用于评估面部图像,视觉设备的所选子集中的每个视觉设备被给予相对于面部图像的适合性分数。可以了解的是,存储在训练数据库436中的多个输入中的包括隐式输入的输入的选择可以基于ML-VEST的神经网络430的特定实施方式。

根据实施例,并且如上文所介绍的,标记过程440可以提供“真实”数据或训练数据,可以在该数据上训练神经网络430,从而学习如何准确地分类或预测适合性度量。在本披露内容的上下文中,标记过程440可以包括对作为至少一个输入提供的多个图像中的每一个进行评分和评论。

在实施例中,标记者可以从与视觉设备图像并排的输入图像中查看例如人的面部,并在其上提供分数和评论。参考图5A,标记过程的输入可以包括与视觉设备图像508并排的面部图像、佩戴视觉设备的面部图像509以及与面部图像相对应的视觉测量结果549,如前所述。另外,标记过程的输入可以包括佩戴虚拟视觉设备的面部图像552。被称为“虚拟试戴操作”的佩戴虚拟视觉设备的面部图像552为标记者提供了一种方法,该方法用于当佩戴特定视觉设备的面部的真实图像不可用时可视化面部上的视觉设备。在标记过程中生成的虚拟试戴操作可以通过以下步骤创建:首先,对视觉设备的图像进行偏移校正,使得仅保留视觉设备的图案;其次,将视觉设备的图案复制到面部图像上,从而模拟佩戴视觉设备的面部的真实图像。然后,标记者可以评估虚拟试戴操作,并将其标记为正常。

在上文所介绍的实例中,标记者提供标记或一系列标记或分数,这些标记或分数定义了ML-VEST的神经网络的输出层的特性。例如,参考图5B,标记过程540可以包括确定视觉设备是否适合面部,被称为二值视觉设备适合性541。标记过程540可以进一步包括确定视觉设备与面部之间的匹配分数,被称为整体视觉设备匹配分数542。更进一步地,标记过程540可以包括确定针对预定义标准列表中的每个标准的视觉设备和面部的匹配分数,被称为按标准的视觉设备匹配543。该预定义标准列表可以包括例如面部宽度相对于框架宽度的匹配分数、面部形状相对于框架形状的匹配分数、下面部形状相对于框架高度的匹配分数以及肤色相对于框架颜色/装饰的匹配分数等。标记过程540的上述标记可以表示为对应的值。例如,二值视觉设备适合性可以由0或1表示,整体视觉设备匹配分数542可以表示为0与N之间的分数(例如,5颗星中的2颗星),并且对于每个标准,通过按标准的视觉设备匹配分数可以表示为0与N之间的分数(例如,5颗星中的4颗星)。除了根据标记过程540的特定过程为每个图像提供标记之外,标记者还可以提供关于为什么指派特定标记的评论544,评论544包括例如“该视觉设备对于该面部宽度来说太大”或“该视觉设备对于该肤色来说太暗”等短语。在实施例中,除了面部图像和视觉设备图像之外,标记过程540还可以包括与面部图像相对应的视觉测量结果,其中,具有视觉专业知识的人在标记时能够考虑视敏度。

可以了解的是,上述标记过程可以是迭代的,直到面部和视觉设备的所有可能组合都被标记。例如,可以为单个面部图像与多个视觉设备图像的每个组合提供标记。

现在返回图4A,并且在理解标记过程440的标记变成神经网络430的输出的情况下,可以训练神经网络430。关于图14至图16描述了对神经网络的训练的更全面但更一般的描述。如图4A所展示的,可以将经处理的至少一个输入提供给神经网络430的第1隐藏层或输入层。在示例中,神经网络430可以是全连接神经网络,从而允许神经网络的每个全连接层从前一层的特征或输出的所有组合中学习。如关于输入准备过程410所讨论的,神经网络430的输入层可以根据用例而变化。在将经处理的至少一个输入传递通过神经网络430的第N隐藏层之后,可以从输出层生成适合性度量420。生成的适合性度量420必须与标记过程440的标记或训练适合性度量相匹配。因此,适合性度量420的值可以在误差确定438处与标记过程440的标记或训练数据进行比较,以确定神经网络430的输出的准确度。基于误差确定438,训练过程435可以继续或者可以返回到神经网络430的第1隐藏层,并且可以基于误差确定438的误差来更新每个隐藏层的系数/权重。如图所示,特别地,ML-VEST和神经网络430的训练过程435可以继续,直到误差确定438满足标准。该标准可以是包括误差值或迭代次数的多种标准之一。一旦适合性度量和训练数据的误差已经满足误差确定438的标准,神经网络430就准备好在ML-VEST中实施。

在ML-VEST内的实施期间,适合性度量420可以是描述至少一个输入的多个适合性度量420之一,所述至少一个输入包括人的面部图像和视觉设备数据库的多个视觉设备中的每个视觉设备,并且该适合性度量可以进一步输出到视觉设备选择过程425,如图4B所示。视觉设备选择过程425可以获取多个适合性度量420中的每一个,并选择适合的视觉设备。在一个实例中,如神经网络430的训练435所规定的,适合的视觉设备最大化二值视觉设备适合性、整体视觉设备匹配分数、或按标准的视觉设备匹配分数以及伴随的评论。在另一个实例中,可以通过将二值视觉设备适合性、整体视觉设备匹配分数、或按标准的视觉设备匹配分数中的每一个以及伴随的评论与预定阈值进行比较,以确定适合的视觉设备。

图6A至图6E展示了ML-VEST的示例性输入。例如,图6A描述了一种情况,其中,ML-VEST的训练的至少一个输入包括从训练数据库获取的输入图像,这些输入图像包含人的面部图像和单独地视觉设备图像608。图6B展示了ML-VEST的训练的输入,其中,至少一个输入包括人的面部图像607和视觉设备属性651,视觉设备属性651类似地从训练数据库中获取。鉴于图6A,图6C展示了一种情况,其中,ML-VEST的训练的至少一个输入包括佩戴视觉设备的人的面部图像609。图6D和图6E包括作为至少一个输入的面部图像的形态特征,这些形态特征存储在训练数据库中。参考图6D,ML-VEST的至少一个输入可以是训练数据库中的面部图像的形态特征653和多个视觉设备的视觉设备属性651。如图6E所示,从训练数据库中获取的至少一个输入可以包括面部图像的形态特征653和视觉设备图像605。

图7A反映了鉴于图5描述的标记过程,其中,标记过程的至少一个输入705包括人的面部图像和单独地视觉设备图像。图7A的至少一个输入705或者在另一个实施例中经处理的至少一个输入可以由标记者标记。在实施例中,标记者是标记者组745中的一个。关于图7A,标记者组745可以是一组模糊的人。如图5所描述的,该组模糊的人中的每一个关于具有视觉设备的人的面部图像的标记包括二值视觉设备适合性741、整体视觉设备匹配分数742和按标准的视觉设备匹配分数743。由标记者组745确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且定义神经网络的输出层。可以对训练数据库中的人的面部图像和多个视觉设备的视觉设备图像的每个组合重复上述标记过程。

图7B反映了鉴于图5描述的标记过程,其中,至少一个输入705包括佩戴视觉设备的人的面部图像。图7B的至少一个输入705或者在另一个实施例中经处理的至少一个输入可以由标记者标记。在实施例中,标记者是标记者组745中的一个。关于图7B,标记者组745可以是一组模糊的人。该组模糊的人中的每一个关于佩戴视觉设备的人的面部图像的标记包括如图5所描述的二值视觉设备适合性741、整体视觉设备匹配分数742和按标准的视觉设备匹配分数743。由标记者组745确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。可以对训练数据库的多个图像中的佩戴视觉设备的人的面部图像中的每一个重复上述标记过程。

图7C反映了鉴于图5描述的标记过程,其中,至少一个输入705包括人的面部图像和视觉设备图像。图7B的至少一个输入705可以由标记者标记。在实施例中,为了减轻标记者的任务,至少一个输入705可以是经处理的至少一个输入。经处理的至少一个输入可以是虚拟试戴操作752或2D VTO,其中,操纵面部图像和视觉设备图像,使得面部可以看起来像佩戴了视觉设备。提供相对于经处理的至少一个输入的适合性分数的标记者组745可以是一组模糊的人。该组模糊的人中的每一个关于“佩戴”视觉设备的人的面部图像的虚拟试戴操作752的标记包括如图5所描述的二值视觉设备适合性741、整体视觉设备匹配分数742和按标准的视觉设备匹配分数743。由标记者组745确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。可以对训练数据库的多个图像中的“佩戴”视觉设备的人的面部图像中的每一个的虚拟试戴操作752重复上述标记过程。

图7D反映了鉴于图5描述的标记过程,其中,至少一个输入705包括人的面部图像。图7B的至少一个输入705可以由标记者鉴于例如从训练数据库中选择的视觉设备图像的子集732中的视觉设备的虚拟试戴操作752来标记。提供相对于虚拟试戴操作752的适合性分数的标记者组745可以是一组模糊的人。该组模糊的人中的每一个关于“佩戴”子集中的视觉设备的人的面部图像的虚拟试戴操作752的标记包括如图5所描述的二值视觉设备适合性741、整体视觉设备匹配分数742和按标准的视觉设备匹配分数743。由标记者组745确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。在示例中,从视觉设备1或VE 1到VE 2并且直到VE N,对训练数据库中的“佩戴”视觉设备图像的子集中的视觉设备的人的面部图像中的每一个的虚拟试戴操作752重复上述标记过程。

根据实施例,如图8A所描述的,标记过程的标记者组可以包括具有相关特征的子组。例如,标记者组845可以包括多个类别的标记者850,多个类别的标记者850中的每个类别通过共同特征连接。在一个类别的标记者中,每个标记者通常被定义为一组消费者,例如,性别、年龄、社会专业类别、本地化和风格等。这些标记者可以进一步定义为消费者组的组合,例如,“五十多岁的常坐飞机的男人”、“四十多岁带着孩子的工作狂女人”等等。因此,将多个类别的标记者850中的每个类别的标记者应用于图4A的训练过程,可以训练神经网络,使得神经网络的输出反映一组人的意见,如上文所描述的定义。例如,对被定义为“20多岁的单身女性专业人士”的类别的标记者的意见进行训练的神经网络将相应地生成指示这种类别的标记者的意见的适合性度量。在ML-VEST的实施期间,用户可以预先选择期望类别的标记者850,以提供感兴趣的特定意见。

可以了解的是,通过改变标记者组中标记者的类别,可以根据用户的期望调整ML-VEST。例如,用户可能期望根据他们当地男性的意见知道哪种视觉设备在他们的脸上看起来最好看。在另一个实例中,用户可能期望根据名人的意见知道哪种视觉设备在他们的脸上看起来最好看。在任何情况下,ML-VEST和其中的标记者组都可以进行必要的调整,以获得反映期望的意见的结果。

为此,图8B反映了鉴于图5描述的标记过程,其中,标记者组可以是多个类别的标记者中的一个类别的标记者,并且使得至少一个输入805可以包括与视觉设备图像并排显示的面部图像。图8B的至少一个输入805或者在另一个实施例中经处理的至少一个输入可以由标记者组标记。标记者组可以是第一类别的标记者846,并且可以是多达N个类别的标记者847,其中,每个类别反映由例如经典消费者细分标准(图8A中所描述)定义的特定人群。第一类别的标记者846和直到第N类别的标记者847中的每个类别的标记者关于面部图像和视觉设备图像的并排显示的标记包括如图5所描述的二值视觉设备适合性841、整体视觉设备匹配分数842和按标准的视觉设备匹配分数843。由标记者的类别确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。在示例中,对训练数据库中的面部图像和多个视觉设备的视觉设备图像的每个组合重复上述标记过程。

图8C反映了鉴于图5描述的标记过程,其中,标记者组可以是多个类别的标记者中的一个类别的标记者,并且使得至少一个输入805可以包括佩戴视觉设备的面部图像。图8C的至少一个输入805或者在另一个实施例中经处理的至少一个输入可以由标记者组标记。标记者组可以是第一类别的标记者846,并且可以是多达N个类别的标记者847,其中,每个类别反映由例如经典消费者细分标准(图8A中所描述)定义的特定人群。第一类别的标记者846和直到第N类别的标记者847中的每个类别的标记者关于佩戴视觉设备的面部图像的标记包括如图5所描述的二值视觉设备适合性841、整体视觉设备匹配分数842和按标准的视觉设备匹配分数843。由标记者的类别确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。在示例中,对训练数据库中的面部图像和多个视觉设备的视觉设备图像的每个组合重复上述标记过程。

鉴于图7C,图8D反映了标记,其中,标记者组可以是多个类别的标记者中的一个类别的标记者,并且使得至少一个输入805可以包括与视觉设备图像并排的面部图像。图8D的至少一个输入805或者在另一个实施例中经处理的至少一个输入可以由标记者组标记。在实施例中,为了减轻标记者的任务,至少一个输入805可以是经处理的至少一个输入。经处理的至少一个输入可以是虚拟试戴操作852,其中,操纵面部图像和视觉设备图像,使得面部看起来像佩戴了视觉设备。标记者组可以是第一类别的标记者846,并且可以是多达N个类别的标记者847,其中,每个类别反映由例如经典消费者细分标准(图8A中所描述)定义的特定人群。第一类别的标记者846和直到第N类别的标记者847中的每个类别的标记者关于虚拟试戴操作852的标记包括如图5所描述的二值视觉设备适合性841、整体视觉设备匹配分数842和按标准的视觉设备匹配分数843。由标记者的类别确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。在示例中,对训练数据库中的“佩戴”多个视觉设备中的视觉设备的面部图像的每个组合的虚拟试戴操作852重复上述标记过程。

鉴于图7D,图8E反映了标记,其中,标记者组可以是多个类别的标记者中的一个类别的标记者,并且使得至少一个输入805可以包括人的面部图像。在实施例中,为了减轻标记者的任务,至少一个输入805可以是虚拟试戴操作852,其中,操纵并组合选自训练数据库的面部图像和视觉设备图像的子集832中的视觉设备图像,使得面部看起来像“佩戴了”视觉设备。标记者组可以是第一类别的标记者846,并且可以是多达N个类别的标记者847,其中,每个类别反映由例如经典消费者细分标准(图8A中所描述)定义的特定人群。第一类别的标记者846和直到第N类别的标记者847中的每个类别的标记者关于“佩戴”子集中的视觉设备的面部图像的虚拟试戴操作852的标记包括如图5所描述的二值视觉设备适合性841、整体视觉设备匹配分数842和按标准的视觉设备匹配分数843。由标记者的类别确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。从视觉设备1或VE 1到VE 2并且直到VE N,可以对训练数据库中的“佩戴”视觉设备图像的子集中的视觉设备的人的面部图像中的每一个的虚拟试戴操作852重复上述标记过程。

根据实施例,并且参考图9A,标记者组945可以包括多个类别的标记者,多个类别的标记者中的一个类别的标记者是专家类别的标记者948。所述专家类别的标记者948可以是异类的或者可以被分成专家标记者的子类别。例如,专家类别的标记者948可以包括眼睛护理专业人员、美容师和相面师等。在另一个实例中,眼睛护理专业人员、美容师、相面师等可以包括子类别,并且可以向面部和视觉设备的组合提供特定于职业的标记。

为此,如图9B至图9F的示例性至少一个输入和经处理的至少一个输入所示,包括标记者的专家标记者类别允许在标记期间定义和考虑至少一个输入的附加特性。例如,图9B描述了一种情况,其中,ML-VEST的训练的至少一个输入905(至少一个输入905是从训练数据库中获取的)包含面部图像和单独地视觉设备图像908。此外,由于专家标记者的实例是眼睛护理专业人员,因此至少一个输入中的面部图像例如可以进一步与如医学处方和瞳孔距离等视觉测量结果949相关联。类似地,图9C展示了ML-VEST的训练的至少一个输入905,该至少一个输入包括面部图像和视觉设备属性951,视觉设备属性951是从基本类似于图3所描述的输入准备过程中确定的。此外,与图9B一样,至少一个输入905中人的面部可以与如上述的那些视觉测量结果949相关联。鉴于图9B,图9D展示了一种情况,其中,ML-VEST的训练的至少一个输入905包括佩戴视觉设备的面部图像909。此外,如上所述,图9D的至少一个输入905可以进一步与视觉测量结果949相关联。参考图9E,ML-VEST的至少一个输入905可以包括训练数据库中的面部图像的形态特征953和多个视觉设备的视觉设备属性951。此外,面部图像的形态特征953可以与如上述那些视觉测量结果949相关联。参考图9F,ML-VEST的至少一个输入905可以包括训练数据库中的面部图像的形态特征953和视觉设备图像。此外,面部图像的形态特征953可以与如上述那些视觉测量结果949相关联。

图10A反映了鉴于图5描述的标记过程,其中,至少一个输入1005包括人的面部图像和单独地视觉设备图像。另外地,如图10A采用了标记者组1045,该标记者组是专家标记者1048并且可以是眼睛护理专业人员,在示例中,至少一个输入1005可以包括与面部图像相关联的视觉测量结果1049。如所提及的,图10A的至少一个输入1005或者在另一个实施例中经处理的至少一个输入可以由标记者组1045中的专家类别的标记者1048标记。专家类别的标记者1048中的每一个的标记可以包括如图5所描述的二值视觉设备适合性1041、整体视觉设备匹配分数1042和按标准的视觉设备匹配分数1043。另外地,这些标记可以包括关于视觉设备的适合性的评论,并且在眼睛护理专业人员的情况下,包括针对视觉测量结果1049的评论及其上下文中的评论。由专家类别的标记者1048确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。在示例中,对训练数据库中的面部图像和多个视觉设备的视觉设备图像的每个组合重复上述标记过程。

图10B反映了鉴于图5描述的标记过程,其中,至少一个输入1005包括佩戴视觉设备的面部图像。另外地,如图10B采用了标记者组1049,该标记者组是专家标记者1048并且可以是眼睛护理专业人员,在示例中,至少一个输入1005可以包括与佩戴视觉设备的面部图像相关联的视觉测量结果1049。如所提及的,图10B的至少一个输入1005或者在另一个实施例中经处理的至少一个输入可以由标记者组1045中的专家类别的标记者1048标记。专家类别的标记者1048中的每一个的标记可以包括如图5所描述的二值视觉设备适合性1041、整体视觉设备匹配分数1042和按标准的视觉设备匹配分数1043。另外地,这些标记可以包括关于视觉设备的适合性的评论,并且在眼睛护理专业人员的情况下,包括针对视觉测量结果1049的评论及其上下文中的评论。由专家类别的标记者1048确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且定义神经网络的输出层。可以对训练数据库中的多个图像中佩戴视觉设备的面部图像中的每一个重复上述标记过程。

图10C反映了鉴于图5描述的标记过程,其中,至少一个输入1005包括人的面部图像和单独地视觉设备图像。图10C的至少一个输入1005或者在另一个实施例中经处理的至少一个输入可以由标记者组1045标记,该标记者组1045是专家标记者1048。在实施例中,为了减轻标记者的任务,至少一个输入1005可以是经处理的至少一个输入。经处理的至少一个输入可以是虚拟试戴操作1052,其中,操纵面部图像和视觉设备图像,使得面部看起来像佩戴了视觉设备。专家类别的标记者1048的标记可以包括如图5所描述的二值视觉设备适合性1041、整体视觉设备匹配分数1042和按标准的视觉设备匹配分数1043。由专家类别的标记者1048确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。可以对训练数据库中的“佩戴”多个视觉设备中的视觉设备的面部图像的每个组合的虚拟试戴操作852重复上述标记过程。

图10D反映了鉴于图5描述的标记过程,其中,至少一个输入10005包括面部图像和与面部图像相关联的视觉测量结果1049。在实施例中,为了减轻标记者的任务,至少一个输入1005可以是经处理的至少一个输入,该经处理的至少一个输入是虚拟试戴操作1052,其中,操纵并组合选自训练数据库的面部图像和视觉设备图像的子集1032中的视觉设备图像,使得面部看起来像“佩戴了”视觉设备。专家类别的标记者1048的标记可以包括如图5所描述的二值视觉设备适合性1041、整体视觉设备匹配分数1042和按标准的视觉设备匹配分数1043。由专家类别的标记者1048确定的这些标记可以在ML-VEST的神经网络的训练期间被部署为“真实”数据或训练数据,并且可以定义神经网络的输出层。在示例中,从视觉设备1或VE 1到VE 2并且直到VE N,对训练数据库中的“佩戴”视觉设备图像的子集中的视觉设备的人的面部图像中的每一个的虚拟试戴操作1052重复上述标记过程。

标记过程的上述标记方案中的每一个可以在如图4A中介绍的ML-VEST的训练过程中实施。具体地,并且参考关于图3描述的用例,ML-VEST的实施方式可以如图11A到图11R所展示的进行。可以了解的是,在说明书和附图中适当的地方,“视觉设备”已经被缩写为“VE”,并且这两者可以互换。

参考图11A,案例(1)的示例性实施例,至少一个输入1105可以在被输入到神经网络1115之前被传递到输入准备过程1110。至少一个输入1105可以包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。根据实施例,输入准备过程1110可以包括图像处理或手动测量,以分别从面部图像和视觉设备图像的视觉设备属性1151中得出形态特征1153。另外地,视觉设备属性1151可以通过来自数据库的请求来获得。可以将经处理的至少一个输入递送到神经网络1115的输入层1116,神经网络1115被应用于该输入层。神经网络1115的结构可以包括数据准备(包括均化、归一化等)和全连接神经网络和/或卷积+全连接神经网络。如在标记过程期间由标记者组定义的,神经网络1115的输出层1117反映了神经网络1115对标记的预测。该预测可以是由神经网络1115针对至少一个输入1105的组合生成的适合性度量1120。

与上文类似,现在参考图11B,案例(1)的示例性实施例,至少一个输入1105可以在被输入到神经网络1115之前被传递到输入准备过程1110。至少一个输入1105可以包括佩戴视觉设备的面部图像。根据实施例,输入准备过程1110可以包括图像处理或手动测量,以分别得出面部图像和视觉设备图像的形态特征1153和视觉设备属性1151。可以将经处理的至少一个输入递送到神经网络1115的输入层1116,神经网络1115被应用于该输入层。如标记者组定义的,输出层1117反映了神经网络1115对标记的预测。该预测是由神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

作为案例(2)的示例性实施例,图11C提供了ML-VEST的示意图,其中,至少一个输入1105包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。面部图像可以直接传递到神经网络1115。如前所述,视觉设备图像可以在被递送到神经网络1115之前被传递到输入准备过程1110。神经网络1115的结构可以包括数据准备(包括均化、归一化等)和全连接神经网络和/或卷积+全连接神经网络。为此,可以经由图像处理和手动测量来准备视觉设备图像,以便生成视觉设备属性1151。另外地,所述视觉设备属性1151可以经由来自数据库的请求来获取。与前述实施例不同,应用于面部图像的输入准备过程1110可以在神经网络1115的外部或者与该神经网络是一体的。例如,可以将卷积神经网络1112应用于面部图像,以便执行特征提取并准备图像以输入到神经网络1115的输入层(该图像在此处满足视觉设备图像的经处理的至少一个输入)。在准备好至少一个输入1105两者之后,可以将经处理的至少一个输入递送到神经网络1115的输入层,神经网络1115被应用于该输入层。如标记者组指示的,输出层1117反映了神经网络1115对标记的预测。该预测是神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

作为案例(3)的示例性实施例,图11D提供了ML-VEST的示意图,其中,至少一个输入1105包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。视觉设备图像可以直接传递到神经网络1115。如前所述,面部图像可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备面部图像,以便生成形态特征1153。与前述实施例不同,应用于视觉设备图像的输入准备过程1110可以在神经网络1115的外部或者与该神经网络是一体的。例如,可以将卷积神经网络1112应用于视觉设备图像,以便执行特征提取并准备图像以输入到神经网络1115的输入层(该图像在此处满足经处理的输入面部图像)。在准备好至少一个输入1105两者之后,可以将经处理的至少一个输入递送到神经网络1115的输入层,神经网络1115被应用于该输入层。神经网络1115的结构可以包括数据准备(包括均化、归一化等)和全连接神经网络和/或卷积+全连接神经网络。如标记者组定义的,输出层1117反映了神经网络1115对标记的预测。该预测是神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

作为案例(4)的示例性实施例,图11E提供了ML-VEST的示意图,其中,至少一个输入1105包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。至少一个输入1105可以直接传递到神经网络1115,其中,执行卷积。如上所述,应用于至少一个输入的输入准备过程1110可以在神经网络1115的外部或者与该神经网络是一体的。例如,可以将卷积神经网络1112应用于包括视觉设备图像和面部图像的至少一个输入1105,以便执行特征提取并准备图像以输入到神经网络1115的输入层。在通过卷积准备好至少一个输入1105两者之后,可以将经处理的至少一个输入递送到神经网络1115的输入层,神经网络1115被应用于该输入层。神经网络1115的结构可以包括数据准备(包括均化、归一化等)和全连接神经网络和/或卷积+全连接神经网络。如标记者组指示的,输出层反映了神经网络1115对标记的预测。该预测是神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

参考图11F,案例(5)的示例性实施例,并且鉴于图11A,至少一个输入1105可以在被输入到神经网络1115之前被传递到输入准备过程1110。至少一个输入1105可以包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。另外,至少一个输入1105可以包括与面部图像相对应的视觉测量结果1149。根据实施例,输入准备过程1110可以包括图像处理或手动测量,以分别从面部图像和视觉设备图像的视觉设备属性1151中得出形态特征1153。另外地,视觉设备属性1151可以通过来自数据库的请求来获得。可以将经处理的至少一个输入递送到神经网络1115的输入层1116,神经网络1115被应用于该输入层。如在标记过程期间由标记者组定义的,神经网络1115的输出层1117反映了神经网络1115对标记的预测。在示例中,标记者组可以是专家标记者。该预测可以是由神经网络1115针对至少一个输入1105的组合生成的适合性度量1120。

现在参考图11G,案例(5)的示例性实施例,并且鉴于图11B,至少一个输入1105可以在被输入到神经网络1115之前被传递到输入准备过程1110。至少一个输入1105可以包括佩戴视觉设备的面部图像。另外地,至少一个输入1105可以包括与佩戴视觉设备的面部图像相对应的视觉测量结果1149。根据实施例,输入准备过程1110可以包括图像处理或手动测量,以分别得出面部图像和视觉设备图像的形态特征1153和视觉设备属性1151。可以将经处理的至少一个输入和视觉测量结果1149递送到神经网络1115的输入层1116,神经网络1115被应用于该输入层。如标记者组、专家标记者定义的,在实施例中,输出层1117反映了神经网络1115对标记的预测。该预测是由神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

鉴于图11C,作为案例(6)的示例性实施例的图11H提供了ML-VEST的示意图,其中,至少一个输入1105包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。人的面部图像可以直接传递到神经网络1115。另外,至少一个输入1105包括与面部图像相对应的视觉测量结果1149。如前所述,视觉设备图像可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备视觉设备图像,以便生成视觉设备属性1151。另外地,所述视觉设备属性1151可以经由来自数据库的请求来获取。与前述实施例不同,应用于面部图像的输入准备过程1110可以在神经网络1115的外部或者与该神经网络是一体的。例如,可以将卷积神经网络1112应用于面部图像,以便执行特征提取并准备图像以输入到神经网络1115的输入层(该图像在此处满足视觉设备图像的经处理的至少一个输入)。在准备好至少一个输入1105两者之后,可以将经处理的至少一个输入和视觉测量结果1149递送到神经网络1115的输入层,神经网络1115被应用于该输入层。如标记者组、专家标记者指示的,在实施例中,输出层1117反映了神经网络1115对标记的预测。该预测是神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

鉴于图11D,作为案例(7)的示例性实施例的图11I提供了ML-VEST的示意图,其中,至少一个输入1105包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。视觉设备图像可以直接传递到神经网络1115。另外,至少一个输入1105包括与面部图像相对应的视觉测量结果1149。如前所述,面部图像可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备面部图像,以便生成形态特征1153。与前述实施例不同,应用于视觉设备图像的输入准备过程1110可以在神经网络1115的外部或者与该神经网络是一体的。例如,可以将卷积神经网络1112应用于视觉设备图像,以便执行特征提取并准备图像以输入到神经网络1115的输入层(该图像在此处满足经处理的输入面部图像)。在准备好至少一个输入1105两者之后,可以将经处理的至少一个输入和视觉测量结果递送到神经网络1115的输入层,神经网络1115被应用于该输入层。如标记者组、专家标记者定义的,在实施例中,输出层1117反映了神经网络1115对标记的预测。该预测是神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

鉴于图11E,作为案例(8)的示例性实施例的图11J提供了ML-VEST的示意图,其中,至少一个输入1105包括面部图像和视觉设备图像,该视觉设备图像与面部图像一起提供或者选自数据库中的多个视觉设备。至少一个输入1105可以直接传递到神经网络1115,其中,执行卷积。另外,至少一个输入1105可以包括与面部图像相对应的视觉测量结果1149。如上所述,应用于至少一个输入1105的输入准备过程1110可以在神经网络1115外部或者与该神经网络是一体的。例如,可以将卷积神经网络1112应用于包括视觉设备图像和面部图像的至少一个输入1105,以便执行特征提取并准备图像以输入到神经网络1115的输入层。在通过卷积准备好至少一个输入1105两者之后,可以将经处理的至少一个输入和视觉测量结果1149递送到神经网络1115的输入层,神经网络1115被应用于该输入层。如标记者组、专家标记者指示的,在实施例中,输出层1117反映了神经网络1115对标记的预测。该预测是神经网络1115针对至少一个输入1105的每个组合生成的适合性度量1120。

鉴于图8E,图11K反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(9)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对视觉设备图像的子集1132中的每个视觉设备来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备面部图像,以便生成形态特征1153。

与前述实施例不同,从数据库1155获取的视觉设备图像的子集1132不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于视觉设备图像的子集1132进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,需要对来自数据库1155的视觉设备图像的子集1132中的每个视觉设备图像进行预处理。

对于来自数据库1155的视觉设备图像的子集1132中的每个视觉设备i,并且鉴于针对每个面部图像得出的形态特征j,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,标记者给出:(1)视觉设备图像i相对于形态特征j的相同二值分数(案例二值分数为0或1),(2)来自数据库1155的视觉设备图像的子集1132中相对于形态特征j的相同匹配分数(案例匹配分数在0与N之间),或(3)对于来自数据库1155的视觉设备图像的子集1132中视觉设备图像i相对于形态特征j,标记者给出相同匹配分数或者按确定标准列表的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。对于上述每种情况,可以获得与针对给定形态特征j的百分比pji相关联的以下向量。一个向量可以是N个二值{0,1}的向量,每个二值对应于面部图像的形态特征j与视觉设备图像的子集1132中的图像i的适合性。第二向量可以是0与X之间的整数值的向量,其中,每个整数值对应于视觉设备图像的子集1132中的图像i与面部图像的匹配分数。第三向量可以是0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数。鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。另外,激活函数可以是与pji权重相关联的任何类型的标准激活函数,包括修正线性单元(ReLU)。包含匹配信息的相关联向量可以被称为目标向量。神经网络训练可以在整个目标向量上完成,也可以在目标向量中专门训练选择神经元的部件上成功完成。

现在返回图11K,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是匹配分数1121,并且可以是上述向量之一。具体地,匹配分数1121可以是以下向量:(1)N个二值的向量{0,1},每个二值对应于面部图像的形态特征j与N个视觉设备图像的子集1132中的图像i的适合性,(2)介于0与X之间的整数值的向量,其中,每个整数值对应于视觉设备图像的子集1132中的图像i与面部图像的匹配分数1121,或者(3)介于0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则N个视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数1121。在实施例中,匹配分数1121预测可以由神经网络1115针对来自数据库1155的至少一个输入1105和视觉设备图像的子集1132的每个组合而生成,数据库1155包括“VE 1”、“VE 2”以及直到“VE N”的连续视觉设备图像。在实施例中,数据库1155可以是可在零售商处获得的视觉设备的图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备的图像的预选子集。

鉴于图8E,图11L反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(9)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许鉴于形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备面部图像,以便生成形态特征1153。与前述实施例不同,视觉设备或与视觉设备图像的子集中的每个视觉设备相关联的视觉设备属性不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,鉴于面部图像的形态特征,需要对来自数据库的视觉设备图像的子集中的每个视觉设备图像进行预处理1133。预处理1133包括定义Fji的坐标信息、与视觉设备i或VEi最佳匹配的形态特征j、以及对坐标对{视觉设备i,形态特征j}给予最高分的Np个标记者的百分比pji

为此,对于视觉设备图像的子集中的每个视觉设备图像i,并且鉴于面部图像的形态特征,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,(1)标记者将视觉设备i与形态特征j相关联(二值评分为1)(2)针对视觉设备图像的子集中的视觉设备i相对于面部图像的形态特征j,标记者给出相同匹配分数或者具有相同的排序(案例匹配分数在0与N之间),或者(3)针对视觉设备图像的子集中的视觉设备i相对于面部信息j,标记者给出相同匹配分数或者按确定标准列表中的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。为简单起见,可以假设忽略不完整的数据集,并且只有标记者给出来自视觉设备图像的子集中的每个视觉设备i相对于形态特征j的匹配分数(在0与N之间)的情况。此外,对于形态特征j的每个条目,仅保留每个标记者评分最高的视觉设备属性。鉴于上文,可以获得将视觉设备图像的子集中的每个视觉设备i与所有形态特征Fji相关联的矩阵。形态特征Fji可以包括按标记者百分比pji的最佳匹配。

鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征和视觉测量结果,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。全连接层被配置用于嵌入。嵌入层1118是D神经元的全连接层,包含在预处理期间确定的向量空间中关于每个视觉设备i的形态特征的向量表示。嵌入层1118内含有的D维向量空间1119的每个集群i表示视觉设备,并且每个形态特征可以由D向量坐标表示。

在训练期间,可以实施随机采样,以便随机选择特定数量的形态特征对,形态特征对被定义为{Fki,Fli}。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的良好匹配。然后可以考虑反向传播,以便最小化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的较差匹配。然后可以考虑反向传播,以便最大化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。

现在返回图11L,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是维度向量空间1119中的形态特征坐标Fij。形态特征坐标Fij的后处理可以包括:(1)计算D维向量空间1119中每个集群i的重心,以及(2)计算输出坐标与每个集群i的重心之间的距离,从而生成包含视觉设备(每个集群i的重心)从距输出坐标最近到最远排序的向量。在实施例中,考虑到形态特征和来自训练神经网络1115的数据库的视觉设备图像的子集中的对应视觉设备属性,可以由神经网络1115针对至少一个输入1105中的每一个生成对形态特征坐标Fij的预测。在实施例中,数据库可以是可在零售商处获得的视觉设备图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备图像的预选子集。

图11M反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(10)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对视觉设备图像的子集1132中的每个视觉设备来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以直接传递到神经网络1115,其中,执行卷积。卷积可以由例如应用于包括面部图像的至少一个输入1105的卷积神经网络1112来执行,以便执行特征提取并准备面部图像以输入到神经网络1115的输入层。

与前述实施例不同,从数据库1155获取的视觉设备图像的子集1132不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于视觉设备图像的子集1132进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,需要对来自数据库1155的视觉设备图像的子集1132中的每个视觉设备图像进行预处理。

对于来自数据库1155的视觉设备图像的子集1132中的每个视觉设备i,并且鉴于针对每个面部图像得出的形态特征j,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,标记者给出:(1)视觉设备图像i相对于形态特征j的相同二值分数(案例二值分数为0或1),(2)来自数据库1155的视觉设备图像的子集1132中相对于形态特征j的相同匹配分数(案例匹配分数在0与N之间),或(3)对于来自数据库1155的视觉设备图像的子集1132中视觉设备图像i相对于形态特征j,标记者给出相同匹配分数或者按确定标准列表的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。对于上述每种情况,可以获得与针对给定形态特征j的百分比pji相关联的以下向量。一个向量可以是N个二值{0,1}的向量,每个二值对应于面部图像的形态特征j与视觉设备图像的子集1132中的图像i的适合性。第二向量可以是0与X之间的整数值的向量,其中,每个整数值对应于N个视觉设备图像的子集1132中的图像i与面部图像的匹配分数。第三向量可以是0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则N个视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数。鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。另外,激活函数可以是与pji权重相关联的任何类型的标准激活函数,包括修正线性单元(ReLU)。包含匹配信息的相关联向量可以被称为目标向量。神经网络训练可以在整个目标向量上完成,也可以在目标向量中专门训练选择神经元的部件上成功完成。

现在返回图11M,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是匹配分数1121,并且可以是上述向量之一。具体地,匹配分数1121可以是以下向量:(1)N个二值的向量{0,1},每个二值对应于面部图像的形态特征j与视觉设备图像的子集1132中的图像i的适合性,(2)介于0与X之间的整数值的向量,其中,每个整数值对应于视觉设备图像的子集1132中的图像i与面部图像的匹配分数1121,或者(3)介于0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数1121。在实施例中,匹配分数1121预测可以由神经网络1115针对来自数据库1155的至少一个输入1105和视觉设备图像的子集1132的每个组合而生成,数据库1155包括“VE1”、“VE 2”以及直到“VE N”的连续视觉设备图像。在实施例中,数据库1155可以是可在零售商处获得的视觉设备的图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备的图像的预选子集。

图11N反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(10)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以直接传递到神经网络1115,其中,执行卷积。卷积可以由例如应用于包括面部图像的至少一个输入1105的卷积神经网络1112来执行,以便执行特征提取并准备面部图像以输入到神经网络1115的输入层。

与前述实施例不同,与视觉设备图像的子集中的每个视觉设备相关联的视觉设备属性和对应的形态特征不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,鉴于面部图像的形态特征,需要对来自数据库的视觉设备图像的子集中的每个视觉设备图像进行预处理1133。预处理1133包括定义Fji的坐标信息、与视觉设备i最佳匹配的面部图像j,以及对坐标对{视觉设备i,面部图像j}给予最高分的Np个标记者的百分比pji

为此,对于视觉设备图像的子集中的每个视觉设备图像i,并且鉴于面部图像的面部图像1105,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,(1)标记者将视觉设备i与面部图像j相关联(二值评分为1)(2)针对视觉设备图像的子集中的视觉设备i相对于面部图像的面部图像j,标记者给出相同匹配分数或者具有相同的排序(案例匹配分数在0与N之间),或者(3)针对视觉设备图像的子集中的视觉设备i相对于面部图像j,标记者给出相同匹配分数或者按确定标准列表中的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。为简单起见,可以假设忽略不完整的数据集,并且只有标记者给出来自视觉设备图像的子集中的每个视觉设备i相对于面部图像j的匹配分数(在0与N之间)的情况。此外,对于面部图像j的每个条目,仅保留每个标记者评分最高的视觉设备属性。鉴于上文,可以获得将视觉设备图像的子集中的每个视觉设备i与所有面部图像Fji相关联的矩阵。矩阵Fji可以包括按标记者百分比pji的最佳匹配。

鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是面部图像和视觉测量结果,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。全连接层被配置用于嵌入。嵌入层1118是D神经元的全连接层,包含在预处理期间确定的向量空间中关于每个视觉设备i的面部图像的向量表示。嵌入层1118内含有的D维向量空间1119的每个集群i表示视觉设备,并且每个面部图像可以由D向量坐标表示。

在训练期间,可以实施随机采样,以便随机选择特定数量的面部图像对,形态特征对被定义为{Fki,Fli}。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的良好匹配。然后可以考虑反向传播,以便最小化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的较差匹配。然后可以考虑反向传播,以便最大化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。

现在返回图11N,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是维度向量空间1119中的面部图像坐标Fij。面部图像坐标Fij的后处理可以包括:(1)计算D维向量空间1119中每个集群i的重心,以及(2)计算输出坐标与每个集群i的重心之间的距离,从而生成包含视觉设备(每个集群i的重心)从距输出坐标最近到最远排序的向量。在实施例中,鉴于形态特征和与来自数据库的视觉设备图像的子集中的每个图像相关联的视觉设备属性,可以由神经网络1115针对至少一个输入1105中的每一个生成对面部图像坐标Fij的预测。在实施例中,数据库可以是可在零售商处获得的视觉设备图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备图像的预选子集。

图11O反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(11)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对视觉设备图像的子集1132中的每个视觉设备来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备面部图像,以便生成形态特征1153。除了上述之外,至少一个输入1105可以包括与面部图像相对应的视觉测量结果1149。

与前述实施例不同,从数据库1155获取的视觉设备图像的子集1132不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于视觉设备图像的子集1132进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,需要对来自数据库1155的视觉设备图像的子集1132中的每个视觉设备图像进行预处理。

对于来自数据库1155的视觉设备图像的子集1132中的每个视觉设备i,并且鉴于针对每个面部图像得出的形态特征j,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,标记者给出:(1)视觉设备图像i相对于形态特征j的相同二值分数(案例二值分数为0或1),(2)来自数据库1155的视觉设备图像的子集1132中相对于形态特征j的相同匹配分数(案例匹配分数在0与N之间),或(3)对于来自数据库1155的视觉设备图像的子集1132中视觉设备图像i相对于形态特征j,标记者给出相同匹配分数或者按确定标准列表的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。对于上述每种情况,可以获得与针对给定形态特征j的百分比pji相关联的以下向量。一个向量可以是N个二值{0,1}的向量,每个二值对应于面部图像的形态特征j与N个视觉设备图像的子集1132中的图像i的适合性。第二向量可以是0与X之间的整数值的向量,其中,每个整数值对应于N个视觉设备图像的子集1132中的图像i与面部图像的匹配分数。第三向量可以是0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数。鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。另外,激活函数可以是与pji权重相关联的任何类型的标准激活函数,包括修正线性单元(ReLU)。包含匹配信息的相关联向量可以被称为目标向量。神经网络训练可以在整个目标向量上完成,也可以在目标向量中专门训练选择神经元的部件上成功完成。

现在返回图11O,可以将经处理的至少一个输入和视觉测量结果1149递送到神经网络1115的输入层。神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是匹配分数1121,并且可以是上述向量之一。具体地,匹配分数1121可以是以下向量:(1)N个二值的向量{0,1},每个二值对应于面部图像的形态特征j与N个视觉设备图像的子集1132中的图像i的适合性,(2)介于0与X之间的整数值的向量,其中,每个整数值对应于N个视觉设备图像的子集1132中的图像i与面部图像的匹配分数1121,或者(3)介于0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则N个视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数1121。在实施例中,匹配分数1121预测可以由神经网络1115针对来自数据库1155的至少一个输入1105和视觉设备图像的子集1132的每个组合而生成,数据库1155包括“VE1”、“VE 2”以及直到“VE N”的连续视觉设备图像。在实施例中,数据库1155可以是可在零售商处获得的视觉设备的图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备的图像的预选子集。

图11P反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(11)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以在被递送到神经网络1115之前被传递到输入准备过程1110。为此,可以经由图像处理和手动测量来准备面部图像,以便生成形态特征1153。另外,至少一个输入1105可以包括对应于面部图像的视觉测量结果1149。

与前述实施例不同,与视觉设备图像的子集中的每个视觉设备相关联的视觉设备属性和对应的形态特征不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,鉴于面部图像的形态特征,需要对来自数据库的视觉设备图像的子集中的每个视觉设备图像进行预处理1133。预处理1133包括定义Fji的坐标信息、与视觉设备i最佳匹配的形态特征j、以及对坐标对{视觉设备i,形态特征j}给予最高分的Np个标记者的百分比pji

为此,对于视觉设备图像的子集中的每个视觉设备图像i,并且鉴于面部图像的形态特征,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,(1)标记者将视觉设备i与形态特征j相关联(二值评分为1)(2)针对视觉设备图像的子集中的视觉设备i相对于面部图像的形态特征j,标记者给出相同匹配分数或者具有相同的排序(案例匹配分数在0与N之间),或者(3)针对视觉设备图像的子集中的视觉设备i相对于面部信息j,标记者给出相同匹配分数或者按确定标准列表中的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。为简单起见,可以假设忽略不完整的数据集,并且只有标记者给出来自视觉设备图像的子集中的每个视觉设备i相对于形态特征j的匹配分数(在0与N之间)的情况。此外,对于形态特征j的每个条目,仅保留每个标记者评分最高的视觉设备属性。鉴于上文,可以获得将视觉设备图像的子集中的每个视觉设备i与所有形态特征Fji相关联的矩阵。形态特征Fji可以包括按标记者百分比pji的最佳匹配。

鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征和视觉测量结果,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。全连接层被配置用于嵌入。嵌入层1118是D神经元的全连接层,包含在预处理期间确定的向量空间中关于每个视觉设备i的形态特征的向量表示。嵌入层1118内含有的D维向量空间1119的每个集群i表示视觉设备,并且每个形态特征可以由D向量坐标表示。

在训练期间,可以实施随机采样,以便随机选择特定数量的形态特征对,形态特征对被定义为{Fki,Fli}。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的良好匹配。然后可以考虑反向传播,以便最小化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的较差匹配。然后可以考虑反向传播,以便最大化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。

现在返回图11P,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是维度向量空间1119中的形态特征坐标Fij。形态特征坐标Fij的后处理可以包括:(1)计算D维向量空间1119中每个集群i的重心,以及(2)计算输出坐标与每个集群i的重心之间的距离,从而生成包含视觉设备(每个集群i的重心)从距输出坐标最近到最远排序的向量。在实施例中,鉴于形态特征和来自数据库的视觉设备图像的子集中的对应视觉设备属性,可以由神经网络1115生成用于针对每个至少一个输入1105生成对形态特征坐标Fij的预测。在实施例中,数据库可以是可在零售商处获得的视觉设备图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备图像的预选子集。

图11Q反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(12)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对视觉设备图像的子集1132中的每个视觉设备来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以直接传递到神经网络1115,其中,执行卷积。卷积可以由例如应用于包括面部图像的至少一个输入1105的卷积神经网络1112来执行,以便执行特征提取并准备面部图像以输入到神经网络1115的输入层。另外,至少一个输入1105可以包括对应于面部图像的视觉测量结果1149。

与前述实施例不同,从数据库1155获取的视觉设备图像的子集1132不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于视觉设备图像的子集1132进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,需要对来自数据库1155的视觉设备图像的子集1132中的每个视觉设备图像进行预处理。

对于来自数据库1155的视觉设备图像的子集1132中的每个视觉设备i,并且鉴于针对每个面部图像得出的形态特征j,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,标记者给出:(1)视觉设备图像i相对于形态特征j的相同二值分数(案例二值分数为0或1),(2)来自数据库1155的视觉设备图像的子集1132中相对于形态特征j的相同匹配分数(案例匹配分数在0与N之间),或(3)对于来自数据库1155的视觉设备图像的子集1132中视觉设备图像i相对于形态特征j,标记者给出相同匹配分数或者按确定标准列表的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。对于上述每种情况,可以获得与针对给定形态特征j的百分比pji相关联的以下向量。一个向量可以是N个二值{0,1}的向量,每个二值对应于面部图像的形态特征j与N个视觉设备图像的子集1132中的图像i的适合性。第二向量可以是0与X之间的整数值的向量,其中,每个整数值对应于N个视觉设备图像的子集1132中的图像i与面部图像的匹配分数。第三向量可以是0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数。鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。另外,激活函数可以是与pji权重相关联的任何类型的标准激活函数,包括修正线性单元(ReLU)。包含匹配信息的相关联向量可以被称为目标向量。神经网络训练可以在整个目标向量上完成,也可以在目标向量中专门训练选择神经元的部件上成功完成。

现在返回图11Q,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是匹配分数1121,并且可以是上述向量之一。具体地,匹配分数1121可以是以下向量:(1)N个二值的向量{0,1},每个二值对应于面部图像的形态特征j与N个视觉设备图像的子集1132中的图像i的适合性,(2)介于0与X之间的整数值的向量,其中,每个整数值对应于N个视觉设备图像的子集1132中的图像i与面部图像的匹配分数1121,或者(3)介于0与X之间的M个整数值的N个列表l的向量,每个列表l的每个整数值对应于针对一组M个匹配规则中的每个规则N个视觉设备图像的子集1132中的图像i相对于面部图像的匹配分数1121。在实施例中,匹配分数1121预测可以由神经网络1115针对来自数据库1155的至少一个输入1105和视觉设备图像的子集1132的每个组合而生成,数据库1155包括“VE 1”、“VE 2”以及直到“VE N”的连续视觉设备图像。在实施例中,数据库1155可以是可在零售商处获得的视觉设备的图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备的图像的预选子集。

图11R反映了ML-VEST的示意图,其中,至少一个输入1105包括面部图像。在反映案例(12)的这种过程中,至少一个输入1105可以通过神经网络1115,该神经网络具有允许针对形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性来评估至少一个输入1105的架构。在实施例中,至少一个输入1105可以直接传递到神经网络1115,其中,执行卷积。卷积可以由例如应用于包括面部图像的至少一个输入1105的卷积神经网络1112来执行,以便执行特征提取并准备面部图像以输入到神经网络1115的输入层。另外,至少一个输入1105可以包括对应于面部图像的视觉测量结果1149。

与前述实施例不同,与视觉设备图像的子集中的每个视觉设备相关联的视觉设备属性和对应的形态特征不作为至少一个输入1105提供给神经网络1115。相反,神经网络1115被应用于至少一个输入1105,神经网络1115部分地基于形态特征和与视觉设备图像的子集中的每个视觉设备相关联的对应视觉设备属性进行训练。根据实施例,并且在对神经网络1115进行训练的上下文中,鉴于面部图像的形态特征,需要对来自数据库的视觉设备图像的子集中的每个视觉设备图像进行预处理1133。预处理1133包括定义Fji的坐标信息、与视觉设备i最佳匹配的面部图像j,以及对坐标对{视觉设备i,面部图像j}给予最高分的Np个标记者的百分比pji

为此,对于视觉设备图像的子集中的每个视觉设备图像i,并且鉴于面部图像的面部图像1105,可以计算统计适合性分数。统计适合性分数可以包括标记者百分比pji,(1)标记者将视觉设备i与面部图像j相关联(二值评分为1)(2)针对视觉设备图像的子集中的视觉设备i相对于面部图像的面部图像j,标记者给出相同匹配分数或者具有相同的排序(案例匹配分数在0与N之间),或者(3)针对视觉设备图像的子集中的视觉设备i相对于面部图像j,标记者给出相同匹配分数或者按确定标准列表中的每一项具有相同的排序(每一项的案例匹配分数在0与N之间)。为简单起见,可以假设忽略不完整的数据集,并且只有标记者给出来自视觉设备图像的子集中的每个视觉设备i相对于面部图像j的匹配分数(在0与N之间)的情况。此外,对于面部图像j的每个条目,仅保留每个标记者评分最高的视觉设备属性。鉴于上文,可以获得将视觉设备图像的子集中的每个视觉设备i与所有面部图像Fji相关联的矩阵。面部图像Fji可以包括按标记者百分比pji的最佳匹配。

鉴于上述预处理,然后可以开始训练。训练的至少一个输入可以是形态特征和视觉测量结果,并且神经网络可以被配置为具有卷积层和全连接层的组合神经网络。全连接层被配置用于嵌入。嵌入层1118是D神经元的全连接层,包含在预处理期间确定的向量空间中关于每个视觉设备i的面部图像的向量表示。嵌入层1118内含有的D维向量空间1119的每个集群i表示视觉设备,并且每个面部图像可以由D向量坐标表示。

在训练期间,可以实施随机采样,以便随机选择特定数量的面部图像对,面部图像对被定义为{Fki,Fli}。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的良好匹配。然后可以考虑反向传播,以便最小化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。作为示例性对,Fki和Fli被确定为与具有相应百分比pki和pli的视觉设备i的较差匹配。然后可以考虑反向传播,以便最大化两个激活函数f(Fki,pki)与f(Fli,pli)之间的差异,其中,f为激活函数。

现在返回图11R,神经网络1115的输出层1117反映了神经网络1115对适合性度量1120的预测。适合性度量1120可以是维度向量空间1119中的面部图像坐标Fij。面部图像坐标Fij的后处理可以包括:(1)计算D维向量空间1119中每个集群i的重心,以及(2)计算输出坐标与每个集群i的重心之间的距离,从而生成包含视觉设备(每个集群i的重心)从距输出坐标最近到最远排序的向量。在实施例中,鉴于形态特征和来自数据库的视觉设备图像的子集中的对应视觉设备属性,可以由神经网络1115针对至少一个输入1105中的每一个生成对面部图像坐标Fij的预测。在实施例中,数据库可以是可在零售商处获得的视觉设备图像的预选子集,或者是先前被确定为适合于与用户相关联的某些特性的视觉设备图像的预选子集。

根据本披露内容的实施例,ML-VEST的神经网络可以被配置为确定用户的适合性度量,该适合性度量反映了视觉设备的理想坐标。为此,图12A反映了其中使用的标记过程,其中,上述ML-VEST的结构基本上相似。首先,可以接收输入图像1205。可以将输入图像1205递送到图像准备过程1210,由此确定面部标志的坐标。这些面部标志可以通过以下方式确定:首先,校准图像以允许度量距离;其次,通过经典图像处理或深度学习技术检测人的面部图像的标志,以便提取这些标志的度量坐标;以及第三,相对于解剖学参考点(例如,下巴的最低点)归一化这些提取的坐标。可以将这些归一化的、提取的坐标作为输入层递送到神经网络的训练过程1235。如上所讨论的,在ML-VEST的实施期间可以遵循该相同的图像准备过程1210。然后可以将经处理的输入图像传递到标记过程1240,其中,标记者组并且特别是专家类别的标记者1248标记经处理的输入图像。在示例中,专家类别的标记者可以是眼睛护理专业人员,3D建模时在专家的协助下,对图片的面部图像进行建模,使得根据图像中的人的面部形态特征生成理想的视觉设备。在示例中,模型可以构成与理想的视觉设备的内部和外部轮廓标志相对应的度量坐标。如前所述,理想的视觉设备的这些内部和外部轮廓标志可以归一化为解剖学参考点(例如,下巴的最低点),并且可以用作神经网络的输出1220。换句话说,理想的视觉设备1120的上述标志在训练期间用作训练数据,并且在ML-VEST的实施期间定义神经网络的输出层。如前所述,可以了解的是,可以对用于训练数据库内的多个人面部图像中的每一个重复训练过程1235。

标记过程的上述标记方案中可以在ML-VEST内实施。具体地,实施可以如图12B所展示的进行。

参考图12B,输入图像1205可以在被输入到神经网络1215之前被传递到图像准备过程1210。输入图像1205可以包括人的面部图像。根据实施例,图像准备过程1210可以包括图像处理,以得出人的面部图像的形态特征和标志。可以将经处理的输入图像递送到神经网络1215的输入层,神经网络1215被应用于该输入层。如标记者组指示的,输出层反映了神经网络1215对标记的预测。该预测或适合性度量1220反映了由神经网络1215生成的用于人的面部图像的理想的视觉设备的坐标。在图12B和ML-VEST内实施图12A的经训练的神经网络期间,显而易见的是输出的理想的视觉设备坐标可以与数据库内多个视觉设备的坐标进行比较,其中最高度相关的一个被选择作为适合用户的视觉设备。

图13A到图13F展示了本披露内容的ML-VEST的神经网络的示例性实施方式和部件。

作为回顾,可以考虑对ML-VEST的神经网络的输入的以下几个用例:(1)从面部图像和视觉设备图像或从佩戴视觉设备的面部图像获取的形态特征和视觉设备属性;(2)面部图像和视觉设备属性;(3)形态特征和视觉设备属性;(4)面部图像和视觉设备图像;(5)形态特征、视觉设备属性和视觉测量结果;(6)面部图像、视觉设备属性和视觉测量结果;(7)形态特征、视觉设备图像和视觉测量结果;(8)面部图像、视觉设备图像和视觉测量结果;(9)形态特征;(10)面部图像;(11)形态特征和视觉测量结果;(12)面部图像和视觉测量结果。

对于除案例(1)、案例(4)、案例(9)和案例(10)以外的所有案例,必须合并两个异类输入流。为了处理面部图像和视觉设备图像,可以使用卷积+全连接神经网络部分,如图13A所示和图13B中详细描述的。为此,神经网络采用一连串卷积层,每个层由具有不同大小、填充、步幅和深度的卷积滤波器构成,随后是激活层(例如,ReLU、带泄漏ReLU)或池化滤波器(例如,最大池化、平均汇集)。然后,可以对最后一个卷积层进行向量化,并且可以通过全连接层处理获得的向量的每个实数,其中,激活函数可以选自包括ReLU、带泄漏ReLU、sigmoid、TanH等的组。

此时,神经网络节点的子集在最终输出之前仍有待处理。图13C所示的“数据准备+全连接”神经网络部分可以用于处理数据,该数据包括表示例如形态特征、视觉设备属性和视觉测量结果的字符串的实数和枚举。首先,可以将数据聚合以形成异类数据的向量。然后,可以将向量均化以获得仅实数。为此,枚举可以由与枚举内的项编号相对应的整数代替。例如,颜色“黄色”可以由“2”代替,因为“黄色”是包括“空白”、“黄色”、“橙色”、“红色”等可用颜色的枚举中的编号“2”项。每个字符可以由项的字母数字代替。接下来,可以处理通过全连接层获得的向量的每个实数,该处理由选自包括ReLU、带泄漏ReLU、sigmoid和TanH的组的激活函数驱动。

均化之后,可能仍存在未处理的节点。为了组合“卷积+全连接”网络部分和“数据准备+全连接”网络部分的输出,(1)必须合并每个网络部分的输出向量以生成唯一向量,以及(2)必须通过“输出准备”网络部分处理唯一向量,如图13D所示。“输出准备”网络部分可以由一连串全连接层组成,对于该一连串全连接层,激活函数是选自包括ReLU、带泄漏ReLU、sigmoid、TanH等的组中的一个。这些全连接层的数量和大小可以基于期望的输出。例如,如果输出是唯一的,如案例(1)到案例(8)一样,则最终的完全连接层可以由单个节点组成,该单个节点表示视觉设备适合作为输入给出的面部图像的概率(0与1之间的实数)。在这种情况下,如果期望的输出是(匹配)二值,则概率可以被定义为(1)阈值化(例如,阈值=0.5),或者如果期望的输出是(匹配)分数,则概率被缩放以适合预定义的评分范围(例如,如果分数在0与10之间,则概率将乘以10)

如图13E所示,输出可以是多于一个节点。如果输出是多个,但是每个输出涉及相同(且唯一)的视觉设备,如案例(1)到案例(8)一样当每个输出值是连接到特定标准的匹配分数时),则在最终全连接层中可以存在与要评分的标准一样多的节点,每个节点表示视觉设备适合作为关于标准i的输入给出的面部图像的概率(0与1之间的实数)。如果期望的输出是(匹配)分数,则每个概率可以被缩放以适合预定义的评分范围(例如,如果分数在0与10之间,则概率将乘以10)。如果输出是多个,但是每个输出可以涉及几个视觉设备,如案例(9)到案例(12)一样并且如图13F所示,则在最终全连接层中可以存在与要评分的标准乘以要评分的视觉设备的数量一样多的节点,每个节点表示视觉设备适合作为关于标准i的输入给出的面部图像的概率(0与1之间的实数)。在这种情况下,如果期望的输出是(匹配)二值,则每个概率可以为(1)阈值化(例如,阈值=0.5),或者(2)如果期望的输出是(匹配)分数,则每个概率被缩放以适合预定义的评分范围(例如,如果分数在0与10之间,则概率将乘以10)。

关于案例(1),因为仅存在面部图像和视觉设备的图像的经处理的特征作为输入,所以类似于如上所述,可以存在至少一个“数据准备+全连接”神经网络部分,并且可以如上所述处理“数据准备+全连接”神经网络部分的输出,以便达到期望的输出。

关于案例(4),因为仅存在面部图像和视觉设备图像两者作为输入,所以可以存在至少两个“卷积+全连接”神经网络部分,每个图像一个,其中,两个网络部分的输出可以以与上述相同的方式组合,以便达到期望的输出。

关于案例(9)(图11K)和案例(10)(图11M)的示例性向量实施例,因为仅存在面部图像作为输入,所以可以存在至少一个“卷积+全连接”神经网络部分。

关于案例(10)(图11N)和案例(12)(图11R)的示例性基于坐标的实施例,因为存在面部图像和视觉测量结果作为输入,所以可以存在至少一个“卷积+全连接”神经网络部分,全连接层包含嵌入。

图14是用于使用训练数据对神经网络进行训练的训练过程435的实施方式的非限制性示例。如上所述,训练数据可以包括来自一个或多个源的多个标记的输入图像或数据,该一个或多个源包括例如通过有线连接或无线连接连接的训练数据库。

在过程435的操作1480中,生成针对神经网络的系数的初始猜测。例如,初始猜测可以基于正在收集的数据和其中的相关指标的先验知识。另外地,初始猜测可以基于LeCun初始化、Xavier初始化和Kaiming初始化之一。

过程435的操作1481提供了用于对神经网络进行训练的优化方法的非限制性示例。在过程435的操作1481中,计算误差(例如,使用损失函数或成本函数)以表示如在神经网络的当前迭代中应用的标记的数据(即,真实数据)与神经网络的输出数据之间的差异的测量(例如,距离测量)。可以使用任何已知的成本函数或训练数据之间的距离测量来计算误差。进一步地,在某些实施方式中,可以使用合页损失和交叉熵损失中的一个或多个来计算误差/损失函数。在示例中,损失函数可以被定义为神经网络的输出(SNN)与标记的真实数据(SAGT)之间的均方误差,或者

其中n是训练对象的数量。可以使用包括随机梯度下降等优化方法来最小化该损失。

另外地,损失函数可以与正则化方法组合,以避免网络过拟合训练数据中表示的特定实例。正则化可以有助于防止机器学习问题中的过拟合。如果训练时间过长,并且假设模型具有足够的表示能力,则网络将学习该数据集特有的噪声,这被称为过拟合。在过拟合的情况下,神经网络的泛化能力变差,并且由于数据集之间的噪声不同,方差将会很大。当偏差和方差的总和最小时,总误差最小。因此,期望达到以最简单的可能方式解释数据的局部最小值,以最大化经训练的网络表示一般解决方案的可能性,而不是训练数据中噪声的特定解决方案。此目标可以通过例如提前停止、权重正则化、套索正则化、脊正则化或弹性网络正则化来实现。

在某些实施方式中,使用反向传播来训练神经网络。反向传播可以用于对神经网络进行训练,并且与梯度下降优化方法结合使用。在前向传递期间,算法基于当前参数Θ计算网络的预测。然后,将这些预测输入到损失函数中,通过损失函数将这些预测与对应的真实标记(即,标记的数据)进行比较。在后向传递期间,模型计算损失函数相对于当前参数的梯度,然后通过在最小化损失的方向上采用预定义大小的步长来更新参数(例如,在加速方法中,使得Nesterov动量方法和各种自适应方法可以选择步长,以更快地收敛来优化损失函数)。

执行反向传播的优化方法可以使用梯度下降、批量梯度下降、随机梯度下降和小批量随机梯度下降中的一种或多种。另外地,可以使用优化方法中的一种或多种动量更新技术来加速优化方法,该优化方法导致深层网络中随机梯度下降的收敛速度更快,这些技术包括例如,Nesterov动量技术或自适应方法,如Adagrad子梯度方法、Adagrad方法的Adadelta或RMSProp参数更新变体以及Adam自适应优化技术。优化方法还可以通过将雅可比矩阵(Jacobian matrix)结合到更新步骤中来应用二阶方法。

可以通过网络的各个层递增地执行前向传递和后向传递。在前向传递中,执行从通过第一层提供输入开始,从而为后续层创建输出激活。重复此过程,直到达到最后一层的损失函数。在后向传递期间,最后一层计算相对于其自己的可学习参数(如果有的话)以及相对于其自己的输入的梯度,该输入作为前一层的上游衍生物。重复此过程,直到达到最后输入层。

返回图14所示的非限制性示例,过程435的操作1482确定可以计算作为网络变化的函数的误差变化(例如,误差梯度),并且此误差变化可以用于为神经网络的权重/系数的后续变化选择方向和步长。以此方式计算误差的梯度与梯度下降优化方法的某些实施方式是一致的。在某些其他实施方式中,可以根据另一种优化算法(例如,如模拟退火或遗传算法等非梯度下降优化算法)来省略此操作和/或用另一种操作取代此操作,如本领域普通技术人员将理解的。

在过程435的操作1483中,为神经网络确定一组新的系数。例如,可以使用在操作1482中计算的变化来更新权重/系数,如在梯度下降优化方法或过松弛加速方法中。

在过程435的操作1484中,使用神经网络的更新的权重/系数来计算新的误差值。

在过程435的操作1485中,预定义的停止标准用于确定对网络的训练是否完成。例如,预定义的停止标准可以评估新误差和/或执行的迭代总数是否超过预定义的值。例如,如果新误差低于预定义的阈值或者达到最大迭代数,则可以满足停止标准。当不满足停止标准时,在过程435中执行的训练过程使用新的权重和系数通过返回并重复操作1482将继续回到迭代循环的开始(迭代循环包括操作1482、操作1483、操作1484和操作1485)。当满足停止标准时,在过程435中执行的训练过程完成。

图15A示出了过程435的实施方式的流程图。图15A对于前馈人工神经网络(ANN)中的任何类型的层是通用的,包括例如图11A至图11E所示的全连接层。本披露内容的ANN可以包括在用于卷积、池化、批量归一化和激活的图像处理神经网络之前的全连接层,从而产生图15A和图15B的组合的流程图,如本领域普通技术人员将理解的。图15A所示的过程435的实施方式也与将本披露内容的ANN应用于本披露内容的相应训练数据相对应。

在操作1586中,与神经元(即,节点)之间的连接相对应的权重/系数被应用于与经处理的输入图像数据相对应的相应输入。

在操作1587中,对加权输入进行求和。当连接到下一层上的给定神经元的唯一非零权重/系数被区域性地定位在前一层中表示的经处理的输入图像数据中时,操作1586和操作1587的组合基本上与执行卷积操作相同。

在操作1588中,相应的阈值被应用于相应的神经元的加权和。

在过程1589中,对每个后续层重复加权、求和和阈值化的步骤。

图15B示出了过程435的另一个实施方式的流程图,其中,在图像准备步骤期间应用卷积神经网络以准备用于应用本披露内容的ANN的输入图像,如图11C至图11E所讨论的。因此,图15B所示的过程435的实施方式与使用卷积神经网络的非限制性实施方式在隐藏层对输入图像数据进行操作相对应。

在操作1590中,如前文所讨论的并且根据本领域普通技术人员对卷积层的理解来执行对卷积层的计算。

在操作1591中,在卷积之后,可以执行批量归一化以控制前一层的输出的变化,如本领域普通技术人员将理解的。

在操作1592中,在批量归一化之后,根据前文对激活的描述并且根据本领域普通技术人员对激活的理解来执行激活。在示例中,激活函数是修正激活函数或例如ReLU,如上所讨论的。

在另一个实施方式中,可以在操作1591的批量归一化层之前执行操作1592的ReLU层。

在操作1593中,在批量归一化和激活之后,来自卷积层的输出是对池化层的输入,根据前文对池化层的描述并且根据本领域普通技术人员对池化层的理解来执行对池化层的输入。

在过程1594中,对于预定义的层数,可以全部地或部分地重复卷积层、池化层、批量归一化层和ReLU层的步骤。在上述层之后(或与上述层混合),可以将来自ReLU层的输出馈送到预定义数量的ANN层,根据图9A中为ANN层提供的描述来执行该操作。最终输出将是如前所述的经处理的输入图像特性。

关于卷积神经网络架构,一般地,卷积层靠近输入层放置,而执行高级推理的全连接层朝向损失函数进一步放置在架构的下方。可以在卷积之后插入池化层,并且减少滤波器的空间范围,从而减少可学习参数的数量。批量归一化层将梯度干扰调节为离群值并且加速学习过程。激活函数也被合并到各个层中,以引入非线性并且使网络能够学习复杂的预测关系。激活函数可以是饱和激活函数(例如,sigmoid或双曲正切激活函数)或修正激活函数(例如,上文所讨论的ReLU)。

图16示出了如本披露内容中描述的ANN中的层之间的相互连接的示例。ANN可以包括全连接层,并且鉴于图15B,可以包括卷积层、池化层、批量归一化层和激活层,所有这些层都在上文和下文中解释。在实施例中,卷积神经网络层可以嵌入到ANN中。替代性地,卷积神经网络可以布置在ANN之前,其中卷积神经网络的输出层部分地定义了ANN的输入层。卷积神经网络相对于ANN的布置是重要的,因为卷积神经网络部分地向ANN的输入层提供经处理的输入图像。

仍然参考图16,图16示出了具有N个输入、K个隐藏层和三个输出的通用ANN的示例。每层由节点(也称为神经元)构成,并且每个节点对输入执行加权求和并将加权求和的结果与阈值进行比较,以生成输出。ANN构成了一类函数,该类的成员是通过改变阈值、连接权重或如节点数量和/或节点连接性等架构的细节获得的。ANN中的节点可以称为神经元(或称为神经元节点),并且神经元可以在ANN系统的不同层之间具有相互连接。最简单的ANN具有三层并且称为自编码器。本披露内容的CNN可以具有多于三层的神经元并且具有与输入神经元一样多的输出神经元其中,N为经处理的输入图像数据中的数据条目的数量。突触(即,神经元之间的连接)存储称为“权重”(也可互换地称为“系数”或“加权系数”)的值,这些值在计算中操纵数据。ANN的输出取决于三种类型的参数:(i)神经元的不同层之间的相互连接模式,(ii)用于更新相互连接权重的学习过程,以及(iii)将神经元的加权输入转换为其输出激活的激活函数。

数学上,神经元的网络函数m(x)被定义为其他函数ni(x)的组合,这些其他函数可以进一步被定义为其他函数的组合。这可以方便地表示为网络结构,其中箭头描绘变量之间的从属关系,如图16所示。例如,ANN可以使用非线性加权和,其中,m(x)=K(Σiwini(x)),并且其中,K(通常称为激活函数)是如双曲正切等某个预定义的函数。

在图16中,神经元(即,节点)由围绕阈值函数的圆圈描绘。对于图16所示的非限制性示例,输入被描绘为围绕线性函数的圆圈,并且箭头指示神经元之间的定向通信。在某些实施方式中,ANN是前馈网络。

本披露内容的ANN通过在要学习的函数F的类别内搜索、使用一组观察值找到m*∈F来实现特定任务,这在某种最佳意义上解决了特定任务(例如,满足在上文所讨论的过程435的操作1485中使用的停止标准)。例如,在某些实施方式中,这可以通过定义成本函数C:F→m来实现,使得对于最优解m*(即,没有任何解的成本低于最优解的成本)。成本函数C是特定解离要解决的问题的最优解有多远的测量(例如,误差)。学习算法迭代地搜索整个解空间,以找到具有最小可能成本的函数。在某些实施方式中,成本在数据(即,训练数据)的样本上被最小化。

现在参考图17,图17是根据本披露内容的示例性实施例的ML-VEST的硬件描述。

在图17中,ML-VEST包括执行上述过程的CPU 1760。ML-VEST可以是通用计算机或特定的专用机器。在一个实施例中,当处理器1760被编程为执行视觉设备选择(并且特别地,参考以上披露内容讨论的任何过程)时,ML-VEST变成特定的专用机器。

替代性地或另外地,如本领域普通技术人员将认识到的,CPU 1760可以在FPGA、ASIC、PLD上或使用分立逻辑电路实施。进一步地,CPU 1760可以被实施为并行协同工作的多个处理器,以执行上述本发明过程的指令。

ML-VEST还包括如Intel以太网PRO网络接口卡等网络控制器1763,以用于与网络1775接口连接。如可以了解的是,网络1775可以是如因特网等公共网络,或是如LAN或WAN网络等专用网络,或其任何组合,并且还可以包括PSTN或ISDN子网络。网络1775还可以是有线的(比如以太网网络),或者可以是无线的(比如蜂窝网络,包括EDGE、3G和4G无线蜂窝系统)。无线网络还可以是WiFi、蓝牙或已知的任何其他无线通信形式。

在训练过程435期间,可以从训练数据库1736获取输入训练图像,该训练数据库经由网络1775无线连接到ML-VEST,或者通过存储控制器1772经由硬连线连接到ML-VEST。在实施例中,训练数据库1736是视觉设备数据库。

ML-VEST进一步包括如用于与显示器1765(如监视器)接口连接的图形卡或图形适配器等显示控制器1764。通用I/O接口1766与键盘和/或鼠标1767、以及在显示器1765上或与之分开的触控屏面板1768接口连接。通用I/O接口还连接到各种外围设备1769,包括打印机和扫描仪。

声音控制器1770也设置在ML-VEST中,以与扬声器/麦克风1771接口连接,从而提供声音和/或音乐。

通用存储控制器1772将存储介质磁盘1762与通信总线1773连接以将ML-VEST的所有部件互连,该通信总线可以是ISA、EISA、VESA、PCI等。在此为简洁起见,省略了对显示器1765、键盘和/或鼠标1767、以及显示控制器1764、存储控制器1772、网络控制器1763、声音控制器1770和通用I/O接口1766的一般特征和功能的描述,因为这些特征是已知的。

在本披露内容的上下文中描述的示例性电路元件可以用其他元件代替,并且以与本文提供的示例不同的方式构造。此外,被配置为执行本文描述的特征的电路系统可以在多个电路单元(例如,芯片)中实施,或者这些特征可以被组合在单个芯片组上的电路系统中。

本文所述的功能和特征也可以由系统的各种分布式部件来执行。例如,一个或多个处理器可以执行这些系统功能,其中,处理器分布在用网络通信的多个部件上。除了包括各种人机交互装置和通信装置(例如,显示监视器、智能电话、平板电脑、个人数字助理(PDA))之外,分布式部件还可以包括可以共享处理的一个或多个客户端和服务器机器。网络可以是如LAN或WAN等专用网络,或者可以是如因特网等公共网络。可以经由直接用户输入来接收对系统的输入,并且可以实时或作为批处理远程接收。另外地,可以在与所描述的模块或硬件不同的模块或硬件上执行一些实施方式。因此,其他实施方式在可以要求保护的范围内。

显然,根据以上教导,许多修改和变化是可能的。因此,应当理解,在所附权利要求的范围内,本发明可以不同于本文具体描述的方式实施。

本披露内容的实施例也可以如以下括号中所述。

(1)一种用于确定适合的视觉设备的装置,所述装置包括处理电路系统,所述处理电路系统被配置为:接收至少一个输入,所述至少一个输入包括人的面部图像;将神经网络应用于所述至少一个输入,所述神经网络生成所述至少一个输入的至少一个适合性度量;并且基于由所述神经网络生成的所述至少一个适合性度量,确定所述适合的视觉设备,其中,所述至少一个适合性度量与所述人的面部与视觉设备之间的相关性同步相对应。

(2)根据(1)所述的装置,其中,所述至少一个输入包括视觉设备图像。

(3)根据(1)或(2)所述的装置,其中,所述至少一个输入包括所述人的面部图像,其中,所述人佩戴着视觉设备。

(4)根据(1)至(3)中任一项所述的装置,其中,所述至少一个输入是经处理的至少一个输入,所述经处理的至少一个输入包括从所述人的面部图像确定的形态特征。

(5)根据(1)至(4)中任一项所述的装置,其中,所述至少一个输入是经处理的至少一个输入,所述经处理的至少一个输入包括从所述视觉设备的图像确定的视觉设备属性。

(6)根据(1)至(5)中任一项所述的装置,其中,所述至少一个输入包括所述人的视觉测量结果,所述视觉测量结果指示所述人的视敏度。

(7)根据(1)至(6)中任一项所述的装置,其中,所述处理电路系统被进一步配置为在训练数据库上训练所述神经网络,其中,所述训练数据库包括训练图像语料库,所述训练图像语料库包括人的面部图像和视觉设备图像,所述人的面部图像中的图像和所述视觉设备图像中的图像的每个组合在所述训练数据库中与由标记者组指派的至少一个训练适合性度量相关联。

(8)根据(1)至(7)中任一项所述的装置,其中,所述训练图像语料库包括佩戴视觉设备的人的图像,所述佩戴视觉设备的人的图像中的每个图像在所述训练数据库中与由所述标记者组指派的至少一个训练适合性度量相关联。

(9)根据(1)至(8)中任一项所述的装置,其中,所述神经网络包括隐式输入,所述隐式输入是预定义的一组视觉设备,由所述神经网络生成的所述至少一个适合性度量是所述至少一个输入与所述预定义的一组视觉设备中的每一个的至少一个匹配分数。

(10)根据(1)至(9)中任一项所述的装置,其中,为了确定所述适合的视觉设备,所述处理电路系统被进一步配置为:选择最大的至少一个匹配分数,所述最大的至少一个匹配分数是所述预定的一组视觉设备中与所述至少一个输入中人的面部最匹配的一个视觉设备。

(11)根据(1)至(10)中任一项所述的装置,其中,所述最大的至少一个匹配分数选自包括所述至少一个匹配分数的向量,所述向量中的所述至少一个匹配分数中的每一个与所述预定的一组视觉设备中的一个视觉设备相对应,所述至少一个匹配分数是基于标记者组中指派了所述至少一个匹配分数的相同值的标记者的百分比。

(12)根据(1)至(11)中任一项所述的装置,其中,为了确定所述适合的视觉设备,所述处理电路系统被进一步配置为:计算与所述至少一个输入相对应的坐标;计算集群的重心,所述集群的重心与所述预定义的一组视觉设备中的每一个相关联;计算所述坐标与所述集群的每个重心之间的距离,所述距离在向量中排序;并且选择所述集群中最小化所述坐标与所述集群的每个重心之间的距离的集群。

(13)根据(1)至(12)中任一项所述的装置,其中,与所述预定义的一组视觉设备中的每一个视觉设备相关联的所述集群包括对应于至少一个训练输入的匹配坐标,所述匹配坐标在所述神经网络的训练期间最大化至少一个训练匹配分数,所述至少一个训练输入包括所述人的面部的形态特征。

(14)一种用于确定适合的视觉设备的方法,所述方法包括:通过处理电路系统接收至少一个输入,所述至少一个输入包括人的面部图像;通过所述处理电路系统将神经网络应用于所述至少一个输入,所述神经网络生成所述至少一个输入的至少一个适合性度量;以及通过所述处理电路系统、基于由所述神经网络生成的所述至少一个适合性度量来确定所述适合的视觉设备,其中,所述至少一个适合性度量与所述人的面部与视觉设备之间的相关性同步相对应。

(15)一种存储计算机可读指令的非暂态计算机可读存储介质,所述计算机可读指令在被计算机执行时使所述计算机执行用于确定适合的视觉设备的方法,所述方法包括:接收至少一个输入,所述至少一个输入包括人的面部图像;将神经网络应用于所述至少一个输入,所述神经网络生成所述至少一个输入的至少一个适合性度量;以及基于由所述神经网络生成的所述至少一个适合性度量,确定所述适合的视觉设备,其中,所述至少一个适合性度量与所述人的面部与视觉设备之间的相关性同步相对应。

(16)根据(1)至(13)中任一项所述的装置,其中,所述至少一个训练适合性度量包括视觉设备与人的面部的适合性的分数评估。

(17)根据(1)至(13)和(16)中任一项所述的装置,其中,所述标记者组包括眼科医生。

(18)根据(1)至(13)和(16)至(17)中任一项所述的装置,其中,为了确定所述适合的视觉设备,所述处理电路系统被进一步配置为将所述至少一个适合性度量与预定阈值进行比较。

(19)根据(14)所述的方法,其中,所述至少一个输入包括视觉设备图像。

(20)根据(14)或(19)所述的方法,其中,所述至少一个输入包括所述人的面部图像,其中,所述人佩戴着视觉设备。

(21)根据(14)和(19)至(20)中任一项所述的方法,其中,所述至少一个输入是经处理的至少一个输入,所述经处理的至少一个输入包括从所述人的面部图像确定的形态特征。

(22)根据(14)和(19)至(21)中任一项所述的方法,其中,所述至少一个输入是经处理的至少一个输入,所述经处理的至少一个输入包括从所述视觉设备图像确定的视觉设备属性。

(23)根据(14)和(19)至(22)中任一项所述的方法,其中,所述至少一个输入包括所述人的视觉测量结果,所述视觉测量结果指示所述人的视敏度。

(24)根据(14)和(19)至(23)中任一项所述的方法,进一步包括通过所述处理电路系统,在训练数据库上训练所述神经网络,其中,所述训练数据库包括训练图像语料库,所述训练图像语料库包括人的面部图像和视觉设备图像,所述人的面部图像中的图像和所述视觉设备图像中的图像的每个组合在所述训练数据库中与由标记者组指派的至少一个训练适合性度量相关联。

(25)根据(14)和(19)至(24)中任一项所述的方法,其中,所述训练图像语料库包括佩戴视觉设备的人的图像,所述佩戴视觉设备的人的图像中的每个图像在所述训练数据库中与由所述标记者组指派的至少一个训练适合性度量相关联。

(26)根据(14)和(19)至(25)中任一项所述的方法,其中,所述神经网络包括隐式输入,所述隐式输入是预定义的一组视觉设备,由所述神经网络生成的所述至少一个适合性度量是所述至少一个输入与所述预定义的一组视觉设备中的每一个的至少一个匹配分数。

(27)根据(14)和(19)至(26)中任一项所述的方法,进一步包括为了确定所述适合的视觉设备,通过所述处理电路系统,选择最大的至少一个匹配分数,所述最大的至少一个匹配分数是所述预定的一组视觉设备中与所述至少一个输入中人的面部最匹配的一个视觉设备。

(28)根据(14)和(19)至(27)中任一项所述的方法,其中,所述最大的至少一个匹配分数选自包括所述至少一个匹配分数的向量,所述向量中的所述至少一个匹配分数中的每一个与所述预定的一组视觉设备中的一个视觉设备相对应,所述至少一个匹配分数是基于标记者组中指派所述至少一个匹配分数的相同值的标记者的百分比。

(29)根据(14)和(19)至(28)中任一项所述的方法,进一步包括为了确定所述适合的视觉设备:通过所述处理电路系统,计算坐标,所述坐标对应于所述至少一个输入;通过所述处理电路系统,计算集群的重心,所述集群的重心与所述预定义的一组视觉设备中的每一个相关联;通过所述处理电路系统,计算所述坐标与所述集群的每个重心之间的距离,所述距离在向量中排序;以及通过所述处理电路系统,选择所述集群中最小化所述坐标与所述集群的每个重心之间的距离的集群。

(30)根据(14)和(19)至(29)中任一项所述的方法,其中,与所述预定义的一组视觉设备中的每一个视觉设备相关联的所述集群包括对应于至少一个训练输入的匹配坐标,所述匹配坐标在所述神经网络的训练期间最大化至少一个训练匹配分数,所述至少一个训练输入包括所述人的面部的形态特征。

(31)根据(14)和(19)至(30)中任一项所述的方法,其中,所述至少一个训练适合性度量包括视觉设备与人的面部的适合性的分数评估。

(32)根据(14)和(19)至(31)中任一项所述的方法,其中,所述标记者组包括眼科医生。

(33)根据(14)和(19)至(32)中任一项所述的方法,进一步包括为了确定所述适合的视觉设备,通过所述处理电路系统,将所述至少一个适合性度量与预定阈值进行比较。

(34)根据(15)所述的方法,其中,所述至少一个输入包括视觉设备图像。

(35)根据(15)或(34)所述的方法,其中,所述至少一个输入包括所述人的面部图像,其中,所述人佩戴着视觉设备。

(36)根据(15)和(34)至(35)中任一项所述的方法,其中,所述至少一个输入是经处理的至少一个输入,所述经处理的至少一个输入包括从所述人的面部图像确定的形态特征。

(37)根据(15)和(34)至(36)中任一项所述的方法,其中,所述至少一个输入是经处理的至少一个输入,所述经处理的至少一个输入包括从所述视觉设备图像确定的视觉设备属性。

(38)根据(15)和(34)至(37)中任一项所述的方法,其中,所述至少一个输入包括所述人的视觉测量结果,所述视觉测量结果指示所述人的视敏度。

(39)根据(15)和(34)至(38)中任一项所述的方法,进一步包括在训练数据库上训练所述神经网络,其中,所述训练数据库包括训练图像语料库,所述训练图像语料库包括人的面部图像和视觉设备图像,所述人的面部图像中的图像和所述视觉设备图像中的图像的每个组合在所述训练数据库中与由标记者组指派的至少一个训练适合性度量相关联。

(40)根据(15)和(34)至(39)中任一项所述的方法,其中,所述训练图像语料库包括佩戴视觉设备的人的图像,所述佩戴视觉设备的人的图像中的每个图像在所述训练数据库中与由所述标记者组指派的至少一个训练适合性度量相关联。

(41)根据(15)和(34)至(40)中任一项所述的方法,其中,所述神经网络包括隐式输入,所述隐式输入是预定义的一组视觉设备,由所述神经网络生成的所述至少一个适合性度量是所述至少一个输入与所述预定义的一组视觉设备中的每一个的至少一个匹配分数。

(42)根据(15)和(34)至(41)中任一项所述的方法,进一步包括为了确定所述适合的视觉设备,选择最大的至少一个匹配分数,所述最大的至少一个匹配分数是所述预定的一组视觉设备中与所述至少一个输入中人的面部最匹配的一个视觉设备。

(43)根据(15)和(34)至(42)中任一项所述的方法,其中,所述最大的至少一个匹配分数选自包括所述至少一个匹配分数的向量,所述向量中的所述至少一个匹配分数中的每一个与所述预定的一组视觉设备中的一个视觉设备相对应,所述至少一个匹配分数是基于标记者组中指派了所述至少一个匹配分数的相同值的标记者的百分比。

(44)根据(15)和(34)至(43)中任一项所述的方法,进一步包括为了确定所述适合的视觉设备,计算坐标,所述坐标对应于至少一个输入;计算集群的重心,所述集群的重心与所述预定义的一组视觉设备中的每一个相关联;计算所述坐标与所述集群的每个重心之间的距离,所述距离在向量中排序;以及选择所述集群中最小化所述坐标与所述集群的每个重心之间的距离的集群。

(45)根据(15)和(34)至(44)中任一项所述的方法,其中,与所述预定义的一组视觉设备中的每一个视觉设备相关联的所述集群包括对应于至少一个训练输入的匹配坐标,所述匹配坐标在所述神经网络的训练期间最大化至少一个训练匹配分数,所述至少一个训练输入包括所述人的面部的形态特征。

(46)根据(15)和(34)至(45)中任一项所述的方法,其中,所述至少一个训练适合性度量包括视觉设备与人的面部的适合性的分数评估。

(47)根据(15)和(34)至(46)中任一项所述的方法,其中,所述标记者组包括眼科医生。

(48)根据(15)和(34)至(47)中任一项所述的方法,进一步包括为了确定所述适合的视觉设备,将所述至少一个适合性度量与预定阈值进行比较。

因此,前述讨论仅披露和描述了本发明的示例性实施例。如本领域技术人员将理解的,在不脱离本发明的精神或基本特征的情况下,本发明可以被实施为其他具体形式。因此,本发明的披露内容旨在是说明性的,而不是限制本发明以及其他权利要求的范围。本披露内容(包括本文中的教导的任何容易辨别的变型)部分地限定了前述权利要求术语的范围,使得没有创造性的主题致力于公众。

97页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:使用率失真成本作为深度学习的损失函数

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!