电子装置及其画面视角识别方法

文档序号:905893 发布日期:2021-02-26 浏览:3次 >En<

阅读说明:本技术 电子装置及其画面视角识别方法 (Electronic device and image visual angle identification method thereof ) 是由 黄志文 杨朝光 徐文正 于 2019-08-23 设计创作,主要内容包括:本发明提供一种电子装置及其画面视角识别方法。画面视角识别方法适用于一电子装置并包括下列步骤。获取显示器所显示的第一人称视角画面。移除第一人称视角画面中的特定物件而产生经预处理图像。将经预处理图像输入至神经网络模型而识别第一人称视角画面的视角。依据第一人称视角画面的视角执行一功能。(The invention provides an electronic device and a picture visual angle identification method thereof. The method for identifying the visual angle of the picture is suitable for an electronic device and comprises the following steps. And acquiring a first person visual angle picture displayed by the display. The specific object in the first human-view frame is removed to generate a preprocessed image. The preprocessed image is input to a neural network model to identify a perspective of the first person perspective picture. A function is executed according to the view angle of the first person view angle picture.)

电子装置及其画面视角识别方法

技术领域

本发明涉及一种电子装置,尤其涉及一种电子装置及其画面视角识别方法。

背景技术

随着科技的进步,为了追求身历其境的感受,使用者已无法满足于只观看平面的图像。为了提供使用者更具有现实感与立体感的视觉体验,目前已有许多应用软件会模拟出一个三维空间的立体虚拟场景,让使用者可通过显示器观看立体虚拟场景,甚至进一步能与立体虚拟场景进行互动。于一些应用中,显示器显示的立体虚拟场景图像是在第一人称视角(First Person View,FPV)下基于第一人称控制所产生的图像。在第一人称视角下,使用者看到的图像如同通过一模拟数字替身的眼睛看到的图像,其中模拟数字替身的视角是由使用者通过输入装置或通过移动身体来控制。也就是说,通过输入装置的操作或身体部位的动作,使用者可观赏到对应于不同视角的立体场景内容。举例而言,当使用者玩第一人称视角游戏时,显示器所显示的画面内容即为游戏角色(即模拟数字替身)基于一视角观看立体虚拟场景的场景内容。反应于使用者操控输入装置或移动身体部位,游戏角色的视角将对应改变。

发明内容

有鉴于此,本发明提出一种电子装置及其画面视角识别方法,其可通过神经网络(Neural Network,NN)模型识别第一人称视角画面的视角,以供后续应用使用。

本发明实施例提供一种画面视角识别方法,适用于一电子装置,所述方法包括下列步骤。获取显示器所显示的第一人称视角画面。移除第一人称视角画面中的特定物件而产生经预处理图像。将经预处理图像输入至神经网络模型而识别第一人称视角画面的视角。依据第一人称视角画面的视角执行一功能。

本发明实施例提供一种电子装置,其包括显示器、存储装置与处理器,处理器耦接存储装置与显示器。处理器经配置以执行下列步骤。获取显示器所显示的第一人称视角画面。移除第一人称视角画面中的特定物件而产生经预处理图像。将经预处理图像输入至神经网络模型而识别第一人称视角画面的视角。依据第一人称视角画面的视角执行一功能。

基于上述,于本发明的实施例中,在预处理第一人称视角画面而将特定物件移除之后,经预处理图像可输入至神经网络模型而识别出第一人称视角画面的视角。于此,通过将第一人称视角画面中的特定物件移除,可提升神经网络模型的识别精准度。此外,在识别第一人称视角画面的视角后,可依据第一人称视角画面的视角执行特定功能,从而增加电子装置的功能性。

为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。

附图说明

图1是依照本发明一实施例所示出的电子装置的示意图;

图2是依照本发明一实施例所示出的画面视角识别方法的流程图;

图3A及图3B是依照本发明一实施例所示出的产生经预处理图像的范例;

图4A及图4B是依照本发明一实施例所示出的产生经预处理图像的范例;

图5是依照本发明一实施例所示出的依据神经网络模型识别视角的示意图;

图6A至图6C是依照本发明一实施例所示出的画面视角识别方法的情境示意图;

图7是依照本发明一实施例所示出的训练神经网络模型的流程图。

附图标号说明:

10:电子装置

110:显示器

120:存储装置

130:处理器

F1~F5:第一人称视角画面

SF1~SF5:子画面

Img1~Img2:经预处理图像

500:神经网络模型

510:卷积层

520:池化层

530:全连接层

540:输出层

550:输出数据

150:灯光装置

151~153:灯号

S201~S204、S701~S704:步骤

具体实施方式

本发明的部分实施例接下来将会配合附图来详细描述,以下的描述所引用的元件符号,当不同附图出现相同的元件符号将视为相同或相似的元件。这些实施例只是本发明的一部分,并未揭示所有本发明的可实施方式。更确切的说,这些实施例只是本发明的权利要求中的方法与装置的范例。

图1是依照本发明一实施例所示出的电子装置的示意图,但此仅是为了方便说明,并不用以限制本发明。请参照图1,电子装置10例如是笔记本电脑、台式电脑、平板电脑、头戴显示装置、游戏机、智能手机、智能电视、伺服器装置或其组合,本发明对此不限制。于本发明实施例中,电子装置10包括显示器110、存储装置120,以及处理器130。

显示器110例如是液晶显示器(Liquid Crystal Display,LCD)、发光二极管(Light-Emitting Diode,LED)显示器、有机自发光二极管(Organic Light-EmittingDiode,OLED)显示器或其他种类的显示器,本发明对此不限制。从另一观点来看,显示器110可以为独立显示器、笔记本电脑的显示器、头戴显示装置的显示器或整合于其他种类电子装置上的显示器,本发明对此不限制。

存储装置120用以存储虚拟实境图像内容、程序码、软件元件等数据,其可以例如是任意型式的固定式或可移动式随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、快闪存储器(flash memory)、硬盘或其他类似装置、集成电路及其组合。

处理器130例如是中央处理单元(Central Processing Unit,CPU),或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(DigitalSignal Processor,DSP)、可程序化控制器、特殊应用集成电路(Application SpecificIntegrated Circuits,ASIC)、可程序化逻辑装置(Programmable Logic Device,PLD)、图形处理器(Graphics Processing Unit,GPU)或其他类似装置或这些装置的组合。处理器130可执行记录于存储装置120中的程序码、软件模块、指令等,以实现本发明实施例的画面视角识别方法。

然而,除了显示器110、存储装置120,以及处理器130之外,电子装置10还可以包括未示出于图1的其他元件,像是扬声器、麦克风、相机、通讯模块等,本发明对此不限制。

图2是依照本发明一实施例所示出的画面视角识别方法的流程图。请参照图2,本实施例的方法适用于图1的电子装置10,以下即搭配电子装置10中的各项元件说明本实施例方法的详细流程。

须先说明的是,于本发明的实施例中,当电子装置10的处理器130执行一应用程序时,显示器110将显示第一人称视角画面。上述的应用程序例如是游戏程序或多媒体播放程序等可提供立体场景内容的程序。举例而言,当使用者利用电子装置10玩第一人称视角游戏或观看360度环景图像/视频时,显示器110将显示第一人称视角画面。反应于使用者利用输入装置(未示出)下达的操控指令或身体部位(例如头部)的移动,第一人称视角画面的视角将对应改变。举例而言,反应于使用者操控触控装置、鼠标或键盘的操作方式,处理器130将自立体场景内容决定出第一人称视角画面并提供给显示器110进行显示。或者,反应于头戴显示装置的使用者的头部姿势,处理器130将自立体场景内容决定出第一人称视角画面并提供给头戴显示装置的显示器110进行显示。

首先,于步骤S201,处理器130获取显示器110所显示的第一人称视角画面。具体而言,处理器130可通过作业系统或应用程序的应用程序接口(API)来获取显示器110所显示的第一人称视角画面。举例而言,处理器130可通过像是Windows作业系统的“DesktopDuplication API”等的屏幕获取技术来获取显示器110所显示的第一人称视角画面。或者,处理器130可经由游戏程序的API获取第一人称视角画面。第一人称视角画面的图像内容是模拟使用者的数字替身依据一视角观看立体场景而产生。

于步骤S202,处理器130移除第一人称视角画面中的特定物件而产生经预处理图像。于步骤S203,处理器130将经预处理图像输入至神经网络模型而识别第一人称视角画面的视角。于一实施例中,第一人称视角画面的视角可为一垂直俯仰视角,而此垂直俯仰视角例如可介于0至180度。然而,于其他实施例中,第一人称视角画面的视角也可为水平偏转视角。

具体而言,于本发明的实施例中,处理器130可利用神经网络模型来识别第一人称视角画面的视角,以依据第一人称视角画面的画面特征来识别第一人称视角画面的视角。然而,第一人称视角画面可能包括不利于神经网络模型的识别准确度的特定物件。于是,于本发明的实施例中,在实际依据神经网络模型产生识别结果之前,第一人称视角画面将被预处理而去除特定物件。对应的,在神经网络模型的训练过程中,训练数据集中的训练画面也会执行相同的预处理。

一般而言,这些不利于神经网络模型的识别准确度的特定物件与视角变化是没有关联性的。换言之,这些特定物件并不会反应于第一人称视角画面的视角变换而有对应的变动,这些特定物件甚至是不会改变。举例而言,假设第一人称视角画面为游戏画面,位于游戏画面中下方的虚拟手或虚拟武器即属于不利于用以识别视角的神经网络模型的识别准确度的特定物件。或者,第一人称视角画面中的播放控制选单、游戏控制选单、标志(LOGO)、或其他静态图示也属于不利于用以识别视角的神经网络模型的识别准确度的特定物件。于本发明的实施例中,在去除第一人称视角画面中的特定物件而产生经预处理图像后,再将经预处理图像提供给神经网络模型进行识别,可明显提升神经网络模型的识别准确度。

于一实施例中,处理器130可执行图像分析来检测特定物件,例如通过颜色检测法、轮廓检测法或图像比对法等的物件检测算法来检测出第一人称视角画面中的特定物件。之后,处理器130可将特定物件自第一人称视角画面中移除,像是挖除包括特定物件的图像区块而产生经预处理图像。

于一实施例中,处理器130可将第一人称视角画面裁剪为多个子画面,并取未包括特定物件的子画面的至少其中之一产生经预处理图像。具体而言,于一些应用情境中,由于特定物件的所在位置可能不会有大幅的改变,因而处理器130可直接裁剪第一人称视角画面并取出未包括特定物件的图像部分,以达到移除特定物件的目的。

举例而言,图3A及图3B是依照本发明一实施例所示出的产生经预处理图像的范例。请先参照图3A及图3B,于本范例中,处理器130获取尺寸为W1*H1的第一人称视角画面F1。于本范例中,假设第一人称视角画面F1下方包括播放控制物件。基此,处理器130将第一人称视角画面F1裁剪为上下并排的子画面SF1与子画面SF2,并取子画面SF1产生尺寸成为W1*H2经预处理图像Img1,以于后续步骤利用经预处理图像Img1识别第一人称视角画面F1的视角。

举例而言,图4A及图4B是依照本发明一实施例所示出的产生经预处理图像的范例。请先参照图4A及图4B,于本范例中,处理器130获取尺寸为W4*H4的第一人称视角画面F2。于本范例中,假设第一人称视角画面F2中下方包括持握虚拟武器的虚拟手。基此,处理器130将第一人称视角画面F2裁剪为子画面SF3、子画面SF4与子画面SF5。换言之,剪裁第一人称视角画面F2而产生的子画面包括尺寸为W3*H3的子画面SF3、子画面SF4与尺寸为W5*H3的子画面SF5。处理器130可取子画面SF3与子画面SF5拼接为尺寸为(W3+W5)*H3的经预处理图像Img2,以于后续步骤利用经预处理图像Img2识别第一人称视角画面F2的视角。

需说明的是,于一实施例中,处理器130可利用神经网络模型将经预处理图像分类至多个视角范围其中之一。神经网络模型可为深度神经网络模型或其他机器学习模型,本发明对此不限制。例如,神经网络模型可为卷积层类神经网络(Convolution NeuralNetwork,CNN)模型中用以进行图像分类的LeNet、VGGNet、NASNet、ResNet等,本发明对此不限制。上述的多个视角范围即为神经网络模型的输出分类类别。

图5是依照本发明一实施例所示出的依据神经网络模型识别视角的示意图。请参照图5,以将经预处理图像Img2输入至CNN模型为例进行说明。在本范例中,卷积层类神经网络500是由至少一个的卷积层(Convolution Layer)510、至少一个的池化层(PoolingLayer)520、至少一个的全连接层(Fully connected layer)530以及输出层540所构成。

在卷积层类神经网络500的前段通常由卷积层510与池化层520串连组成,通常用来作为图像的特征获取来取得经预处理图像Img2的特征值。此特征值可以是多维阵列,一般被视为输入的经预处理图像Img2的特征向量。在卷积层类神经网络500的后段包括全连接层530与输出层540,全连接层530与输出层540会根据经由卷积层510与池化层520所产生的特征值分类经预处理图像Img2至多个类别其中之一。详细而言,输出层540产生的输出数据550可包括卷积层类神经网络500判断经预处理图像Img2为各个类别AR1~AR18的机率P1~P8,以依据机率P1~P8之中的最高者决定经预处理图像Img2的所属类别。详细而言,类别AR1~AR1即为不同的视角范围。于本范例中,是以将180度的垂直视角范围分成18个10度的视角范围为例。换言之,类别AR1~AR18分别对应至视角范围0度~10度、10度~20度、20度~30度、30度~40度、…、160度~170度、170度~180度。基于使用卷积层类神经网络500,处理器130可将经预处理图像Img2分类至18个视角范围其中之一,以识别第一人称视角画面F2的视角。通过分类经预处理图像Img2至多个视角范围其中之一,在确保神经网络模型的成功识别率与达到一定识别精度的情况下,本发明实施例可节省运算量而提升处理效率。

最后,于步骤S204,处理器130依据第一人称视角画面的视角执行一功能。此功能可包括提供对应于视角的声光效果或将视角记录为游戏操作历程。详细而言,处理器130可依据第一人称视角画面的视角控制扬声器或灯光装置提供对应的灯光效果或声音效果。或者,处理器130可将使用者玩第一人称视角游戏过程中的视角记录下来,作为游戏操作历程供人参考。藉此,可提升电子装置10的功能性与娱乐性。

举例而言,图6A至图6C是依照本发明一实施例所示出的画面视角识别方法的情境示意图。请参照图6A至图6C,电子装置10可包括灯光装置150。请参照图6A,假设第一人称视角画面F3的视角被识别为落入120度至140度时,灯光装置150中的灯号151亮起。请参照图6B,假设第一人称视角画面F4的视角被识别为落入80度至100度时,灯光装置150中的灯号152亮起。请参照图6C,假设第一人称视角画面F5的视角被识别为落入40度至60度时,灯光装置150中的灯号153亮起。

值得一题的是,当电子装置10为头戴显示装置时,处理器130还可依据第一人称视角画面的视角自动执行水平视角校正。详细而言,处理器130可计算第一人称视角画面的视角与预设期望视角(水平校正时为90度)之间的差值而取得视角偏移量,并依据此视角偏移量校正头戴显示装置的视角定位参数。之后,处理器130可提供视角校正后的画面给使用者。

图7是依照本发明一实施例所示出的训练神经网络模型的流程图。请参照图7,本实施例的流程适用于图1的电子装置10,以下即搭配电子装置10中的各项元件说明训练神经网络模型的详细流程。需说明的是,训练神经网络模型与实际识别第一人称视角画面的视角的处理器130可由单一电子装置中的处理器实现或由多台电子装置中的处理器来实现,本发明对此不限制。

于步骤S701,于执行应用程序时,处理器130获取应用程序的多个训练画面。举例而言,处理器130可自行产生鼠标控制事件而使游戏程序提供多个训练画面,上述的训练画面将分别被标示适合的训练视角。于步骤S702,处理器130移除训练画面中的特定物件而产生多个经预处理训练图像。于此,处理器130移除训练画面中的特定物件的方式相同于步骤S202中处理器130移除第一人称视角画面中的特定物件的方式。换言之,处理器130也可将这些训练画面分别剪裁为多个子训练画面,并取出每一训练画面的子训练画面的至少其中之一产生多张经预处理训练图像。

于步骤S703,依据训练画面分别对应的多个训练视角以及多个视角范围,处理器130分别将各经预处理训练图像标签为视角范围其中之一,以获取每一经预处理训练图像的分类标签。例如,假设一张训练画面被标示为训练视角为90度,则此训练画面的预处理训练图像的分类标签为80度至100度的视角范围。于此,处理器130将对每一训练画面的经预处理训练图像进行标签动作,以产生每一经预处理训练图像的分类标签。此外,训练画面的训练视角可由产生训练画面的应用程序提供或由开发人员自行标注。举例而言,处理器130可执行鼠标事件模拟工具。处理器130可通过鼠标事件模拟工具模拟出鼠标移动的鼠标事件,并依据固定移动单位来定义训练视角。像是,鼠标事件模拟工具可先模拟出极大范围移动的鼠标下移事件,并将此时产生的训练画面的训练视角标注为0度。接着,鼠标事件模拟工具可模拟出逐步移动固定单位的多个鼠标上移事件,并将反应于各鼠标上移事件而产生的训练画面的训练视角逐步增加角度间隔(例如1度)。

在处理器130产生包括多个经预处理训练图像以及对应的分类标签的训练数据集之后,于步骤S704,处理器130依据经预处理训练图像与经预处理训练图像的分类标签训练神经网络模型。具体而言,处理器130可将经预处理训练图像输入至神经网络模型。通过比对神经网络模型的分类结果与分类标签,处理器130将逐步训练出一套可用以将经预处理训练图像分类至多个视角范围其中之一的规则(即神经网络模型的参数),最终以建立出可用以识别视角的神经网络模型。

综上所述,于本发明实施例中,在预处理第一人称视角画面而将特定物件移除之后,经预处理图像可输入至神经网络模型而识别出第一人称视角画面的视角。于此,通过将第一人称视角画面中的特定物件移除,可提升神经网络模型识别画面视角的识别精准度。此外,在识别第一人称视角画面的视角后,可依据第一人称视角画面的视角执行特定功能,从而增加电子装置的功能性。并且,通过分类经预处理图像至多个视角范围其中之一,本发明实施例可确保神经网络模型的成功识别率与达到一定识别精度的情况下,同时节省运算量并提升处理效率。

虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域中的技术人员,在不脱离本发明的精神和范围内,当可作些许的更改与润饰,故本发明的保护范围当视权利要求所界定的为准。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种用于控件交互界面中进行人机交互的方法与设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类