图像形成系统、其控制方法以及存储介质

文档序号：1864877 发布日期：2021-11-19 浏览：7次 >En<

阅读说明：本技术 图像形成系统、其控制方法以及存储介质 (Image forming system, control method thereof, and storage medium ) 是由福田真人于 2021-05-11 设计创作，主要内容包括：本发明提供图像形成系统、其控制方法以及存储介质。图像形成系统能够减少用户设置显示语言的时间和精力。图像形成系统包括以下构件。图像形成设备在片材上形成图像。显示设备显示信息。麦克风获得语音。获得单元基于关于通过麦克风获得的短语的音频信息,来获得多个词信息。指定单元使用多个词信息来指定语言。更新单元基于由指定单元指定的语言来更新显示设备的显示语言。(The invention provides an image forming system, a control method thereof and a storage medium. The image forming system can reduce the time and effort for the user to set the display language. The image forming system includes the following components. The image forming apparatus forms an image on a sheet. The display device displays information. The microphone picks up the speech. The obtaining unit obtains a plurality of word information based on audio information on a phrase obtained by a microphone. The specifying unit specifies the language using the plurality of word information. The updating unit updates the display language of the display device based on the language specified by the specifying unit.)

图像形成系统、其控制方法以及存储介质

技术领域

本发明涉及允许语音操作的图像形成系统及其控制方法、以及存储其控制程序的存储介质。

背景技术

已知与智能扬声器协作的诸如打印机的图像形成装置(例如，参见日本特开2019-18394号公报(JP 2019-18394A))。用户可以通过将语音输入到智能扬声器中来进行图像形成装置的各种设置。例如，图像形成装置可以由在办公室中使用不同语言的多个用户共享。因此，对于每个用户而言，舒适的操作环境是不同的。用户通过向智能扬声器输入语音来改变图像形成装置中使用的语言，诸如图像形成装置的显示设备的显示语言。

然而，由于每当用户开始使用传统的图像形成装置时，都需要用户改变显示设备的显示语言的设置，因此这花费了时间和精力。

发明内容

本发明提供了能够减少用户设置显示语言的时间和精力的图像形成系统及其控制方法、以及存储其控制程序的存储介质。

因此，本发明的第一方面提供了一种图像形成系统，其包括：图像形成设备，其被构造为在片材上形成图像；显示设备，其被构造为显示信息；麦克风，其被构造为获得语音；获得单元，其被构造为基于通过所述麦克风获得的关于短语的音频信息，来获得多个词信息；指定单元，其被构造为使用所述多个词信息来指定语言；以及更新单元，其被构造为基于由所述指定单元指定的语言来更新所述显示设备的显示语言。

因此，本发明的第二方面提供了一种图像形成系统的控制方法，所述图像形成系统具有图像形成设备、显示设备以及麦克风，所述控制方法包括：基于通过所述麦克风获得的关于短语的音频信息，来获得多个词信息；使用所述多个词信息来指定语言；以及基于所指定的语言来更新所述显示设备的显示语言。

因此，本发明的第三方面提供了一种非暂时性计算机可读存储介质，其存储使计算机执行第二方面的控制方法的控制程序。

根据本发明，能够减少用户设置显示语言的时间和精力。

通过以下参照附图对示例性实施例的描述，本发明的其他特征将变得清楚。

附图说明

图1是示出根据本发明实施例的图像形成系统的构造图。

图2是示意性示出图1中的MFP的硬件构造的框图。

图3是示意性示出图1中的智能扬声器的硬件构造的框图。

图4是示意性示出图1中的云服务器的控制器的硬件构造的框图。

图5是示意性示出作为图1中的MFP的软件模块的设备控制模块的构造的框图。

图6是示意性示出作为图1中的智能扬声器的软件模块的音频控制模块的构造的框图。

图7A、图7B和图7C是用于描述作为图1中的云服务器的软件模块的音频数据转换控制模块的图。

图8是示出图1中的云服务器生成的具有语言设置的作业信息(下文中称为“语言设置作业信息”)的示例的图。

图9是示出图1中的云服务器生成的语言设置作业信息的示例的图。

图10是示出当图1中的图像形成系统通过语音输入接收作业执行指令时执行的处理的过程的序列图。

图11是示出由图1中的云服务器执行的语音操作服务执行处理的过程的流程图。

图12是示出当在图11的步骤S1101中将第一语音识别方法用于文本数据的转换时，步骤S1102的语言确定处理的过程的流程图。

图13是示出当在图11的步骤S1101中将第二语音识别方法用于文本数据的转换时，步骤S1102的语言确定处理的过程的流程图。

图14是示出图11的步骤S1103的操作确定处理的过程的流程图。

图15是示出图11的步骤S1105的作业执行处理的过程的流程图。

图16是示出图15的步骤S1502的作业信息生成处理的过程的流程图。

图17是示意性示出实施例中的日语的语言设置作业信息的生成的流程的图。

图18是示意性示出实施例中的英语的语言设置作业信息的生成的流程的图。

图19是示出由从云服务器接收语言设置作业信息的MFP执行的语言设置切换处理的流程图。

图20是示出当通过语音输入指示复印作业的执行时MFP的操作面板的画面转变的图。

图21是示出当通过语音输入指示EMAIL SEND(电子邮件发送)作业的执行时MFP的操作面板的画面转变的图。

图22是示出当图1的图像形成系统通过语音输入接收作业设置改变指令时执行的处理的过程的序列图。

图23是示出图11的步骤S1107的作业设置处理的过程的流程图。

图24是示出图23的步骤S2301的作业设置信息生成处理的过程的流程图。

图25是示意性示出实施例中的具有日语语言设置的作业设置信息的生成的流程的图。

图26是示意性示出实施例中的具有英语语言设置的作业设置信息的生成的流程的图。

图27是示出由从云服务器接收由语言设置作业信息的MFP执行的语言设置切换处理的流程图。

图28是示出当通过用户的语音输入复印作业的设置时MFP的操作面板的画面转变的图。

图29是示出当通过用户的语音输入EMAIL SEND作业的设置时MFP的操作面板的画面转变的图。

图30是示出实施例中的语言确定结果的示例的图。

具体实施方式

下面将参照附图详细描述根据本发明的实施例。应该注意，以下实施例并不限制根据权利要求的本发明，并且实施例中描述的特性特征的全部组合并非总是本发明的方案所不可缺少的。

图1是示出根据本发明实施例的图像形成系统100的构造图。如图1所示，图像形成系统100配设有作为图像形成装置的MFP(多功能外围设备)101、作为语音获得设备的智能扬声器102以及云服务器103。MFP101和智能扬声器102连接到网络104。并且云服务器103通过网关105连接到网络104。由此，MFP 101、智能扬声器102和云服务器103可通过网络104通信。

图像形成系统100能够控制MFP 101执行与智能扬声器102获得的用户语音操作相对应的处理。例如，当用户给出诸如“对此复印”的复印作业执行指令时，智能扬声器102通过网络104将与该复印作业执行指令相对应的音频数据(音频信息)发送至云服务器103。当接收到音频数据时，云服务器103生成与音频数据相对应的设备操作数据，并将该设备操作数据通过网络104发送到MFP 101。MFP 101执行复印作业作为与接收到的设备操作数据相对应的处理，并且通过网络104将指示已经执行了复印作业的响应发送到云服务器103。当接收到响应时，云服务器103生成响应消息数据，并通过网络104将响应消息数据发送给智能扬声器102。智能扬声器102输出与接收到的响应消息数据相对应的“现在复印”的音频消息。

MFP 101是配备有诸如打印功能和扫描功能的多种功能的多功能装置。MFP 101配设有MFP的自身装置数据106和MFP的其他装置数据107。MFP的自身装置数据106包括在通过网络104的数据通信中使用的MFP 101的IP地址和MAC地址。MFP的其他装置数据107例如包括当MFP 101使用云服务器103的服务时使用的账户信息和关于响应通知的URL信息，该响应通知向云服务器103通知与从云服务器103接收的设备操作数据相对应的处理的执行结果。

智能扬声器102是配备有音频辅助功能并配设有智能扬声器的自身装置数据108和智能扬声器的其他装置数据109的扩音器。智能扬声器的自身装置数据108包括在通过网络104的数据通信中使用的智能扬声器102的IP地址和MAC地址。智能扬声器的其他装置数据109包括当智能扬声器102使用云服务器103的服务时使用的账户信息，和与稍后描述的唤醒词相对应的云服务器103的服务URL。

云服务器103配设有云服务器的自身装置数据110和云服务器的其他装置数据111。云服务器的自身装置数据110包括当MFP 101或智能扬声器102通过网络104使用云服务器的服务时使用的服务URL信息和关于响应通知的上述URL信息。云服务器的其他装置数据111包括发布给MFP 101和智能扬声器102的账户信息、以及MFP 101和智能扬声器102的IP地址和MAC地址。云服务器103通过使用云服务器的其他装置数据111中包括的IP地址和MAC地址，通过网络104与MFP 101和智能扬声器102进行通信。

通过网络104发送和接收各种数据，诸如智能扬声器102生成的音频数据和云服务器103生成的设备操作数据。网关105例如是基于IEEE802.11标准(诸如IEEE802.11a和IEEE802.11b)的无线LAN路由器。应当注意，网关105可以是基于除IEEE802.11标准之外的无线通信标准的构造。此外，网关105可以是基于以太网标准(诸如10BASE-T、100BASE-T和1200BASE-T)的有线LAN路由器。

图2是示意性示出图1中的MFP 101的硬件构造的框图。如图2所示，MFP 101配设有控制器200、操作面板209、打印引擎(图像形成设备)211和扫描器213。控制器200与操作面板209、打印引擎211和扫描器213连接。此外，控制器200配设有CPU(中央处理单元)202、RAM203、ROM 204、存储单元205、网络I/F 206、显示控制器207、操作I/F208、打印控制器210和扫描控制器212。CPU 202、RAM 203、ROM 204、存储单元205、网络I/F 206、显示控制器207、操作I/F 208、打印控制器210和扫描控制器212通过系统总线201相互连接。

CPU 202控制整个MFP 101的操作。CPU 202读取存储在ROM 204或存储单元205中的控制程序，并进行各种控制处理，诸如读取控制处理和打印控制处理。RAM 203是CPU 202的主存储器。RAM 203用作CPU 202的工作区域，并且用作将存储在ROM 204或存储设备205中的控制程序展开到的临时存储区域。ROM 204存储CPU 202运行的控制程序。存储单元205存储打印数据、图像数据、程序、设置信息等。尽管本实施例的MFP 101被构造为使得单个CPU 202将使用单个存储器(RAM 203)执行后述处理，但是MFP 101的构造不限于该构造。例如，MFP 101可以被构造为使得多个CPU、RAM、ROM和存储单元将协作地执行后述处理。此外，MFP 101可以使用诸如ASIC(专用集成电路)或FPGA(现场可编程门阵列)的硬件电路来执行一些处理。

当MFP 101通过网络104与其他装置通信时，使用网络I/F 206。例如，MFP 101通过PDL分析模块(未示出)分析通过网络I/F 206接收的打印数据。PDL分析模块是用于分析打印数据的软件模块，并基于由各种页面描述语言表达的打印数据来生成由打印引擎211打印的图像数据。用于启动PDL分析模块的程序被存储在存储单元205或ROM 204中。

显示控制器207和操作I/F 208与操作面板209连接。操作I/F 208进行操作面板209的画面的显示控制。当用户操作操作面板209时，MFP101通过显示控制器207获得与用户的操作相对应的事件。

打印控制器210与打印引擎211连接。打印控制器210将上述PDL分析模块生成的图像数据传输到打印引擎211。打印引擎211在片材上形成接收到的图像数据。电子照相系统、喷墨系统等被用作打印引擎211的打印系统。当使用电子照相系统时，通过显影形成在感光构件上的静电潜像、将显影后的调色剂图像转印到片材上、并且定影转印的调色剂图像，来在片材上形成图像。当使用喷墨系统时，通过排出墨在片材上形成图像。

扫描控制器212与扫描器213连接。扫描器213读取片材上的图像并生成图像数据。由扫描器213生成的图像数据被存储在存储单元205中。此外，使用扫描器213生成的图像数据在片材上形成图像。扫描器213具有原稿进给器(未示出)，并且可以通过逐个输送堆叠在原稿进给器上的原稿来读取原稿。

图3是示意性示出图1中的智能扬声器的硬件构造的框图。如图3所示，智能扬声器102配设有控制器300、麦克风308、扩音器310和LED312。控制器300与麦克风308、扩音器310和LED 312连接。此外，控制器300配设有CPU 302、RAM 303、ROM 304、存储单元305、网络I/F306、麦克风I/F 307、音频控制器309和显示控制器311。CPU 302、RAM303、ROM 304、存储单元305、网络I/F 306、麦克风I/F 307、音频控制器309和显示控制器311通过系统总线301相互连接。

CPU 302是控制整个控制器300的操作的中央处理单元。RAM 303是易失性存储器。ROM 304是非易失性存储器，并且存储CPU 302的启动程序。存储单元305是具有比RAM 303更大的存储器容量的存储设备，并且可以是SD卡。应当注意，存储单元305可以是闪速ROM，而不是SD卡，或者可以是具有与SD卡的功能等效的功能的其他存储设备。例如，存储单元305存储控制器300执行的智能扬声器102的控制程序。

当响应于用户的电源接通操作来启动智能扬声器102时，CPU 302运行存储在ROM304中的启动程序。该启动程序读取存储在存储单元305中的控制程序并将相关控制程序展开到RAM 303上。CPU 302运行展开到RAM 303上的控制程序，并进行各种控制处理。此外，CPU 302将在运行控制程序时使用的数据存储到RAM 303或存储单元305中。CPU 302通过网络I/F 306与网络104上的其他装置通信。

网络I/F 306包括能够基于IEEE802.11标准根据无线通信系统进行通信的电路和天线。应当注意，网络I/F 306可以采用基于以太网标准的线缆通信系统，而不是无线通信系统。麦克风I/F 307连接到麦克风308。麦克风I/F 307根据来自CPU 302的指令，将通过麦克风308接收的用户语音转换为编码音频数据，并将转换后的音频数据存储到RAM 303中。

麦克风308例如是安装在智能电话等中的紧凑型MEMS麦克风。应当注意，麦克风308不限于MEMS麦克风，并且可以是能够获得用户语音的其他设备。在该实施例中，优选地在预定位置处布置三个或更多个麦克风308，以便指定用户语音的到达方向。

音频控制器309连接到扩音器310。音频控制器309根据来自CPU302的指令将音频数据转换为模拟语音信号，并通过扩音器310输出声音。

扩音器310再现指示智能扬声器102正在响应的音频响应，并且还再现由云服务器103合成的声音。扩音器310是用于再现声音的通用设备。

显示控制器311连接到LED 312。显示控制器311根据来自CPU 302的指令控制LED312的发光。在实施例中，显示控制器311控制LED 312的发光以指示智能扬声器102正在获得用户的语音。LED 312例如是用户可见的蓝色LED。LED 312是通用设备。在实施例中，智能扬声器102可以配设有显示设备，该显示设备能够显示指示智能扬声器102正在获得用户语音的文本和图片来代替LED 312的发光。

图4是示意性示出图1中的云服务器103的控制器400的硬件构造的框图。如图4所示，控制器400配设有CPU 402、RAM 403、ROM 404、存储单元405和网络I/F 406。CPU 402、RAM 403、ROM 404、存储单元405和网络I/F 406通过系统总线401相互连接。

CPU 402是控制整个控制器300的操作的中央处理单元。RAM 403是易失性存储器。ROM 404是非易失性存储器，并且存储CPU 402的启动程序等。存储单元405是具有比RAM403更大的存储器容量的存储设备，并且可以是硬盘驱动器(HDD)。应当注意，存储单元405可以是固态驱动器(SSD)，或者可以是具有与HDD的功能等效的功能的其他存储设备。存储单元405存储例如控制器400执行的云服务器103的控制程序。

当启动云服务器103时，CPU 402运行存储在ROM 404中的启动程序。该启动程序读取存储在存储单元405中的控制程序，并将相关控制程序展开到RAM 403上。CPU 402运行展开到RAM 403上的控制程序，并进行各种控制处理。此外，CPU 402将在运行控制程序时使用的数据存储到RAM 403或存储单元405中。CPU 402通过网络I/F 406与网络104上的其他装置通信。

图5是示意性示出作为图1中的MFP 101的软件模块的设备控制模块500的构造的框图。如图5所示，设备控制模块500包括数据发送/接收模块501、数据分析模块502、作业控制模块503、数据管理模块504、显示模块505、操作对象确定模块506、扫描模块507和打印模块508。因为CPU 202运行从ROM 204展开到RAM 203的控制程序，所以实现了由这些模块执行的处理。

数据发送/接收模块501控制根据TCP/IP通过网络I/F 206在MFP 101与网络104上的其他装置之间的数据发送和接收。例如，数据发送/接收模块501控制云服务器103生成的设备操作数据的接收。此外，数据发送/接收模块501控制从MFP 101到云服务器103的各种通知的发送。各种通知例如包括指示作业执行结果的通知和指示作业执行状态的通知。

数据分析模块502将由数据发送/接收模块501接收的设备操作数据转换为设备控制模块500的模块可以解释的命令，并将相应的命令发送给作业控制模块503、数据管理模块504以及显示模块505。

作业控制模块503向打印控制器210和扫描控制器212给出指令以分别控制打印引擎211和扫描器213。数据管理模块504将关于由设备控制模块500进行的处理的数据存储到RAM 203和存储单元205的预定区域，并管理数据。关于由设备控制模块500进行的处理的数据包括例如作业数据和语言设置数据，该作业数据是由作业控制模块503执行的作业的设置项和设置值的组合，该语言设置数据示出了显示在操作面板209上的文本的语言。此外，数据管理模块504将与网关105进行通信所需的认证信息、与云服务器103进行通信所需的设备信息等存储到RAM203或存储单元205中，并管理信息。此外，数据管理模块504存储显示模块505用于画面的显示控制的画面控制信息、以及操作对象确定模块506用于确定操作对象的操作对象确定信息。针对显示模块505显示的每个画面管理画面控制信息和操作对象确定信息。

显示模块505向显示控制器207给出关于操作面板209的显示控制的指令。例如，当接收到来自显示模块505的指令时，显示控制器207在操作面板209上显示用户可操作的UI构件(按钮、下拉列表、复选框等)。基于画面控制信息来更新画面。例如，显示模块505从存储单元205获得与数据管理模块504管理的语言设置数据相对应的语言词典，并且在操作面板209上显示基于该语言词典生成的文本数据。

操作对象确定模块506通过操作I/F 208获得示出用户触摸操作面板209的位置的坐标，并且确定在用户触摸的位置处显示在操作面板209上的UI构件作为操作对象。操作对象确定模块506读取与被确定为操作对象的UI构件相对应的画面控制信息，并基于相关画面控制信息来确定处理的内容。操作对象确定模块506指示设备控制模块500的模块执行确定的处理。例如，操作对象确定模块506指示显示模块505更新画面的显示内容，并指示作业控制模块503使用由用户操作设置的作业参数来开始作业。

扫描模块507基于从作业控制模块503接收的扫描设置，通过扫描控制器212控制扫描器213执行扫描，并控制数据管理模块504存储读取的图像数据。打印模块508基于从作业控制模块503接收的打印设置，经由打印控制器210控制打印引擎211进行打印。

图6是示意性示出作为图1中的智能扬声器102的软件模块的音频控制模块600的构造的框图。如图6所示，音频控制模块600包括数据发送/接收模块601、数据管理模块602、控制模块603、语音获得模块604、音频再现模块605、显示模块606、语音操作开始检测模块607和话语结束确定模块608。由于CPU 302运行从存储单元305展开到RAM 303的控制程序，因此实现了由这些模块执行的处理。

数据发送/接收模块601控制根据TCP/IP通过网络I/F 306在智能扬声器102与网络104上的其他装置之间的数据发送和接收。例如，数据发送/接收模块601控制由语音获得模块604获得的用户语音的音频数据向云服务器103的发送。此外，数据发送/接收模块601控制对来自云服务器103的合成音频数据(稍后描述)的接收。

数据管理模块602将与音频控制模块600的处理有关的数据存储到存储单元305的预定区域。关于音频控制模块600的处理的数据包括例如由音频再现模块605再现的声音的音量设置数据、与网关105通信所需的认证信息、以及与MFP 101和云服务器103通信所需的设备信息。

语音获得模块604通过将由麦克风308拾取的用户的模拟语音转换成诸如MP3的预定格式的数字信号并通过对该数字信号进行编码来生成音频数据，并将相关音频数据临时存储到RAM 303中。控制模块603管理语音获得模块604的处理的开始和结束定时。应当注意，音频数据的格式可以是通用流格式。编码的音频数据可以随后被发送到数据发送/接收模块601。

音频再现模块605控制音频控制器309以使用扩音器310再现由数据发送/接收模块601接收的合成音频数据(音频消息)。控制模块603管理音频再现模块605的音频再现处理的执行定时。

显示模块606通过显示控制器311控制LED 312的发光。例如，当语音操作开始检测模块607检测到语音操作时，显示模块606通过显示控制器311使LED 312点亮。控制模块603管理显示模块606的处理的执行定时。

当检测到用户说出的唤醒词或对智能扬声器102的操作开始键(未示出)的按下操作时，语音操作开始检测模块607向控制模块603发送示出检测到唤醒词或按下操作的操作开始通知。唤醒词是用于启动智能扬声器102的音频辅助功能的语音词，并且被预先登记。语音操作开始检测模块607从通过麦克风308拾取的用户的模拟语音中检测唤醒词。用户可以在说出唤醒词之后通过说出与指令相对应的短语来操作MFP101。

话语结束确定模块608确定语音获得模块604的处理的结束定时。例如，当用户的语音暂停达到预定时段(如三秒)时，话语结束确定模块608确定用户的话语结束。然后，话语结束确定模块608将示出确定结果的话语结束通知发送到控制模块603。应当注意，可以基于说出预先登记的预定词代替无话语时段(称为“暂停时段”)，来确定用户的话语结束。例如，当用户说出预先登记的预定词(诸如“是”、“否”、“OK”、“取消”、“结束”、“启动”和“开始”)时，话语结束确定模块608可以确定用户的话语结束而无需等待预定时段。此外，不是智能扬声器102而是云服务器103可以确定话语的结束，并且云服务器103可以基于用户话语的内容的含义和上下文来确定用户的话语结束。

控制模块603控制音频控制模块600中的其他模块彼此协同操作。具体地，控制模块603控制语音获得模块604、音频再现模块605和显示模块606的处理的开始和结束。此外，在语音获得模块604获得音频数据之后，控制模块603控制数据发送/接收模块601将音频数据发送到云服务器103。此外，在从云服务器103接收到合成音频数据之后，控制模块603控制音频再现模块605再现合成音频数据。

将描述语音获得模块604、音频再现模块605和显示模块606的处理的开始和结束定时。

当从语音操作开始检测模块607接收到操作开始通知时，控制模块603开始语音获得模块604的处理。此外，当从话语结束确定模块608接收到话语结束通知时，控制模块603结束语音获得模块604的处理。例如，当用户说出唤醒词时，语音操作开始检测模块607检测到唤醒词并将操作开始通知发送给控制模块603。当接收到操作开始通知时，控制模块603控制语音获得模块604开始处理。语音获得模块604获得唤醒词之后的用户语音(例如，“我要复印”)，将语音转换为音频数据，并临时存储音频数据。当在“我要复印”的语音之后持续了预定时段的暂停时段时，话语结束确定模块608将话语结束通知发送到控制模块603。当接收到话语结束通知时，控制模块603控制语音获得模块604结束处理。在下文中，语音获得模块604的处理的开始与结束之间的状态将被称为“话语处理状态”。显示模块606使LED312点亮，作为指示处于话语处理状态的通知。

在确定用户的话语结束之后，控制模块603指示数据发送/接收模块601将临时存储在语音获得模块604中的音频数据发送到云服务器103，并等待来自云服务器103的响应。来自云服务器103的响应包括例如指示响应的头部部分和由合成音频数据组成的响应消息。当数据发送/接收模块601接收到上述响应时，控制模块603控制音频再现模块605以再现合成音频数据。合成音频数据是例如“将显示复印画面”的音频消息。应当注意，在确定用户的话语结束和合成音频数据的再现结束之间的状态将被称为“响应处理状态”。显示模块606使LED 312闪烁，作为指示处于响应处理状态的通知。

在结束合成音频数据的再现之后，用户能够在与云服务器103的交互会话继续进行的同时，在无需说出唤醒词的情况下通过发出与指令相对应的短语来给出指令。当云服务器103向智能扬声器102发送交互会话结束通知时，确定交互会话的结束。一个交互会话的结束与另一交互会话的开始之间的状态将被称为“待机状态”。即，智能扬声器102处于待机状态，直到控制模块603从语音操作开始检测模块607接收到操作开始通知为止。在待机状态期间，显示模块606使LED 312熄灭，作为指示处于待机状态的通知。

图7A、图7B和图7C是用于描述作为图1中的云服务器103的软件模块700的音频数据转换控制模块的图。图7A是示意性示出音频数据转换控制模块700的构造的框图。图7B示出了由后述组ID确定模块707为确定组ID而使用的日语组ID列表的示例。图7C示出了由后述组ID确定模块707为确定组ID而使用的英语组ID列表的示例。在组ID列表

中，与用户对MFP 101的操作有关的、具有相同含义或意图的词被分组

在相同ID下。应当注意，这里列出的词是用户向智能扬声器102说出的

词的语音识别的结果。此外，在组ID列表中，示出是否排除后述语言确

定的语言确定例外标志被设置给各个登记的词。在组ID列表中，对诸如“片假名”词(如“kopi”)的无法指定该词是英语还是日语的词的语言确定例外标志设置YES(是)。对语言确定例外标志设置YES的词不会用于后述语言确定。同时，在组ID列表中，对片假名词以外的词的语言确定例外标志设置NO(否)。对语言确定例外标志设置NO的词用于后述语言确定。

在图7A中，音频数据转换控制模块700包括数据发送/接收模块701、数据管理模块702、设备操作数据生成模块703和音频数据转换模块710。音频数据转换模块710包括语音识别模块705、形态分析模块706、组ID确定模块707和音频合成模块708。由于CPU 402运行从存储单元405展开到RAM 403的控制程序，因此实现了由上述模块执行的处理。

数据发送/接收模块701控制根据TCP/IP通过网络I/F 406在云服务器103与网络104上的其他装置之间的数据发送和接收。例如，数据发送/接收模块701从智能扬声器102接收用户的音频数据。此外，数据发送/接收模块701向MFP 101发送组ID确定模块707确定的组ID、以及通过由语音识别模块705执行的语音识别处理对文本数据的确定结果。

数据管理模块702将与音频数据转换控制模块700的处理有关的数据存储到存储单元405的预定区域。与音频数据转换控制模块700的处理有关的数据例如包括：用于将由数据发送/接收模块701接收的音频数据转换成文本数据的声学模型和语言模型、当形态分析模块706对文本进行形态分析时使用的词典、当组ID确定模块707确定组ID时使用的组ID列表、当音频合成模块708进行音频合成处理时使用的音频数据库以及与智能扬声器102或MFP 101通信所需的设备信息。

语音识别模块705进行语音识别处理，以将由数据发送/接收模块701接收的用户的音频数据转换为文本。语音识别处理使用声学模型将用户的音频数据转换为音素，并且还使用语言模型将音素转换为实际文本数据。应该注意，用户的音频数据可以包括几种不同语言的词。在实施例中，语音识别处理可以采用第一语音识别方法，该方法确定输入音频数据的语言并将音频数据转换为所确定的语言的文本数据。此外，语音识别处理可以采用第二语音识别方法，该方法使用多种语言的声学模型将输入音频数据转换为音素，并使用对应的语言模型将音频数据转换为各语言的文本数据。由于第二语音识别方法以多种语言形式将音频数据转换为文本数据，因此语音识别模块705生成由文本和语言设置组成的语音识别数据作为语音识别处理的执行结果。

在实施例中，输入语音的语言是日语和英语。日语的语音识别数据是由语言设置“日语”和由一个或多个假名组成的文本组成的数据。英语的语音识别数据是由语言设置“英语”和由一个或多个字母组成的文本组成的数据。应当注意，将音频数据转换为语音识别数据的语音识别处理不限于以上在实施例中描述的方法，并且可以使用其他方法。

形态分析模块706基于语言设置来形态分析由语音识别模块705转换的语音识别数据。形态分析模块706从具有关于语言的语法和词性的信息的词典中推导出词素串，并确定构成相关词素串的各词素(词信息)的词性。可以通过使用公知的形态分析软件(诸如JUMAN、Web-Chamame或MeCab)来实现形态分析模块706。

将描述形态分析模块706的操作示例。例如，形态分析模块706将由语音识别模块705转换的语音识别数据{“yonbukopishite(四份)”，语言设置“日语”}分析为“yon”、“bu”、“kopi”、“wo”和“shite”的词素串。此外，形态分析模块706将语音识别数据{“四份”，语言设置“英语”}分析为“四”和“份”的词素串。

组ID确定模块707通过将形态分析模块706进行的形态分析的结果与图7B中的日语组ID列表和图7C中的英语组ID列表中的与语音识别数据的语言设置相对应的组ID列表进行匹配，来指定组ID。然后，组ID确定模块707生成指示指定的组ID的组ID确定结果。例如，组ID确定模块707将“yon”、“bu”、“kopi”、“wo”和“shite”的词素串与图7B中的日语组ID列表进行匹配，指定作为“yon”、“bu”和“kopi”的组ID的“NUM00004”、“CNF00001”和“FNC00001”，并生成{ID：NUM00004，ID：CNF00001，ID：FNC00001}作为组ID确定结果。此外，组ID确定模块707将“四”和“份”的词素串与图7C中的英语组ID列表进行匹配，指定作为“四”和“份”的组ID的“NUM00004”、“CNF00001”和“FNC00001”，并生成{ID：NUM00004，ID：CNF00001，ID：FNC00001}作为组ID确定结果。

当组ID确定结果包括多个组ID时，以语音识别和形态分析的结果的顺序来设置组ID。例如，当语音识别和形态分析的结果为“yon”、“bu”、“kopi”、“wo”和“shite”时，以与词素“yon”、“bu”和“kopi”相对应的{ID：NUM00004，ID：CNF00001，ID：FNC00001}的顺序来设置组ID，作为组ID确定结果。此外，当存在与相同的词素相对应的不同的组ID时，组ID确定结果可以包括所有不同的组ID。例如，在图7C的英语组ID列表中，“CNF00001”和“FNC00001”与相同的词素“份”相关联。当语音识别和形态分析的结果为“四”和“份”时，生成组ID确定结果为{ID：NUM00004，ID：CNF00001，ID：FNC00001}。

音频合成模块708基于从MFP 101接收的通知来进行音频合成处理。在音频合成处理中，与接收到的通知相对应的先前登记的文本被转换为诸如MP3的预定格式的音频数据。在音频合成处理中，例如，基于存储在数据管理模块702中的音频数据库来生成音频数据。音频数据库例如是收集诸如词的规则内容的声音的数据库。尽管在实施例中使用音频数据库进行音频合成处理，但是音频合成处理的方法不限于该方法。可以使用其他方法。

设备操作数据生成模块703基于由组ID确定模块707生成的组ID确定结果和由语音识别模块705生成的语音识别数据的语言设置来确定MFP 101的操作。设备操作数据生成模块703生成与所确定的操作相对应的预定数据格式的文件。

例如，当语音识别数据的语言设置是“日语”并且组ID确定结果是{ID：NUM00004，ID：CNF00001，ID：FNC00001}时，设备操作数据生成模块703基于“日语”确定将日语设置为MFP 101的语言设置，并生成字符串{“language”：“Japanese”}。设备操作数据生成模块703基于“FNC00001”确定指示MFP 101进行复印作业，并生成字符串{“operation”：“jobStart”}和{“jobName”：“copy”}以用于进行复印作业。设备操作数据生成模块703基于“NUM00004”和“CNF00001”，生成用于指定“4”作为复印作业的份数的字符串{“copies”：“4”}。设备操作数据生成模块703通过组合这些字符串，以图8所示的JSON格式生成数据。

此外，当语音识别数据的语言设置为“英语”并且组ID确定结果为{ID：FNC00001，ID：NUM00004，ID：CNF00002，ID：FNC00003}时，设备操作数据生成模块703基于“英语”确定将英语设置为MFP 101的语言设置，并生成字符串{“language”：“English”}。设备操作数据生成模块703基于“FNC00001”和“FNC00003”来确定执行MFP 101的作业设置，并生成用于执行作业设置的字符串{“operation”：“jobSetting”}。设备操作数据生成模块703基于“NUM00004”和“CNF00001”生成字符串{“density”：“4”}。设备操作数据生成模块703通过组合这些字符串，以图9所示的JSON格式生成数据。

图10是示出当图1的图像形成系统100通过语音输入接收作业执行指令时执行的处理的过程的序列图。应当注意，在图10中，智能扬声器102、MFP 101和云服务器103应当可以相互通信。此外，图20中的主画面2001应显示在MFP 101的操作面板209上，在主画面2001上，可以调用诸如复印、扫描和打印的功能。

在图10中，用户首先在步骤S1001中向智能扬声器102给出开始语音操作的指令。当用户说出唤醒词或当用户按下智能扬声器102的操作开始键(未示出)时，给出开始语音操作的指令。通过语音操作开始检测模块607来检测开始语音操作的指令。

当检测到开始语音操作的指令时，在步骤S1002中，在智能扬声器102中，音频控制模块600的显示模块606使LED 312点亮，作为指示处于话语处理状态的通知。此外，在智能扬声器102中开始语音获得模块604的处理。

在步骤S1003中，用户对智能扬声器102进行功能调用指令。例如，用户说出作为作业执行指令的诸如“yonbukopishite”或“四份”的短语，作为在步骤S1001中检测到的唤醒词之后的功能调用指令。基于由语音获得模块604获得的用户语音来生成音频数据。当持续预定时段的暂停时段时，话语结束确定模块608确定话语结束。

在步骤S1004中，音频控制模块600的显示模块606根据话语结束确定，来使LED312闪烁作为指示处于响应处理状态的通知。此外，语音获得模块604的处理完成。在步骤S1005中，数据发送/接收模块601将所生成的音频数据发送到云服务器103。

在步骤S1006中，云服务器103中的音频数据转换控制模块700执行后述图11的语音操作服务执行处理。语音操作服务执行处理的细节将在后面描述。在语音操作服务执行处理中，例如，作为用于执行作业的设备操作数据的语言设置作业信息被发送到MFP 101，并且后述音频消息被发送到智能扬声器102。

在步骤S1007中，MFP 101中的设备控制模块500基于从云服务器103接收的语言设置作业信息，执行后述图19的语言设置切换处理。

在步骤S1008中，智能扬声器102中的数据发送/接收模块601从云服务器103接收音频消息。在接下来的步骤S1009中，音频再现模块605再现从在步骤S1008中接收到的音频消息转换的合成音频数据。例如，音频再现模块605通过扩音器310再现合成音频数据“将开始复印”。

在步骤S1010中，数据发送/接收模块601从云服务器103接收与在步骤S1008中接收的音频消息不同的音频消息。此外，数据发送/接收模块601从云服务器103接收交互会话结束通知，该通知结束与用户的交互会话。

在步骤S1011中，音频再现模块605再现从在步骤S1010中接收到的音频消息转换的合成音频数据。例如，音频再现模块605通过扩音器310再现合成音频数据“复印已经结束”。

在步骤S1012中，显示模块606响应于数据发送/接收模块601在步骤S1010中接收到交互会话结束通知而使LED 312熄灭，作为示出智能扬声器102处于待机状态的通知。

在步骤S1013中，响应于数据发送/接收模块601在步骤S1010中接收到交互会话结束通知，音频控制模块600结束交互会话并将智能扬声器102转变为待机状态。

在图10的序列中，即使作为指示处于响应处理状态的通知而使LED312闪烁，用户也可以将唤醒词输入到智能扬声器102中。当用户在唤醒词之后说出“取消”或“停止”时，交互会话可以被强制结束。

图11是示出由图1中的云服务器103执行的语音操作服务执行处理的过程的流程图。因为CPU 402运行从存储单元405展开到RAM 403的控制程序，所以实现了语音操作服务执行处理。当数据发送/接收模块701在步骤S1005中接收到从智能扬声器102发送的功能调用指令的音频数据时，执行图11的语音操作服务执行处理。

如图11所示，CPU 402通过语音识别模块705执行将音频数据转换为文本数据的语音识别处理(步骤S1101)。如上所述，在语音识别处理中，语音识别模块705可以采用第一语音识别方法，该方法确定输入音频数据的语言并将音频数据转换为所确定的语言的文本数据。此外，语音识别模块705可以采用第二语音识别方法，该方法使用多种语言的声学模型将输入音频数据转换为音素，并使用对应的语言模型将音频数据转换为各语言的文本数据。

接下来，CPU 402基于在步骤S1101中转换的文本数据和语言确定结果来执行语言确定处理(步骤S1102)。应当注意，步骤S1102的语言确定处理的内容基于在步骤S1101中用于文本数据的转换的方法(第一语音识别方法或第二语音识别方法)而不同。例如，当在步骤S1101中将第一语音识别方法用于文本数据的转换时，CPU 402执行后述图12的第一语言确定处理。同时，当在步骤S1101中将第二语音识别方法用于文本数据的转换时，CPU 402执行后述图13的第二语言确定处理。

接下来，CPU 402执行后述图14的操作确定处理(步骤S1103)并将作为用户的功能调用指令的类型的确定结果的操作信息存储到RAM403中。接下来，CPU 402确定在RAM 403中存储的操作信息是否是“作业执行”(步骤S1104)。

作为步骤S1104中的确定的结果，当操作信息是“作业执行”时，CPU 402执行后述图15的作业执行处理(步骤S1105)并结束语音操作服务执行处理。作为步骤S1104中的确定的结果，当操作信息不是“作业执行”时，CPU 402确定操作信息是否是“作业设置”(步骤S1106)。

作为步骤S1106中的确定的结果，当操作信息是“作业设置”时，CPU 402执行后述图23的作业设置处理(步骤S1107)，并结束语音操作服务执行处理。作为步骤S1106中的确定的结果，当操作信息不是“作业设置”时，CPU 402生成操作指导消息，该操作指导消息是用于促使输入操作关键词的文本消息(步骤S1108)。然后，CPU 402将操作指导消息存储到RAM 403中的音频数据存储区域中。操作指导消息例如是“请给出您要执行的COPY、EMAILSEND等的操作。”。接下来，CPU 402控制数据发送/接收模块701以通过网络I/F 406将存储在RAM 403中的操作指导消息发送至智能扬声器102(步骤S1109)，并结束语音操作服务执行处理。

图12是示出当在图11的步骤S1101中将第一语音识别方法用于文本数据的转换时，在步骤S1102中执行的第一语言确定处理的过程的流程图。

如图12所示，CPU 402清除作为RAM 403的存储区域的一部分的临时存储区域(步骤S1201)。临时存储区是在第一语言确定处理中使用的存储区域，例如包括语言确定结果临时存储区域、词素串存储区域、组ID存储区域和语言确定结果存储区域。接下来，CPU 402将在步骤S1101中的语音识别处理中进行的音频数据的语言确定结果存储到RAM403的语言确定结果临时存储区域中(步骤S1202)。接下来，CPU 402通过形态分析模块706分析上述文本数据，以提取与存储在语言确定结果临时存储区域中的所确定的语言相对应的词素串，并通过组ID确定模块707将构成该词素串的词素转换为组ID。接下来，CPU 402将词素串存储在词素串存储区域中，并且将组ID存储在组ID存储区域中(步骤S1203)。

接下来，CPU 402从图7B中的组ID列表711、722和713以及图7C中的组ID列表721、722和723中获得构成上述词素串的各词素的语言确定例外标志。CPU 402确定语言确定例外标志为“是”的词素是确定例外词素(无法指定语言词信息)。CPU 402确定构成词素串的所有词素是否都是确定例外词素(步骤S1204)。

作为步骤S1204中的确定的结果，当至少一个词素不是确定例外词素时，CPU 402将存储在语言确定结果临时存储区域中的语言确定结果存储到语言确定结果存储区域中(步骤S1205)。存储在语言确定结果临时存储区域中的语言确定结果是在步骤S1101的语音识别处理中获得的音频数据的语言确定结果。之后，语言确定处理结束。

作为步骤S1204中的确定的结果，当所有词素都是确定例外词素时，CPU 402将示出无法进行语言确定的“未知”存储到语言确定结果存储区域中(步骤S1206)。之后，语言确定处理结束。

图13是示出当在图11的步骤S1101中将第二语音识别方法用于文本数据的转换时，在步骤S1102中执行的第二语言确定处理的过程的流程图。

如图13所示，CPU 402清除作为RAM 403的存储区域的一部分的临时存储区域(步骤S1301)。临时存储区用于第二语言确定处理，并且包括日语语音识别数据存储区域、英语语音识别数据存储区域、日语词素串存储区域、日语组ID存储区域、英语词素串存储区域、英语组ID存储区域、语言确定结果存储区域和组ID存储区域。

接下来，CPU 402将包括语言设置“日语”的语音识别数据(以下称为“日语语音识别数据”)存储到日语语音识别数据存储区域中。日语语音识别数据包括由于语音识别模块705将语音识别处理应用于日语的音频数据而获得的文本数据(步骤S1302)。此外，CPU 402将包括语言设置“英语”的语音识别数据(以下称为“英语语音识别数据”)存储到英语语音识别数据存储区域中。英语语音识别数据包括由于语音识别模块705将语音识别处理应用于英语的音频数据而获得的文本数据(步骤S1302)。

接下来，CPU 402通过形态分析模块706分析日语语音识别数据中包括的文本数据，以提取与日语相对应的词素串，并通过组ID确定模块707将构成该词素串的词素转换为组ID。CPU 402将词素串(以下称为“日语词素串”)存储在日语词素串存储区域中，并且将组ID(以下称为“日语组ID”)存储在日语组ID存储区域中(步骤S1303)。

接下来，CPU 402通过形态分析模块706分析英语语音识别数据中包括的文本数据，以提取与英语相对应的词素串，并通过组ID确定模块707将构成该词素串的词素转换为组ID。CPU 402将词素串(以下称为“英语词素串”)存储在英语词素串存储区域中，并且将组ID(以下称为“英语组ID”)存储在英语组ID存储区域中(步骤S1304)。

接下来，CPU 402确定日语组ID存储区域是否为空(步骤S1305)。在步骤S1305中，当日语组ID存储区域中没有存储组ID时，CPU 402确定日语组ID存储区域为空。同时，当至少一个组ID被存储在日语组ID存储区域中时，CPU 402确定日语组ID存储区域不为空。

作为步骤S1305中的确定的结果，当日语组ID存储区域不为空时，CPU 402从图7B的组ID列表711、712和713中获得构成日语词素串的词素的语言确定例外标志。CPU 402确定构成日语词素串的所有词素是否都是确定例外词素(步骤S1306)。

作为步骤S1306中的确定的结果，当构成日语词素串的至少一个词素不是确定例外词素时，CPU 402将日语组ID存储区域中存储的组ID存储到组ID存储区域(步骤S1307)。应当注意，存储在日语组ID存储区域中的组ID是日语组ID。接下来，CPU 402在语言确定结果存储区域中存储语言设置“日语”(步骤S1308)。之后，语言确定处理结束。

当作为步骤S1306中的确定结果、构成日语词素串的所有词素都是确定例外词素时，或者当作为步骤S1305中的确定结果、日语组ID存储区域为空时，CPU 402确定英语组ID存储区域是否为空(步骤S1309)。

作为步骤S1309中的确定的结果，当英语组ID存储区域不为空时，CPU 402从图7C的组ID列表721、722和723中获得构成英语词素串的词素的语言确定例外标志。CPU 402确定构成英语词素串的所有词素是否都是确定例外词素(步骤S1310)。

作为步骤S1310中的确定的结果，当构成英语词素串的至少一个词素不是确定例外词素时，CPU 402将英语组ID存储区域中存储的组ID存储到组ID存储区域(步骤S1311)。应当注意，存储在英语组ID存储区域中的组ID是英语组ID。接下来，CPU 402在语言确定结果存储区域中存储语言设置“英语”(步骤S1312)。之后，语言确定处理结束。

当作为步骤S1310中的确定结果构成英语词素串的所有词素都是确定例外词素时，或者当作为步骤S1309中的确定结果英语组ID存储区域为空时，CPU 402将示出不可能进行语言确定的“未知”存储在语言确定结果存储区域中(步骤S1313)。之后，语言确定处理结束。在该实施例中，当用户说出的短语仅由如图30所示的确定例外词素(诸如“kopi”、“复印”、“kopisetteingu”和“复印设置”)组成时，以这种方式将“未知”存储在语言确定结果存储区域中。此外，当用户说出包括除确定例外词素之外(除无法指定语言词信息之外)的词素的短语(诸如“yonbukopishite”、“noudosetteiyon”、“四份”和“设置浓度4”)时，将“英语”或“日语”存储在语言确定结果存储区域中。

图14是示出图11中的步骤S1103的操作确定处理的过程的流程图。

如图14所示，CPU 402确定是否仅将指定作业类型的一个组ID(以下称为“作业类型指定组ID”)存储在RAM 403的组ID存储区域中(步骤S1401)。作业类型指定组ID例如是与作业类型“COPY”相对应的“FNC00001”和与作业类型“EMAILSEND”相对应的“FNC00004”。

作为步骤S1401中的确定的结果，当仅将一个作业类型指定组ID存储在组ID存储区域中时，CPU 402确定指定“设置”的组ID(以下称为“设置指定组ID”)是否存储在组ID存储区域中(步骤S1402)。设置指定组ID例如是与“设置”相对应的“FNC00003”。

作为步骤S1402中的确定的结果，当将设置指定组ID存储在组ID存储区域中时，CPU 402将示出用户的功能调用指令的类型为“设置”的“作业设置”作为操作信息存储到RAM 403中(步骤S1403)，并且操作确定处理结束。

作为步骤S1402中的确定的结果，当在组ID存储区域中没有存储设置指定组ID时，CPU 402将示出用户的功能调用指令的类型为“作业的执行”的“作业执行”作为操作信息存储到RAM 403中(步骤S1404)，并且操作确定处理结束。

作为步骤S1401中的确定的结果，当在组ID存储区域中存储了多个作业类型指定组ID时，或者当在组ID存储区域中没有存储作业类型指定组ID时，CPU 402将示出用户的功能调用指令的类型未知的“未知”作为操作信息存储到RAM 403中(步骤S1405)，并且操作确定处理结束。

图15是示出图11中的步骤S1105的作业执行处理的过程的流程图。

如图15所示，CPU 402确定在RAM 403的组ID存储区域中必要作业设置组ID是否完整(步骤S1501)。必要作业设置组ID是与用户必须设置以执行作业的设置相对应的组ID。例如，作业类型“EMAILSEND”的必要作业设置组ID是示出目的地的“CNF00004”。必要作业设置组ID根据作业类型而不同。存在没有必要作业设置组ID的作业类型，并且存在具有多个必要作业设置组ID的作业类型。

作为步骤S1501中的确定的结果，当在组ID存储区域中必要作业设置组ID完整时，CPU 402执行后述图16的作业信息生成处理(步骤S1502)，以生成语言设置作业信息，该语言设置作业信息是用于通过MFP101执行作业的设备操作数据。接下来，CPU 402将相关语言设置作业信息通过网络I/F 406发送到MFP 101(步骤S1503)。接下来，CPU 402确定是否从MFP 101接收到作业执行结束通知(步骤S1504)。在该实施例中，当完成作业或由于发生错误而暂停作业时，MFP 101将包括指示这种作业结束状态的信息的作业执行结束通知发送到云服务器103。CPU402等待直到从MFP 101接收到作业执行结束通知。当从MFP 101接收到作业执行结束通知时(步骤S1504中为“是”)，CPU 402生成作为与接收到的作业执行结束通知相对应的文本消息的作业结束音频消息(步骤S1505)。在步骤S1505中，例如生成作为正常结束时的消息的“作业已完成”或作为在MFP 101中发生卡纸或错误时的消息的“由于错误而结束”。

接下来，CPU 402将相关作业结束音频消息存储在RAM 403中的音频消息存储区域中。接下来，CPU 402通过网络I/F 406将存储在音频消息存储区域中的音频消息发送到智能扬声器102(步骤S1506)并结束作业执行处理。

作为步骤S1501中的确定的结果，当在组ID存储区域中必要作业设置组ID不完整时，CPU 402生成作业设置指导音频消息(步骤S1507)。作业设置指导音频消息是用于促使输入执行作业所需的设置的文本消息。例如，当在用户指定了“EMAILSEND”的状态下未指定目的地时，生成作业设置指导音频消息“请输入发送目的地”。CPU 402将所生成的作业设置指导音频消息存储在音频消息存储区域中，并执行步骤S1506的处理。

图16是示出图15中的步骤S1502的作业信息生成处理的过程的流程图。

如图16所示，CPU 402清除RAM 403上的用于作业信息生成处理的临时存储区域(步骤S1601)。该临时存储区域包括语言确定字符串存储区域、作业字符串存储区域和作业设置字符串存储区域。接下来，CPU402将语言设置参数化(步骤S1602)。具体地，CPU 402生成与存储在RAM 403中的语言确定结果存储区域中的语言确定结果相对应的参数字符串。例如，当在语言确定结果存储区域中存储“日语”作为语言确定结果时，如图17所示，CPU402生成示出语言设置为日语的字符串{“language”：“Japanese”}，并将相关字符串存储在语言确定字符串存储区域中。此外，当在语言确定结果存储区域中存储“英语”作为语言确定结果时，如图18所示，CPU 402生成示出语言设置为英语的字符串{“language”：“English”}，并将相关字符串存储在语言确定字符串存储区域中。

接下来，CPU 402将作业类型参数化(步骤S1603)。具体地，CPU 402从RAM 403中的组ID存储区域中提取作业类型指定组ID，并生成与相关作业类型指定组ID相对应的参数字符串。例如，如图17或图18所示，当“NUM00004”、“CNF00001”和“FNC00001”存储在组ID存储区域中时，CPU 402从中提取作为作业类型指定组ID的“FNC00001”，并生成字符串{“jobName”：“copy”}作为与“FNC00001”相对应的参数字符串。CPU 402将所生成的字符串存储在作业字符串存储区域中。

接下来，CPU 402从组ID存储区域的头地址依次确定所存储的组ID是否是设置指定组ID(步骤S1604)。

作为步骤S1604中的确定的结果，当所存储的组ID是设置指定组ID时，CPU 402将作业设置参数化(步骤S1605)。具体地，CPU 402生成与被确定为设置指定组ID的组ID相对应的字符串，并将相关字符串存储在RAM 403中的作业设置字符串存储区域中。之后，作业信息生成处理返回到步骤S1604。以此方式，在本实施例中，生成与存储在组ID存储区域中的设置指定组ID相对应的字符串。例如，当“NUM00004”、“CNF00001”和“FNC00001”存储在组ID存储区域中时，如图17和图18所示，CPU 402生成“copies”作为与作为设置指定组ID的“CNF00001”相对应的字符串。此外，如图17或图18所示，CPU 402生成“4”作为与作为设置指定组ID的“NUM00004”相对应的字符串。CPU 402将这些生成的字符串存储在作业设置字符串存储区域中。

作为步骤S1604中的确定的结果，当所存储的组ID不是设置指定组ID时，CPU 402确定是否已经对存储在组ID存储区域中的所有组ID进行了步骤S1604的确定(步骤S1606)。

作为步骤S1606中的确定的结果，当未对存储在组ID存储区域中的所有组ID进行了步骤S1604的确定时，作业信息生成处理返回到步骤S1604。作为步骤S1606中的确定的结果，当已经对存储在组ID存储区域中的所有组ID进行了步骤S1604的确定时，CPU 402基于存储在语言确定字符串存储区域、作业字符串存储区域和作业设置字符串存储区域中的字符串，来生成作为用于指示MFP 101执行作业的设备操作数据的语言设置作业信息(步骤S1607)。语言设置作业信息例如是如图8所示的JSON格式的数据。语言设置作业信息的数据格式不限于JSON格式。数据格式可以是如XML格式的其他格式。之后，作业信息生成处理结束。

图19是示出由从云服务器103接收语言设置作业信息的MFP 101执行的语言设置切换处理的流程图。因为MFP 101的CPU 202运行从ROM204展开到RAM 203的控制程序，所以实现了图19的语言设置切换处理。

如图19所示，CPU 202通过数据分析模块502从接收到的语言设置作业信息中获得语言设置，并确定所获得的语言设置是否为“未知”(步骤S1901)。

作为步骤S1901中的确定的结果，当所获得的语言设置为“未知”时，语言设置切换处理进入后述的步骤S1903。作为步骤S1901中的确定的结果，当所获得的语言设置不是“未知”时，CPU 202更新操作面板209的显示语言(步骤S1902)。具体地，CPU 202将所获得的语言设置存储在存储单元205中的MFP语言设置存储区域中。接下来，CPU 202从接收到的语言设置作业信息中获得作业类型和作业设置。CPU 202生成与所获得的作业类型相对应的作业主要信息(步骤S1903)，并将相关作业主要信息存储在RAM 203中。此外，CPU 202将与所获得的作业设置相对应的参数设置为上述作业主要信息。

接下来，CPU 202确定作业是否可执行(步骤S1904)。在步骤S1904中，例如，当MFP101由于执行其他作业或发生错误而不能执行新作业时，CPU 202确定作业不可执行。同时，当MFP 101可以执行新作业时，CPU 202确定作业可执行。

作为步骤S1904中的确定的结果，当作业不可执行时，语言设置切换处理进入后述的步骤S1907。作为步骤S1904中的确定的结果，当作业可执行时，CPU 202通过数据发送/接收模块501通过网络104将作业执行开始通知发送到云服务器103(步骤S1905)。接下来，CPU202基于在步骤S1903中生成的作业主要信息来执行作业(步骤S1906)。接下来，CPU 202通过数据发送/接收模块501通过网络104将作业执行结束通知发送到云服务器103(步骤S1907)。作业执行结束通知包括作业执行结果。例如，当在步骤S1906中执行的作业正常完成时，作业执行结束通知包括示出作业已正常完成的作业执行结果。另外，在步骤S1904中确定作业不可执行时，或者在步骤S1906中执行的作业由于卡纸等而异常结束时，作业执行结束通知包括示出错误的作业执行结果。云服务器103生成与包括在所接收的作业执行结束通知中的作业执行结果相对应的音频消息。在CPU 202执行步骤S1907的处理之后，语言设置切换处理结束。

图20是示出当通过语音输入指示执行复印作业时MFP 101的操作面板209的画面转变的图。

当在如图20所示在操作面板209上显示主画面2001的状态下MFP101从云服务器103接收到包括{“language”：“Japanese”}、{“operation”：“jobStart”}和{“jobName”：“copy”}的语言设置作业信息时，MFP 101将语言设置设置为日语，并开始执行复印作业。当在语言设置被设置为日语的状态下执行复印作业时，在操作面板209上显示其显示语言为日语的复印画面2002。

此外，当在操作面板209上显示主画面2001的状态下MFP 101从云服务器103接收到包括{“language”：“English”}、{“operation”：“jobStart”}和{“jobName”：“copy”}的语言设置作业信息时，MFP 101将语言设置设置为英语，并开始执行复印作业。当在语言设置被设置为英语的状态下执行复印作业时，在操作面板209上显示其显示语言为英语的复印画面2003。

图21是示出当通过语音输入指示执行EMAILSEND作业时MFP 101的操作面板209的画面转变的图。

当在如图21所示在操作面板209上显示主画面2001的状态下MFP101从云服务器103接收到包括{“language”：“Japanese”}、{“operation”：“jobStart”}和{“jobName”：“emailSend”}的语言设置作业信息时，MFP101将语言设置设置为日语，并开始执行EMAILSEND作业。当在语言设置被设置为日语的状态下执行EMAILSEND作业时，在操作面板209上显示其显示语言为日语的扫描画面2101。

此外，当在操作面板209上显示主画面2001的状态下MFP 101从云服务器103接收到包括{“language”：“English”}、{“operation”：“jobStart”}和{“jobName”：“emailSend”}的语言设置作业信息时，MFP 101将语言设置设置为英语，并开始执行EMAILSEND作业。当在语言设置被设置为英语的状态下执行EMAILSEND作业时，在操作面板209上显示其显示语言为英语的扫描画面2102。尽管在本实施例中将主画面2001描述为作业可执行画面的一个示例，但是作业可执行画面不限于主画面2001。此外，当MFP 101在省电模式下从云服务器103接收语言设置作业信息时，MFP 101可以如上所述基于接收到的语言设置作业信息来设置语言设置，并且可以执行作业，在省电模式下，不显示作业可执行画面并且操作面板209和打印引擎211的电源关闭。

图22是示出当图1的图像形成系统100通过语音输入接收作业设置改变指令时执行的处理的过程的序列图。应当注意，在图22中，与关于图10的描述一样，智能扬声器102、MFP 101和云服务器103应可相互通信。此外，图22的处理假设在MFP 101的操作面板209上显示图28中的主画面2801，在主画面2801上，可以调用诸如复印、扫描和打印的功能。

在图22中的步骤S2201中，与步骤S1001一样，用户向智能扬声器102给出指令以开始语音操作。

当检测到语音操作的开始指令时，与步骤S1002一样，智能扬声器102中的音频控制模块600的显示模块606在步骤S2202中，使LED 312点亮，作为示出处于话语处理状态的通知。此外，开始语音获得模块604的处理。

在步骤S2203中，用户对智能扬声器102进行功能调用指令。例如，用户说出作为作业设置改变指令的诸如“kopinoudosetteiyon”或“设置复印浓度4”的短语，作为在步骤S2201中检测到的唤醒词之后的功能调用指令。基于由语音获得模块604获得的用户语音来生成音频数据。当持续预定时段的暂停时段时，话语结束确定模块608确定话语结束。

在步骤S2204中，与步骤S1004相同，音频控制模块600的显示模块606根据话语结束确定，来使LED 312闪烁作为指示处于响应处理状态的通知。此外，语音获得模块604的处理完成。在步骤S2205中，与步骤S1005相同，数据发送/接收模块601将所生成的音频数据发送到云服务器103。

在步骤S2206中，云服务器103中的音频数据转换控制模块700执行上述图11的语音操作服务执行处理。在语音操作服务执行处理中，例如，后述语言设置作业信息被发送到MFP 101。

在步骤S2207中，MFP 101中的设备控制模块500基于从云服务器103接收到的作业设置信息，执行后述图19的语言设置切换处理。

在步骤S2208中，智能扬声器102中的数据发送/接收模块601从云服务器103接收音频消息。在接下来的步骤S2209中，音频再现模块605再现从在步骤S2208中接收到的音频消息转换的合成音频数据。例如，音频再现模块605通过扩音器310再现合成音频数据“将开始浓度设置”。

在步骤S2210中，数据发送/接收模块601从云服务器103接收与在步骤S2208中接收到的音频消息不同的音频消息。此外，数据发送/接收模块601从云服务器103接收交互会话结束通知，该通知结束与用户的交互会话。

在步骤S2211中，音频再现模块605再现从在步骤S2210中接收到的音频消息转换的合成音频数据。例如，音频再现模块605通过扩音器310再现合成音频数据“浓度设置已经结束”。

在步骤S2212中，显示模块606响应于数据发送/接收模块601在步骤S2210中接收到交互会话结束通知而使LED 312熄灭，作为示出智能扬声器102处于待机状态的通知。

在步骤S2213中，响应于数据发送/接收模块601在步骤S2210中接收到交互会话结束通知，音频控制模块600将智能扬声器102转变为待机状态。

图23是示出图11中的步骤S1107的作业设置处理的过程的流程图。当云服务器103从智能扬声器102接收到基于作为作业设置改变指令的用户语音而生成的音频数据时，执行图23的作业设置处理。

如图23所示，CPU 402通过执行后述图24的作业设置信息生成处理，来生成包括当MFP 101执行作业时使用的设置值的语言设置作业信息(步骤S2301)。接下来，CPU 402通过网络I/F 406将相关语言设置作业信息发送到MFP 101(步骤S2302)。接下来，CPU 402确定是否从MFP101接收到作业设置结束通知(步骤S2303)。在该实施例中，当作业设置正常完成或由于错误的发生而暂停作业设置时，MFP 101将包括指示该作业设置结束状态的信息的作业设置结束通知发送到云服务器103。CPU 402等待直到从MFP 101接收到作业设置结束通知为止。当从MFP101接收到作业设置结束通知时(步骤S2303中为“是”)，CPU 402生成作为与接收到的作业设置结束通知相对应的文本消息的作业设置结束音频消息(步骤S2304)。在步骤S2304中，例如，CPU 402生成作为正常结束时的消息的“作业设置已完成”或作为在MFP 101中发生卡纸或错误时的消息的“无法进行作业设置”。

接下来，CPU 402将作业设置结束音频消息存储在RAM 403中的音频消息存储区域中。接下来，CPU 402通过网络I/F 406将存储在音频消息存储区域中的音频消息发送至智能扬声器102(步骤S2305)并结束作业设置处理。

图24是示出图23中的步骤S2301的作业设置信息生成处理的过程的流程图。

如图24所示，CPU 402清除RAM 403上的用于作业设置信息生成处理的临时存储区域(步骤S2401)。该临时存储区域包括语言确定字符串存储区域、作业字符串存储区域和作业设置字符串存储区域。接下来，CPU 402将语言设置参数化(步骤S2402)。具体地，CPU 402生成与存储在RAM 403中的语言确定结果存储区域中的语言确定结果相对应的参数字符串。例如，当在语言确定结果存储区域中存储“日语”作为语言确定结果时，如图25所示，CPU402生成示出语言设置为日语的字符串{“language”：“Japanese”}，并将相关字符串存储在语言确定字符串存储区域中。此外，当在语言确定结果存储区域中存储“英语”作为语言确定结果时，如图26所示，CPU 402生成示出语言设置为英语的字符串{“language”：“English”}，并将相关字符串存储在语言确定字符串存储区域中。

接下来，CPU 402将作业类型参数化(步骤S2403)。具体地，CPU 402从RAM 403中的组ID存储区域中提取作业类型指定组ID，并生成与相关作业类型指定组ID相对应的参数字符串。例如，如图25或图26所示，当“FNC00001”、“NUM00004”、“CNF00002”和“FNC00003”存储在组ID存储区域中时，CPU 402从中提取作为作业类型指定组ID的“FNC00001”，并生成字符串{“jobName”：“copy”}作为与“FNC00001”相对应的参数字符串。CPU 402将所生成的字符串存储在作业字符串存储区域中。

接下来，CPU 402从组ID存储区域的头地址依次确定所存储的组ID是否是设置指定组ID(步骤S2404)。

作为步骤S2404中的确定的结果，当所存储的组ID是设置指定组ID时，CPU 402将作业设置参数化(步骤S2405)。具体地，CPU 402生成与被确定为设置指定组ID的组ID相对应的字符串，并将相关字符串存储在RAM 403中的作业设置字符串存储区域中。之后，作业设置信息生成处理返回到步骤S2404。以此方式，在本实施例中，生成与存储在组ID存储区域中的设置指定组ID相对应的字符串。例如，当“FNC00001”、“NUM00004”、“CNF00002”和“FNC00003”存储在组ID存储区域中时，如图25和图26所示，CPU 402生成“density”作为与作为设置指定组ID的“CNF00002”相对应的字符串。此外，如图25或图26所示，CPU 402生成“4”作为与作为设置指定组ID的“NUM00004”相对应的字符串。CPU 402将这些生成的字符串存储在作业设置字符串存储区域中。

作为步骤S2404中的确定的结果，当所存储的组ID不是设置指定组ID时，CPU 402确定是否已经对存储在组ID存储区域中的所有组ID进行了步骤S2404的确定(步骤S2406)。

作为步骤S2406中的确定的结果，当未对存储在组ID存储区域中的所有组ID进行步骤S2404的确定时，作业设置信息生成处理返回到步骤S2404。作为步骤S2406中的确定的结果，当已经对存储在组ID存储区域中的所有组ID进行了步骤S2404的确定时，CPU 402基于存储在语言确定字符串存储区域、作业字符串存储区域和作业设置字符串存储区域中的字符串，来生成作为用于指示MFP 101执行作业的设备操作数据的语言设置作业信息(步骤S2407)。语言设置作业信息例如是如图9所示的JSON格式的数据。语言设置作业信息的数据格式不限于JSON格式。数据格式可以是如XML格式的其他格式。

图27是示出由从云服务器103接收语言设置作业信息的MFP 101执行的语言设置切换处理的流程图。因为MFP 101的CPU 202运行从ROM204展开到RAM 203的控制程序，所以实现了图27的语言设置切换处理。

如图27所示，CPU 202通过数据分析模块502从接收到的语言设置作业信息中获得语言设置，并确定所获得的语言设置是否为“未知”(步骤S2701)。

作为步骤S2701中的确定的结果，当所获得的语言设置为“未知”时，语言设置切换处理进入后述的步骤S2703。作为步骤S2701中的确定的结果，当所获得的语言设置不是“未知”时，CPU 202更新操作面板209的显示语言(步骤S2702)。具体地，CPU 202将所获得的语言设置存储在存储单元205中的MFP语言设置存储区域中。接下来，CPU 202从接收到的语言设置作业信息中获得作业类型和作业设置。CPU 202生成与所获得的作业类型相对应的作业主要信息(步骤S2703)，并将相关作业主要信息存储在RAM 203中。此外，CPU 202将与所获得的作业设置相对应的参数设置为上述作业主要信息。

接下来，CPU 202确定是否可以将操作面板209的画面转变为作业设置画面(步骤S2704)。用户可以在作业设置画面上设置执行作业所需的设置值。在步骤S2704中，例如当由于MFP 101正在执行其他作业或引起错误而无法转变操作面板209的画面时，CPU 202确定无法将操作面板209的画面转变为作业设置画面。同时，当可以转变操作面板209的画面时，CPU 202确定可以将操作面板209的画面转变为作业设置画面。

作为步骤S2704中的确定的结果，当无法将操作面板209的画面转变为作业设置画面时，语言设置切换处理进入后述的步骤S2706。作为步骤S2704中的确定的结果，当可以将操作面板209的画面转变为作业设置画面时，在操作面板209上显示作业设置画面(步骤S2705)。接下来，CPU 202通过数据发送/接收模块501通过网络104将作业设置结束通知发送到云服务器103(步骤S2706)。作业设置结束通知包括作业设置结果。例如，当画面转变正常完成时，作业设置结束通知包括示出画面转变正常完成的作业设置结果。此外，当在步骤S2704中确定无法将操作面板209的画面转变为作业设置画面时，作业设置结束通知包括指示错误的作业设置结果。在CPU 202执行步骤S2706的处理之后，语言设置切换处理结束。

图28是示出当通过用户的语音输入复印作业的设置时MFP 101的操作面板209的画面转变的图。

如图28所示，当在操作面板209上显示主画面2801的状态下MFP101从云服务器103接收到包括{“language”：“Japanese”}、{“operation”：“jobSetting”}和{“jobName”：“copy”}的语言设置作业信息时，MFP 101将语言设置设置为日语。在操作面板209上显示其显示语言为日语的复印设置画面2802。此后，当用户从智能扬声器102或操作面板209给出作业执行指令时，作业控制模块503执行复印作业，并且在操作面板209上显示其显示语言为日语的复印执行画面2803。

此外，当在操作面板209上显示主画面2801的状态下MFP 101从云服务器103接收到包括{“language”：“English”}、{“operation”：“jobSetting”}和{“jobName”：“copy”}的语言设置作业信息时，MFP 101将语言设置设置为英语。在操作面板209上显示其显示语言为英语的复印设置画面2804。此后，当用户从智能扬声器102或操作面板209给出作业执行指令时，作业控制模块503执行复印作业，并且在操作面板209上显示其显示语言为英语的复印执行画面2805。

图29是示出当通过用户的语音输入EMAIL SEND作业的设置时MFP 101的操作面板209的画面转变的图。

如图29所示，当在操作面板209上显示主画面2801的状态下MFP101从云服务器103接收到包括{“language”：“Japanese”}、{“operation”：“jobSetting”}和{“jobName”：“emailSend”}的语言设置作业信息时，MFP 101将语言设置设置为日语。在操作面板209上显示其显示语言为日语的扫描设置画面2901。此后，当用户从智能扬声器102或操作面板209给出作业执行指令时，作业控制模块503执行EMAILSEND作业，并且在操作面板209上显示其显示语言为日语的扫描画面2902。

此外，当在操作面板209上显示主画面2801的状态下MFP 101从云服务器103接收到包括{“language”：“English”}、{“operation”：“jobSetting”}和{“jobName”：“emailSend”}的语言设置作业信息时，MFP 101将语言设置设置为英语。在操作面板209上显示其显示语言为英语的扫描设置画面2903。此后，当用户从智能扬声器102或操作面板209给出作业执行指令时，作业控制模块503执行EMAILSEND作业，并且在操作面板209上显示其显示语言为英语的扫描画面2904。

根据上述实施例，基于智能扬声器102获得的短语来获得由多个词素组成的词素串，使用相关词素串来指定语言，并基于指定的语言来更新操作面板209的显示语言。即，将操作面板209的显示语言改变为用户的使用语言，而无需在每次用户开始使用MFP 101时，给出关于操作面板的显示语言的设置操作。这可以减少用户设置显示语言的时间和精力。

此外，在上述实施例中，云服务器103基于智能扬声器102获得的用户语音来获得词素串。因此，云服务器103可以使用所获得的词素串迅速执行处理以指定语言。

在上述实施例中，当在词素串中包括确定例外词素时，使用词素串中的除了确定例外词素之外的词素来指定语言。由此，提高了指定语言的准确性。

尽管使用上述实施例描述了本发明，但是本发明不限于上述实施例。例如，当MFP101配设有麦克风308时，MFP 101可以将基于利用麦克风308获得的用户语音而生成的音频数据发送到云服务器103。

MFP 101可以被构造为可在不具有操作面板209的情况下连接到其他外部显示设备。

此外，当外部显示设备配设有麦克风308时，外部显示设备可以将基于利用麦克风308获得的用户语音而生成的音频数据发送到云服务器103。

此外，当在不具有操作面板209的情况下可连接至外部显示设备的MFP 101配设有麦克风308时，MFP 101可以将基于利用麦克风308获得的用户语音而生成的音频数据发送至云服务器103。

MFP 101可以基于利用MFP 101的麦克风308获得的用户语音而生成的音频数据、或从智能扬声器102获得的音频数据，来获得词素串，并且可以将所获得的词素串发送至云服务器103。这可以分散云服务器103上的执行获得词素串的处理所需的负荷。

当在基于所获得的短语而获得的词素串中仅包括确定例外词素时，可以基于使用从其他短语获得的词素串指定的语言来更新操作面板209的显示语言，该其他短语是智能扬声器102在获得先前短语之后获得的。例如，即使由于用户说出的短语仅由诸如“kopi”的确定例外词素组成而无法进行语言确定，当用户说出包括除确定例外词素以外的词素的短语(诸如“sanbukopishite”)并将语言指定为日语时，操作面板209的显示语言也将改变为日语。从而，可以在交互会话期间在指定语言的定时切换显示语言，而无需用户设置显示语言。

其他实施例

还可以通过读出并执行记录在存储介质(也可更完整地称为“非临时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制所述一个或更多个电路执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。所述计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)，微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)TM)、闪存设备以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构和功能。

本申请要求2020年5月13日提交的日本专利申请第2020-084478号的优先权，该申请的全部内容通过引用并入本文。

57页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：图像形成装置以及文档数据分类方法

图像形成系统、其控制方法以及存储介质

相关技术

网友询问留言