歌唱合成方法及歌唱合成系统

文档序号：1581050 发布日期：2020-01-31 浏览：27次 >En<

阅读说明：本技术 歌唱合成方法及歌唱合成系统 (Singing synthesis method and singing synthesis system ) 是由仓光大树奈良颂子宫木强椎原浩雅山内健一山中晋于 2018-06-14 设计创作，主要内容包括：本发明提供一种歌唱合成方法,该歌唱合成方法具有下述步骤：对歌唱合成的触发进行检测的步骤；从将在歌唱合成时使用的参数与用户相关联地记录的表(5161)读出与输入了所述触发的用户相对应的参数的步骤；以及使用读出的所述参数而合成歌唱的步骤。(The present invention provides singing synthesis methods, which comprises a step of detecting a trigger of singing synthesis, a step of reading out a parameter corresponding to a user who has input the trigger from a table (5161) in which parameters used in singing synthesis are recorded in association with the user, and a step of synthesizing singing using the read-out parameters.)

歌唱合成方法及歌唱合成系统

技术领域

本发明涉及对用户输出包含歌唱的语音的技术。

背景技术

存在自动地生成包含旋律及歌词的乐曲的技术。专利文献1是如下技术，即，基于在素材数据中附带的附加数据而选择素材，使用选择出的素材而合成乐曲。另外，专利文献2是如下技术，即，从歌词信息对反映出乐曲创作者所希望传递的消息的重要的语句进行提取。

专利文献1：日本特开2006－84749号公报

专利文献2：日本特开2012－88402号公报

发明内容

近年，提出了针对用户的输入语音，通过语音进行响应的“语音辅助”。本发明是使用与用户相对应的参数而自动地进行歌唱合成的技术，通过专利文献1及2的技术，无法实现如上所述的歌唱合成。

本发明通过一种歌唱合成方法，其具有下述步骤：对歌唱合成的触发进行检测的步骤；从将在歌唱合成时使用的参数与用户相关联地记录的表，读出与输入了所述触发的用户相对应的参数的步骤；以及使用读出的所述参数而合成歌唱的步骤。

在该歌唱合成方法中，可以是在所述表中，在所述歌唱合成时使用的参数与用户及感情相关联地记录，该歌唱合成方法具有对输入了所述触发的用户的感情进行推定的步骤，在从所述表读出所述参数的步骤中，读出与输入了所述触发的用户及该用户的感情相对应的参数。

可以是在对所述用户的感情进行推定的步骤中，对所述用户的语音进行分析，基于该分析的结果而推定所述用户的感情。

可以是对所述用户的感情进行推定的步骤至少包含下述处理：基于所述用户的语音的内容而推定感情的处理、或者基于所述用户的语音的音高、音量或速度的变化而推定感情的处理。

该歌唱合成方法可以具有下述步骤：取得在所述歌唱合成时使用的歌词的步骤；取得在所述歌唱合成时使用的旋律的步骤；以及基于所述歌词及所述旋律的一者而对另一者进行修正的步骤。

该歌唱合成方法可以具有下述步骤，即，从记录有从多个歌手取得的语音片段的多个数据库，对与所述触发相对应的一个数据库进行选择的步骤，在合成所述歌唱的步骤中，使用在所述一个数据库中记录的语音片段而合成歌唱。

该歌唱合成方法可以具有下述步骤，即，从记录有从多个歌手取得的语音片段的多个数据库，对与所述触发相对应的多个数据库进行选择的步骤，在合成所述歌唱的步骤中，使用将在所述多个数据库中记录的多个语音片段组合得到的语音片段而合成歌唱。

可以是在所述表中，在所述歌唱合成中使用的歌词与用户相关联地记录，在合成所述歌唱的步骤中，使用在所述表中记录的歌词而合成歌唱。

该歌唱合成方法可以具有从自多个源之中与所述触发相应地选择出的一个源取得歌词的步骤，在合成所述歌唱的步骤中，使用从选择出的所述一个源取得的歌词而合成歌唱。

该歌唱合成方法可以具有下述步骤：生成与所述合成的歌唱相对应的伴奏的步骤；以及将所述合成的歌唱及所述生成的伴奏同步地输出的步骤。

另外，本发明提供一种歌唱合成系统，其具有：检测部，其对歌唱合成的触发进行检测；读出部，其从将在歌唱合成时使用的参数与用户相关联地记录的表，读出与输入了所述触发的用户相对应的参数；以及合成部，其使用读出的所述参数而合成歌唱。

发明的效果

根据本发明，能够使用与用户相对应的参数而自动地进行歌唱合成。

附图说明

图1是表示一个实施方式所涉及的语音响应系统1的概要的图。

图2是例示语音响应系统1的功能的概要的图。

图3是例示输入输出装置10的硬件结构的图。

图4是例示响应引擎20及歌唱合成引擎30的硬件结构的图。

图5是例示学习功能51所涉及的功能结构的图。

图6是表示学习功能51所涉及的动作的概要的流程图。

图7是例示学习功能51所涉及的动作的时序图。

图8是例示分类表5161的图。

图9是例示歌唱合成功能52所涉及的功能结构的图。

图10是表示歌唱合成功能52所涉及的动作的概要的流程图。

图11是例示歌唱合成功能52所涉及的动作的时序图。

图12是例示响应功能53所涉及的功能结构的图。

图13是例示响应功能53所涉及的动作的流程图。

图14是表示语音响应系统1的动作例1的图。

图15是表示语音响应系统1的动作例2的图。

图16是表示语音响应系统1的动作例3的图。

图17是表示语音响应系统1的动作例4的图。

图18是表示语音响应系统1的动作例5的图。

图19是表示语音响应系统1的动作例6的图。

图20是表示语音响应系统1的动作例7的图。

图21是表示语音响应系统1的动作例8的图。

图22是表示语音响应系统1的动作例9的图。

具体实施方式

1.系统概要

图1是表示一个实施方式所涉及的语音响应系统1的概要的图。语音响应系统1是如果用户通过声音进行了输入(或指示)，则针对该声音而自动地输出通过语音发出的响应的系统，是所谓的AI(Artificial Intelligence)语音辅助。下面，将从用户输入至语音响应系统1的语音称为“输入语音”，将针对输入语音而从语音响应系统1输出的语音称为“响应语音”。语音响应包含歌唱。语音响应系统1是歌唱合成系统的一个例子。例如，如果用户对语音响应系统1而说了“唱首歌”，则语音响应系统1自动地合成歌唱，对合成的歌唱进行输出。

语音响应系统1包含：输入输出装置10、响应引擎20及歌唱合成引擎30。输入输出装置10是提供人机接口的装置，是接收来自用户的输入语音，输出针对该输入语音的响应语音的装置。响应引擎20对由输入输出装置10接收到的输入语音进行分析，生成响应语音。该响应语音的至少一部分包含歌唱语音。歌唱合成引擎30合成在响应语音中使用的歌唱语音。

图2是例示语音响应系统1的功能的概要的图。语音响应系统1具有：学习功能51、歌唱合成功能52及响应功能53。响应功能53是对用户的输入语音进行分析，基于分析结果而提供响应语音的功能，由输入输出装置10及响应引擎20提供。学习功能51是根据用户的输入语音而学习用户的嗜好的功能，由歌唱合成引擎30提供。歌唱合成功能52是对在响应语音中使用的歌唱语音进行合成的功能，由歌唱合成引擎30提供。学习功能51使用通过响应功能53得到的分析结果而学习用户的嗜好。歌唱合成功能52基于通过学习功能51进行的学习而合成歌唱语音。响应功能53使用通过歌唱合成功能52合成的歌唱语音而进行响应。

图3是例示输入输出装置10的硬件结构的图。输入输出装置10具有：传声器101、输入信号处理部102、输出信号处理部103、扬声器104、CPU(Central Processing Unit)105、传感器106、电动机107及网络IF 108。传声器101将用户的语音变换为电信号(输入音信号)。输入信号处理部102针对输入音信号进行模拟/数字变换等处理，输出表示输入语音的数据(以下称为“输入语音数据”)。输出信号处理部103针对表示响应语音的数据(以下称为“响应语音数据”)进行数字/模拟变换等处理，将输出音信号进行输出。扬声器104将输出音信号变换为声音(基于输出音信号而输出声音)。CPU105对输入输出装置10的其他要素进行控制，从存储器(省略图示)读出并执行程序。传感器106对用户的位置(从输入输出装置10观察到的用户的方向)进行检测，例如是红外线传感器或超声波传感器。电动机107使传声器101及扬声器104的至少一方的朝向变化，以使得朝向用户所处的方向。可以是传声器101由传声器阵列构成，CPU105基于由传声器阵列拾音到的声音而对用户所处的方向进行检测。网络IF 108是用于进行经由网络(例如互联网)的通信的接口，例如包含用于进行按照规定的无线通信标准(例如WiFi(注册商标))的通信的天线及芯片组。

图4是例示响应引擎20及歌唱合成引擎30的硬件结构的图。响应引擎20具有：CPU201、存储器202、储存器203及通信IF 204。CPU 201按照程序而进行各种运算，对计算机装置的其他要素进行控制。存储器202是作为由CPU 201执行程序时的工作区域起作用的主存储装置，例如包含RAM(Random Access Memory)。储存器203是对各种程序及数据进行存储的非易失性的辅助存储装置，例如包含HDD(Hard Disk Drive)或SSD(Solid StateDrive)。通信IF 204包含用于进行按照规定的通信标准(例如Ethernet)的通信的连接器及芯片组。储存器203存储有用于使计算机装置作为语音响应系统1中的响应引擎20起作用的程序(以下称为“响应程序”)。CPU 201执行响应程序，由此计算机装置作为响应引擎20起作用。响应引擎20例如是所谓的AI。

歌唱合成引擎30具有：CPU 301、存储器302、储存器303及通信IF 304。各要素的详细内容与响应引擎20相同。储存器303存储有用于使计算机装置作为语音响应系统1中的歌唱合成引擎30起作用的程序(以下称为“歌唱合成程序”)。CPU 301执行歌唱合成程序，由此计算机装置作为歌唱合成引擎30起作用。

响应引擎20及歌唱合成引擎30在互联网上，作为云服务而被提供。此外，响应引擎20及歌唱合成引擎30也可以是与云计算无关的服务。

2.学习功能

2－1.结构

图5是例示学习功能51所涉及的功能结构的图。作为学习功能51所涉及的功能要素，语音响应系统1具有：语音分析部511、感情推定部512、乐曲解析部513、歌词提取部514、嗜好分析部515、存储部516及处理部510。另外，输入输出装置10作为对用户的输入语音进行接收的接收部、及输出响应语音的输出部起作用。

语音分析部511对输入语音进行分析。该分析是从输入语音取得为了生成响应语音所使用的信息的处理，具体地说，包含下述处理：对输入语音进行文本化(即，变换为字符串)的处理、根据得到的文本对用户的请求进行判断的处理、对针对用户的请求而提供内容的内容提供部60进行确定的处理、针对确定出的内容提供部60进行指示的处理、从内容提供部60取得数据的处理、使用所取得的数据而生成响应的处理。在该例中，内容提供部60是语音响应系统1的外部系统。内容提供部60提供输出用于将乐曲等的内容作为声音而播放的数据(以下称为“乐曲数据”)的服务(例如，乐曲的流媒体服务或网络广播)，例如是语音响应系统1的外部服务器。

乐曲解析部513对从内容提供部60输出的乐曲数据进行解析。乐曲数据的解析是指提取乐曲的特征的处理。乐曲的特征包含：曲调、节拍、和弦进行、节奏及改编(arrange)的至少1个。在特征的提取中使用公知的技术。

歌词提取部514从由内容提供部60输出的乐曲数据提取歌词。在一个例子中，乐曲数据在音数据的基础上，还包含元数据(Metadata)。音数据是表示乐曲的信号波形的数据，例如包含PCM(Pulse Code Modulation脉冲编码调制)数据等非压缩数据、或MP3数据等压缩数据。元数据是包含与该乐曲相关的信息的数据，例如包含乐曲标题、实际演出者姓名、作曲者姓名、作词者姓名、专辑标题及音乐类型(Genre)等乐曲的属性、以及歌词等信息。歌词提取部514从乐曲数据所包含的元数据提取歌词。在乐曲数据不包含元数据的情况下，歌词提取部514针对音数据进行语音识别处理，从通过语音识别得到的文本提取歌词。

感情推定部512推定用户的感情。感情推定部512根据输入语音而推定用户的感情。在感情的推定中使用公知的技术。感情推定部512可以基于由语音响应系统1输出的语音中的(平均)音高和与其对应的用户的响应的音高的关系而推定用户的感情。感情推定部512也可以基于通过语音分析部511而文本化的输入语音、或分析后的用户的请求而推定用户的感情。

嗜好分析部515使用用户指示过播放的乐曲的播放履历、解析结果及歌词以及指示该乐曲的播放时的用户的感情中的至少1个，生成表示用户的嗜好的信息(以下称为“嗜好信息”)。嗜好分析部515使用生成的嗜好信息，对在存储部516中存储的分类表5161进行更新。分类表5161是记录有用户的嗜好的表(或数据库)，例如针对每个用户且针对每种感情而记录有乐曲的特征(例如，音色、曲调、节拍、和弦进行及节奏)、乐曲的属性(实际演出者姓名、作曲者姓名、作词者姓名及音乐类型)、及歌词。存储部516是从将在歌唱合成时使用的参数与用户相关联地记录的表，读出与输入了触发的用户相对应的参数的读出部的一个例子。在歌唱合成时使用的参数是在歌唱合成时被参照的数据，分类表5161是包含音色、曲调、节拍、和弦进行、节奏、实际演出者姓名、作曲者姓名、作词者姓名、音乐类型及歌词的概念。

2－2.动作

图6是表示学习功能51所涉及的语音响应系统1的动作的概要的流程图。在步骤S11中，语音响应系统1分析输入语音。在步骤S12中，语音响应系统1进行由输入语音所指示的处理。在步骤S13中，语音响应系统1对输入语音是否包含成为学习的对象的事项进行判断。在判断为输入语音包含成为学习的对象的事项的情况下(S13：YES)，语音响应系统1将处理转入步骤S14。在判断为输入语音不包含成为学习的对象的事项的情况下(S13：NO)，语音响应系统1将处理转入至步骤S18。在步骤S14中，语音响应系统1推定用户的感情。在步骤S15中，语音响应系统1对指示播放的乐曲进行解析。在步骤S16中，语音响应系统1取得指示播放的乐曲的歌词。在步骤S17中，语音响应系统1使用在步骤S14～S16中得到的信息，对分类表进行更新。

步骤S18及其以后的处理与学习功能51即分类表的更新没有直接关系，但包含使用分类表的处理。在步骤S18中，语音响应系统1生成与输入语音对应的响应语音。此时，根据需要而参照分类表。在步骤S19中，语音响应系统1输出响应语音。

图7是例示学习功能51所涉及的语音响应系统1的动作的时序图。用户在例如语音响应系统1的加入时或初次启动时，针对语音响应系统1进行用户登记。用户登记包含用户名(或登录ID)及口令的设定。在图7的时序的开始时刻，输入输出装置10启动，用户的登录处理完成。即，在语音响应系统1中，确定了正在使用输入输出装置10的用户。另外，输入输出装置10是等待接收用户的语音输入(发声)的状态。此外，语音响应系统1对用户进行确定的方法并不限定于登录处理。例如，语音响应系统1也可以基于输入语音而确定用户。

在步骤S101中，输入输出装置10接收输入语音。输入输出装置10将输入语音数据化，生成语音数据。语音数据包含表示输入语音的信号波形的音数据及头部(header)。在头部中包含表示输入语音的属性的信息。输入语音的属性例如包含：用于确定输入输出装置10的标识符、发出该语音的用户的用户标识符(例如，用户名或登录ID)及表示发出该语音的时刻的时间戳。在步骤S102中，输入输出装置10将表示输入语音的语音数据输出至语音分析部511。

在步骤S103中，语音分析部511使用语音数据而分析输入语音。在该分析中，语音分析部511对输入语音是否包含成为学习的对象的事项进行判断。成为学习的对象的事项称为对乐曲进行确定的事项，具体地说是乐曲的播放指示。

在步骤S104中，处理部510进行通过输入语音所指示的处理。处理部510进行的处理例如是乐曲的流播放。在该情况下，内容提供部60具有记录了多个乐曲数据的乐曲数据库。处理部510从乐曲数据库读出所指示的乐曲的乐曲数据。处理部510将读出的乐曲数据发送至输入语音的发送源的输入输出装置10。在其他例子中，处理部510进行的处理是网络广播的播放。在该情况下，内容提供部60进行广播语音的流播送。处理部510将从内容提供部60接收到的流数据发送至输入语音的发送源的输入输出装置10。

在步骤S103中判断为输入语音包含成为学习的对象的事项的情况下，处理部510进一步进行用于更新分类表的处理(步骤S105)。在用于更新分类表的处理中包含：针对感情推定部512的感情推定的请求(步骤S1051)、针对乐曲解析部513的乐曲解析的请求(步骤S1052)及针对歌词提取部514的歌词提取的请求(步骤S1053)。

如果请求感情推定，则感情推定部512推定用户的感情(步骤S106)，将表示推定出的感情的信息(以下称为“感情信息”)输出至作为请求源的处理部510(步骤S107)。感情推定部512使用输入语音而推定用户的感情。感情推定部512例如基于文本化的输入语音而推定感情。在一个例子中，表示感情的关键词被预先定义，在文本化的输入语音包含该关键词的情况下，感情推定部512判断为用户怀有该感情(例如，在含有“可恶”这一关键词的情况下，判断为用户的感情为“愤怒”)。在其他例子中，感情推定部512基于输入语音的音高、音量、速度或它们的时间变化而推定感情。在一个例子中，在输入语音的平均音高低于阈值的情况下，感情推定部512判断为用户的感情为“悲伤”。在其他例子中，感情推定部512也可以基于由语音响应系统1输出的语音中的(平均)音高和与其对应的用户的响应的音高的关系而推定用户的感情。具体地说，尽管由语音响应系统1输出的语音的音高为高，但在用户响应的语音的音高为低的情况下，感情推定部512也判断为用户的感情为“悲伤”。在另外的例子中，感情推定部512可以基于语音中的句尾的音高和与其对应的用户的响应的音高的关系而推定用户的感情。或者，感情推定部512也可以将这些多个要素复合地考虑而推定用户的感情。

在另外的例子中，感情推定部512也可以使用语音以外的输入而推定用户的感情。作为语音以外的输入，例如使用通过照相机拍摄到的用户的面部的影像、或通过温度传感器检测到的用户的体温、或者它们的组合。具体地说，感情推定部512根据用户的面部的表情对用户的感情是“快乐”、“愤怒”、“悲伤”的哪一个进行判断。另外，感情推定部512也可以在用户的面部的动态图像中，基于面部的表情的变化而判断用户的感情。或者，感情推定部512也可以是如果用户的体温高则判断为“愤怒”，如果用户的体温低则判断为“悲伤”。

如果请求乐曲解析，则乐曲解析部513对根据用户的指示而播放的乐曲进行解析(步骤S108)，将表示解析结果的信息(以下称为“乐曲信息”)输出至作为请求源的处理部510(步骤S109)。

如果请求歌词提取，则歌词提取部514取得根据用户的指示而播放的乐曲的歌词(步骤S110)，将表示所取得的歌词的信息(以下称为“歌词信息”)输出至作为请求源的处理部510(步骤S111)。

在步骤S112中，处理部510将从感情推定部512、乐曲解析部513及歌词提取部514分别取得的感情信息、乐曲信息及歌词信息的组输出至嗜好分析部515。

在步骤S113中，嗜好分析部515对多组信息进行分析，取得表示用户的嗜好的信息。由于该分析，嗜好分析部515在过去的某期间(例如，从系统的运转开始至当前时刻为止的期间)的范围将这些信息的组记录多个。在一个例子中，嗜好分析部515对乐曲信息进行统计处理，计算统计性的代表值(例如，平均值、最频繁出现值或中央值)。通过该统计处理，例如得到节奏的平均值以及音色、曲调、节拍、和弦进行、作曲者姓名、作词者姓名及实际演出者姓名的最频繁出现值。另外，嗜好分析部515使用词素解析等技术将通过歌词信息表示的歌词分解为单词级别，然后确定各单词的词类，关于特定的词类(例如名词)的单词而创建直方图，对登场频度处于规定的范围(例如上位5％)的单词进行确定。并且，嗜好分析部515从歌词信息提取出包含所确定的单词、相当于语法上的规定的分隔(例如，分、节或句)的单词组。例如，在“喜欢”这一词语的登场频度高的情况下，从歌词信息提取出包含该词语的“喜欢那样的你”、“因为非常喜欢”等单词组。它们的平均值、最频繁出现值及单词组是表示用户的嗜好的信息(参数)的一个例子。或者，嗜好分析部515也可以按照与单纯的统计处理不同的规定的算法对多组信息进行分析，得到表示用户的嗜好的信息。或者，嗜好分析部515也可以从用户接收反馈，根据反馈对这些参数的加权进行调整。在步骤S114中，嗜好分析部515使用通过步骤S113得到的信息对分类表5161进行更新。

图8是例示分类表5161的图。在该图中，示出用户名为“山田太郎”的用户的分类表5161。在分类表5161中，乐曲的特征、属性及歌词与用户的感情相关联地记录。如果参照分类表5161，则例如示出在用户“山田太郎”怀有“高兴”这一感情时，喜好将“恋”、“爱”及“love”这样的词语包含于歌词，节奏大约为60，具有“I→V→VIm→IIIm→IV→I→IV→V”这样的和弦进行，钢琴的音色为主的乐曲。根据本实施方式，能够自动地得到表示用户的嗜好的信息。记录于分类表5161的嗜好信息随着学习进行，即，随着语音响应系统1的累积使用时间增加而被累积，进一步反映出用户的嗜好。根据该例，能够自动地得到反映出用户的嗜好的信息。

此外，嗜好分析部515也可以在用户登记时或初次登录时等规定的定时设定分类表5161的初始值。在该情况下，语音响应系统1可以在系统上使用户对表示用户的角色(例如所谓的头像)进行选择，将具有与选择出的角色相对应的初始值的分类表5161设定为与该用户相对应的分类表。

在本实施方式中说明的分类表5161中所记录的数据为一个例子。例如，在分类表5161中可以不记录用户的感情，至少记录歌词即可。或者，在分类表5161可以不记录歌词，至少记录用户的感情和乐曲解析的结果即可。

3.歌唱合成功能

3－1.结构

图9是例示歌唱合成功能52所涉及的功能结构的图。作为歌唱合成功能52所涉及的功能要素，语音响应系统1具有：语音分析部511、感情推定部512、存储部516、检测部521、歌唱生成部522、伴奏生成部523及合成部524。歌唱生成部522具有旋律生成部5221及歌词生成部5222。下面，关于与学习功能51共通的要素省略说明。

关于歌唱合成功能52，存储部516存储片段数据库5162。片段数据库是记录有在歌唱合成中使用的语音片段数据的数据库。语音片段数据是将1或多个音素进行数据化得到的。音素是相当于语言上的意思区分的最小单位(例如元音、辅音)，考虑某种语言的实际的调音和音位体系整体而设定的、其语言的音位论上的最小单位。语音片段是由特定的发声者发声出的输入语音中的与期望的音素、音素链相当的区间被剪切而成的。本实施方式中的语音片段数据是表示语音片段的频谱的数据。在下面的说明中，“语音片段”的词语包含单一的音素(例如单音)、音素链(例如双音或三音)。

存储部516可以存储多个片段数据库5162。多个片段数据库5162例如可以包含记录有由各自不同的歌手(或说话者)发音出的音素的片段数据库。或者，多个片段数据库5162也可以包含记录有由单一的歌手(或说话者)以各自不同的歌唱方式或声色而发音出的音素的片段数据库。

歌唱生成部522生成歌唱语音，即进行歌唱合成。歌唱语音是指按照被赋予的旋律将被赋予的歌词发出的语音。旋律生成部5221生成在歌唱合成中使用的旋律。歌词生成部5222生成在歌唱合成中使用的歌词。旋律生成部5221及歌词生成部5222可以使用记录于分类表5161的信息而生成旋律及歌词。歌唱生成部522使用由旋律生成部5221生成的旋律及由歌词生成部5222生成的歌词而生成歌唱语音。伴奏生成部523生成针对歌唱语音的伴奏。合成部519使用由歌唱生成部522生成的歌唱语音、由伴奏生成部523生成的伴奏、及记录于片段数据库5162的语音片段而合成歌唱语音。

3－2.动作

图10是表示歌唱合成功能52所涉及的语音响应系统1的动作(歌唱合成方法)的概要的流程图。在步骤S21中，语音响应系统1对是否发生了触发歌唱合成的事件进行判断(进行检测)。触发歌唱合成的事件，例如包含下述事件中的至少1个，即，从用户进行了语音输入这一事件、登记于日历的事件(例如，警报或用户的生日)、从用户通过语音以外的方法(例如向与输入输出装置10无线连接的智能手机(省略图示)的操作)输入歌唱合成的指示这一事件、及随机地发生的事件。在判断为发生了触发歌唱合成的事件的情况下(S21：YES)，语音响应系统1将处理转入至步骤S22。在判断为没有发生触发歌唱合成的事件的情况下(S21：NO)，语音响应系统1等待而直至发生触发歌唱合成的事件。

在步骤S22中，语音响应系统1读出歌唱合成参数。在步骤S23中，语音响应系统1生成歌词。在步骤S24中，语音响应系统1生成旋律。在步骤S25中，语音响应系统1将生成的歌词及旋律的一方与另一方相匹配地修正。在步骤S26中，语音响应系统1对要使用的片段数据库进行选择。在步骤S27中，语音响应系统1使用在步骤S23、S26及S27中得到的旋律、歌词及片段数据库而进行歌唱合成。在步骤S28中，语音响应系统1生成伴奏。在步骤S29中，语音响应系统1将歌唱语音和伴奏进行合成。步骤S23～S29的处理是图6的流程中的步骤S18的处理的一部分。下面，更详细地说明歌唱合成功能52所涉及的语音响应系统1的动作。

图11是例示歌唱合成功能52所涉及的语音响应系统1的动作的时序图。如果检测到触发歌唱合成的事件，则检测部521针对歌唱生成部522请求歌唱合成(步骤S201)。歌唱合成的请求包含用户的标识符。如果请求歌唱合成，则歌唱生成部522针对存储部516而询问用户的嗜好(步骤S202)。该询问包含用户标识符。如果接收到询问，则存储部516从分类表5161中，读出与询问所包含的用户标识符对应的嗜好信息，将读出的嗜好信息输出至歌唱生成部522(步骤S203)。并且歌唱生成部522针对感情推定部512而询问用户的感情(步骤S204)。该询问包含用户标识符。如果接收到询问，则感情推定部512将该用户的感情信息输出至歌唱生成部522(步骤S205)。

在步骤S206中，歌唱生成部522对歌词的源进行选择。歌词的源与输入语音相应地决定。歌词的源大体地说，是处理部510及分类表5161的任意者。从处理部510向歌唱生成部522输出的歌唱合成的请求中有时包含有歌词(或歌词素材)、有时不包含歌词。歌词素材是指无法通过其而单独地生成歌词，通过与其他歌词素材组合而形成歌词的字符串。歌唱合成的请求中包含有歌词的情况，例如是指在通过AI发出的响应本身(“明日的天气晴”等)带有旋律地输出响应语音的情况。歌唱合成的请求是通过处理部510生成的，因此歌词的源也可以是处理部510。并且，处理部510有时从内容提供部60取得内容，因此歌词的源也可以是内容提供部60。内容提供部60例如是提供新闻的服务器或提供气象信息的服务器。或者，内容提供部60是具有记录了已有的乐曲的歌词的数据库的服务器。在图中内容提供部60仅示出1台，但也可以存在多个内容提供部60。在歌唱合成的请求中包含有歌词的情况下，歌唱生成部522将歌唱合成的请求选择为歌词的源。在歌唱合成的请求中不包含歌词的情况下(例如，在通过输入语音发出的指示是如“唱首歌”这样没有特别指定歌词的内容的情况下)，歌唱生成部522将分类表5161选择作为歌词的源。

在步骤S207中，歌唱生成部522针对选择出的源而请求提供歌词素材。在这里，示出了分类表5161即存储部516作为源而被选择的例子。在该情况下，该请求中包含用户标识符及该用户的感情信息。如果接收到歌词素材提供的请求，则存储部516从分类表5161提取与请求所包含的用户标识符及感情信息相对应的歌词素材(步骤S208)。存储部516将提取出的歌词素材输出至歌唱生成部522(步骤S209)。

如果取得了歌词素材，则歌唱生成部522针对歌词生成部5222而请求歌词的生成(步骤S210)。该请求包含从源取得的歌词素材。如果请求歌词的生成，则歌词生成部5222使用歌词素材而生成歌词(步骤S211)。歌词生成部5222例如通过将歌词素材组合多个而生成歌词。或者，各源也可以存储有整个1曲量的歌词，在该情况下，歌词生成部5222可以从源所存储的歌词中，对在歌唱合成中使用的1曲量的歌词进行选择。歌词生成部5222将生成的歌词输出至歌唱生成部522(步骤S212)。

在步骤S213中，歌唱生成部522针对旋律生成部5221而请求旋律的生成。该请求包含对用户的嗜好信息及歌词的音数进行确定的信息。对歌词的音数进行确定的信息是生成的歌词的文字数、音拍数或音节数。如果请求旋律的生成，则旋律生成部5221与请求所包含的嗜好信息相应地生成旋律(步骤S214)。具体地说，例如成为如下所述。旋律生成部5221能够访问旋律的素材(例如，具有2小节或4小节左右的长度的音符列、或将音符列细分化为节拍或音高的变化这样的音乐性的要素的信息列)的数据库(以下称为“旋律数据库”。省略图示)。旋律数据库例如存储于存储部516。在旋律数据库中记录有旋律的属性。旋律的属性例如包含适合的曲调或歌词、作曲者姓名等乐曲信息。旋律生成部5221从记录于旋律数据库的素材中，对与请求所包含的嗜好信息相适合的1或多个素材进行选择，将选择出的素材组合而得到期望的长度的旋律。歌唱生成部522将确定生成的旋律的信息(例如MIDI等的时序数据)输出至歌唱生成部522(步骤S215)。

在步骤S216中，歌唱生成部522针对旋律生成部5221而请求旋律的修正，或针对歌词生成部5222而请求歌词的生成。该修正的目的之一是使歌词的音数(例如音拍数)和旋律的音数一致。例如，在歌词的音拍数少于旋律的音数的情况下(字数不足的情况下)，歌唱生成部522向歌词生成部5222请求增加歌词的文字数。或者，在歌词的音拍数多于旋律的音数的情况下(字数多余的情况下)，歌唱生成部522向旋律生成部5221请求增加旋律的音数。在该图中，对修正歌词的例子进行说明。在步骤S217中，歌词生成部5222与修正的请求相应地修正歌词。在修正旋律的情况下，旋律生成部5221例如通过分割音符而增加音符数，从而修正旋律。歌词生成部5222或旋律生成部5221也可以进行调整，以使得歌词的词节的分隔的部分和旋律的乐句的分隔部分一致。歌词生成部5222将修正后的歌词输出至歌唱生成部522(步骤S218)。

如果接收到歌词，则歌唱生成部522对在歌唱合成中使用的片段数据库5162进行选择(步骤S219)。片段数据库5162例如是与触发了歌唱合成的事件相关的用户的属性相应地进行选择。或者，片段数据库5162也可以与触发了歌唱合成的事件的内容相应地进行选择。并且，片段数据库5162也可以与记录于分类表5161的用户的嗜好信息相应地进行选择。歌唱生成部522按照通过至此为止的处理得到的歌词及旋律，对从所选择的片段数据库5162提取出的语音片段进行合成，得到合成歌唱的数据(步骤S220)。此外，也可以在分类表5161中记录与歌唱中的声色的变更、吞音、升调、颤音等歌唱的演绎方法相关的表示用户的嗜好的信息，歌唱生成部522可以参照这些信息，合成反映出与用户的嗜好相对应的演绎方法的歌唱。歌唱生成部522将生成的合成歌唱的数据输出至合成部524(步骤S2221)。

并且，歌唱生成部522针对伴奏生成部523而请求伴奏的生成(S222)。该请求包含表示歌唱合成中的旋律的信息。伴奏生成部523与请求所包含的旋律相应地生成伴奏(步骤S223)。作为针对旋律而自动地附加伴奏的技术，使用公知的技术。在旋律数据库中记录有表示旋律的和弦进行的数据(以下称为“和弦进行数据”)的情况下，伴奏生成部523可以使用该和弦进行数据而生成伴奏。或者，在旋律数据库中记录有针对旋律的伴奏用的和弦进行数据的情况下，伴奏生成部523可以使用该和弦进行数据而生成伴奏。并且，伴奏生成部523也可以预先存储有多个伴奏的音频数据，从其中读出与旋律的和弦进行相符的数据。另外，伴奏生成部523例如也可以为了决定伴奏的曲调而参照分类表5161，生成与用户的嗜好相对应的伴奏。伴奏生成部523将生成的伴奏的数据输出至合成部524(步骤S224)。

如果接收到合成歌唱及伴奏的数据，则合成部524将合成歌唱及伴奏进行合成(步骤S225)。在合成时，将节奏对准演奏的开始位置，由此以歌唱和伴奏同步地方式进行合成。这样得到带有伴奏的合成歌唱的数据。合成部524输出合成歌唱的数据。

在这里，说明了首先生成歌词，然后与歌词相匹配地生成旋律的例子。但是，语音响应系统1也可以先生成旋律，然后与旋律相匹配地生成歌词。另外，在这里说明了在歌唱和伴奏进行合成后输出的例子，但也可以是不生成伴奏，而仅输出歌唱(即，可以是无伴奏)。另外，在这里，说明了首先在合成歌唱后与歌唱相匹配地生成伴奏的例子，但也可以是首先生成伴奏，与伴奏相匹配地合成歌唱。

4.响应功能

图12是例示响应功能53所涉及的语音响应系统1的功能结构的图。作为响应功能53所涉及的功能要素，语音响应系统1具有：语音分析部511、感情推定部512及内容分解部531。下面，关于与学习功能51及歌唱合成功能52共通的要素省略说明。内容分解部531将一个内容分解为多个局部内容。内容是指作为响应语音输出的信息的内容，具体地说，例如是指乐曲、新闻、食谱或教材(运动训练、乐器训练、学习演练、测验)。

图13是例示响应功能53所涉及的语音响应系统1的动作的流程图。在步骤S31中，语音分析部511确定进行播放的内容。进行播放的内容例如与用户的输入语音相应地被确定。具体地说，语音分析部511对输入语音进行解析，通过输入语音对被指示了播放的内容进行确定。在一个例子中，如果被赋予了“请告知汉堡包的食谱”这一输入语音，则语音分析部11向处理部510发出指示以使得提供“汉堡包的食谱”。处理部510访问内容提供部60，取得说明了“汉堡包的食谱”的文本数据。这样取得的数据被确定为进行播放的内容。处理部510将确定出的内容通知给内容分解部531。

在步骤S32中，内容分解部531将内容分解为多个局部内容。在一个例子中，“汉堡包的食谱”由多个步骤(切材料、搅拌材料、成型、烧烤等)构成，内容分解部531将“汉堡包的食谱”的文本分解为“切材料的步骤”、“搅拌材料的步骤”、“成型的步骤”及“烧烤的步骤”这4个局部内容。内容的分解位置例如通过AI而自动地判断。或者，也可以在内容中预先埋入有表示分隔的标记，在其标记的位置对内容进行分解。

在步骤S33中，内容分解部531对多个局部内容中的成为对象的一个局部内容进行确定(确定部的一个例子)。成为对象的局部内容是进行播放的局部内容，与原来的内容中的该局部内容的位置关系相应地被决定。在“汉堡包的食谱”的例子中，内容分解部531首先将“切材料的步骤”确定为成为对象的局部内容。接下来在进行步骤S33的处理时，内容分解部531将“搅拌材料的步骤”确定为成为对象的局部内容。内容分解部531将确定出的局部内容通知给内容修正部532。

在步骤S34中，内容修正部532对成为对象的局部内容进行修正。具体的修正的方法与内容相应地被定义。例如，针对新闻、气象信息及食谱这样的内容，内容修正部532不进行修正。例如，针对教材或测验的内容，内容修正部532将希望作为问题而预先隐藏的部分置换为其他音(例如嗡嗡音、“啦啦啦”、哔音等)。此时，内容修正部532使用音拍数或音节数与置换前的字符串相同的字符串而进行置换。内容修正部532将修正后的局部内容输出至歌唱生成部522。

在步骤S35中，歌唱生成部522对修正后的局部内容进行歌唱合成。由歌唱生成部522生成的歌唱语音最终从输入输出装置10作为响应语音而输出。如果输出了响应语音，则语音响应系统1成为用户的响应等待状态(步骤S36)。在步骤S36中，语音响应系统1可以输出对用户的响应进行提示的歌唱或语音(例如“行吗？”等)。语音分析部511与用户的响应相应地决定下一个处理。在输入了提示下一个局部内容的播放的响应的情况下(S36：接下来)，语音分析部511将处理跳转至步骤S33。提示下一个局部内容的播放的响应，例如是“向下一个步骤”、“行了”、“结束”等语音。在输入了除了对下一个局部内容的播放进行提示的响应以外的响应的情况下(S36：结束)，语音分析部511向处理部510发出指示以使得停止语音的输出。

在步骤S37中，处理部510将局部内容的合成语音的输出至少暂时地停止。在步骤S38中，处理部510进行与用户的输入语音相对应的处理。在步骤S38的处理中，例如包含当前的内容的播放中止、从用户指示出的关键词检索、及其他内容的播放开始。例如，在输入了“希望停止歌曲”、“结束”或“终止”等响应的情况下，处理部510中止当前的内容的播放。例如在被输入“怎样切成长条？”或“什么是香蒜橄榄油意大利面？”等提问型的响应的情况下，处理部510从内容提供部60取得用于回答用户的提问的信息。处理部510输出针对用户的提问的回答语音。该回答可以不是歌唱，而是说话声。在被输入“播放○○的曲”等指示播放其他内容的响应的情况下，处理部510从内容提供部60取得所指示的内容并播放。

说明了内容被分解为多个局部内容，针对每个局部内容与用户的反应相应地决定下一个处理的例子。但是，也可以是不将内容分解为局部内容，而是直接作为说话声或作为将其内容用作歌词的歌唱语音而输出。语音响应系统1可以与用户的输入语音相应地或与输出的内容相应地，判断是分解为局部内容、还是不分解而直接输出。

5.动作例

下面，对几个具体的动作例进行说明。在各动作例中没有特别明示，但各动作例各自是基于上述的学习功能、歌唱合成功能及响应功能的至少1个以上的功能的动作例。此外对下面的动作例全部是使用日语的例子进行说明，但使用的语言并不限定于日语，可以是任何语言。

5－1.动作例1

图14是表示语音响应系统1的动作例1的图。用户通过“播放佐藤一太郎(实际演出者姓名)的『樱花啊樱花啊』(乐曲名)”这一输入语音，请求乐曲的播放。语音响应系统1按照该输入语音对乐曲数据库进行检索，播放请求的乐曲。此时，语音响应系统1使用输入该输入语音时的用户的感情及该乐曲的解析结果，对分类表进行更新。分类表在每次请求乐曲的播放时对分类表进行更新。分类表随着用户对语音响应系统1请求乐曲的播放的次数增加(即，随着语音响应系统1的累积使用时间增加)，不断进一步反映出该用户的嗜好。

5－2.动作例2

图15是表示语音响应系统1的动作例2的图。用户通过“唱首欢快的歌曲”这一输入语音，请求歌唱合成。语音响应系统1按照该输入语音进行歌唱合成。在歌唱合成时，语音响应系统1参照分类表。使用记录于分类表的信息而生成歌词及旋律。因此，能够自动地创作反映出用户的嗜好的乐曲。

5－3.动作例3

图16是表示语音响应系统1的动作例3的图。用户通过“今天的天气是？”这一输入语音，请求气象信息的提供。在该情况下，处理部510作为针对该请求的回答，访问内容提供部60中的提供气象信息的服务器，取得表示今天的天气的文本(例如、“今天一天都晴朗”)。处理部510将包含取得的文本的、歌唱合成的请求输出至歌唱生成部522。歌唱生成部522将该请求所包含的文本用作歌词，进行歌唱合成。语音响应系统1作为针对输入语音的回答而输出对“今天一天都晴朗”附带旋律及伴奏的歌唱语音。

5－4.动作例4

图17是表示语音响应系统1的动作例4的图。在图示的响应开始前，用户使用了2周语音响应系统1，经常播放恋爱的歌。因此，在分类表中对表示该用户喜欢恋爱的歌的信息进行记录。语音响应系统1为了得到成为歌词生成的启示的信息，向用户发出“相遇的地方哪里比较好？”、“哪个季节比较好？”等的提问。语音响应系统1使用用户针对这些提问的回答而生成歌词。由于使用期间为2周而较短，因此语音响应系统1的分类表仍无法充分地反映用户的嗜好，与感情的关联也不充分。因此，尽管用户真正喜欢民谣(Ballad)曲调的歌曲，但有时会生成与其不同的摇滚曲调的歌曲。

5－5.动作例5

图18是表示语音响应系统1的动作例5的图。该例示出从动作例3进一步继续使用语音响应系统1，累积使用期间成为一个半月的例子。如果与动作例3相比较，则分类表更加反映出用户的嗜好，合成的歌唱更符合用户的嗜好。用户能够体验到最初不完善的语音响应系统1的反应逐渐地不断变化而与自己的嗜好吻合。

5－6.动作例6

图19是表示语音响应系统1的动作例6的图。用户通过“请告诉我汉堡包的食谱？”这一输入语音，请求提供“汉堡包”的“食谱”的内容。语音响应系统1基于“食谱”这一内容是在某个步骤结束后应该向下一个步骤进入这一点，将内容分解为局部内容，以与用户的反应相应地决定下一个处理的方式决定进行播放的情况。

“汉堡包”的“食谱”按照每个步骤被分解，在每次输出各步骤的歌唱时，语音响应系统1输出“准备好了吗？”、“结束了吗？”等提示用户的响应的语音。如果用户发出“准备好了”、“接下来是？”等指示下一个步骤的歌唱的输入语音，则语音响应系统1对该输入语音进行响应而输出下一个步骤的歌唱。如果用户发出“洋葱的切碎怎么做？”这种提问的输入语音，则语音响应系统1对该输入语音进行响应而输出“将洋葱切碎”的歌唱。如果结束“将洋葱切碎”的歌唱，则语音响应系统1开始“汉堡包”的“食谱”的接下来的歌唱。

语音响应系统1可以在第1局部内容的歌唱语音和紧接其之后的第2局部内容的歌唱语音之间输出其他内容的歌唱语音。语音响应系统1例如将进行合成而成为与第1局部内容所包含的字符串表示的事项相对应的时间长度的歌唱语音输出至第1局部内容的歌唱语音和第2局部内容的歌唱语音之间。具体地说，在第1局部内容为“在这里将材料煮20分钟”，表示等待时间为20分钟的情况下，语音响应系统1对在正在煮材料的期间播放20分钟的歌唱进行合成并输出。

另外，语音响应系统1也可以在输出第1局部内容的歌唱语音后，在与第1字符串表示的事项相对应的时间长度所对应的定时输出使用与第1局部内容所包含的第1字符串表示的事项相对应的第2字符串而合成的歌唱语音。具体地说，在第1局部内容为“在这里将材料煮20分钟”，表示等待时间为20分钟的情况下，语音响应系统1可以将“煮材料结束”(第2字符串的一个例子)这一歌唱语音在从输出第1局部内容起20分钟后输出。或者，在第1局部内容为“在这里将材料煮20分钟”的例子中，也可以在经过了等待时间的一半(10分钟)时，将“距离煮材料结束还有10分钟”等以说唱(rap)风格进行歌唱。

5－7.动作例7

图21是表示语音响应系统1的动作例7的图。用户通过“给我读工厂中的工序的操作指南？”这一输入语音，请求提供“操作指南”的内容。语音响应系统1基于“操作指南”这一内容是用于对用户的记忆进行确认这一点，将内容分解为局部内容，以与用户的反应相应地决定下一个处理的方式决定进行播放的情况。

例如，语音响应系统1将操作指南在随机的位置进行分隔，分解为多个局部内容。语音响应系统1如果输出一个局部内容的歌唱，则等待用户的反应。例如基于“在按下开关A后，在仪表B的值小于或等于10时按下开关B”这一顺序的内容，语音响应系统1歌唱出“在按下开关A后”这一部分，等待用户的反应。如果用户发出某种语音，则语音响应系统1输出下一个局部内容的歌唱。或者，此时可以与用户是否能够正确地说出下一个局部内容相应地，变更下一个局部内容的歌唱的速度。具体地说，在用户能够正确地说出下一个局部内容的情况下，语音响应系统1提高下一个局部内容的歌唱的速度。或者在用户无法正确地说出下一个局部内容的情况下，语音响应系统1降低下一个局部内容的歌唱的速度。

5－8.动作例8

图22是表示语音响应系统1的动作例8的图。动作例8是老人的健忘症对策的动作例。用户为老人的情况预先通过用户登记等进行设定。语音响应系统1例如与用户的指示相应地开始歌唱已有的歌。语音响应系统1在随机的位置或规定的位置(例如副歌之前)处暂时停止歌唱。此时，发出“嗯，不知道”、“忘记了”等消息，以犹如忘记歌词那样地表现。语音响应系统1在该状态下等待用户的响应。如果用户发出某个语音，则语音响应系统1将由用户发出的词语(的一部分)作为正确的歌词，从该词语之后输出歌唱。此外，在用户发出某个词语的情况下，语音响应系统1也可以输出“谢谢”等响应。在以等待用户的响应的状态经过了规定时间时，语音响应系统1也可以输出“想起来了”等说话声，从暂时停止的部分起重新歌唱。

5－9.动作例9

图23是表示语音响应系统1的动作例9的图。用户通过“唱首欢快的歌曲”这一输入语音，请求歌唱合成。语音响应系统1按照该输入语音进行歌唱合成。在歌唱合成时使用的片段数据库例如与在用户登记时选择的角色相应地被选择(例如，在选择了男性角色的情况下，使用与男性歌手相关的片段数据库)。用户在歌的中途发出“变换为女性的声音”等对片段数据库的变更进行指示的输入语音。语音响应系统1与用户的输入语音相应地对在歌唱合成时使用的片段数据库进行切换。片段数据库的切换可以在语音响应系统1输出歌唱语音时进行，也可以如动作例7～8那样在语音响应系统1等待用户的响应的状态时进行。

语音响应系统1可以具有多个片段数据库，该多个片段数据库记录有由单一歌手(或说话者)以各自不同的歌唱方式或音色而发音出的音素。语音响应系统1可以针对某个音素，将从多个片段数据库提取出的多个片段以某种比率(利用比率)进行组合即相加而使用。语音响应系统1可以与用户的反应相应地决定该利用比率。具体地说，关于某歌手，在以通常的声音和甜美的声音记录有2个片段数据库时，用户如果发出了“用更甜美的声音”这一输入语音，则提高甜美的声音的片段数据库的利用比率，如果发出了“用最最甜美的声音”这一输入语音，则进一步提高甜美的声音的片段数据库的利用比率。

6.变形例

本发明并不限定于上述的实施方式，能够实施各种变形。下面，对几个变形例进行说明。也可以将下面的变形例中的2个以上进行组合而使用。

在本发明中歌唱语音是指在至少其一部分中包含歌唱的语音，也可以包含有不包含歌唱的仅伴奏的部分、或仅说话声的部分。例如，在将内容分解为多个局部内容的例子中，至少1个局部内容可以不包含歌唱。另外，歌唱也可以包含说唱或诗的朗读。

在实施方式中，说明了学习功能51、歌唱合成功能52及响应功能53相互地相关的例子，但这些功能也可以各自单独地提供。例如，通过学习功能51得到的分类表，例如可以在传送乐曲的乐曲传送系统中为了知晓用户的嗜好而使用。或者，歌唱合成功能52可以使用由用户手动输入的分类表进行歌唱合成。另外，语音响应系统1的功能要素的至少一部分可以省略。例如，语音响应系统1可以不具有感情推定部512。

关于针对输入输出装置10、响应引擎20及歌唱合成引擎30的功能分配，例如，可以是语音分析部511及感情推定部512安装于输入输出装置。另外，关于输入输出装置10、响应引擎20及歌唱合成引擎30的相对性配置，例如，可以是歌唱合成引擎30配置于输入输出装置10和响应引擎20之间，关于从响应引擎20输出的响应中的判断为需要歌唱合成的响应，进行歌唱合成。另外，在语音响应系统1中使用的内容，在语音响应系统1中使用的内容也可以存储于输入输出装置10或能够与输入输出装置10通信的装置等本地装置。

输入输出装置10、响应引擎20及歌唱合成引擎30的硬件结构例如也可以是智能手机或平板终端。用户针对语音响应系统1的输入并不限定于经由语音的方式，也可以经由触摸屏、键盘或指示设备而输入。另外，输入输出装置10也可以具有人体感应传感器。语音响应系统1可以使用该人体感应传感器，与用户是否接近相应地控制动作。例如，在判断为用户没有接近输入输出装置10的情况下，语音响应系统1可以进行不输出语音(不回话)这样的动作。但是，根据由语音响应系统1输出的语音的内容，也可以是无论用户是否接近输入输出装置10，语音响应系统1都输出其语音。例如，关于如在动作例6的后半段中说明那样的对剩余等待时间进行通知的语音，语音响应系统1可以无论用户是否接近输入输出装置10都输出。此外，关于用户是否接近输入输出装置10的检测，可以使用照相机、温度传感器等除了人体感应传感器以外的传感器，或者兼用多个传感器。

在实施方式中例示出的流程图及时序图是一个例子。在实施方式所例示出的流程图或时序图中，也可以调换处理的顺序，或省略一部分的处理，或追加新的处理。

在输入输出装置10、响应引擎20及歌唱合成引擎30中执行的程序，可以以存储于CD－ROM或半导体存储器等记录介质的状态提供，也可以通过经由互联网等网络的下载而提供。

本申请基于2017年6月14日申请的日本专利申请(特愿2017－116830)，其内容在此作为参照而引入。

工业实用性

根据本发明，能够使用与用户相对应的参数而自动地进行歌唱合成，因此是有效的。

标号的说明

1…语音响应系统，10…输入输出装置，20…响应引擎，30…歌唱合成引擎，51…学习功能，52…歌唱合成功能，53…响应功能，60…内容提供部，101…传声器，102…输入信号处理部，103…输出信号处理部，104…扬声器，105…CPU，106…传感器，107…电动机，108…网络IF，201…CPU，202…存储器，203…储存器，204…通信IF，301…CPU，302…存储器，303…储存器，304…通信IF，510…处理部，511…语音分析部，512…感情推定部，513…乐曲解析部，514…歌词提取部，515…嗜好分析部，516…存储部，521…检测部，522…歌唱生成部，523…伴奏生成部，524…合成部，5221…旋律生成部，5222…歌词生成部，531…内容分解部，532…内容修正部。

30页详细技术资料下载

歌唱合成方法及歌唱合成系统

相关技术

网友询问留言