基于機器學習技術的音樂自動生成系統(tǒng)的制作方法

文檔序號：10614102閱讀：725來源：國知局

基于機器學習技術的音樂自動生成系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于機器學習技術的音樂自動生成系統(tǒng)，包括：素材庫，位于后端服務器，用于存儲Riff，并標注Riff的屬性；用戶輸入模塊，安裝于移動終端，用于用戶輸入觸發(fā)信息；音樂生成模塊，安裝于移動終端，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中篩選備用Riff，并根據(jù)備用Riff和觸發(fā)信息生成音樂文件。本發(fā)明中用戶只需要輸入觸發(fā)信息，系統(tǒng)即可根據(jù)觸發(fā)信息自動生成相應的音樂；通過機器學習等技術的幫助，使得普通大眾能夠參與到音樂制作、交互這種專業(yè)活動中創(chuàng)造屬于自己的音樂，在此過程中用戶只需輸入語音信息，即可自動生成相應的說唱音樂。
【專利說明】
基于機器學習技術的音樂自動生成系統(tǒng)
技術領域
[0001]本發(fā)明涉及音樂制作技術領域，特別是涉及一種基于機器學習技術的音樂自動生成系統(tǒng)。
【背景技術】
[0002]回顧音樂的發(fā)展史，音樂的創(chuàng)作和交互方式從未發(fā)生過大的變化。在人類文明高度發(fā)展的今天，傳統(tǒng)上音樂首先被專業(yè)人士創(chuàng)作出來，進而以磁帶、CD、電臺或互聯(lián)網(wǎng)音頻流等形式進入大眾耳朵?，F(xiàn)場演出會可能發(fā)生的部分即興改編，或類似于“音樂背后的創(chuàng)作故事”等對話交流，音樂從被創(chuàng)作出來，直至在大眾中傳播的整個過程幾乎不存在任何變化。同時，音樂本身和聽眾之間的交互也僅停留于“你寫我聽”的層面。由于聽眾類型、情緒、喜好等外在因素和音樂本身之間缺少感應傳輸媒介，音樂也無法隨外界輸入變化而變化。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的在于克服現(xiàn)有技術的不足，提供一種基于機器學習技術的音樂自動生成系統(tǒng)，用戶通過輸入觸發(fā)信息，即可自動生成相應的音樂。
[0004]本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:基于機器學習技術的音樂自動生成系統(tǒng)，包括:素材庫，位于后端服務器，用于存儲Riff，并標注Riff的屬性；用戶輸入模塊，安裝于移動終端，用于用戶輸入觸發(fā)信息；音樂生成模塊，安裝于移動終端，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中篩選備用Riff，并根據(jù)備用Riff和觸發(fā)信息生成音樂文件。
[0005]所述觸發(fā)信息為語音信息、文字信息或動作信息。
[0006]所述動作信息為晃動手機或劃屏動作。
[0007]所述音樂生成模塊包括:篩選子模塊，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中選取RifT;音樂制作子模塊，用于根據(jù)用戶輸入的觸發(fā)信息將選取的RifT進行排序生成音樂文件;效果器添加子模塊，用于向音樂文件中添加效果器;音樂輸出子模塊，用于輸入音樂文件。
[0008]所述音樂生成模塊還包括音樂調(diào)節(jié)子模塊，用于對音樂文件進行變速不變調(diào)調(diào)
-K-
T O
[0009]所述音樂生成模塊還包括語音文字互轉(zhuǎn)模塊，用于將語音信息轉(zhuǎn)換為文本信息，或是將文本信息轉(zhuǎn)換為語音信息。
[0010]所述效果器包括混響效果器、鑲邊效果器、延遲效果器和回聲效果器。
[0011]本發(fā)明的有益效果是:本發(fā)明中，用戶只需要輸入觸發(fā)信息，系統(tǒng)即可根據(jù)觸發(fā)信息自動生成相應的音樂;本發(fā)明通過機器學習等技術的幫助，使得普通大眾能夠參與到音樂制作、交互這種專業(yè)活動中創(chuàng)造屬于自己的音樂，在此過程中用戶只需輸入語音信息，即可自動生成相應的說唱音樂。
【附圖說明】
[0012]圖1為本發(fā)明基于機器學習技術的音樂自動生成系統(tǒng)的流程圖。
【具體實施方式】
[0013]下面結合附圖進一步詳細描述本發(fā)明的技術方案，但本發(fā)明的保護范圍不局限于以下所述。
[0014]如圖1所示，基于機器學習技術的音樂自動生成系統(tǒng)，包括素材庫、用戶輸入模塊和音樂生成模塊。
[0015]所述素材庫，位于后端服務器，用于存儲Riff，并標注Riff的屬性。Riff包括Loop(如鼓、吉他、貝斯、弦樂、特殊音效等音頻片段)和VST(包括midi文件和虛擬樂器采樣)，多個不同的Riff按音樂發(fā)揮在那的時間先后順序排列構成一軌的Riff集，若干軌的Riff集(比如常見的鼓軌Riff集，吉他軌Riff集，貝斯軌Riff集，弦樂軌Riff集，特殊音效軌Riff?集等)構成一首完整歌曲的音樂部分。對Riff的屬性進行標注的方式包括半監(jiān)督學習方式和人工標注方式，本實施例中以半監(jiān)督學習方式為主，結合人工標注，為素材庫中Rif f添加標簽，即進行標注(如鼓、吉他、貝司等Riff的速度、長度、根音、節(jié)奏型，甚至情緒類型等)。
[0016]所述用戶輸入模塊，安裝于移動終端，用于用戶輸入觸發(fā)信息。
[0017]所述移動終端內(nèi)部設有方向傳感器、加速度傳感器、地磁傳感器、壓力傳感器，以及溫度傳感器。
[0018]所述觸發(fā)信息為語音信息、文字信息或動作信息；當觸發(fā)信息為語音信息時，音樂生成模塊輸出的音樂文件為說唱音樂；當觸發(fā)信息為文本信息時，音樂生成文件輸出端音樂文件為說唱音樂或純音樂；當觸發(fā)信息為動作信息時，輸音樂生成模塊輸出的音樂文件為純音樂。
[0019]所述動作信息為晃動手機或劃屏動作，用戶可以在上下左右等方向上晃動手機或在上下左右方向上進行劃屏動作。用戶的操作的不同特征對應音樂不同的組成要素，例如，用戶晃動手機的速度對應音樂的速度、用戶晃動手機的力度對應音樂的節(jié)奏、用戶晃動手機的方向?qū)魳返恼{(diào)性，用戶劃屏的方向?qū)魳返恼{(diào)性、用戶劃屏的頻率對應音樂的速度、用戶劃屏的力度對應音樂的節(jié)奏。
[0020]所述音樂生成模塊，安裝于移動終端，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中篩選備用Riff，并根據(jù)備用Riff和觸發(fā)信息生成音樂文件。
[0021]所述音樂生成模塊包括篩選子模塊、音樂制作子模塊、效果器添加子模塊和音樂輸出子模塊。
[0022]所述篩選子模塊，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中選取Riff。
[0023]所述音樂制作子模塊，用于根據(jù)用戶輸入的觸發(fā)信息將選取的RifT進行排序生成音樂文件。
[0024]所述效果器添加子模塊，用于向音樂文件中添加效果器。所述效果器包括混響效果器、鑲邊效果器、延遲效果器和回聲效果器。
[0025]所述音樂輸出子模塊，用于輸入音樂文件。
[0026]所述音樂生成模塊還包括音樂調(diào)節(jié)子模塊，用于對音樂文件進行變速不變調(diào)調(diào)節(jié);本實施例中采用SOLA算法實現(xiàn)對分段語音的變速不變調(diào)操作，SOLA算法可以使一段語音在語調(diào)不發(fā)生變化的前提下，加快、減慢語音速度，被廣泛用于復讀機、語音掃描等領域，商用音高修正等軟件中的核心組成部分是在保持語音速度不變的前提下，SOLA算法可用于提高、降低語音之音調(diào)。
[0027]所述音樂生成模塊還包括語音文字互轉(zhuǎn)模塊，用于將語音信息轉(zhuǎn)換為文本信息，或是將文本信息轉(zhuǎn)換為語音信息。
[0028]本發(fā)明的工作原理為:建立Riff庫，Rif f標注子模塊對Riff庫中的Rif f進行屬性標注。用戶輸入觸發(fā)信息:
若觸發(fā)信息為語音信息，則利用基于深度學習的語音識別技術將語音信息轉(zhuǎn)為文本信息，對文本信息進行分詞，以分詞后文本和Riff之間，Riff和Riff之間在整體上協(xié)調(diào)性最大為目標，粗篩Riff庫得到備選Riff，局部細調(diào)分詞后文本的各分詞間的相對位置，最大化文本和RifT在局部上的協(xié)調(diào)性，根據(jù)細調(diào)后的分詞文本和語音端點檢測技術對原始語音信息進行分段，得到分段語音，然后根據(jù)分詞后文本的各分詞間的相對位置信息對分段語音進行調(diào)速不調(diào)頻操作，得到語音信息和RifT之間的最優(yōu)配對，使得二者協(xié)調(diào)性最大，對分段語音和備選Riff，在一定約束下，分別隨機加入效果器，最終輸出為說唱音樂，還可以將輸出的說唱音樂分享到社交網(wǎng)站上。
[0029]若觸發(fā)信息為文本信息，則對文本信息進行分詞，以分詞后文本和Riff之間，Riff和RifT之間在整體上協(xié)調(diào)性最大為目標，粗篩RifT庫得到備選Riff，局部細調(diào)分詞后文本的各分詞間的相對位置，最大化文本和Riff在局部上的協(xié)調(diào)性，對備選素材在一定約束下隨機加入效果器，最終輸出為純音樂，還可以將輸出的純音樂分享到社交網(wǎng)站上，對分段語音和備選Riff，在一定約束下，分別隨機加入效果器，最終輸出為說唱音樂，還可以將輸出的說唱音樂分享到社交網(wǎng)站上。
[0030]若觸發(fā)信息為文本信息，則對文本信息進行分詞，以分詞后文本和Riff之間，Riff和RifT之間在整體上協(xié)調(diào)性最大為目標，粗篩RifT庫得到備選Riff，局部細調(diào)分詞后文本的各分詞間的相對位置，最大化文本和Riff在局部上的協(xié)調(diào)性，根據(jù)分詞文本間的相對位置信息，將分詞文本轉(zhuǎn)換為帶節(jié)奏的分段語音，對分段語音和備選Riff，在一定約束下，分別隨機加入效果器，最終輸出為說唱音樂，還可以將輸出的說唱音樂分享到社交網(wǎng)站上。
[0031]若觸發(fā)信息為動作信息，則根據(jù)用戶的動作信息(動作信息包括用戶在移動終端上的操作的類型和頻率)篩選出備選Riff，對備選Riff加入效果器，最終輸出為純音樂，還可以將輸出的純音樂分享到社交網(wǎng)站上。
[0032]以上所述僅是本發(fā)明的優(yōu)選實施方式，應當理解本發(fā)明并非局限于本文所披露的形式，不應看作是對其他實施例的排除，而可用于各種其他組合、修改和環(huán)境，并能夠在本文所述構想范圍內(nèi)，通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍，則都應在本發(fā)明所附權利要求的保護范圍內(nèi)。
【主權項】
1.基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:包括: 素材庫，位于后端服務器，用于存儲Rif f，并標注Rif f的屬性；用戶輸入模塊，安裝于移動終端，用于用戶輸入觸發(fā)信息；音樂生成模塊，安裝于移動終端，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中篩選備用Riff，并根據(jù)備用Riff和觸發(fā)信息生成音樂文件。2.根據(jù)權利要求1所述的基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:所述觸發(fā)信息為語音信息、文字信息或動作信息。3.根據(jù)權利要求2所述的基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:所述動作信息為晃動手機或劃屏動作。4.根據(jù)權利要求1所述的基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:所述音樂生成模塊包括: 篩選子模塊，用于根據(jù)用戶輸入的觸發(fā)信息從素材庫中選取Riff; 音樂制作子模塊，用于根據(jù)用戶輸入的觸發(fā)信息將選取的Riff進行排序生成音樂文件；效果器添加子模塊，用于向音樂文件中添加效果器；音樂輸出子模塊，用于輸入音樂文件。5.根據(jù)權利要求4所述的基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:所述音樂生成模塊還包括音樂調(diào)節(jié)子模塊，用于對音樂文件進行變速不變調(diào)調(diào)節(jié)。6.根據(jù)權利要求2或4所述的基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:所述音樂生成模塊還包括語音文字互轉(zhuǎn)模塊，用于將語音信息轉(zhuǎn)換為文本信息，或是將文本信息轉(zhuǎn)換為語音信息。7.根據(jù)權利要求4所述的基于機器學習技術的音樂自動生成系統(tǒng)，其特征在于:所述效果器包括混響效果器、鑲邊效果器、延遲效果器和回聲效果器。
【文檔編號】G10H1/00GK105976802SQ201610253700
【公開日】2016年9月28日
【申請日】2016年4月22日
【發(fā)明人】湯影, 楊林
【申請人】成都涂鴉科技有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：湯影;楊林;
技術所有人：成都涂鴉科技有限公司;
我是此專利的發(fā)明人

上一篇：一種結合樂譜的音符切分方法
上一篇：基于用戶實時動作輸入的純音樂自動生成方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于機器學習技術的音樂自動生成系統(tǒng)的制作方法