基于圖像處理語義分析的閱讀環(huán)境音效增強(qiáng)系統(tǒng)及方法與流程

文檔序號：11251348閱讀：1051來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于圖像處理語義分析的閱讀環(huán)境音效增強(qiáng)系統(tǒng)及方法與流程

本發(fā)明涉及基于圖像處理和語義分析配置閱讀背景音樂和音效的系統(tǒng)及方法，尤其涉及一種方法，通過分析處理獲取的閱讀頁面圖像，確定閱讀頁中文本語義的環(huán)境及情緒屬性，并根據(jù)該文本語義選擇音樂和音效素材合成閱讀背景音樂和音效，以獲得閱讀環(huán)境的音效增強(qiáng)效果。

背景技術(shù)：

閱讀文學(xué)作品、雜志、報(bào)紙時(shí)搭配相應(yīng)的背景音效和音樂能增強(qiáng)現(xiàn)場體驗(yàn)感、提高閱讀效率。利用節(jié)奏舒緩的音樂來刺激大腦，可以消除心理壓力，使讀者注意力集中、同時(shí)增強(qiáng)大腦活力。如果播放節(jié)奏緩慢的古典音樂，讀者的記憶力可以提高百分之五十；如果根據(jù)文章內(nèi)容搭配情景音樂音效，還能夠產(chǎn)生印象深刻的閱讀體驗(yàn)。

在閱讀背景音樂的智能化選擇方面，現(xiàn)有的方法是建立一個(gè)閱讀物庫和一個(gè)背景音樂庫，根據(jù)閱讀物的總體內(nèi)容，事先人工確定好對應(yīng)的背景音樂曲目，建立閱讀物和背景音樂曲目的對應(yīng)關(guān)系。一旦讀者選擇閱讀某份閱讀物，系統(tǒng)就自動(dòng)提取對應(yīng)的背景音樂曲目并予以播放。該系統(tǒng)的缺點(diǎn)首先是閱讀物的數(shù)量受限，讀者不能閱讀不在該庫的閱讀物；其次，系統(tǒng)只能提供數(shù)量有限的背景音樂，而不能提供體現(xiàn)環(huán)境、場景特征的音效，缺乏閱讀的身臨其境感；第三，由于音樂曲目只是在總體上與閱讀物的內(nèi)容相匹配，因此在具體章節(jié)上會(huì)存在該音樂不能適應(yīng)閱讀物情境，甚至與閱讀物情境相矛盾的情況。因此，現(xiàn)有的閱讀背景音樂系統(tǒng)軟硬件產(chǎn)品還存在很大的不足，不能實(shí)時(shí)識(shí)別閱讀物的文本并確定閱讀內(nèi)容的實(shí)時(shí)場景和情緒，不能提供反映閱讀內(nèi)容場景和情緒的音效和音樂，閱讀的愉悅感一般，閱讀的身臨其境感很差。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提出一種基于圖像處理和語義分析的閱讀環(huán)境音效增強(qiáng)系統(tǒng)及方法，根據(jù)當(dāng)前閱讀的實(shí)時(shí)內(nèi)容匹配場景音效和情緒音樂，并通過音頻合成及增強(qiáng)技術(shù)生成合適的背景音效，更大程度上提高閱讀者身臨其境的閱讀感受。

本發(fā)明采用的技術(shù)方案一方面為一種基于圖像處理和語義分析的閱讀環(huán)境音效增強(qiáng)系統(tǒng)，包括圖像獲取裝置以及處理裝置。圖像獲取裝置用于獲取用戶的實(shí)時(shí)閱讀內(nèi)容的圖像。處理裝置包括傳輸單元、存儲(chǔ)單元和音頻單元和用于控制傳輸單元、存儲(chǔ)單元和音頻單元分別執(zhí)行傳輸、儲(chǔ)存和音頻合成的運(yùn)算單元。所述運(yùn)算單元包括：圖像提取模塊，用于接收所述圖像獲取裝置的輸入信號，然后轉(zhuǎn)換為圖像信號；文字識(shí)別模塊，用于處理該圖像信號使之清晰且易于識(shí)別，通過該圖像信號識(shí)別文字，將識(shí)別出的文字儲(chǔ)存于緩存文本中，在該文本中將文字進(jìn)行分類；語義分析模塊，用于識(shí)別分類后的文字語義，分別提取環(huán)境語義詞及情緒語義詞，然后將環(huán)境語義詞及情緒語義詞分別比對背景音樂庫，獲得環(huán)境背景音效和情緒背景音樂；音頻合成模塊，用于將背景音效和音樂進(jìn)行音頻合成及音效增強(qiáng)。

進(jìn)一步，其中所述的圖像獲取裝置包括攝像頭和/或智能閱讀設(shè)備的文字截取工具，該文字截取工具包括屏幕截圖工具、文字內(nèi)存讀取工具或閱讀軟件api調(diào)用工具。

進(jìn)一步，其中所述圖像獲取裝置通過一個(gè)或多個(gè)配件附屬在用戶的耳機(jī)、眼鏡或可穿戴設(shè)備上。

進(jìn)一步，其中所述系統(tǒng)還包括設(shè)置于所述圖像獲取裝置中的第二運(yùn)算單元，其中該第二運(yùn)算單元包括：圖像預(yù)處理模塊，用于對獲取的圖像執(zhí)行閱讀目標(biāo)區(qū)域的標(biāo)定以及對閱讀目標(biāo)區(qū)域圖像進(jìn)行截取、校正、去噪和二值化處理；傳輸模塊，用于通過無線方式對預(yù)處理的圖像進(jìn)行壓縮傳輸。

進(jìn)一步，其中所述語義分析模塊包括：詞語切分器，用于調(diào)用統(tǒng)計(jì)語言模型對語段進(jìn)行切分，生成多個(gè)切分詞語，然后為每個(gè)切分詞語計(jì)算權(quán)重值和情緒評分值；主題模型求解器，用于通過隨機(jī)采樣方法計(jì)算隱含狄利克雷模型(lda)主題模型的最優(yōu)解來表示各個(gè)切分詞語的分類；詞語特征提取器，用于對文本串的詞語進(jìn)行特征詞分類，提取文本串中的環(huán)境詞和情緒詞。

進(jìn)一步，其中所述音頻合成模塊包括：時(shí)域記錄器，用于根據(jù)采集的圖像的閱讀目標(biāo)區(qū)域的文字變化，記錄一個(gè)或多個(gè)閱讀時(shí)間節(jié)點(diǎn)，并且當(dāng)累積的情緒評分值超過預(yù)設(shè)的閾值時(shí)記錄一個(gè)或多個(gè)情緒時(shí)間節(jié)點(diǎn)，每個(gè)情緒時(shí)間節(jié)點(diǎn)與相應(yīng)的情緒詞在文段中的位置對應(yīng)，然后將所述閱讀時(shí)間節(jié)點(diǎn)和情緒時(shí)間節(jié)點(diǎn)整合生成時(shí)域控制條；混音器，用于根據(jù)所述時(shí)域控制條，通過包含有衰減因子的飽和器將背景音樂和音效的音頻信號在時(shí)域上進(jìn)行疊加。

本發(fā)明采用的技術(shù)方案另一方面為一種基于圖像處理和語義分析的閱讀環(huán)境音效增強(qiáng)方法，包括以下步驟：

s1、提供一語義知識(shí)庫，該語義庫包含背景語義集，該背景語義集包括環(huán)境語義集和情緒語義集，該環(huán)境語義集及情緒語義集包含條件詞；

s2、接收輸入信號，轉(zhuǎn)換圖像信息，其中輸入的圖像信號包括電子設(shè)備的屏幕截圖或者紙質(zhì)書籍的頁面照片；

s3、處理該圖像信號使之清晰且易于識(shí)別，通過該圖像信號識(shí)別文字，將識(shí)別出的文字儲(chǔ)存于緩存文本中，在該文本中將文字進(jìn)行分類；

s4、識(shí)別分類后的文字語義，分別提取環(huán)境語義詞及情緒語義詞；

s5、該環(huán)境語義詞及情緒語義詞分別比對背景音樂/音效庫，獲得環(huán)境和情緒的背景音樂與音效；

s6、根據(jù)背景音樂/音效進(jìn)行音頻合成及音效增強(qiáng)，供音頻輸出設(shè)備播放合成后的音頻。

進(jìn)一步，其中所述步驟s3還包括：處理圖像信號，其包括圖像校正，去噪處理過程。文字識(shí)別包括文字細(xì)化，連通域數(shù)字化和線段直線化處理。

進(jìn)一步，其中所述步驟s5還包括：調(diào)用統(tǒng)計(jì)語言模型對語段進(jìn)行切分，生成多個(gè)切分詞語，然后為每個(gè)切分詞語計(jì)算權(quán)重值和情緒評分值；通過隨機(jī)采樣方法計(jì)算隱含狄利克雷模型(lda)主題模型的最優(yōu)解來表示各個(gè)切分詞語的分類；對文本串的詞語進(jìn)行特征詞分類，提取文本串中的環(huán)境詞和情緒詞；使各個(gè)切分詞語結(jié)合條件詞匹配對應(yīng)的音樂素材。

進(jìn)一步，其中所述步驟s6還包括：根據(jù)采集的圖像的閱讀目標(biāo)區(qū)域的文字變化，記錄一個(gè)或多個(gè)閱讀時(shí)間節(jié)點(diǎn)，并且當(dāng)累積的情緒評分值超過預(yù)設(shè)的閾值時(shí)記錄一個(gè)或多個(gè)情緒時(shí)間節(jié)點(diǎn)，每個(gè)情緒時(shí)間節(jié)點(diǎn)與相應(yīng)的情緒詞在文段中的位置對應(yīng)；將所述閱讀時(shí)間節(jié)點(diǎn)和情緒時(shí)間節(jié)點(diǎn)整合生成時(shí)域控制條；根據(jù)所述時(shí)域控制條，通過包含有衰減因子的飽和器將背景音樂和音效音樂的音頻信號在時(shí)域上進(jìn)行疊加。

本發(fā)明的有益效果為：提出的閱讀音效增強(qiáng)系統(tǒng)和方法，采用圖像識(shí)別、文字分類和場景關(guān)鍵詞分析的方法，能夠根據(jù)當(dāng)前閱讀的具體內(nèi)容來實(shí)時(shí)匹配場景音效和情緒音樂，并通過音頻合成及增強(qiáng)技術(shù)生成背景音效，通過音頻輸出設(shè)備予以播放，不僅極具趣味性，還能提供閱讀者身臨其境的閱讀感受，深化對所讀內(nèi)容的理解；并且，結(jié)合機(jī)器學(xué)習(xí)的語義識(shí)別，以及根據(jù)時(shí)間采用改進(jìn)時(shí)域疊加混音方式，提高了識(shí)別準(zhǔn)確度和實(shí)時(shí)性，解決了閱讀和音效同步的問題。

附圖說明

圖1所示為根據(jù)本發(fā)明的系統(tǒng)的示意性框圖；

圖2所示為根據(jù)本發(fā)明的系統(tǒng)的進(jìn)一步示意性框圖；

圖3至5所示為根據(jù)本發(fā)明的系統(tǒng)的多個(gè)具體的實(shí)施例；

圖6所示為根據(jù)本發(fā)明的方法的流程圖；

圖7所示為根據(jù)本發(fā)明的方法的實(shí)施例中的語義知識(shí)庫框圖；

圖8所示為根據(jù)本發(fā)明的方法的實(shí)施例中的圖像采集及預(yù)處理過程的示意圖；

圖9所示為根據(jù)本發(fā)明的方法的實(shí)施例中的文字識(shí)別過程的示意圖；

圖10所示為根據(jù)本發(fā)明的方法的實(shí)施例中的從詞語提取至音頻合成的過程的示意圖；

圖11所示為根據(jù)本發(fā)明的方法的詞語提取過程的具體實(shí)施例；

圖12和13所示為根據(jù)本發(fā)明的方法的生成閱讀時(shí)間節(jié)點(diǎn)過程的具體實(shí)施例；

圖14所示為根據(jù)本發(fā)明的方法的生成情緒時(shí)間節(jié)點(diǎn)過程的具體實(shí)施例；

圖15所示為根據(jù)閱讀時(shí)間節(jié)點(diǎn)和情緒時(shí)間節(jié)點(diǎn)并且基于時(shí)域疊加的方式進(jìn)行音頻合成的具體實(shí)施例。

具體實(shí)施方式

在下文中，將參照附圖更詳細(xì)地解釋本發(fā)明。

參照圖1，在一實(shí)施例中，根據(jù)本發(fā)明的系統(tǒng)可以包括攝像頭1、處理裝置2、人機(jī)交互設(shè)備3和配件5。音頻輸出設(shè)備4可以包含在該系統(tǒng)中，也可以是用戶自己提供的設(shè)備。所述處理裝置2包括用于與攝像頭1和音頻輸出設(shè)備4通信連接的傳輸單元21，用于儲(chǔ)存數(shù)據(jù)的存儲(chǔ)單元23，用于執(zhí)行音頻合成與音效增強(qiáng)的音頻單元24，以及分別與傳輸單元21、存儲(chǔ)單元23和音頻單元24連接的運(yùn)算單元22。優(yōu)選地，所述傳輸單元21通過內(nèi)部傳輸線路或藍(lán)牙與攝像頭1和音頻輸出設(shè)備4通信。所述存儲(chǔ)單元23包括ram、rom或任何公知的存儲(chǔ)設(shè)備，用于提供運(yùn)算內(nèi)存支持和儲(chǔ)存音樂文件。所述音頻單元24可以實(shí)施為音頻解碼編碼芯片。所述運(yùn)算單元22可以實(shí)施為低功耗型微處理芯片。用戶可以通過人機(jī)交互設(shè)備3輸入指令和獲知處理裝置2的運(yùn)行信息。所述配件5用于將攝像頭1定向至閱讀方向，以及用于支撐音頻輸出設(shè)備4。關(guān)于配件5的具體實(shí)施方式，可以參照本申請人提交的申請?zhí)枮?01720306109.7的專利申請公布文件，該申請通過全文引用的方式并入本文。

進(jìn)一步參照附圖2，在存儲(chǔ)單元23中儲(chǔ)存有語義知識(shí)庫，包含背景音樂和音效音樂文件的音樂庫。運(yùn)算單元22包括圖像提取模塊，用于接收攝像頭的輸入信號，然后轉(zhuǎn)換為圖像信號；文字識(shí)別模塊，用于處理該圖像信號使之清晰且易于識(shí)別，通過該圖像信號識(shí)別文字，將識(shí)別出的文字儲(chǔ)存于緩存文本中，在該文本中將文字進(jìn)行分類；語義分析模塊，用于識(shí)別分類后的文字語義，分別提取環(huán)境語義詞及情緒語義詞，然后將環(huán)境語義詞及情緒語義詞分別比對背景音樂庫，獲得環(huán)境背景音樂及情緒背景音樂；和音頻合成模塊，用于根據(jù)背景音樂進(jìn)行音頻合成及音效增強(qiáng)。

圖3至5所示為根據(jù)本發(fā)明的系統(tǒng)的多個(gè)具體的實(shí)施例。其中閱讀介質(zhì)6可以是紙質(zhì)媒體、智能手機(jī)、電子紙閱讀器（比如亞馬遜的kindle閱讀器）等。這樣，所述處理裝置2可以設(shè)置在閱讀器內(nèi)，或者至少一部分的處理裝置2設(shè)置在圖像獲取裝置內(nèi)。比如，可以在圖像獲取裝置中設(shè)置第二運(yùn)算單元，用于對捕獲的圖像執(zhí)行閱讀目標(biāo)區(qū)域的標(biāo)定以及對閱讀目標(biāo)區(qū)域圖像進(jìn)行截取、校正、去噪和二值化處理。這樣經(jīng)過預(yù)處理后的圖像可以大幅度地壓縮體積，便于通過藍(lán)牙等方式進(jìn)行無線傳輸。

參照圖6所示的根據(jù)本發(fā)明的方法的流程圖。

s2、接收輸入信號，轉(zhuǎn)換圖像信息，其中輸入的圖像信號包括電子設(shè)備的屏幕截圖或者紙質(zhì)書籍的頁面照片；

s4、識(shí)別分類后的文字語義，分別提取環(huán)境語義詞及情緒語義詞；

s5、該環(huán)境語義詞及情緒語義詞分別比對背景音樂庫，獲得環(huán)境背景音樂及情緒背景音樂；

s6、根據(jù)背景音樂進(jìn)行音頻合成及音效增強(qiáng)，供音頻輸出設(shè)備播放合成后的音頻。

步驟s1“建立語義知識(shí)庫”具體實(shí)現(xiàn)方式如下：

如圖7所示，為了設(shè)計(jì)基于圖像處理和語義分析配置的閱讀背景音樂系統(tǒng)，對語義知識(shí)庫中詞語代表概念精確的建模和辨識(shí)是非常重要的步驟。完整的建模過程應(yīng)該包括：背景語義集的詞語分類，近義詞和同義詞的分類，音樂素材分類，詞語概念匹配對應(yīng)音樂素材等。

背景語義集包括環(huán)境語義集和情緒語義集。環(huán)境語義集存儲(chǔ)若干環(huán)境相關(guān)的條件詞語，例如，時(shí)間、地點(diǎn)、人物、聲響以及天氣等，可以切實(shí)反映當(dāng)前檢測的詞語所描述的背景狀態(tài)。聲響可以包括動(dòng)物叫聲、人聲鼎沸的背景聲等，天氣包括打雷、下雨等。情緒語義集存儲(chǔ)若干情緒相關(guān)的條件詞語，例如，高興、激情、緊張、恐懼等。

近義詞和同義詞分類即為環(huán)境語義集和情緒語義集中詞條的近義詞及同義詞的分類庫，擴(kuò)充匹配范圍。近義詞和同義詞庫存儲(chǔ)若干詞條的同義詞及近義詞，例如，在環(huán)境語義集中，存在一條詞條為大海，用于描述當(dāng)前環(huán)境為大海，則在該詞條對應(yīng)的近義詞和同義詞庫中，存儲(chǔ)同義詞如海里、海上，近義詞如海邊、海灘等；在情緒語義集中，存在一條詞條為高興，用于描述當(dāng)前氛圍為高興，則在該詞條對應(yīng)的近義詞和同義詞庫中，存儲(chǔ)同義詞如開心、愉快，近義詞如快樂、欣喜等。

音樂素材分類根據(jù)環(huán)境語義集和情緒語義集的分類后，按照音樂所表現(xiàn)的特點(diǎn)將素材歸類到背景語義集中。

對于實(shí)際系統(tǒng)，建立完整的語義知識(shí)庫是非常困難的。一般分為兩個(gè)部分：（1）通過建立簡化模型來實(shí)現(xiàn)對背景語義集的組建；（2）對于未識(shí)別的詞匯在聯(lián)網(wǎng)后采用機(jī)器學(xué)習(xí)的方法訓(xùn)練匹配詞義，再重新擴(kuò)充背景語義集。

步驟s2“輸入圖像信號”具體實(shí)現(xiàn)方式如下：

接收輸入信號，輸入信號為圖像信號。其中，圖像信號包括電子書閱讀設(shè)備的圖像或紙質(zhì)書的圖像。具體的，電子書閱讀設(shè)備的圖像可以通過屏幕截圖的方式獲得，紙質(zhì)書的圖像可以通過攝像頭采集得到。圖片是從攝像機(jī)、手機(jī)、或者電子閱讀設(shè)備等獲得，經(jīng)過圖片的預(yù)處理，如圖8所示。預(yù)處理的最基本目的有三點(diǎn)：（1）校正圖片，使圖片行與水平平行。（2）圖片二值化處理。（3）盡可能的去掉噪點(diǎn)。

步驟s3“文字識(shí)別”具體實(shí)現(xiàn)方式如下：

文字識(shí)別的流程如圖9所示。筆畫掃描計(jì)算特征碼直接影響識(shí)別率，是識(shí)別程序的核心部分。特征碼一旦計(jì)算處理，直接查詢數(shù)據(jù)庫中特征碼對應(yīng)的文字編碼，就可以輸出文本文字了。

采用文字幾何特征掃描的方式，能夠深入挖掘文字的特征。其算法處理流程為：

（1）文字細(xì)化，用一個(gè)個(gè)像素的寬度來表示圖片的文字筆畫，提取文字的骨架。特征碼掃描的第一步驟是將文字進(jìn)行細(xì)化，提取出文字的骨架，即使用用一個(gè)像素的寬度來表示圖片的文字筆畫。細(xì)化算法的思想是一層層的剝掉原來的圖像邊緣冗余的像素，但還要保持圖片整體骨架不變，聯(lián)通性不變。本文采樣了相對成熟的zhang細(xì)化算法，該算法首先設(shè)定前景色像素為1，背景色像素為0。像素和周邊像素的關(guān)系如同九宮格所示。定義邊界點(diǎn)為p1，而p2-p9為其8領(lǐng)域的8個(gè)點(diǎn)。顯然臨界的邊節(jié)點(diǎn)具有8領(lǐng)域中至少一個(gè)點(diǎn)的像素是0的特征。zhang細(xì)化算法處理后的圖片，只剩下用單個(gè)像素表示的骨架。

（2）連通域數(shù)字化過程，可以認(rèn)為是將圖片上的單像素寬度的文字圖片提取出用坐標(biāo)、方向、以及與鄰接點(diǎn)的關(guān)系用數(shù)值表示處理。

（3）線段直線化。在上面的處理后，已經(jīng)將圖片轉(zhuǎn)化為以段段的線段表示了，由于細(xì)化算法等原因，可能原本是一條橫線的筆畫，中間也會(huì)存在幾個(gè)小波折的線段。為了整合這些小的波折線段，已及更容易制定特征碼，把小波折線段調(diào)整整合成直線線段。

（4）計(jì)算特征碼。特征碼的計(jì)算，指的是用一串?dāng)?shù)字來表示當(dāng)前字形的結(jié)構(gòu)。經(jīng)過線段直線化后，文字的紋理就非常清晰，可以較容易的進(jìn)行特征碼的計(jì)算。

步驟s4“語義分析”具體實(shí)現(xiàn)方式如下：

語義分析包括文本基本處理和文本語義分析兩個(gè)部分，分別描述如下：

（1）文本基本處理。拿到一段文本后，通常情況下，首先要做分詞。這里采用全切分方法。首先切分出與詞庫匹配的所有可能的詞，再運(yùn)用統(tǒng)計(jì)語言模型決定最優(yōu)的切分結(jié)果。它的優(yōu)點(diǎn)在于可以解決切分詞語中的歧義問題。下圖是一個(gè)示例，對于文本串“深圳市大梅沙海灘”，首先進(jìn)行詞條檢索，找到匹配的所有詞條（深圳，市，大梅沙，海灘，深圳市，大梅沙，大梅，梅，沙海），以詞網(wǎng)格形式表示，接著做路徑搜索，基于統(tǒng)計(jì)語言模型n-gram找到最優(yōu)路徑，最后可能還需要命名實(shí)體識(shí)別?！吧钲谑写竺飞澈钡恼Z言模型得分，即p(深圳市，大梅沙，海灘)最高，則為最優(yōu)切分。

文本分詞后需要對切分詞語后的每個(gè)終端計(jì)算一個(gè)權(quán)重，重要的終端應(yīng)該給與更高的權(quán)重。利用有監(jiān)督機(jī)器學(xué)習(xí)方法來預(yù)測權(quán)重。這里類似于機(jī)器學(xué)習(xí)的分類任務(wù)，對于文本串的每個(gè)終端，預(yù)測一個(gè)[0,1]的得分，得分越大則終端重要性越高。既然是有監(jiān)督學(xué)習(xí)，那么就需要訓(xùn)練數(shù)據(jù)。如果采用人工標(biāo)注的話，極大耗費(fèi)人力，所以可以采用訓(xùn)練數(shù)據(jù)自提取的方法，利用程序從搜索日志里自動(dòng)挖掘。從海量日志數(shù)據(jù)里提取隱含的用戶對于終端重要性的標(biāo)注，得到的訓(xùn)練數(shù)據(jù)將綜合億級用戶的“標(biāo)注結(jié)果”，覆蓋面更廣，且來自于真實(shí)搜索數(shù)據(jù)，訓(xùn)練結(jié)果與標(biāo)注的目標(biāo)集分布接近，訓(xùn)練數(shù)據(jù)更精確。

短文本串的核心詞提取。對短文本串分詞后，利用上面介紹的終端權(quán)重方法，獲取終端權(quán)重后，取一定的閾值，就可以提取出短文本串的核心詞。

（2）文本語義分析。對一個(gè)文本串進(jìn)行分詞和重要性打分后，可以開始高層的語義分析任務(wù)，包括主題模型，文本分類兩個(gè)部分。主題模型采用gibbssampling方法尋求隱含狄利克雷模型(lda)主題模型的最優(yōu)解，其最優(yōu)解表示詞的分類情況。隨后在文本分類中，采用訓(xùn)練過的詞語特征提取器，對文本串的詞語進(jìn)行特征詞分類，將文本串中的環(huán)境詞和情緒詞提取出來。

步驟s5“音樂素材匹配”具體實(shí)現(xiàn)方式如下：

采用基于統(tǒng)計(jì)特征的方法，分別統(tǒng)計(jì)常見的場景描述詞語以及常見的情緒描述詞語，通過字面匹配的方式，提取文中的關(guān)鍵詞。匹配的操作方式可以分為3類：（1）精確匹配，匹配條件是在步驟s4中所提取的關(guān)鍵詞與背景語義集中的詞條進(jìn)行匹配，二者字面完全一致時(shí)才能通過匹配。（2）短語匹配，匹配條件是步驟s4中所提取的關(guān)鍵詞與背景語義集中的近義詞和同義詞詞條進(jìn)行匹配（顛倒，同義等）才能通過匹配。例如，關(guān)鍵詞為“大海”，則以下詞語“海面”、“海上”、“海洋”都能跟大海匹配，選擇大海為背景的閱讀背景音樂。（3）廣泛匹配，當(dāng)使用廣泛匹配時(shí)，關(guān)鍵詞只需高度相關(guān)，也可能在篩選的范圍之內(nèi)。例如“鯊魚”這個(gè)詞語，就會(huì)直接關(guān)聯(lián)到“大?！边@個(gè)背景詞語。

根據(jù)步驟s1所搭建的背景語義集及其對應(yīng)的音樂素材庫，可以選出對應(yīng)的環(huán)境音樂素材和情緒音樂素材。

步驟s6“音頻合成及音效增強(qiáng)”具體實(shí)現(xiàn)方式如下

音頻信號處理的特點(diǎn)如下：（1）音頻信號是時(shí)間依賴的連續(xù)媒體。因此音頻處理的時(shí)序性要求很高，如果在時(shí)間上有25ms的延遲，人就會(huì)感到斷續(xù)。（2）理想的合成聲音應(yīng)是立體聲。由于人接收聲音有兩個(gè)通道（左耳、右耳），因此計(jì)算機(jī)模擬自然聲音也應(yīng)有兩個(gè)聲道，即立體聲。（3）由于語音信號不僅僅是聲音的載體，同時(shí)情感等信息也包含其中，因此對語音信號的處理，要抽取語意等其它信息。

實(shí)際應(yīng)用中，混音方案分為以下幾類：（1）時(shí)域疊加混音。該類混音方法是直接將多段音頻信號在時(shí)域上進(jìn)行疊加，但是數(shù)字音頻信號存在量化上限和下限的問題，容易造成溢出。（2）溢出檢測混音。該方法在時(shí)域疊加的基礎(chǔ)上，采用飽和器，當(dāng)檢測到信號超過上限時(shí)，結(jié)果被置為上限，超過下限時(shí)結(jié)果被置為下限。但是這種做法破壞了語音信號原有的時(shí)域特征和連續(xù)性，容易出現(xiàn)爆破聲和語音不連續(xù)的現(xiàn)象。（3）改進(jìn)的時(shí)域疊加方案。該方法在時(shí)域疊加混音的基礎(chǔ)上，加入了衰減因子，其中n為混疊語音流的數(shù)量。該方法可以保證混疊后的語音信號不會(huì)溢出。然后在步驟s5選取的音樂素材基礎(chǔ)上，采用改進(jìn)的時(shí)域疊加方案進(jìn)行音頻合成。

圖11所示為根據(jù)本發(fā)明的方法的詞語提取過程的一個(gè)具體實(shí)施例。下面以此文章識(shí)別的背景詞和情緒詞來示例性說明本發(fā)明的時(shí)域控制和音頻合成過程。

圖12和13所示為根據(jù)本發(fā)明的方法的生成閱讀時(shí)間節(jié)點(diǎn)過程。圖12所示為傳統(tǒng)紙質(zhì)閱讀介質(zhì)的情況，根據(jù)閱讀對象（在本實(shí)施例中為書本）在閱讀區(qū)域va的移動(dòng)情況來判斷讀者讀到文章的哪個(gè)位置。圖13所示為通過閱讀設(shè)備內(nèi)部的程序協(xié)議獲得閱讀位置。這種情況更容易掌握讀者的閱讀位置。比如可以通過界面sc更直接了解當(dāng)前閱讀到哪里，還可以根據(jù)分節(jié)符br和結(jié)束符號ed來辨別文章位置。

圖14所示為根據(jù)本發(fā)明的方法的生成情緒時(shí)間節(jié)點(diǎn)。其中根據(jù)識(shí)別關(guān)鍵詞在文章的位置來劃分時(shí)間節(jié)點(diǎn)，還依據(jù)每個(gè)詞的情緒評分累積超過預(yù)設(shè)閾值來定義情緒折點(diǎn)。然后可以根據(jù)閱讀時(shí)間節(jié)點(diǎn)和情緒時(shí)間節(jié)點(diǎn)并且基于時(shí)域疊加的方式進(jìn)行音頻合成。如圖15所示。根據(jù)不同的情緒，可以尋找音樂素材庫，加入對應(yīng)的音效，比如在驚恐的時(shí)候加入鼓擊樂以承托緊張氣氛。還可以調(diào)節(jié)eq來增強(qiáng)高頻或低頻，以獲得更震撼的效果。

應(yīng)當(dāng)認(rèn)識(shí)到，本發(fā)明的實(shí)施例可以由計(jì)算機(jī)硬件、硬件和軟件的組合、或者通過存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)器中的計(jì)算機(jī)指令來實(shí)現(xiàn)或?qū)嵤Ｋ龇椒梢允褂脴?biāo)準(zhǔn)編程技術(shù)-包括配置有計(jì)算機(jī)程序的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在計(jì)算機(jī)程序中實(shí)現(xiàn)，其中如此配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)以特定和預(yù)定義的方式操作-根據(jù)在具體實(shí)施例中描述的方法和附圖。每個(gè)程序可以以高級過程或面向?qū)ο蟮木幊陶Z言來實(shí)現(xiàn)以與計(jì)算機(jī)系統(tǒng)通信。然而，若需要，該程序可以以匯編或機(jī)器語言實(shí)現(xiàn)。在任何情況下，該語言可以是編譯或解釋的語言。此外，為此目的該程序能夠在編程的專用集成電路上運(yùn)行。

進(jìn)一步，該方法可以在可操作地連接至合適的任何類型的計(jì)算平臺(tái)中實(shí)現(xiàn)，包括但不限于個(gè)人電腦、迷你計(jì)算機(jī)、主框架、工作站、網(wǎng)絡(luò)或分布式計(jì)算環(huán)境、單獨(dú)的或集成的計(jì)算機(jī)平臺(tái)、或者與帶電粒子工具或其它成像裝置通信等等。本發(fā)明的各方面可以以存儲(chǔ)在非暫時(shí)性存儲(chǔ)介質(zhì)或設(shè)備上的機(jī)器可讀代碼來實(shí)現(xiàn)，無論是可移動(dòng)的還是集成至計(jì)算平臺(tái)，如硬盤、光學(xué)讀取和/或?qū)懭氪鎯?chǔ)介質(zhì)、ram、rom等，使得其可由可編程計(jì)算機(jī)讀取，當(dāng)存儲(chǔ)介質(zhì)或設(shè)備由計(jì)算機(jī)讀取時(shí)可用于配置和操作計(jì)算機(jī)以執(zhí)行在此所描述的過程。此外，機(jī)器可讀代碼，或其部分可以通過有線或無線網(wǎng)絡(luò)傳輸。當(dāng)此類媒體包括結(jié)合微處理器或其他數(shù)據(jù)處理器實(shí)現(xiàn)上文所述步驟的指令或程序時(shí)，本文所述的發(fā)明包括這些和其他不同類型的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。當(dāng)根據(jù)本發(fā)明所述的方法和技術(shù)編程時(shí)，本發(fā)明還包括計(jì)算機(jī)本身。

以上所述，只是本發(fā)明的較佳實(shí)施例而已，本發(fā)明并不局限于上述實(shí)施方式，只要其以相同的手段達(dá)到本發(fā)明的技術(shù)效果，都應(yīng)屬于本發(fā)明的保護(hù)范圍。在本發(fā)明的保護(hù)范圍內(nèi)其技術(shù)方案和/或?qū)嵤┓绞娇梢杂懈鞣N不同的修改和變化。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姚舜杰;樓婺丹;樓云江;陳雨景
技術(shù)所有人：哈爾濱工業(yè)大學(xué)深圳研究生院;樓云江
我是此專利的發(fā)明人

上一篇：一種可通過藍(lán)牙傳遞指紋信息的指紋識(shí)別裝置的制造方法
上一篇：活體識(shí)別方法和裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

環(huán)境仿真音效相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于圖像處理語義分析的閱讀環(huán)境音效增強(qiáng)系統(tǒng)及方法與流程