亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

智能掃描及朗讀文字的方法及其機(jī)器人裝置的制造方法

文檔序號(hào):10594596閱讀:709來源:國(guó)知局
智能掃描及朗讀文字的方法及其機(jī)器人裝置的制造方法
【專利摘要】本發(fā)明一種智能掃描及朗讀的方法,至少包括以下步驟:獲取待朗讀的文字圖像信息;預(yù)處理所述的文字圖像信息;根據(jù)文字結(jié)構(gòu)特征進(jìn)行文字特征抽取;將抽取出的文字特征值與特征數(shù)據(jù)庫(kù)的文字信息進(jìn)行比對(duì),獲得的文字特征,識(shí)別文字圖像信息中的文字;動(dòng)態(tài)比對(duì)所識(shí)別的文字,根據(jù)字詞數(shù)據(jù)庫(kù)的信息對(duì)比所識(shí)別的文字,進(jìn)行拼寫檢查,獲得正確文字;將所獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形;播放所獲得的語音波形。本發(fā)明還提供一種智能掃描及朗讀的機(jī)器人裝置,可以智能掃描文字,準(zhǔn)確的進(jìn)行文字識(shí)別,同時(shí)根據(jù)識(shí)別結(jié)果將文字內(nèi)容朗讀出來。適合眾多領(lǐng)域的使用者應(yīng)用。
【專利說明】
智能掃描及朗讀文字的方法及其機(jī)器人裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種智能掃描及朗讀文字的方法及其機(jī)器人裝置。
【背景技術(shù)】
[0002]隨著機(jī)器人技術(shù)的迅速發(fā)展,機(jī)器人已被廣泛的應(yīng)用在各種高危險(xiǎn)、高負(fù)擔(dān)、高精細(xì)、反復(fù)性高的工作流程中。而近幾年來,為了很大程度上提高生活的方便性,家用機(jī)器人也已經(jīng)越來越多的出現(xiàn)在人們的視線中,家用機(jī)器人是指為人類服務(wù)的特種機(jī)器人,主要從事于家庭服務(wù),維護(hù)、保養(yǎng)、修理、運(yùn)輸、清洗、監(jiān)護(hù)等工作。目前隨著新型教育方式的興起,而家長(zhǎng)在某些時(shí)候也力不從心,出現(xiàn)了主要針對(duì)兒童教育目的的家用機(jī)器人。目前一些普遍使用的用于輔助家長(zhǎng)教育孩子的家用機(jī)器人主要側(cè)重在可以朗讀、唱歌以及講故事等,但是這些教育資源都是一些已經(jīng)準(zhǔn)備好或者到網(wǎng)絡(luò)上讀取的音頻文件,資源固化,功能單一,無法呈現(xiàn)太多活潑、多變化、生動(dòng)的內(nèi)容,因而教育資源受到限制,無法滿足兒童的求知欲,進(jìn)而限制了智能教育的發(fā)展。
[0003]因此,基于現(xiàn)有的家用智能機(jī)器人在兒童教育方面功能比較單一,資源獲取受到極大的限制,不能靈活多變的改變教育資源,且受機(jī)器人系統(tǒng)內(nèi)置資源或者網(wǎng)絡(luò)資源限制的諸多問題,急需一種具有多變性以及靈活性的智能機(jī)器人。

【發(fā)明內(nèi)容】

[0004]本發(fā)明目的是提供一種智能掃描及朗讀文字的方法及其機(jī)器人裝置,將智能機(jī)器人從有限資源中解脫出來,隨時(shí)能根據(jù)使用者的需求提供語音服務(wù)。
[0005]本發(fā)明解決技術(shù)問題采用如下技術(shù)方案:一種智能掃描及朗讀的方法,至少包括以下步驟:
[0006]獲取待朗讀的文字圖像信息;
[0007]預(yù)處理所述的文字圖像信息;
[0008]根據(jù)文字結(jié)構(gòu)特征進(jìn)行文字特征抽??;
[0009]將抽取出的的文字特征值與特征數(shù)據(jù)庫(kù)的文字信息進(jìn)行比對(duì),獲得的文字特征,識(shí)別文字圖像信息中的文字;
[0010]動(dòng)態(tài)比對(duì)所識(shí)別的文字,根據(jù)字詞數(shù)據(jù)庫(kù)的信息對(duì)比所識(shí)別的文字,進(jìn)行拼寫檢查,獲得正確文字;
[0011]將所獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形;
[0012]播放所獲得的語音波形。
[0013]其中,所述的預(yù)處理所述的文字圖像信息包括以下步驟:
[0014]對(duì)獲取的文字圖像信息二值化;
[0015]根據(jù)噪聲特征對(duì)二值化的文字圖像進(jìn)行去噪;
[0016]檢測(cè)并校正所述文字圖像的方向。
[0017]其中,根據(jù)文字結(jié)構(gòu)特征進(jìn)行文字特征抽取的步驟中的文字特征包括字的筆畫端點(diǎn)、交叉點(diǎn)數(shù)量、交叉點(diǎn)位置以及筆畫段特征。
[0018]其中,動(dòng)態(tài)比對(duì)所識(shí)別的文字獲得文字文本的步驟包括:
[0019]根據(jù)識(shí)別的文字特征采用動(dòng)態(tài)程序比對(duì)數(shù)學(xué)函數(shù)識(shí)別文字;
[0020]將識(shí)別后的文字與字詞數(shù)據(jù)庫(kù)的字群對(duì)比檢查;
[0021]若文字文本正確,則獲得文字文本;
[0022]若文字文本錯(cuò)誤,則重新獲取文字圖像信息。
[0023]其中,將所獲得的文字文本轉(zhuǎn)換為音韻序列并生成語音波形是采用TTS技術(shù),至少包括:
[0024]對(duì)獲得的文字文本進(jìn)行語言學(xué)分析,確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成;
[0025]把處理好的文本所對(duì)應(yīng)的單字或短語從語音合成庫(kù)中提取,把文字文本轉(zhuǎn)化成語音波形。
[0026]—種智能掃描及朗讀的機(jī)器人裝置,包括機(jī)器人及數(shù)據(jù)庫(kù),至少還包括:
[0027]文字圖像信息獲取模塊,用于獲取待朗讀的文字圖像信息;
[0028]圖像預(yù)處理模塊,用于預(yù)處理文字圖像信息獲取模塊獲得的所述的文字圖像信息;
[0029]特征抽取模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的文字結(jié)構(gòu)特征抽取圖像預(yù)處理模塊處理的圖像中的文字特征;
[0030]文字識(shí)別模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的信息比對(duì)所述特征抽取模塊所獲得的文字特征,并識(shí)別文字圖像信息中的文字;
[0031]拼寫檢查模塊,用于根據(jù)數(shù)據(jù)庫(kù)的信息動(dòng)態(tài)比對(duì)所述文字識(shí)別模塊識(shí)別的文字,并獲得正確的文字文本;
[0032]語音生成模塊,用于將所述拼寫檢查模塊獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形;
[0033]語音播放模塊,用于播放語音生成模塊所生成的語音波形。
[0034]其中,圖像預(yù)處理模塊至少包括:
[0035]二值化處理單元,用于對(duì)文字圖像信息獲取模塊獲取的文字圖像信息二值化;
[0036]去噪單元,用于根據(jù)噪聲特征對(duì)所述二值化處理單元處理的文字圖像進(jìn)行去噪;
[0037]文字檢測(cè)單元,用于檢測(cè)并校正所述去噪單元處理后的文字圖像的方向。
[0038]其中,所述的數(shù)據(jù)庫(kù)至少包括與所述特征抽取模塊連接的文字特征數(shù)據(jù)庫(kù)、與所述拼寫檢查模塊連接的字詞數(shù)據(jù)庫(kù)以及與所述語音生成模塊連接的語言分析數(shù)據(jù)庫(kù)和語音合成數(shù)據(jù)庫(kù)。
[0039]其中,所述的拼寫檢查模塊,至少包括:
[0040]文字確定單元,用于根據(jù)所述文字識(shí)別模塊識(shí)別的文字采用動(dòng)態(tài)程序比對(duì)數(shù)學(xué)函數(shù)識(shí)別文字;
[0041]文字檢查單元,用于將所述文字確定單元識(shí)別后的文字與字詞數(shù)據(jù)庫(kù)的字群對(duì)比檢查;
[0042]文字文本單元,用于根據(jù)所述文字檢查單元獲得的文字得到正確的文字文本。
[0043]其中,所述語音生成模塊,至少包括:
[0044]語言分析單元,用于對(duì)所述文字文本單元獲得的文字文本進(jìn)行語言學(xué)分析,確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成;
[0045]語音生成單元,用于把所述語言分析單元處理好的文本所對(duì)應(yīng)的單字或短語從語音合成庫(kù)中提取,把文字文本轉(zhuǎn)化成語音波形。。
[0046]本發(fā)明具有如下有益效果:
[0047]1、本發(fā)明的智能機(jī)器人裝置能夠通過掃描文字,然后朗讀出來,使家用機(jī)器人的兒童教育功能具有多變和靈活性,使得教育資源多態(tài)化、多變化,很大程度上減小了教育資源的限制,實(shí)現(xiàn)靈活多變的教育方式;
[0048]2、本發(fā)明的裝置和方法也可使用到商務(wù)場(chǎng)景中,掃描商務(wù)文件的文字并朗讀出來;
[0049]3、本發(fā)明還可以提供給特殊人群使用,使其可以在無需人為幫助的情況下方便的了解各種場(chǎng)合以及資料的內(nèi)容。
【附圖說明】
[0050]圖1為本發(fā)明的智能掃描及朗讀文字的方法流程圖;
[0051]圖2為本發(fā)明的智能掃描及朗讀文字的機(jī)器人裝置的結(jié)構(gòu)框圖;
[0052]圖3為本發(fā)明的智能掃描及朗讀文字的方法的具體實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0053]下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步闡述。本發(fā)明提出一種智能掃描以及朗讀文字的方法,參考圖1所示,至少包括以下步驟:獲取待朗讀的文字圖像信息;預(yù)處理所述的文字圖像信息;根據(jù)文字結(jié)構(gòu)特征進(jìn)行文字特征抽取;將抽取出的的文字特征值與特征數(shù)據(jù)庫(kù)的文字信息進(jìn)行比對(duì),獲得的文字特征,識(shí)別文字圖像信息中的文字;其中所述的文字特征包括字的筆畫端點(diǎn)、交叉點(diǎn)數(shù)量、交叉點(diǎn)位置以及筆畫段特征等,識(shí)別文字圖像信息中的文字;
[0054]動(dòng)態(tài)比對(duì)所識(shí)別的文字,根據(jù)字詞數(shù)據(jù)庫(kù)的信息對(duì)比所識(shí)別的文字,進(jìn)行拼寫檢查,獲得正確文字;將所獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形;播放所獲得的語音波形。
[0055]在本發(fā)明中,所述的預(yù)處理所述的文字圖像信息包括以下步驟:對(duì)獲取的文字圖像信息二值化;根據(jù)噪聲特征對(duì)二值化的文字圖像進(jìn)行去噪;檢測(cè)并校正所述文字圖像的方向。
[0056]本發(fā)明所述的動(dòng)態(tài)比對(duì)所識(shí)別的文字獲得文字文本的步驟包括:根據(jù)識(shí)別的文字特征采用動(dòng)態(tài)程序比對(duì)數(shù)學(xué)函數(shù)識(shí)別文字;將識(shí)別后的文字與字詞數(shù)據(jù)庫(kù)的字群對(duì)比檢查;若文字文本正確,則獲得文字文本;若文字文本錯(cuò)誤,則返回重新獲取文字圖像信息。
[0057]在本發(fā)明的實(shí)施例中,將所獲得的文字文本轉(zhuǎn)換為音韻序列并生成語音波形是采用TTS技術(shù),至少包括:對(duì)獲得的文字文本進(jìn)行語言學(xué)分析,確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成;把處理好的文本所對(duì)應(yīng)的單字或短語從語音合成庫(kù)中提取,把文字文本轉(zhuǎn)化成語音波形。
[0058]在本發(fā)明中,還提供了一種智能掃描及朗讀的機(jī)器人裝置,參考圖2所示,包括數(shù)據(jù)庫(kù)以及機(jī)器人,還包括:文字圖像信息獲取模塊,用于獲取待朗讀的文字圖像信息;圖像預(yù)處理模塊,用于預(yù)處理文字圖像信息獲取模塊獲得的所述的文字圖像信息;特征抽取模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的文字結(jié)構(gòu)特征抽取圖像預(yù)處理模塊處理的圖像中的文字特征;文字識(shí)別模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的信息比對(duì)所述特征抽取模塊所獲得的文字特征,并識(shí)別文字圖像信息中的文字;拼寫檢查模塊,用于根據(jù)數(shù)據(jù)庫(kù)的信息動(dòng)態(tài)比對(duì)所述文字識(shí)別模塊識(shí)別的文字,并獲得正確的文字文本;語音生成模塊,用于將所述拼寫檢查模塊獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形;以及語音播放模塊,用于播放語音生成模塊所生成的語音波形。其中文字圖像信息獲取模塊可為攝像頭,即可為機(jī)器人自帶的攝像頭,也可以為在機(jī)器人的手部單獨(dú)安裝的攝像頭,在獲取文字圖像的時(shí)候,機(jī)器人根據(jù)使用者指令,用手部攝像頭近距離獲取;本發(fā)明的語音播放模塊可以為機(jī)器人自帶的揚(yáng)聲器。
[0059]在本發(fā)明的裝置中,所述的圖像預(yù)處理模塊至少包括:二值化處理單元,用于對(duì)文字圖像信息獲取模塊獲取的文字圖像信息二值化;去噪單元,用于根據(jù)噪聲特征對(duì)所述二值化處理單元處理的文字圖像進(jìn)行去噪;以及文字檢測(cè)單元,用于檢測(cè)并校正所述去噪單元處理后的文字圖像的方向。
[0060]在本發(fā)明的實(shí)施例中,所述的拼寫檢查模塊,至少包括:文字確定單元,用于根據(jù)所述文字識(shí)別模塊識(shí)別的文字采用動(dòng)態(tài)程序比對(duì)數(shù)學(xué)函數(shù)識(shí)別文字;文字檢查單元,用于將所述文字確定單元識(shí)別后的文字與字詞數(shù)據(jù)庫(kù)的字群對(duì)比檢查;文字文本單元,用于根據(jù)所述文字檢查單元獲得的文字得到正確的文字文本。
[0061]在本發(fā)明的實(shí)施例中,所述語音生成模塊,至少包括:語言分析單元,用于對(duì)所述文字文本單元獲得的文字文本進(jìn)行語言學(xué)分析,確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成;語音生成單元,用于把所述語言分析單元處理好的文本所對(duì)應(yīng)的單字或短語從語音合成庫(kù)中提取,把文字文本轉(zhuǎn)化成可播放的語音波形。
[0062]在本發(fā)明的實(shí)施例中,機(jī)器人可包括控制部分,電源以及其他執(zhí)行部分,這些部分的實(shí)現(xiàn)均可以采用現(xiàn)有技術(shù)來實(shí)現(xiàn),因此不再進(jìn)行贅述。而本發(fā)明中所述的數(shù)據(jù)庫(kù)至少包括與所述特征抽取模塊連接的文字特征數(shù)據(jù)庫(kù)、與所述拼寫檢查模塊連接的字詞數(shù)據(jù)庫(kù)以及與所述語音生成模塊連接的語言分析數(shù)據(jù)庫(kù)和語音合成數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)的建立也均可以采用現(xiàn)有的訓(xùn)練方式來做出,并且這些數(shù)據(jù)的具體信息可為多語言內(nèi)容,來滿足各語言的使用者使用,具體的過程在此不再贅述,而本發(fā)明的數(shù)據(jù)庫(kù)可以與所述機(jī)器人的數(shù)據(jù)庫(kù)一體設(shè)置。
[0063]下面結(jié)合圖3再對(duì)本發(fā)明方法以及機(jī)器人裝置的處理流程做進(jìn)一步的說明,首先得到任意一篇待朗讀的文本,由機(jī)器人結(jié)構(gòu)中的攝像頭拍攝獲得文本圖像信息,具體可通過攝像頭來掃描文字,進(jìn)而按照上述方法的步驟采用光學(xué)字符識(shí)別(OCR)系統(tǒng)結(jié)合數(shù)據(jù)庫(kù)(圖中所示的為文字特征數(shù)據(jù)庫(kù)以及字詞數(shù)據(jù))的信息進(jìn)行文本識(shí)別并獲得文本文字,進(jìn)一步再對(duì)文本文字進(jìn)行檢查(如邏輯關(guān)系,文字順序等),具體為先將獲得的彩色圖片進(jìn)行二值化,使文本圖像只包含黑色的前景信息和白色的背景信息,同時(shí)根據(jù)征噪聲的特征對(duì)待識(shí)別圖像進(jìn)行去噪處理,并進(jìn)行圖像方向檢測(cè),校正圖像方向;然后采用結(jié)構(gòu)特征進(jìn)行文字特征抽取,取得字的筆畫端點(diǎn)、交叉點(diǎn)的數(shù)量及位置,并以筆畫段為特征,配合特殊的比對(duì)方法,與文字特征數(shù)據(jù)庫(kù)來進(jìn)行比對(duì)。文字特征數(shù)據(jù)庫(kù)內(nèi)容包含所有欲識(shí)別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。根據(jù)文字的特征值,選用動(dòng)態(tài)程序比對(duì)(Dynamic Programming,DP)數(shù)學(xué)函數(shù),識(shí)別出文字。再將比對(duì)后的識(shí)別文字與字詞數(shù)據(jù)庫(kù)中可能的相似候選字群中進(jìn)行對(duì)比,根據(jù)前后的識(shí)別文字找出最合乎邏輯的詞,也就是做一個(gè)拼寫檢查,最后得出文字文本。如果檢查到所獲得的文本文字錯(cuò)誤則返回圖像獲取步驟,重新獲得文本圖像信息,在本實(shí)施例中,也可以提示文本錯(cuò)誤,由使用者確定是否要重新獲得文本圖像。
[0064]如果所獲得的文本文字正確,則按照上述方法中的步驟進(jìn)行文本分析、音韻合成,再生成語音波形,最終由機(jī)器人的揚(yáng)聲器朗讀給使用者。其中文本與音韻的轉(zhuǎn)換是采用TTS技術(shù)先將文字序列轉(zhuǎn)換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形,最后通過揚(yáng)聲器發(fā)出聲音。而在轉(zhuǎn)換過程中要對(duì)輸入文本進(jìn)行語言學(xué)分析,逐句進(jìn)行詞匯的、語法的和語義的分析,以確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數(shù)字的處理、縮略語的處理等,而后把處理好的文字文本所對(duì)應(yīng)的單字或短語從數(shù)據(jù)庫(kù)中的語音合成庫(kù)中提取,把語言描述轉(zhuǎn)化成語音波形。
[0065]綜上,本發(fā)明的可以實(shí)現(xiàn)機(jī)器人裝置可以智能掃描文字,準(zhǔn)確的進(jìn)行文字識(shí)別,同時(shí)根據(jù)識(shí)別結(jié)果將文字內(nèi)容朗讀出來。使家用機(jī)器人的兒童教育功能具有多變和靈活性,使得教育資源多態(tài)化、多變化,很大程度上減小了教育資源的限制,實(shí)現(xiàn)靈活多變的教育方式;另外本發(fā)明可以使用到商務(wù)場(chǎng)景中,掃描商務(wù)文件的文字并朗讀出來;也給特殊人群(如視力不佳的老人或者具有其他視力以及閱讀障礙的人)使用,使其可以在無需人為幫助的情況下方便的了解各種場(chǎng)合以及資料的內(nèi)容。
[0066]以上實(shí)施例的先后順序僅為便于描述,不代表實(shí)施例的優(yōu)劣。
[0067]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種智能掃描及朗讀的方法,其特征在于,至少包括以下步驟: 獲取待朗讀的文字圖像信息; 預(yù)處理所述的文字圖像信息; 根據(jù)文字結(jié)構(gòu)特征進(jìn)行文字特征抽取; 將抽取出的的文字特征值與特征數(shù)據(jù)庫(kù)的文字信息進(jìn)行比對(duì),獲得的文字特征,識(shí)別文字圖像信息中的文字; 動(dòng)態(tài)比對(duì)所識(shí)別的文字,根據(jù)字詞數(shù)據(jù)庫(kù)的信息對(duì)比所識(shí)別的文字,進(jìn)行拼寫檢查,獲得正確文字; 將所獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形; 播放所獲得的語音波形。2.根據(jù)權(quán)利要求1所述的智能掃描及朗讀的方法,其特征在于;所述的預(yù)處理所述的文字圖像信息包括以下步驟: 對(duì)獲取的文字圖像信息二值化; 根據(jù)噪聲特征對(duì)二值化的文字圖像進(jìn)行去噪; 檢測(cè)并校正所述文字圖像的方向。3.根據(jù)權(quán)利要求1所述的智能掃描及朗讀的方法,其特征在于,根據(jù)文字結(jié)構(gòu)特征進(jìn)行文字特征抽取的步驟中的文字特征包括字的筆畫端點(diǎn)、交叉點(diǎn)數(shù)量、交叉點(diǎn)位置以及筆畫段特征。4.根據(jù)權(quán)利要求1或3所述的智能掃描及朗讀的方法,其特征在于,動(dòng)態(tài)比對(duì)所識(shí)別的文字獲得文字文本的步驟包括: 根據(jù)識(shí)別的文字特征采用動(dòng)態(tài)程序比對(duì)數(shù)學(xué)函數(shù)識(shí)別文字; 將識(shí)別后的文字與字詞數(shù)據(jù)庫(kù)的字群對(duì)比檢查; 若文字文本正確,則獲得文字文本; 若文字文本錯(cuò)誤,則重新獲取文字圖像信息。5.根據(jù)權(quán)利要求1所述的智能掃描及朗讀的方法,其特征在于,將所獲得的文字文本轉(zhuǎn)換為音韻序列并生成語音波形是采用TTS技術(shù),至少包括: 對(duì)獲得的文字文本進(jìn)行語言學(xué)分析,確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成; 把處理好的文本所對(duì)應(yīng)的單字或短語從語音合成庫(kù)中提取,把文字文本轉(zhuǎn)化成語音波形。6.—種智能掃描及朗讀的機(jī)器人裝置,包括機(jī)器人及數(shù)據(jù)庫(kù),其特征在于,至少還包括: 文字圖像信息獲取模塊,用于獲取待朗讀的文字圖像信息; 圖像預(yù)處理模塊,用于預(yù)處理文字圖像信息獲取模塊獲得的所述的文字圖像信息;特征抽取模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的文字結(jié)構(gòu)特征抽取圖像預(yù)處理模塊處理的圖像中的文字特征; 文字識(shí)別模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的信息比對(duì)所述特征抽取模塊所獲得的文字特征,并識(shí)別文字圖像信息中的文字; 拼寫檢查模塊,用于根據(jù)數(shù)據(jù)庫(kù)的信息動(dòng)態(tài)比對(duì)所述文字識(shí)別模塊識(shí)別的文字,并獲得正確的文字文本; 語音生成模塊,用于將所述拼寫檢查模塊獲得的正確的文字文本轉(zhuǎn)換為音韻序列并生成語音波形; 語音播放模塊,用于播放語音生成模塊所生成的語音波形。7.根據(jù)權(quán)利要求6所述的智能掃描及朗讀的方法,其特征在于;圖像預(yù)處理模塊至少包括: 二值化處理單元,用于對(duì)文字圖像信息獲取模塊獲取的文字圖像信息二值化; 去噪單元,用于根據(jù)噪聲特征對(duì)所述二值化處理單元處理的文字圖像進(jìn)行去噪; 文字檢測(cè)單元,用于檢測(cè)并校正所述去噪單元處理后的文字圖像的方向。8.根據(jù)權(quán)利要求6所述的智能掃描及朗讀的方法,其特征在于,所述的數(shù)據(jù)庫(kù)至少包括與所述特征抽取模塊連接的文字特征數(shù)據(jù)庫(kù)、與所述拼寫檢查模塊連接的字詞數(shù)據(jù)庫(kù)以及與所述語音生成模塊連接的語言分析數(shù)據(jù)庫(kù)和語音合成數(shù)據(jù)庫(kù)。9.根據(jù)權(quán)利要求8所述的智能掃描及朗讀的方法,其特征在于,所述的拼寫檢查模塊,至少包括: 文字確定單元,用于根據(jù)所述文字識(shí)別模塊識(shí)別的文字采用動(dòng)態(tài)程序比對(duì)數(shù)學(xué)函數(shù)識(shí)別文字; 文字檢查單元,用于將所述文字確定單元識(shí)別后的文字與字詞數(shù)據(jù)庫(kù)的字群對(duì)比檢查; 文字文本單元,用于根據(jù)所述文字檢查單元獲得的文字得到正確的文字文本。10.根據(jù)權(quán)利要求8所述的智能掃描及朗讀的方法,其特征在于,所述語音生成模塊,至少包括: 語言分析單元,用于對(duì)所述文字文本單元獲得的文字文本進(jìn)行語言學(xué)分析,確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成; 語音生成單元,用于把所述語言分析單元處理好的文本所對(duì)應(yīng)的單字或短語從語音合成庫(kù)中提取,把文字文本轉(zhuǎn)化成語音波形。
【文檔編號(hào)】G10L13/08GK105956588SQ201610250797
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】易華鵬
【申請(qǐng)人】深圳前海勇藝達(dá)機(jī)器人有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1