一種向輸入法詞庫(kù)中添加詞條的方法及裝置的制作方法

文檔序號(hào)：6374709閱讀：269來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種向輸入法詞庫(kù)中添加詞條的方法及裝置的制作方法
—種向輸入法詞庫(kù)中添加詞條的方法及裝置
技術(shù)領(lǐng)域：
本發(fā)明涉及輸入法技木，特別涉及一種向輸入法詞庫(kù)中添加詞條的方法及裝置。背景技木隨著電子設(shè)備越來(lái)越廣泛地使用，輸入法也成為越來(lái)越重要的文字輸入工具。輸入法是將輸入設(shè)備(如鍵盤)上的符號(hào)序列所對(duì)應(yīng)的文字錄入到電子設(shè)備中的重要工具，該工具使用的便利與否，主要表現(xiàn)在用戶為了輸入想要錄入的詞條時(shí)，對(duì)輸入設(shè)備的敲擊次數(shù)。輸入法詞庫(kù)中已錄入的詞條，是影響用戶輸入時(shí)對(duì)輸入設(shè)備敲擊次數(shù)的關(guān)鍵因素。以拼音輸入法為例，如果輸入法詞庫(kù)中已有錄入詞條包含“神馬”，則用戶敲擊“shenma”這ー鍵盤上的序列的時(shí)候，輸入法的候選詞條中就會(huì)出現(xiàn)“神馬”這一候選項(xiàng)，用戶直接選擇該候選詞條就可完成輸入，反之，如果詞庫(kù)中沒有這個(gè)錄入詞條，則用戶需要分別選取“神”和“馬”兩個(gè)字才能完成錄入，這大大増加了輸入法在文字輸入時(shí)的復(fù)雜性。可見，輸入法詞庫(kù)中的已有詞條對(duì)輸入便捷性有很大影響，因此輸入法詞庫(kù)中的詞條應(yīng)該能夠根據(jù)用戶的需要増加。在現(xiàn)有技術(shù)的輸入法中，主要是通過用戶手工錄入未登錄詞條來(lái)增加輸入法詞庫(kù)的詞匯量的，這種方式操作繁瑣，増加了用戶的負(fù)擔(dān)，降低了未登錄詞條的錄入效率，此外，以拼音輸入法為例，如果用戶不知道未登錄詞條的讀音，就很難為輸入法詞庫(kù)錄入新的詞條。

發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種向輸入法詞庫(kù)中添加詞條的方法及裝置，以解決現(xiàn)有技術(shù)中無(wú)法直接利用圖片為輸入法詞庫(kù)錄入未登錄詞，從而降低了未登錄詞錄入效率的缺陷。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種向輸入法詞庫(kù)中添加詞條的方法，包括A.獲取圖片；B.從所述圖片中提取未登錄詞條；C.將所述未登錄詞條添加到輸入法詞庫(kù)中。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟A包括根據(jù)用戶的截圖行為獲取所述用戶截取的圖片；或者，根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟B包括BI.從所述圖片中提取文字；B2.對(duì)提取的文字進(jìn)行分詞，以確定提取的文字中包含的候選詞條；B3.將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì)，如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配，則將所述候選詞條作為未登錄詞條。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟BI包括Bll.確定所述圖片中的文字區(qū)域；B12.識(shí)別所述文字區(qū)域中的各個(gè)文字。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟Bll中將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟Bll包括對(duì)所述圖片進(jìn)行灰度變換；對(duì)灰度變換后的圖片進(jìn)行霍夫變換，并在霍夫變換后的圖片中確定文字區(qū)域。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟B12包括提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征；針對(duì)各個(gè)文字，將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì)，以確定各個(gè)文字的識(shí)別結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟B包括確定所述圖片中的文字區(qū)域，并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選取；識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述步驟C包括根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列，并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到
輸入法詞庫(kù)中。本發(fā)明還提供了一種向輸入法詞庫(kù)中添加詞條的裝置，包括圖片捕獲單元，用于獲取圖片；提取單元，用于從所述圖片中提取未登錄詞條；添加単元，用于將所述未登錄詞條添加到輸入法詞庫(kù)中。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述圖像捕獲單元包括截圖單元，用于根據(jù)用戶的截圖行為獲取所述用戶截取的圖片；或者，拍攝單元，用于根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述提取単元包括文字提取單元，用于從所述圖片中提取文字；分詞單元，用于對(duì)提取的文字進(jìn)行分詞，以確定提取的文字中包含的候選詞條；詞條比對(duì)單元，用于將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì)，如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配，則將所述候選詞條作為未登錄詞條。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述文字提取單元包括區(qū)域確定單元，用于確定所述圖片中的文字區(qū)域；識(shí)別單元，用于識(shí)別所述文字區(qū)域中的各個(gè)文字。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述區(qū)域確定單元將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述區(qū)域確定單元包括第一變換單元，用于對(duì)所述圖片進(jìn)行灰度變換；第二變換單元，用于對(duì)灰度變換后的圖片進(jìn)行霍夫變換，并在霍夫變換后的圖片中確定文子區(qū)域。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述識(shí)別単元包括特征提取単元，用于提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征；特征比對(duì)單元，用于針對(duì)各個(gè)文字，將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì)，以確定各個(gè)文字的識(shí)別結(jié)
果O根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述提取単元包括標(biāo)記單元，用于確定所述圖片中的文字區(qū)域，并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選取；詞條確定單元，用于識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述添加単元將所述未登錄詞條添加到輸入法詞庫(kù)中的方式包括根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列，并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。由以上技術(shù)方案可以看出，本發(fā)明為錄入輸入法詞庫(kù)的未登錄詞條提供了ー種新途徑，即從圖片中提取未登錄詞條并添加到輸入法詞庫(kù)中。在這種新途徑下，即使是用戶不知道讀音的未登錄詞條，用戶也可以通過圖片的方式將該詞條作為新詞添加到詞庫(kù)中。本發(fā)明能夠極大地提高未登錄詞條錄入的效率，也能夠很好地提高用戶體驗(yàn)。

圖I為本發(fā)明中向輸入法詞庫(kù) 中添加詞條的方法的實(shí)施例的流程示意圖；圖2為本發(fā)明中提取未登錄詞條的一個(gè)實(shí)施例的流程示意圖；圖3為本發(fā)明中對(duì)獲取的圖片進(jìn)行灰度變換之后的實(shí)施例的不意圖；圖4為本發(fā)明中對(duì)灰度變換后的圖片進(jìn)行霍夫變換后的實(shí)施例的示意圖；圖5為本發(fā)明中提取未登錄詞條的另ー個(gè)實(shí)施例的流程示意圖；圖6為本發(fā)明中向輸入法詞庫(kù)中添加詞條的裝置的實(shí)施例的結(jié)構(gòu)示意框圖；圖7a為本發(fā)明中圖片捕獲單元的實(shí)施例一的結(jié)構(gòu)示意框圖；圖7b為本發(fā)明中圖片捕獲單元的實(shí)施例ニ的結(jié)構(gòu)示意框圖；圖8為本發(fā)明中提取單元的實(shí)施例一的結(jié)構(gòu)示意框圖；圖9為本發(fā)明中文字提取單元的實(shí)施例的結(jié)構(gòu)示意框圖；圖10為本發(fā)明中區(qū)域確定單元的實(shí)施例的結(jié)構(gòu)示意框圖；圖11為本發(fā)明中識(shí)別單元的實(shí)施例的結(jié)構(gòu)示意框圖；圖12為本發(fā)明中提取單元的實(shí)施例ニ的結(jié)構(gòu)示意框圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請(qǐng)參考圖1，圖I為本發(fā)明中向輸入法詞庫(kù)中添加詞條的方法的實(shí)施例的流程示意圖。如圖I所示，該方法包括步驟SlOl :獲取圖片。步驟S102 :從獲取的圖片中提取未登錄詞條。步驟S103 :將未登錄詞條添加到輸入法詞庫(kù)中。下面對(duì)上述步驟進(jìn)行詳細(xì)說明。步驟SlOl中獲取圖片，可以有多種方式，其中ー種方式是根據(jù)用戶的截圖行為獲取用戶截取的圖片，作為本發(fā)明后續(xù)待處理的圖片。例如，用戶在互聯(lián)網(wǎng)上瀏覽時(shí)，對(duì)感興趣的內(nèi)容采取截屏的方式進(jìn)行截取，用戶的這種行為將觸發(fā)本發(fā)明的方法在步驟SlOl中獲取用戶截取的圖片。此外，步驟SlOl中，還可以根據(jù)用戶的拍攝行為獲取用戶拍攝的圖片。例如，用戶通過攝像頭或移動(dòng)設(shè)備的拍攝鏡頭等，對(duì)自己感興趣的地方進(jìn)行拍攝，這種行為將觸發(fā)本發(fā)明的方法在步驟SlOl中獲取用戶拍攝的圖片作為后續(xù)待處理的圖片。請(qǐng)參考圖2，圖2為本發(fā)明中提取未登錄詞條的一個(gè)實(shí)施例的流程示意圖。如圖2所示，步驟S 102包括步驟S1021 :從圖片中提取文字。步驟S1022 :對(duì)提取的文字進(jìn)行分詞，以確定提取的文字中包含的候選詞條。步驟S1023 :將候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì)，如果候選詞條與輸入法詞庫(kù)中的詞條不匹配，則將候選詞條作為未登錄詞條。其中，步驟S1021具體包括步驟S1021_l :確定圖片中的文字區(qū)域。步驟S1021_2 :識(shí)別文字區(qū)域中的各個(gè)文字。確定圖片中的文字區(qū)域可以有多種方法，作為本發(fā)明中的一種實(shí)施方式，可以根據(jù)用戶的選定動(dòng)作來(lái)確定圖片中哪塊區(qū)域?qū)儆谖淖謪^(qū)域。例如將用戶指定區(qū)域作為文字區(qū)域。如用戶使用移動(dòng)設(shè)備拍攝了一張圖片，并在該圖片上劃定了ー個(gè)區(qū)域并觸發(fā)該區(qū)域提交，則本發(fā)明在步驟S1021_l中會(huì)將用戶劃定的這一區(qū)域作為文字區(qū)域。這種方式下，如果圖片上存在一片文本，用戶想要從中提取多個(gè)未登錄詞時(shí)，可以在該圖片上選定一片包含連續(xù)文本的區(qū)域，而如果用戶僅僅想提取個(gè)別未登錄詞，也可以直接在該圖片上選定某個(gè)詞語(yǔ)，本發(fā)明無(wú)論用戶的操作是什么，后續(xù)都能自動(dòng)將圖片中的未登錄詞添加到輸入法的詞庫(kù)中。作為另ー種實(shí)施方式，步驟S1021_l中也可以自動(dòng)地確定圖片中的文字區(qū)域，具體地，該實(shí)施例中步驟S1021_l包括以下步驟步驟S1021_ll :對(duì)步驟S 101中獲取的圖片進(jìn)行灰度變換；步驟S1021_12 :對(duì)灰度變換后的圖片進(jìn)行霍夫變換，在霍夫變換后的圖片中確定文字區(qū)域。請(qǐng)參考圖3和圖4,圖3為本發(fā)明中對(duì)獲取的圖片進(jìn)行灰度變換之后的實(shí)施例的不意圖，圖4為本發(fā)明中對(duì)灰度變換后的圖片進(jìn)行霍夫變換后的實(shí)施例的示意圖。對(duì)圖片進(jìn)行灰度變換是圖像處理中的常用手段，目的是改善畫質(zhì)，使圖像的顯示效果更加清晰?；舴蜃儞Q是圖像處理中從圖像里識(shí)別幾何形狀的基本方法之一，從圖4中可以看出，經(jīng)過霍夫變換的圖片中能夠確定出文字的輪廓，而原圖片背景中的不相關(guān)圖形則被過濾掉了。步驟S1021_2中識(shí)別文字區(qū)域中的各個(gè)文字，可以采用各種現(xiàn)有的OCR (OpticalCharacter Recognition,光學(xué)字符識(shí)別)技術(shù)實(shí)現(xiàn),此外,本發(fā)明給出了一種實(shí)施方式,在該實(shí)施方式中，步驟S1021_2包括步驟S1021_21 :提取圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征。步驟S1021_22 :針對(duì)各個(gè)文字，將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì)，以確定各個(gè)文字的識(shí)別結(jié)果。其中，文字與特征之間的映射庫(kù)是預(yù)先對(duì)大量文字進(jìn)行特征提取后建立的。在該映射庫(kù)中，每個(gè)文字與該文字對(duì)應(yīng)的筆劃特征之間建立了關(guān)聯(lián)關(guān)系。在步驟S1021_21中對(duì)待識(shí)別的每個(gè)文字提取筆劃特征，并在步驟S1021_22中將該文字的筆劃特征與映射庫(kù)中的特征進(jìn)行比對(duì)，比對(duì)上的特征所對(duì)應(yīng)的文字，就是待識(shí)別文字的識(shí)別結(jié)果。
上述文字的筆劃特征，指的是文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。筆劃的類型包括“橫”、“豎”、“撇”、“掠”等。例如文字“三”的筆劃特征就包括了 “橫”的數(shù)量為三，且三個(gè)“橫”的位置從上至下依次排列。請(qǐng)參考圖5，圖5為本發(fā)明中提取未登錄詞條的另ー個(gè)實(shí)施例的流程示意圖。如圖5所示，步驟S102包括步驟S102a :確定圖片中的文字區(qū)域，并標(biāo)記該文字區(qū)域供用戶從該文字區(qū)域中進(jìn)行選取。步驟S102b :識(shí)別用戶在該文字區(qū)域選取的文字作為未登錄詞條。在本實(shí)施例中，步驟S102a中確定圖片中的文字區(qū)域，可以采用與步驟S1021_l類似的方法，并且，步驟S102b中識(shí)別用戶在該文字區(qū)域選取的文字，也可采用與步驟S1021_2類似的方法。本實(shí)施例，當(dāng)步驟SlOl中一旦獲取到圖片，就可以觸發(fā)步驟S102a標(biāo)記該圖片中的文字區(qū)域供用戶選取，當(dāng)用戶選定其中的文字后，步驟S102b會(huì)將該文字的
識(shí)別結(jié)果作為未登錄詞條。這種方式有利于改善用戶體驗(yàn)，并且，這種方式得到的未登錄詞條更符合用戶的需要，準(zhǔn)確度更高。本發(fā)明方法在步驟S102中得到未登錄詞條后，在步驟S103中，將根據(jù)輸入法的類型確定未登錄詞條的輸入代碼序列，并將輸入代碼序列及未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中?？梢岳斫猓斎敕ǖ墓δ?，就是根據(jù)輸入代碼序列，產(chǎn)生與輸入代碼序列一致的文字序列供用戶選擇。因此，詞條在輸入法詞庫(kù)中保存的形式就是輸入代碼序列與詞條之間的關(guān)聯(lián)關(guān)系。以漢語(yǔ)輸入法為例，輸入法的類型包括拼音輸入法、五筆輸入法等等。以拼音輸入法為例，假設(shè)未登錄詞條為“你好”，則步驟S103中通過查找預(yù)設(shè)的詞典，可以確定其對(duì)應(yīng)的輸入代碼序列是“nihao”，并將未登錄詞條“你好”及“nihao”之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。請(qǐng)參考圖6，圖6為本發(fā)明中向輸入法詞庫(kù)中添加詞條的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。如圖6所示，該裝置包括圖片捕獲單元201、提取單元202及添加単元203。其中圖片捕獲單元201，用于獲取圖片。提取單元202，用于從獲取的圖片中提取未登錄詞條。添加単元203，用于將未登錄詞條添加到輸入法詞庫(kù)中。請(qǐng)參考圖7a和圖7b，圖7a和圖7b分別為本發(fā)明中圖片捕獲單元的兩個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。如圖7a所示，圖片捕獲單元201包括截圖單元2011，其中截圖單元2011用于根據(jù)用戶的截圖行為獲取用戶截取的圖片，作為本發(fā)明后續(xù)待處理的圖片。如圖7b所示，圖片捕獲單元201包括拍攝單元2012，其中拍攝單元2012用于根據(jù)用戶的拍攝行為獲取用戶拍攝的圖片，作為本發(fā)明后續(xù)待處理的圖片。請(qǐng)參考圖8，圖8為本發(fā)明中提取單元的實(shí)施例一的結(jié)構(gòu)示意框圖。如圖8所示，提取單元202包括文字提取單元2021、分詞單元2022及詞條比對(duì)單元2023。其中文字提取單元2021，用于從圖像捕獲單元201獲取的圖片中提取文字。分詞単元2022，用于對(duì)提取的文字進(jìn)行分詞，以確定提取的文字中包含的候選詞條。詞條比對(duì)單元2023，用于將候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì)，如果候選詞條與輸入法詞庫(kù)中的詞條不匹配，則將候選詞條作為未登錄詞條。請(qǐng)參考圖9，圖9為本發(fā)明中文字提取單元的實(shí)施例的結(jié)構(gòu)示意框圖。如圖9所示，文字提取單元2021包括區(qū)域確定單元2021_1及識(shí)別單元2021_2。
其中區(qū)域確定單元2021_1，用于確定圖片中的文字區(qū)域。識(shí)別單元2021_2，用于識(shí)別文字區(qū)域中的各個(gè)文字。作為ー種實(shí)施方式，區(qū)域確定單元2021_1將用戶指定區(qū)域作為文字區(qū)域。如用戶使用移動(dòng)設(shè)備拍攝了一張圖片，并在該圖片上劃定了ー個(gè)區(qū)域并觸發(fā)該區(qū)域提交，則區(qū)域確定單元2021_1會(huì)將用戶劃定的這一區(qū)域作為文字區(qū)域。這種方式下，如果圖片上存在一片文本，用戶想要從中提取多個(gè)未登錄詞時(shí)，可以在該圖片上選定一片包含連續(xù)文本的區(qū)域，而如果用戶僅僅想提取個(gè)別未登錄詞，也可以直接在該圖片上選定某個(gè)詞語(yǔ)，本裝置無(wú)論用戶的操作是什么，后續(xù)都能自動(dòng)將圖片中的未登錄詞添加到輸入法的詞庫(kù)中。作為另ー種實(shí)施方式，請(qǐng)參考圖10，圖10為本發(fā)明中區(qū)域確定單元的實(shí)施例的結(jié)構(gòu)示意框圖。如圖10所示，區(qū)域確定單元2021_1包括第一變換單元2021_11和第二變換單元 2021_12。其中第一變換單元2021_11，用于對(duì)圖片捕獲単元201捕獲的圖片進(jìn)行灰度變換。第二變換單元2021_12，用于對(duì)灰度變換后的圖片進(jìn)行霍夫變換，并在霍夫變換后的圖片中確定文字區(qū)域。請(qǐng)參考圖3和圖4,圖3為本發(fā)明中對(duì)獲取的圖片進(jìn)行灰度變換之后的實(shí)施例的不意圖，圖4為本發(fā)明中對(duì)灰度變換后的圖片進(jìn)行霍夫變換后的實(shí)施例的示意圖。對(duì)圖片進(jìn)行灰度變換是圖像處理中的常用手段，目的是改善畫質(zhì)，使圖像的顯示效果更加清晰?；舴蜃儞Q是圖像處理中從圖像里識(shí)別幾何形狀的基本方法之一，從圖4中可以看出，經(jīng)過霍夫變換的圖片中能夠確定出文字的輪廓，而原圖片背景中的不相關(guān)圖形則被過濾掉了。作為ー種實(shí)施方式，識(shí)別單元2021_2識(shí)別文字區(qū)域中的各個(gè)文字，可以采用各種現(xiàn)有的OCR技術(shù)。作為另ー種實(shí)施方式，請(qǐng)參考圖11，圖11為本發(fā)明中識(shí)別單元的實(shí)施例的結(jié)構(gòu)示意框圖。如圖11所示，識(shí)別單元2021_2包括特征提取単元2021_21，用于提取圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征。特征比對(duì)單元2021_22，用于針對(duì)各個(gè)文字，將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì)，以確定各個(gè)文字的識(shí)別結(jié)果。其中，文字與特征之間的映射庫(kù)是預(yù)先對(duì)大量文字進(jìn)行特征提取后建立的。在該特征庫(kù)中，每個(gè)文字與該文字對(duì)應(yīng)的筆劃特征之間建立了關(guān)聯(lián)關(guān)系。上述筆劃特征，指的是文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。筆劃的類型包括“橫”、“豎”、“撇”、“掠”等。例如文字“三，，的筆劃特征就包括了 “橫”的數(shù)量為三，且三個(gè)“橫”的位置從上至下依次排列。請(qǐng)參考圖12，圖12為本發(fā)明中提取單元的實(shí)施例ニ的結(jié)構(gòu)示意框圖。如圖12所示，提取單元202包括標(biāo)記單元202a和詞條確定單元202b。其中標(biāo)記單元202a，用于確定圖片中的文字區(qū)域，并標(biāo)記該文字區(qū)域供用戶從該文字區(qū)域中進(jìn)行選取。詞條確定單元202b，用于識(shí)別用戶在該文字區(qū)域選取的文字作為未登錄詞條。在本實(shí)施例中，標(biāo)記單元202a確定圖片中的文字區(qū)域的方式與區(qū)域確定單元2021_1確定文字區(qū)域的方式類似，詞條確定單元202b識(shí)別文字的方式與識(shí)別單元2021_2識(shí)別文字的方式類似。本實(shí)施例的提取單元202有利于改善用戶體驗(yàn)，并且，這種方式得到的未登錄詞條更符合用戶的需要，準(zhǔn)確度更高。
在本發(fā)明的裝置中，添加單元203將未登錄詞條添加到輸入法詞庫(kù)中的方式具體包括根據(jù)輸入法的類型確定未登錄詞條的輸入代碼序列，并將該輸入代碼序列及未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。可以理解，輸入法的功能，就是根據(jù)輸入代碼序列，產(chǎn)生與輸入代碼序列一致的文字序列供用戶選擇。因此，詞條在輸入法詞庫(kù)中保存的形式就是輸入代碼序列與詞條之間的關(guān)聯(lián)關(guān)系。以漢語(yǔ)輸入法為例，輸入法的類型包括拼音輸入法、五筆輸入法等等。以拼音輸入法為例，假設(shè)未登錄詞條為“你好”，則添加単元203通過查找預(yù)設(shè)的詞典，可以確定其對(duì)應(yīng)的輸入代碼序列是“nihao”，并將未登錄詞條“你好”及“nihao”之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種向輸入法詞庫(kù)中添加詞條的方法，包括 A.獲取圖片； B.從所述圖片中提取未登錄詞條； C.將所述未登錄詞條添加到輸入法詞庫(kù)中。
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟A包括根據(jù)用戶的截圖行為獲取所述用戶截取的圖片；或者，根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。
3.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟B包括 BI.從所述圖片中提取文字； B2.對(duì)提取的文字進(jìn)行分詞，以確定提取的文字中包含的候選詞條； B3.將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì)，如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配，則將所述候選詞條作為未登錄詞條。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述步驟BI包括 Bll.確定所述圖片中的文字區(qū)域； B12.識(shí)別所述文字區(qū)域中的各個(gè)文字。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述步驟Bll中將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。
6.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述步驟Bll包括對(duì)所述圖片進(jìn)行灰度變換；對(duì)灰度變換后的圖片進(jìn)行霍夫變換，并在霍夫變換后的圖片中確定文字區(qū)域。
7.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述步驟B12包括提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征；針對(duì)各個(gè)文字，將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì)，以確定各個(gè)文字的識(shí)別結(jié)果。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。
9.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟B包括確定所述圖片中的文字區(qū)域，并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選取；識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。
10.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟C包括根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列，并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。
11.一種向輸入法詞庫(kù)中添加詞條的裝置，包括圖片捕獲單元，用于獲取圖片；提取單元，用于從所述圖片中提取未登錄詞條；添加單元，用于將所述未登錄詞條添加到輸入法詞庫(kù)中。
12.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述圖像捕獲單元包括截圖單元，用于根據(jù)用戶的截圖行為獲取所述用戶截取的圖片；或者，拍攝單元，用于根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。
13.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述提取單元包括文字提取單元，用于從所述圖片中提取文字；分詞單元，用于對(duì)提取的文字進(jìn)行分詞，以確定提取的文字中包含的候選詞條；詞條比對(duì)單元，用于將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì)，如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配，則將所述候選詞條作為未登錄詞條。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述文字提取單元包括區(qū)域確定單元，用于確定所述圖片中的文字區(qū)域；識(shí)別單元，用于識(shí)別所述文字區(qū)域中的各個(gè)文字。
15.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述區(qū)域確定單元將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。
16.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述區(qū)域確定單元包括第一變換單元，用于對(duì)所述圖片進(jìn)行灰度變換；第二變換單元，用于對(duì)灰度變換后的圖片進(jìn)行霍夫變換，并在霍夫變換后的圖片中確定文字區(qū)域。
17.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述識(shí)別單元包括特征提取單元，用于提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征；特征比對(duì)單元，用于針對(duì)各個(gè)文字，將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì)，以確定各個(gè)文字的識(shí)別結(jié)果。
18.根據(jù)權(quán)利要求17所述的裝置，其特征在于，所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。
19.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述提取單元包括標(biāo)記單元，用于確定所述圖片中的文字區(qū)域，并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選?。? 詞條確定單元，用于識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。
20.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述添加單元將所述未登錄詞條添加到輸入法詞庫(kù)中的方式包括根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列，并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。
全文摘要
本發(fā)明提供了一種向輸入法詞庫(kù)中添加詞條的方法及裝置，其中向輸入法詞庫(kù)中添加詞條的方法包括A.獲取圖片；B.從所述圖片中提取未登錄詞條；C.將所述未登錄詞條添加到輸入法詞庫(kù)中。通過上述方式，本發(fā)明能夠極大地提高未登錄詞錄入的效率，也能夠很好地提高用戶體驗(yàn)。
文檔編號(hào)G06K9/00GK102855291SQ20121028291
公開日2013年1月2日申請(qǐng)日期2012年8月9日優(yōu)先權(quán)日2012年8月9日
發(fā)明者欒濤, 侯建新, 連城申請(qǐng)人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：欒濤;侯建新;連城
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

輸入法詞庫(kù)相關(guān)技術(shù)

搜狗輸入法詞庫(kù)相關(guān)技術(shù)

百度輸入法詞庫(kù)相關(guān)技術(shù)

搜狗輸入法詞庫(kù)導(dǎo)出相關(guān)技術(shù)

搜狗輸入法詞庫(kù)下載相關(guān)技術(shù)

搜狗輸入法詞庫(kù)導(dǎo)入相關(guān)技術(shù)

qq輸入法詞庫(kù)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種向輸入法詞庫(kù)中添加詞條的方法及裝置的制作方法