專利名稱:一種向輸入法詞庫(kù)中添加詞條的方法及裝置的制作方法
—種向輸入法詞庫(kù)中添加詞條的方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及輸入法技木,特別涉及一種向輸入法詞庫(kù)中添加詞條的方法及裝置。背景技木隨著電子設(shè)備越來(lái)越廣泛地使用,輸入法也成為越來(lái)越重要的文字輸入工具。輸入法是將輸入設(shè)備(如鍵盤)上的符號(hào)序列所對(duì)應(yīng)的文字錄入到電子設(shè)備中的重要工具,該工具使用的便利與否,主要表現(xiàn)在用戶為了輸入想要錄入的詞條時(shí),對(duì)輸入設(shè)備的敲擊次數(shù)。輸入法詞庫(kù)中已錄入的 詞條,是影響用戶輸入時(shí)對(duì)輸入設(shè)備敲擊次數(shù)的關(guān)鍵因素。以拼音輸入法為例,如果輸入法詞庫(kù)中已有錄入詞條包含“神馬”,則用戶敲擊“shenma”這ー鍵盤上的序列的時(shí)候,輸入法的候選詞條中就會(huì)出現(xiàn)“神馬”這一候選項(xiàng),用戶直接選擇該候選詞條就可完成輸入,反之,如果詞庫(kù)中沒有這個(gè)錄入詞條,則用戶需要分別選取“神”和“馬”兩個(gè)字才能完成錄入,這大大増加了輸入法在文字輸入時(shí)的復(fù)雜性。可見,輸入法詞庫(kù)中的已有詞條對(duì)輸入便捷性有很大影響,因此輸入法詞庫(kù)中的詞條應(yīng)該能夠根據(jù)用戶的需要増加。在現(xiàn)有技術(shù)的輸入法中,主要是通過用戶手工錄入未登錄詞條來(lái)增加輸入法詞庫(kù)的詞匯量的,這種方式操作繁瑣,増加了用戶的負(fù)擔(dān),降低了未登錄詞條的錄入效率,此外,以拼音輸入法為例,如果用戶不知道未登錄詞條的讀音,就很難為輸入法詞庫(kù)錄入新的詞條。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種向輸入法詞庫(kù)中添加詞條的方法及裝置,以解決現(xiàn)有技術(shù)中無(wú)法直接利用圖片為輸入法詞庫(kù)錄入未登錄詞,從而降低了未登錄詞錄入效率的缺陷。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種向輸入法詞庫(kù)中添加詞條的方法,包括A.獲取圖片;B.從所述圖片中提取未登錄詞條;C.將所述未登錄詞條添加到輸入法詞庫(kù)中。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟A包括根據(jù)用戶的截圖行為獲取所述用戶截取的圖片;或者,根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B包括BI.從所述圖片中提取文字;B2.對(duì)提取的文字進(jìn)行分詞,以確定提取的文字中包含的候選詞條;B3.將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì),如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配,則將所述候選詞條作為未登錄詞條。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟BI包括Bll.確定所述圖片中的文字區(qū)域;B12.識(shí)別所述文字區(qū)域中的各個(gè)文字。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟Bll中將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟Bll包括對(duì)所述圖片進(jìn)行灰度變換;對(duì)灰度變換后的圖片進(jìn)行霍夫變換,并在霍夫變換后的圖片中確定文字區(qū)域。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B12包括提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征;針對(duì)各個(gè)文字,將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì),以確定各個(gè)文字的識(shí)別結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B包括確定所述圖片中的文字區(qū)域,并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選取;識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C包括根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列,并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到
輸入法詞庫(kù)中。本發(fā)明還提供了一種向輸入法詞庫(kù)中添加詞條的裝置,包括圖片捕獲單元,用于獲取圖片;提取單元,用于從所述圖片中提取未登錄詞條;添加単元,用于將所述未登錄詞條添加到輸入法詞庫(kù)中。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述圖像捕獲單元包括截圖單元,用于根據(jù)用戶的截圖行為獲取所述用戶截取的圖片;或者,拍攝單元,用于根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述提取単元包括文字提取單元,用于從所述圖片中提取文字;分詞單元,用于對(duì)提取的文字進(jìn)行分詞,以確定提取的文字中包含的候選詞條;詞條比對(duì)單元,用于將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì),如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配,則將所述候選詞條作為未登錄詞條。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述文字提取單元包括區(qū)域確定單元,用于確定所述圖片中的文字區(qū)域;識(shí)別單元,用于識(shí)別所述文字區(qū)域中的各個(gè)文字。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述區(qū)域確定單元將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述區(qū)域確定單元包括第一變換單元,用于對(duì)所述圖片進(jìn)行灰度變換;第二變換單元,用于對(duì)灰度變換后的圖片進(jìn)行霍夫變換,并在霍夫變換后的圖片中確定文子區(qū)域。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述識(shí)別単元包括特征提取単元,用于提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征;特征比對(duì)單元,用于針對(duì)各個(gè)文字,將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì),以確定各個(gè)文字的識(shí)別結(jié)
果O根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述提取単元包括標(biāo)記單元,用于確定所述圖片中的文字區(qū)域,并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選取;詞條確定單元,用于識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述添加単元將所述未登錄詞條添加到輸入法詞庫(kù)中的方式包括根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列,并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。由以上技術(shù)方案可以看出,本發(fā)明為錄入輸入法詞庫(kù)的未登錄詞條提供了ー種新途徑,即從圖片中提取未登錄詞條并添加到輸入法詞庫(kù)中。在這種新途徑下,即使是用戶不知道讀音的未登錄詞條,用戶也可以通過圖片的方式將該詞條作為新詞添加到詞庫(kù)中。本發(fā)明能夠極大地提高未登錄詞條錄入的效率,也能夠很好地提高用戶體驗(yàn)。
圖I為本發(fā)明中向輸入法詞庫(kù) 中添加詞條的方法的實(shí)施例的流程示意圖;圖2為本發(fā)明中提取未登錄詞條的一個(gè)實(shí)施例的流程示意圖;圖3為本發(fā)明中對(duì)獲取的圖片進(jìn)行灰度變換之后的實(shí)施例的不意圖;圖4為本發(fā)明中對(duì)灰度變換后的圖片進(jìn)行霍夫變換后的實(shí)施例的示意圖;圖5為本發(fā)明中提取未登錄詞條的另ー個(gè)實(shí)施例的流程示意圖;圖6為本發(fā)明中向輸入法詞庫(kù)中添加詞條的裝置的實(shí)施例的結(jié)構(gòu)示意框圖;圖7a為本發(fā)明中圖片捕獲單元的實(shí)施例一的結(jié)構(gòu)示意框圖;圖7b為本發(fā)明中圖片捕獲單元的實(shí)施例ニ的結(jié)構(gòu)示意框圖;圖8為本發(fā)明中提取單元的實(shí)施例一的結(jié)構(gòu)示意框圖;圖9為本發(fā)明中文字提取單元的實(shí)施例的結(jié)構(gòu)示意框圖;圖10為本發(fā)明中區(qū)域確定單元的實(shí)施例的結(jié)構(gòu)示意框圖;圖11為本發(fā)明中識(shí)別單元的實(shí)施例的結(jié)構(gòu)示意框圖;圖12為本發(fā)明中提取單元的實(shí)施例ニ的結(jié)構(gòu)示意框圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請(qǐng)參考圖1,圖I為本發(fā)明中向輸入法詞庫(kù)中添加詞條的方法的實(shí)施例的流程示意圖。如圖I所示,該方法包括步驟SlOl :獲取圖片。步驟S102 :從獲取的圖片中提取未登錄詞條。步驟S103 :將未登錄詞條添加到輸入法詞庫(kù)中。下面對(duì)上述步驟進(jìn)行詳細(xì)說明。步驟SlOl中獲取圖片,可以有多種方式,其中ー種方式是根據(jù)用戶的截圖行為獲取用戶截取的圖片,作為本發(fā)明后續(xù)待處理的圖片。例如,用戶在互聯(lián)網(wǎng)上瀏覽時(shí),對(duì)感興趣的內(nèi)容采取截屏的方式進(jìn)行截取,用戶的這種行為將觸發(fā)本發(fā)明的方法在步驟SlOl中獲取用戶截取的圖片。此外,步驟SlOl中,還可以根據(jù)用戶的拍攝行為獲取用戶拍攝的圖片。例如,用戶通過攝像頭或移動(dòng)設(shè)備的拍攝鏡頭等,對(duì)自己感興趣的地方進(jìn)行拍攝,這種行為將觸發(fā)本發(fā)明的方法在步驟SlOl中獲取用戶拍攝的圖片作為后續(xù)待處理的圖片。請(qǐng)參考圖2,圖2為本發(fā)明中提取未登錄詞條的一個(gè)實(shí)施例的流程示意圖。如圖2所示,步驟S 102包括步驟S1021 :從圖片中提取文字。步驟S1022 :對(duì)提取的文字進(jìn)行分詞,以確定提取的文字中包含的候選詞條。步驟S1023 :將候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì),如果候選詞條與輸入法詞庫(kù)中的詞條不匹配,則將候選詞條作為未登錄詞條。其中,步驟S1021具體包括步驟S1021_l :確定圖片中的文字區(qū)域。步驟S1021_2 :識(shí)別文字區(qū)域中的各個(gè)文字。確定圖片中的文字區(qū)域可以有多種方法,作為本發(fā)明中的一種實(shí)施方式,可以根據(jù)用戶的選定動(dòng)作來(lái)確定圖片中哪塊區(qū)域?qū)儆谖淖謪^(qū)域。例如將用戶指定區(qū)域作為文字區(qū)域。如用戶使用移動(dòng)設(shè)備拍攝了一張圖片,并在該圖片上劃定了ー個(gè)區(qū)域并觸發(fā)該區(qū)域提交,則本發(fā)明在步驟S1021_l中會(huì)將用戶劃定的這一區(qū)域作為文字區(qū)域。這種方式下,如果圖片上存在一片文本,用戶想要從中提取多個(gè)未登錄詞時(shí),可以在該圖片上選定一片包含連續(xù)文本的區(qū)域,而如果用戶僅僅想提取個(gè)別未登錄詞,也可以直接在該圖片上選定某個(gè)詞語(yǔ),本發(fā)明無(wú)論用戶的操作是什么,后續(xù)都能自動(dòng)將圖片中的未登錄詞添加到輸入法的詞庫(kù)中。作為另ー種實(shí)施方式,步驟S1021_l中也可以自動(dòng)地確定圖片中的文字區(qū)域,具體地,該實(shí)施例中步驟S1021_l包括以下步驟步驟S1021_ll :對(duì)步驟S 101中獲取的圖片進(jìn)行灰度變換;步驟S1021_12 :對(duì)灰度變換后的圖片進(jìn)行霍夫變換,在霍夫變換后的圖片中確定文字區(qū)域。請(qǐng)參考圖3和圖4,圖3為本發(fā)明中對(duì)獲取的圖片進(jìn)行灰度變換之后的實(shí)施例的不意圖,圖4為本發(fā)明中對(duì)灰度變換后的圖片進(jìn)行霍夫變換后的實(shí)施例的示意圖。對(duì)圖片進(jìn)行灰度變換是圖像處理中的常用手段,目的是改善畫質(zhì),使圖像的顯示效果更加清晰?;舴蜃儞Q是圖像處理中從圖像里識(shí)別幾何形狀的基本方法之一,從圖4中可以看出,經(jīng)過霍夫變換的圖片中能夠確定出文字的輪廓,而原圖片背景中的不相關(guān)圖形則被過濾掉了。步驟S1021_2中識(shí)別文字區(qū)域中的各個(gè)文字,可以采用各種現(xiàn)有的OCR (OpticalCharacter Recognition,光學(xué)字符識(shí)別)技術(shù)實(shí)現(xiàn),此外,本發(fā)明給出了一種實(shí)施方式,在該實(shí)施方式中,步驟S1021_2包括步驟S1021_21 :提取圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征。步驟S1021_22 :針對(duì)各個(gè)文字,將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì),以確定各個(gè)文字的識(shí)別結(jié)果。其中,文字與特征之間的映射庫(kù)是預(yù)先對(duì)大量文字進(jìn)行特征提取后建立的。在該映射庫(kù)中,每個(gè)文字與該文字對(duì)應(yīng)的筆劃特征之間建立了關(guān)聯(lián)關(guān)系。在步驟S1021_21中對(duì)待識(shí)別的每個(gè)文字提取筆劃特征,并在步驟S1021_22中將該文字的筆劃特征與映射庫(kù)中的特征進(jìn)行比對(duì),比對(duì)上的特征所對(duì)應(yīng)的文字,就是待識(shí)別文字的識(shí)別結(jié)果。
上述文字的筆劃特征,指的是文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。筆劃的類型包括“橫”、“豎”、“撇”、“掠”等。例如文字“三”的筆劃特征就包括了 “橫”的數(shù)量為三,且三個(gè)“橫”的位置從上至下依次排列。請(qǐng)參考圖5,圖5為本發(fā)明中提取未登錄詞條的另ー個(gè)實(shí)施例的流程示意圖。如圖5所示,步驟S102包括步驟S102a :確定圖片中的文字區(qū)域,并標(biāo)記該文字區(qū)域供用戶從該文字區(qū)域中進(jìn)行選取。步驟S102b :識(shí)別用戶在該文字區(qū)域選取的文字作為未登錄詞條。在本實(shí)施例中,步驟S102a中確定圖片中的文字區(qū)域,可以采用與步驟S1021_l類似的方法,并且,步驟S102b中識(shí)別用戶在該文字區(qū)域選取的文字,也可采用與步驟S1021_2類似的方法。本實(shí)施例,當(dāng)步驟SlOl中一旦獲取到圖片,就可以觸發(fā)步驟S102a標(biāo)記該圖片中的文字區(qū)域供用戶選取,當(dāng)用戶選定其中的文字后,步驟S102b會(huì)將該文字的
識(shí)別結(jié)果作為未登錄詞條。這種方式有利于改善用戶體驗(yàn),并且,這種方式得到的未登錄詞條更符合用戶的需要,準(zhǔn)確度更高。本發(fā)明方法在步驟S102中得到未登錄詞條后,在步驟S103中,將根據(jù)輸入法的類型確定未登錄詞條的輸入代碼序列,并將輸入代碼序列及未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中??梢岳斫猓斎敕ǖ墓δ?,就是根據(jù)輸入代碼序列,產(chǎn)生與輸入代碼序列一致的文字序列供用戶選擇。因此,詞條在輸入法詞庫(kù)中保存的形式就是輸入代碼序列與詞條之間的關(guān)聯(lián)關(guān)系。以漢語(yǔ)輸入法為例,輸入法的類型包括拼音輸入法、五筆輸入法等等。以拼音輸入法為例,假設(shè)未登錄詞條為“你好”,則步驟S103中通過查找預(yù)設(shè)的詞典,可以確定其對(duì)應(yīng)的輸入代碼序列是“nihao”,并將未登錄詞條“你好”及“nihao”之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。請(qǐng)參考圖6,圖6為本發(fā)明中向輸入法詞庫(kù)中添加詞條的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。如圖6所示,該裝置包括圖片捕獲單元201、提取單元202及添加単元203。其中圖片捕獲單元201,用于獲取圖片。提取單元202,用于從獲取的圖片中提取未登錄詞條。添加単元203,用于將未登錄詞條添加到輸入法詞庫(kù)中。請(qǐng)參考圖7a和圖7b,圖7a和圖7b分別為本發(fā)明中圖片捕獲單元的兩個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。如圖7a所示,圖片捕獲單元201包括截圖單元2011,其中截圖單元2011用于根據(jù)用戶的截圖行為獲取用戶截取的圖片,作為本發(fā)明后續(xù)待處理的圖片。如圖7b所示,圖片捕獲單元201包括拍攝單元2012,其中拍攝單元2012用于根據(jù)用戶的拍攝行為獲取用戶拍攝的圖片,作為本發(fā)明后續(xù)待處理的圖片。請(qǐng)參考圖8,圖8為本發(fā)明中提取單元的實(shí)施例一的結(jié)構(gòu)示意框圖。如圖8所示,提取單元202包括文字提取單元2021、分詞單元2022及詞條比對(duì)單元2023。其中文字提取單元2021,用于從圖像捕獲單元201獲取的圖片中提取文字。分詞単元2022,用于對(duì)提取的文字進(jìn)行分詞,以確定提取的文字中包含的候選詞條。詞條比對(duì)單元2023,用于將候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì),如果候選詞條與輸入法詞庫(kù)中的詞條不匹配,則將候選詞條作為未登錄詞條。請(qǐng)參考圖9,圖9為本發(fā)明中文字提取單元的實(shí)施例的結(jié)構(gòu)示意框圖。如圖9所示,文字提取單元2021包括區(qū)域確定單元2021_1及識(shí)別單元2021_2。
其中區(qū)域確定單元2021_1,用于確定圖片中的文字區(qū)域。識(shí)別單元2021_2,用于識(shí)別文字區(qū)域中的各個(gè)文字。作為ー種實(shí)施方式,區(qū)域確定單元2021_1將用戶指定區(qū)域作為文字區(qū)域。如用戶使用移動(dòng)設(shè)備拍攝了一張圖片,并在該圖片上劃定了ー個(gè)區(qū)域并觸發(fā)該區(qū)域提交,則區(qū)域確定單元2021_1會(huì)將用戶劃定的這一區(qū)域作為文字區(qū)域。這種方式下,如果圖片上存在一片文本,用戶想要從中提取多個(gè)未登錄詞時(shí),可以在該圖片上選定一片包含連續(xù)文本的區(qū)域,而如果用戶僅僅想提取個(gè)別未登錄詞,也可以直接在該圖片上選定某個(gè)詞語(yǔ),本裝置無(wú)論用戶的操作是什么,后續(xù)都能自動(dòng)將圖片中的未登錄詞添加到輸入法的詞庫(kù)中。作為另ー種實(shí)施方式,請(qǐng)參考圖10,圖10為本發(fā)明中區(qū)域確定單元的實(shí)施例的結(jié)構(gòu)示意框圖。如圖10所示,區(qū)域確定 單元2021_1包括第一變換單元2021_11和第二變換單元 2021_12。其中第一變換單元2021_11,用于對(duì)圖片捕獲単元201捕獲的圖片進(jìn)行灰度變換。第二變換單元2021_12,用于對(duì)灰度變換后的圖片進(jìn)行霍夫變換,并在霍夫變換后的圖片中確定文字區(qū)域。請(qǐng)參考圖3和圖4,圖3為本發(fā)明中對(duì)獲取的圖片進(jìn)行灰度變換之后的實(shí)施例的不意圖,圖4為本發(fā)明中對(duì)灰度變換后的圖片進(jìn)行霍夫變換后的實(shí)施例的示意圖。對(duì)圖片進(jìn)行灰度變換是圖像處理中的常用手段,目的是改善畫質(zhì),使圖像的顯示效果更加清晰?;舴蜃儞Q是圖像處理中從圖像里識(shí)別幾何形狀的基本方法之一,從圖4中可以看出,經(jīng)過霍夫變換的圖片中能夠確定出文字的輪廓,而原圖片背景中的不相關(guān)圖形則被過濾掉了。作為ー種實(shí)施方式,識(shí)別單元2021_2識(shí)別文字區(qū)域中的各個(gè)文字,可以采用各種現(xiàn)有的OCR技術(shù)。作為另ー種實(shí)施方式,請(qǐng)參考圖11,圖11為本發(fā)明中識(shí)別單元的實(shí)施例的結(jié)構(gòu)示意框圖。如圖11所示,識(shí)別單元2021_2包括特征提取単元2021_21,用于提取圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征。特征比對(duì)單元2021_22,用于針對(duì)各個(gè)文字,將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì),以確定各個(gè)文字的識(shí)別結(jié)果。其中,文字與特征之間的映射庫(kù)是預(yù)先對(duì)大量文字進(jìn)行特征提取后建立的。在該特征庫(kù)中,每個(gè)文字與該文字對(duì)應(yīng)的筆劃特征之間建立了關(guān)聯(lián)關(guān)系。上述筆劃特征,指的是文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。筆劃的類型包括“橫”、“豎”、“撇”、“掠”等。例如文字“三,,的筆劃特征就包括了 “橫”的數(shù)量為三,且三個(gè)“橫”的位置從上至下依次排列。請(qǐng)參考圖12,圖12為本發(fā)明中提取單元的實(shí)施例ニ的結(jié)構(gòu)示意框圖。如圖12所示,提取單元202包括標(biāo)記單元202a和詞條確定單元202b。其中標(biāo)記單元202a,用于確定圖片中的文字區(qū)域,并標(biāo)記該文字區(qū)域供用戶從該文字區(qū)域中進(jìn)行選取。詞條確定單元202b,用于識(shí)別用戶在該文字區(qū)域選取的文字作為未登錄詞條。在本實(shí)施例中,標(biāo)記單元202a確定圖片中的文字區(qū)域的方式與區(qū)域確定單元2021_1確定文字區(qū)域的方式類似,詞條確定單元202b識(shí)別文字的方式與識(shí)別單元2021_2識(shí)別文字的方式類似。本實(shí)施例的提取單元202有利于改善用戶體驗(yàn),并且,這種方式得到的未登錄詞條更符合用戶的需要,準(zhǔn)確度更高。
在本發(fā)明的裝置中,添加單元203將未登錄詞條添加到輸入法詞庫(kù)中的方式具體包括根據(jù)輸入法的類型確定未登錄詞條的輸入代碼序列,并將該輸入代碼序列及未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。可以理解,輸入法的功能,就是根據(jù)輸入代碼序列,產(chǎn)生與輸入代碼序列一致的文字序列供用戶選擇。因此,詞條在輸入法詞庫(kù)中保存的形式就是輸入代碼序列與詞條之間的關(guān)聯(lián)關(guān)系。以漢語(yǔ)輸入法為例,輸入法的類型包括拼音輸入法、五筆輸入法等等。以拼音輸入法為例,假設(shè)未登錄詞條為“你好”,則添加単元203通過查找預(yù)設(shè)的詞典,可以確定其對(duì)應(yīng)的輸入代碼序列是“nihao”,并將未登錄詞條“你好”及“nihao”之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種向輸入法詞庫(kù)中添加詞條的方法,包括 A.獲取圖片; B.從所述圖片中提取未登錄詞條; C.將所述未登錄詞條添加到輸入法詞庫(kù)中。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟A包括 根據(jù)用戶的截圖行為獲取所述用戶截取的圖片;或者, 根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B包括 BI.從所述圖片中提取文字; B2.對(duì)提取的文字進(jìn)行分詞,以確定提取的文字中包含的候選詞條; B3.將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì),如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配,則將所述候選詞條作為未登錄詞條。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟BI包括 Bll.確定所述圖片中的文字區(qū)域; B12.識(shí)別所述文字區(qū)域中的各個(gè)文字。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟Bll中將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟Bll包括 對(duì)所述圖片進(jìn)行灰度變換; 對(duì)灰度變換后的圖片進(jìn)行霍夫變換,并在霍夫變換后的圖片中確定文字區(qū)域。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟B12包括 提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征; 針對(duì)各個(gè)文字,將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì),以確定各個(gè)文字的識(shí)別結(jié)果。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B包括 確定所述圖片中的文字區(qū)域,并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選取; 識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟C包括 根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列,并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。
11.一種向輸入法詞庫(kù)中添加詞條的裝置,包括 圖片捕獲單元,用于獲取圖片; 提取單元,用于從所述圖片中提取未登錄詞條; 添加單元,用于將所述未登錄詞條添加到輸入法詞庫(kù)中。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述圖像捕獲單元包括 截圖單元,用于根據(jù)用戶的截圖行為獲取所述用戶截取的圖片;或者,拍攝單元,用于根據(jù)用戶的拍攝行為獲取所述用戶拍攝的圖片。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述提取單元包括 文字提取單元,用于從所述圖片中提取文字; 分詞單元,用于對(duì)提取的文字進(jìn)行分詞,以確定提取的文字中包含的候選詞條; 詞條比對(duì)單元,用于將所述候選詞條與輸入法詞庫(kù)中的詞條進(jìn)行比對(duì),如果所述候選詞條與輸入法詞庫(kù)中的詞條不匹配,則將所述候選詞條作為未登錄詞條。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述文字提取單元包括 區(qū)域確定單元,用于確定所述圖片中的文字區(qū)域; 識(shí)別單元,用于識(shí)別所述文字區(qū)域中的各個(gè)文字。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述區(qū)域確定單元將用戶指定區(qū)域作為所述圖片中的文字區(qū)域。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述區(qū)域確定單元包括 第一變換單元,用于對(duì)所述圖片進(jìn)行灰度變換; 第二變換單元,用于對(duì)灰度變換后的圖片進(jìn)行霍夫變換,并在霍夫變換后的圖片中確定文字區(qū)域。
17.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述識(shí)別單元包括 特征提取單元,用于提取所述圖片中的文字區(qū)域中的各個(gè)文字的筆劃特征; 特征比對(duì)單元,用于針對(duì)各個(gè)文字,將該文字的筆劃特征與預(yù)置的文字與特征之間的映射庫(kù)中的特征進(jìn)行比對(duì),以確定各個(gè)文字的識(shí)別結(jié)果。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述筆劃特征包括文字包含的各種類型的筆劃的數(shù)量及相對(duì)位置。
19.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述提取單元包括 標(biāo)記單元,用于確定所述圖片中的文字區(qū)域,并標(biāo)記所述文字區(qū)域供用戶從所述文字區(qū)域中進(jìn)行選?。? 詞條確定單元,用于識(shí)別用戶在所述文字區(qū)域選取的文字作為未登錄詞條。
20.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述添加單元將所述未登錄詞條添加到輸入法詞庫(kù)中的方式包括 根據(jù)輸入法的類型確定所述未登錄詞條的輸入代碼序列,并將所述輸入代碼序列及所述未登錄詞條之間的對(duì)應(yīng)關(guān)系添加到輸入法詞庫(kù)中。
全文摘要
本發(fā)明提供了一種向輸入法詞庫(kù)中添加詞條的方法及裝置,其中向輸入法詞庫(kù)中添加詞條的方法包括A.獲取圖片;B.從所述圖片中提取未登錄詞條;C.將所述未登錄詞條添加到輸入法詞庫(kù)中。通過上述方式,本發(fā)明能夠極大地提高未登錄詞錄入的效率,也能夠很好地提高用戶體驗(yàn)。
文檔編號(hào)G06K9/00GK102855291SQ20121028291
公開日2013年1月2日 申請(qǐng)日期2012年8月9日 優(yōu)先權(quán)日2012年8月9日
發(fā)明者欒濤, 侯建新, 連城 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司