亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

拼音輸入法中長句的生成方法

文檔序號:6354582閱讀:661來源:國知局
專利名稱:拼音輸入法中長句的生成方法
技術領域
本發(fā)明涉及中文輸入法領域,尤其涉及一種在拼音輸入法中長句的生成方法。
背景技術
隨著計算機、手機、電子閱讀器等電子設備的普及,人們廣泛應用電子設備進行文 本的輸入及輸出。目前,人們廣泛應用多種中文輸入法在計算機或手機上輸入中文漢字,其 中最為常用的是拼音輸入法和筆畫輸入法。目前大多拼音輸入法軟件都設置有一個拼音詞 庫,當用戶輸入拼音串后,該軟件通過查詢拼音詞庫識別用戶需要輸入的漢字,并提供給用 戶選擇。很多拼音輸入法不支持長句生成,當用戶將一個長句的拼音串輸入后,輸入法軟 件僅能提供多個詞組給用戶進行選擇,而不是根據(jù)拼音串生成一個長句提供給用戶選擇, 導致用戶需要進行多次選擇才能輸入一個完整的句子。若用戶使用手機輸入長句,則選詞 所消耗的時間更長,不利于用戶的操作。例如,公開號為CNlO 112290IA的中國發(fā)明專利申請公開了 一種名為“中文整句 生成方法及裝置”的發(fā)明創(chuàng)造,該整句生成方法首先對用戶輸入的拼音串進行分割,如用 戶輸入“zhejianwoshihenda”的拼音串,該方法根據(jù)音節(jié)將拼音串分割成多個拼音,獲得 "zhe' jian'wo' shi'hen' da”的多個拼音,然后通過查詢詞庫獲得“zhe,jian”拼音組對應 的漢字,提供給用戶選擇,在用戶選擇后生成該詞語。然后再獲取后面的拼音生成候選詞, 生成候選詞時先獲取上一次生成的候選詞,并根據(jù)上次生成的候選詞與當前的拼音構成有 向圖,基于有向圖生成當此的候選詞。由于該方法需要根據(jù)用戶選取的上一候選詞來判斷當前拼音所需生成的候選詞, 因此需要用戶進行多次選擇才能實現(xiàn)長句的輸入。此外,該方法生成候選詞的過程中,是根 據(jù)拼音串由前至后進行拼音組的識別,這容易將由多個漢字組成的詞語拆分,無法給用戶 提供最準確的候選詞,也導致用戶選詞的次數(shù)增多,造成用戶中文輸入的效率低下,給用戶 的輸入操作帶來極大的不便,上述缺陷在使用手機輸入中文時更為明顯。

發(fā)明內容
本發(fā)明的主要目的是提供一種能準確生成長句的拼音輸入法中長句生成方法。本發(fā)明的另一目的是提供一種輸入效率較高的拼音輸入法中長句生成方法。為了實現(xiàn)上述的主要目的,本發(fā)明提供的拼音輸入法中長句生成方法包括建立拼 音詞庫,該拼音詞庫包括長詞詞庫、短詞詞庫以及單字表,對用戶輸入的拼音串進行分割, 形成多個拼音,并且,通過查詢長詞詞庫確定拼音串中包含的四個或四個以上漢字組成的 詞語,通過查詢長詞詞庫以及短詞詞庫,查找拼音串剩余的拼音中可能存在的三個漢字組 成的三字詞以及兩個漢字組成的雙字詞,并計算每一三字詞以及每一雙字詞的可選價值, 依據(jù)每一個三字詞的可選價值以及每一個雙字詞的可選價值高低確定拼音串中剩余拼音 中包含的所有三字詞以及雙字詞,通過查詢單字表確定拼音串仍未被確定的拼音所對應的單字。由上述方案可見,本發(fā)明的方法不需要根據(jù)用戶上次生成的候選詞生成當前的詞 語,也就是無需用戶進行多次選擇生成長句。并且,生成長句的過程中,首先對字數(shù)較多的 詞語進行識別,然后對字數(shù)較少的詞語識別,最后是對單字進行識別。由于字數(shù)越多的拼音 組對應詞語的候選詞越少,生成的詞語準確率越高,通過上述方法可大大提高對拼音組的 識別準確率,生成的長句準確率也就越高。一個優(yōu)選的方案是,確定三字詞的步驟是計算三字詞的可選價值,并選取拼音 串中與三字詞對應的長詞拼音組,將與該長詞拼音組相鄰的一個拼音跟該長詞拼音組成兩 個相鄰的短詞拼音組,通過查詢短詞詞庫獲得相鄰的短詞拼音組各自對應雙字詞的短詞頻 率,使用雙字詞的短詞頻率計算相鄰雙字詞的可選價值,若三字詞的可選價值大于相鄰雙 字詞的可選價值,則選取三字詞,否則,選取相鄰雙字詞。由此可見,通過對三字詞與相鄰雙字詞可選價值的比較確定選取三字詞還是相鄰 雙字詞,可更準確地選取長句中的詞語,減少用戶選詞的麻煩,方便用戶操作,從而提高中 文輸入的效率。進一步的方案是,確定雙字詞的步驟是在確定拼音串中所有三字詞后,將剩余的 拼音劃分為多組兩兩相接的短詞拼音組,計算每一短詞拼音組對應的雙字詞的可選價值, 依據(jù)雙字詞的可選價值高低確定拼音串的雙字詞。可見,通過對兩兩相接短詞拼音組對應雙字詞可選價值的比較,能準確地選取用 戶所需輸入的雙字詞,提高長句生成的準確率。再進一步的方案是,長詞詞庫設有一個索引表,索引表包括有多個由三個字母組 成的索引拼音,每一索引拼音對應有至少一個三字詞。這樣,通過索引表查詢三字詞,能減少查找三字詞所消耗的時間,提高長句生成的效率。更進一步的方案是,短詞詞庫設有一個高頻詞庫,高頻詞庫包括多組由兩個拼音 組成的雙字拼音組,每一雙字拼音組具有唯一的拼音號,每一所述拼音號對應有一個雙字 拼音組對應的出現(xiàn)頻率最高的雙字詞。這樣,通過高頻詞庫選取出現(xiàn)頻率最高的雙字詞,選詞的時間大大減少,且詞語選 取的準確率也大為提高,從而提高長句生成的準確率與效率。更進一步的方案是,單字表設有一個高頻字表,高頻字表包括多個單字拼音,每一 單字拼音對應有三個單字,三個單字分別是該單字拼音位于句首、句中及句末時被選取頻 率最高的單字。由此可見,區(qū)分每一單字拼音位于在句首、句中及句末不同的位置,根據(jù)該單字位 于句子不同位置時選取不同的單字,可提高單字選取的準確率。


圖1是本發(fā)明實施例的流程圖。圖2是本發(fā)明實施例中用戶輸入拼音串的示意圖。圖3是本發(fā)明實施例中對拼音串分割的示意圖。圖4是本發(fā)明實施例在拼音串中確定三字詞后的示意圖。
5
圖5是本發(fā)明實施例中將拼音串的剩余拼音劃分成多個短詞拼音組的示意圖。圖6是本發(fā)明實施例中第一次雙字詞識別后的示意圖。圖7是本發(fā)明實施例中第二次雙字詞識別后的示意圖。圖8是本發(fā)明實施例中第三次雙字詞識別后的示意圖。圖9是本發(fā)明實施例中第四次雙字詞識別后的示意圖。圖10是本發(fā)明實施例中對所有三字詞以及雙字詞識別后的示意圖。以下結合附圖及實施例對本發(fā)明作進一步說明。
具體實施例方式本實施例是應用于計算機或手機上的拼音輸入法中對長句生成的方法,應用本方 法時,首先需要建立一個拼音詞庫,本實施例的拼音詞庫具有一個長詞詞庫、一個短詞詞庫 以及一個單字表,其中長詞詞庫存儲有三個或三個以上漢字組成詞語所對應的長詞拼音 組,每一個長詞拼音組對應有至少一個詞語,并且每一詞語具有自身的長詞頻率,該長詞頻 率是通過對大量文獻統(tǒng)計后所獲得的頻率,也就是該詞語在所統(tǒng)計的大量文獻中出現(xiàn)的頻 率。通常,長詞頻率是一個自然數(shù),例如,詞語“國慶節(jié)”的長詞頻率為27。本文中,將由三 個漢字組成的詞語稱為“三字詞”。短詞詞庫存儲有由兩個漢字組成的詞語對應的短詞拼音組,本文中,將兩個漢字 組成的詞語成為“雙字詞”。本實施例中,每一短詞拼音組對應有至少一個雙字詞,每一雙字 詞具有自身的短詞頻率,短詞頻率也是通過對大量文獻統(tǒng)計獲得的,并且也是一個自然數(shù), 例如,雙字詞“一起”的短詞頻率是2290。單字表存儲有大量單個漢字所對應的單字拼音,每一單字拼音對應至少一個單 字,每一個單字具有自身的單字頻率,單字頻率也是通過對大量文獻的統(tǒng)計獲得的,并且也 是一個自然數(shù)。建立拼音詞庫后,將拼音詞庫嵌入到輸入法中,即可應用本實施例對長句進行生 成。參見圖1,對長句進行生成時,首先執(zhí)行步驟Si,對用戶輸入的拼音串進行分割, 例如,用戶輸入如圖2所示的拼音串,則需要根據(jù)中文音節(jié)對拼音串進行分割,分割成多個 拼音,分割后的多個拼音如圖3所示。對拼音分割的方法與現(xiàn)有的方法相同,不再贅述。對拼音串進行分割后,執(zhí)行步驟S2,對拼音串中四個或四個漢字以上組成的詞語 進行識別。執(zhí)行該步驟時,選取分割后的多個相鄰的拼音與長詞詞庫中的長詞拼音組進行 對比,逐一篩選出四個或四個以上漢字組成的詞語。如本實施例中,首先識別句首的四個拼 音是否屬于長詞詞庫所存儲的長詞拼音組,由于長詞詞庫內并沒有“guo’ qing’ jie’ wo”這 樣的拼音組,因此不會識別“guo’ qing’ jie’ wo”這一拼音組。使用相同的方法,對拼音串 中余下的拼音進行識別。由于本實施例中并沒有四個或四個以上漢字組成的詞語,因此,四 個或四個以上漢字的識別結果為零。對四個或四個以上漢字進行識別后,執(zhí)行步驟S3,識別拼音串中可能存在的三字 詞。識別三字詞時,也是選取分割后的相鄰三個拼音與長詞詞庫中的長詞拼音組進行對比。 經過對比后,識別出該拼音串中“guo,qing' jie”對應有三字詞“國慶節(jié)”,“he,pi,jiu”
對應有三字詞“喝啤酒”。
識別三字詞后,還需要執(zhí)行步驟S4,對所識別的三字詞進行檢測,檢測的方法是將 所識別的三字詞對應的長詞拼音組與相鄰的一個拼音組成兩個相鄰的短詞拼音組,并分析 這兩個相鄰的短詞拼音組是否具有更高的可選價值,若三字詞具有更高的可選價值,則選 取該三字詞,若相鄰的兩個短詞拼音具有更高的可選價值,則選取該兩個短詞拼音,并獲得 兩個雙字詞。例如,若選取“guo,qing,jie”對應的三字詞為“國慶節(jié)”,則不能選取“guo,qing” 和“jie’ wo"這樣相鄰的兩個短詞拼音組所對應的雙字詞,因此必須檢測是選取 "guo' qing' jie”還是選取“guo’ qing”和“jie’ wo”更為合理,以提高生成長句的準確性。檢測時,首先計算三字詞的可選價值,可通過以下公式計算 三字詞可選價值=長詞頻率的二次方根X 100 (式1)
式1中,100是一個預先設定的系數(shù),實際應用是可根據(jù)實際情況對該系數(shù)進行修改。通過查詢長詞詞庫可獲得“國慶節(jié)”的長詞頻率為27,二次方根為5. 19,經過去尾 后獲得數(shù)值為5,根據(jù)式1計算其可選價值是500。然后,計算相鄰雙字詞的可選價值。通過查詢短詞詞庫可獲得“guo’ qing”和 “jie’ wo”對應的雙字詞分別是“國慶”和“接我”,其短詞頻率分別是110和14,相鄰雙字 詞的可選價值可通過以下公式計算獲得
相鄰雙字詞的可選價值=第一雙字詞的短詞頻率的二次方根X第二雙字詞的短詞頻 率的二次方根(式2)
根據(jù)式2計算可得,“國慶”的短詞頻率二次方根為10. 49,去尾后為10,“接我”的短詞 頻率二次方根為3. 24,去尾后為3,因此“國慶接我”的可選價值為30。顯然,“國慶節(jié)”的 可選價值大于“國慶接我”的可選價值,因此選擇三字詞“國慶節(jié)”而不選取相鄰雙字詞“國 慶接我”。當然,本實施例中,“guo’ qing’ jie”位于句首,前面沒有相鄰的拼音,如 "guo' qing' jie”位于句中,前后都有拼音,則需要將“guo’ qing' jie”與前面一個相鄰的 拼音再次組成相鄰雙字詞進行檢測。根據(jù)相同的方法,對于所識別的“he’ pi’ jiu”長詞拼音組也需要進行檢測。由于 “喝啤酒”的長詞頻率為1,其可選價值為100,“hai’ he”和“pi’ jiu”對應的雙字詞分別 是“海河”和“啤酒”,短詞頻率分別是17和218,相鄰雙字詞的可選價值是56,因此選取三 字詞“喝啤酒”而不選取“海河啤酒”。當然,本實施例均是選取了三字詞的情況,如句中存在“shang,hai,shi,bo”這 樣的新詞語的拼音組,則可識別存在有三字詞“上海市”以及相鄰雙字詞“上?!?“世博”,此 時,查詢長詞詞庫得到“上海市”的長詞頻率為1,可選價值為100,“上?!迸c“世博”的短詞 頻率分別是4810和14,可選價值是207,因此對于“shang,hai,shi,bo”的拼音組,應該選 取“上海世博”的相鄰雙字詞。通過上述檢測,可確定拼音串中所有的三字詞,即執(zhí)行步驟S5,確定三字詞后的拼 音串與漢字的對應關系如圖4所示。對所有三個或三個以上漢字組成的詞語進行識別后,需要執(zhí)行步驟S6,對雙字詞 進行識別。識別雙字詞時,首先將剩余的拼音劃分成多組兩兩相接的短詞拼音組,本文所 說的“相接”是指前一短詞拼音組的第二個拼音為后一短詞拼音組的第一個拼音,如圖5所示,短詞拼音組 0’ he”與短詞拼音組“he’ san”相接,短詞拼音組“he’ san”與短詞拼音 組“san’ tong”相接,如此類推。劃分多個短詞拼音組后,查詢短詞詞庫獲得每一短詞拼音組對應的雙字詞以及該 雙字詞的短詞頻率,如“wo’ he”對應的雙字詞為“我和”,短詞頻率為634,“he’ san”對應的 雙字詞為“和三”,短詞頻率為1,如此類推。圖5中,位于每一雙字詞上方或下方的是該雙 字詞的短詞頻率。然后,計算每一雙字詞的可選價值,可通過以下公式計算 雙字詞的可選價值=短詞頻率-相接雙字詞的短詞頻率/2 (式3)
例如,“我和”的可選價值=634-1/2 = 634,因為1/2的計算結果小于1,歸0?!昂腿?的可選價值=1- (634+28) /2 = -330,通過類似的計算,可得“三通”的可選價值為-142, “同學”的可選價值為312,“學藝”的可選價值為-1288,“一起”的可選價值為2267,“啟齒” 的可選價值為-1391,“吃飯”的可選價值為523,“泛?!钡目蛇x價值為-266。根據(jù)上述的計算結果,“一起”的可選價值最高,因此選取雙字詞“一起”,同時放棄 與“一起”相接的兩個雙字詞“學藝”和“啟齒”,如圖6所示。經過第一次雙字詞識別后,選取了“一起”這一雙字詞。然后,進行第二次的雙字詞 識別,依據(jù)圖6所示重新計算剩余拼音中多個短詞拼音組對應的雙字詞的可選價值,計算 結果是“我和”的可選價值為634,“和三”的可選價值為-330,“三通”的可選價值為-142, “同學”的可選價值=339-28/2 = 325,“吃飯”的可選價值=534-1/2 = 5;34,“泛?!钡目?選價值為-266。由于“我和”的可選價值最高,因此第二次雙字詞識別后選取了雙字詞“我 和”,雙字詞“和三”被放棄,如圖7所示。接著,根據(jù)圖7所示表格計算剩余短詞拼音組對應的雙字詞的可選價值,獲得“吃 飯”的可選價值為534,其是可選價值最高的雙字詞,因此第三次雙字詞識別選取了 “吃飯” 并放棄雙字詞“泛?!?,如圖8所示。由于拼音串中剩余可識別的雙字詞只有“三通”和“同學”,因此分別計算“三通”和 “同學”的可選價值。由于“同學”的可選價值大于“三通”的可選價值,因此選取“同學”并 放棄“三通”,如圖9所示。此時,拼音串中剩余“san”與“hai”兩個單字拼音未被識別。為 了提高長句生成的準確性,可對兩個單字進行一次檢測,即通過查詢短詞詞庫是否存在“和 san"以及“san同”的雙字詞,或者存在“飯hai”以及“hai喝”這樣的雙字詞,若存在上述 的雙字詞,還需要計算上述的雙字詞的短詞頻率大于一定數(shù)值,如200。通過查詢后未發(fā)現(xiàn) 短詞詞庫中存儲有上述的雙字詞,因此可確定“ san”與“hai ”為單字拼音。經過雙字詞識別后,拼音串與對應漢字的示意圖如圖10所示,拼音串中剩余的兩 個單字拼音分別是“san”與“hai”,此時執(zhí)行步驟S7,通過查詢單字表選取兩個單字拼音對 應的單字,分別是“三”與“還”。因此,生成的長句為“國慶節(jié)我和三同學一起吃飯還喝啤 酒”。由上述的方案可見,本實施例生成長句時,先對四個或四個漢字以上組成的詞語 進行識別,然后對三字詞進行識別,接著對雙字詞進行識別,最后對單字進行識別。由于字 數(shù)越多的詞語識別準確率越高,通過上述的步驟進行識別,可大幅提高詞語識別的準確率。 此外,本實施例也不需要借助于用戶上次選取的候選詞進行識別,用戶輸入較長的拼音串 后,本實施例可生成準確性較高的長句供用戶選擇,減少用戶選詞的次數(shù),提高用戶中文輸
8入的效率。當然,為了提高選詞速度,可對長詞詞庫、短詞詞庫以及單字表進行設計,通過索 引的方式進行詞語的查詢。例如,在長詞詞庫中設置一個索引表,索引表中包括由三個字母 組成的索引拼音,并賦予每一索引拼音一個索引拼音號,每一個索引拼音號對應一個三字 詞。例如,識別“zhong’ guo' ren”的拼音串時,提取該拼音串中每一拼音的首個字母, 即“zgr”,然后查詢索引表與索引拼音進行對比,查詢到“zgr”對應的三字詞為“中國人”, 則選取“中國人”作為拼音串“zhong’ guo' ren”對應的漢字。賦予索引拼音的索引拼音號時,可將索引拼音看作一個26進制的三位數(shù),其中第 一位是百位,第二位是十位,第三位是個位,而每一位上的字母按照其在字母表上的順序給 予相應的序號,從而獲得一個唯一的索引拼音號。并且,在短詞詞庫內設置一個高頻詞庫,高頻詞庫存儲有多組兩個拼音組成的雙 字拼音組,并且賦予每一個雙字拼音組一個唯一的拼音號。賦予雙字拼音號前,首先賦予每 一拼音唯一的拼音號,例如“zhong”的拼音號為20,“guo”的拼音號為100,一共有420個 拼音,每一個拼音均設置唯一的拼音號。對于雙字拼音號,可看作一個420進制的兩位數(shù),第一位是十位,第二位是個位, 則“ zhongguo ”的拼音號是20X420+100 = 8500。每一個拼音號對應有一個該雙字拼音組 對應的出現(xiàn)頻率最高的雙字詞,如“zhongguo”對應的雙字詞中出現(xiàn)頻率最高的是“中國”。 因此,當需要識別的短詞拼音組為“zhongguo”時,可計算該短詞拼音組的拼音號,并從高頻 詞庫中獲取出現(xiàn)頻率最高的雙字詞。對于單字的識別,則可根據(jù)單字拼音出現(xiàn)在句首、句中以及句末等不同情況區(qū)分 不同的單字,所選取的單字也就不相同。例如,單字拼音“ba”出現(xiàn)在句首與句中時,選取頻 率最高是“把”,但出現(xiàn)在句末時,選取頻率最高的是“吧”;又如。單字拼音“ju”出現(xiàn)在句 首時,選取頻率最高的是“據(jù)”,出現(xiàn)在句中時,選取頻率最高的是“距”,出現(xiàn)在句末時,選取 頻率最高的是“局”。為了提高單字選取的準確性,應根據(jù)單字拼音出現(xiàn)在句子的不同位置 而選取不同的單字。因此,在單字表中設置一個高頻字表,高頻字表中存儲有多個單字拼音,每一單字 拼音對應有三個單字,三個單字分別是單字拼音出現(xiàn)在句首、句中以及句末是選取頻率最 高的單字。對單字拼音進行識別時,應該首先判斷該單字拼音在句子中的位置,任何通過查 詢高頻字表確定選取哪一單字并生成句子??梢?,通過本實施例的方法生成長句后,準確性可大為提高,且減少了用戶選詞的 次數(shù)。當然,本實施例中,每一長詞的長詞頻率、短詞的短詞頻率以及單字的單字頻率可 根據(jù)用戶多次選詞后進行更改,以便將用戶最常選擇的詞語或單字提供給用戶選擇。最后需要強調的是,本發(fā)明不限于上述實施方式,如詞語可選價值計算方法的改 變、高頻詞庫中拼音號設置方法的改變等變化也應該包括在本發(fā)明權利要求的保護范圍 內。
權利要求
1.拼音輸入法中長句的生成方法,包括建立拼音詞庫,所述拼音詞庫包括長詞詞庫、短詞詞庫以及單字表;對用戶輸入的拼音串進行分割,形成多個拼音;其特征在于通過查詢所述長詞詞庫確定所述拼音串中包含的四個或四個以上漢字組成的詞語;通過查詢所述長詞詞庫以及所述短詞詞庫,查找所述拼音串剩余的拼音中可能存在的 三個漢字組成的三字詞以及兩個漢字組成的雙字詞,并計算每一所述三字詞以及每一所述 雙字詞的可選價值,依據(jù)每一所述三字詞的可選價值以及每一所述雙字詞的可選價值高低 確定剩余的拼音中包含的所有三字詞以及雙字詞;通過查詢所述單字表確定所述拼音中串仍未被確定的拼音所對應的單字。
2.根據(jù)權利要求1所述拼音輸入法中長句的生成方法,其特征在于所述長詞詞庫存儲有多組由三個或三個以上拼音組成的長詞拼音組,每一所述長詞拼 音組對應有至少一個長詞,每一所述長詞對應有長詞頻率。
3.根據(jù)權利要求2所述拼音輸入法中長句的生成方法,其特征在于所述短詞詞庫存儲有多組由兩個拼音組成的短詞拼音組,每一所述短詞拼音組對應有 至少一個雙字詞,每一所述雙字詞對應有短詞頻率。
4.據(jù)權利要求3所述拼音輸入法中長句的生成方法,其特征在于確定所述三字詞的步驟是計算所述三字詞的可選價值,并選取所述拼音串中與所述 三字詞對應的長詞拼音組,將與所述長詞拼音組相鄰的一個拼音跟所述長詞拼音組成兩個 相鄰的短詞拼音組,通過查詢所述短詞詞庫獲得所述相鄰的短詞拼音組各自對應雙字詞的 短詞頻率,使用所述雙字詞的短詞頻率計算相鄰雙字詞的可選價值,若所述三字詞的可選 價值大于所述相鄰雙字詞的可選價值,則選取所述三字詞,否則,選取所述相鄰雙字詞。
5.根據(jù)權利要求4所述拼音輸入法中長句的生成方法,其特征在于計算所述三字詞可選價值的步驟是計算所述長詞頻率的二次方根與設定系數(shù)的乘積。
6.根據(jù)權利要求4或5所述拼音輸入法中長句的生成方法,其特征在于計算所述相鄰雙字詞的可選價值步驟是計算所述相鄰雙字詞中的每一所述雙字詞的 短詞頻率二次方根的乘積。
7.根據(jù)權利要求3至5任一項所述拼音輸入法中長句的生成方法,其特征在于確定所述雙字詞的步驟是在確定所述拼音串中所有三字詞后,將剩余的拼音劃分為 多組兩兩相接的短詞拼音組,計算每一所述短詞拼音組對應的雙字詞的可選價值,依據(jù)所 述雙字詞的可選價值高低確定所述拼音串的雙字詞。
8.根據(jù)權利要求1至5任一項所述拼音輸入法中長句的生成方法,其特征在于所述長詞詞庫設有一個索引表,所述索引表包括有多個由三個字母組成的索引拼音, 每一所述索引拼音對應有至少一個所述三字詞。
9.根據(jù)權利要求1至5任一項所述拼音輸入法中長句的生成方法,其特征在于所述短詞詞庫設有一個高頻詞庫,所述高頻詞庫包括多組由兩個拼音組成的雙字拼音 組,每一雙字拼音組具有唯一的拼音號,每一所述拼音號對應有一個所述雙字拼音組對應 的出現(xiàn)頻率最高的雙字詞。
10.根據(jù)權利要求1至5任一項所述拼音輸入法中長句的生成方法,其特征在于 所述單字表設有一個高頻字表,所述高頻字表包括多個單字拼音,每一所述單字拼音 對應有三個單字,所述三個單字分別是所述單字拼音位于句首、句中及句末時被選取頻率最高的單字。
全文摘要
本發(fā)明提供一種拼音輸入法中長句的生成方法,包括建立拼音詞庫,該拼音詞庫包括長詞詞庫、短詞詞庫以及單字表,對用戶輸入的拼音串進行分割,形成多個拼音,并且,通過查詢長詞詞庫確定拼音串中包含的四個或四個以上漢字組成的詞語,通過查詢長詞詞庫以及短詞詞庫,查找拼音串剩余的拼音中可能存在的三個漢字組成的三字詞以及兩個漢字組成的雙字詞,并計算每一三字詞以及每一雙字詞的可選價值,依據(jù)每一個三字詞的可選價值以及每一個雙字詞的可選價值高低確定拼音串中剩余拼音包含的所有三字詞以及雙字詞,通過查詢單字表確定拼音串中仍未被確定拼音所對應的單字。本發(fā)明能準確地生成長句,并減少用戶的選詞操作,提高用戶中文輸入效率。
文檔編號G06F3/023GK102081677SQ20111003957
公開日2011年6月1日 申請日期2011年2月17日 優(yōu)先權日2011年2月17日
發(fā)明者陳翔 申請人:珠海全志科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1