專利名稱:計算機文字輸入方法和系統(tǒng)及其詞庫維護(hù)方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機的文字處理技術(shù),尤其涉及一種計算機文字輸入方法 和文字輸入系統(tǒng),及其的詞庫維護(hù)方法和維護(hù)裝置。
背景技術(shù):
計算機文字輸入方法很多,主要通過計算機的鍵盤輸入特定的文字編 碼,根據(jù)該文字編碼生成對應(yīng)的文字,完成最終的輸入。所述的特定文字編 碼有許多種,對于漢字來講,主要有拼音編碼、五筆字型編碼、筆劃編碼等。對于文字輸入法系統(tǒng),一般都設(shè)置有用戶詞庫,用于記錄用戶輸入的文 字,并在用戶下次輸入文字時,優(yōu)先顯示用戶詞庫中詞頻較高的文字作為候 選對象供用戶選擇輸入,以提高用戶輸入速度。圖1為一種現(xiàn)有的拼音輸入法的處理流程示意圖。參見圖l,該流程包括三個階段,即音節(jié)劃分,候選詞生成和智能組詞。用戶首先輸入拼音串(也就是文字編碼);文字輸入系統(tǒng)按照一定的劃 分策略對輸入的拼音串進(jìn)行拼音劃分;再根據(jù)音節(jié)劃分的結(jié)果,生成音節(jié)序 列對應(yīng)的候選詞并按照一定的詞頻或最后記憶功能依次排列顯示給用戶進(jìn) 行選擇;在整個音節(jié)序列沒有對應(yīng)候選詞的情況下,則需要智能組詞,即通 過某種算法進(jìn)行動態(tài)組詞以形成完整的整句結(jié)果,然后顯示給用戶;用戶在 候選的字詞或整句中選擇一個需要的就完成了一次文字的輸入。并且在輸入 字詞或整句的同時,文字輸入系統(tǒng)需要將輸入的文字記錄到用戶詞庫中,并 統(tǒng)計對應(yīng)的輸入頻率,即詞頻。但是,現(xiàn)有的文字輸入系統(tǒng)中,用戶詞庫只是簡單地對用戶所輸入的所 有文字都進(jìn)行記錄,并進(jìn)行詞頻統(tǒng)計。然而對于世界上的大部分語言,存在著這樣的客觀語言規(guī)律,即既有實詞、也有虛詞。對計算機輸入法的用戶來說,對文字輸入速度起實質(zhì)影響的是實詞,而且是使用頻率高的實詞;并且實詞之間也會呈現(xiàn)出各種組合,從而得到意義不同的短語,例如用戶輸入"喜歡"這個詞的詞頻達(dá)到100,但是其中有90次前面都是加有"不"字, 所以用戶的習(xí)慣用語應(yīng)該是"不喜歡"而不是"喜歡"?,F(xiàn)有文字輸入系統(tǒng)將用戶輸入的所有文字都存入用戶詞庫,而真正利用 到的只是其中的實詞,其中大量的虛詞都是沒有實際意義的冗余信息,并且 對實詞之間也沒有進(jìn)行本意分析以正確反映用戶的習(xí)慣用語。這樣導(dǎo)致用戶 詞庫所占的存儲空間較大,并且在進(jìn)行詞頻排序等處理時所需計算量也較 大,影響文字輸入系統(tǒng)的處理速度;并且輸出的候選詞常常不能精確反映用 戶的習(xí)慣用語,影響用戶文字輸入的速度。另外,目前也出現(xiàn)了一種網(wǎng)絡(luò)文字輸入系統(tǒng)及其對應(yīng)的輸入法,該方法 在網(wǎng)絡(luò)側(cè)的服務(wù)器上設(shè)置有核心詞庫,參見圖1中的核心詞庫,各個終端上 的文字輸入系統(tǒng)可以將本地輸入的文字上報給服務(wù)器,或者將本地的用戶詞 庫上報給服務(wù)器,由服務(wù)器將各個用戶詞庫內(nèi)的文字記錄到核心詞庫中,并 對各個文字進(jìn)行詞頻統(tǒng)計排序。終端用戶也可以從服務(wù)器下載所述核心詞庫 作為本地的用戶詞庫進(jìn)行文字輸入。鑒于現(xiàn)有技術(shù)中用戶詞庫的冗余信息較多,終端將用戶詞庫上報給服務(wù) 器后,核心詞庫的冗余信息將會更大,導(dǎo)致既占用過多的網(wǎng)絡(luò)存儲資源,又 浪費了大量的計算資源。并且, 一般利用網(wǎng)絡(luò)文字輸入系統(tǒng)的用戶都是通過 網(wǎng)絡(luò)傳輸方式進(jìn)行文字交流的,對于同一段時期、或者同一個網(wǎng)絡(luò)區(qū)域的用 戶來說,由于需要相互交流,因此各個用戶所用到的習(xí)慣用語非常雷同,然 而現(xiàn)有的這種核心詞庫也不能精確體現(xiàn)出整體用戶的習(xí)慣用語,從而影響用 戶的文字輸入速度和文字交流速度。發(fā)明內(nèi)容有鑒于此,本發(fā)明所要解決的技術(shù)問題在于提供一種計算機文字輸入系統(tǒng)的詞庫維護(hù)方法和維護(hù)裝置,以節(jié)省存儲資源和計算資源,提高文字輸入 效率和輸入精度。本發(fā)明所要解決的另一技術(shù)問題在于提供一種計算機文件輸入方法和 輸入系統(tǒng),以節(jié)省存儲資源和計算資源,提高文字輸入效率和輸入精度。 為了實現(xiàn)上述發(fā)明目的,本發(fā)明的主要技術(shù)方案為一種計算機文字輸入系統(tǒng)的詞庫維護(hù)方法,該方法預(yù)先存儲虛詞庫,并包括將輸入到計算機的文字信息記錄到用戶詞庫中,并統(tǒng)計輸入的詞頻; 查找用戶詞庫中是否有與所述虛詞庫中的虛詞相同的文字,如果有則將該文字從用戶詞庫中刪除;對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的一個以 上的文字進(jìn)行合并。優(yōu)選的,該方法預(yù)先設(shè)置與詞性對應(yīng)的分析報告模版;并進(jìn)一步包括 對用戶詞庫進(jìn)行詞頻排序,生成詞頻列表; 選出詞頻列表中符合指定詞頻條件的文字;判斷所選文字的詞性,選擇該詞性對應(yīng)的分析報告模版,將所選文字填 入到對應(yīng)的分析報告模版中,生成分析報告。優(yōu)選的,所述文字輸入系統(tǒng)具有網(wǎng)絡(luò)賬號;且該方法在生成所述分析報 告后,進(jìn)一步包括檢測用戶輸入的上傳指令;當(dāng)檢測到上傳指令時,判斷當(dāng)前的文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號是否與用戶 指定的業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)賬號關(guān)聯(lián),如果是,則執(zhí)行下一步驟;否則結(jié)東本 流程;將所述分析報告上傳到所述網(wǎng)絡(luò)賬號對應(yīng)的業(yè)務(wù)服務(wù)器上。優(yōu)選的,該方法預(yù)先設(shè)置與所述業(yè)務(wù)服務(wù)器的業(yè)務(wù)類型對應(yīng)的上傳模版;所述上傳分析報告的具體方法為讀取文字輸入系統(tǒng)所關(guān)聯(lián)的業(yè)務(wù)類型所對應(yīng)的上傳模版,將所述用戶網(wǎng)絡(luò)賬號和分析報告的內(nèi)容填入到上傳模版 中,通過上傳模版的特定格式將所述分析報告的內(nèi)容上傳到對應(yīng)的網(wǎng)絡(luò)服務(wù) 器。優(yōu)選的,所述進(jìn)行詞頻分析以及合并文字的具體方法為判斷一個文字 與其它文字的搭配詞頻是否大于該被搭配文字總詞頻的特定比率,如果是, 則將所述相互搭配的文字進(jìn)行合并。優(yōu)選的,在將輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的 輸入時間;并且,在后續(xù)的對用戶詞庫的維護(hù)過程中,首先讀取預(yù)先存儲的 詞頻分析時間段,并在用戶詞庫中選擇符合所述詞頻分析時間段內(nèi)的文字, 然后將選出的文字作為后續(xù)步驟的處理對象進(jìn)行處理。一種計算機文字輸入系統(tǒng)的詞庫維護(hù)裝置,包括詞庫輸入模塊,用于將通過文字輸入系統(tǒng)輸入計算機的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計;第一維護(hù)模塊,其中存儲有虛詞庫,用于判斷用戶詞庫中的文字中是否 有與預(yù)設(shè)虛詞庫中的虛詞相同的詞,如果是則將該詞從用戶詞庫中刪除;第二維護(hù)模塊,用于對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá) 到特定要求的 一個以上的文字進(jìn)行合并。優(yōu)選的,該詞庫維護(hù)裝置進(jìn)一步包括排序模塊,用于對所述用戶詞庫中 的文字進(jìn)行詞頻排序,生成詞頻列表。優(yōu)選的,該詞庫維護(hù)裝置進(jìn)一步包括分析報告自動生成模塊,其中存儲 有與詞性對應(yīng)的分析報告模版,用于選出詞頻列表中符合指定詞頻條件的文 字,并判斷所選文字的詞性,選擇該詞性對應(yīng)的分析報告模版,將所選文字 填入到對應(yīng)的分析報告模版中,生成分析報告。優(yōu)選的,該詞庫維護(hù)裝置進(jìn)一步包括一鍵上傳模塊,用于檢測用戶輸入 的上傳指令, 一旦檢測到上傳指令則判斷本地文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號是否 與用戶指定的業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)賬號關(guān)聯(lián),當(dāng)判定關(guān)聯(lián)時,將所述分析報告 上傳到所述網(wǎng)絡(luò)賬號對應(yīng)的業(yè)務(wù)服務(wù)器上。優(yōu)選的,所述用戶詞庫進(jìn)一步包括輸入時間記錄模塊,用于在將輸入計 算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時間;所述詞庫維護(hù)裝置進(jìn)一步包括第三維護(hù)模塊,其中存儲詞頻分析時間 段,用于在用戶詞庫中選擇符合所述詞頻分析時間段內(nèi)的文字,將選出的文 字作為所述第一維護(hù)模塊和第二維護(hù)模塊的維護(hù)對象。一種計算機文字輸入方法,包括a、 將輸入計算機的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計;b、 判斷用戶詞庫中的文字中是否有與預(yù)設(shè)虛詞庫中的虛詞相同的詞, 如果是則將該詞從用戶詞庫中刪除;并對用戶詞庫中的文字詞頻進(jìn)行分析, 對搭配詞頻達(dá)到特定要求的一個以上的文字進(jìn)行合并;c、 當(dāng)檢測到用戶的文字輸入編碼時,在所述用戶詞庫中査找與輸入編 碼匹配的文字;d、 對查找到的文字進(jìn)行詞頻排序,選擇詞頻符合指定詞頻條件的文字 作為輸入候選對象顯示;e、 根據(jù)用戶輸入的選擇指令從所述候選對象中確定最終的文字完成輸 入,返回步驟a。優(yōu)選的,該方法預(yù)先設(shè)置存儲指定的詞頻輸入時間段;并且,步驟a中, 在將輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時間;步 驟c中,當(dāng)檢測到用戶的文字輸入編碼時,在所述用戶詞庫中查找處于所述 指定詞頻輸入時間段內(nèi)的、且與輸入編碼匹配的文字。一種計算機文字輸入系統(tǒng),該系統(tǒng)包括用戶詞庫,用于存儲用戶文字;編碼輸入匹配模塊,用于檢測用戶的文字輸入編碼,在所述用戶詞庫中 查找與輸入編碼匹配的文字;候選對象顯示模塊,用于對所述編碼輸入匹配模塊査找到的文字進(jìn)行詞 頻排序,選擇詞頻符合指定詞頻條件的文字作為輸入候選對象顯示;文字輸入模塊,用于根據(jù)用戶輸入的選擇指令從所述候選對象中確定最終的文字完成輸入;詞庫輸入模塊,用于將所述文字輸入模塊輸入的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計;詞庫維護(hù)模塊,其中存儲有虛詞庫,用于判斷用戶詞庫中的文字中是否有與預(yù)設(shè)虛詞庫中的虛詞相同的詞,如果是則將該詞從用戶詞庫中刪除;并 對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的 一個以上的 文字進(jìn)行合并。優(yōu)選的,所述詞庫輸入模塊中進(jìn)一步包括輸入時間記錄模塊,用于在將 輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時間;所述編碼輸入匹配模塊中進(jìn)一步包括詞頻輸入時間存儲單元;所述編碼 輸入匹配模塊根據(jù)詞頻輸入時間存儲單元的存儲信息,在所述用戶詞庫中査 找處于所述指定詞頻輸入時間段內(nèi)的、且與輸入編碼匹配的文字。相對于現(xiàn)有技術(shù),本發(fā)明可以對用戶詞庫中的文字進(jìn)行虛詞過濾,以及 進(jìn)行詞頻本意分析以正確反映用戶的習(xí)慣用語,因此本發(fā)明可以實現(xiàn)用戶詞庫中文字的精簡組合,降低用戶詞庫的存儲量,減少對計算機存儲資源的占 用,減少輸入系統(tǒng)的計算量,并可以精確體現(xiàn)用戶實際的習(xí)慣用語,將這些 習(xí)慣用語作為候選詞進(jìn)行輸入,可以大幅提高文字輸入系統(tǒng)的文字輸入效率 和文字輸入精度。并且,本發(fā)明還可以設(shè)置詞頻輸入的時間段,只對該時間段內(nèi)容的詞庫 進(jìn)行精簡分析排序,從而使用戶可以精確地得知在某一特定時間段內(nèi)的習(xí)慣 用語是什么。對于某些特殊專業(yè)的用戶,例如一些專業(yè)的文檔錄入人員,經(jīng) 常會遇到這種場景例如在第一個月輸入的文檔主要涉及互聯(lián)網(wǎng)領(lǐng)域,在該 段時間內(nèi)產(chǎn)生的習(xí)慣用語主要涉及互聯(lián)網(wǎng)術(shù)語;在第二個月輸入的文檔可能 主要涉及機械制造領(lǐng)域,在該段時間內(nèi)產(chǎn)生的習(xí)慣用語主要涉及機器制造的 術(shù)語;而到了第三個月可能又會輸入涉及互聯(lián)網(wǎng)領(lǐng)域的文檔,這時就可以利 用本發(fā)明設(shè)置只對第一個月內(nèi)的用戶詞庫進(jìn)行精簡分析排序,從而使文字輸 入系統(tǒng)輸出的用戶習(xí)慣用語又主要涉及互聯(lián)網(wǎng)術(shù)語,從而極大地方便了用戶輸入特定的術(shù)語,提高了文字輸入效率。然而現(xiàn)有技術(shù)的用戶詞庫只能粗略 地得到過去總體的習(xí)慣用語,不能精確輸出過去某 一 時間段內(nèi)的習(xí)慣用語。對于網(wǎng)絡(luò)文字輸入系統(tǒng)來說,由于精簡了用戶詞庫,對應(yīng)的網(wǎng)絡(luò)核心詞 庫的內(nèi)容也相應(yīng)地精簡了 ,核心詞庫可以體現(xiàn)某 一 段時間內(nèi)整體終端用戶的 習(xí)慣用語,方便用戶利用習(xí)慣用語進(jìn)行文字輸入。尤其在不同用戶之間進(jìn)行 文字交流的情況下,由于客觀的討論主題是一致的,根據(jù)客觀的語言規(guī)律, 討論主題一致時,對話中采用相同習(xí)慣用語的概率較大,因此通過本發(fā)明更 新核心詞庫,討論組的各方可以在更短的時間內(nèi)容選擇輸入包括習(xí)慣用語的 文字,提高了通訊各方的文字輸入速度交流效率。另外,本發(fā)明還可以對用戶詞庫進(jìn)行詞頻排序,對符合詞頻條件的文字 添加到其詞性對應(yīng)的分析報告模版中,生成分析報告,從而可以使用戶更加 了解自己的語言習(xí)慣,進(jìn)一步方便用戶使用文字輸入系統(tǒng)。對于與網(wǎng)絡(luò)上的特定業(yè)務(wù)服務(wù)器關(guān)聯(lián)的文字輸入系統(tǒng),本發(fā)明還可以將 所述分析報告一鍵上傳到對應(yīng)的業(yè)務(wù)服務(wù)器,并以該業(yè)務(wù)服務(wù)器特定的發(fā)表 方式進(jìn)行發(fā)表,以方便用戶到業(yè)務(wù)服務(wù)器上查看分析報告。
圖1為一種現(xiàn)有的拼音輸入法的處理流程示意圖;圖2為本發(fā)明所述對詞庫進(jìn)行維護(hù)的 一 種實施處理流程圖; 圖3為本發(fā)明所述自動生成用戶習(xí)慣用語分析報告的一種實施流程圖; 圖4為本發(fā)明所述一鍵上傳的具體實現(xiàn)方法的流程示意圖; 圖5為本發(fā)明所述的計算機文字輸入方法的一種流程圖; 圖6為本發(fā)明所述計算機文字輸入系統(tǒng)的詞庫維護(hù)裝置的一種結(jié)構(gòu)示 意圖;圖7為本發(fā)明所述計算機文字輸入系統(tǒng)的詞庫維護(hù)裝置的另一種結(jié)構(gòu) 示意圖;圖8為本發(fā)明所述的計算機文字輸入系統(tǒng)的 一種結(jié)構(gòu)示意圖。
具體實施方式
下面通過具體實施例和附圖對本發(fā)明做進(jìn)一步詳細(xì)說明。 本發(fā)明所述的方法適合于任何具有用戶詞庫的文字輸入系統(tǒng),例如對于 漢字來講,可以適用于拼音輸入系統(tǒng)、五筆字型輸入系統(tǒng)、筆劃輸入系統(tǒng)等。 下面的實施例以常用的拼音輸入系統(tǒng)為例對本發(fā)明進(jìn)行說明。本發(fā)明的核心技術(shù)方案為預(yù)先存儲虛詞庫,將通過計算機文字輸入系 統(tǒng)輸入到計算機的文字信息記錄到用戶詞庫中,并統(tǒng)計輸入的詞頻;然后是 對用戶詞庫的后期維護(hù)過程,至少包括虛詞過濾和本意分析合并。所述虛詞過濾即對于用戶詞庫中的文字,查找其中是否有與所述虛詞庫中的虛詞相 同的文字,如果有則將該文字從用戶詞庫中刪除;所述本意分析合并即對 用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的 一 個以.上的文 字進(jìn)行合并。所述向用戶詞庫記錄文字信息并統(tǒng)計詞頻的具體方法例如每完成一次 文字的輸入,則判斷用戶詞庫中有沒有該文字,如果沒有,則將該文字加入 詞庫,詞頻設(shè)置為1,如果有,則將其對應(yīng)的詞頻加1。本發(fā)明所述的文字 可以是單個的字或詞,或者是一個整句。所述虛詞過濾和本意分析合并的觸發(fā)時機可以是由用戶通過輸入指令 進(jìn)行觸發(fā),也可以在用戶詞庫中每記錄一個文字信息后就自動觸發(fā)。圖2為本發(fā)明所述對詞庫進(jìn)行維護(hù)的一種實施處理流程圖。參見圖2, 在本實施例中,由用戶通過觸發(fā)指令觸發(fā)對用戶詞庫的后期維護(hù)過程,即圖 2中的用戶詞庫200已經(jīng)記錄了用戶輸入的文字并進(jìn)行了詞頻統(tǒng)計。該流程 包括步驟201、對用戶詞庫中的文字內(nèi)容進(jìn)行時間判斷。為了實現(xiàn)本步驟,在將輸入計算機的文字記錄到用戶詞庫時,需要進(jìn)--步記錄對應(yīng)的輸入時間;用戶可以在文字輸入系統(tǒng)中預(yù)先設(shè)置詞頻分析時間 段,該時間段例如可以是最近一個星期、最近一個月甚至一年(用戶可以自行選擇設(shè)置)。在本步驟201中,首先讀取用戶設(shè)置的詞頻分析時間段,并 對所述用戶詞庫中的文字的輸入時間進(jìn)行判斷,選擇符合所述詞頻分析時間 段內(nèi)的文字,執(zhí)行后續(xù)步驟;對于不符合所述詞頻分析時間的文字則不屬于 后續(xù)步驟的處理對象。通過設(shè)定時間段,可以實現(xiàn)只對某個時間段內(nèi)的用戶 詞庫進(jìn)行精簡排序,從而使用戶可以精確地得知在某 一特定時間段內(nèi)的習(xí)慣 用語是什么。當(dāng)然,本步驟201是可選步驟,也可以只對所述用戶詞庫200執(zhí)行步驟 202及后續(xù)步驟。步驟202 、對用戶詞庫中的屬于所述詞頻分析時間內(nèi)的文字進(jìn)行詞頻排 序,當(dāng)然如果沒有執(zhí)行步驟201則對用戶詞庫中的所有文字進(jìn)行詞頻;排序 后生成詞頻列表,即按照詞頻由高到低對所述文字進(jìn)行排序。所述的文字的 詞頻就是該文字的輸入頻率。步驟203、對詞頻排序中的文字進(jìn)行虛詞過濾處理。具體的處理過程為 判斷所述詞頻列表中是否有與所述預(yù)設(shè)虛詞庫中的虛詞相同的文字,如果有 則將該文字從用戶詞庫中刪除;如果沒有則保留該文字。例如根據(jù)特定語言 的客觀語言規(guī)律,在所述虛詞庫中可以設(shè)置存儲獨立出來沒有具體意義的虛 詞,例如"的"、"了""吧"等助詞,從而使獨立出來具備具體意義的實 詞在用戶詞庫繼續(xù)保留。步驟204、對文字進(jìn)行本意分析,即對用戶詞庫中的文字詞頻進(jìn)行分析, 對搭配詞頻達(dá)到特定要求的一個以上的文字進(jìn)行合并。具體包括用戶是否 在使用此詞的時候同時搭配了其他用來形容和確定此詞真實意思的其他詞, 如果兩個詞的搭配使用到達(dá)特定的概率,則需要把這兩個詞合并,在詞頻排 序中的位置則是以中心詞的詞頻為準(zhǔn)。此處具體的處理方法例如可以為假設(shè)詞A的總詞頻為N,詞B的總 詞頻為M, A+B的搭配詞頻為X,則將該X和所述M和N進(jìn)行比較,如果 X小于N的特定比率(例如N x 50% ,這個特定比率可以預(yù)先設(shè)置存儲在文 字輸入系統(tǒng)中),同時X小于M的特定比率(例如Mx50M,這個特定比率可以預(yù)先設(shè)置存儲在文字輸入系統(tǒng)中),那么A和B作為單獨的詞,不進(jìn)行合并;如果X大于N的所述特定比率,或者X大于M的所述特定比率, 則需要合并A和B。并且可以將X作為合并后的A+B的詞頻,或者將A和 B 二者中的中心詞的詞頻作為A+B的詞頻。例如用戶可能輸入"喜歡",但如果用戶輸入"喜歡"的同時,有 90%以上的幾率在"喜歡"的前面加上了 "不"字,那么其實用戶輸入習(xí)慣 中,經(jīng)常使用的應(yīng)該為"不喜歡",因此需要將"不"和"喜歡"合并成"不 喜歡",由于"喜歡"為中心詞,則繼續(xù)以"喜歡"的詞頻作為合并詞即"不 喜歡"的詞頻。步驟205、對詞頻列表中詞頻位置進(jìn)行調(diào)整處理,生成最終的詞頻列表300。由于上述步驟203和步驟204的處理,所述詞頻列表中的某些文字可能 被刪除或合并,從而導(dǎo)致按照某種規(guī)則排序的詞頻順序出現(xiàn)空缺,所以需要 從最后一個文字開始,自動檢測上一詞頻位置是否空缺,如果空缺將詞頻位 置向上調(diào)整,直到不再有空缺為止。當(dāng)然,上述步驟202和步驟205也是可選的步驟,是為后續(xù)生成分析報 告或生成候選輸入文字所做的準(zhǔn)備,對于僅實現(xiàn)減少用戶詞庫量這個目的來 講,步驟202和步驟205也是可以省略的。針對上述的用戶詞庫,本發(fā)明還可以自動生成用戶習(xí)慣用語的分析報 告,以方便用戶査看自己的語言習(xí)慣。為了實現(xiàn)自動生成分析報告,本發(fā)明 需要預(yù)先存儲與詞性對應(yīng)的分析報告模版,并需要對用戶詞庫進(jìn)行詞頻排 序,生成詞頻列表(這個步驟在圖2所示的流程中已經(jīng)完成)。例如可以分 別設(shè)置與名詞、動詞、形容詞、或者其它詞性對應(yīng)的分析報告模版。所述與 詞性對應(yīng)的分析報告模版中可以預(yù)先設(shè)置(可以默認(rèn)設(shè)置也可以由用戶自行 設(shè)置)與所述詞性相匹配的文字信息,并留出相應(yīng)的空白位置以填入從詞頻 列表中選出的文字。例如對于名詞,在一種比較簡單的分析報告模版中可以 將對應(yīng)的文字信息設(shè)置為"您最近經(jīng)常提到—,您是不是需要一個了?',。圖3為本發(fā)明所述自動生成用戶習(xí)慣用語分析報告的一種實施流程閨。 參見圖3,步驟301、對所述經(jīng)過排序處理的詞頻列表300進(jìn)行分析,選出詞頻列 表中符合指定詞頻條件的文字。所述指定詞頻條件例如可以是詞頻最高的文 字、或者詞頻處于前十位的文字、或者詞頻達(dá)到某個特定值的文字。所述的 詞頻條件可以預(yù)先指定并存儲到文字輸入系統(tǒng)中。步驟302、確定所選文字的詞性,讀取該詞性對應(yīng)的分析報告模版。所述確定詞性的方法可以為預(yù)先設(shè)置語法庫,其中存儲所有文字的詞 性信息,可以從該語法庫中查找所選文字的詞性。如果所選的文字為上述步驟204所合并成的復(fù)合詞匯,則詞性以合并后 的中心詞為主,所述語法庫中也可以設(shè)置中心詞信息,可以通過查詢語法庫 確定中心詞。例如"好開心"這個復(fù)合詞的中心詞是"開心","好"只 是用來形容的,所以就以"開心"的詞性,即動詞為準(zhǔn),調(diào)出相應(yīng)的預(yù)先設(shè) 置好為動詞匹配的語句。步驟303、將所選文字填入到與其詞性對應(yīng)的分析報告模版中,生成分 析報告。下面是一個具體的實例,假設(shè)所述詞頻列表中詞頻最高的文字為"電 腦",分析得出其詞性為名詞,如果名詞對應(yīng)的分析報告模版為"您最近經(jīng) 常提到—,是不是需要一個—了?"則對應(yīng)生成的分析報告內(nèi)容是"您 最近經(jīng)常提高電腦,是不是需要一個電腦了?"另外,本發(fā)明所述的方法同樣適用于網(wǎng)絡(luò)文字輸入系統(tǒng),目前許多網(wǎng)絡(luò) 文字輸入系統(tǒng)都設(shè)置有網(wǎng)絡(luò)賬號,可以與提供具體網(wǎng)絡(luò)應(yīng)用服務(wù)的業(yè)務(wù)服務(wù) 器關(guān)聯(lián),也就是說文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號可以登錄關(guān)聯(lián)的業(yè)務(wù)服務(wù)器,在 該業(yè)務(wù)服務(wù)器上享受相關(guān)聯(lián)的業(yè)務(wù)服務(wù),例如目前有一種即時通訊文字輸入 法,可以與提供網(wǎng)絡(luò)郵件的郵件服務(wù)關(guān)聯(lián),利用同一個網(wǎng)絡(luò)賬號,既可以實 現(xiàn)即時通訊文字輸入法的網(wǎng)絡(luò)用戶詞庫更新,又實現(xiàn)收發(fā)郵件的關(guān)聯(lián)業(yè)務(wù);對應(yīng)的也可以與提供發(fā)貼功能的論壇服務(wù)器(例如目前的博客服務(wù)器、論壇 服務(wù)器、群空間服務(wù)器等)進(jìn)行關(guān)聯(lián),利用同一個網(wǎng)絡(luò)賬號可以登錄相應(yīng)的 服務(wù)器以實現(xiàn)發(fā)帖的關(guān)聯(lián)業(yè)務(wù)。對于網(wǎng)絡(luò)文字輸入系統(tǒng),本發(fā)明還可以實現(xiàn)一鍵上傳功能,即將所述分 析報告400通過一鍵觸發(fā),自動上傳到所述網(wǎng)絡(luò)文字輸入系統(tǒng)關(guān)聯(lián)的業(yè)務(wù)服 務(wù)器上,且可以預(yù)先設(shè)置與所述業(yè)務(wù)服務(wù)器的業(yè)務(wù)類型對應(yīng)的上傳模版,在 上傳時以所關(guān)聯(lián)的業(yè)務(wù)類型對應(yīng)的上傳格式進(jìn)行上傳。例如可以分別設(shè)置郵 箱服務(wù)器、博客服務(wù)器、論壇服務(wù)器、群空間服務(wù)器的上傳模板,上傳模板 對應(yīng)的格式與所述業(yè)務(wù)類型對應(yīng),例如對于郵箱服務(wù)器的郵件業(yè)務(wù),上傳模 板的格式包括郵件主題、郵件內(nèi)容等待填格式,對于論壇服務(wù)器的發(fā)貼業(yè)務(wù), 所述上傳模板的格式包括帖子主題、作者、內(nèi)容等待填格式。圖4為本發(fā)明所述一鍵上傳的具體實現(xiàn)方法的流程示意圖。參見圖4, 該流程包括步驟401、檢測一鍵上傳的觸發(fā)事件,即檢測用戶是否輸入上傳指令, 所述的上傳指令可以對應(yīng)設(shè)置一個計算機快捷鍵進(jìn)行觸發(fā)。步驟402、當(dāng)檢測到上傳指令時,判斷當(dāng)前的文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號 是否與指定業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)賬號關(guān)聯(lián),如果是,則執(zhí)行下一步驟;否則需 要提醒用戶檢查關(guān)聯(lián)情況,然后返回步驟401再次觸發(fā)上傳指令并進(jìn)行網(wǎng)絡(luò) 賬號關(guān)聯(lián)。步驟403、對用戶關(guān)聯(lián)的業(yè)務(wù)類型進(jìn)行分析,提取該關(guān)聯(lián)業(yè)務(wù)對應(yīng)的上 傳模版。步驟404、套用所述上傳模板的格式,將所述分析報告的內(nèi)容上傳到對 應(yīng)的服務(wù)器上。例如對于帖子發(fā)表類的業(yè)務(wù)類型,所述的上傳模版的套用格式為發(fā)表帖 子的相關(guān)格式,其中包括標(biāo)題、作者、內(nèi)容等待填寫格式,還包括目的服務(wù) 器的地址,并且最終的上傳格式為發(fā)帖請求數(shù)據(jù)包。當(dāng)檢測到上傳指令后, 文字輸入系統(tǒng)自動關(guān)聯(lián)對應(yīng)的服務(wù)器及業(yè)務(wù)類型,如果發(fā)現(xiàn)關(guān)聯(lián)到的是發(fā)帖業(yè)務(wù)類型,則讀取對應(yīng)的上傳模版,將所述分析報告的內(nèi)容填入所述內(nèi)容格 式中,所述標(biāo)題可以填入預(yù)先設(shè)定的內(nèi)容例如"用戶詞庫分析報告",所述 作者可以填入所述的網(wǎng)絡(luò)賬號信息;然后將所述上傳模板中的對應(yīng)內(nèi)容打包 成發(fā)帖請求數(shù)據(jù)包,根據(jù)上傳模版中的目的服務(wù)器地址,將所述發(fā)帖請求數(shù) 據(jù)包上傳給對應(yīng)的服務(wù)器;服務(wù)器在收到數(shù)據(jù)包后,解析出是發(fā)帖請求數(shù)據(jù) 包,則將其中的數(shù)據(jù)按照規(guī)定的格式存儲并發(fā)表。圖5為本發(fā)明所述的計算機文字輸入方法的一種流程圖。參見圖5,該 流程不但包括對用戶詞庫進(jìn)行上述的維護(hù)處理,而且還根據(jù)經(jīng)過維護(hù)處理后的用戶詞庫生成候選輸入詞完成文字的輸入。具體包括以下步驟步驟501、將輸入計算機的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計。步驟502、進(jìn)行虛詞過濾判斷,即判斷用戶詞庫中的文字中是否有與預(yù) 設(shè)虛詞庫中的虛詞相同的詞,如果是則將該詞從用戶詞庫中刪除。本步驟的 具體方法與上述步驟203相同。步驟503、對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要 求的一個以上的文字進(jìn)行合并。本步驟的具體方法與上述步驟204相同。步驟504、當(dāng)檢測到用戶的文字輸入編碼(例如拼音編碼、五筆字型編 碼、手寫識別輸入編碼)時,在所述用戶詞庫中查找與輸入編碼匹配的文字。步驟505、對查找到的文字進(jìn)行詞頻排序,選擇詞頻符合指定詞頻條件 的文字作為輸入候選對象顯示;步驟506、根據(jù)用戶輸入的選擇指令從所述候選對象中確定最終的文字 完成輸入,返回步驟501。通過上述輸入方法,使得文字輸入系統(tǒng)在檢測到用戶的文字輸入編碼 后,輸出的候選對象都是經(jīng)過精簡分析的習(xí)慣用語,從而更加準(zhǔn)確地反映用 戶的文字輸入意圖,提高文字輸入效率。另外,所述文字輸入方法還可以預(yù)先設(shè)置存儲指定的詞頻輸入時間段; 并且,步驟501中,在將輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄 對應(yīng)的輸入時間;步驟503中,當(dāng)檢測到用戶的文字輸入編碼時,在所述用戶詞庫中査找處于所述指定詞頻輸入時間段內(nèi)的、且與輸入編碼匹配的文字 作為輸入的候選對象顯示,然后根據(jù)用戶的選擇指令從中選擇確定最終輸入 的文字以完成輸入。通過這種方式,可以使文字輸入系統(tǒng)精確地輸出在某一 特定時間段內(nèi)的習(xí)慣用語作為文字編碼的候選對象,從而進(jìn)一步方便專業(yè)錄 入人員的文字輸入需求。基于上述的方法,本發(fā)明還公開了可以執(zhí)行上述詞庫維護(hù)方法的計算機 文字輸入系統(tǒng)的詞庫維護(hù)裝置,以及可以執(zhí)行上述文字輸入方法的計算機文 字輸入系統(tǒng)。圖6為本發(fā)明所述計算機文字輸入系統(tǒng)的詞庫維護(hù)裝置的一種結(jié)構(gòu)示意圖。參見圖6,該詞庫維護(hù)裝置600主要包括詞庫輸入模塊601,用于將通過文字輸入系統(tǒng)輸入計算機的文字記錄到 用戶詞庫610中,并進(jìn)行詞頻統(tǒng)計,并將統(tǒng)計信息記錄到用戶詞庫中。第一維護(hù)模塊602,其中存儲有虛詞庫,用于實現(xiàn)虛詞過濾的功能,即 判斷用戶詞庫中的文字中是否有與預(yù)設(shè)虛詞庫中的虛詞相同的詞,如果是則 將該詞從用戶詞庫中刪除。第二維護(hù)模塊603,用于實現(xiàn)本意分析合并的功能,即對用戶詞庫中的 文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的一個以上的文字進(jìn)行合并。在一種可選實施例中,所述詞庫維護(hù)裝置還可以進(jìn)一步包括排序模塊 604,用于對所述用戶詞庫中的文字進(jìn)行詞頻排序,生成詞頻列表。在另一種可選實施例中,所述詞庫維護(hù)裝置還可以進(jìn)一步包括分析報告 自動生成模塊605,其中存儲有與詞性對應(yīng)的分析報告模版,用于選出詞頻 列表中符合指定詞頻條件的文字,并判斷所選文字的詞性,選擇該詞性對應(yīng) 的分析報告模版,將所選文字填入到對應(yīng)的分析報告模版中,生成分析報告。所述詞庫維護(hù)裝置還可以進(jìn)一步包括一鍵上傳模塊606,用于檢測用戶 輸入的上傳指令, 一旦檢測到上傳指令則判斷本地文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號 是否與用戶指定的業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)賬號關(guān)聯(lián),當(dāng)判定關(guān)聯(lián)時,將所述分析 報告上傳到所述網(wǎng)絡(luò)賬號對應(yīng)的業(yè)務(wù)服務(wù)器上。圖7為本發(fā)明所述計算機文字輸入系統(tǒng)的詞庫維護(hù)裝置的另一種結(jié)構(gòu)示意圖。參見圖7,所述詞庫輸入模塊601進(jìn)一步包括輸入時間記錄模塊611, 用于在將輸入計算機的文字記錄到用戶詞庫610時,進(jìn)一步記錄對應(yīng)的輸入 時間;所述詞庫維護(hù)裝置600進(jìn)一步包括第三維護(hù)模塊607,其中存儲詞頻 分析時間段,用于在用戶詞庫610中選擇符合所述詞頻分析時間段內(nèi)的文 字,將選出的文字作為所述第一維護(hù)模塊602和第二維護(hù)模塊603的維護(hù)對 象輸出。所述第一維護(hù)模塊602和第二維護(hù)模塊603可以依次對所述詞頻分 析時間段內(nèi)的文字進(jìn)行處理,之后可以交給排序模塊604進(jìn)行排序,然后由 分析報告自動生成模塊605從排序后從詞頻列表中選出符合預(yù)定詞頻條件 的文字生成分析報告,最后可以由一鍵上傳模塊606上傳給相關(guān)聯(lián)的服務(wù) 器o圖8為本發(fā)明所述的計算機文字輸入系統(tǒng)的一種結(jié)構(gòu)示意圖。參見圖8, 該計算機文字輸入系統(tǒng)包括用戶詞庫610,用于存儲用戶文字。編碼輸入匹配模塊801,用于檢測用戶通過鍵盤輸入的編碼,在所述用 戶詞庫中查找與輸入編碼匹配的文字。候選對象顯示模塊802,用于對所述編碼輸入匹配模塊查找到的文字進(jìn) 行詞頻排序,選擇詞頻符合指定詞頻條件的文字作為輸入候選對象顯示。文字輸入模塊803,用于根據(jù)用戶輸入的選擇指令從所述候選對象中確 定最終的文字并向計算機輸入該文字。詞庫輸入模塊804,用于將所述文字輸入模塊803輸入的文字記錄到用 戶詞庫中,并進(jìn)行詞頻統(tǒng)計,并可以將統(tǒng)計的詞頻記錄到用戶詞庫610中。詞庫維護(hù)模塊600,其中存儲有虛詞庫,用于判斷用戶詞庫中的文字中 是否有與預(yù)設(shè)虛詞庫中的虛詞相同的詞,如果是則將該詞從用戶詞庫中刪 除;并對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的一個 以上的文字進(jìn)行合并。該詞庫維護(hù)模塊的具體結(jié)構(gòu)請參見圖6和圖7的相關(guān) 描述。另外,所述詞庫輸入模塊804中進(jìn)一步包括輸入時間記錄模塊(圖8中 未標(biāo)出),用于在將輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng) 的輸入時間;所述編碼輸入匹配模塊中進(jìn) 一 步包括詞頻輸入時間存儲單元(圖8中未標(biāo)出);所述編碼輸入匹配模塊根據(jù)詞頻輸入時間存儲單元的存 儲信息,在所述用戶詞庫中查找處于所述指定詞頻輸入時間段內(nèi)的、且與輸 入編碼匹配的文字。以上所述,僅為本發(fā)明較佳的具體實施方式
,但本發(fā)明的保護(hù)范圍并不 局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到 的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種計算機文字輸入系統(tǒng)的詞庫維護(hù)方法,其特征在于,該方法預(yù)先存儲虛詞庫,并包括將輸入到計算機的文字信息記錄到用戶詞庫中,并統(tǒng)計輸入的詞頻;查找用戶詞庫中是否有與所述虛詞庫中的虛詞相同的文字,如果有則將該文字從用戶詞庫中刪除;對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的一個以上的文字進(jìn)行合并。
2、 根據(jù)權(quán)利要求l所述的方法,其特征在于,該方法預(yù)先設(shè)置與詞性 對應(yīng)的分析報告模版;并進(jìn)一步包括對用戶詞庫進(jìn)行詞頻排序,生成詞頻列表; 選出詞頻列表中符合指定詞頻條件的文字;判斷所選文字的詞性,選擇該詞性對應(yīng)的分析報告模版,將所選文字填 入到對應(yīng)的分析報告模版中,生成分析報告。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述文字輸入系統(tǒng)具有 網(wǎng)絡(luò)賬號;且該方法在生成所述分析報告后,進(jìn)一步包括檢測用戶輸入的上傳指令;當(dāng)檢測到上傳指令時,判斷當(dāng)前的文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號是否與用戶 指定的業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)賬號關(guān)聯(lián),如果是,則執(zhí)行下一步驟;否則結(jié)束本 流程;將所述分析報告上傳到所述網(wǎng)絡(luò)賬號對應(yīng)的業(yè)務(wù)服務(wù)器上。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,該方法預(yù)先設(shè)置與所述 業(yè)務(wù)服務(wù)器的業(yè)務(wù)類型對應(yīng)的上傳模版;所述上傳分析報告的具體方法為讀取文字輸入系統(tǒng)所關(guān)聯(lián)的業(yè)務(wù)類型 所對應(yīng)的上傳模版,將所述用戶網(wǎng)絡(luò)賬號和分析報告的內(nèi)容填入到上傳模版 中,通過上傳模版的特定格式將所述分析報告的內(nèi)容上傳到對應(yīng)的網(wǎng)絡(luò)服務(wù)器。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述進(jìn)行詞頻分析以及 合并文字的具體方法為判斷一個文字與其它文字的搭配詞頻是否大于該被 搭配文字總詞頻的特定比率,如果是,則將所述相互搭配的文字進(jìn)行合并。
6、 根據(jù)權(quán)利要求1至5任一項所述的方法,其特征在于,在將輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時 間;并且,在后續(xù)的對用戶詞庫的維護(hù)過程中,首先讀取預(yù)先存儲的詞頻分 析時間段,并在用戶詞庫中選擇符合所述詞頻分析時間段內(nèi)的文字,然后將 選出的文字作為后續(xù)步驟的處理對象進(jìn)行處理。
7、 一種計算機文字輸入系統(tǒng)的詞庫維護(hù)裝置,其特征在于,包括 詞庫輸入模塊,用于將通過文字輸入系統(tǒng)輸入計算機的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計;第一維護(hù)模塊,其中存儲有虛詞庫,用于判斷用戶詞庫中的文字中是否 有與預(yù)設(shè)虛詞庫中的虛詞相同的詞,如果是則將該詞從用戶詞庫中刪除;第二維護(hù)模塊,用于對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá) 到特定要求的一個以上的文字進(jìn)行合并。
8、 根據(jù)權(quán)利要求7所述的詞庫維護(hù)裝置,其特征在于,該詞庫維護(hù)裝置進(jìn)一步包括排序模塊,用于對所述用戶詞庫中的文字進(jìn)行詞頻排序,生成 詞頻列表。
9、 根據(jù)權(quán)利要求8所述的詞庫維護(hù)裝置,其特征在于,該詞庫維護(hù)裝 置進(jìn)一步包括分析報告自動生成模塊,其中存儲有與詞性對應(yīng)的分析報告模 版,用于選出詞頻列表中符合指定詞頻條件的文字,并判斷所選文字的詞性, 選擇該詞性對應(yīng)的分析報告模版,將所選文字填入到對應(yīng)的分析報告模版 中,生成分析報告。
10、 根據(jù)權(quán)利要求9所述的詞庫維護(hù)裝置,其特征在于,該詞庫維護(hù)裝 置進(jìn)一步包括一鍵上傳模塊,用于檢測用戶輸入的上傳指令, 一旦檢測到上 傳指令則判斷本地文字輸入系統(tǒng)的網(wǎng)絡(luò)賬號是否與用戶指定的業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)賬號關(guān)聯(lián),當(dāng)判定關(guān)聯(lián)時,將所述分析報告上傳到所述網(wǎng)絡(luò)賬號對應(yīng) 的業(yè)務(wù)服務(wù)器上。
11、 根據(jù)權(quán)利要求IO所述的詞庫維護(hù)裝置,其特征在于, 所述用戶詞庫進(jìn)一步包括輸入時間記錄模塊,用于在將輸入計算機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時間;所述詞庫維護(hù)裝置進(jìn)一步包括第三維護(hù)模塊,其中存儲詞頻分析時間 段,用于在用戶詞庫中選擇符合所述詞頻分析時間段內(nèi)的文字,將選出的文 字作為所述第一維護(hù)模塊和第二維護(hù)模塊的維護(hù)對象。
12、 一種計算機文字輸入方法,其特征在于,包括a、 將輸入計算機的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計;b、 判斷用戶詞庫中的文字中是否有與預(yù)設(shè)虛詞庫中的虛詞相同的詞, 如果是則將該詞從用戶詞庫中刪除;并對用戶詞庫中的文字詞頻進(jìn)行分析, 對搭配詞頻達(dá)到特定要求的一個以上的文字進(jìn)行合并;c、 當(dāng)檢測到用戶的文字輸入編碼時,在所述用戶詞庫中查找與輸入編 碼匹配的文字;d、 對查找到的文字進(jìn)行詞頻排序,選擇詞頻符合指定詞頻條件的文字 作為輸入候選對象顯示;e、 根據(jù)用戶輸入的選擇指令從所述候選對象中確定最終的文字完成輸 入,返回步驟a。
13、 根據(jù)權(quán)利要求12所述的計算機文字輸入方法,其特征在于,該方 法預(yù)先設(shè)置存儲指定的詞頻輸入時間段;并且,步驟a中,在將輸入計算機 的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時間;步驟c中,當(dāng)檢測 到用戶的文字輸入編碼時,在所述用戶詞庫中查找處于所述指定詞頻輸入時 間段內(nèi)的、且與輸入編碼匹配的文字。
14、 一種計算機文字輸入系統(tǒng),其特征在于,該系統(tǒng)包括 用戶詞庫,用于存儲用戶文字;編碼輸入匹配模塊,用于檢測用戶的文字輸入編碼,在所述用戶詞庫中查找與輸入編碼匹配的文字;候選對象顯示模塊,用于對所述編碼輸入匹配模塊查找到的文字進(jìn)行詞頻排序,選擇詞頻符合指定詞頻條件的文字作為輸入候選對象顯示;文字輸入模塊,用于根據(jù)用戶輸入的選擇指令從所述候選對象中確定最終的文字完成輸入;詞庫輸入模塊,用于將所述文字輸入模塊輸入的文字記錄到用戶詞庫中,并進(jìn)行詞頻統(tǒng)計;詞庫維護(hù)模塊,其中存儲有虛詞庫,用于判斷用戶詞庫中的文字中是否 有與預(yù)設(shè)虛詞庫中的虛詞相同的詞,如果是則將該詞從用戶詞庫中刪除;并 對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的一個以上的 文字進(jìn)行合并。
15、根據(jù)權(quán)利要求14所述的計算機文字輸入系統(tǒng),其特征在于, 所述詞庫輸入模塊中進(jìn)一步包括輸入時間記錄模塊,用于在將輸入計算 機的文字記錄到用戶詞庫時,進(jìn)一步記錄對應(yīng)的輸入時間;所述編碼輸入匹配模塊中進(jìn)一步包括詞頻輸入時間存儲單元;所述編碼 輸入匹配模塊根據(jù)詞頻輸入時間存儲單元的存儲信息,在所述用戶詞庫中査 找處于所述指定詞頻輸入時間段內(nèi)的、且與輸入編碼匹配的文字。
全文摘要
本發(fā)明公開了一種計算機文字輸入方法和系統(tǒng)及其詞庫的維護(hù)方法和維護(hù)裝置。本發(fā)明方法預(yù)先存儲虛詞庫,將通過計算機文字輸入系統(tǒng)輸入計算機的文字信息記錄到用戶詞庫中,并統(tǒng)計輸入的詞頻;查找用戶詞庫中是否有與所述虛詞庫中的虛詞相同的文字,如果有則將該文字從用戶詞庫中刪除;對用戶詞庫中的文字詞頻進(jìn)行分析,對搭配詞頻達(dá)到特定要求的一個以上的文字進(jìn)行合并。本發(fā)明通過維護(hù)用戶詞庫,可以減少用戶詞庫對存儲資源和計算資源的占用,提高輸入效率和輸入精度。本發(fā)明還從所述維護(hù)后的用戶詞庫中按照詞頻選擇候選詞以供輸入選擇,從而進(jìn)一步提高了輸入效率和輸入精度。
文檔編號G06F17/30GK101216854SQ200810056238
公開日2008年7月9日 申請日期2008年1月15日 優(yōu)先權(quán)日2008年1月15日
發(fā)明者陳麗菲 申請人:騰訊科技(深圳)有限公司