亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

提高打字效率的候選字產(chǎn)生方法

文檔序號:6456013閱讀:349來源:國知局
專利名稱:提高打字效率的候選字產(chǎn)生方法
技術領域
本發(fā)明涉及一種候選字產(chǎn)生方法,尤指一種用來提高打字效率的候選字產(chǎn) 生方法。
背景技術
當使用計算機或手持電子產(chǎn)品進行打字作業(yè)時,對于以使用字符(或字母) 為單位元的語言來說(簡稱為字符語言),該打字作業(yè)并非十分困難,此是因此 類語言所使用的字符種類相當有限。此類以字符為單位的語言對于一般所使用 的鍵盤而言也相當?shù)娜菀讘?,因為鍵盤上所需要對應的字符按鍵數(shù)量也相對 的比較少。然而,在正式進行字符語言的打字作業(yè)的時候,不正確的拼字、錯 誤的字符輸入、打字者不知道單詞拼法、加有標記的字符輸入(例如帶有重音 的字符)等狀況常會導致打字或按鍵輸入效率的降低,而打字者也必須要再耗 費額外的時間或中斷思緒以修正上述的錯誤。打字者不知道單詞拼法會使得打 字者被迫另外耗費時間去查字典或是猜測單詞正確的拼法。當打字者輸入帶有 標記的字母或字符時,通常都會需要使用特制的鍵盤、記下特別的按鍵排列、 或是學習額外的輸入方式來輸入這些字符,同時也造成了打字者在打字速率上 的延遲。

發(fā)明內(nèi)容
本發(fā)明提供一種提高打字效率的候選字產(chǎn)生方法。該方法包含提供一字 典、實施一自動選擇候選字方法、及以該至少一候選字替換該己選取的字。該 自動選擇候選字方法包含由該字典中產(chǎn)生至少一候選字,以根據(jù)事先建立的統(tǒng) 計數(shù)據(jù),改寫打字者輸入的一句子中的一已選取的字,使該已選取的字符合該 句子的統(tǒng)計語義性質。
本發(fā)明提供一種提高打字效率的候選字產(chǎn)生方法。該方法包含提供以語音 學為基礎的一語音字典;將一輸入字分解為多個語音音節(jié)序列,其中該多個語音音節(jié)序列的每一語音音節(jié)序列包含多個語音音節(jié);根據(jù)該語音字典包含的音
節(jié)差異度矩陣,產(chǎn)生多個候選字,其中該多個候選字對于該多個語音音節(jié)序列 的每一語音音節(jié)序列包含至少一個候選字,且該多個語音音節(jié)序列一一對應于
該多個音節(jié)差異度矩陣;及由該多個候選字中選出一個候選字,并將該輸入字 替換為該選出的候選字,其中將該輸入字替換為該選出的候選字所耗費的總額 替換成本為該多個候選字個別耗費的多個總額替換成本中的最小總額替換成 本,且該最小總額替換成本大于零。
本發(fā)明提供一種提高打字效率的候選字產(chǎn)生方法。該方法包含提供一字 典;確認是否有至少一個候選字存在,其中該字典的一輸入字為該至少一個候 選字的子序列,且該輸入字的特征可于該至少一個候選字的每一候選字中被發(fā) 現(xiàn);及當該至少一個候選字存在時,將該輸入字替換為該至少一個輸入字。
本發(fā)明提供一種用來提高打字效率的候選字產(chǎn)生方法。該方法包含儲存一
單詞序列;及根據(jù)一首字母縮略字子序列,由該單詞序列中取出一單詞子序列,
其中該首字母縮略字子序列包含一第一字的開頭字符以及一第二字的開頭字
符,該第二字在該單詞序列中的順序為在該第一字之后,且該第一字的開頭字 符與該第二字的開頭字符在該首字母縮略字子序列中的順序對應于該第一字
與該第二字在該單詞序列中的順序。該單詞子序列包含該第一字、該第二字、 以及在該單詞序列中位于該第一字與該第二字之間的多個字,且該第一字、該 第二字、以及在該單詞序列中位于該第一字與該第二字之間的該多個字在該單 詞子序列中的順序對應于在該單詞序列中的順序。
本發(fā)明提供一種用來提高打字效率的候選字產(chǎn)生方法。該方法包含提供一 字典;根據(jù)一輸入字中帶有標記的字符的合理組合,產(chǎn)生至少一個候選字;及 由該至少一個候選字中選取一候選字。該字典中儲存有多個帶有標記的字符的 合理組合,及對應于該多個合理組合的單詞。


圖1為本發(fā)明所提供的第一種候選字產(chǎn)生方法的流程圖,其中該第一種候 選字產(chǎn)生方法用來幫助打字者免于錯誤輸入字符的困擾。
圖2為本發(fā)明所提供的第二種候選字產(chǎn)生方法的流程圖,其中該第二種候 選字產(chǎn)生方法用來使打字者借助輸入應用了語音學簡化拼法的語音字來提高 打字或按鍵輸入效率。
8圖3為使用于圖2所述的候選字產(chǎn)生方法的一音節(jié)差異度矩陣的示意圖。 圖4為本發(fā)明借助輸入目標字的子序列來實施的第三種候選字產(chǎn)生方法 的示意圖。
圖5為本發(fā)明所提供的第四種候選字產(chǎn)生方法的示意圖,其中該第四種候
選字產(chǎn)生方法應用首字母縮略字子序列與單詞序列之間的字符順序關系產(chǎn)生 出打字者所需要的單詞子序列來,且該單詞子序列為該單詞序列的子序列。
圖6為本發(fā)明所提供的第五種候選字產(chǎn)生方法的示意圖,其中該第五種候
選字方法用來簡化打字者輸入包含加入標記的字符的單詞時額外浪費的時間。
具體實施例方式
為了讓打字者可以減輕上述會延遲打字或按鍵輸入效率的缺點所造成的 影響,本發(fā)明提供多種候選字產(chǎn)生方法,以提高打字或按鍵輸入效率,并克服 上述的缺點。
本發(fā)明所提供的第一種候選字產(chǎn)生方法用來幫助打字者免于不正確拼字 拖慢打字或按鍵輸入效率的困擾,上述不正確拼字的錯誤包含字符插入錯誤、 字符刪除錯誤、字符替換錯誤、以及字符排列錯誤。字符插入錯誤為打字者在 輸入單詞時輸入了多余的字符所造成的錯誤。字符刪除錯誤為打字者在輸入單 詞時漏掉不該遺漏的字符所造成的錯誤。字符替換錯誤為打字者在輸入單詞時 將部分原始字符輸入為其它的字符所造成的錯誤,或是字符大小寫輸入錯誤的 狀況。字符排列錯誤指打字者輸入單詞時將字符的前后順序輸入錯誤的狀況。 不管打字者輸入單詞時發(fā)生上述的哪一種錯誤,只要打字者在輸入單一單詞時 發(fā)生的錯誤次數(shù)遠少于該單詞的字符個數(shù),被錯誤輸入的單詞將會保有足夠的 信息以供還原至正確的單詞。舉例來說,當打字者將應該輸入
為"phenomenon"的單詞錯誤輸入為"phenomanon"時,由于打字者僅將原 本應該輸入的第七個字符"e"輸入為"a",且其它字符皆輸入正確,因此所 產(chǎn)生的輸入錯誤為字符替換錯誤,且錯誤輸入的單詞"phenomanon"仍然保 有了足夠的信息(亦即上述唯 一 發(fā)生的字符替換錯誤)以供還原 至"phenomenon"。
根據(jù)上述的概念,本發(fā)明所提供的第一種候選字產(chǎn)生方法圖示于圖1。請 參閱圖l,其為本發(fā)明所提供的第一種候選字產(chǎn)生方法的流程圖,且該第一種 候選字產(chǎn)生方法用來幫助打字者免于錯誤輸入字符的困擾。圖1所示的方法包含如下步驟
步驟102: 提供一字典。
步驟104: 以大量句子的語料統(tǒng)計字與字之間的相關數(shù)據(jù)來測試并訓練 該字典,其中該大量的句子包含多個相關字,以用來建立與該大量的句子的語 義性質相關的預先統(tǒng)計數(shù)據(jù)。
步驟106: 實施一種自動選取方法,用來由該字典中產(chǎn)生至少一個候選 字,以根據(jù)該預先統(tǒng)計數(shù)據(jù),將打字者所輸入的句子調(diào)整至符合語意性質為止。
步驟108: 計算打字者所輸入的一句子中的一選取字與該字典所產(chǎn)生的 每一候選字的編輯距離,其中該編輯距離代表最少需要幾個字符的插入、刪除、 對調(diào)以便將其中一字轉換成另一字。
步驟110: 檢查所有計算出來的編輯距離是否皆大于零。當所有計算出 來的編輯距離皆大于零時,執(zhí)行步驟112;否則,執(zhí)行步驟114。
步驟112: 由該至少一個候選字中選取一個擁有最小編輯距離的候選 字,并將打字者所輸入的該句子中之該選取字替換為該擁有最小編輯距離的候 選字。
步驟114: 將打字者所輸入的該句子中的該選取字替換為一編輯距離為 零的候選字。
步驟102與104代表一個準備并建立一字典的程序,以將該字典供圖1 所示的后續(xù)步驟所使用,且圖1所示的后續(xù)步驟需要該字典的存在才能夠執(zhí) 行。該字典可為一系統(tǒng)字典、 一領域字典、或一使用者字典,其中該領域字典 指不同學術或生活領域所使用的字典。在某些情況下,該字典根據(jù)打字者目前 正在輸入的文章或片段來建立,以符合打字者的打字習慣。在步驟102與104 中所建立的該字典必須被事先測試或訓練以辨識足夠大量的句子語料或是獲 取與該足夠大量的句子的語義性質相關的統(tǒng)計數(shù)據(jù)。該統(tǒng)計數(shù)據(jù)可為特定段落 或打字者所輸入的段落中單詞出現(xiàn)的頻率,或是不同單詞之間所產(chǎn)生的各種不 同組合出現(xiàn)的機率。
在步驟106至114中,實施一種自動選取方法以用來決定一個符合機率最
高的候選字,并將打字者所輸入的單詞替換為該機率最高的候選字,以符合打 字者目前輸入的一句子的語義性質,其中該句子包含打字者所輸入的該單詞, 且該單詞可能產(chǎn)生了上述的至少一種字符拼字錯誤。每一個與打字者輸入的該單詞相關并由該字典產(chǎn)生出來的候選字根據(jù)一編輯距離來決定,其中該編輯距 離代表將打字者輸入的該單詞轉換為一候選字所需要耗費的步驟與代價,且所 需要耗費的步驟可為插入、刪除、或替換打字者輸入的該單詞中的字符。舉例
來說,當需要將打字者輸入的單詞"phenomanon"轉換為 一 候選 字"phenomenon"時,必須將單詞"phenomanon"中的第七個字符"a"替換 為字符"e",因此打字者輸入的單詞"phenomanon"與候選 字"phenomenon"之間的編輯距離可定義為1,因為將打字者輸入的單 詞"phenomanon"轉換為候選字"phenomenon"僅需要進行一次替換單一字 符的步驟。同理,當需要將打字者輸入的單詞"phnocmanon"轉換為候選 字"phenomenon"時,需要將字符"e"插入至字符"h"與字符"n"之間、 刪除字符"o"與字符"m"之間的字符"c"、以及將字符"m"與字符"n" 之間的字符"a"替換為字符"e",因此僅進行了三個針對單一字符的步驟, 且打字者輸入的單詞"phnocmanon"與候選字"phenomenon"之間的編輯距 離可定義為3。請注意,上述對于編輯距離的定義僅為本發(fā)明的一較佳實施例, 且當將其它種類對于編輯距離的定義應用于本發(fā)明所公開的方法時,仍應屬于 本發(fā)明的范圍。
當所有候選字與打字者輸入的單詞間的編輯距離皆大于零時,代表打字者 所輸入的該單詞為一個錯誤拼字的單詞,因此可根據(jù)步驟106至114中所述的 方法,將打字者輸入的該單詞自動替換為一個與打字者輸入的該單詞之間的編 輯距離最小的候選字。然而,也有可能發(fā)生打字者輸入的該單詞與二個以上的 候選字之間的編輯距離相同,且該編輯距離為最小編輯距離的狀況。為了避免 這個狀況,在此時也可借助上述針對句子的語義性質所建立的統(tǒng)計數(shù)據(jù)、以及 相關的編輯距離,來輔助判斷打字者目前輸入的段落中出現(xiàn)機率較高的某些候 選字。借助上述以句子的語義性質來輔助判斷較為可能出現(xiàn)的候選字,可以將 大部分不符合打字者目前輸入的段落的語義性質的候選字過濾掉,以大幅度的 縮小候選字的可能范圍,并借助這種方式節(jié)省判斷可能的候選字的額外時間、 以及提高打字者的打字或按鍵輸入效率。綜合以上所述,本發(fā)明所提供的第一 種候選字產(chǎn)生方法可有效減輕打字者因為錯誤拼字造成的打字或按鍵輸入效 率降低的狀況。
此外,在步驟104中,可使用一種稱為N-gram模型(N-gram Model)的方法,并以N個字連續(xù)出現(xiàn)的頻率來統(tǒng)計字與字間的相關數(shù)據(jù)。N-gram模型為 本領域技術人員所公知的方法,且可用于上述本發(fā)明所提供的第一種候選字產(chǎn) 生方法,以協(xié)助打字者免于拼字錯誤降低打字速率的問題。N-gmm模型根據(jù) 語義規(guī)則來運作,并可應用于一種稱為context-free的語義文法、或是應用于 以語言學為基礎的模板匹配系統(tǒng),其中context-free語義文法也為熟習本領域 技術人員所公知,故不在此贅述。一使用者接口也可用來實施本發(fā)明所提供的第一種候選字產(chǎn)生方法,以幫 助打字者免于拼字錯誤降低打字或按鍵輸入效率的困擾。在該使用者接口上, 與打字者輸入的單一單詞相關的多個可能的候選字會被表列出來,或是在編譯 打字者輸入的文章時產(chǎn)生出來,其中編譯打字者輸入的文章指一相關字典將打 字者最近輸入的片段列入?yún)⒖疾⒔馕龅牟襟E。該使用者接口也可被設計成具有 報告并記錄任何打字者發(fā)生的拼字錯誤的功能。因此,打字者被記錄下來的拼 字錯誤也可與編輯距離及語義性質一起用來當作判斷候選字的可能范圍的參 考,以輔助縮小候選字的可能范圍。上述被記錄下來的拼字錯誤包含了字符插 入錯誤、字符刪除錯誤、字符替換錯誤、甚或是字符排列錯誤,且這些被記錄 下來的拼字錯誤亦可與打字者發(fā)生這些被記錄下來的拼字錯誤的句子或片段 一起被記錄下來,以作為之后打字者輸入文章時用來當做參考的統(tǒng)計數(shù)據(jù)。除此以外,用來實施該第一種候選字產(chǎn)生方法的使用者接口的一較佳實施 例中,也可加入一錯誤預測(errorprediction)機制。由于打字者在打字發(fā)生錯誤 的時候,需要將鼠標由正在輸入的字符處以人工方式移動至輸入錯誤的字符處 來進行修改,然后再將該鼠標移動回剛才輸入的字符處,因此會對一般的打字 者在打字效率上產(chǎn)生相當大的扼殺。在該錯誤預測機制的實施例中,打字者即 使在鼠標仍然位于正在輸入的字符處的狀況下,仍然可以借助啟動預先設定的 熱鍵來啟動該錯誤預測機制。在打字者按下該熱鍵后,該使用者接口根據(jù)本發(fā) 明所提供的該第一種候選字產(chǎn)生方法,自動的顯示出打字者之前所輸入過的文 章中可能出現(xiàn)的至少一個錯誤字,并提供相關的候選字供打字者選擇,以修正 該至少一個錯誤字。在本發(fā)明相關于該使用者接口的一較佳實施例中,打字者 可設定該熱鍵為方向鍵中的向下鍵,且當啟動一次該熱鍵時,該使用者接口只 顯示一個離目前的鼠標移動距離最近的錯誤字以供打字者修改;而當再出現(xiàn)第 二個以上的錯誤字時,打字者僅需要重復按下該熱鍵以啟動該錯誤預測機制,12便可以逐次修改以及個別對應提供候選字的方式,來更正到打字者想要修改的 至少一個錯誤字。
本發(fā)明另提供一第二種候選字產(chǎn)生方法,使得打字者可借助輸入應用了語 音學簡化拼法的單詞來提高打字或按鍵輸入效率。本發(fā)明所提供的第二種候選 字產(chǎn)生方法的基本概念詳述如后對于使用字符的語言來說,當打字者并不記 得如何拼某個單詞的字母排列或字符排列,而只記得該單詞的大略拼音時,打 字者可以試圖以猜測該單詞的拼音的方式來搜尋該單詞。因此,在本發(fā)明所提 供的第二種候選字產(chǎn)生方法中,必須要事先提供一個以語音學為基礎的語音字 字典,其中該語音字字典儲存了大量的語音音節(jié)。舉例來說,當打字者不知道
單詞"bureaucracy"的英文拼字方式時,可以借助他所知道單 詞"bureaucracy"的大略拼音,輸入上述應用了語音學簡化拼法的單詞以在該 語音字字典中找尋單詞"bureaucracy";其中應用了語音學簡化拼法的該單 詞,也可稱為一語音字(phonetic word),根據(jù)打字者對于單詞"bureaucracy" 的拼音記憶來仿真單詞"bureaucracy"的正確拼音,舉例來說,該單詞可 為,,burocrecy,,或,,burockrecy,,。
在收到一個語音字時,會先根據(jù)該語音字的所有可能發(fā)音方式對該語音字 做譯碼或猜測的動作,并將該語音字以上述的所有可能發(fā)音方式分解為多個語 音音節(jié),因此會產(chǎn)生出多個對應的語音音節(jié)序列。每一個產(chǎn)生出的語音音節(jié)序 列包含多個語音音節(jié),并對應于該語音字的一特定可能發(fā)音方式。
請參閱圖2,其為本發(fā)明所提供的第二種候選字產(chǎn)生方法的流程圖,其中 該第二種候選字產(chǎn)生方法用來使打字者借助輸入應用了語音學簡化拼法的語 音字來提高打字或按鍵輸入效率。本發(fā)明所提供的第二種候選字產(chǎn)生方法包含
下列步驟
步驟202: 提供一語音字字典。
步驟204: 儲存多個語音音節(jié)于該語音字字典中。
步驟206: 計算該多個語音音節(jié)的任意二個語音音節(jié)之間的差異度。
步驟208: 將打字者輸入的一語音字分解為多個語音音節(jié)序列,其中該
多個語音音節(jié)序列的每一語音音節(jié)序列包含多個語音音節(jié)。
步驟210: 根據(jù)該語音字字典中的音節(jié)差異度矩陣,產(chǎn)生多個候選字,
其中該多個語音音節(jié)序列的每一語音音節(jié)序列對應于該多個候選字中至少一個候選字。
步驟212: 由該多個產(chǎn)生的候選字中選出一個候選字,并將打字者輸入 的該語音字替換為選出的該候選字,其中將打字者輸入的該語音字替換為選出 的該候選字所耗費的總額替換成本為所有候選字中的最小,且該總額替換成本 大于零。
步驟202至206與前述的步驟102至104相似,需要事先準備一個語音字 字典以輔助圖2中后續(xù)步驟的執(zhí)行。除了在該語音字字典中事先儲存的多個語 音音節(jié)以外,也必須在該語音字字典中事先計算并儲存該多個語音音節(jié)的任意 二個語音音節(jié)之間的差異度,其中該音節(jié)差異度以二個語音音節(jié)之間的音節(jié)差 異距離的方式來具體表示。當一第一語音音節(jié)與一第二語音音節(jié)之間的音節(jié)差 異距離較小時,代表將該第一語音音節(jié)替換為該第二語音音節(jié)所耗費的替換成 本也會較小,且當該第一語音音節(jié)與該第二語音音節(jié)之間的音節(jié)差異距離較大 時,代表將該第一語音音節(jié)替換為該第二語音音節(jié)所耗費的替換成本也會較 大,其中將該第一語音音節(jié)替換為該第二語音音節(jié)的步驟包含插入、刪除、替 換、以及排列該第一語音音節(jié)中至少一個字符。在本發(fā)明所提供的第二種候選 字產(chǎn)生方法中,一第一語音音節(jié)序列與一第二語音音節(jié)序列的音節(jié)差異度借助 一音節(jié)差異度矩陣來加以定義。在該音節(jié)差異度矩陣的一實施例中,該音節(jié)差 異度矩陣的行用來列出該第一語音音節(jié)序列所包含的多個語音音節(jié),同理,該 音節(jié)差異度矩陣的列用來列出該第二語音音節(jié)序列所包含的多個語音音節(jié)。
請參閱圖3,其為使用于圖2所述的候選字產(chǎn)生方法的一音節(jié)差異度矩陣 的示意圖。假設一音節(jié)差異度矩陣A用來表示一第一語音音節(jié)序列PS,與一 第二語音音節(jié)序列PSe。,u^之間的總額替換成本,其中第一語音音節(jié)序列PSrow 可表示為PS,^PSRo,PSR4,PSR2,…,PSR犯),第二語音音節(jié)序列PSe。!醒可表 示為PSe。i咖^(PSCo,PSd,PSC2,…,PSQ^);且PSRj(i的值為0,1,2,…,M-l)代表 第一語音音節(jié)序列PS濯中的第i個語音音節(jié),PSCj(j的值為0,1,2,…,N-l)代表
第二語音音節(jié)序列PSe。^。中的第j個語音音節(jié)。再者,M為第一語音音節(jié)序
列PS,的長度,也就是元素個數(shù);同理,N為第二語音音節(jié)序列PSe。n^n的長 度。如圖3所示,音節(jié)差異度矩陣A中的一元素Ai,j代表一語音音節(jié)PSRi與 另一語音音節(jié)PSCj之間的音節(jié)差異度,且在本發(fā)明的一較佳實施例中,元素 Ai,j的值介于0至1之間。為了計算第一語音音節(jié)序列PSr,與第二語音音節(jié)序列PSwn之間的總額替換成本,可使用多種方法并配合音節(jié)差異度矩陣A 來加以計算。在本發(fā)明的一較佳實施例中,音節(jié)差異度矩陣A的每一列或每 一行中值最小的元素Ai,j會被加總起來,并將加總起來的值當作音節(jié)差異度矩 陣A所代表的總額替換成本;或是將音節(jié)差異度矩陣A中每一列加總起來的
最小元素值與每一行加總起來的最小元素值互相比較,以其中較小的元素加總
值來當作音節(jié)差異度矩陣A所代表的總額替換成本。最后,比較多個音節(jié)差 異度矩陣A各自代表的總額替換成本,以找出其總額替換成本最小的單一音 節(jié)差異度矩陣A。第一語音音節(jié)序列PS,與第二語音音節(jié)序列PSe。lumn的長度
差不可以太大,也就是必須要滿足IIPSrJ-IPSe。,unJI〈d的條件,其中d代表一 相差值,IPS,I代表第一語音音節(jié)序列PS,的長度,IPSe。K^i代表第二語音音
節(jié)序列ps^醒的長度,I |PSrowHPSe。lumn| i即代表第一語音音節(jié)序列ps薩與第
二語音音節(jié)序列PSe。u^的長度差的絕對值,且相差值d的值為可容忍并經(jīng)過
審慎挑選的。在本發(fā)明的另一實施例中,也可直接計算音節(jié)差異度矩陣A的 行列式值來代表音節(jié)差異度矩陣A的總額替換成本。
因此,在儲存于該語音字字典的所有語音音節(jié)的任意二個語音音節(jié)間的音
節(jié)差異距離,可以被事先計算并同樣的儲存于該語音字字典中。在步驟208 至212中,本發(fā)明所提供的第二種候選字產(chǎn)生方法用來決定一出現(xiàn)可能性最高 的候選字,并將打字者輸入的語音字替換為出現(xiàn)可能性最高的該候選字,以使 得所選出的候選字將會有與該語音字的語音性質符合的最高機率,其中打字者 輸入的該語音字根據(jù)語音拼字的特征所輸入。首先,輸入的語音字會根據(jù)其語 音拼字方式分解為不同的可能語音音節(jié)序列,其中每一語音音節(jié)序列包含多個 語音音節(jié),并各自代表不同的候選字。在一般的狀況下,上述該語音字分解出 的一語音音節(jié)序列與單一候選字所代表的語音音節(jié)序列之間的一相差值d會 以適當?shù)乃惴ㄏ拗圃诳扇萑痰姆秶鷥?nèi),并借此將相差值d在可容忍范圍以外的 語音音節(jié)序列所代表的候選字淘汰掉,以縮小可能候選字的搜索范圍。接著, 會計算出每一候選字的語音音節(jié)序列所代表的音節(jié)差異度矩陣A的總額替換 成本,并從中找出代表總額替換成本最小的音節(jié)差異度矩陣A的候選字,其 中單一候選字所代表的音節(jié)差異度矩陣A用來表示該候選字與打字者輸入的 語音字之間的音節(jié)差異度。最后,該語音字會被轉換為代表總額替換成本最小 的音節(jié)差異度矩陣A的候選字,其中,將該語音字轉換為該候選字的步驟包含插入、刪除、替換、及排列該語音字所包含的字符。因此,可以達成根據(jù)單 詞的語音性質來實施的本發(fā)明所提供的第二種候選字產(chǎn)生方法以提高打字或 按鍵輸入效率的目的,其中,打字者只需要輸入語音字便可自動或半自動的將 該語音字替換為最符合該語音字的語音性質的候選字,以減少打字者在忘記單 詞的正確拼法所產(chǎn)生的困擾。
圖2所示的步驟可以使用適當設計的使用者界面,并以自動選取候選字的 方式來加以實施。因此,當打字者根據(jù)欲得到單詞的語音性質輸入一語音字時, 該使用者接口將根據(jù)圖2所示的步驟找出并表列(例如下拉式選單)多個候選 字,以供打字者選出一個最符合打字者的選擇的單詞;該使用者接口也可根據(jù) 圖2所示的步驟以及上述的說明,自動選取出一個最符合該語音字的語音性質 (也即出現(xiàn)可能性最高)的候選字來,并將該語音字自動替換為該候選字。
有時候,輸入包含較多的字符或字母的單詞對打字者來說是相當麻煩的事 情,因此,本發(fā)明也提供一第三種候選字產(chǎn)生方法以減少打字者此類的麻煩。 在該第三種候選字產(chǎn)生方法中,打字者僅需要輸入組成欲輸入的單詞(也即一 目標字)的字符序列中的一子序列(subsequence),就可以直接得到該目標字。舉 例來說,使用者可輸入子序列"pylg"以得到目標字"psychology",其中子 序列"pylg"的字符排列順序吻合于目標字"psychology"的字符排列順序, 也就是說,目標字"psychology"包含子序列"pylg"中的所有字符,并保有 子序列"pylg"中的字符排列順序。借助本發(fā)明所提供的第三種候選字產(chǎn)生方 法,當打字者輸入子序列"pylg"時,所有保有子序列"pylg"的所有字符及 其字符順序的可能候選字都會被產(chǎn)生出來,例如單 詞"psychological" 、 " psycholinguistic" 、 " physiology"等,其中這些被產(chǎn) 生出來的單詞所擁有的共同特征是子序列"pylg"為這些被產(chǎn)生出來的單詞 的子序列。當打字者想要輸入URL(Uniform Resource Locator,統(tǒng)一資源定位 器)或電子郵件地址時,也可應用本發(fā)明所提供的第三種候選字產(chǎn)生方法。舉 例來說,打字者可借助輸入子序列"shsu"來得到字符序 列 ,,http:〃iasl.iis.sinica.edu.tw/hsu/" , 其 中 字 符 序 列"http:〃iasl.iis.sinica.edu.tw/hsu/"為打字者先前已經(jīng)輸入過并被記錄起來 以當作參考的統(tǒng)一資源定位器。
請參閱圖4,其為本發(fā)明借助輸入目標字的子序列來實施的第三種候選字
16產(chǎn)生方法的示意圖。圖4所示的步驟列舉如下 步驟302: 提供一字典。
步驟304: 輸入一輸入字后,決定是否至少有一個候選字存在,其中該 至少一個候選字來自于該字典,該輸入字為該至少一個候選字的子序列,且該 輸入字所包含的所有字符以及其字符順序可在該至少一個候選字中找到。當該
至少一個候選字存在時,執(zhí)行步驟306;否則,執(zhí)行步驟308。
步驟306: 由該至少一個候選字中選出一個候選字,并將該輸入字替換
為該選出的候選字。
步驟308: 顯示一信息,以表示并沒有任何對應于該輸入字的候選字存在。
與本發(fā)明上述所提供的所有候選字產(chǎn)生方法相似,本發(fā)明所提供的第三種
候選字產(chǎn)生方法也需要事先提供一字典以執(zhí)行圖4所述的步驟。該字典儲存多
個候選字,并提供辨認出該多個候選字的子序列的功能。當打字者輸入一輸入 字后,在該字典中尋找包含該輸入字為子序列的候選字。當找出至少一個包含 該輸入字為子序列的可能候選字時,打字者再由該至少一個可能候選字中選取 一個較喜好的候選字出來。借助針對本發(fā)明所提供的第三種候選字產(chǎn)生方法所 設計的使用者接口,該至少一個可能候選字可以表列的方式顯示出來,例如將 該至少一個可能候選字顯示于下拉式選單以供打字者挑選,或是顯示于其它可 方便打字者選取候選字的布置以供打字者挑選。再者,借助事先良好建立的統(tǒng) 計數(shù)據(jù),可預先計算出該字典所儲存的多個候選字各自的出現(xiàn)機率,因此上述 打字者挑選候選字的過程可直接以自動選出出現(xiàn)機率最高的候選字的方式來 加以替代實施。然而,當輸入的輸入字在該字典中找不到包含該輸入字為子序 列的候選字時,需要顯示一錯誤信息,以告知打字者可能打錯了字,并告知打 字者在該字典中并沒有任何符合該輸入字的條件的候選字存在。
本發(fā)明也提供一第四種候選字產(chǎn)生方法,并用在單詞序列上,例如句子或 片段所組成的單詞序列。假設打字者先前輸入的一句子或一片段已經(jīng)連帶其本 身的單詞排列順序一同被記錄起來,則該句子或該片段對應的首字母縮略字序
列(acronym s叫uence)將會一同被儲存起來,其中該首字母縮略字序列包含該句 子或該片段中每一單詞的開頭字符,且這些開頭字符在該首字母縮略字序列中 的排列順序與該句子或該片段所包含的所有單詞的排列順序相同。如此一來,
17當打字者想要得到一個完整的句子或片段時,他只需要輸入該句子或該片段的 首字母縮略字序列的子序列,也即一首字母縮略字子序列,就可以達到目的。 但是該首字母縮略字子序列的開頭字符必須要是該句子或該片段的開頭單詞 的開頭字符,同理,該首字母縮略字子序列的結尾字符也必須要是該句子或該 片段的結尾單詞的開頭字符。舉例來說,當打字者先前輸入過一單詞序列"I
will visit the University of California at Los Angeles tomorrow."時,對應的首字 母縮略字序列"iwvtuocalat"將會被自動的一起儲存起來。同理,打字者可借 助僅輸入一輸入字"ucla"或"uocla",得到一片段"University of California at Los Angeles",其中該片段的首字母縮略字序列為"uocala",且輸入 字"uda"與"uocla"皆為首字母縮略字序列"uocala"的子序列。請注意, 本發(fā)明所提供的第四種候選字產(chǎn)生方法與之前所述的本發(fā)明候選字產(chǎn)生方法 不同,并不需要事先準備語句字典或片段字典來儲存片段"University of California at Los Angeles",也不需要事先記憶可用來取得該片段的關鍵輸入 字,例如首字母縮略字子序列"uck"。打字者可借助任意輸入合乎文法的首 字母縮略字子序列來得到他所想要的句子或片段,其中打字者所想要的句子或 片段為打字者之前已輸入過的句子或片段,或是在打字者之前輸入該句子或該 片段的同時已由特殊的使用者定義文件(userprofile)所儲存起來。
圖5為本發(fā)明所提供的第四種候選字產(chǎn)生方法的示意圖,其中該第四種候 選字產(chǎn)生方法應用首字母縮略字子序列與單詞序列之間的字符順序關系產(chǎn)生 出打字者所需要的單詞子序列來,且該單詞子序列為該單詞序列的子序列。圖 5所示的步驟列舉如下
步驟402: 儲存一單詞序列。
步驟404: 使用一首字母縮略字子序列,得到該單詞序列的一單詞子序 列,該首字母縮略字子序列包含一單詞的開頭字符、以及該單詞的一后續(xù)單詞 的開頭字符,其中該單詞子序列起始于該單詞并結束于該后續(xù)單詞;該單詞與 該后續(xù)單詞來自于該單詞序列且不一定相鄰;該單詞的開頭字符與該后續(xù)單詞 的開頭字符在該首字母縮略字子序列中的順序遵守該單詞與該后續(xù)單詞在該 單詞序列中的順序。
一使用者接口可設計來實施本發(fā)明所提供的第四種候選字產(chǎn)生方法,且當 得到二個以上之單詞子序列時,該使用者接口會產(chǎn)生一個單詞子序列清單,以列出所得到之至少一個單詞子序列并供打字者由該至少一個單詞子序列中選 出打字者想要的一單詞子序列;其中該至少一個單詞子序列皆由同一首字母縮 略字子序列參考該單詞序列所產(chǎn)生出來,且該首字母縮略字子序列為該單詞序 列所對應的首字母縮略字序列的子序列。上述在使用者接口中由打字者選擇單 詞子序列的過程也可以以自動選擇的方式來執(zhí)行,也即根據(jù)過去所累積的統(tǒng)計 數(shù)據(jù)或相關機率來自動選取出一個可能性最高的單詞子序列,甚或是單詞序 列。
本發(fā)明提供一第五種候選字產(chǎn)生方法,以節(jié)省打字者需要輸入包含加入標 記的字符的單詞時額外浪費的時間。借助該第五種候選字產(chǎn)生方法,打字者在 輸入單詞時,可以很輕易地把未帶有標記的字符與帶有標記的字符互相替換, 例如將未帶有標記的字符"0"或"U"與帶有標記的字符O"或互相替 換。
請參閱圖6,其為本發(fā)明所提供的第五種候選字產(chǎn)生方法的示意圖,其中 該第五種候選字方法用來簡化打字者輸入包含加入標記的字符的單詞時額外 浪費的時間。該第五種候選字產(chǎn)生方法列舉如下
步驟502: 提供一字典。
步驟504: 根據(jù)輸入字中可能帶有標記的字符,并借助參考該字典中所 記載并相關于多個帶有標記的字符的合理語義單詞組合,產(chǎn)生至少一個候選 字。
步驟506: 由該至少一個候選字中選出一個候選字。
在步驟502中, 一字典用來儲存與包含帶有標記的字符的合理語義單詞組 合相關的多個候選字,因為同樣的一個單詞所包含的某些字符在某些狀況下為 帶有標記的字符,但是在其它狀況下又并非是帶有標記的字符。當打字者輸入 一輸入字時,與帶有標記的字符和該輸入字相關的合理語義單詞組合都會被搜 尋,以產(chǎn)生至少一個候選字。最后,該打字者從經(jīng)由搜尋所產(chǎn)生的至少一個候 選字中,選出一個候選字,或是根據(jù)相關的統(tǒng)計數(shù)據(jù)與機率分布,并經(jīng)由自動 選取的方式選出一個可能性最高的候選字來。一使用者接口也可經(jīng)由適當?shù)脑O 計來實施本發(fā)明所提供的第五種候選字產(chǎn)生方法,以借助表列出至少一個候選 字的方式,輔助打字者選擇一個適當?shù)暮蜻x字。該使用者接口也可同樣的以自 動選取的方式由該至少一個候選字中選出一個可能性最高的候選字來。本發(fā)明提供多個候選字產(chǎn)生方法,以減輕打字者在打字時面臨的各種負 擔,其中引起這些負擔的原因包含不正確的拼字、輸入錯誤、打字者不知道單 詞的正確拼法、以及某些包含帶有標記(比如說重音標記)的字符的單詞。該多 個候選字產(chǎn)生方法也可以某些簡略的方法幫助打字者可以更快的找到他所想 要的單詞。本發(fā)明所提供的這些候選字產(chǎn)生方法應用了某些概念,例如記錄打
字者先前輸入的句子或片段并當作之后的參考、或是利用使用者設定文件由打 字者先前所輸入的句子或片段自我學習的候選字,以自動選取出有較高機率符 合狀況的候選字。再者,借助其它特定條件的限制,可以大幅度的縮小候選字 的搜尋范圍,并使得自動選取出有較高機率符合狀況的候選字的準確性提高。
許多亞洲系統(tǒng)的語言都是采取以字符或字母為單位元的鍵盤輸入方式,例 如中文的拼音輸入法、倉頡輸入法、或是日文的漢字輸入法等。在上述的輸入 法中,打字者輸入一連串的字符以形成特定字碼,并以表列的方式(例如下拉 式選單)找出根據(jù)該特定字碼所產(chǎn)生出的至少一個亞洲系統(tǒng)語言候選字符。因 此,本發(fā)明所提出的各種候選字產(chǎn)生方法也可應用于亞洲系統(tǒng)語言的輸入方 式,其中候選字的單位即為亞洲系統(tǒng)語言所使用的字符。
以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等 變化與修飾,均應屬本發(fā)明的涵蓋范圍。
權利要求
1. 一種提高打字效率的候選字產(chǎn)生方法,該方法包含提供一字典;實施一自動選擇候選字方法,包含由該字典中產(chǎn)生至少一候選字,以根據(jù)事先建立的統(tǒng)計數(shù)據(jù),改寫打字者輸入的一句子中的一已選取的字,使該已選取的字符合該句子的語義性質;以及以該至少一候選字替換該已選取的字。
2. 根據(jù)權利要求1所述的方法,其特征在于該自動選擇候選字方法還包含計算該己選取的字與該至少一候選字中的每一候選字的一編輯距離;以及 當每一計算出的編輯距離皆大于零時,由該至少一候選字中選取與該已選取的字的編輯距離最小的一候選字,并將該已選取的字替換為編輯距離最小的該候選字;其中該已選取的字與一對應的候選字的編輯距離的定義為將該己選取的 字以字符為單位轉換為該對應的候選字時,所耗費的最少步驟數(shù),其中所耗費 的步驟包含插入一個字符、刪除一個字符、以及替換一個字符等操作。
3. 根據(jù)權利要求1所述的方法,其特征在于,該字典為一系統(tǒng)提供的字典、 一領域字典、或一使用者字典,其中該領域字典為不同學術領域所使用的字典。
4. 根據(jù)權利要求1所述的方法,其特征在于,還包含 以大量的多個句子的語料統(tǒng)計字與字之間的相關數(shù)據(jù)來訓練并測試該字典,其中該大量的多個句子包含多個相關字,并借助該多個句子以及該多個相 關字建立該事先建立的統(tǒng)計數(shù)據(jù),其中該事先建立的統(tǒng)計數(shù)據(jù)與該多個句子的 語義性質相關。
5. 根據(jù)權利要求1所述的方法,其特征在于,該自動選擇方法根據(jù)一 N-gram模型方法或一語言學的模塊匹配系統(tǒng)來實施。
6. 根據(jù)權利要求3所述的方法,其特征在于,還包含 根據(jù)編譯打字者輸入的文章的結果,列出該多個候選字;以及 建立打字者輸入的該文章的統(tǒng)計數(shù)據(jù)。
7. 根據(jù)權利要求6所述的方法,其特征在于,該統(tǒng)計數(shù)據(jù)為候選字在打字 者輸入的該文章中出現(xiàn)的機率,或是特別的單詞組合出現(xiàn)于使用者輸入的該文 章的機率。
8. 根據(jù)權利要求6所述的方法,其特征在于,根據(jù)打字者輸入的該文章來 報告打字輸入錯誤。
9. 根據(jù)權利要求6所述的方法,其特征在于,鍵盤輸入錯誤由一群組中選 出,且該群組包含一拼字錯誤的詞組或句子、 一字符插入錯誤、 一字符刪除錯 誤、 一字符替換錯誤、以及一字符排列錯誤。
10. 根據(jù)權利要求3所述的方法,其特征在于,還包含 提供一使用者接口,以供使用者由一組被列出的候選字中選出一個候選字,其中該組被列出的候選字由該自動選擇候選字方法所產(chǎn)生。
11. 一種提高打字效率的候選字產(chǎn)生方法,包含(a) 提供以語音學為基礎的一語音字典;(b) 將一輸入字分解為多個語音音節(jié)序列,其中該多個語音音節(jié)序列的 每一語音音節(jié)序列包含多個語音音節(jié);(c) 根據(jù)該語音字典包含的多個音節(jié)差異度矩陣,產(chǎn)生多個候選字,其 中該多個候選字對于該多個語音音節(jié)序列的每一語音音節(jié)序列包含至少一個 候選字,且該多個語音音節(jié)序列一一對應于該多個音節(jié)差異度矩陣;及(d) 由該多個候選字中選出一個候選字,并將該輸入字替換為該選出的 候選字,其中將該輸入字替換為該選出的候選字所耗費的總額替換成本為該多 個候選字個別耗費的多個總額替換成本中的最小總額替換成本,且該最小總額 替換成本大于零。
12. 根據(jù)權利要求11所述的方法,其特征在于,步(a)與步(c)還包含在該語音字典中儲存多個語音音節(jié);以及計算儲存的該多個語音音節(jié)中任意二個語音音節(jié)的音節(jié)差異距離,以產(chǎn)生 多個音節(jié)差異距離;其中該語音字典所儲存的一第一語音音節(jié)與一第二語音音節(jié)之間的音節(jié) 差異距離根據(jù)該第一語音音節(jié)與該第二語音音節(jié)在該語音字典中的音節(jié)差異 度,以及根據(jù)將該第一語音音節(jié)替換為該第二語音音節(jié)的替換成本來加以計算,其中將該第一語音音節(jié)替換為該第二語音音節(jié)的步包含替換、插入、刪 除、及重新排列該第一語音音節(jié)中包含的字符。
13. 根據(jù)權利要求12所述的方法,其特征在于,該多個音節(jié)差異距離皆 大于0,且小于或等于1。
14. 根據(jù)權利要求12所述的方法,其特征在于,該音節(jié)差異度矩陣為對 應于一候選字以及一語音音節(jié)序列所產(chǎn)生的一二維矩陣;該候選字所包含的多 個語音音節(jié)為該二維矩陣中的一第一維度的參數(shù),且該語音音節(jié)序列包含的多 個語音音節(jié)為該二維矩陣中的一第二維度的參數(shù);該音節(jié)差異度矩陣中的一元 素為該候選字包含的多個語音音節(jié)的一語音音節(jié)與該語音音節(jié)序列包含的多 個語音音節(jié)的一語音音節(jié)之間的音節(jié)差異距離。
15. 根據(jù)權利要求14所述的方法,其特征在于,該輸入字替換為該選出 的候選字所耗費的總額替換成本根據(jù)該候選字與該語音音節(jié)序列所形成的該 音節(jié)差異度矩陣所計算出的行列式值所產(chǎn)生。
16. 根據(jù)權利要求14所述的方法,其特征在于,將該輸入字替換為選出 的該候選字所耗費的總額替換成本根據(jù)加總該候選字與該語音音節(jié)序列所形 成的該音節(jié)差異度矩陣中相關的多個音節(jié)差異距離所產(chǎn)生。
17. 根據(jù)權利要求11所述的方法,其特征在于,該輸入字根據(jù)語音拼寫 方式所輸入。
18. 根據(jù)權利要求14所述的方法,其特征在于,還包含 提供一使用者接口;其中該使用者接口用來實施步(a)、步(b)、步(c)、以及步(d)。
19. 根據(jù)權利要求14所述的方法,其特征在于,還包含 以自動選擇候選字的方式實施步(b)、步(c)、及步(d)。
20. —種提高打字效率的候選字產(chǎn)生方法,包含 提供一字典;確認是否有至少一個候選字存在,其中該字典的一輸入字為該至少一個候 選字的子序列,且該輸入字的特征可于該至少一個候選字的每一候選字中被發(fā) 現(xiàn);以及當該至少一個候選字存在時,將該輸入字替換為該至少一個輸入字。
21. 根據(jù)權利要求20所述的方法,其特征在于,該字典包含多個統(tǒng)一資源定位器或多個電子郵件位址,或該字典同時包含該多個統(tǒng)一資源定位器或該 多個電子郵件地址。
22. 根據(jù)權利要求20所述的方法,其特征在于,還包含當該至少一個候選字存在時,產(chǎn)生一候選字清單;以及 由該候選字清單中所列舉出的該至少一個候選字中,選取出一候選字以替 換該輸入字。
23. 根據(jù)權利要求22所述的方法,其特征在于, 一使用者接口用來輔助 打字者由該候選字清單中選取出該候選字。
24. 根據(jù)權利要求22所述的方法,其特征在于,該候選字以自動選擇的 方法由該候選字清單中選取出。
25. —種用來提高打字或按鍵輸入效率的候選字產(chǎn)生方法,包含 儲存一單詞序列;以及根據(jù)一首字母縮略字子序列,由該單詞序列中取出一單詞子序列,其中該 首字母縮略字子序列包含一第一字的開頭字符以及一第二字的開頭字符,該第 二字在該單詞序列中的順序為在該第一字之后,且該第一字的開頭字符與該第 二字的開頭字符在該首字母縮略字子序列中的順序對應于該第一字與該第二 字在該單詞序列中的順序;其中該單詞子序列包含該第一字、該第二字、以及在該單詞序列中位于該第一字與該第二字之間的多個字,且該第一字、該第二字、以及在該單詞序列 中位于該第一字與該第二字之間的該多個字在該單詞子序列中的順序對應于 在該單詞序列中的順序。
26. 根據(jù)權利要求25所述的方法,其特征在于,該首字母縮略字子序列 還包含在該單詞序列中位于該第一字與該第二字之間的該多個字中的至少一個 字的開頭字符,其中該首字母縮略字子序列所包含的該至少一個字的開頭字符 的順序對應于該至少一個字在該單詞序列中的順序。
27. 根據(jù)權利要求25所述的方法,其特征在于,還包含 產(chǎn)生一清單,當使用單一首字母縮略字子序列得到該單詞序列中至少一個單詞子序列時,該清單列舉出得到的該至少一個單詞子序列,以便于使用一使 用者界面從得到的該至少一個單詞子序列中選取一單詞子序列。
28. 根據(jù)權利要求25所述的方法,其特征在于,還包含 產(chǎn)生一對應于該單詞序列的一首字母縮略字序列;其中該首字母縮略字序列包含該單詞序列包含的每一單詞的開頭字符,且該每一單詞的開頭字符在該首字母縮略子序列中的順序與該每一單詞在該單 詞序列中的順序一致。
29. 根據(jù)權利要求27所述的方法,其特征在于,產(chǎn)生該清單以便于使用 該使用者界面從得到的該至少一個單詞子序列中選取該單詞子序列包含以自動選取單詞子序列的方式產(chǎn)生該清單。
30. —種用來提高打字效率的候選字產(chǎn)生方法,包含(a) 提供一字典;(b) 根據(jù)一輸入字中帶有標記的字符的合理組合,產(chǎn)生至少一個候選字;以及(c) 由該至少一個候選字中選取一候選字;其中,該字典中儲存有多個帶有標記的字符的合理組合,及對應于該多個 合理組合的單詞。
31. 根據(jù)權利要求30所述的方法,其特征在于,根據(jù)該輸入字中帶有標 記的字符的合理組合,產(chǎn)生該至少一個候選字包含參考相關于多個字符的標記并儲存于該字典中的語義單詞合理組合。
32. 根據(jù)權利要求30所述的方法,其特征在于,還包含提供一使用者接口;其中該使用者接口用來實施步(a)與步(b)。
33. 根據(jù)權利要求30所述的方法,其特征在于,還包含 以自動選取候選字的方式來實施步(b)與步(c)。
全文摘要
為了讓打字或按鍵輸入者減輕各種打字負擔,以及為了借助某些簡化的技巧來提高打字者的打字或按鍵輸入效率,提供多種候選字產(chǎn)生方法以用來輔助打字者由列舉出的候選字清單中選出所要的候選字,或是用來以自動由該候選字清單中選取候選字的方式輔助打字者。其中,這些打字負擔包含不正確的拼字、鍵盤輸入錯誤、打字者不知道單詞的正確拼法、以及帶有標記的字符等狀況。經(jīng)過適當設計的使用者接口也可用來實施該多種候選字產(chǎn)生方法。
文檔編號G06F17/20GK101523385SQ200780036264
公開日2009年9月2日 申請日期2007年9月27日 優(yōu)先權日2006年9月27日
發(fā)明者許聞廉 申請人:中央研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1