亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于將文本輸入到電子設(shè)備中的系統(tǒng)和方法

文檔序號(hào):10557134閱讀:259來(lái)源:國(guó)知局
用于將文本輸入到電子設(shè)備中的系統(tǒng)和方法【專利摘要】提供了用于將文本輸入到電子設(shè)備中的系統(tǒng)。所述系統(tǒng)被配置為接收輸入到設(shè)備中的字符序列。該系統(tǒng)包括被配置為根據(jù)字符序列生成詞段序列的單元。該系統(tǒng)還包括文本預(yù)測(cè)引擎,該文本預(yù)測(cè)引擎包括存儲(chǔ)有詞段序列的語(yǔ)言模型。文本預(yù)測(cè)引擎被配置為接收詞段序列。在第一實(shí)施例中,文本預(yù)測(cè)引擎被配置為判定詞段序列中的每個(gè)詞段是否對(duì)應(yīng)于語(yǔ)言模型的存儲(chǔ)的詞段,以及當(dāng)詞段序列中的每個(gè)詞段對(duì)應(yīng)于語(yǔ)言模型的存儲(chǔ)的詞段時(shí)將詞段序列輸出作為候選預(yù)測(cè),而不管詞段序列是否對(duì)應(yīng)于存儲(chǔ)的詞段序列。提供了其它各種系統(tǒng)和對(duì)應(yīng)的方法。提供了一種系統(tǒng),該系統(tǒng)包括詞段語(yǔ)言模型,詞段語(yǔ)言模型包括存儲(chǔ)的詞段序列和候選過(guò)濾器。候選過(guò)濾器用于對(duì)由詞段語(yǔ)言模型生成的詞語(yǔ)預(yù)測(cè)進(jìn)行過(guò)濾?!緦@f(shuō)明】用于將文本輸入到電子設(shè)備中的系統(tǒng)和方法
技術(shù)領(lǐng)域
[0001]本發(fā)明總體上涉及用于將文本輸入到電子設(shè)備中的系統(tǒng)和方法。特別地,本發(fā)明涉及包括具有用于生成文本預(yù)測(cè)的語(yǔ)言模型的文本預(yù)測(cè)引擎的系統(tǒng)和利用這樣的系統(tǒng)生成文本預(yù)測(cè)的方法?!?br>背景技術(shù)
】[0002]存在已知的基于用戶輸入的字符序列來(lái)預(yù)測(cè)詞語(yǔ)的系統(tǒng)。該系統(tǒng)的一個(gè)示例是題為“用于將文本輸入到電子設(shè)備中的系統(tǒng)和方法(Systemandmethodforinputtingtextintoelectronicdevices)”的公開號(hào)為W02010/112841的國(guó)際專利申請(qǐng),該申請(qǐng)全文通過(guò)引用方式合并于此。W02010/112841描述了一種包括文本預(yù)測(cè)引擎的系統(tǒng),文本預(yù)測(cè)引擎被配置為接收用戶輸入文本且利用多個(gè)語(yǔ)言模型生成一個(gè)或多個(gè)文本預(yù)測(cè)。[0003]如該申請(qǐng)所描述的,為了輸入不存在于語(yǔ)言模型的詞匯表中的術(shù)語(yǔ),用戶可通過(guò)將該術(shù)語(yǔ)逐字符地輸入到系統(tǒng)的用戶界面中來(lái)插入該術(shù)語(yǔ)。然后將該術(shù)語(yǔ)存儲(chǔ)在動(dòng)態(tài)語(yǔ)言模型中,使得該術(shù)語(yǔ)能夠在以后被預(yù)測(cè)。[0004]雖然逐字的文本能夠由用戶輸入,但如果逐字的文本不對(duì)應(yīng)于語(yǔ)言模型的已知詞語(yǔ),則其將不會(huì)作為具有對(duì)應(yīng)的關(guān)聯(lián)概率的候選詞而被預(yù)測(cè)。[0005]許多已知系統(tǒng)存在的問(wèn)題在于,當(dāng)逐字的輸入不對(duì)應(yīng)于系統(tǒng)的語(yǔ)言模型的已知的詞語(yǔ)時(shí),系統(tǒng)自動(dòng)校正逐字的輸入。[0006]通過(guò)用系統(tǒng)已知的替選詞語(yǔ)建議取代逐字輸入來(lái)對(duì)逐字的輸入進(jìn)行自動(dòng)校正,會(huì)導(dǎo)致令人沮喪的用戶文本輸入體驗(yàn)。自動(dòng)校正功能輸入最可能的候選,例如當(dāng)用戶輸入空格時(shí),除非用戶專門地指示預(yù)測(cè)詞語(yǔ)(其是逐字文本的替選)不是他們想要輸入的。[0007]已知的系統(tǒng)僅限于預(yù)測(cè)已知的詞語(yǔ)(S卩,存在于系統(tǒng)的語(yǔ)言模型中的詞語(yǔ))。該方法存在的問(wèn)題在于,系統(tǒng)受訓(xùn)練數(shù)據(jù)中所見的詞匯表限制,并且因此如果逐字輸入不對(duì)應(yīng)于語(yǔ)言模型中的詞語(yǔ)則永遠(yuǎn)不能將該逐字輸入作為預(yù)測(cè)候選來(lái)提供。[0008]本發(fā)明的目的是解決上文指出的問(wèn)題中的一個(gè)或多個(gè)。【
發(fā)明內(nèi)容】[0009]本發(fā)明提供了根據(jù)獨(dú)立權(quán)利要求1、2、3和44的系統(tǒng),根據(jù)獨(dú)立權(quán)利27、28、29、30、43和50的方法以及根據(jù)獨(dú)立權(quán)利要求54的計(jì)算機(jī)程序。[0010]本發(fā)明的可選特征是從屬權(quán)利要求的主題。[0011]參考權(quán)利要求1和28,術(shù)語(yǔ)‘候選預(yù)測(cè)’用于指代被提供給用戶以便輸入到系統(tǒng)中的文本預(yù)測(cè)。文本預(yù)測(cè)可對(duì)應(yīng)于語(yǔ)言模型未知的詞語(yǔ)或詞段組合?!靖綀D說(shuō)明】[0012]圖1a和Ib是根據(jù)本發(fā)明的高級(jí)預(yù)測(cè)體系結(jié)構(gòu)的示意圖;[0013]圖2a是根據(jù)本發(fā)明的預(yù)測(cè)體系結(jié)構(gòu)的通用詞段語(yǔ)言模型的示意圖;[0014]圖2a’是進(jìn)一步包括候選過(guò)濾器的圖2a的詞段語(yǔ)言模型的示意圖;[0015]圖2b是根據(jù)本發(fā)明的實(shí)施例的詞段語(yǔ)言模型的示意圖;[0016]圖2c是根據(jù)本發(fā)明的實(shí)施例的詞段語(yǔ)言模型的示意圖;[0017]圖2d是根據(jù)本發(fā)明的實(shí)施例的詞段語(yǔ)言模型的示意圖;[0018]圖2e是根據(jù)本發(fā)明的預(yù)測(cè)體系結(jié)構(gòu)的通用的基于詞語(yǔ)的語(yǔ)言模型的示意圖;[0019]圖3是根據(jù)本發(fā)明的詞段η元語(yǔ)法圖的示意圖;[0020]圖4是根據(jù)本發(fā)明的‘混合’詞段η元語(yǔ)法圖的示意圖;[0021]圖5是根據(jù)本發(fā)明生成詞段語(yǔ)言模型的方法的流程圖;[0022]圖6是根據(jù)本發(fā)明來(lái)處理電子字符序列的第一方法的流程圖;[0023]圖7是根據(jù)本發(fā)明來(lái)處理電子字符序列的第二方法的流程圖;[0024]圖8是根據(jù)本發(fā)明來(lái)處理電子字符序列的第三方法的流程圖;[0025]圖9是根據(jù)本發(fā)明來(lái)處理電子字符序列的第四方法的流程圖;[0026]圖10是根據(jù)本發(fā)明來(lái)處理電子字符序列的第四方法的流程圖。【具體實(shí)施方式】[0027]—般地,而不是排他項(xiàng),本發(fā)明的系統(tǒng)能夠?qū)崿F(xiàn)如圖1a和Ib所示。[0028]圖1a是根據(jù)本發(fā)明的第一系統(tǒng)的框圖。該系統(tǒng)包括文本預(yù)測(cè)引擎100,該文本預(yù)測(cè)引擎100包括詞段語(yǔ)言模型10,該詞段語(yǔ)言模型被配置為根據(jù)用戶輸入的文本生成一個(gè)或多個(gè)詞段預(yù)測(cè)40。如下文更詳細(xì)說(shuō)明的,詞段語(yǔ)言模型10能夠被配置為迭代地預(yù)測(cè)詞段,使得來(lái)自文本預(yù)測(cè)引擎的輸出是可以顯示在電子設(shè)備的用戶界面上以供用戶選擇的一個(gè)或多個(gè)詞語(yǔ)預(yù)測(cè)50。[0029]圖1b是根據(jù)本發(fā)明的第二系統(tǒng)的框圖。除了詞段語(yǔ)言模型10之外,該實(shí)施例的文本預(yù)測(cè)引擎100’還具有詞語(yǔ)語(yǔ)言模型20。文本預(yù)測(cè)引擎進(jìn)一步包括多語(yǔ)言模型(多LM)30,以根據(jù)由詞段語(yǔ)言模型10和詞語(yǔ)語(yǔ)言模型20輸出的詞語(yǔ)預(yù)測(cè)50,50”生成最終的詞語(yǔ)預(yù)測(cè)集合55。在通過(guò)引用并入本文的WO2010/112841的第11頁(yè)第I行至第12頁(yè)第2行中描述了使用多LM30來(lái)對(duì)源自多個(gè)語(yǔ)言模型的詞語(yǔ)預(yù)測(cè)進(jìn)行組合。[0030]圖1a和Ib的高級(jí)預(yù)測(cè)體系結(jié)構(gòu)可以包括任意數(shù)量的如W02010/112841中所描述的附加語(yǔ)言模型。例如,預(yù)測(cè)體系結(jié)構(gòu)可以包括通用語(yǔ)言模型、特定于應(yīng)用的語(yǔ)言模型、特定于用戶的(動(dòng)態(tài)的)語(yǔ)言模型、用于不同語(yǔ)言(例如,韓語(yǔ)、芬蘭語(yǔ)、英語(yǔ)等)以及任何附加的語(yǔ)言模型中的一個(gè)或多個(gè),其中任意一個(gè)或多個(gè)可對(duì)應(yīng)于根據(jù)本發(fā)明的詞段語(yǔ)言模型10。[0031]詞段(wordsegment)是詞語(yǔ)中的可以與一種語(yǔ)言中的其它詞語(yǔ)共用的任意部分,例如詞語(yǔ)‘vest’、‘vesicle’、‘vehicle’、‘vegetable’、have、positive、live、lively、lovely等的詞段‘ve’。詞段可以包括詞素(morpheme),因?yàn)楹芏嘣~語(yǔ)共用詞綴和后綴等。然而,詞段比詞素涵蓋更多的字符組合,因?yàn)樗鼈儾槐鼐哂信c它們相關(guān)聯(lián)的含義。詞段可以如同詞素一樣是一個(gè)字符的長(zhǎng)度,例如用于使詞語(yǔ)復(fù)數(shù)化的‘S’,并且當(dāng)詞語(yǔ)沒有與其它詞語(yǔ)共用的任何部分時(shí)可以包括詞語(yǔ)。術(shù)語(yǔ)“詞段”還涵蓋了詞語(yǔ)連接符,諸如所有格撇號(hào)、連字符,無(wú)論是單獨(dú)地還是與其它字符組合。[0032]‘詞段語(yǔ)言模型’10是表示在自然語(yǔ)言內(nèi)出現(xiàn)的詞段序列的統(tǒng)計(jì)概率的概率分布。因此,詞段語(yǔ)言模型包括存儲(chǔ)的詞段序列。存儲(chǔ)的任何給定的序列可以表示詞語(yǔ)、詞語(yǔ)的序列或詞語(yǔ)的部分。在本發(fā)明中,術(shù)語(yǔ)‘詞段語(yǔ)言模型’還涵蓋了‘混合’語(yǔ)言模型,其除了存儲(chǔ)的詞段序列之外還包括存儲(chǔ)的詞語(yǔ)或詞語(yǔ)序列,即使那些詞語(yǔ)可以分解成與其它詞語(yǔ)共用的詞段。詞語(yǔ)可嵌入到詞段序列中,可以自身設(shè)在語(yǔ)言模型中,或者可以存儲(chǔ)在詞語(yǔ)序列中。詞語(yǔ)和詞段優(yōu)選地通過(guò)詞段語(yǔ)言模型不做區(qū)分地對(duì)待(S卩,詞語(yǔ)被作為詞段而對(duì)待)。[0033]‘詞語(yǔ)語(yǔ)言模型’20是表示在自然語(yǔ)言內(nèi)出現(xiàn)的詞語(yǔ)序列的統(tǒng)計(jì)概率的概率分布。在本申請(qǐng)的背景下,詞語(yǔ)語(yǔ)言模型僅存儲(chǔ)完整詞語(yǔ)的序列,即不存在對(duì)詞語(yǔ)的分段。[0034]使用僅包括詞段的語(yǔ)言模型存在一些缺點(diǎn),因?yàn)閬?lái)自這樣的語(yǔ)言模型的詞語(yǔ)預(yù)測(cè)會(huì)具有比詞語(yǔ)語(yǔ)言模型更低的對(duì)于預(yù)測(cè)常見詞語(yǔ)的精度?!盎旌稀闭Z(yǔ)言模型方法受益于把詞段用來(lái)預(yù)測(cè)罕見詞語(yǔ)(例如,已知詞段的未知組合)同時(shí)保持對(duì)于常見詞語(yǔ)的預(yù)測(cè)的質(zhì)量。[0035]存在對(duì)最好保留不分段(bestleftun-segmented)的詞語(yǔ)(例如一種語(yǔ)言的η個(gè)最頻繁詞語(yǔ)可以保留不分段)進(jìn)行識(shí)別的多種方式??商孢x地,對(duì)哪些詞語(yǔ)應(yīng)當(dāng)保留不分段的選擇可以基于詞語(yǔ)的大小來(lái)做出,因?yàn)檩^長(zhǎng)的詞語(yǔ)具有更高的受益于分段的可能性,而較短的詞語(yǔ)將趨于不可分段。詞語(yǔ)可通過(guò)兩種方法的組合來(lái)識(shí)別,保持較短且經(jīng)常使用的詞語(yǔ)不分段。任何其它適合的判定哪些詞語(yǔ)應(yīng)當(dāng)保留不分段的方式也能夠單獨(dú)地使用或者與所描述的方法相結(jié)合使用,取決于預(yù)測(cè)引擎的應(yīng)用。[0036]就哪些詞語(yǔ)保持為單個(gè)單位而哪些詞語(yǔ)分段成詞段(例如,詞素)而進(jìn)行的選擇,可取決于語(yǔ)言的形態(tài)拓?fù)浣Y(jié)構(gòu)。對(duì)于一些語(yǔ)言(例如,英語(yǔ))保持主要存儲(chǔ)詞語(yǔ)和詞語(yǔ)序列同時(shí)有一些詞段序列的語(yǔ)言模型是有益的;而對(duì)于其它語(yǔ)言,具有主要包括詞段和詞段序列同時(shí)具有較少的詞語(yǔ)或詞語(yǔ)序列的語(yǔ)言模型更有益。[0037]世界上的語(yǔ)言分布在從孤立語(yǔ)(意指,在不同的詞中,詞素彼此孤立)到黏著語(yǔ)(其中詞可包含許多子串,每個(gè)子串包含一個(gè)意義單位)的譜(spectrum)上。例如,在中國(guó)普通話(孤立語(yǔ))中,人不會(huì)說(shuō)“我打印了”而是說(shuō)“我過(guò)去打印過(guò)”;沒有任何類型的詞形變化(inflect1n),沒有動(dòng)詞詞形變化(0011]_呢31:;[011)/性別/時(shí)態(tài)/復(fù)數(shù)形式/格,等等。然而,在韓語(yǔ)中,韓語(yǔ)是黏著語(yǔ)的示例,動(dòng)詞帶有:時(shí)態(tài)、根據(jù)談話對(duì)象而定的禮貌程度、根據(jù)所談到的人而定的禮貌程度、情緒表達(dá),等等。同樣,斯瓦希里語(yǔ)動(dòng)詞包含了主語(yǔ)/時(shí)態(tài)/賓語(yǔ)/受者/否定。[0038]黏著語(yǔ)(包括例如韓語(yǔ)、芬蘭語(yǔ)和土耳其語(yǔ)),由于它們的構(gòu)詞本質(zhì),具有多得多的詞形,并且因此將主要受益于詞段語(yǔ)言模型的使用。大多數(shù)歐洲語(yǔ)言出現(xiàn)在所述譜的中間范圍的某處并且“在一定程度上”受益于詞語(yǔ)的分段,而英語(yǔ)的相對(duì)簡(jiǎn)單的詞形變化系統(tǒng)意味著,主要基于詞語(yǔ)來(lái)對(duì)語(yǔ)言進(jìn)行建模的方法可能更適合。[0039]為了訓(xùn)練詞段語(yǔ)言模型10,文本語(yǔ)料庫(kù)(或許多語(yǔ)料庫(kù))被通過(guò)(passthrough)用于詞素識(shí)別的已知技術(shù),例如在Morfessor工具箱提供的非監(jiān)督的類壓縮技術(shù)(unsupervisedcompress1n-1iketechnique)(http://www.cis.hut.fi/projects/morpho/)。該技術(shù)識(shí)別文本語(yǔ)料庫(kù)中的全部詞素并且得出詞典,該詞典能夠用于從并非在文本語(yǔ)料庫(kù)中實(shí)際上可見的詞語(yǔ)(B卩,詞素的新穎組合)中識(shí)別詞素。該非監(jiān)督技術(shù)使用最小描述長(zhǎng)度編碼來(lái)找到最高效地壓縮文本語(yǔ)料庫(kù)的最佳詞素集合。因此,最佳‘詞素’集合可能不代表真實(shí)(根據(jù)語(yǔ)法含義)詞素集合。還可以使用替選的算法或技術(shù),例如,監(jiān)督技術(shù)(supervisedtechnique)。然而,監(jiān)督技術(shù)需要帶注解的數(shù)據(jù)庫(kù),并且不存在涵蓋所需要支持的全部語(yǔ)言的適合的形態(tài)分析器或‘詞語(yǔ)分段器’。[0040]與其說(shuō)在文本語(yǔ)料庫(kù)上利用非監(jiān)督算法確定語(yǔ)言中的詞段(例如,詞素),不如說(shuō)可以使用用于給定語(yǔ)言的預(yù)先確定的詞段(例如,詞素)的列表??梢允褂帽O(jiān)督算法來(lái)根據(jù)文本語(yǔ)料庫(kù)生成語(yǔ)言模型概率,其中詞匯表已經(jīng)預(yù)先獲知。對(duì)于不同的語(yǔ)言,預(yù)先確定的詞素詞匯表在品質(zhì)和可用性上可能有所變化。該詞匯表的品質(zhì)也難以評(píng)估,這使得難以知道詞匯表是否適合,或者難以在多個(gè)詞匯表可用時(shí)選擇最適合的詞匯表。[0041]為了訓(xùn)練詞段語(yǔ)言模型10,大的文本語(yǔ)料庫(kù)被通過(guò)詞素詞典(例如,通過(guò)如上所述的監(jiān)督或非監(jiān)督技術(shù)來(lái)創(chuàng)建)以將每個(gè)可分詞語(yǔ)拆分成其詞段(例如,詞素)。優(yōu)選地,在每個(gè)詞之間還添加分詞符(例如4),即廣映射成T以在詞段和詞語(yǔ)之間進(jìn)行區(qū)分。例如,文本“Welcometoweekendspecials”可能被映射成“Weicome$to$weekend$specials$”。然后,新的語(yǔ)言模型10根據(jù)n元語(yǔ)法(n-gram)詞段序列(例如,6元語(yǔ)法(6-gram)來(lái)訓(xùn)練,且包括η元語(yǔ)法詞段序列出現(xiàn)的概率。η元語(yǔ)法圖的示例以圖3所示的方式來(lái)訓(xùn)練(其中與詞段序列相關(guān)聯(lián)的概率為簡(jiǎn)明起見而省去)。[0042]如從上文對(duì)詞段語(yǔ)言模型10的描述中將理解到,對(duì)于混合方法,較大的文本語(yǔ)料庫(kù)通過(guò)詞素詞典以將不是被選為保持作為一個(gè)單位的詞語(yǔ)的每個(gè)詞語(yǔ)拆分成其詞段(例如,詞素)。例如,如果‘weekend’是被選為保留不分段的詞語(yǔ),則對(duì)于上述示例所得出的η元語(yǔ)法詞段和基于詞語(yǔ)的序列將是“Weicome$to$weekend$specials”。然后,新的語(yǔ)言模型根據(jù)η元語(yǔ)法詞段和詞語(yǔ)序列(例如,6元語(yǔ)法)訓(xùn)練,且包括η元語(yǔ)法詞段和詞語(yǔ)序列出現(xiàn)的概率。以這種方式訓(xùn)練的η元語(yǔ)法圖的示例在圖4中圖示(再一次,該概率為簡(jiǎn)明起見而被省去)。與圖3不同,圖4包括完整的詞,完整的詞在圖3中分段,例如,‘wants’、‘wanted’、'means?、'meant,ο[0043]現(xiàn)在參考圖2a描述根據(jù)詞段語(yǔ)言模型10生成的詞段預(yù)測(cè)40以及詞語(yǔ)預(yù)測(cè)50,圖2a是圖1a和圖1b的詞段語(yǔ)言模型10的簡(jiǎn)化框圖。[0044]存在到給定語(yǔ)言模型中的兩個(gè)輸入,當(dāng)前術(shù)語(yǔ)輸入11和上下文輸入12。當(dāng)前術(shù)語(yǔ)輸入11包括系統(tǒng)所具有的關(guān)于系統(tǒng)正試圖預(yù)測(cè)的術(shù)語(yǔ)的信息,即,用戶正試圖輸入的術(shù)語(yǔ)以及與用戶已經(jīng)輸入的在前術(shù)語(yǔ)有關(guān)的上下文輸入。[0045]對(duì)于圖2a的詞段語(yǔ)言模型10,當(dāng)前術(shù)語(yǔ)輸入11涉及到與正在被預(yù)測(cè)的當(dāng)前詞段有關(guān)的任何字符,并且上下文輸入12涉及到先前輸入的或預(yù)測(cè)的詞段(如下文更詳細(xì)說(shuō)明的),該先前輸入的或預(yù)測(cè)的詞段涉及到先前輸入的詞語(yǔ)以及先前預(yù)測(cè)/輸入的當(dāng)前詞語(yǔ)的詞段。字符能夠由任何適合的方式來(lái)輸入,可包括例如按下表示字符的單個(gè)按鈕或者通過(guò)在觸摸屏用戶界面的鍵盤上的連續(xù)手勢(shì)。初始輸入可因此對(duì)應(yīng)于用戶界面上的被轉(zhuǎn)換成字符的坐標(biāo)集合,如通過(guò)引用方式以全文并入本文的WO2012/156686中詳細(xì)描述的。[0046]本發(fā)明的語(yǔ)言模型包括輸入語(yǔ)言模型,該輸入語(yǔ)言模型以當(dāng)前術(shù)語(yǔ)輸入11作為輸入,以及包括以上下文輸入12作為輸入的上下文語(yǔ)言模型。[0047]在優(yōu)選的而非限制的實(shí)施例中,輸入模型是字典樹13,該字典樹13被用當(dāng)前詞段輸入11來(lái)查詢,以根據(jù)詞段輸入11生成初始詞段預(yù)測(cè)。如WO2010/112841的第16頁(yè)第4行至第17頁(yè)第14行詳細(xì)描述的,字典樹13可以是標(biāo)準(zhǔn)的字典樹(參見WO2010/112841的圖3)或近似字典樹(參見WO2010/112841的圖4a),其被用直接的當(dāng)前詞段輸入11來(lái)查詢??蛇x地,字典樹I3可以是概率字典樹,該概率字典樹被用由當(dāng)前輸入生成的按鍵向量(KeyPressVector)來(lái)查詢,如通過(guò)引用方式并入本文的WO2010/112841的第17頁(yè)第16行至第20頁(yè)第16行詳細(xì)描述的。[0048]如WO2010/112841中描述的,按鍵向量能夠采取字符序列上的索引概率分布列(indexedseriesofprobabilitydistribut1n)的形式。按鍵向量可以包括與每次擊鍵相關(guān)聯(lián)的概率分布,以將用戶輸入的擊鍵中的錯(cuò)誤納入考慮,例如,其中當(dāng)用戶打算按下‘I’時(shí),用戶卻按下‘k’的情況。此外,除了標(biāo)點(diǎn)符號(hào)省略之外,按鍵向量和輸入模型還能夠用于對(duì)詞語(yǔ)的字符輸入中的錯(cuò)誤進(jìn)行校正。按鍵向量還能夠被配置為,如果在輸入模型中找到用戶省去的重復(fù)的字符,則插入該字符,以在將每個(gè)字符輸入到系統(tǒng)之后將漏掉的字符輸入納入考慮,并且能夠被配置為如果用戶輸入的字符不在輸入模型中則忽略該字符。[0049]在優(yōu)選而非限制的實(shí)施例中,上下文模型是η元語(yǔ)法圖14。上下文詞段12用于查詢?cè)~段η元語(yǔ)法圖14,其示例在上文結(jié)合圖3和圖4進(jìn)行了說(shuō)明以根據(jù)上下文詞段12生成初始詞段預(yù)測(cè)。[0050]該系統(tǒng)優(yōu)選地包括最終預(yù)測(cè)機(jī)制15以根據(jù)由字典樹13返回的候選(初始詞段預(yù)測(cè))和詞段η元語(yǔ)法圖14來(lái)生成最終的預(yù)測(cè)集合40。最終預(yù)測(cè)機(jī)制15可以是如WO2010/112841的第24頁(yè)第21行至第25頁(yè)第7行所詳細(xì)描述的交集機(jī)制(intersect1nmechanism),其中最終預(yù)測(cè)機(jī)制15用于計(jì)算由字典樹12和詞段η元語(yǔ)法圖14返回的候選(初始詞段預(yù)測(cè))的交集而生成一個(gè)或多個(gè)最終詞段預(yù)測(cè)40。然而,如下文要描述的,最終預(yù)測(cè)機(jī)制15可以取字典樹和η元語(yǔ)法圖中的一個(gè)所預(yù)測(cè)的預(yù)測(cè)候選,而不取由另一個(gè)所預(yù)測(cè)的預(yù)測(cè)候選。最終預(yù)測(cè)機(jī)制15在這方面不同于WO2010/112841的交集機(jī)制。[0051]取決于系統(tǒng)的使用,如下文更詳細(xì)說(shuō)明的,預(yù)測(cè)引擎100可被配置為輸出詞段預(yù)測(cè)40以供用戶選擇。術(shù)語(yǔ)詞段預(yù)測(cè)40旨在涵蓋除了在詞段中存在從由用戶輸入的字符序列中看不到的字符的詞段預(yù)測(cè)之外,還有詞段校正/修改,以及詞段的驗(yàn)證,如下文更詳細(xì)說(shuō)明的。如果詞段預(yù)測(cè)40輸出到用戶界面以便用戶選擇,可能需要修改用戶界面功能,例如,對(duì)于其中預(yù)測(cè)的詞段40對(duì)應(yīng)于在詞語(yǔ)中間而不是在開始/結(jié)束處的詞段的情況,不要插入空格或替換整個(gè)當(dāng)前詞語(yǔ)輸入。[0052]在優(yōu)選的實(shí)施例中,預(yù)測(cè)引擎100將輸出詞語(yǔ)預(yù)測(cè)50,因?yàn)檫@通常對(duì)于用戶而言更直觀。在該優(yōu)選的實(shí)施例中,詞段40迭代地預(yù)測(cè)從而生成詞語(yǔ)預(yù)測(cè)50。每當(dāng)預(yù)測(cè)了詞段,詞段預(yù)測(cè)40就作為上下文詞段12推送到語(yǔ)言模型10中,以生成構(gòu)成詞語(yǔ)的詞段序列中的下一詞段。迭代地根據(jù)詞段構(gòu)建一個(gè)詞的過(guò)程繼續(xù),直到全部的當(dāng)前輸入已經(jīng)用盡并且已經(jīng)達(dá)到詞語(yǔ)邊界標(biāo)記$,表明已經(jīng)生成完整的詞。[0053]例如,如果用戶已經(jīng)將“Iamtranslat”輸入到電子設(shè)備,上下文詞段輸入初始地為并且從“translat”取得當(dāng)前的詞段輸入11。[0054]字典樹13包括字符序列,當(dāng)字符序列被查詢用戶輸入時(shí),字符序列返回一個(gè)或多個(gè)詞段候選。字典樹可以是任何適合的深度,包括長(zhǎng)度為η的字符序列。例如,如果字典樹具有深度五(η=5),并且用戶正試圖輸入詞語(yǔ)‘translated’且已經(jīng)輸入‘translat’,可以用輸入的前五個(gè)字母‘trans’查詢字典樹,并且可以返回單詞段‘tra’、‘tran’和‘trans’。在字典樹中識(shí)別字典樹的對(duì)應(yīng)于詞段邊界的節(jié)點(diǎn),使得字典樹的查詢返回較長(zhǎng)詞段的子串的詞段。[0055]上下文證據(jù)(contextevidence)12例如使用分詞器(tokeniser)被分詞成詞段(在“Iam”情況下其是并且語(yǔ)言模型10被配置為將詞段序列與存儲(chǔ)在η元語(yǔ)法圖14中的詞段序列進(jìn)行比較,并且返回序列中下一詞段的候選。如在精確相同的上下文需要分詞(例如,在輸入的每個(gè)字符上分析上下文)的許多實(shí)例中,能夠臨時(shí)存儲(chǔ)上下文到詞段的映射(例如,作為存儲(chǔ)器中的高速緩存而存儲(chǔ))。這降低了與分析相關(guān)聯(lián)的計(jì)算要求以及時(shí)間。存儲(chǔ)在高速緩存中的數(shù)據(jù)量是預(yù)測(cè)期間的效率與可用存儲(chǔ)器之間的權(quán)衡。[0056]η元語(yǔ)法圖14所預(yù)測(cè)的詞段將可能包括對(duì)于輸入詞序列并非有效的詞段,例如作為存儲(chǔ)的序列‘I$am$alive’的部分的‘a(chǎn)li’。對(duì)于具有許多下一詞段預(yù)測(cè)的詞段序列,語(yǔ)言模型10可被配置為返回k個(gè)最可能的下一詞段預(yù)測(cè)40。為了簡(jiǎn)化示例,從η元語(yǔ)法圖返回的4個(gè)最可能的候選可以是‘tran’、‘a(chǎn)li’、‘hun’和‘tired’。[0057]可選地,詞段預(yù)測(cè)由字典樹13生成,并且交集機(jī)制15搜索η元語(yǔ)法圖14中以查找詞段預(yù)測(cè),來(lái)判定是否存在交集(即,它們將由字典樹13和圖14來(lái)預(yù)測(cè))并且因此判定是否輸出那些詞段預(yù)測(cè)作為最終詞段預(yù)測(cè)40。[0058]最終預(yù)測(cè)機(jī)制15被配置為根據(jù)字典樹13和η元語(yǔ)法圖14生成的預(yù)測(cè)候選生成最終的預(yù)測(cè)集合40。如WO2010/112841中詳述的,最終預(yù)測(cè)機(jī)制可被配置為,通過(guò)僅保留在兩個(gè)候選集合中都存在的詞段(在該情況下是‘tran’),來(lái)根據(jù)字典樹和η元語(yǔ)法圖來(lái)計(jì)算兩個(gè)候選集合的交集。在不存在上下文輸入的情形下,詞語(yǔ)邊界標(biāo)記“Γ的開始是用于確定初始上下文的上下文。然而,在優(yōu)選的實(shí)施例中,最終預(yù)測(cè)機(jī)制15被配置為,如果候選也沒有被η元語(yǔ)法圖預(yù)測(cè)到,則(經(jīng)由如下文所描述的后退法(back-offapproach))降低字典樹預(yù)測(cè)的候選的概率(而不是僅保持由兩者都生成的候選)。換言之,不存在“構(gòu)成詞語(yǔ)的詞段必須對(duì)應(yīng)于在單詞段η元語(yǔ)法圖14中存儲(chǔ)的已知詞段序列”的強(qiáng)制的上下文限制(例如,二元語(yǔ)法(b1-gram)限制)。因此,在具有其它詞段預(yù)測(cè)的序列中的η元語(yǔ)法圖14中不必找到利用字典樹基于當(dāng)前詞語(yǔ)輸入生成的詞段預(yù)測(cè)。[0059]最終預(yù)測(cè)機(jī)制15被配置為將取自字典樹和η元語(yǔ)法圖的概率組合。因此,如果在該上下文之前沒有看到詞段,但是詞段本身已知,則詞段將以出現(xiàn)概率來(lái)預(yù)測(cè),但是該概率將比“詞段已知且在找到詞段的上下文中詞段已知”的情況低。[0060]在優(yōu)選的實(shí)施例中,如果在給定上下文的情況下沒有看到詞段,則采用‘后退法’。例如,如果給定下面的詞段W1W2W3的上下文而正預(yù)測(cè)詞段W4,并且η元語(yǔ)法圖不包括存儲(chǔ)的對(duì)應(yīng)于W1W2W3W4的序列,則語(yǔ)言模型將搜索對(duì)應(yīng)于縮減上下文序列的逐漸縮短的序列W2W3W4,W3W4,以及隨后單獨(dú)的W4(如果語(yǔ)言模型包括一元語(yǔ)法圖)。每當(dāng)系統(tǒng)必須在要搜索的上下文后退,最終預(yù)測(cè)機(jī)制15將‘后退’懲罰應(yīng)用于在給定上下文情況下預(yù)測(cè)W4的概率(其可以是固定懲罰,例如通過(guò)乘以固定值)。[0061]然后,從最終預(yù)測(cè)機(jī)制15返回的詞段預(yù)測(cè)40的集合(例如,‘tran’)用作生成下一詞段預(yù)測(cè)40的上下文,例如,η元語(yǔ)法圖14將被查詢跟隨的詞段序列“I$a!4tran”,以生成詞段序列中的下一詞段的預(yù)測(cè)40。[0062]通過(guò)迭代地生成詞段,語(yǔ)言模型10能夠提供詞段序列中的下一詞段,其中在詞段中存在用戶輸入的字符中看不到的字符,該字符根據(jù)本示例涉及到用戶還沒有輸入但是打算輸入的‘ing’。如果最終預(yù)測(cè)機(jī)制15被配置為僅保持在兩個(gè)集合中都出現(xiàn)的詞段,則其迫使詞段為在給定當(dāng)前輸入11和上下文12情況下已知的詞段,S卩,對(duì)應(yīng)于存儲(chǔ)在η元語(yǔ)法圖14中的序列的詞段序列。[0063]按照相同的示例,語(yǔ)言模型10可能已經(jīng)基于字符輸入序列生成了以下詞段序列:“tran-slat”。通過(guò)將序列“I$am$translat”與n元語(yǔ)法圖14中的存儲(chǔ)的詞段序列進(jìn)行比較,η元語(yǔ)法詞段圖可以返回“ing”和“or”。對(duì)于該示例,對(duì)于最終詞段預(yù)測(cè)不存在當(dāng)前輸入11,因此詞段預(yù)測(cè)40是通過(guò)與η元語(yǔ)法圖14中存儲(chǔ)的詞段序列進(jìn)行比較而生成的。如果輸入已經(jīng)被以不同方式拆分,例如,如果對(duì)于‘translat’預(yù)測(cè)的迭代詞段是‘tr’,‘a(chǎn)ns’和‘la’,貝ft’是當(dāng)前詞語(yǔ)輸入11,并且最終詞段的詞段預(yù)測(cè)40將基于來(lái)自輸入ll‘t’(使用字典樹)和來(lái)自上下文13‘transla’(使用η元語(yǔ)法圖)的詞段預(yù)測(cè)。[0064]假設(shè)詞語(yǔ)邊界指示符“Γ跟著每個(gè)詞段預(yù)測(cè)‘ing’和‘or’,則從語(yǔ)言模型輸出的詞語(yǔ)預(yù)測(cè)50將是“translating〗”和“translator〗”。因此,當(dāng)全部輸入已經(jīng)用盡且詞語(yǔ)邊界已經(jīng)被預(yù)測(cè)到時(shí),語(yǔ)言模型輸出詞語(yǔ)預(yù)測(cè)。如上文的示例顯而易見的,如果用戶僅部分地輸入詞,則構(gòu)成詞語(yǔ)的詞段序列將具有比用戶輸入的更大數(shù)量的字符,因?yàn)樯鲜鲞^(guò)程繼續(xù)詞段迭代直至達(dá)到詞語(yǔ)邊界。[0065]從上文將理解,詞段語(yǔ)言模型10被配置為識(shí)別給定的輸入證據(jù)源11中的多個(gè)可能的詞段序列,并且預(yù)測(cè)一個(gè)或多個(gè)附加的詞段40,從而預(yù)測(cè)一個(gè)或多個(gè)詞語(yǔ)50(其已經(jīng)根據(jù)不同的詞段序列構(gòu)建)。對(duì)于任何給定的字符序列,給定的字符序列可以拆分成多個(gè)詞段序列。[0066]對(duì)于采用按鍵向量的詞段語(yǔ)言模型10,語(yǔ)言模型10被配置為能夠輸出詞段序列,其中已經(jīng)相對(duì)于輸入字符序列的字符修改詞段的字符。這是因?yàn)椋存I向量考慮到輸入字符序列可以不確切地對(duì)應(yīng)于用戶所意圖的,也即,在用戶已經(jīng)犯錯(cuò)的情況下,不管是因?yàn)樗麄儾恢勒_的拼寫而有意地,或者例如由于按下錯(cuò)誤的按鍵而無(wú)意地。因此,語(yǔ)言模型10還被配置為根據(jù)與正在被輸入的當(dāng)前詞語(yǔ)/詞段有關(guān)的輸入字符序列來(lái)預(yù)測(cè)經(jīng)修改的或校正后的詞段。因此,如果用戶已經(jīng)誤拼詞語(yǔ),則語(yǔ)言模型10也可以預(yù)測(cè)具有比用戶輸入的字符序列少的字符的詞語(yǔ)。例如,如果用戶鍵入“hellno”,則系統(tǒng)將生成“hello$”作為詞語(yǔ)預(yù)測(cè)50。按鍵向量和字典樹13考慮到如下事實(shí):‘η’應(yīng)當(dāng)是‘O’,重復(fù)的‘o’應(yīng)當(dāng)被忽略,或者序列中的‘η’應(yīng)當(dāng)忽略。詞語(yǔ)邊界標(biāo)記$可以從字典樹、η元語(yǔ)法圖或兩者來(lái)預(yù)測(cè)。如參考下面的圖2b所論述的,還可以從本發(fā)明的系統(tǒng)來(lái)預(yù)測(cè)“hell$no$”。[0067]預(yù)測(cè)過(guò)程的每次迭代可以得到具有不同概率的多個(gè)詞段預(yù)測(cè)候選40。這可能得到大量的可能的詞段序列并且因此得到對(duì)于識(shí)別全部的候選詞語(yǔ)50及其概率的顯著的計(jì)算復(fù)雜度。因此,可以采用最小概率的閾值、迭代次數(shù)、詞段數(shù)量等的閾值來(lái)防止這樣的耗時(shí)的詞語(yǔ)完成。閾值可以是靜態(tài)值(例如,4次迭代)或者基于搜索樹或其它參數(shù)(其可以包括技術(shù)設(shè)備能力,諸如存儲(chǔ)器、處理能力、可供下載的存儲(chǔ),等等)的大小的動(dòng)態(tài)值。[0068]上述過(guò)程能夠擴(kuò)展以推導(dǎo)用戶輸入的字符序列中的空格(或其它術(shù)語(yǔ)邊界定界符),其中用戶打算輸入兩個(gè)以上的詞語(yǔ),但是已經(jīng)(錯(cuò)誤地或者有意地)丟失了兩個(gè)輸入字符之間的空格。圖2b示出了圖2a的語(yǔ)言模型,通過(guò)幾個(gè)決策步驟示出了詞段語(yǔ)言模型1b如何能夠被用于生成包括由一個(gè)或多個(gè)術(shù)語(yǔ)邊界分開的兩個(gè)以上詞語(yǔ)的文本預(yù)測(cè)50’,以及單個(gè)詞語(yǔ)預(yù)測(cè)。由于兩個(gè)以上術(shù)語(yǔ)的用戶字符輸入將包括比單個(gè)詞語(yǔ)多的字符,系統(tǒng)被配置為首先判定是否已經(jīng)預(yù)測(cè)到詞語(yǔ)的末尾,即是否利用詞段預(yù)測(cè)到術(shù)語(yǔ)邊界$。如果語(yǔ)言模型1b判定沒有達(dá)到詞語(yǔ)邊界(N),則預(yù)測(cè)的詞段被作為上下文輸入(連同先前的任何詞段)傳回到語(yǔ)言模型。如果語(yǔ)言模型1b判定出存在詞語(yǔ)邊界(Y),則語(yǔ)言模型1b判定已經(jīng)預(yù)測(cè)到詞語(yǔ)50。語(yǔ)言模型1b被配置為判定是否存在更多的輸入。如果不存在另外的輸入的文本(N),則預(yù)測(cè)的詞語(yǔ)50被輸出作為文本預(yù)測(cè)50’。如果存在另外的輸入(Y),則語(yǔ)言模型1b根據(jù)預(yù)測(cè)的詞語(yǔ)50來(lái)預(yù)測(cè)接下來(lái)可能是什么詞段40,S卩,預(yù)測(cè)詞語(yǔ)50作為上下文12被傳回通過(guò)η元語(yǔ)法圖14。該過(guò)程如上所述迭代詞段,直到再次達(dá)到詞語(yǔ)邊界并且不存在進(jìn)一步的輸入。例如,如果用戶已經(jīng)輸入字符‘homeco’,則圖2b的語(yǔ)言模型1b將生成‘homecoming’和‘homecoming’以及其它預(yù)測(cè)。‘homecoming’將會(huì)是已經(jīng)通過(guò)迭代過(guò)程生成的從而生成詞語(yǔ)50,該詞語(yǔ)當(dāng)全部輸入已經(jīng)用盡且語(yǔ)言模型已經(jīng)預(yù)測(cè)到詞語(yǔ)邊界時(shí)被輸出?!甴omecoming’將會(huì)是通過(guò)語(yǔ)言模型生成的,語(yǔ)言模型在全部輸入用盡之前判定詞語(yǔ)中斷,并且因此利用預(yù)測(cè)詞語(yǔ)(‘home’)50作為用于下一詞段預(yù)測(cè)的上下文。因此,圖2b的文本預(yù)測(cè)50’可以包括由一個(gè)或多個(gè)術(shù)語(yǔ)邊界分開的兩個(gè)以上詞語(yǔ)的序列的預(yù)測(cè),以及單個(gè)詞語(yǔ)預(yù)測(cè)50。[0069]詞段語(yǔ)言模型10(參考圖2a和2b所描述的)可以通過(guò)上述過(guò)程來(lái)輸出無(wú)效詞語(yǔ)(即,詞段序列中的詞段的組合,其沒有出現(xiàn)在語(yǔ)言中,但是可能出現(xiàn)在η元語(yǔ)法詞段圖中),因?yàn)樵撨^(guò)程依賴于詞段組合的統(tǒng)計(jì)可能性,而不是依賴于詞語(yǔ)的詞典。系統(tǒng)的該性質(zhì)是優(yōu)選的:自然語(yǔ)言中的詞語(yǔ)由詞素構(gòu)成,其中許多重復(fù)于不同詞語(yǔ)中(例如,常見詞綴、詞干、前綴)。即使在非常大的文本語(yǔ)料庫(kù)中(用作訓(xùn)練數(shù)據(jù)),也可能找不到詞素的有效組合,或者頻率如此之低以至于不包括在最終詞匯表中(例如,由于存儲(chǔ)器約束)。對(duì)于具有較大詞匯表的語(yǔ)言,例如芬蘭語(yǔ)和韓語(yǔ),情況尤其如此。這同樣適用于詞素關(guān)于附近詞語(yǔ)(例如,羅曼語(yǔ)族中的詞性或名詞和形容詞的多種匹配)而不同的語(yǔ)言。然而,可以利用候選過(guò)濾器60來(lái)過(guò)濾詞語(yǔ)和文本候選50、50’,以去除無(wú)效詞語(yǔ)。例如,候選過(guò)濾器60可被配置為將圖2a的候選詞語(yǔ)50與詞典或詞語(yǔ)進(jìn)行比較以丟棄無(wú)效詞語(yǔ),其中候選過(guò)濾器輸出經(jīng)過(guò)濾的詞語(yǔ)預(yù)測(cè)50’(如圖2a’所示)。[0070]在優(yōu)選的實(shí)施例中,候選過(guò)濾器60是布隆過(guò)濾器。布隆過(guò)濾器能夠利用有效詞語(yǔ)構(gòu)成,其可以包括利用每個(gè)有效詞語(yǔ)的字符序列、每個(gè)有效詞語(yǔ)的詞段序列或者與每個(gè)有效詞語(yǔ)的詞段序列對(duì)應(yīng)的標(biāo)識(shí)符序列來(lái)構(gòu)造布隆過(guò)濾器。上下文圖的每個(gè)詞段可各自被提供標(biāo)識(shí)符。因此,當(dāng)詞語(yǔ)已經(jīng)通過(guò)語(yǔ)言模型生成時(shí),標(biāo)識(shí)符的組合對(duì)應(yīng)于構(gòu)成詞語(yǔ)的詞段的組合。通過(guò)利用有效詞語(yǔ)的標(biāo)識(shí)符組合來(lái)構(gòu)造布隆過(guò)濾器,用戶輸入的文本可被更高效地處理成最終過(guò)濾器詞語(yǔ)預(yù)測(cè)。[0071]然后,通過(guò)布隆過(guò)濾器60來(lái)過(guò)濾詞段語(yǔ)言模型10輸出的詞語(yǔ)候選50,其中布隆過(guò)濾器60中沒有出現(xiàn)的任何詞語(yǔ)候選50被作為無(wú)效詞語(yǔ)而丟棄。[0072]使用布隆過(guò)濾器的優(yōu)點(diǎn)在于,其是存儲(chǔ)器高效的,計(jì)算上高效的,并且其不會(huì)返回偽否定(布隆過(guò)濾器的特性)。因此,布隆過(guò)濾器50將在詞是有效的情況下永不會(huì)將該詞作為無(wú)效的而拒絕。[0073]圖2c和2d示出了詞段語(yǔ)言模型10b,1c的兩種可能的布置,該詞段語(yǔ)言模型包括用于處理可包括具有推導(dǎo)的術(shù)語(yǔ)邊界的兩個(gè)以上詞語(yǔ)的文本預(yù)測(cè)的候選過(guò)濾器60。由于包含了候選過(guò)濾器60,語(yǔ)言模型不同于圖2b的,并且由于候選詞語(yǔ)通過(guò)候選過(guò)濾器60的階段而彼此不同。[0074]參考圖2c的實(shí)施例,語(yǔ)言模型1c將詞語(yǔ)預(yù)測(cè)50通過(guò)候選過(guò)濾器60。如果詞語(yǔ)不是有效詞語(yǔ)(N),則詞語(yǔ)被丟棄或進(jìn)一步在點(diǎn)A處理(如稍后論述的)。如果詞語(yǔ)預(yù)測(cè)50被確定為有效詞語(yǔ)(Y),則語(yǔ)言模型判定是否存在任何進(jìn)一步的輸入,如圖2b的情況。如果存在仍要消費(fèi)的進(jìn)一步的輸入,則有效詞語(yǔ)50被返回作為詞段η元語(yǔ)法圖14的上下文12以判定下一詞段,即下一詞語(yǔ)的開始。如果不存在更多的輸入(N),則有效詞語(yǔ)50被輸出作為最終詞語(yǔ)預(yù)測(cè)50’。通過(guò)上述過(guò)程,用于計(jì)算由一個(gè)或多個(gè)術(shù)語(yǔ)邊界分開的詞語(yǔ)序列的路徑被丟棄,如果預(yù)測(cè)詞語(yǔ)50不是候選過(guò)濾器50的有效詞語(yǔ),則在其完成之前停止該路徑的處理。[0075]參考圖2d,語(yǔ)言模型基本上與圖2b所示的相同,然而,下一預(yù)測(cè)50’通過(guò)候選過(guò)濾器60,候選過(guò)濾器60判定下一預(yù)測(cè)50’的每個(gè)詞語(yǔ)是否有效,例如,兩個(gè)以上詞語(yǔ)的序列的每個(gè)詞語(yǔ)是否有效。如果詞語(yǔ)預(yù)測(cè)或詞語(yǔ)序列的詞語(yǔ)是有效的,則它們作為過(guò)濾的文本預(yù)測(cè)50”被輸出。如果詞語(yǔ)無(wú)效或者詞語(yǔ)序列的詞語(yǔ)無(wú)效,則詞語(yǔ)或詞語(yǔ)序列被丟棄或者在點(diǎn)B處進(jìn)一步處理,如稍后將要描述的。[0076]雖然候選過(guò)濾器60被描述為語(yǔ)言模型的部分,但候選過(guò)濾器60可以是與語(yǔ)言模型分離的文本預(yù)測(cè)引擎100的部分,其中要過(guò)濾的預(yù)測(cè)從語(yǔ)言模型傳遞到過(guò)濾器,例如,如圖2a’和2d所看到的,其中過(guò)濾器能夠視為與語(yǔ)言模型10a、10d分離,而不改變數(shù)據(jù)中的結(jié)構(gòu)或數(shù)據(jù)流。[0077]詞段語(yǔ)言模型10,1b,1c,1d優(yōu)選地被配置為生成對(duì)應(yīng)于逐字用戶輸入的詞語(yǔ)預(yù)測(cè)50,其中該逐字輸入不對(duì)應(yīng)于詞段語(yǔ)言模型10的已知詞語(yǔ)(S卩,由詞語(yǔ)邊界標(biāo)記例如“$”包圍的存儲(chǔ)詞語(yǔ)或存儲(chǔ)的詞段序列)。[0078]為了驗(yàn)證詞語(yǔ),直接當(dāng)前輸入11(8卩,不經(jīng)由按鍵向量)優(yōu)選地用于搜索字典樹13。詞段語(yǔ)言模型10迭代地預(yù)測(cè)如上所述的詞段序列中的下一詞段。在可選的實(shí)施例中,可以提供與逐字輸入對(duì)應(yīng)的修改版本的預(yù)測(cè)候選。在該實(shí)例中,字典樹將是與按鍵向量一起使用來(lái)根據(jù)用戶輸入的字符序列生成多個(gè)可能的詞段的概率字典樹,其中不要求詞段的字符直接匹配原始用戶輸入的文本的那些詞段的字符(例如,語(yǔ)言模型允許字符序列的輸入中的用戶錯(cuò)誤)。[0079]最終預(yù)測(cè)機(jī)制15被配置為將取自字典樹和η元語(yǔ)法圖的概率組合。因此,如果之前在該上下文中沒有看到詞段,但是詞段本身已知,則詞段將以出現(xiàn)概率被預(yù)測(cè),但是該概率將比“詞段已知且詞段在找到該詞段的上下文中已知”的情況更低。[0080]如上所述,如果在給定上下文中沒有看到詞段,則采用‘后退法’(該后退法還能夠用于如上所述的正常詞段預(yù)測(cè),但是對(duì)于詞段驗(yàn)證最相關(guān))。[0081]由于語(yǔ)言模型10,10b,10c,1d將逐字輸入作為詞語(yǔ)預(yù)測(cè)50來(lái)驗(yàn)證,所以語(yǔ)言模型10,10b,10c,1d被配置為用出現(xiàn)在序列末尾的詞語(yǔ)邊界標(biāo)記(“$”)來(lái)確定詞段序列的概率。[0082]在一個(gè)實(shí)施例中,如果與詞段語(yǔ)言模型10,10b,10c,1d(或者詞語(yǔ)語(yǔ)言模型20,如下文將描述的)生成的詞語(yǔ)預(yù)測(cè)50相關(guān)聯(lián)的概率落到閾值以下,則可以實(shí)施逐字輸入的驗(yàn)證。[0083]因此,詞段語(yǔ)言模型10,1b,1c,1d通過(guò)標(biāo)準(zhǔn)的迭代過(guò)程來(lái)預(yù)測(cè)詞語(yǔ)50,除非與最可能的詞語(yǔ)預(yù)測(cè)50相關(guān)聯(lián)的概率落到預(yù)定閾值以下。如果概率落到該預(yù)定閾值以下,則詞段語(yǔ)言模型10,1b,1c,1d用于驗(yàn)證逐字文本作為詞語(yǔ)預(yù)測(cè)50,如上所述。詞段語(yǔ)言模型10,10b,10c,10d被配置為確定置信得分,P(預(yù)測(cè))/P(驗(yàn)證)。如果置信得分大于預(yù)計(jì)算閾值,則語(yǔ)言模型輸出由初始過(guò)程生成的詞語(yǔ)預(yù)測(cè)50(其中優(yōu)選地,最終預(yù)測(cè)機(jī)制15僅保留由字典樹和η元語(yǔ)法圖14兩者生成的預(yù)測(cè)的詞段)。如果置信值小于預(yù)計(jì)算閾值,則逐字輸入被輸出(具有或不具有由第一過(guò)程生成的詞語(yǔ)預(yù)測(cè)50)。閾值優(yōu)選地根據(jù)具有目標(biāo)性能指標(biāo)的樣本數(shù)據(jù)集合計(jì)算。[0084]在備選的實(shí)施例中,預(yù)測(cè)引擎可被配置為對(duì)于每個(gè)用戶輸入的文本輸入實(shí)施逐字文本的驗(yàn)證。隨后,對(duì)于最上面的k個(gè)預(yù)測(cè)候選,實(shí)施上述的比率比較。比率值判定逐字文本是否作為預(yù)測(cè)候選(本身或者連同其它預(yù)測(cè)候選一起)被提供。[0085]參考圖2b,圖2c和圖2d,如果如上所述逐字輸入保留在詞語(yǔ)預(yù)測(cè)50中,逐字輸入將出現(xiàn)在文本預(yù)測(cè)50’中,或者作為詞語(yǔ)預(yù)測(cè),或者作為具有推導(dǎo)的術(shù)語(yǔ)邊界的詞語(yǔ)預(yù)測(cè)序列中的詞語(yǔ)預(yù)測(cè)。[0086]對(duì)于圖2a’,2c和2d的情況,由于逐字輸入不是已知詞語(yǔ),則其很可能被候選過(guò)濾器作為為無(wú)效的而被濾出。因此,在圖2a’的候選過(guò)濾器處或者在圖2c的步驟A中,語(yǔ)言模型優(yōu)選地被配置為判定無(wú)效詞語(yǔ)預(yù)測(cè)50(S卩,候選過(guò)濾器60丟棄的詞語(yǔ)預(yù)測(cè))是否對(duì)應(yīng)于逐字輸入(例如,通過(guò)對(duì)與逐字輸入相關(guān)聯(lián)的詞語(yǔ)預(yù)測(cè)50加標(biāo)簽或進(jìn)行識(shí)別)。如果無(wú)效詞語(yǔ)預(yù)測(cè)不對(duì)應(yīng)于逐字輸入,則其被丟棄。然而,如果詞語(yǔ)預(yù)測(cè)50對(duì)應(yīng)于逐字輸入,則其被保留。參考圖2c,如果沒有進(jìn)一步輸入要處理,則逐字輸入,連同已經(jīng)通過(guò)候選過(guò)濾器60處理步驟的有效文本預(yù)測(cè)一起被輸出作為文本預(yù)測(cè)50’。如果有進(jìn)一步的輸入要處理,則與逐字輸入有關(guān)的該詞語(yǔ)預(yù)測(cè)50能夠用作用于生成下一詞段的上下文12,(在迭代過(guò)程后)得出包括逐字預(yù)測(cè)、一個(gè)或多個(gè)詞語(yǔ)預(yù)測(cè)和推導(dǎo)的空格在內(nèi)的序列預(yù)測(cè)。該序列預(yù)測(cè)被輸出作為文本預(yù)測(cè)50’,假設(shè)序列具有足以被保留的高的關(guān)聯(lián)概率)。[0087]參考圖2d,候選過(guò)濾器60過(guò)濾文本預(yù)測(cè)50’。在文本預(yù)測(cè)50’包括預(yù)測(cè)序列的情況下,兩個(gè)以上的術(shù)語(yǔ)被推導(dǎo)的術(shù)語(yǔ)邊界分開,如果在通過(guò)候選過(guò)濾器時(shí)序列的一個(gè)或多個(gè)詞語(yǔ)無(wú)效,則在步驟B丟棄序列。然而,如果預(yù)測(cè)的序列被確定為包括逐字輸入,則該預(yù)測(cè)的序列被輸出作為過(guò)濾的文本預(yù)測(cè)50”,而不是被丟棄(假設(shè)其具有足以被保留的高的關(guān)聯(lián)概率)。[0088]使用布隆過(guò)濾器用于候選過(guò)濾器60的另一優(yōu)點(diǎn)在于,文本預(yù)測(cè)引擎能夠以與逐字文本輸入有關(guān)的預(yù)測(cè)詞語(yǔ)(例如在選擇以供用戶輸入之后)來(lái)更新語(yǔ)言模型的布隆過(guò)濾器60。在上述系統(tǒng)中,最上面的文本預(yù)測(cè)(toptextpredict1ns)50’可被輸出到顯示器以便用戶回顧和選擇。如果用戶選擇了包括逐字文本的詞語(yǔ)預(yù)測(cè)50’用于輸入,則該詞語(yǔ)能夠用于更新布隆過(guò)濾器。在該詞語(yǔ)的隨后輸入中,詞語(yǔ)則會(huì)通過(guò)過(guò)濾器,而不被圖2a’中的過(guò)濾器丟棄,且不進(jìn)行到圖2c和圖2d的步驟A或B。雖然結(jié)合布隆過(guò)濾器進(jìn)行了說(shuō)明,但是可以使用能夠更新的任何候選過(guò)濾器。[0089]通過(guò)提供能夠預(yù)測(cè)逐字文本作為用戶希望輸入的‘詞語(yǔ)’的語(yǔ)言模型10,1b,1c,10d,該系統(tǒng)不自動(dòng)地將逐字文本校正成語(yǔ)言模型的已知詞語(yǔ),從而提供輸入到系統(tǒng)的更精確的詞語(yǔ)預(yù)測(cè)50(自動(dòng)地或者經(jīng)由用戶選擇)。[0090]詞段語(yǔ)言模型的格式能夠匹配詞語(yǔ)語(yǔ)言模型的格式,這允許文本預(yù)測(cè)引擎使用兩種類型的語(yǔ)言模型,如圖1b的系統(tǒng)所示。在圖1b的系統(tǒng)中,預(yù)測(cè)引擎100’優(yōu)選地包括多語(yǔ)言模型30(多LM)以將源自圖2a的詞段語(yǔ)言模型10的詞語(yǔ)預(yù)測(cè)50和源自圖2e的詞語(yǔ)語(yǔ)言模型20的詞語(yǔ)預(yù)測(cè)51進(jìn)行組合,以生成可提供給用戶界面以便顯示和用戶選擇的最終預(yù)測(cè)55(或者可以簡(jiǎn)單地插入最可能的預(yù)測(cè))。最終預(yù)測(cè)55可以包括總體最可能的預(yù)測(cè)的一個(gè)集合(即,規(guī)定數(shù)量的)。多LM30通過(guò)將來(lái)自每個(gè)語(yǔ)言模型10,20的預(yù)測(cè)50,51插入有序關(guān)聯(lián)結(jié)構(gòu)來(lái)生成最終預(yù)測(cè)55,如通過(guò)引用并入本文的WO2010/112841的第11頁(yè)的第I行至第12頁(yè)的第2行中詳細(xì)描述的。詞語(yǔ)預(yù)測(cè)50,50”可并發(fā)地生成,或者來(lái)自詞段語(yǔ)言模型10的詞語(yǔ)預(yù)測(cè)50可以在詞語(yǔ)預(yù)測(cè)51’已根據(jù)詞語(yǔ)語(yǔ)言模型20生成之后生成(或者反之亦然)。雖然描述為包括圖2a的詞段語(yǔ)言模型,則詞段語(yǔ)言模型可以是參考圖2a’,2b,2c或2d所描述的。[0091]詞段語(yǔ)言模型10因此能夠與詞語(yǔ)語(yǔ)言模型20相結(jié)合使用來(lái)增強(qiáng)與逐字文本有關(guān)的詞語(yǔ)預(yù)測(cè)50的概率以及因此減少非期望的校正。[0092]如果需要,詞段語(yǔ)言模型10僅需要用于驗(yàn)證逐字文本,其它詞語(yǔ)預(yù)測(cè)/校正由詞語(yǔ)語(yǔ)言模型20來(lái)供給。這會(huì)是有益的,因?yàn)閷⑤斎胛谋痉衷~為詞段更復(fù)雜(因?yàn)槠涫褂媒y(tǒng)計(jì)算法),與基于詞語(yǔ)的分詞器不同,在許多語(yǔ)言中,該基于詞語(yǔ)的分詞器簡(jiǎn)單地識(shí)別詞語(yǔ)分離符(例如廣’)。如果僅用于驗(yàn)證逐字文本,則語(yǔ)言模型優(yōu)選地為圖2a或圖2b的那些,因?yàn)椴恍枰蜻x過(guò)濾器。[0093]對(duì)于圖1b的系統(tǒng)的這樣的使用,詞語(yǔ)預(yù)測(cè)51(其可以包括校正候選)從詞語(yǔ)語(yǔ)言模型20輸出。如果從詞語(yǔ)語(yǔ)言模型20輸出的詞語(yǔ)預(yù)測(cè)51落在某閾值以下,則如上文詳述利用詞段語(yǔ)言模型10來(lái)確定逐字詞語(yǔ)的概率。來(lái)自詞段語(yǔ)言模型10的逐字文本的概率(S卩,詞語(yǔ)預(yù)測(cè)50是逐字文本的詞語(yǔ)預(yù)測(cè)50的概率)隨后能夠與預(yù)測(cè)候選51中的概率合并(其中,如果逐字文本不包含在詞語(yǔ)語(yǔ)言模型20內(nèi),則預(yù)測(cè)候選51可以存在或者可以不存在)。如上所述,這可以得到最可能的詞語(yǔ)預(yù)測(cè)55是與逐字輸入對(duì)應(yīng)的詞語(yǔ)預(yù)測(cè)50,而不是替選的‘校正的’詞語(yǔ)預(yù)測(cè)51。[0094]可選地,預(yù)測(cè)引擎100’能夠使得詞語(yǔ)預(yù)測(cè)50,51同時(shí)源自兩個(gè)語(yǔ)言模型10,20并且應(yīng)用兩個(gè)模型之間的縮放因子(scalingfactor),以提高與來(lái)自一個(gè)模型的詞語(yǔ)預(yù)測(cè)相關(guān)聯(lián)的概率。逐字驗(yàn)證步驟可因此通過(guò)用于每個(gè)用戶輸入文本的詞段語(yǔ)言模型10來(lái)實(shí)施。[0095]包括基于詞語(yǔ)的語(yǔ)言模型20和詞段語(yǔ)言模型10,10b,10c,1d的系統(tǒng)相對(duì)于僅具有詞段語(yǔ)言模型10,10b,10c,10d的系統(tǒng)具有一些優(yōu)勢(shì),取決于系統(tǒng)的使用。例如,基于詞語(yǔ)的語(yǔ)言模型20可以是在用戶輸入的文本上訓(xùn)練的動(dòng)態(tài)語(yǔ)言模型。如果包括該系統(tǒng)的設(shè)備具有受限制的存儲(chǔ)要求,則基于詞語(yǔ)的動(dòng)態(tài)語(yǔ)言模型優(yōu)選于詞段動(dòng)態(tài)語(yǔ)言模型10,10b,10c,10d,因?yàn)樵~段動(dòng)態(tài)語(yǔ)言模式將要求系統(tǒng)包括用于將用戶輸入的文本分段的機(jī)制(例如Morfessor工具箱)以訓(xùn)練語(yǔ)言模型。此外,可能存在關(guān)注于某些對(duì)象的語(yǔ)言模型,如果這樣的語(yǔ)言模型被訓(xùn)練為詞段語(yǔ)言模型則將失去準(zhǔn)確性,例如基于人名和地名的語(yǔ)言模型等等。[0096]通過(guò)將詞段語(yǔ)言模型10,10b,10c,1d與詞語(yǔ)語(yǔ)言模型20組合,能夠利用詞段語(yǔ)言模型10來(lái)驗(yàn)證逐字文本,因?yàn)槠浒ㄓ捎谠~語(yǔ)部分的組合而增加的詞語(yǔ)詞匯表,而同時(shí)避免了由于復(fù)制基于詞語(yǔ)的上下文所需的詞段η元語(yǔ)法數(shù)量導(dǎo)致的預(yù)測(cè)精度的降低(因?yàn)樵~語(yǔ)語(yǔ)言模型20能夠用于除了逐字文本的驗(yàn)證之外的全部)。[0097]用于詞段語(yǔ)言模型10,10b,10c,1d預(yù)測(cè)的計(jì)算復(fù)雜度可以比詞語(yǔ)語(yǔ)言模型20的計(jì)算復(fù)雜度高,因?yàn)榭赡苡斜匾獙?duì)于給定上下文搜索更多的路徑,這使得在一些情形下由基于詞語(yǔ)的語(yǔ)言模型生成詞語(yǔ)預(yù)測(cè)且使用詞段語(yǔ)言模型僅用于驗(yàn)證是有益的。[0098]最有益的是,當(dāng)詞段語(yǔ)言模型10由沒有詞的詞段構(gòu)成時(shí),則將詞語(yǔ)語(yǔ)言模型20與詞段語(yǔ)言模型10組合,S卩非混合方法。創(chuàng)建詞段語(yǔ)言模型10的混合方法克服了與純粹詞段語(yǔ)言模型10相關(guān)聯(lián)的許多問(wèn)題,減少或避免了將其與詞語(yǔ)語(yǔ)言模型20組合的需要。此外,混合方法避免了將源自兩個(gè)不同的語(yǔ)言模型的預(yù)測(cè)組合的需要,其中因?yàn)樗鼈儾捎貌煌淖C據(jù)(即,作為上下文的詞語(yǔ)而不是詞段)而難以將來(lái)自語(yǔ)言模型的預(yù)測(cè)組合,這會(huì)導(dǎo)致不同的概率規(guī)模。此外,混合語(yǔ)言模型比包括多個(gè)語(yǔ)言模型的系統(tǒng)在存儲(chǔ)方面更高效。[0099]參考圖2e,詞語(yǔ)語(yǔ)言模型20具有與圖2a的詞段語(yǔ)言模型10相同的格式。詞語(yǔ)語(yǔ)言模型20的當(dāng)前輸入是與用戶正在輸入的當(dāng)前詞語(yǔ)有關(guān)的字符。詞語(yǔ)語(yǔ)言模型20的上下文12是在當(dāng)前詞語(yǔ)輸入之前的被分詞為詞語(yǔ)的輸入文本。[0100]返回參考圖lb,多LM30可以將輸入的文本分詞為詞段以及還有詞,其將詞段和詞分別傳遞到詞段語(yǔ)言模型10和詞語(yǔ)語(yǔ)言模型20??蛇x地,與多LM30分離的分詞器可被采用(未示出)。[0101]如圖2e所示,詞語(yǔ)語(yǔ)言模型20包括字典樹13’(其可以是標(biāo)準(zhǔn)的字典樹,近似查找樹或者概率字典樹)、詞語(yǔ)η元語(yǔ)法圖14’和用于生成詞語(yǔ)預(yù)測(cè)50’的最終預(yù)測(cè)機(jī)制15’。在WO2010/112841中論述字典樹13’、詞語(yǔ)η元語(yǔ)法圖14’和交集機(jī)制15’。此外,最終預(yù)測(cè)機(jī)制15’可對(duì)應(yīng)于如WO2010/112841中所描述的交集機(jī)制。[0102]如上文詳細(xì)說(shuō)明的,本發(fā)明的詞段語(yǔ)言模型10能夠由預(yù)測(cè)引擎100,100’使用用于各種任務(wù)。如參考圖1a所論述的,詞段語(yǔ)言模型10能夠用作用于生成詞段預(yù)測(cè)40和/或詞語(yǔ)預(yù)測(cè)50的基于正常詞語(yǔ)的語(yǔ)言模型的替換。然而,詞段語(yǔ)言模型10還能夠與詞語(yǔ)語(yǔ)言模型20聯(lián)合使用,并且被調(diào)用以驗(yàn)證逐字文本,如關(guān)于圖2a所描述的。[0103]通過(guò)使用詞段語(yǔ)言10模型用于詞語(yǔ)預(yù)測(cè),整個(gè)語(yǔ)言能夠以比詞語(yǔ)少的詞段來(lái)表達(dá),這實(shí)現(xiàn)更小的語(yǔ)言模型或者允許訪問(wèn)語(yǔ)言的整個(gè)詞語(yǔ)集合(否則這可能過(guò)大),尤其對(duì)于具有極大詞典(韓語(yǔ)、芬蘭語(yǔ)、日耳曼語(yǔ)族等)的語(yǔ)言有用。此外,詞段語(yǔ)言模型還實(shí)現(xiàn)了已知詞段的有效組合的預(yù)測(cè),其中詞段的該組合尚未出現(xiàn)在用于訓(xùn)練語(yǔ)言模型的數(shù)據(jù)中。[0104]基于詞段的語(yǔ)言模型10將提供與具有更小存儲(chǔ)器/存儲(chǔ)設(shè)備的基于詞語(yǔ)的語(yǔ)言模型相同大小的詞匯表。因此,對(duì)于相同大小的內(nèi)存容量,基于詞段的語(yǔ)言模型10能夠在基于詞語(yǔ)的語(yǔ)言模型20上提供增加的詞匯表。[0105]由于增加的詞匯表和詞語(yǔ)組合,上述優(yōu)點(diǎn)可以使得增大預(yù)測(cè)精度。[0106]現(xiàn)在將參考圖5-10來(lái)描述本發(fā)明的方法,圖5-10是根據(jù)本發(fā)明的方法的示意流程圖。[0107]參考圖5,本發(fā)明提供了生成詞段語(yǔ)言模型的方法,在本發(fā)明的上下文中,該詞段語(yǔ)言模型可以意味著由源文本生成靜態(tài)語(yǔ)言模型或者由用戶輸入的文本構(gòu)建動(dòng)態(tài)用戶語(yǔ)言模型。該方法包括:接收文本(500),該文本可以是源文本或用戶輸入文本,在文本中識(shí)別詞語(yǔ)邊界以將文本拆分成由詞語(yǔ)邊界分開的詞語(yǔ)(510)(例如,通過(guò)識(shí)別空格字符,使用分詞器將文本分成詞語(yǔ)),以及將詞語(yǔ)拆分成詞段(520)(例如,使用Morfessor工具箱)。該方法還包括生成具有詞語(yǔ)邊界的η元語(yǔ)法詞段序列(530)。[0108]圖6示出了根據(jù)本發(fā)明的第一處理方法。特別地,該方法是用于當(dāng)輸入的‘詞語(yǔ)’不是詞語(yǔ)語(yǔ)言模型20的識(shí)別詞語(yǔ)或者詞段語(yǔ)言模型10的詞段的已知組合時(shí),將逐字輸入作為‘詞語(yǔ)’預(yù)測(cè)來(lái)驗(yàn)證,如上文結(jié)合圖1a和圖1b所示出的系統(tǒng)描述的。該方法包括:根據(jù)字符序列生成由一個(gè)或多個(gè)詞段組成的序列(600)。該詞段序列優(yōu)選地通過(guò)迭代地預(yù)測(cè)詞段來(lái)生成,如上所述。該方法進(jìn)一步包括判定由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段是否對(duì)應(yīng)于存儲(chǔ)有詞段序列的語(yǔ)言模型的詞段(610)。[0109]該方法進(jìn)一步包括:當(dāng)由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段都對(duì)應(yīng)于語(yǔ)言模型的詞段時(shí),輸出由一個(gè)或多個(gè)詞段組成的序列作為候選預(yù)測(cè)(即,用戶要輸入的詞語(yǔ)),而不管由一個(gè)或多個(gè)詞段組成的序列是否對(duì)應(yīng)于存儲(chǔ)的詞段序列(620)。因此,該方法能夠生成與逐字文本有關(guān)的‘詞語(yǔ),預(yù)測(cè),該‘詞語(yǔ),預(yù)測(cè)能夠輸出給用戶,防止逐字文本的自動(dòng)校正。該方法步驟的細(xì)節(jié)在上文結(jié)合系統(tǒng)進(jìn)行了說(shuō)明。[0110]圖7示出了根據(jù)本發(fā)明的處理文本的第二方法。該方法涉及到使用詞段語(yǔ)言模型10來(lái)預(yù)測(cè)由一個(gè)或多個(gè)詞段組成的序列中的下一詞段,如上文結(jié)合圖2a所示的語(yǔ)言模型以及圖1a的系統(tǒng)中所示的語(yǔ)言模型來(lái)描述的。如同第一方法,第二方法包括:根據(jù)字符序列生成由一個(gè)或多個(gè)詞段組成的序列(700)。然而,該方法包括:將由一個(gè)或多個(gè)詞段組成的序列與存儲(chǔ)的詞段序列進(jìn)行比較(710),以及基于存儲(chǔ)的序列來(lái)預(yù)測(cè)序列中的下一詞段(720)。[0111]圖8示出了根據(jù)本發(fā)明處理文本的第三方法,其涉及到預(yù)測(cè)由一個(gè)或多個(gè)詞段組成的序列的修改后或校正的詞段。第三方法包括第二方法的生成步驟800以及比較步驟810,但是不同在于,其包括修改由一個(gè)或多個(gè)詞段組成的序列中的至少一個(gè)詞段,使得經(jīng)修改的由一個(gè)或多個(gè)詞段組成的序列匹配所述存儲(chǔ)的詞段序列的步驟820。[0112]如圖9所示,根據(jù)本發(fā)明的處理文本的第四方法涉及到使用詞語(yǔ)語(yǔ)言模型20來(lái)預(yù)測(cè)詞語(yǔ)50’以及使用詞段語(yǔ)言模型20來(lái)驗(yàn)證逐字輸入,例如如果由詞語(yǔ)語(yǔ)言模型20預(yù)測(cè)的詞語(yǔ)的概率落到閾值以下,如上文結(jié)合圖2b的系統(tǒng)所論述的。該方法因此包括:在第一字符序列中識(shí)別由一個(gè)或多個(gè)詞語(yǔ)組成的序列以及第二字符序列(900);利用存儲(chǔ)有詞語(yǔ)序列的基于詞語(yǔ)的語(yǔ)言模型,來(lái)判定第二字符串是否對(duì)應(yīng)于基于詞語(yǔ)的語(yǔ)言模型的詞語(yǔ)(910);將第二字符序列傳遞到被配置為由第二字符序列生成詞段序列的單元(920);根據(jù)第二字符序列生成由一個(gè)或多個(gè)詞段組成的序列930;利用存儲(chǔ)有詞段序列的詞段語(yǔ)言模型,來(lái)判定由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段是否對(duì)應(yīng)于語(yǔ)言模型的詞段(940);以及當(dāng)由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段對(duì)應(yīng)于詞段語(yǔ)言模型的詞段時(shí),從詞段語(yǔ)言模型輸出由一個(gè)或多個(gè)詞段組成的序列作為候選預(yù)測(cè),而不管由一個(gè)或多個(gè)詞段組成的序列是否對(duì)應(yīng)于存儲(chǔ)的詞段序列(950)。[0113]如圖10所示,處理字符序列的第五方法包括:(1000):利用存儲(chǔ)有詞段序列的語(yǔ)言模型來(lái)根據(jù)字符序列預(yù)測(cè)詞語(yǔ)預(yù)測(cè);以及(2000):通過(guò)使詞語(yǔ)預(yù)測(cè)通過(guò)候選過(guò)濾器來(lái)判定詞語(yǔ)預(yù)測(cè)是否對(duì)應(yīng)于有效詞語(yǔ)。如結(jié)合本發(fā)明的系統(tǒng)所描述的,候選過(guò)濾器優(yōu)選地是布隆過(guò)濾器。[0114]本發(fā)明的方法的其它方面能夠通過(guò)類比上面的系統(tǒng)描述來(lái)輕易地確定。[0115]本發(fā)明還提供了計(jì)算機(jī)程序,或者包括存儲(chǔ)有計(jì)算機(jī)程序裝置的計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序裝置用于使得處理器實(shí)施根據(jù)本發(fā)明的一個(gè)或多個(gè)方法。[0116]計(jì)算機(jī)程序產(chǎn)品可以是存儲(chǔ)有計(jì)算機(jī)程序手段的數(shù)據(jù)載體,計(jì)算機(jī)程序手段用于使得數(shù)據(jù)載體之外的處理器,即電子設(shè)備的處理器,來(lái)實(shí)施根據(jù)本發(fā)明的方法。計(jì)算機(jī)程序或計(jì)算機(jī)程序產(chǎn)品可供下載,例如通過(guò)互聯(lián)網(wǎng)或其它可用網(wǎng)絡(luò)從數(shù)據(jù)載體或者從供應(yīng)者處,例如作為應(yīng)用下載到移動(dòng)設(shè)備(諸如移動(dòng)電話)上,或者下載到計(jì)算機(jī)、移動(dòng)設(shè)備或包括一旦下載就用于執(zhí)行計(jì)算機(jī)程序手段的處理器的計(jì)算機(jī)。[0117]將理解的是,該說(shuō)明僅通過(guò)示例的方式;可以對(duì)所描述的實(shí)施例進(jìn)行改動(dòng)和修改,而不偏離如權(quán)利要求中限定的本發(fā)明的范圍?!局鳈?quán)項(xiàng)】1.一種用于將文本輸入到電子設(shè)備中的系統(tǒng),所述系統(tǒng)被配置為接收由用戶輸入到所述設(shè)備中的字符序列,所述系統(tǒng)包括:被配置為根據(jù)所述字符序列生成詞段序列的單元;文本預(yù)測(cè)引擎,包括存儲(chǔ)有詞段序列的語(yǔ)言模型,所述文本預(yù)測(cè)引擎被配置為接收所述詞段序列并且判定所述詞段序列中的每個(gè)詞段是否對(duì)應(yīng)于所述語(yǔ)言模型的存儲(chǔ)的詞段;其中,所述文本預(yù)測(cè)引擎被配置為:當(dāng)所述詞段序列中的每個(gè)詞段對(duì)應(yīng)于所述語(yǔ)言模型的存儲(chǔ)的詞段時(shí),輸出所述詞段序列作為候選預(yù)測(cè),而不管所述詞段序列是否對(duì)應(yīng)于存儲(chǔ)的詞段序列。2.—種用于將文本輸入到電子設(shè)備中的系統(tǒng),所述系統(tǒng)被配置為接收由用戶輸入到所述設(shè)備中的字符序列,所述系統(tǒng)包括:被配置為根據(jù)所述字符序列生成由一個(gè)或多個(gè)詞段組成的序列的單元;文本預(yù)測(cè)引擎,包括存儲(chǔ)有詞段序列的語(yǔ)言模型,所述文本預(yù)測(cè)引擎被配置為:接收所述由一個(gè)或多個(gè)詞段組成的序列;將所述由一個(gè)或多個(gè)詞段組成的序列與存儲(chǔ)的詞段序列進(jìn)行比較;以及基于存儲(chǔ)的詞段序列來(lái)預(yù)測(cè)所述序列中的下一詞段。3.—種用于將文本輸入到電子設(shè)備中的系統(tǒng),所述系統(tǒng)被配置為接收由用戶輸入到所述設(shè)備中的字符序列,所述系統(tǒng)包括:被配置為根據(jù)所述字符序列生成由一個(gè)或多個(gè)詞段組成的序列的單元;文本預(yù)測(cè)引擎,包括存儲(chǔ)有詞段序列的語(yǔ)言模型,所述文本預(yù)測(cè)引擎被配置為:接收所述由一個(gè)或多個(gè)詞段組成的序列;將所述由一個(gè)或多個(gè)詞段組成的序列與存儲(chǔ)的詞段序列進(jìn)行比較;以及基于存儲(chǔ)的詞段序列來(lái)修改所述由一個(gè)或多個(gè)詞段組成的序列的至少一個(gè)所述詞段,使得經(jīng)修改的由一個(gè)或多個(gè)詞段組成的序列匹配所述存儲(chǔ)的詞段序列。4.如任一前述權(quán)利要求所述的系統(tǒng),其中所述語(yǔ)言模型包括指示詞語(yǔ)的開始/結(jié)束的多個(gè)詞語(yǔ)邊界標(biāo)記。5.如任一前述權(quán)利要求所述的系統(tǒng),其中所述語(yǔ)言模型包括存儲(chǔ)有詞段序列的上下文模型以及存儲(chǔ)有由形成詞段的字符組成的序列的輸入模型。6.如權(quán)利要求5所述的系統(tǒng),其中所述上下文模型包括存儲(chǔ)有詞段序列的η元語(yǔ)法圖。7.如權(quán)利要求6所述的系統(tǒng),其中所述η元語(yǔ)法圖包括指示詞語(yǔ)的開始/結(jié)束的所述多個(gè)詞語(yǔ)邊界標(biāo)記。8.如權(quán)利要求5、6或7所述的系統(tǒng),其中所述輸入模型包括被配置為根據(jù)字符序列生成一個(gè)或多個(gè)詞段的字典樹。9.如權(quán)利要求8所述的系統(tǒng),其中所述字典樹包括多個(gè)詞段邊界標(biāo)記。10.如當(dāng)從屬于權(quán)利要求1時(shí)權(quán)利要求8或9所述的系統(tǒng),其中所述文本預(yù)測(cè)引擎被配置為判定所述詞段序列中的每個(gè)詞段是否對(duì)應(yīng)于所述字典樹的存儲(chǔ)的詞段。11.如任一前述權(quán)利要求所述的系統(tǒng),其中所述字符序列包括與用戶正在輸入的當(dāng)前詞語(yǔ)有關(guān)的字符以及與該當(dāng)前詞語(yǔ)的上下文有關(guān)的字符。12.如權(quán)利要求11所述的系統(tǒng),其中分詞器被配置為根據(jù)與所述上下文有關(guān)的字符生成由一個(gè)或多個(gè)詞段組成的序列。13.如權(quán)利要求11或12所述的系統(tǒng),其中所述語(yǔ)言模型被配置為根據(jù)與所述當(dāng)前詞語(yǔ)有關(guān)的字符生成由一個(gè)或多個(gè)詞段組成的序列。14.如權(quán)利要求2所述的或者如當(dāng)從屬于權(quán)利要求2時(shí)權(quán)利要求4-13中任一項(xiàng)所述的系統(tǒng),其中所述文本預(yù)測(cè)引擎被配置為迭代地預(yù)測(cè)所述序列中的下一詞段。15.如當(dāng)從屬于權(quán)利要求4或7時(shí)權(quán)利要求14所述的系統(tǒng),其中所述文本預(yù)測(cè)引擎被配置為迭代地預(yù)測(cè)所述序列中的下一詞段直到達(dá)到術(shù)語(yǔ)邊界為止,此時(shí)所述文本預(yù)測(cè)引擎將所述詞段序列作為詞語(yǔ)輸出。16.如權(quán)利要求15所述的系統(tǒng),其中所述文本預(yù)測(cè)引擎進(jìn)一步包括候選過(guò)濾器,并且其中所述文本預(yù)測(cè)引擎被配置為使所述詞語(yǔ)通過(guò)所述候選過(guò)濾器以判定所述詞語(yǔ)是否為有效詞語(yǔ)。17.如權(quán)利要求16所述的系統(tǒng),其中所述候選過(guò)濾器被配置為丟棄無(wú)效詞語(yǔ)除非該無(wú)效詞語(yǔ)對(duì)應(yīng)于逐字輸入,并且其中,有效詞語(yǔ)和與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ)從所述文本預(yù)測(cè)引擎輸出。18.如權(quán)利要求16或17所述的系統(tǒng),其中所述語(yǔ)言模型包括所述候選過(guò)濾器。19.如權(quán)利要求16、17或18所述的系統(tǒng),其中所述候選過(guò)濾器是由有效詞語(yǔ)構(gòu)造的布隆過(guò)濾器。20.如權(quán)利要求19所述的系統(tǒng),其中所述布隆過(guò)濾器是由與所述有效詞語(yǔ)對(duì)應(yīng)的字符串來(lái)構(gòu)造的,或者是由構(gòu)成所述有效詞語(yǔ)的詞段組合的標(biāo)識(shí)符組合來(lái)構(gòu)造的。21.如任一前述權(quán)利要求所述的系統(tǒng),其中所述文本預(yù)測(cè)引擎進(jìn)一步包括存儲(chǔ)有詞語(yǔ)序列的基于詞語(yǔ)的語(yǔ)言模型。22.如權(quán)利要求21所述的系統(tǒng),其中所述文本預(yù)測(cè)引擎被配置為接收輸入到所述設(shè)備的字符序列以及基于存儲(chǔ)的詞語(yǔ)序列預(yù)測(cè)一個(gè)或多個(gè)詞語(yǔ)。23.如權(quán)利要求1所述的系統(tǒng),其被配置為接收第一字符序列,其中所述系統(tǒng)進(jìn)一步包括被配置為在所述第一字符序列中識(shí)別由一個(gè)或多個(gè)詞語(yǔ)組成的序列以及第二字符序列的單元;其中所述文本預(yù)測(cè)引擎進(jìn)一步包括存儲(chǔ)有詞語(yǔ)序列的基于詞語(yǔ)的語(yǔ)言模型,并且所述文本預(yù)測(cè)引擎被配置為判定所述第二字符串是否對(duì)應(yīng)于所述基于詞語(yǔ)的語(yǔ)言模型中的詞語(yǔ);以及其中,在判定出所述第二字符串不對(duì)應(yīng)于所述基于詞語(yǔ)的語(yǔ)言模型中的詞語(yǔ)時(shí),所述預(yù)測(cè)引擎被配置為將所述第二字符序列傳遞給所述被配置為根據(jù)所述字符序列生成詞段序列的單元。24.如權(quán)利要求8-10中任一項(xiàng)所述的系統(tǒng),其中所述字典樹是概率字典樹,并且所述語(yǔ)言模型進(jìn)一步包括按鍵向量,其中所述詞段的字符對(duì)應(yīng)于用戶輸入序列的字符的經(jīng)修改的版本。25.—種電子設(shè)備,包括:任一前述權(quán)利要求所述的系統(tǒng);以及用戶界面,其被配置為接收用戶輸入,使得用戶能夠?qū)⒆址蛄休斎氲剿鲈O(shè)備中。26.如權(quán)利要求25所述的設(shè)備,包括如權(quán)利要求17至20中任一項(xiàng)所述的系統(tǒng),其中所述用戶界面進(jìn)一步被配置為對(duì)由所述文本預(yù)測(cè)引擎輸出的詞語(yǔ)進(jìn)行顯示以便用戶回顧和選擇,其中所述文本預(yù)測(cè)引擎被配置為,如果選定詞語(yǔ)是與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ),則用所述選定詞語(yǔ)更新所述候選/布隆過(guò)濾器。27.—種生成詞段語(yǔ)言模型的方法,包括:接收文本;在所述文本中識(shí)別詞語(yǔ)邊界;將所述文本拆分成由所述詞語(yǔ)邊界分開的詞語(yǔ);將所述詞語(yǔ)拆分成詞段;以及生成具有詞語(yǔ)邊界的η元語(yǔ)法詞段序列。28.—種處理由用戶輸入到電子設(shè)備中的字符序列的方法,所述方法包括:根據(jù)所述字符序列生成由一個(gè)或多個(gè)詞段組成的序列;利用包括存儲(chǔ)有詞段序列的語(yǔ)言模型的文本預(yù)測(cè)引擎,來(lái)判定所述由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段是否對(duì)應(yīng)于所述語(yǔ)言模型的詞段;當(dāng)所述由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段都對(duì)應(yīng)于所述語(yǔ)言模型的詞段時(shí),從所述文本預(yù)測(cè)引擎輸出所述由一個(gè)或多個(gè)詞段組成的序列作為候選預(yù)測(cè),而不管所述由一個(gè)或多個(gè)詞段組成的序列是否對(duì)應(yīng)于存儲(chǔ)的詞段序列。29.—種處理由用戶輸入到電子設(shè)備中的字符序列的方法,所述方法包括:根據(jù)所述字符序列生成由一個(gè)或多個(gè)詞段組成的序列;利用包括存儲(chǔ)有詞段序列的語(yǔ)言模型的文本預(yù)測(cè)引擎,來(lái)將由一個(gè)或多個(gè)詞段組成的序列與存儲(chǔ)的詞段序列進(jìn)行比較;以及利用所述文本預(yù)測(cè)引擎來(lái)預(yù)測(cè)所述序列中的下一詞段。30.—種處理由用戶輸入到電子設(shè)備中的字符序列的方法,所述方法包括:根據(jù)所述字符序列生成由一個(gè)或多個(gè)詞段組成的序列;利用包括存儲(chǔ)有詞段序列的語(yǔ)言模型的文本預(yù)測(cè)引擎,來(lái)將所述由一個(gè)或多個(gè)詞段組成的序列與存儲(chǔ)的詞段序列進(jìn)行比較;以及修改所述由一個(gè)或多個(gè)詞段組成的序列中的至少一個(gè)詞段,使得經(jīng)修改的由一個(gè)或多個(gè)詞段組成的序列匹配所述存儲(chǔ)的詞段序列。31.如權(quán)利要求28-30中任一項(xiàng)所述的方法,其中根據(jù)所述字符序列生成由一個(gè)或多個(gè)詞段組成的序列的步驟以及判定所述由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段是否對(duì)應(yīng)于所述語(yǔ)言模型的詞段的步驟是并發(fā)地實(shí)施的。32.如權(quán)利要求28-31中任一項(xiàng)所述的方法,其中所述語(yǔ)言模型包括指示詞語(yǔ)的開始/結(jié)束的多個(gè)詞語(yǔ)邊界標(biāo)記。33.如權(quán)利要求28-32中任一項(xiàng)所述的方法,其中所述語(yǔ)言模型包括存儲(chǔ)有詞段序列的上下文模型以及存儲(chǔ)有由形成詞段的字符組成的序列的輸入模型。34.如權(quán)利要求33所述的方法,其中所述上下文模型包括存儲(chǔ)有詞段序列的η元語(yǔ)法圖,并且所述輸入模型包括被配置為根據(jù)字符序列生成一個(gè)或多個(gè)詞段的字典樹,并且其中所述方法包括根據(jù)字符序列生成一個(gè)或多個(gè)詞段。35.如權(quán)利要求28-34中任一項(xiàng)所述的方法,其中所述字符序列包括與用戶正在輸入的當(dāng)前詞語(yǔ)有關(guān)的字符以及與所述當(dāng)前詞語(yǔ)的上下文有關(guān)的字符,并且其中所述方法包括:利用所述分詞器來(lái)根據(jù)與所述上下文有關(guān)的字符生成由一個(gè)或多個(gè)詞段組成的序列。36.如權(quán)利要求28-35中任一項(xiàng)所述的方法,其中所述字符序列包括與用戶正在輸入的當(dāng)前詞語(yǔ)有關(guān)的字符以及與所述當(dāng)前詞語(yǔ)的上下文有關(guān)的字符,并且其中所述方法包括:利用所述語(yǔ)言模型來(lái)根據(jù)與所述當(dāng)前詞語(yǔ)有關(guān)的字符生成由一個(gè)或多個(gè)詞段組成的序列。37.如權(quán)利要求29所述的或者如當(dāng)從屬于權(quán)利要求29時(shí)權(quán)利要求30-36中任一項(xiàng)所述的方法,其中所述方法進(jìn)一步包括利用所述文本預(yù)測(cè)引擎來(lái)迭代地預(yù)測(cè)所述序列中的下一詞段。38.如當(dāng)從屬于權(quán)利要求32時(shí)權(quán)利要求37所述的方法,進(jìn)一步包括:利用所述文本預(yù)測(cè)引擎來(lái)迭代地預(yù)測(cè)所述序列中的下一詞段直到達(dá)到術(shù)語(yǔ)邊界為止,以及將所述詞段序列作為詞語(yǔ)輸出。39.如權(quán)利要求38所述的方法,其中所述預(yù)測(cè)引擎包括候選過(guò)濾器,并且所述方法進(jìn)一步包括使所述詞語(yǔ)通過(guò)候選過(guò)濾器來(lái)判定所述詞語(yǔ)是否為有效詞語(yǔ)。40.如權(quán)利要求39所述的方法,進(jìn)一步包括丟棄無(wú)效詞語(yǔ)除非所述無(wú)效詞語(yǔ)對(duì)應(yīng)于逐字輸入,并且從所述預(yù)測(cè)引擎輸出有效詞語(yǔ)和與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ)。41.如權(quán)利要求28-40中任一項(xiàng)所述的方法,其中所述文本預(yù)測(cè)引擎進(jìn)一步包括存儲(chǔ)有詞語(yǔ)序列的基于詞語(yǔ)的語(yǔ)言模型,并且所述方法進(jìn)一步包括:在所述文本預(yù)測(cè)引擎處接收輸入到所述設(shè)備的字符序列;以及利用所述文本預(yù)測(cè)引擎來(lái)基于存儲(chǔ)的詞語(yǔ)序列預(yù)測(cè)一個(gè)或多個(gè)詞語(yǔ)。42.如權(quán)利要求28所述的方法,其中將所述由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段與所述語(yǔ)言模型的詞段進(jìn)行比較進(jìn)一步包括:修改所述由一個(gè)或多個(gè)詞段組成的序列中的至少一個(gè)詞段,使得經(jīng)修改的詞段匹配所述存儲(chǔ)的詞段序列中的詞段。43.一種處理輸入到設(shè)備中的第一字符序列的方法,所述方法包括:在所述第一字符序列中識(shí)別由一個(gè)或多個(gè)詞語(yǔ)組成的序列以及第二字符序列;利用存儲(chǔ)有詞語(yǔ)序列的基于詞語(yǔ)的語(yǔ)言模型來(lái)判定所述第二字符串是否對(duì)應(yīng)于所述基于詞語(yǔ)的語(yǔ)言模型中的詞語(yǔ);將所述第二字符序列傳遞到被配置為根據(jù)所述第二字符序列生成詞段序列的單元;根據(jù)所述第二字符序列生成由一個(gè)或多個(gè)詞段組成的序列;利用存儲(chǔ)有詞段序列的詞段語(yǔ)言模型來(lái)判定所述由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段是否對(duì)應(yīng)于所述詞段語(yǔ)言模型的詞段;以及當(dāng)所述由一個(gè)或多個(gè)詞段組成的序列中的每個(gè)詞段對(duì)應(yīng)于所述語(yǔ)言模型的詞段時(shí),從所述詞段語(yǔ)言模型輸出所述由一個(gè)或多個(gè)詞段組成的序列作為候選預(yù)測(cè),而不管所述由一個(gè)或多個(gè)詞段組成的序列是否對(duì)應(yīng)于存儲(chǔ)的詞段序列。44.一種用于將文本輸入到電子設(shè)備中的系統(tǒng),該系統(tǒng)包括:文本預(yù)測(cè)引擎,包括存儲(chǔ)有詞段序列的語(yǔ)言模型以及候選過(guò)濾器,其中所述文本預(yù)測(cè)引擎被配置為:接收字符序列;利用存儲(chǔ)的詞段序列來(lái)根據(jù)所述字符序列生成詞語(yǔ)預(yù)測(cè);以及通過(guò)使所述詞語(yǔ)預(yù)測(cè)通過(guò)所述候選過(guò)濾器來(lái)判定所述詞語(yǔ)預(yù)測(cè)是否對(duì)應(yīng)于有效詞語(yǔ)。45.如權(quán)利要求44所述的系統(tǒng),其中所述語(yǔ)言模型包括所述候選過(guò)濾器。46.如權(quán)利要求44或45所述的系統(tǒng),其中所述候選過(guò)濾器被配置為丟棄無(wú)效詞語(yǔ)除非所述無(wú)效詞語(yǔ)對(duì)應(yīng)于逐字輸入,并且其中所述文本預(yù)測(cè)引擎被配置為輸出有效詞語(yǔ)和與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ)。47.如權(quán)利要求44、45或46所述的系統(tǒng),進(jìn)一步包括用于顯示從所述文本預(yù)測(cè)引擎輸出的詞語(yǔ)預(yù)測(cè)的用戶界面,并且其中,響應(yīng)于用戶選擇作為與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ)的詞語(yǔ)預(yù)測(cè),所述文本預(yù)測(cè)引擎被配置為更新所述候選過(guò)濾器以包括該詞語(yǔ)預(yù)測(cè)。48.如權(quán)利要求44或45中任一項(xiàng)所述的系統(tǒng),其中所述候選過(guò)濾器是由有效詞語(yǔ)構(gòu)造的布隆過(guò)濾器。49.如權(quán)利要求48所述的系統(tǒng),其中所述布隆過(guò)濾器是由與所述有效詞語(yǔ)對(duì)應(yīng)的字符串來(lái)構(gòu)造的,或者是由構(gòu)成所述有效詞語(yǔ)的詞段組合的標(biāo)識(shí)符組合來(lái)構(gòu)造的。50.一種處理字符序列的方法,所述方法包括:利用存儲(chǔ)有詞段序列的語(yǔ)言模型來(lái)根據(jù)所述字符序列生成詞語(yǔ)預(yù)測(cè);以及通過(guò)使所述詞語(yǔ)預(yù)測(cè)通過(guò)候選過(guò)濾器來(lái)判定所述詞語(yǔ)預(yù)測(cè)是否對(duì)應(yīng)于有效詞語(yǔ)。51.如權(quán)利要求50所述的方法,進(jìn)一步包括:丟棄無(wú)效詞語(yǔ),除非所述無(wú)效詞語(yǔ)對(duì)應(yīng)于逐字輸入;以及輸出有效詞語(yǔ)和與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ)以便用戶回顧和選擇。52.如權(quán)利要求51所述的方法,進(jìn)一步包括:當(dāng)詞語(yǔ)預(yù)測(cè)是與逐字輸入對(duì)應(yīng)的無(wú)效詞語(yǔ)時(shí),響應(yīng)于用戶選擇該詞語(yǔ)預(yù)測(cè)而更新所述候選過(guò)濾器以包括該詞語(yǔ)預(yù)測(cè)。53.如權(quán)利要求50-52中任一項(xiàng)所述的方法,其中所述候選過(guò)濾器是布隆過(guò)濾器。54.—種用于使處理器實(shí)施權(quán)利要求28-43或50-53中任一項(xiàng)所述的方法的計(jì)算機(jī)程序?!疚臋n編號(hào)】G06F17/27GK105917327SQ201480067442【公開日】2016年8月31日【申請(qǐng)日】2014年12月11日【發(fā)明人】J·伊索-西皮萊,H·李,J·巴利,J·奧斯本【申請(qǐng)人】觸摸式有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1