專利名稱::一種輸入法系統(tǒng)及智能組詞的方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于信息處理領(lǐng)域,特別是涉及一種輸入法系統(tǒng)和一種智能組詞的方法。
背景技術(shù):
:當(dāng)前的輸入法系統(tǒng)(包括中文、日文等等)都是基于其詞庫系統(tǒng)以及詞庫系統(tǒng)中的詞頻來為使用者在信息輸入過程中提供候選詞的排序。候選詞的排序是使用者在信息輸入過程中首選詞命中率高低的一個(gè)重要指標(biāo)。所述首選詞命中率是指,接收用戶的輸入信息之后,排序在前的詞匯或字是用戶最需要的。現(xiàn)有技術(shù)為了提高首選詞命中率,采取了各種措施,例如,擴(kuò)大詞庫的容量,存儲更多的詞條;或者通過各種方式獲取最近的新詞以及更準(zhǔn)確的詞頻信息;或者,采用加載專業(yè)詞庫的方式,提高用戶在某些特殊輸入情況下的首選詞命中率。應(yīng)該說,這些技術(shù)改進(jìn)在一定程度上可以提高用戶的首選詞命中率,但是對于本發(fā)明期望處理的口語詞條,卻是無能為力。本發(fā)明期望獲取的口語詞條實(shí)際上可以分為兩個(gè)類別,一是普通的口頭用語,一是網(wǎng)絡(luò)語言。對于口頭用語,由于人們對口頭用語的使用比書面語更加的靈活和不拘一格,如,"試試看"、"走一走"、"吃個(gè)飯"、"打會球"等等,所以采用現(xiàn)有的各種詞匯的收集方法難以獲得準(zhǔn)確的和足夠全面的口頭用語。而對于網(wǎng)絡(luò)語言,由于其具有更為復(fù)雜的特性,例如漢字/數(shù)字/字母混用("8錯(cuò)"、"期待ing,,等),甚至還有符號的參與;錯(cuò)詞率非常高("娃哈哈"、"哇哈哈"、"挖哈哈"等);隨時(shí)間的動態(tài)變化性很強(qiáng)。所以釆用現(xiàn)有的各種詞匯的收集方法更是無法獲取?,F(xiàn)今對上述的口語詞條的獲取和研究往往采用人工的形式,因?yàn)檠芯咳藛T的主觀能動性可以很好的滿足這些口語詞條的復(fù)雜特性。例如,由北京廣l番學(xué)院播音主持藝術(shù)學(xué)院研究員于根元編纂的《中國網(wǎng)絡(luò)用語詞典》在2001年6月份正式出版。該詞典收入詞條2000多條,正文約40萬字,它的來源就是依靠人工整理。但是人工收集有著難以克服的缺陷收集速度太低、成本太高;并且,其收集速度難以適應(yīng)口語詞條的更新速度。進(jìn)而,由于語言的更新速度越來越快,新的網(wǎng)絡(luò)語言詞匯及用法層出不窮,單純依靠人工的方式要持續(xù)耗費(fèi)大量的人力物力。由于隨著互聯(lián)網(wǎng)的興起,人們相互交流通信的代價(jià)大為降低,發(fā)布信息更多也更便捷,因此,語言也以一種前所未有的速度瘋狂發(fā)展。網(wǎng)民在BBS、Blog和即時(shí)通訊工具上發(fā)布信息的過程中,使用口語詞條的機(jī)會大大增加,而現(xiàn)有的輸入法卻無法滿足這樣的需求。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種輸入法系統(tǒng)和一種智能組詞的方法,能夠幫助用戶更好的輸入口語詞匯,提高輸入體驗(yàn)和輸入效率。為了解決上述問題,本發(fā)明公開了一種輸入法系統(tǒng),包括詞庫;口語才莫板;所述口語才莫板與口語詞條的各種特征及判定標(biāo)準(zhǔn)相關(guān);輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,檢索詞庫,得到相應(yīng)的候選項(xiàng);智能組詞單元,用于依據(jù)所述口語模板,智能組詞得到相應(yīng)的候選項(xiàng);顯示輸出單元,用于展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。其中,所述口語模板可以通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)置策略中的規(guī)則模板,得到口語模板。選項(xiàng);展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。優(yōu)選的,所述口語模板可以通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)置策略中的規(guī)則模板,得到口語模板。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)首先,本發(fā)明提供的輸入法系統(tǒng)能夠依據(jù)與口語詞條的各種特征及判定標(biāo)準(zhǔn)相關(guān)的口語沖莫板進(jìn)行智能組詞,得到口語詞條,可以幫助用戶更好的輸入口語詞匯,提高輸入體驗(yàn)和輸入效率,效率較高而且成本較低,并且可以適應(yīng)口語詞匯變化更新速度比較快的特性。其次,本發(fā)明通過對口語模板的迭代優(yōu)化(包括改進(jìn)和擴(kuò)充),可以得到非常貼近實(shí)際情況、準(zhǔn)確率和覆蓋率較高的口語模板;進(jìn)而,利用這樣的口語模板進(jìn)行智能組詞,可以不受限于詞庫中所收錄的口語詞條實(shí)例。圖1是本發(fā)明一種獲取口語詞條的方法實(shí)施例的步驟流程圖;圖2是本發(fā)明一種獲取口語詞條的方法優(yōu)選實(shí)施例的步驟流程圖;圖3是本發(fā)明一種獲取口語詞條的裝置實(shí)施例的結(jié)構(gòu)框圖;圖4是本發(fā)明一種輸入法系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;圖5是本發(fā)明另一種輸入法系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;圖6是本發(fā)明一種分詞裝置實(shí)施例的結(jié)構(gòu)框圖;圖7是本發(fā)明另一種分詞裝置實(shí)施例的結(jié)構(gòu)框圖。具體實(shí)施方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。本發(fā)明所述的方法可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲介質(zhì)中。參照圖1,示出了本發(fā)明一種獲取口語詞條的方法實(shí)施例,具體可以包括步驟IOI、定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫。語料一詞,一般可以理解為用于獲取所需信息訓(xùn)練文本處理模型的文本樣本;其精度、覆蓋面直接決定了獲取信息的質(zhì)量和訓(xùn)練出的模型精度。而本發(fā)明所希望獲取的口語詞條在某些互聯(lián)網(wǎng)語料中出現(xiàn)的比較頻繁,而在另外一些互聯(lián)網(wǎng)語料中出現(xiàn)的則比較少,因此,本發(fā)明需要定向獲取所需的語料。定向獲取的方式可以提高語料的質(zhì)量,避免由于語料不精導(dǎo)致的一些本來不屬于抽取目標(biāo)的詞匯卻混入了符合抽取條件的行列,比如一些工作招聘信息中的短句或縮寫等。例如,本發(fā)明可以獲取那些口語詞條頻繁出現(xiàn)的BBS、blog、用戶個(gè)性化口語詞庫或文本/語音聊天記錄等資源。獲取方式可以為使用定向網(wǎng)絡(luò)蜘蛛(focusedspider)抽取,或者從可信任的用戶詞庫或聊天記錄庫中獲得,比如,搜狗輸入法官方主頁提供的用戶細(xì)胞詞庫上傳功能等。而對于定向抽取,站點(diǎn)的選取可以是指定站點(diǎn)抽取,也可以是基于抽取網(wǎng)頁內(nèi)容的分類點(diǎn)過濾。而具體的抽取過程屬于本領(lǐng)域公知的技術(shù)內(nèi)容,在此不再詳述。步驟102、按照預(yù)置策略,從所述語料庫中抽取符合條件的詞條。(Out-of-Vocabularyword,未登錄詞)一是詞典詞條的口語化派生用法,如"吃個(gè)飯"、"高高興興"、"試試看";另一類是在互聯(lián)網(wǎng)應(yīng)用中廣為使用的互聯(lián)網(wǎng)語言,如"轟趴"、"醬紫"、"8錯(cuò)"、"PPMM"等。雖然前一類別的詞條在人們的日常交際中使用更為普遍,但是由于主要以聲音為媒介,所以是無法收集到相關(guān)語料的,而隨著互聯(lián)網(wǎng)的興起,這些詞匯越來越多的出現(xiàn)在互聯(lián)網(wǎng)這個(gè)海量的資源倉庫里,因此,本發(fā)明才得以對這些詞條進(jìn)行抽取和挖掘。另一方面,互聯(lián)網(wǎng)語言和傳統(tǒng)的口頭語言這兩類之間也沒有絕對的界限,它們總是互相影響,互相滲透,而且在互聯(lián)網(wǎng)這個(gè)海量的資源庫中同存共生。也正因?yàn)榇?,本發(fā)明才能通過一些方法,把它們及時(shí)大量的抽取出來并加以研究。當(dāng)然,為了能夠抽取獲得符合條件的詞條,首先需要對上述詞條進(jìn)行特征分析,進(jìn)而建立相應(yīng)的抽取策略。步驟102中的策略就可以基于對口語詞條的特征分析情況進(jìn)行設(shè)置,一般的,抽取策略可以分為規(guī)則模板和統(tǒng)計(jì)分類兩種,或者二者的混合情況。下面簡單介紹方式l可以通過以下預(yù)置策略完成對詞條的抽取預(yù)置多個(gè)規(guī)則模板,所述規(guī)則模板用于描述詞條中的單字組合方式;依據(jù)所述規(guī)則模板進(jìn)行多次詞條抽取(當(dāng)然,在規(guī)則模板較少的情況下,也可以僅僅進(jìn)行一次抽取),每次詞條抽取采用一個(gè)或者多個(gè)規(guī)則模板。例如,ABC(抽支煙)、AAB(試試看)、ABAB(歡歡喜喜)模板等,每次可以設(shè)定一個(gè)或多個(gè)模板用于詞條抽取。方式2可以通過以下預(yù)置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據(jù)分詞詞庫進(jìn)行切分;將分詞碎片轉(zhuǎn)換為多個(gè)候選詞條;依據(jù)預(yù)置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。方式2屬于統(tǒng)計(jì)分類的一種具體實(shí)現(xiàn),其原理主M托于機(jī)器學(xué)習(xí)領(lǐng)域的分類理論。例如,給定一個(gè)長度為n的漢字串,首先使用一個(gè)分詞器對該串進(jìn)行切分,其中的口語串因?yàn)槲词珍浽诜衷~詞典中而成為分詞碎片;然后把分詞碎片轉(zhuǎn)化為一系列的可能的口語詞條候選,再根據(jù)口語詞條的一些特征判定每一個(gè)候選是或者不是口語詞條,從而完成分類。例如,依據(jù)詞條的頻率,標(biāo)點(diǎn)、長度等上下文特征進(jìn)行判定等等。由于發(fā)現(xiàn)的口語詞條很可能在接下來的分詞過程中出現(xiàn),這些詞條可以動態(tài)的加入分詞詞庫中,提升分詞精度。方式2主要針對分詞碎片的口語詞條抽取,如果采用方式1進(jìn)行抽取的話,則可以不需要分詞處理。上面兩個(gè)方式相比,方式1所采用的規(guī)則模板的抽取方案,其執(zhí)行過程比較簡單,但是其詞條抽取的質(zhì)量和數(shù)量受限于模板自身的質(zhì)量和覆蓋面。方式2所采用的統(tǒng)計(jì)分類方案雖然可操作性較高,但需要大量的數(shù)據(jù)做統(tǒng)計(jì),但是實(shí)際中往往存在"數(shù)據(jù)稀疏"問題。因此在本發(fā)明的優(yōu)選實(shí)施例中,可以考慮兩者的混合,將一些規(guī)則模板等判定標(biāo)準(zhǔn)以特征形式整合到統(tǒng)計(jì)判別分類模型7中,往往能獲得更好的效果。詳見下面的方式3的介紹。方式3可以通過以下預(yù)置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據(jù)分詞詞庫進(jìn)行切分;將分詞碎片轉(zhuǎn)換為多個(gè)候選詞條;依據(jù)預(yù)置的多個(gè)規(guī)則模板進(jìn)行多次詞條抽取,每次詞條抽取采用一個(gè)或者多個(gè)規(guī)則模板;所述規(guī)則才莫板用于描述詞條中的單字組合方式。例如,根據(jù)下述的特征模板,對每一個(gè)候選進(jìn)行二元分類,所述AAB、ABC、AABB等形式特性也作為分類的一類特征。在統(tǒng)計(jì)分類模型的大框架下,結(jié)合其他類別的特征綜合判定每個(gè)候選是否是口語詞條,往往能獲得較高的評判精度。下表提供了一些可能的口語詞條特征和一些可能的口語模板:<table>tableseeoriginaldocumentpage8</column></row><table>其他垃圾詞典整理的垃圾詞條列表,如果命中則可以直接丟棄該詞條上面簡單介紹了采用規(guī)則模板和統(tǒng)計(jì)分類及二者組合應(yīng)用的詞條抽取方案,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,還可能存在其他可行的抽取方案,即本發(fā)明并不限于上述的三種抽取方式,只要依據(jù)口語詞條的各種特征及判定標(biāo)準(zhǔn)進(jìn)行抽取,就屬于本發(fā)明所述的預(yù)置策略的解釋范圍。步驟103、針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條。所述過濾規(guī)則可以包括但不限于按照出現(xiàn)頻率、成詞概率、時(shí)間、語法和形式特征等標(biāo)準(zhǔn),也可以按照出現(xiàn)范圍等信息學(xué)相關(guān)標(biāo)準(zhǔn)。當(dāng)然,在特定情況下,還可以采用人工過濾的方式。優(yōu)選的,還可以釆用一些外界資源或信息學(xué)理論過濾其中的垃圾。例如,依據(jù)所收集整理的垃圾詞典、垃圾詞的前后綴詞表等等進(jìn)行過濾,以去除垃:敗詞匯。再例如,按照信息熵理論,抽取詞條頻率以及出現(xiàn)在該詞條左/右鄰不同漢字的個(gè)數(shù),從而判斷該詞條是否是碎詞,即不屬于本發(fā)明所需的口語詞條。舉一個(gè)例子,對于按照ABA模板抽取的詞條"又氣又,,,發(fā)現(xiàn)左邊一個(gè)"又,,左邊出現(xiàn)的字比較多,而右邊一個(gè)"又"字右邊出現(xiàn)的字很少,集中在"恨、惱,,上,從而可以知道它是一個(gè)碎詞,即"又氣又"并不是本發(fā)明所需的類似"嘗一嘗"之類的口語詞條。再例如,還可以針對每個(gè)所得到的詞條,在語料庫中統(tǒng)計(jì)其出現(xiàn)次數(shù),如果大于或者等于預(yù)定閾值,則確定該詞條為所需的口語詞條。參照圖2,示出了一種獲取口語詞條的優(yōu)選實(shí)施例,具體可以包括以下步驟,其中,與圖1所示實(shí)施例相似部分就不再詳述。步驟201、定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫。步驟202、對所收集的互聯(lián)網(wǎng)語料進(jìn)行數(shù)據(jù)凈化預(yù)處理。如前所述,語料的質(zhì)量直接影響了最終抽取的詞條的質(zhì)量,因此,在本優(yōu)選實(shí)施例中,增加了凈化的預(yù)處理步驟。例如,從才各式方面,可以去除網(wǎng)頁中9的html標(biāo)簽等無效信息;從內(nèi)容方面,還可以去除一些類型網(wǎng)頁上的無效模板,例如,BBS網(wǎng)頁中的一些固定模板信息等。有些情況下還需要去除某些用戶的干擾輸入,比如一些BBS用戶喜歡用多個(gè)"頂"字拼湊成一個(gè)大的"頂"字以表達(dá)自己強(qiáng)烈的情感,或者將某個(gè)短語或句子重復(fù)若干遍。諸如此類的情況都會對抽耳又過程造成影響,因此,都可以通過步驟202加以去除。如果語料來源是用戶的語音聊天記錄,則還需要作語音到漢字的轉(zhuǎn)換,使得提供給抽取步驟的輸入統(tǒng)一為計(jì)算機(jī)能處理的文本格式。步驟203、按照預(yù)置策略,從所述語料庫中抽取符合條件的詞條。步驟204、針對詞條進(jìn)行糾錯(cuò)。即糾正詞條中的錯(cuò)別字,優(yōu)選的,可以基于上下文的相似度,對詞條中的錯(cuò)別字進(jìn)行更正。例如,"博斗"一般是作為"搏斗"的錯(cuò)誤形式,但如果上下文有博客、爭斗、罵等關(guān)鍵詞,可以認(rèn)定它這里是指博主在博客上互相爭斗的意思,并不一定是^l昔詞。再例如,王菲專輯《菲賣品》、"默默無蚊"廣告詞步驟205、基于詞條在發(fā)音上的相似性,將詞條的各種變體(例如,數(shù)字、英文等)轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)形式。一般的標(biāo)準(zhǔn)形式可以通過出現(xiàn)頻率的高低加以判定。通??梢詫⒉襟E205稱為"詞條歸一化"的過程,例如,將"88","byebye"全部轉(zhuǎn)化為標(biāo)準(zhǔn)形式"byebye";"娃p合哈"、"哇哈p合"、"挖哈哈"全部轉(zhuǎn)化為標(biāo)準(zhǔn)的"娃哈哈",等等。具體歸一化的方法可以但不限于基于發(fā)音模型建立數(shù)字、英文到漢字的映射;優(yōu)選的,具體歸一化的過程還需要考慮上下文的相似性。需要說明的是,步驟204和步驟205并不必然同時(shí)出現(xiàn),因?yàn)槠浞謩e針對不同的詞條誤差。另外,如果本發(fā)明所獲取的口語詞條主要用于輸入法,則由于中文輸入法詞庫詞條必須嚴(yán)格是漢字以方便注音,在這個(gè)應(yīng)用場景中就必須將詞條中包含的數(shù)字、字母、符號等歸一化。而當(dāng)本發(fā)明所獲取的口語詞條主要用于中文分詞時(shí),則由于中文分詞應(yīng)用中并不要求詞庫詞條必須全為漢字,有相當(dāng)一部分是商標(biāo)名、命名實(shí)體等包含數(shù)字、字母的,則可以保留這些詞條的原始形式而不用做詞條歸一化。步驟206、針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條。需要進(jìn)一步說明的是,雖然在本實(shí)施例的描述中,步驟204、步驟205和步驟206是依次描述的,但是實(shí)際上,這三個(gè)步驟還可以同時(shí)完成,即在一個(gè)步驟中完成。步驟207、分析所獲取的口語詞條,針對預(yù)置策略提供反饋信息;所述反饋信息用于改進(jìn)原有規(guī)則模板或特征,或者提供新規(guī)則模板或新特征。步驟207所提供的反饋信息可以針對步驟202提供一些無效模板,或者針對原有無效模板的改進(jìn),以實(shí)現(xiàn)更優(yōu)的凈化預(yù)處理過程。步驟207所提供的反饋信息還可以針對步驟203提供優(yōu)化的或者新的抽取模板,以提高詞條抽取的準(zhǔn)確性和全面性。從步驟207可以看出,規(guī)則才莫板的抽取和改進(jìn)是一個(gè)迭代的過程,逐漸的可以達(dá)到最佳點(diǎn)。比如ABC才莫^1的迭代優(yōu)化其中AC要求是詞典里的詞。第一步可以選定一批B字種子,如"完"、"只"、"個(gè)",統(tǒng)計(jì)出一批ABC詞條。第二步統(tǒng)計(jì)這里面與AC詞條共現(xiàn)的B字集合,也進(jìn)行必要的人工監(jiān)控,從而擴(kuò)充一開始的B字種子,再進(jìn)入第一步。如此迭代,可以找出絕大多數(shù)符合ABC模板的B字集合。同樣的,這個(gè)迭代過程還可以用于在抽取的口語詞條實(shí)例中發(fā)現(xiàn)新的才莫板。比如某段時(shí)間內(nèi)獲取了很多詞條諸如"暴強(qiáng)"、"暴爽"、"暴有錢"等,那么我們可以通過機(jī)器自動發(fā)現(xiàn)或者人工干預(yù)的形式,發(fā)現(xiàn)"暴+<形容詞>"的模板,這里"暴,,作為一個(gè)程度副詞,與"很,,"非常"同義。然后我們可以有意識的應(yīng)用這個(gè)模板,抽取到"暴郁悶"、"暴帥氣"等更多的詞條。相同的道理可以自動發(fā)現(xiàn)"倍+<形容詞>"、"<形容詞>+的說"和"…...撒,,模板等等。從而逐漸的得到全面性和精確度都比較高的口語模板。再例如,通過分析可以得知,所抽取的"越來越"、"人見人"等詞條,并不應(yīng)該屬于"ABA"模板中的口語詞條,而應(yīng)該屬于ABAC沖莫板中詞條的一部分,從而通過增加限定條件而優(yōu)化"ABA"模板。對于所抽取的"先進(jìn)后"等詞條,通過分析可以得知,其并不應(yīng)該屬于"ABC"才莫板中的口語詞條,而應(yīng)該屬于ABCD才莫板,其中AC互為反義詞;從而調(diào)整抽取模板,更新過濾標(biāo)準(zhǔn),進(jìn)行更加有效的抽取。步驟208、將獲得的口語詞條添加至輸入法詞庫中;和/或,將依據(jù)反饋信息改進(jìn)后的抽取策略中的規(guī)則模板添加至輸入法智能組詞規(guī)則庫中。智能組詞,一般可以理解為輸入法工具根據(jù)輸入的拼音,從若干可能的漢字串候選中動態(tài)的選取最可能候逸輸出漢字串的過程。由于其屬于本領(lǐng)域的公知技術(shù),在現(xiàn)有輸入法中已經(jīng)應(yīng)用較多,但是現(xiàn)有的智能組詞一般都是根據(jù)詞之間的連接概率信息進(jìn)行組詞的,而本發(fā)明創(chuàng)新的提出還可以通過預(yù)置口語模板進(jìn)行口語詞匯的智能組詞。例如,最簡單的一種在智能組詞中應(yīng)用口語模板的方式可以為依據(jù)用戶的輸入信息得到多個(gè)可能的單字組合,然后利用口語模板對這些單字組合進(jìn)行匹配過濾,則可以得到在詞庫中沒有存儲的口語詞條作為候選項(xiàng)。實(shí)際上,傳統(tǒng)的輸入法對于各種可能的音節(jié)切分,總是結(jié)合相鄰的音節(jié)段到詞庫里查找對應(yīng)的漢字候選;而在本發(fā)明下的組詞過程中,可以跨音節(jié)進(jìn)行模板的匹配。比如gao,gao,xing,xing切分結(jié)果符合AABB模板,它可以將AB拼音結(jié)合在一起查找詞典里的詞條,而不會像傳統(tǒng)輸入法那樣以字為單位組詞,潛在地降低了組詞開銷。具體而言,在步驟208中,僅僅將獲得的口語詞條添加至輸入法詞庫中,即屬于基于口語詞條實(shí)例的精確匹配,相當(dāng)于把口語詞條實(shí)例擴(kuò)充已有詞庫,由于本發(fā)明能夠獲取大量的口語詞條實(shí)例,所以可以在一定程度上提高用戶對口語詞條的輸入效率,但是難以解決未收錄詞條的情況。而將依據(jù)反饋信息改進(jìn)后的抽取策略中的規(guī)則模板添加至輸入法智能組詞規(guī)則庫中,則屬于基于口語模板的動態(tài)構(gòu)建。比如已有模板ABC,其中AC是詞庫收錄的一個(gè)動賓短語,而B的范圍是有限并可以動態(tài)發(fā)現(xiàn)的,如"個(gè)、支、完、一"。那么在用戶輸入拼音串"xi,ge,zao"時(shí),輸入法發(fā)現(xiàn)該拼音對應(yīng)的候選"洗個(gè)澡"完全匹配該模板,從而能將洗個(gè)澡作為最佳答案輸出。當(dāng)然,這兩種方法不是互斥的,可以同時(shí)存在以滿足不同場合的需要。例如,用戶輸入字符串"huanle",則候選項(xiàng)顯示"歡樂"等詞庫已有的普通詞條以及"換了"等詞庫已有的口語詞條;而當(dāng)用戶輸入字符串"huanle錢,,,則候選項(xiàng)首詞顯示"還了錢",緊接著顯示"換了錢"等,因?yàn)橐罁?jù)預(yù)置的口語模板,在已有模板ABC中,AC是詞庫收錄的一個(gè)動賓短語"還錢"或者"換錢,,,而"了,,屬于B集合中的一個(gè),因此,可以智能組詞得到詞庫中沒有的候選項(xiàng)"還了錢,,和"換了錢,,,以進(jìn)一步方便用戶的口語輸入。12進(jìn)一步,由于本發(fā)明的口語模板通過多次迭代之后,可以達(dá)到很好的準(zhǔn)確度和全面性,因此,將其應(yīng)用在輸入法系統(tǒng)中,則可以更好的滿足用戶的輸入需求,提高用戶口語詞條的輸入效率。信息以及語音輸入等等。即所述輸入信息可以包括編碼字符串,也可以包括手寫輸入信息以及語音輸入的信息,因?yàn)檫@些輸入方式也都需要用到詞庫進(jìn)行候選項(xiàng)排序。由于這些輸入方式中的信息轉(zhuǎn)換都屬于公知技術(shù),在此就不詳述了。下面僅僅以編碼字符串輸入為例進(jìn)行詳細(xì)說明。另外,由于現(xiàn)有技術(shù)中,輸入法平臺可以運(yùn)行在多種計(jì)算設(shè)備上,例如,個(gè)人電腦、個(gè)人數(shù)字助理、移動終端設(shè)備等等,所以本發(fā)明也可以適用在上述各種計(jì)算設(shè)備中。本發(fā)明可以應(yīng)用于日文、韓文等需要出現(xiàn)候選詞排序的輸入法系統(tǒng),例如,對于日文而言,由日文中的平假名、片假名拼成短語的時(shí)候就需要出現(xiàn)候選詞排序。由于本發(fā)明在上述幾種輸入法系統(tǒng)中的應(yīng)用都是相似的,所以為了方便說明,本說明書僅僅以應(yīng)用在中文的情況進(jìn)行舉例說明。步驟209、將獲得的口語詞條添加至語料分詞詞庫中;和/或,將依據(jù)反饋信息改進(jìn)后的抽取策略中的規(guī)則模板添加至語料分詞規(guī)則庫中。以中文為例,中文分詞應(yīng)用,尤其是信息檢索領(lǐng)域的中文分詞,主要是采用基于詞典的分詞方法,很大程度上依賴于詞條的覆蓋面,收錄部分口語類的未登錄詞有助于提升分詞精度;進(jìn)一步,將本發(fā)明迭代獲取的優(yōu)質(zhì)口語模板進(jìn)行詞邊界的動態(tài)切分,可以獲得更佳的分詞效果。至于具體的分詞過程,由于并非本發(fā)明的重點(diǎn),因此不再詳述。對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。參照圖3,示出了一種獲取口語詞條的裝置實(shí)施例,具體可以包括以下部件13語料獲取模塊301,用于定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;詞條抽取模塊302,用于按照預(yù)置策略,從所述語料庫中抽取符合條件的詞條;所述預(yù)置策略與口語詞條的各種特征相關(guān);過濾模塊303,用于針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條。在本發(fā)明的一個(gè)實(shí)施例中,所述詞條抽取模塊可以進(jìn)一步包括多個(gè)規(guī)則模板,所述規(guī)則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據(jù)所述規(guī)則模板進(jìn)行多次詞條抽取,每次詞條抽取采用一個(gè)或者多個(gè)規(guī)則模板。在本發(fā)明的另一個(gè)實(shí)施例中,所述詞條抽取模塊可以進(jìn)一步細(xì)分為切分器,用于針對語料庫中一給定的字符串,依據(jù)分詞詞庫進(jìn)行切分;轉(zhuǎn)換器,用于將分詞碎片轉(zhuǎn)換為多個(gè)候選詞條;特征抽取子模塊,用于依據(jù)預(yù)置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。在本發(fā)明的另一個(gè)實(shí)施例中,所述詞條抽取模塊可以進(jìn)一步包括切分器,用于針對語料庫中一給定的字符串,依據(jù)分詞詞庫進(jìn)行切分;轉(zhuǎn)換器,用于將分詞碎片轉(zhuǎn)換為多個(gè)候選詞條;多個(gè)規(guī)則模板,所述規(guī)則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據(jù)預(yù)置的多個(gè)規(guī)則模板進(jìn)行多次詞條抽取,每次詞條抽取采用一個(gè)或者多個(gè)規(guī)則模板。為了獲得優(yōu)質(zhì)的口語模板,在本發(fā)明一優(yōu)選實(shí)施例中,還可以包括分析反饋模塊304,用于分析所獲取的口語詞條,針對預(yù)置策略提供反饋信息;所述反饋信息用于改進(jìn)原有規(guī)則模板或特征,或者提供新規(guī)則模板或新特征。為了提高詞條獲取的準(zhǔn)確性,在本發(fā)明一優(yōu)選實(shí)施例中,還可以包括糾錯(cuò)模塊305,用于在過濾之前,針對詞條進(jìn)行糾錯(cuò)。以及,詞條歸一化模塊306,用于在過濾之前,基于詞條在發(fā)音上的相似性,將詞條的各種變體轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)形式。當(dāng)然,這兩個(gè)模塊,并不一定需要同時(shí)包括,根據(jù)需要擇一選用即可。為了提高語料的精度,本實(shí)施例還可以包括預(yù)處理模塊307,用于對所收集的互if關(guān)網(wǎng)語料進(jìn)行數(shù)據(jù)凈化預(yù)處理。參照圖4,示出了一種輸入法系統(tǒng)實(shí)施例,具體可以包括詞庫401;口語模板402;所述口語模板通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)置策略中的規(guī)則模板,得到口語模板;實(shí)際上,如前表所示,本發(fā)明所述的口語模板還可以包括一些口語MJ'J;輸入接口單元403,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元404,用于依據(jù)所接收的輸入信息,檢索詞庫501,得到相應(yīng)的4美選項(xiàng);智能組詞單元405,用于依據(jù)口語模板402,智能組詞得到相應(yīng)的候選項(xiàng);顯示輸出單元406,用于展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。實(shí)際上,正是本發(fā)明第一次提出將口語模板?1入到智能組詞過程中,因而,使得在不需要預(yù)置很完善的口語詞條實(shí)例的詞庫條件下,也可以幫助用戶快速輸入所需的口語詞條。而對于口語模板的設(shè)立,本發(fā)明并不需要加以限定,本領(lǐng)域技術(shù)人員可以通過各種方式獲取,例如,人工設(shè)定等等。當(dāng)然,在圖4的實(shí)施例中,提出了一種得到較佳的口語模板的方式,以進(jìn)一步提高用戶輸入口語詞條的效率,但不能將該方式認(rèn)為是本發(fā)明獲取口語模板的唯一方式。如果采用口語模板通過智能組詞進(jìn)行口語詞匯的輸出,則從表象上看可以表現(xiàn)為對于詞庫中沒有的口語詞條,在沒有啟動智能組詞的情況下無法輸入,而在啟動智能組詞的情況下則可以輸入;或者,如果提供開關(guān)口語模板功能,則在關(guān)閉口語才莫板功能的情況下,無法輸入詞庫中沒有的口語詞條,而開啟口語模板功能之后,就可以輸入。參照圖5,示出了另一種輸入法系統(tǒng)實(shí)施例,包括存儲有口語詞條的詞庫501;所述口語詞條通過以下方式獲取定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;其中,所述預(yù)置策略與口語詞條的各種特征相關(guān);口語模板502;所述口語模板通過以下方式得到分析所獲取的口語詞條,針對預(yù)置策略提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)置策略中的規(guī)則才莫板,得到口語模板;輸入接口單元503,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元504,用于依據(jù)所接收的輸入信息,檢索存儲有口語詞條的詞庫501,得到相應(yīng)的候選項(xiàng);智能組詞單元505,用于依據(jù)口語才莫纟反502,智能組詞得到相應(yīng)的候選項(xiàng);顯示輸出單元506,用于展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。圖4和圖5是比較相近的兩個(gè)實(shí)施例,主要區(qū)別在于,圖4所示的實(shí)施例僅僅將本發(fā)明通過迭代優(yōu)化得到的口語模板應(yīng)用到輸入法系統(tǒng)中,主要通過口語才莫^1來完成口語詞條的輸入;而圖5所示的實(shí)施例則將本發(fā)明得到的口語詞條和口語模板都應(yīng)用到輸入法系統(tǒng)中,通過口語詞條實(shí)例的覆蓋以及口語模板的補(bǔ)充,則可以達(dá)到更佳的輸入效果。參照圖6,示出了一種分詞裝置的實(shí)施例,具體可以包括分詞詞庫601;存儲有口語模板的分詞規(guī)則庫602,所述口語模板通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)置策略中的規(guī)則模板,得到口語模板;分詞執(zhí)行模塊603,用于利用分詞詞庫中的詞條和分詞規(guī)則庫中的規(guī)則模板對語料進(jìn)行分詞。參照圖7,示出了另一種分詞裝置的實(shí)施例,包括存儲有口語詞條的分詞詞庫701,所述口語詞條通過以下方式獲取定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;其中,所述預(yù)置策略與口語詞條的各種特征相關(guān);存儲有口語模板的分詞規(guī)則庫702,所述口語模板通過以下方式得到分析所獲取的口語詞條,針對預(yù)置策略提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)16置策略中的規(guī)則模板,得到口語模板;分詞執(zhí)行模塊703,用于利用分詞詞庫中的詞條和分詞規(guī)則庫中的規(guī)則模板對語料進(jìn)行分詞。圖6和圖7是比較相近的兩個(gè)實(shí)施例,主要區(qū)別在于,圖6所示的實(shí)施例僅僅將本發(fā)明通過迭代優(yōu)化得到的口語才莫板應(yīng)用到分詞過程中,主要通過口語模板來提高分詞效率;而圖7所示的實(shí)施例則將本發(fā)明得到的口語詞條和口語模板都應(yīng)用到分詞過程中,通過口語詞條實(shí)例的覆蓋以及口語模板的補(bǔ)充,則可以達(dá)到更合理的分詞效果。相應(yīng)的本發(fā)明還^^開了一種智能組詞的方法實(shí)施例,即利用智能組詞得到候選項(xiàng)的過程,具體包括步驟a、接收用戶的輸入信息;步驟b、依據(jù)所述輸入信息與預(yù)置的口語模板,智能組詞得到相應(yīng)的候選項(xiàng);步驟c、展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。其中,優(yōu)選的,所述口語模板可以通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述預(yù)置策略中的規(guī)則模板,得到口語模板。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可??傊斎敕ㄏ到y(tǒng)作為軟件/互聯(lián)網(wǎng)公司"搶占用戶桌面,,最重要的一步,其自身的質(zhì)量和用戶友好程度直接決定了用戶是否樂意于選用該輸入法,或者從其他輸入法轉(zhuǎn)向該輸入法。隨著互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的不斷完善,普通網(wǎng)民互相交流的方式日益增多,1更利程度也越來越加強(qiáng),他們可以通過oicq/icq、live/yahoo/aolmessenger等IM,BBS,blog評論等形式用口頭語言進(jìn)行交17流。這種情況凸顯了傳統(tǒng)輸入法詞庫缺乏鮮活的口語詞匯和網(wǎng)民日益增長的使用口語網(wǎng)絡(luò)語言交流的矛盾。而本發(fā)明所提出的技術(shù)方案就可以快速有效的獲取口語化詞匯,并不斷發(fā)現(xiàn)其中的口語模板,能夠達(dá)到如下的技術(shù)效果1、覆蓋較大規(guī)模的口語詞條的范圍。對抽取出來的口語詞條不是簡單的加進(jìn)輸入法詞庫,而是將規(guī)則模板等參與智能組詞,這樣能覆蓋更多的情況,提升用戶的輸入流暢度。2、及時(shí)有效的更新詞條。我們知道,互聯(lián)網(wǎng)語言有著更新變化速度快的特點(diǎn),由于本發(fā)明是一種自動的抽取方法,需要人工參與干涉的地方較少,所以可以及時(shí)的獲取當(dāng)前最新的口語詞匯,獲知當(dāng)前口語變化的趨勢。另一方面,面對海量的數(shù)據(jù),人們需要快速準(zhǔn)確的管理和訪問所需的信息,其中包括電子郵件、聊天記錄、多媒體文檔等個(gè)人數(shù)據(jù)。處理這些信息所用到的分詞程序很大程度上依賴于分詞詞庫的覆蓋程度。通過本發(fā)明的口語詞條自動抽取方法,我們可以及時(shí)大量的擴(kuò)充分詞詞庫及分詞規(guī)則庫。對于未抽取到的口語詞條實(shí)例,則也可以通過模板匹配的方式做出處理。以上對本發(fā)明所提供的一種從互聯(lián)網(wǎng)信息中提取口語詞條的方法和裝置,一種智能組詞的方法以及一種應(yīng)用在前述過程中得到的口語詞條和口語模板的輸入法系統(tǒng)和一種分詞裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。權(quán)利要求1、一種輸入法系統(tǒng),其特征在于,包括詞庫;口語模板,所述口語模板與口語詞條的各種特征及判定標(biāo)準(zhǔn)相關(guān);輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,檢索詞庫,得到相應(yīng)的候選項(xiàng);智能組詞單元,用于依據(jù)所述口語模板,智能組詞得到相應(yīng)的候選項(xiàng);顯示輸出單元,用于展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。2、如權(quán)利要求1所述的輸入法系統(tǒng),其特征在于,所述口語模板通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述規(guī)則模板,得到口語模板。3、一種智能組詞的方法,其特征在于,包括接收用戶的輸入信息;依據(jù)所述輸入信息與預(yù)置的口語模板,智能組詞得到相應(yīng)的候選項(xiàng);展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。4、如權(quán)利要求3所述的方法,其特征在于,所述口語模板通過以下方式得到定向獲取所需的互聯(lián)網(wǎng)語料,形成語料庫;按照預(yù)置的規(guī)則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進(jìn)行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預(yù)置的規(guī)則模板提供反饋信息;依據(jù)反饋信息優(yōu)化所述規(guī)則模板,得到口語模板。全文摘要本發(fā)明提供了一種輸入法系統(tǒng),該系統(tǒng)包括詞庫;口語模板,所述口語模板與口語詞條的各種特征及判定標(biāo)準(zhǔn)相關(guān);輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,檢索詞庫,得到相應(yīng)的候選項(xiàng);智能組詞單元,用于依據(jù)所述口語模板,智能組詞得到相應(yīng)的候選項(xiàng);顯示輸出單元,用于展示候選項(xiàng),并輸出用戶選擇的候選項(xiàng)。本發(fā)明還公開了一種智能組詞的方法。通過本發(fā)明,可以幫助用戶更好的輸入口語詞匯,提高輸入體驗(yàn)和輸入效率,效率較高而且成本較低,并且可以適應(yīng)口語詞匯變化更新速度比較快的特性。文檔編號G06F17/30GK101556596SQ20091000512公開日2009年10月14日申請日期2007年8月31日優(yōu)先權(quán)日2007年8月31日發(fā)明者揚(yáng)張,奇郭申請人:北京搜狗科技發(fā)展有限公司