專利名稱:一種基于自然語言理解并提供短信回復選項的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言理解技術(shù)的領(lǐng)域,具體是指一種基于自然語言理解并提供短信回復選項的方法。
背景技術(shù):
手機短信的出現(xiàn)給人帶來了更方便,更靈活的信息交流環(huán)境?,F(xiàn)在使用最廣的是直接文字輸入,但很多時候受到時間和空間的制約,不方便通過打字來回復很多信息,無論是基于九宮格的字母拼音,還是屏幕彈出的鍵盤模式,都逃離不出多次按鍵的麻煩。加上隨著手機大屏幕的趨勢,真實按鍵這種交互方法會逐漸被觸摸式、甚至懸空點擊式所取代。而按鍵越多,這些新方式的交互體驗就越下降。所以,完善短信智能回復以更好地取代文字輸入、降低點擊次數(shù),從而應合手機大屏幕的趨勢,是很有必要的。隨著近幾年計算機自然語言理解技術(shù)的飛速發(fā)展,使機器能更靈活地給用戶提供各種回復的語句?,F(xiàn)有的短信自動回復技術(shù)都是基于預先設定的內(nèi)容進行回復的,故用戶還得進行較大量的篩選或修改。很多時候不能達到用戶的要求,而且對內(nèi)容有比較大的約束。例如,現(xiàn)有的短信自動回復技術(shù)主要有以下兩種(1)發(fā)送、接收短信的兩臺手機,都使用同一個短信數(shù)據(jù)庫甲方使用庫中的分類的內(nèi)容發(fā)送給乙方,由于使用同一短信數(shù)據(jù)庫,乙方可以根據(jù)接收到的這句話以查找相應的回復。這種方法雖然較為容易實現(xiàn),但由于分類事件的所限,這種方式發(fā)短信所能描述的內(nèi)容只能局限在小范圍內(nèi)。(2)事先編輯短信內(nèi)容并儲存手機用戶事先編輯好一段短信內(nèi)容之后,將其存儲起來;用戶也可以隨時再修改事先編輯好的短信內(nèi)容。在手機短信設置菜單中,有一項供用戶選擇,即是否打開短信自動回復功能。用戶可以通過該短信菜單隨時打開或者關(guān)閉短信自動回復功能。當手機用戶選擇不打開短信自動回復功能的時候,用戶接收到短信后必須自己處理,可以回復也可以不回復;當手機用戶選擇打開短信自動回復功能之后,手機接收到短信后將首先分析對方的電話號碼,如果號碼是惡意名單中的號碼則不自動回復;否則,在手機用戶事先編輯存儲好的短信信體上自動加上信頭和落款等,回復給對方;自動回復完成后手機回到接收短信之前的狀態(tài)。這種方法實現(xiàn)難度較低,但局限性很大,只能根據(jù)特定的對象,而且用戶必需自己編輯內(nèi)容。因此,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何能夠根據(jù)接收到的短信提供最多可能性的短信回復選項。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)存在的缺點和不足,本發(fā)明提供一種基于自然語言理解并提供短信回復選項的方法,本發(fā)明更加方便快捷,免去了繁瑣的錄入,以及多層的選取操作。本發(fā)明的目的通過下述技術(shù)方案實現(xiàn)
一種基于自然語言理解并提供短信回復選項的方法,其特征在于,如下步驟步驟100 收到短信,對短信進行一定的自然語言理解處理。步驟200 產(chǎn)生回答的主要部分。步驟300 結(jié)合其他成分進行組句,形成提供給用戶的幾種回復內(nèi)容。步驟400 用戶可對提供的回復內(nèi)容選擇進行修改或補充。步驟500 回復內(nèi)容的發(fā)送。如步驟100所述收到短信,對短信進行一定的自然語言理解處理,具體如下步驟110 對收到的短信進行分詞,得到分詞結(jié)果H1、H2、H3……步驟120 根據(jù)步驟110的分詞結(jié)果,將短信內(nèi)容分成三種集合,Vl = {HI, H2......}, V2 = {H3, H4......}, V3 = {H5, H6......}。其中集合Vl包括一些很有特征的結(jié)構(gòu),如問候祝福的結(jié)構(gòu),詢問的結(jié)構(gòu)等;集合V2包括時間、地點、名稱等固定結(jié)構(gòu);集合V3對句子成分處理不必要的內(nèi)容;步驟130 根據(jù)步驟120得到句子成分的不同集合,分別做如下處理,對集合Vl 中的結(jié)構(gòu),從訓練后語句庫中分別找出幾個方面的回復內(nèi)容;對集合V2中的結(jié)構(gòu)進行提取,以便組織回答語句;對集合V3中的結(jié)構(gòu)不作處理;上述產(chǎn)生回答的主要部分,具體如下(1)判斷主要內(nèi)容中是否有常見結(jié)構(gòu);(2)如果有常見結(jié)構(gòu),在系統(tǒng)的詞庫中有相關(guān)聯(lián)的回答,則將常見結(jié)構(gòu)進行一一給出詞結(jié)構(gòu)庫關(guān)聯(lián)的回答;(3)對于常見結(jié)構(gòu),加載統(tǒng)構(gòu)建好回復匹配詞句庫,并根據(jù)步驟120分類出來的主要內(nèi)容,在該詞句庫中找到相應的詞;(4)在加載統(tǒng)構(gòu)建好回復匹配詞句庫中找到結(jié)構(gòu)相應的詞句后,根據(jù)先前已經(jīng)建立好的關(guān)聯(lián),得到若干個常規(guī)的回答句式。(5)如果沒有常見結(jié)構(gòu),先產(chǎn)生一般化的回答,然后對待陳述的詞句進行提取,以判斷回答補充的內(nèi)容;(6)根據(jù)產(chǎn)生的回答以及步驟130對集合V2的提取內(nèi)容和步驟( 所提取的陳述內(nèi)容,給出常見及關(guān)聯(lián)的回答補充;(7)產(chǎn)生幾種不同方面回答的主干部分。把各種組句用的成分集合起來,包括產(chǎn)生的回答主干部分、提取的時間、地點、稱呼;將各種成分按一定規(guī)則組成回復的句子,系統(tǒng)根據(jù)規(guī)則或者根據(jù)用戶要求選取適當?shù)某煞纸M成回復的句子;組成幾句不同方面或者同一方面不同風格的回復內(nèi)容,供用戶選擇。與現(xiàn)有技術(shù)相比本發(fā)明的有益效果在于,用戶可以自由選擇由系統(tǒng)通過自然語言理解技術(shù)而提供的短信回復內(nèi)容,并可做局部修改與補充。比現(xiàn)有技術(shù)更加方便快捷,免去了繁瑣的錄入,以及多層的選取操作,系統(tǒng)根據(jù)收到短信內(nèi)容彈出幾條回復選項,供使用者選用、修改以及補充。本發(fā)明的智能回復部分并不是通過對關(guān)鍵詞簡單的檢索最后進行單一映射產(chǎn)生出回復語句,而是通過對收到的短信息進行分詞進一步對句式及詢問詞、問候詞等分析,將收到的短信進行關(guān)鍵內(nèi)容提取以及智能組句操作,最后產(chǎn)生提供給用戶回復短信的選項。因此該發(fā)明符合語言的多元化且滿足用戶的需要。本發(fā)明利用機器學習進行比較深入的自然語言理解,系統(tǒng)所用的詞句庫是通過大量短信語料以及其他語料訓練構(gòu)成的,目的是涵蓋所有的日常用語。一般來說,短信用到的語句不至于太復雜,經(jīng)過語句成分及結(jié)構(gòu)分析,足以準確獲得及處理很多日常的信息,達到方便用戶的目的。本發(fā)明提供智能短信回復選項,省去大量繁瑣的輸入;所提供的回復選項可加以修改;回復內(nèi)容局限性小,靈活且豐富。
圖1為本發(fā)明的總流程框架示意圖;圖2、圖3為本發(fā)明對收到短信的自然語言處理步驟;圖4為本發(fā)明的回復短信的句子組合步驟;圖5(a d)為本發(fā)明的操作畫面。
具體實施例方式下面結(jié)合實施例及附圖對本發(fā)明作進一步的詳細描述,但本發(fā)明的實施方式不限于此。實施例如圖1所示,本發(fā)明基于自然語言理解并提供短信回復選項的方法,包括下述步
馬聚ο步驟100 收到短信,對短信進行一定的自然語言理解處理。步驟200 產(chǎn)生回答的主要部分。步驟300 結(jié)合其他成分進行組句,形成提供給用戶的幾種回復內(nèi)容。步驟400 用戶可對提供的回復內(nèi)容選擇進行修改或補充。步驟500 回復內(nèi)容的發(fā)送。本發(fā)明是利用機器學習進行比較深入的自然語言理解,系統(tǒng)所用的詞句庫是通過大量短信語料以及其他語料訓練構(gòu)成的,目的是涵蓋所有的日常用語。一般來說,短信用到的語句不至于太復雜,經(jīng)過語句成分及結(jié)構(gòu)分析,足以準確獲得及處理很多日常的信息,達到方便用戶的目的。下面對本發(fā)明的實施流程再做進一步的敘述。圖5(a b)為本發(fā)明的操作畫面示意圖,僅作參考。以下給出的只是一種比較簡單的自然語言處理方法,并非用作為對本發(fā)明的限定,隨著自然語言理解技術(shù)的發(fā)展,可對收到短信進行范圍更廣,內(nèi)容更精確的理解。如圖2所示。步驟110 對收到的短信進行分詞,分詞算法可以是當前其中一種能實現(xiàn)分詞的算法,本發(fā)明并不需要對此作出限定,分詞所用的詞庫是配合本發(fā)明建立的一種詞庫,建立詞庫的過程不予限定,詞庫的內(nèi)容首先包含短信常有的問候結(jié)構(gòu)與詢問結(jié)構(gòu)等,然后是一般的常用詞,包括名詞動詞中的一些高頻詞,所以這里是對句子的分詞,能對句子進行簡單的詞性標注以及能分離出一些詢問結(jié)構(gòu),問候語結(jié)構(gòu)等,得到分詞結(jié)果H1、H2、H3……
步驟120 根據(jù)步驟110的分詞結(jié)果,將短信內(nèi)容分成三種集合,Vl = {HI, H2......}, V2 = {H3, H4......}, V3 = {H5, H6......}。其中集合Vl 主要內(nèi)容包括問候祝福的結(jié)構(gòu),詢問的結(jié)構(gòu),還有其他一些比較有特征的表達結(jié)構(gòu)。集合V2 其他內(nèi)容包括時間,地點,一些名稱和其他一些對內(nèi)容有說明性的結(jié)構(gòu)。集合V3:.不必要內(nèi)容對句子成分處理不必要的內(nèi)容,如一些語氣詞如“哈哈” “呵呵”等,還有用戶加入的一些個性化符號等。步驟130 根據(jù)步驟120得到句子成分的不同集合,分別做不同的處理。對集合Vl中的結(jié)構(gòu),從訓練后語句庫中分別找到出幾個方面的回復內(nèi)容。對集合 V2中的結(jié)構(gòu)進行提取,以便組織回答語句,對集合V3中的結(jié)構(gòu)不作處理。系統(tǒng)擁有一個為分詞所用的詞結(jié)構(gòu)庫,詞庫的內(nèi)容與本發(fā)明的功能相配合,所以與普通詞庫有所不同。首先,詞庫的詞量相對一般詞庫要少很多,本發(fā)明是面對日常生活的短信用語,故本發(fā)明所要求的詞庫是跟日常生活有關(guān)的高頻詞,這樣可以節(jié)省存儲資源。 其次,本發(fā)明將對很多常用表達進行結(jié)構(gòu)化,把一些問候祝福,詢問等結(jié)構(gòu)如“最近過得好嗎”,“圣誕節(jié)快樂”,進行詞的合并,令這些結(jié)構(gòu)成為一個新的整合起來的詞,在分詞的過程中不需對這些特定結(jié)構(gòu)進行拆分。除了用于分詞的詞庫,系統(tǒng)擁有一個經(jīng)大量語料訓練的回復匹配詞句庫。對于特定的結(jié)構(gòu),通過語料的訓練,得到對這些特定結(jié)構(gòu)所關(guān)聯(lián)回答的多元表,回答內(nèi)容頻率越高則權(quán)值越高,生成的回復語句中包含此回答內(nèi)容的期望值越高,這樣就使得按本發(fā)明方法生成的回答內(nèi)容更大可能的滿足用戶所需。除了根據(jù)頻率設定權(quán)值以外,對回答內(nèi)容還需進行一些必要的標定,比如說有些詢問的回答是有兩面性的,則回答內(nèi)容是哪一方面的要進行標定,這樣能在系統(tǒng)提供的兩到三句的回答內(nèi)容中能包含不同方面的回答內(nèi)容對于主要內(nèi)容的處理,以產(chǎn)生適當?shù)幕卮?,我們根?jù)短信內(nèi)容的特點內(nèi)容簡潔, 鮮明,常見結(jié)構(gòu)出現(xiàn)頻率很高,給出一種解決步驟。如圖3所示。步驟210 判斷主要內(nèi)容中是否有常見結(jié)構(gòu)。步驟220 如果有常見結(jié)構(gòu),在系統(tǒng)的詞庫中有相關(guān)聯(lián)的回答,則將常見結(jié)構(gòu)進行一一給出詞結(jié)構(gòu)庫關(guān)聯(lián)的回答,給出的回答中包含不同方面;對于常見結(jié)構(gòu)步驟221 加載統(tǒng)構(gòu)建好回復匹配詞句庫。步驟222 根據(jù)步驟120分類出來的主要內(nèi)容,在該詞句庫中的某類結(jié)構(gòu)中找到相應的詞。這個過程的主要算法思想是先前已經(jīng)建立好的語料結(jié)構(gòu)庫是一個龐大的每種詞類庫中以拼音字母為排列順序的樹狀圖,尋找過程是以拼音字母為標志的遍歷樹狀圖過程。步驟223 在步驟221中找到某種結(jié)構(gòu)相應的詞后,就可以根據(jù)先前已經(jīng)建立好的關(guān)聯(lián),得到若干個常規(guī)的回答句式。步驟230 如果沒有常見結(jié)構(gòu),先產(chǎn)生一般化的回答,如“好的,知道了 ”,“嗯,就這樣吧”等等,然后對陳述的主要詞語進行提取,以判斷回答補充的內(nèi)容;步驟MO 根據(jù)產(chǎn)生的回答以及步驟130對集合V3的提取內(nèi)容和步驟230所提取的陳述內(nèi)容,給出常見及關(guān)聯(lián)的回答補充,如禮貌用語,對某些事情設問等。步驟250 產(chǎn)生幾種不同方面回答的主干部分。為了使回復內(nèi)容更加豐富,除了豐富語料結(jié)構(gòu)庫以外,根據(jù)不同要素對回復內(nèi)容進行組句,也可以使回復內(nèi)容更加豐富,使系統(tǒng)給出的回復內(nèi)容不過于機械。組句的具體步驟如下請參閱圖4步驟310 把各種組句用的成分集合起來,具體有步驟250產(chǎn)生的回答主干部分、 步驟130提取的時間地點等要素,稱呼等,還有系統(tǒng)內(nèi)部的一些感情色彩詞庫,幽默色彩的詞庫等。步驟320 將步驟310的各種成分按一定規(guī)則組成回復的句子,不是每種場合都用上每種成分,系統(tǒng)可根據(jù)一定規(guī)則或者根據(jù)用戶要求選取適當?shù)某煞纸M成回復的句子。步驟330 組成幾句不同方面或者同一方面不同風格的回復內(nèi)容,供用戶選擇。因此,本發(fā)明提供智能短信回復選項,省去大量繁瑣的輸入;所提供的回復選項可加以修改;回復內(nèi)容局限性小,靈活且豐富。如上所述便可較好的實現(xiàn)本發(fā)明。
權(quán)利要求
1.一種基于自然語言理解并提供短信回復選項的方法,其特征在于,如下步驟 步驟100 收到短信,對短信進行一定的自然語言理解處理;步驟200 產(chǎn)生回答的主要部分;步驟300 結(jié)合其他成分進行組句,形成提供給用戶的幾種回復內(nèi)容; 步驟400 用戶可對提供的回復內(nèi)容選擇進行修改或補充; 步驟500:回復內(nèi)容的發(fā)送。
2.根據(jù)權(quán)利要求1所述的基于自然語言理解并提供短信回復選項的方法,其特征在于,對短信進行一定的自然語言理解處理,具體如下步驟110 對收到的短信進行分詞,得到分詞結(jié)果H1、H2、H3……步驟120 根據(jù)步驟110的分詞結(jié)果,將短信內(nèi)容分成三種集合,Vl = {HI, H2……},V2 = {H3, H4......},V3 = {H5, H6......},其中集合Vl包括問候祝福的結(jié)構(gòu),詢問的結(jié)構(gòu); 集合V2包括時間、地點、名稱; 集合V3對句子成分處理不必要的內(nèi)容;步驟130 根據(jù)步驟120得到句子成分的不同集合,分別做如下處理,對集合Vl中的結(jié)構(gòu),從訓練后語句庫中分別找到出幾個方面的回復內(nèi)容;對集合V2中的結(jié)構(gòu)進行提取,以便組織回答語句;對集合V3中的結(jié)構(gòu)不作處理。
3.根據(jù)權(quán)利要求2所述的基于自然語言理解并提供短信回復選項的方法,其特征在于產(chǎn)生回答的主要部分,具體如下(1)判斷主要內(nèi)容中是否有常見結(jié)構(gòu);(2)如果有常見結(jié)構(gòu),在系統(tǒng)的詞庫中有相關(guān)聯(lián)的回答,則將常見結(jié)構(gòu)進行一一給出詞結(jié)構(gòu)庫關(guān)聯(lián)的回答;(3)對于常見結(jié)構(gòu),加載統(tǒng)構(gòu)建好回復匹配詞句庫,并根據(jù)步驟120分類出來的主要內(nèi)容,在該詞句庫中找到相應的詞;(4)在加載統(tǒng)構(gòu)建好回復匹配詞句庫中找到結(jié)構(gòu)相應的詞句后,根據(jù)先前已經(jīng)建立好的關(guān)聯(lián),得到若干個常規(guī)的回答句式;(5)如果沒有常見結(jié)構(gòu),先產(chǎn)生一般化的回答,然后對待陳述的詞句進行提取,以判斷回答補充的內(nèi)容;(6)根據(jù)產(chǎn)生的回答以及步驟130對集合V3的提取內(nèi)容和步驟( 所提取的陳述內(nèi)容,給出常見及關(guān)聯(lián)的回答補充;(7)產(chǎn)生幾種不同方面回答的主干部分。
4.根據(jù)權(quán)利要求3所述的基于自然語言理解并提供短信回復選項的方法,其特征在于,把各種組句用的成分集合起來,包括產(chǎn)生的回答主干部分、提取的時間、地點、稱呼;將各種成分按一定規(guī)則組成回復的句子,系統(tǒng)根據(jù)規(guī)則或者根據(jù)用戶要求選取適當?shù)某煞纸M成回復的句子;組成幾句不同方面或者同一方面不同風格的回復內(nèi)容,供用戶選擇。
全文摘要
本發(fā)明公開了一種基于自然語言理解并提供短信回復選項的方法,步驟100收到短信,對短信進行一定的自然語言理解處理。步驟200產(chǎn)生回答的主要部分。步驟300結(jié)合其他成分進行組句,形成提供給用戶的幾種回復內(nèi)容。步驟400用戶可對提供的回復內(nèi)容選擇進行修改或補充。步驟500回復內(nèi)容的發(fā)送。本發(fā)明提供智能短信回復選項,省去大量繁瑣的輸入;所提供的回復選項可加以修改;回復內(nèi)容局限性小,靈活且豐富。
文檔編號H04W4/14GK102289431SQ20111017391
公開日2011年12月21日 申請日期2011年6月24日 優(yōu)先權(quán)日2011年6月24日
發(fā)明者徐向民, 蔡慧琳, 鐘俊洪 申請人:華南理工大學