專利名稱:自動問答方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算機應(yīng)用系統(tǒng)及方法,具體說,利用語言匹配技術(shù)的自動問答方法及語言的自動問答系統(tǒng)。
背景技術(shù):
現(xiàn)有的語言自動問答系統(tǒng)中,大多是采用簡單的模式匹配技術(shù)實現(xiàn)的,其方法是從句子的第一個詞開始,對用戶輸入的句子和知識庫中的句子進(jìn)行匹配,如果兩個詞相同就繼續(xù)下一個詞的匹配,中間可能利用任意詞通配符來忽略掉用戶輸入的句子中存在的一些不太關(guān)鍵的詞,重復(fù)這一過程直到整個用戶輸入的句子匹配完畢,如果匹配成功就將知識庫中的句子所對應(yīng)的應(yīng)答返回給用戶。但是相對于外文而言,中文具有用詞靈活、句法復(fù)雜多變的特點,并不適合簡單的模式匹配技術(shù)?,F(xiàn)有的中文自動問答系統(tǒng)是參考了國外一些英文的自動問答系統(tǒng),采用簡單的模式匹配技術(shù)實現(xiàn)的,這導(dǎo)致中文自動問答系統(tǒng)普遍存在中文知識庫的覆蓋面窄、系統(tǒng)的準(zhǔn)確率和招回率都很低的問題,對用戶體驗造成了傷害。
自動問答系統(tǒng)又稱QA(automatic Question Answering)系統(tǒng),它采用自然語言處理技術(shù),一方面完成對用戶問題的分析處理,另一方面完成正確答案的生成。自動問答系統(tǒng)以自然語言理解技術(shù)為核心,涉及到計算語言學(xué)、信息科學(xué)和人工智能等多門學(xué)科,是計算機應(yīng)用研究的熱點之一。
自然語言理解是人工智能領(lǐng)域中的一個重要研究方向,它使計算機能夠理解和運用人類的自然語言,可以實現(xiàn)人與計算機之間基于自然語言的有效通信。
知識庫是自動問答系統(tǒng)的關(guān)鍵組成部分,通常以問答語句對的形式存儲了大量的信息。當(dāng)用戶輸入的自然語言句子與知識庫中的某一個句子匹配成功的時候,其對應(yīng)的應(yīng)答就會被返回給用戶。
中文分詞和詞性標(biāo)注詞是最小的能夠獨立活動的有意義的語言成分。在中文中,詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態(tài)標(biāo)記,因此,中文信息處理的特有問題就是如何將中文的字串分割為合理的詞語序列,即中文分詞。中文分詞是句法分析等深層處理的基礎(chǔ),也是機器翻譯、信息檢索和信息抽取等應(yīng)用的重要環(huán)節(jié)。而詞性標(biāo)注就是根據(jù)句子上下文中的信息給句中的每個詞一個正確的詞性標(biāo)記。
自動問答系統(tǒng)的準(zhǔn)確率為自動問答系統(tǒng)做出正確應(yīng)答的次數(shù)除以總共的應(yīng)答次數(shù)。例如用戶向機器人輸入了100個句子,機器人做出了100次應(yīng)答,其中有20次是正確的,那么這個機器人系統(tǒng)的準(zhǔn)確率就是20%。
自動問答系統(tǒng)的召回率為自動問答系統(tǒng)做出正確應(yīng)答的次數(shù)除以知識庫中存在正確應(yīng)答的次數(shù)。例如用戶向機器人輸入了100個句子,機器人做出了100次應(yīng)答,其中有20次是正確的,但是用戶輸入的100個句子中,知識庫中只有其中25個句子的正確應(yīng)答存在,那么這個機器人系統(tǒng)的招回率就是80%。
下面舉例說明采用簡單的模式匹配技術(shù)實現(xiàn)的中文自動問答系統(tǒng)的缺點。
假設(shè)自動問答系統(tǒng)的知識庫中存在以下兩組問答語句對,每組都包括一個用戶輸入的自然語言句子(以下簡稱用戶句子)和系統(tǒng)應(yīng)答。
第一組
用戶句子你出生在深圳嗎?系統(tǒng)應(yīng)答是啊,你怎么知道的?第二組用戶句子你出生在北京嗎?系統(tǒng)應(yīng)答不對,我出生在深圳。
當(dāng)用戶輸入“你出生在深圳嗎?”或是“你出生在北京嗎?”的時候,應(yīng)答都是正確的。但是當(dāng)用戶輸入“你出生在上海嗎?”,自動問答系統(tǒng)就無法找到匹配的用戶句子,從而返回了錯誤的應(yīng)答(可能是系統(tǒng)缺省的應(yīng)答)。但是實際上,第二組中的系統(tǒng)應(yīng)答才是用戶輸入的正確應(yīng)答。
因為可以替換“上?!钡脑~非常多,所以上述問題也無法通過增加更多的問答語句對來解決。另外,將“北京”替換為任意詞通配符也不可行,因為用戶可能會輸入“你出生在76年嗎?”,同樣會匹配成功,導(dǎo)致應(yīng)答出錯。
綜上所述,簡單的模式匹配技術(shù)并不適合中文自動問答系統(tǒng),導(dǎo)致中文知識庫的覆蓋面窄,系統(tǒng)的準(zhǔn)確率和招回率都很低,會對用戶體驗造成傷害。
發(fā)明內(nèi)容
本發(fā)明所解決的技術(shù)問題是提供一種自動問答系統(tǒng),能夠提高中文知識庫的內(nèi)容覆蓋面,同時顯著的提高模式匹配的準(zhǔn)確率和招回率。
本發(fā)明的技術(shù)方案如下一種自動問答方法,包括(1)將輸入的文字信息進(jìn)行切分;(2)根據(jù)切分的結(jié)果進(jìn)行查找;
(3)用相匹配的查找結(jié)果刷新結(jié)果集合;(4)判斷輸入的文字信息匹配是否完成;(5)當(dāng)輸入的文字信息匹配完成,依據(jù)結(jié)果集合選擇應(yīng)答。
優(yōu)選的,推理知識庫中存儲有所述庫存文字信息。
優(yōu)選的,所述步驟(2)中,庫存文字信息經(jīng)過分詞和詞性標(biāo)注處理。
優(yōu)選的,所述步驟(1)具體為,中文分詞和詞性標(biāo)注模塊對輸入的文字信息進(jìn)行切分處理,輸出文字信息的分詞和詞性標(biāo)注信息。
優(yōu)選的,步驟(2)具體為,根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有相同分詞的庫存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取輸入文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有指定詞性通配符的庫存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取輸入文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取輸入文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,查找具有相同分詞的庫存文字信息,并按照設(shè)定的分值積分;同時,根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)中查找指定詞性通配符的庫存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)還包括根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)進(jìn)一步包括當(dāng)沒有查找到相匹配的庫存文字信息時,在推理知識庫中的缺省應(yīng)答中隨機選擇一個作為應(yīng)答,發(fā)送并結(jié)束。
本發(fā)明的另一個技術(shù)方案如下一種自動問答系統(tǒng),包括網(wǎng)絡(luò)接口模塊,接收輸入的文字信息,將應(yīng)答發(fā)送;分詞和詞性標(biāo)注模塊,對輸入的文字信息進(jìn)行分詞和詞性標(biāo)注,將切分出來的分詞及其詞性標(biāo)注信息發(fā)送;推理模塊,根據(jù)分詞及其詞性標(biāo)注信息查找對應(yīng)的應(yīng)答,將應(yīng)答發(fā)送到所述的網(wǎng)絡(luò)接口模塊。
優(yōu)選的,所述分詞和詞性標(biāo)注模塊調(diào)用計算語言知識庫中的分詞和詞性標(biāo)注方法。
優(yōu)選的,所述計算語言知識庫中還存儲有詞語使用頻率的統(tǒng)計數(shù)據(jù)和詞庫。
優(yōu)選的,所述推理模塊調(diào)用推理知識庫中與文字信息相對應(yīng)的應(yīng)答。
優(yōu)選的,所述推理知識庫存儲有庫存文字信息,所述庫存文字信息經(jīng)過分詞或者詞性標(biāo)注處理。
優(yōu)選的,所述庫存文字信息包含分詞、任意詞通配符或者詞性通配符。
本發(fā)明能夠應(yīng)用于不同的語言,特別是針對中文用詞靈活、句法復(fù)雜多變的特點,在自動問答系統(tǒng)中利用中文詞性通配符可以提高中文知識庫的內(nèi)容覆蓋面,減少建庫的工作量,同時顯著的提高基于模式匹配的中文自動問答系統(tǒng)的準(zhǔn)確率和招回率,從而提升用戶的體驗。
圖1是自動問答方法的操作流程圖;圖2是自動問答系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式
下面參照圖1,對中文的自動問答方法作詳細(xì)描述。
本技術(shù)方案只給出了一個具體的實施例,實際應(yīng)用時可以選擇不同的模式匹配方法來使用詞性通配符。
步驟S001接收端收到用戶輸入的文字信息。本優(yōu)選實施例中,自動問答系統(tǒng)100通過網(wǎng)絡(luò)接口模塊101接收用戶輸入的文字信息。
步驟S002對接收到的文字信息進(jìn)行切分處理,輸出一系列的詞和詞性標(biāo)注信息。本優(yōu)選實施例中,中文分詞和詞性標(biāo)注模塊102調(diào)用計算語言知識庫中的分詞和詞性標(biāo)注方法,對接收到的文字信息進(jìn)行切分處理,輸出文字信息的分詞和詞性標(biāo)注信息。
步驟S003從這些分詞和詞性信息中,取出當(dāng)前分詞及詞性標(biāo)注信息作為查找依據(jù)。本優(yōu)選實施例中,取出第一個分詞和詞性標(biāo)注信息作為查找依據(jù)。
步驟S004依據(jù)當(dāng)前分詞和詞性標(biāo)注信息進(jìn)行查找。
本優(yōu)選實施例中,推理模塊104從第一個詞開始,依據(jù)第一個分詞和詞性標(biāo)注信息,在推理知識庫105內(nèi)進(jìn)行查找,并將找到的結(jié)果作為結(jié)果結(jié)合。推理知識庫105內(nèi)存儲有應(yīng)答和經(jīng)過分詞處理的庫存文字信息,該庫存文字信息包含分詞、任意詞通配符或者詞性通配符,并且每個分詞可以對應(yīng)多個應(yīng)答。
查找的目標(biāo)是找到以下三類特征的庫存文字信息,以及與該庫存文字信息相對應(yīng)的應(yīng)答第一、推理知識庫105內(nèi)的庫存文字信息在當(dāng)前位置的分詞與用戶輸入的文字信息的第一個分詞相同。給選中的庫存文字信息記分,每選中一次,將此類庫存文字信息的分值增加1(初始值為0)。
第二、庫存文字信息在當(dāng)前位置出現(xiàn)了詞性通配符,而且該詞性通配符所指定的詞性與用戶輸入的文字信息的當(dāng)前分詞的詞性相同。給選中的庫存文字信息記分,每選中一次,將此類用戶句子的分值增加0.5。
第三、庫存文字信息在當(dāng)前位置出現(xiàn)了任意詞通配符。給選中的庫存文字信息記分,每選中一次,將此類用戶句子的分值增加0.2。
上述三類匹配模式可以任意選取其一,也可以選取幾個進(jìn)行組合,作為匹配模式。本優(yōu)選實施例中,上述三類匹配模式同時選用,并將依照三類匹配模式選取的庫存文字信息都放入結(jié)果集合。
本發(fā)明中,在推理知識庫105內(nèi)對用戶輸入的文字信息(例如句子)增加了詞性通配符,表示所有具有指定詞性的詞。自動問答系統(tǒng)在收到用戶輸入的句子后首先進(jìn)行分詞和詞性標(biāo)注,然后再轉(zhuǎn)交給推理模塊104。當(dāng)推理模塊104對用戶輸入的句子和推理知識庫105內(nèi)的用戶句子進(jìn)行模式匹配的時候,詞性通配符可以和具有指定詞性的任意詞匹配成功,但是,如果用戶輸入的句子中的詞和知識庫中其他用戶句子的詞完全匹配,則詞性通配符的優(yōu)先級低于完全匹配的優(yōu)先級。通過本方法可以顯著提高基于模式匹配的中文自動問答系統(tǒng)的準(zhǔn)確率和招回率步驟S005如果找到與用戶輸入的文字信息相匹配的庫存文字信息和應(yīng)答,則將這些庫存文字信息和應(yīng)答作為當(dāng)前的結(jié)果集合。由于后續(xù)找到的庫存文字信會不斷刷新上一個結(jié)果集合,所以結(jié)果集合能夠及時得到更新。本優(yōu)選實施例中,隨著匹配的進(jìn)行和積分的累加,該結(jié)果集合的庫存文字信息的數(shù)量是在不斷縮小,因此應(yīng)答的正確率在不斷地提高。
推理知識庫105內(nèi)還存儲有缺省應(yīng)答,如果上述查找都失敗,則推理模塊104認(rèn)為推理知識庫105內(nèi)沒有與用戶輸入的文字信息相符的應(yīng)答,系統(tǒng)會從推理知識庫105內(nèi)調(diào)用缺省應(yīng)答,隨機選擇一個(步驟S009),返回給用戶(步驟S010)。
步驟S006判斷用戶輸入的文字信息是否已經(jīng)匹配完畢。本優(yōu)選實施例中,該步驟由推理模塊執(zhí)行,以便于及時判斷匹配是否完成。
步驟S007如果用戶輸入的文字信息沒有匹配完畢,則提取下一個分詞和詞性標(biāo)注信息作為查找依據(jù),執(zhí)行步驟S004,繼續(xù)上述查找過程,直到全部匹配成功,或者中途匹配失敗。本優(yōu)選實施例中,推理模塊104認(rèn)為沒有匹配完畢,則進(jìn)行n+1操作,將下一個分詞作為查找的依據(jù)。
步驟S008如果用戶輸入的文字信息已經(jīng)匹配完成,則從結(jié)果集合中相匹配的應(yīng)答中隨機選取一個,返回給用戶(步驟S010)。
本優(yōu)選實施例中,推理模塊104判斷已經(jīng)匹配完成,從結(jié)果集合中選擇積分值最高的應(yīng)答發(fā)送到網(wǎng)絡(luò)接口模塊101,通過網(wǎng)絡(luò)接口模塊101發(fā)送給用戶。
步驟S009如果沒有在推理知識庫105中找到匹配的庫存文字信息,則推理模塊104將從推理知識庫105中的缺省應(yīng)答中隨機選取一個,作為應(yīng)答。
步驟S010將接收到的應(yīng)答發(fā)送給用戶。
本優(yōu)選實施例中,網(wǎng)絡(luò)接口模塊101接收推理模塊104發(fā)送的應(yīng)答,并將該應(yīng)答發(fā)送給用戶。
本發(fā)明中,利用中文的詞性通配符提高了推理知識庫105的內(nèi)容覆蓋面,減少了建庫的工作量,同時能夠顯著的提高基于模式匹配的自動問答方法的準(zhǔn)確率和招回率,從而提升用戶的體驗,是一項非常有意義的創(chuàng)新。
參考背景技術(shù)中的例子,在支持中文詞性通配符的本發(fā)明的推理知識庫105中,構(gòu)造了以下兩組問答語句對第一組用戶輸入的文字信息你出生在深圳嗎?系統(tǒng)響應(yīng)的應(yīng)答是啊,你怎么知道的?第二組用戶輸入的文字信息你出生在POSnsPOS嗎?
系統(tǒng)響應(yīng)的應(yīng)答不對,我出生在深圳。
其中POSnsPOS是本實施例中采用詞性通配符表示的方式,其中POS是詞性信息的起止標(biāo)記,而ns是表示方位的名詞詞性。
當(dāng)用戶輸入“你出生在深圳嗎?”的時候,與第一組的用戶句子匹配成功,系統(tǒng)向用戶響應(yīng)“是啊,你怎么知道的?”;當(dāng)用戶輸入“你出生在北京嗎?”或“你出生在上海嗎?”的時候,都與第二組中用戶句子匹配成功,系統(tǒng)向用戶響應(yīng)“不對,我出生在深圳?!睂嶋H上,只要用戶輸入的是類似北京和上海的、任何具備ns詞性的詞,都可以與第二組問答語句對匹配成功;但是類似“76年”這種詞不具備ns詞性,所以不會被誤匹配為第二組問答語句對。
本發(fā)明中,還可以選擇不同的模式匹配方法來使用詞性通配符,用于提高基于模式匹配的準(zhǔn)確率和招回率,例如,不對用戶輸入的句子進(jìn)行逐詞的匹配,而是打亂詞的順序直接匹配。
下面參照圖2對本發(fā)明的優(yōu)選實施例作詳細(xì)描述。
不同的語言有不同的語法,使得詞之間有不同的匹配模式。本優(yōu)選實施例中,系統(tǒng)選用中文作為識別目標(biāo)。
選用中文的自動問答系統(tǒng)100包括網(wǎng)絡(luò)接口模塊101、中文分詞和詞性標(biāo)注模塊102、推理模塊104,以及計算語言知識庫103和推理知識庫105。
網(wǎng)絡(luò)接口模塊101負(fù)責(zé)接收用戶輸入的句子,并發(fā)送給中文分詞和詞性標(biāo)注模塊102。
中文分詞和詞性標(biāo)注模塊102調(diào)用計算語言知識庫103中的分詞和詞性標(biāo)注方法,對用戶輸入的文字信息進(jìn)行中文分詞和詞性標(biāo)注,然后將所有切分出來的詞及其詞性標(biāo)注信息提交給推理模塊104。
推理模塊104根據(jù)分詞和詞性標(biāo)注模塊104輸出的詞及其詞性標(biāo)注信息在推理知識庫105內(nèi)查找對應(yīng)的應(yīng)答,當(dāng)存儲在推理知識庫105內(nèi)的庫存文字信息包含詞性通配符的時候,該詞性通配符可以和用戶輸入的句子中具有指定詞性的任意詞匹配成功,從而繼續(xù)后面的匹配。
本優(yōu)選實施例中,計算語言知識庫103內(nèi)存儲的是中文分詞和詞性標(biāo)注所必需的信息,還包括詞典以及詞頻等各種統(tǒng)計數(shù)據(jù),該計算語言知識庫103可以根據(jù)實際需要進(jìn)行升級,及時將新的分詞和詞性標(biāo)注方法補入。
推理知識庫105內(nèi)存儲的是庫存文字信息,該庫存文字信息為用戶可能輸入的文字信息。推理知識庫105內(nèi)還存儲有對應(yīng)這些庫存文字信息的應(yīng)答,其中每個庫存文字信息都經(jīng)過分詞處理,可以對應(yīng)一個或多個應(yīng)答。推理知識庫105由推理模塊104在系統(tǒng)啟動的時候讀入內(nèi)存,并在收到中文分詞和詞性標(biāo)注的命令和信息后與之進(jìn)行匹配。存儲在推理知識庫105中的庫存文字信息除了可以包括具體的詞和任意詞通配符之外,還可以包括詞性通配符,用來表示所有具有指定詞性的詞,另外,推理知識庫105中還存儲有缺省應(yīng)答。
權(quán)利要求
1.一種自動問答方法,包括(1)將輸入的文字信息進(jìn)行切分;(2)根據(jù)切分的結(jié)果進(jìn)行查找;(3)用相匹配的查找結(jié)果刷新結(jié)果集合;(4)判斷輸入的文字信息匹配是否完成;(5)當(dāng)輸入的文字信息匹配完成,依據(jù)結(jié)果集合選擇應(yīng)答。
2.根據(jù)權(quán)利要求1所述的自動問答方法,其特征在于,推理知識庫中存儲有所述庫存文字信息。
3.根據(jù)權(quán)利要求2所述的自動問答方法,其特征在于,所述步驟(2)中,庫存文字信息經(jīng)過分詞和詞性標(biāo)注處理。
4.根據(jù)權(quán)利要求1所述的自動問答方法,其特征在于,所述步驟(1)具體為,中文分詞和詞性標(biāo)注模塊對輸入的文字信息進(jìn)行切分處理,輸出文字信息的分詞和詞性標(biāo)注信息。
5.根據(jù)權(quán)利要求1所述的自動問答方法,其特征在于,步驟(2)具體為,根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有相同分詞的庫存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取輸入文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
6.根據(jù)權(quán)利要求1所述的自動問答方法,其特征在于,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有指定詞性通配符的庫存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取輸入文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
7.根據(jù)權(quán)利要求1所述的自動問答方法,其特征在于,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取輸入文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
8.根據(jù)權(quán)利要求1所述的自動問答方法,其特征在于,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,查找具有相同分詞的庫存文字信息,并按照設(shè)定的分值積分;同時,根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)中查找指定詞性通配符的庫存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
9.根據(jù)權(quán)利要求8所述的自動問答方法,其特征在于,步驟(2)還包括根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒有完成,提取文字信息的下一個分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
10.根據(jù)權(quán)利要求9所述的自動問答方法,其特征在于,步驟(2)進(jìn)一步包括當(dāng)沒有查找到相匹配的庫存文字信息時,在推理知識庫中的缺省應(yīng)答中隨機選擇一個作為應(yīng)答,發(fā)送并結(jié)束。
11.一種自動問答系統(tǒng),其特征在于,包括網(wǎng)絡(luò)接口模塊,接收輸入的文字信息,將應(yīng)答發(fā)送;分詞和詞性標(biāo)注模塊,對輸入的文字信息進(jìn)行分詞和詞性標(biāo)注,將切分出來的分詞及其詞性標(biāo)注信息發(fā)送;推理模塊,根據(jù)分詞及其詞性標(biāo)注信息查找對應(yīng)的應(yīng)答,將應(yīng)答發(fā)送到所述的網(wǎng)絡(luò)接口模塊。
12.根據(jù)權(quán)利要求11所述的自動問答系統(tǒng),其特征在于,所述分詞和詞性標(biāo)注模塊調(diào)用計算語言知識庫中的分詞和詞性標(biāo)注方法。
13.根據(jù)權(quán)利要求12所述的自動問答系統(tǒng),其特征在于,所述計算語言知識庫中還存儲有詞語使用頻率的統(tǒng)計數(shù)據(jù)和詞庫。
14.根據(jù)權(quán)利要求11所述的自動問答系統(tǒng),其特征在于,所述推理模塊調(diào)用推理知識庫中與文字信息相對應(yīng)的應(yīng)答。
15.根據(jù)權(quán)利要求14所述的自動問答系統(tǒng),其特征在于,所述推理知識庫存儲有庫存文字信息,所述庫存文字信息經(jīng)過分詞或者詞性標(biāo)注處理。
16.根據(jù)權(quán)利要求15所述的自動問答系統(tǒng),其特征在于,所述庫存文字信息包含分詞、任意詞通配符或者詞性通配符。
全文摘要
本發(fā)明公開了一種自動問答方法,包括將輸入的文字信息進(jìn)行切分;根據(jù)切分的結(jié)果進(jìn)行查找;用相匹配的查找結(jié)果刷新結(jié)果集合;判斷輸入的文字信息匹配是否完成;當(dāng)輸入的文字信息匹配完成,依據(jù)結(jié)果集合選擇應(yīng)答。本發(fā)明還公開了一種自動問答系統(tǒng)。本發(fā)明能夠應(yīng)用于不同的語言,特別是針對中文用詞靈活、句法復(fù)雜多變的特點,在自動問答系統(tǒng)中利用中文詞性通配符可以提高中文知識庫的內(nèi)容覆蓋面,減少建庫的工作量,同時顯著的提高基于模式匹配的中文自動問答系統(tǒng)的準(zhǔn)確率和招回率。
文檔編號G06F17/30GK101030267SQ200610059919
公開日2007年9月5日 申請日期2006年2月28日 優(yōu)先權(quán)日2006年2月28日
發(fā)明者楊海松, 鄧大付, 余祥鑫 申請人:騰訊科技(深圳)有限公司