智能問答方法、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫的制作方法
【專利摘要】本發(fā)明公開了一種智能問答方法、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫。該方法包括:提供知識(shí)庫,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式包括詞類;獲取用戶的輸入信息;將輸入信息與知識(shí)點(diǎn)中的問題進(jìn)行語義相似度計(jì)算,當(dāng)計(jì)算得到的最大語義相似度值大于預(yù)設(shè)閾值時(shí),將最大語義相似度值對(duì)應(yīng)的知識(shí)點(diǎn)中的答案發(fā)送給用戶,其中,至少部分詞類包括修正權(quán)重標(biāo)記,在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理。借助于本發(fā)明的技術(shù)方案,能夠優(yōu)化知識(shí)庫的結(jié)構(gòu),提高計(jì)算相似度的準(zhǔn)確性,提高匹配成功率。
【專利說明】
智能問答方法、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種智能問答方法及裝置、知識(shí)庫優(yōu)化 方法及裝置、智能知識(shí)庫。
【背景技術(shù)】
[0002] 在問答系統(tǒng)中,知識(shí)庫起著至關(guān)重要的作用,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn) 包括答案、一個(gè)標(biāo)準(zhǔn)問和/或?qū)?yīng)于標(biāo)準(zhǔn)問的多個(gè)擴(kuò)展問。標(biāo)準(zhǔn)問以及擴(kuò)展問既可以采用普 通問題形式,也可以采用語義表達(dá)式形式,兩者根據(jù)是否包括詞類進(jìn)行區(qū)分。語義表達(dá)式中 包括詞類,詞類是按照詞的語義進(jìn)行劃分的,把一組相關(guān)的詞組織在一起形成一個(gè)樹狀結(jié) 構(gòu)的詞類庫,在這個(gè)樹狀結(jié)構(gòu)中的任意一個(gè)非葉子結(jié)點(diǎn)都稱作一個(gè)詞類(即,廣義詞類),其 中直接包含詞的第一級(jí)詞類稱為狹義詞類。狹義詞類是對(duì)一組相關(guān)詞的匯總,詞類由詞類 名和一組相關(guān)詞所組成。詞類名是在這組相關(guān)詞中具有標(biāo)簽作用的詞,即詞類的代表。一個(gè) 詞類中至少包含一個(gè)詞(即詞類本身)。定義詞類的目的主要是為了分詞、構(gòu)造語義表達(dá)式 以及使用其攜帶的語義信息進(jìn)行語義相似度計(jì)算。
[0003] 詞或詞類的權(quán)重作為語義相似度計(jì)算的基礎(chǔ),它的準(zhǔn)確性直接影響到了相似度計(jì) 算的準(zhǔn)確性,由于領(lǐng)域知識(shí)的知識(shí)量有限,因此基于統(tǒng)計(jì)意義的詞頻及文檔頻率計(jì)算出的 權(quán)重就不能保證一定的正確性。例如,在根據(jù)語義表達(dá)式進(jìn)行相似度計(jì)算時(shí),會(huì)出現(xiàn)如下問 題:有的詞類在某個(gè)語義表達(dá)式中或者從全局來看,權(quán)重都是比較低的,但在其他語義表達(dá) 式中,該詞類可能需要比較高的權(quán)重。但是,按照現(xiàn)有技術(shù)中的詞或詞類的基于統(tǒng)計(jì)意義的 詞頻及文檔頻率計(jì)算出的權(quán)重,不會(huì)考慮上述情況,從而會(huì)出現(xiàn)計(jì)算出權(quán)重不準(zhǔn)確的問題, 從而導(dǎo)致語義相似度計(jì)算的不準(zhǔn)確,最終導(dǎo)致不能夠?yàn)橛脩糨斎脒M(jìn)行準(zhǔn)確的匹配,從而推 送給用戶答案不是用戶所需要的。
【發(fā)明內(nèi)容】
[0004] 鑒于現(xiàn)有技術(shù)中在計(jì)算相似度時(shí)沒有考慮詞類在某些語義表達(dá)式中需要較高的 權(quán)重從而導(dǎo)致相似度計(jì)算不準(zhǔn)確的問題,提出了本發(fā)明以便提供一種克服上述問題或者至 少部分地解決上述問題的智能問答方法及裝置、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫。
[0005] 本發(fā)明提供一種智能問答方法,包括:提供知識(shí)庫,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè) 知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式 包括詞類;獲取用戶的輸入信息;將輸入信息與知識(shí)點(diǎn)中的問題進(jìn)行語義相似度計(jì)算,當(dāng)計(jì) 算得到的最大語義相似度值大于預(yù)設(shè)閾值時(shí),將最大語義相似度值對(duì)應(yīng)的知識(shí)點(diǎn)中的答案 發(fā)送給用戶,其中,至少部分詞類包括修正權(quán)重標(biāo)記,在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正 權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理。
[0006] 本發(fā)明還提供了一種知識(shí)庫優(yōu)化方法,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括 答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式包括詞類,該 方法包括:確定語義表達(dá)式中的特定詞類;對(duì)特定詞類添加修正權(quán)重標(biāo)記,修正權(quán)重標(biāo)記用 于調(diào)整特定詞類在該語義表達(dá)式中的重要程度。
[0007] 本發(fā)明還提供了一種智能知識(shí)庫,該知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答 案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式包括詞類,至少 部分詞類包括修正權(quán)重標(biāo)記。
[0008] 本發(fā)明還提供了一種智能問答方法裝置,包括:知識(shí)庫模塊,用于提供知識(shí)庫,知 識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采 用語義表達(dá)式,語義表達(dá)式包括詞類;處理模塊,用于獲取用戶的輸入信息;將輸入信息與 知識(shí)點(diǎn)中的問題進(jìn)行語義相似度計(jì)算,當(dāng)計(jì)算得到的最大語義相似度值大于預(yù)設(shè)閾值時(shí), 將最大語義相似度值對(duì)應(yīng)的知識(shí)點(diǎn)中的答案發(fā)送給用戶,其中,至少部分詞類包括修正權(quán) 重標(biāo)記;處理模塊具體用于:在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的 原始權(quán)重進(jìn)行修正處理。
[0009] 本發(fā)明還提供了一種知識(shí)庫優(yōu)化裝置,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括 答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式包括詞類,該 裝置具體包括:確定模塊,用于確定語義表達(dá)式中的特定詞類;添加模塊,用于對(duì)特定詞類 添加修正權(quán)重標(biāo)記,修正權(quán)重標(biāo)記用于調(diào)整特定詞類在該語義表達(dá)式中的重要程度。
[0010] 本發(fā)明有益效果如下:
[0011] 通過對(duì)特定詞類添加修正權(quán)重標(biāo)記,在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo) 記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理,解決了現(xiàn)有技術(shù)中在計(jì)算相似度時(shí)沒有考慮詞 類在某些語義表達(dá)式中需要較高或較低的權(quán)重從而導(dǎo)致相似度計(jì)算不準(zhǔn)確的問題,能夠優(yōu) 化知識(shí)庫的結(jié)構(gòu),提高計(jì)算相似度的準(zhǔn)確性,提高匹配成功率。
[0012] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0013] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0014] 圖1是本發(fā)明實(shí)施例的智能問答方法的流程圖;
[0015] 圖2是本發(fā)明實(shí)施例的知識(shí)庫優(yōu)化方法的流程圖;
[0016] 圖3是本發(fā)明裝置實(shí)施例的智能問答裝置的示意圖;
[0017] 圖4是本發(fā)明裝置實(shí)施例的知識(shí)庫優(yōu)化裝置的示意圖。
【具體實(shí)施方式】
[0018] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0019] 為了解決現(xiàn)有技術(shù)中在計(jì)算相似度時(shí)沒有考慮詞類在某些語義表達(dá)式中需要較 高或較低的權(quán)重從而導(dǎo)致相似度計(jì)算不準(zhǔn)確的問題,本發(fā)明提供了一種智能問答方法及裝 置、知識(shí)庫優(yōu)化方法及裝置、智能知識(shí)庫,以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步 詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。
[0020] 方法實(shí)施例一
[0021] 根據(jù)本發(fā)明的實(shí)施例,提供了一種智能問答方法,圖1是本發(fā)明實(shí)施例的智能問答 方法的流程圖,如圖1所示,根據(jù)本發(fā)明實(shí)施例的智能問答方法包括如下處理:
[0022] 步驟101,提供知識(shí)庫,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或 多個(gè)問題,其中,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式包括詞類,在至少部分 語義表達(dá)式中,至少部分詞類包括修正權(quán)重標(biāo)記。
[0023]在步驟101中,知識(shí)庫中的知識(shí)點(diǎn)最原始和最簡單的形式就是平時(shí)常用的FAQ,一 般的形式是"問_答"對(duì),其中,該"問"就是標(biāo)準(zhǔn)問,該"答"就是答案。例如,"彩鈴的資費(fèi)"就 是表達(dá)清晰的標(biāo)準(zhǔn)問描述。知識(shí)庫里的每個(gè)知識(shí)點(diǎn)還可以有對(duì)應(yīng)于一個(gè)標(biāo)準(zhǔn)問的擴(kuò)展問, 該擴(kuò)展問與標(biāo)準(zhǔn)問表達(dá)形式略有差異,但是表達(dá)的含義相同。其中,知識(shí)點(diǎn)中的標(biāo)準(zhǔn)問和擴(kuò) 展問可以采用語義表達(dá)式進(jìn)行表達(dá)。
[0024]語義表達(dá)式主要由詞、詞類以及他們的"或"關(guān)系構(gòu)成,其核心依賴于詞類,詞類即 為一組有共性的詞(如:同義詞)。為了區(qū)分語義表達(dá)式中的詞與詞類,在語義表達(dá)式中,詞 類可以出現(xiàn)在方括號(hào)"[]"中。需要說明的是,在本發(fā)明實(shí)施例中,方括號(hào)中出現(xiàn)的詞類一般 為"狹義詞類",在實(shí)際應(yīng)用中,也可通過配置系統(tǒng)參數(shù)以支持"廣義詞類"。此外,語義表達(dá) 式與用戶問句(即輸入信息)之間關(guān)系是通過量化的值即相似度來表示的。
[0025]在本發(fā)明實(shí)施例中,至少部分詞類包括修正權(quán)重標(biāo)記,該修正權(quán)重標(biāo)記用于調(diào)整 所標(biāo)記的詞類在該語義表達(dá)式中的重要程度。優(yōu)選地,可以使用"*n"或"*rT"表示修正權(quán)重 標(biāo)記。具體地,在本發(fā)明實(shí)施例中,修正權(quán)重標(biāo)記包括修正趨勢以及修正系數(shù),修正趨勢為 增加或縮減,修正系數(shù)大于0。例如,"*rT"中的減號(hào)表示修正趨勢為縮減,而不帶有減號(hào)的 "*n"表示修正趨勢為增加,其中,n表示修正系數(shù),根據(jù)具體情況修正系數(shù)可以取不同的值, 如:10%、20%、50%、90%等。
[0026] 步驟102,獲取用戶的輸入信息;該輸入信息可以是用戶提問。
[0027] 步驟103,將輸入信息與知識(shí)點(diǎn)中的問題進(jìn)行語義相似度計(jì)算,在進(jìn)行語義相似度 計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理;當(dāng)計(jì)算得到的最大語 義相似度值大于預(yù)設(shè)閾值時(shí),將最大語義相似度值對(duì)應(yīng)的知識(shí)點(diǎn)中的答案發(fā)送給用戶。
[0028] 在步驟103中,原始權(quán)重可以通過以下方式進(jìn)行計(jì)算:
[0029] 根據(jù)公式1計(jì)算特定詞或詞類的文檔頻率idf:
[0030] idf = l+log(N/(n+l))公式 1;
[0031] 其中,N為知識(shí)庫中的總知識(shí)點(diǎn)數(shù),n為特定詞或詞類出現(xiàn)的知識(shí)點(diǎn)數(shù);
[0032]根據(jù)公式2計(jì)算特定詞或詞類的詞頻tf:
[0033] tf = sqrt(n'/N')公式2;
[0034] 其中,N'為特定詞或詞類所在知識(shí)點(diǎn)的詞以及詞類的總數(shù),n'為該知識(shí)點(diǎn)中出現(xiàn) 特定詞或詞類的數(shù);
[0035 ]根據(jù)公式3計(jì)算特定詞或詞類的原始權(quán)重w:
[0036] w=idf*tf 公式 3。
[0037] 在步驟103中,需要根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理,其 中,當(dāng)修正趨勢為增加時(shí),修正處理后的權(quán)重w'為w' =w+w*n;當(dāng)修正趨勢為縮減時(shí),修正處 理后的權(quán)重w'為w' = w-w*n;其中:w為原始權(quán)重,n為修正系數(shù)。
[0038] 具體地,在計(jì)算相似度時(shí),任一標(biāo)準(zhǔn)問或擴(kuò)展問可以描述為由組成標(biāo)準(zhǔn)問或擴(kuò)展 問的n個(gè)詞(或詞類)的權(quán)重構(gòu)成的n維向量cU = (W1 i,W12,…,W1 n);用戶問句可以描述為由 組成問句的詞的權(quán)重構(gòu)成的另一個(gè)n維向量d = (W2i,W22,…,W2n)。Wl4PW2n為原始權(quán)重,此 時(shí),需要根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理,其中,當(dāng)修正趨勢為增 加時(shí),修正處理后的權(quán)重Wlk和W2k為:Wlk = Wln+Wln*n,W2k = W2n+W2n*n;當(dāng)修正趨勢為縮減 時(shí),修正處理后的權(quán)重Wlk和W2k為:Wlk=Wl n-Wln*n,W2k=W2n-W2n*n;其中:n為修正系數(shù)。根 據(jù)上述修正處理,Wl k和W2k為對(duì)詞類進(jìn)行權(quán)重修正后的權(quán)重。如公式6所示,用戶問句和標(biāo)準(zhǔn) 問或擴(kuò)展問的相似度可以利用各自轉(zhuǎn)化形成的向量在n維空間的向量夾角余弦來計(jì)算。
.公式6_;:
[0040] 用戶問句和知識(shí)點(diǎn)中問題的相似度可以用公式7計(jì)算。
[0041] Sim(d,D) =Max[Sim(d,diGD)]公式 7;
[0042] 其中,D為目標(biāo)文檔(知識(shí)庫^心為目標(biāo)文檔中的標(biāo)準(zhǔn)問、擴(kuò)展問或語義表達(dá)式展 開后的簡單模板。
[0043]需要說明的是,在本發(fā)明的其他實(shí)施例中,還可以采用其它方法計(jì)算相似度值,其 不限制本發(fā)明的保護(hù)范圍。
[0044]以下結(jié)合實(shí)例,對(duì)本發(fā)明實(shí)施例的上述技術(shù)方案進(jìn)行舉例說明。
[0045]需要說明的是,測試問是針對(duì)知識(shí)點(diǎn)編寫的一些測試樣例文本,主要用來進(jìn)行語 義正確性檢測。
[0046] 知識(shí)庫中有如下標(biāo)準(zhǔn)問和測試問:
[0047]標(biāo)準(zhǔn)問1:是否可以代辦信用卡
[0048] 擴(kuò)展問1:[他人|家屬|(zhì)代辦][信用卡][能否|是否]
[0049] 測試問1:能不能找他人幫忙辦理信用卡
[0050] 測試問2:能不能找其他人幫我辦張額度高點(diǎn)的信用卡 [0051]測試問3:是否可以找家屬幫我辦信用卡
[0052]其中,"家屬"是詞類:可以包括哥哥、姐姐、親人和父母等同義詞;"他人"是詞類, 可以包括其他人和他人等同義詞,"I"表示或者的關(guān)系。
[0053]標(biāo)準(zhǔn)問2:辦理高額度信用卡的條件
[0054]測試問4:辦一張額度高點(diǎn)的信用卡需要準(zhǔn)備什么
[0055]標(biāo)準(zhǔn)問3:代辦信用卡需要提供什么證件
[0056]測試問5:其他人幫忙辦理信用卡需要提供什么證件
[0057] 標(biāo)準(zhǔn)問4:林志玲姐姐好漂亮啊
[0058]從上面的4個(gè)標(biāo)準(zhǔn)問的例子可以看出。測試問1和測試問3中"他人"或"家屬"是一 個(gè)比較重要的詞,但是在第4個(gè)例子中,基本上可以忽略"姐姐"這個(gè)詞。從全局來講"他人" 或"家屬"這類詞都會(huì)是權(quán)重比較低的詞。例如,標(biāo)準(zhǔn)問1中的測試問2:能不能找其他人幫我 辦張額度高點(diǎn)的信用卡,里面的關(guān)鍵詞為:辦、額度、高、信用卡,直接會(huì)觸發(fā)到標(biāo)準(zhǔn)問題2。 若此時(shí)整體提高測試問2與標(biāo)準(zhǔn)問1的擴(kuò)展問1的相似度,那么標(biāo)準(zhǔn)問3及測試問5都會(huì)被擴(kuò) 展問1搶掉。
[0059 ]因此,根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,在標(biāo)準(zhǔn)問1和標(biāo)準(zhǔn)問3中"他人"和"家屬"這 類全局權(quán)重不能設(shè)置的較高,但是在特定句子中權(quán)重又確實(shí)比較高的詞類,也就是說,某些 詞或詞類從專業(yè)領(lǐng)域的角度來看并不重要,但是在某些句子中卻是非常重要的,此時(shí)可將 該詞或詞類在語義表達(dá)式中將其標(biāo)注為特定詞或詞類。在本實(shí)例中,可以在語義表達(dá)式: [他人I家屬I代辦][信用卡][能否I是否]中的[他人I家屬I代辦]上設(shè)置修正權(quán)重標(biāo)記*n, 表示該表達(dá)式中這類詞的重要程度。
[0060]綜上所述,通過在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原 始權(quán)重進(jìn)行修正處理,能夠提高計(jì)算相似度的準(zhǔn)確性,提高匹配成功率。
[0061 ]方法實(shí)施例二
[0062]根據(jù)本發(fā)明的實(shí)施例,提供了一種知識(shí)庫優(yōu)化方法,圖2是本發(fā)明實(shí)施例的知識(shí)庫 優(yōu)化方法的流程圖,如圖2所示,根據(jù)本發(fā)明實(shí)施例的知識(shí)庫優(yōu)化方法包括如下處理:
[0063] 步驟201,確定語義表達(dá)式中的特定詞類。
[0064]需要說明的是,在本發(fā)明實(shí)施例中,上述語義表達(dá)式設(shè)置于知識(shí)庫中,知識(shí)庫包括 多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表 達(dá)式,語義表達(dá)式包括詞類。
[0065]在步驟201中,優(yōu)選地,在本發(fā)明實(shí)施例中,特定詞類可以在建立知識(shí)庫之后,通過 分析錯(cuò)誤日志數(shù)據(jù)庫獲得。具體地,根據(jù)錯(cuò)誤日志數(shù)據(jù)庫,確定語義表達(dá)式中引起語義理解 錯(cuò)誤的詞類,并確定引起語義理解錯(cuò)誤的原因是否為所述詞類的權(quán)重設(shè)置不合理,如果判 斷為是,則確定所述詞類為所述特定詞類。
[0066] 在實(shí)際應(yīng)用中,也可以在建立知識(shí)庫時(shí)就確定該特定詞類。
[0067] 步驟202,對(duì)特定詞類添加修正權(quán)重標(biāo)記,修正權(quán)重標(biāo)記用于調(diào)整特定詞類在該語 義表達(dá)式中的重要程度。其中,修正權(quán)重標(biāo)記包括修正趨勢以及修正系數(shù),修正趨勢為增加 或縮減,修正系數(shù)大于0。
[0068] 在步驟202中,修正權(quán)重標(biāo)記可以通過以下方式確定:
[0069]提供一個(gè)或多個(gè)測試問;調(diào)整修正權(quán)重標(biāo)記直至通過語義相似度計(jì)算從知識(shí)庫中 為每個(gè)測試問提供正確的答案。
[0070] 此外,在確定修正權(quán)重標(biāo)記后,本發(fā)明實(shí)施例的技術(shù)方案還可以對(duì)帶有所述權(quán)重 標(biāo)記的語義表達(dá)式中的修正系數(shù)進(jìn)行調(diào)整。
[0071] 以下具體舉例三種確定(或調(diào)整)修正權(quán)重標(biāo)記的方式:
[0072] 方式一:在對(duì)詞類進(jìn)行權(quán)重計(jì)算的過程中,雖然某些詞類標(biāo)記了修正權(quán)重標(biāo)記,但 發(fā)現(xiàn)通過統(tǒng)計(jì)計(jì)算出的權(quán)重低于經(jīng)驗(yàn)閾值,那么就參照該問題中的其他詞的權(quán)重,對(duì)該詞 類的修正權(quán)重標(biāo)記進(jìn)行調(diào)整。例如,"彩鈴"在詞類中標(biāo)注了修正權(quán)重標(biāo)記,在領(lǐng)域知識(shí)較少 時(shí),往往統(tǒng)計(jì)出的權(quán)重就不能準(zhǔn)確反應(yīng)其重要程度或者反應(yīng)的重要程度不夠,這時(shí)可以通 過對(duì)比問句中其他非重點(diǎn)詞,若其值比其他非重點(diǎn)詞低且低于設(shè)定的閾值,那么可以將修 正權(quán)重標(biāo)記中的修正系數(shù)調(diào)整為問句中非重點(diǎn)詞的權(quán)重最大值乘以一個(gè)系數(shù)。
[0073]方式二:當(dāng)問句中僅包含唯一的重要詞性(例如名詞或動(dòng)詞)的詞,且通過統(tǒng)計(jì)計(jì) 算的權(quán)重較低,那么可以將該詞類的修正權(quán)重標(biāo)記中的修正系數(shù)乘以加權(quán)系數(shù)的方式予以 提尚。
[0074]方式三:通過簡單的句型分析(句子主干判斷),也可以將具有修正權(quán)重標(biāo)記的詞 或詞類的統(tǒng)計(jì)權(quán)重與句中的剩余詞的統(tǒng)計(jì)權(quán)重進(jìn)行對(duì)比,對(duì)修正權(quán)重標(biāo)記進(jìn)行一些適當(dāng)?shù)?修正處理。例如,"我想知道gprs是什么東西"這個(gè)句子,"grps是什么"具有修正權(quán)重標(biāo)記, 則可以對(duì)比句中非主干詞(如:"知道")的權(quán)重,對(duì)修正權(quán)重標(biāo)記進(jìn)行適當(dāng)?shù)男拚?br>[0075]綜上所述,借助于本發(fā)明實(shí)施例的技術(shù)方案,通過對(duì)特定詞類添加修正權(quán)重標(biāo)記, 能夠?qū)χR(shí)庫的結(jié)構(gòu)進(jìn)行優(yōu)化。
[0076] 裝置實(shí)施例一
[0077] 根據(jù)本發(fā)明的實(shí)施例,提供了一種智能知識(shí)庫,根據(jù)本發(fā)明實(shí)施例的智能知識(shí)庫 包括:包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采 用語義表達(dá)式,語義表達(dá)式包括詞類,至少部分詞類包括修正權(quán)重標(biāo)記,其中,修正權(quán)重標(biāo) 記包括修正趨勢以及修正系數(shù),修正趨勢為增加或縮減,修正系數(shù)大于0。
[0078] 知識(shí)庫中的知識(shí)點(diǎn)最原始和最簡單的形式就是平時(shí)常用的FAQ,一般的形式是 "問-答"對(duì),其中,該"問"就是標(biāo)準(zhǔn)問,該"答"就是答案。例如,"彩鈴的資費(fèi)"就是表達(dá)清晰 的標(biāo)準(zhǔn)問描述。知識(shí)庫里的每個(gè)知識(shí)點(diǎn)還可以有對(duì)應(yīng)于一個(gè)標(biāo)準(zhǔn)問的擴(kuò)展問,該擴(kuò)展問與 標(biāo)準(zhǔn)問表達(dá)形式略有差異,但是表達(dá)的含義相同。其中,知識(shí)點(diǎn)中的標(biāo)準(zhǔn)問和擴(kuò)展問可以采 用語義表達(dá)式進(jìn)行表達(dá)。
[0079] 語義表達(dá)式主要由詞、詞類以及他們的"或"關(guān)系構(gòu)成,其核心依賴于詞類,詞類即 為一組有共性的詞,為了區(qū)分語義表達(dá)式中的詞與詞類,在語義表達(dá)式中,詞類可以出現(xiàn)在 方括號(hào)"[]"中,需要說明的是,在本發(fā)明實(shí)施例中,方括號(hào)中出現(xiàn)的詞類一般為"狹義詞 類",在實(shí)際應(yīng)用中,也可通過配置系統(tǒng)參數(shù)以支持"廣義詞類"。此外,語義表達(dá)式與用戶問 句(即輸入信息)之間關(guān)系是通過量化的值即相似度來表示的。
[0080] 在本發(fā)明實(shí)施例中,至少部分詞類包括修正權(quán)重標(biāo)記,該修正權(quán)重標(biāo)記用于調(diào)整 所標(biāo)記的詞類在該語義表達(dá)式中的重要程度,優(yōu)選地,可以使用"*n"或"*rT"表示修正權(quán)重 標(biāo)記。具體地,在本發(fā)明實(shí)施例中,修正權(quán)重標(biāo)記包括修正趨勢以及修正系數(shù),修正趨勢為 增加或縮減,修正系數(shù)大于0。例如,"*rT"中的減號(hào)表示修正趨勢為縮減,而不帶有減號(hào)的 "*n"表示修正趨勢為增加,其中,n表示修正系數(shù),根據(jù)具體情況修正系數(shù)可以取不同的值, 如:10%、20%、50%、90%等。
[0081] 裝置實(shí)施例二
[0082]根據(jù)本發(fā)明的實(shí)施例,提供了一種智能問答裝置,圖3是本發(fā)明裝置實(shí)施例的智能 問答裝置的示意圖,如圖3所示,根據(jù)本發(fā)明實(shí)施例的智能問答方法裝置包括:知識(shí)庫模塊 30、以及處理模塊32,以下結(jié)合附圖,對(duì)本發(fā)明實(shí)施例的上述模塊進(jìn)行詳細(xì)說明。
[0083] 知識(shí)庫模塊30,用于提供知識(shí)庫,知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以 及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,語義表達(dá)式包括詞類;其中,至 少部分詞類包括修正權(quán)重標(biāo)記。
[0084] 知識(shí)庫中的知識(shí)點(diǎn)最原始和最簡單的形式就是平時(shí)常用的FAQ,一般的形式是 "問-答"對(duì),其中,該"問"就是標(biāo)準(zhǔn)問,該"答"就是答案。例如,"彩鈴的資費(fèi)"就是表達(dá)清晰 的標(biāo)準(zhǔn)問描述。知識(shí)庫里的每個(gè)知識(shí)點(diǎn)還可以有對(duì)應(yīng)于一個(gè)標(biāo)準(zhǔn)問的擴(kuò)展問,該擴(kuò)展問與 標(biāo)準(zhǔn)問表達(dá)形式略有差異,但是表達(dá)的含義相同。其中,知識(shí)點(diǎn)中的標(biāo)準(zhǔn)問和擴(kuò)展問可以采 用語義表達(dá)式進(jìn)行表達(dá)。
[0085]語義表達(dá)式主要由詞、詞類以及他們的"或"關(guān)系構(gòu)成,其核心依賴于詞類,詞類即 為一組有共性的詞,為了區(qū)分語義表達(dá)式中的詞與詞類,在語義表達(dá)式中,詞類可以出現(xiàn)在 方括號(hào)"[]"中。需要說明的是,在本發(fā)明實(shí)施例中,方括號(hào)中出現(xiàn)的詞類一般為"狹義詞 類",在實(shí)際應(yīng)用中,也可通過配置系統(tǒng)參數(shù)以支持"廣義詞類"。此外,語義表達(dá)式與用戶問 句(即輸入信息)之間關(guān)系是通過量化的值即相似度來表示的。
[0086]在本發(fā)明實(shí)施例中,至少部分詞類包括修正權(quán)重標(biāo)記,該修正權(quán)重標(biāo)記用于調(diào)整 所標(biāo)記的詞類在該語義表達(dá)式中的重要程度,優(yōu)選地,可以使用"*n"或"*rT"表示修正權(quán)重 標(biāo)記。具體地,在本發(fā)明實(shí)施例中,修正權(quán)重標(biāo)記包括修正趨勢以及修正系數(shù),修正趨勢為 增加或縮減,修正系數(shù)大于0。例如,"*rT"中的減號(hào)表示修正趨勢為縮減,而不帶有減號(hào)的 "*n"表示修正趨勢為增加,其中,n表示修正系數(shù)。
[0087]處理模塊32,用于獲取用戶的輸入信息,將輸入信息與知識(shí)點(diǎn)中的問題進(jìn)行語義 相似度計(jì)算,在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行 修正處理。當(dāng)計(jì)算得到的最大語義相似度值大于預(yù)設(shè)閾值時(shí),將最大語義相似度值對(duì)應(yīng)的 知識(shí)點(diǎn)中的答案發(fā)送給用戶。
[0088] 處理模塊32具體用于:
[0089] 通過以下方式對(duì)原始權(quán)重進(jìn)行計(jì)算:
[0090] 根據(jù)公式1計(jì)算特定詞或詞類的文檔頻率idf:
[0091] idf = l+log(N/(n+l))公式 1;
[0092] 其中,N為知識(shí)庫中的總知識(shí)點(diǎn)數(shù),n為特定詞或詞類出現(xiàn)的知識(shí)點(diǎn)數(shù);
[0093]根據(jù)公式2計(jì)算特定詞或詞類的詞頻tf:
[0094] tf = sqrt(n'/N')公式 2;
[0095] 其中,N'為特定詞或詞類所在知識(shí)點(diǎn)的詞以及詞類的總數(shù),n'為該知識(shí)點(diǎn)中出現(xiàn) 特定詞或詞類的數(shù);
[0096] 根據(jù)公式3計(jì)算特定詞或詞類的原始權(quán)重w:
[0097] w=idf*tf 公式 3。
[0098]處理模塊32需要根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理,其 中,當(dāng)修正趨勢為增加時(shí),修正處理后的權(quán)重w'為w' =w+w*n;當(dāng)修正趨勢為縮減時(shí),修正處 理后的權(quán)重w'為w' = w-w*n;其中:w為原始權(quán)重,n為修正系數(shù)。
[0099]具體地,處理模塊32在計(jì)算相似度時(shí),任一標(biāo)準(zhǔn)問或擴(kuò)展問可以描述為由組成標(biāo) 準(zhǔn)問或擴(kuò)展問的n個(gè)詞(或詞類)的權(quán)重構(gòu)成的n維向量d i = (W1 i,W12,…,W1 n);用戶問句可 以描述為由組成問句的詞的權(quán)重構(gòu)成的另一個(gè)n維向量d = (W2i,W22,…,W2n),Wl4PW2n為原 始權(quán)重,此時(shí),需要根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理,其中,當(dāng)修 正趨勢為增加時(shí),修正處理后的權(quán)重Wlk和W2k為:Wlk=Wl n+Wln*n,W2k=W2n+W2n*n;當(dāng)修正趨 勢為縮減時(shí),修正處理后的權(quán)重Wlk和W2k為:Wlk=Wl n-Wln*n,W2k=W2n-W2n*n;其中:n為修正 系數(shù)。根據(jù)上述修正處理,Wl k和W2k為對(duì)詞類進(jìn)行權(quán)重修正后的權(quán)重。如公式6所示,用戶問 句和標(biāo)準(zhǔn)問或擴(kuò)展問的相似度可以利用各自轉(zhuǎn)化形成的向量在n維空間的向量夾角余弦來 計(jì)算。
公式6:
[0101] 用戶問句和知識(shí)點(diǎn)中問題的相似度可以用公式7計(jì)算。
[0102] Sim(d,D) =Max[Sim(d,diGD)]公式 7;
[0103] 其中,D為目標(biāo)文檔(知識(shí)庫沁心為目標(biāo)文檔中的標(biāo)準(zhǔn)問、擴(kuò)展問或語義表達(dá)式展 開后的簡單模板。
[0104] 裝置實(shí)施例三
[0105] 根據(jù)本發(fā)明的實(shí)施例,提供了一種知識(shí)庫優(yōu)化裝置,圖4是本發(fā)明裝置實(shí)施例的知 識(shí)庫優(yōu)化裝置的示意圖,如圖4所示,根據(jù)本發(fā)明實(shí)施例的知識(shí)庫優(yōu)化裝置包括:確定模塊 40、以及添加模塊42,以下結(jié)合附圖,對(duì)本發(fā)明實(shí)施例的上述模塊進(jìn)行詳細(xì)說明。
[0106] 確定模塊40,用于確定語義表達(dá)式中的特定詞類。
[0107] 需要說明的是,在本發(fā)明實(shí)施例中,上述語義表達(dá)式設(shè)置于知識(shí)庫中,知識(shí)庫包括 多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表 達(dá)式,語義表達(dá)式包括詞類。
[0108] 優(yōu)選地,在本發(fā)明實(shí)施例中,特定詞類可以在建立知識(shí)庫之后,通過分析錯(cuò)誤日志 數(shù)據(jù)庫獲得。具體地,根據(jù)錯(cuò)誤日志數(shù)據(jù)庫,確定語義表達(dá)式中引起語義理解錯(cuò)誤的詞類, 并確定引起語義理解錯(cuò)誤的原因是否為所述詞類的權(quán)重設(shè)置不合理,如果判斷為是,則確 定所述詞類為所述特定詞類。
[0109] 在實(shí)際應(yīng)用中,也可以在建立知識(shí)庫時(shí)就確定該特定詞類。
[0110] 添加模塊42,用于對(duì)特定詞類添加修正權(quán)重標(biāo)記,修正權(quán)重標(biāo)記用于調(diào)整特定詞 類在該語義表達(dá)式中的重要程度。其中,修正權(quán)重標(biāo)記包括修正趨勢以及修正系數(shù),修正趨 勢為增加或縮減,修正系數(shù)大于0。特定詞類通過分析錯(cuò)誤日志數(shù)據(jù)庫獲得。
[0111] 添加模塊42還用于:通過以下方式可以確定修正權(quán)重標(biāo)記:
[0112] 提供一個(gè)或多個(gè)測試問;調(diào)整修正權(quán)重標(biāo)記直至通過語義相似度計(jì)算從知識(shí)庫中 為每個(gè)測試問提供正確的答案。
[0113]此外,在確定修正權(quán)重標(biāo)記后,本發(fā)明實(shí)施例的技術(shù)方案還可以對(duì)帶有所述權(quán)重 標(biāo)記的語義表達(dá)式中的修正系數(shù)進(jìn)行調(diào)整。
[0114] 以下具體舉例三種添加模塊42確定(或調(diào)整)修正權(quán)重標(biāo)記的方式:
[0115] 方式一:在對(duì)詞類進(jìn)行權(quán)重計(jì)算的過程中,雖然某些詞類標(biāo)記了修正權(quán)重標(biāo)記,但 發(fā)現(xiàn)通過統(tǒng)計(jì)計(jì)算出的權(quán)重低于經(jīng)驗(yàn)閾值,那么就參照該問題中的其他詞的權(quán)重,對(duì)該詞 類的修正權(quán)重標(biāo)記進(jìn)行調(diào)整。例如,"彩鈴"在詞類中標(biāo)注了修正權(quán)重標(biāo)記,在領(lǐng)域知識(shí)較少 時(shí),往往統(tǒng)計(jì)出的權(quán)重就不能準(zhǔn)確反應(yīng)其重要程度或者反應(yīng)的重要程度不夠,這時(shí)可以通 過對(duì)比問句中其他非重點(diǎn)詞,若其值比其他非重點(diǎn)詞低且低于設(shè)定的閾值,那么可以將修 正權(quán)重標(biāo)記中的修正系數(shù)調(diào)整為問句中非重點(diǎn)詞的權(quán)重最大值乘以一個(gè)系數(shù)。
[0116] 方式二:當(dāng)問句中僅包含唯一的重要詞性(例如名詞或動(dòng)詞)的詞,且通過統(tǒng)計(jì)計(jì) 算的權(quán)重較低,那么可以將該詞類的修正權(quán)重標(biāo)記中的修正系數(shù)乘以加權(quán)系數(shù)的方式予以 提尚。
[0117] 方式三:通過簡單的句型分析(句子主干判斷),也可以將具有修正權(quán)重標(biāo)記的詞 或詞類的統(tǒng)計(jì)權(quán)重與句中的剩余詞的統(tǒng)計(jì)權(quán)重進(jìn)行對(duì)比,對(duì)修正權(quán)重標(biāo)記進(jìn)行一些適當(dāng)?shù)?修正處理。例如,"我想知道gprs是什么東西"這個(gè)句子,"grps是什么"具有修正權(quán)重標(biāo)記, 則可以對(duì)比句中非主干詞(如:"知道")的權(quán)重,對(duì)修正權(quán)重標(biāo)記進(jìn)行適當(dāng)?shù)男拚?br>[0118] 綜上所述,借助于本發(fā)明實(shí)施例的技術(shù)方案,通過對(duì)特定詞類添加修正權(quán)重標(biāo)記, 在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理,解 決了現(xiàn)有技術(shù)中在計(jì)算相似度時(shí)沒有考慮詞類在某些語義表達(dá)式中需要較高的權(quán)重從而 導(dǎo)致相似度計(jì)算不準(zhǔn)確的問題,能夠優(yōu)化知識(shí)庫的結(jié)構(gòu),提高計(jì)算相似度的準(zhǔn)確性,提高匹 配成功率。
[0119] 顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
[0120]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此, 遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身 都作為本發(fā)明的單獨(dú)實(shí)施例。
[0121]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用 微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的加載有排序網(wǎng)址的客戶端 中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的 方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣 的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形 式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形 式提供。
【主權(quán)項(xiàng)】
1. 一種智能問答方法,包括:提供知識(shí)庫,所述知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包 括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,所述語義表達(dá)式包括 詞類;獲取用戶的輸入信息;將所述輸入信息與所述知識(shí)點(diǎn)中的問題進(jìn)行語義相似度計(jì)算, 當(dāng)計(jì)算得到的最大語義相似度值大于預(yù)設(shè)閾值時(shí),將所述最大語義相似度值對(duì)應(yīng)的知識(shí)點(diǎn) 中的答案發(fā)送給用戶,其特征在于,至少部分詞類包括修正權(quán)重標(biāo)記,在進(jìn)行語義相似度計(jì) 算時(shí),根據(jù)所述修正權(quán)重標(biāo)記對(duì)對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理。2. 如權(quán)利要求1所述的方法,其特征在于,所述修正權(quán)重標(biāo)記包括修正趨勢以及修正系 數(shù),所述修正趨勢為增加或縮減,所述修正系數(shù)大于〇。3. 如權(quán)利要求2所述的方法,其特征在于,所述原始權(quán)重通過以下方式進(jìn)行計(jì)算: 根據(jù)公式1計(jì)算特定詞或詞類的文檔頻率idf: idf =l+log(N/ (n+1))公式 I; 其中,N為知識(shí)庫中的總知識(shí)點(diǎn)數(shù),η為特定詞或詞類出現(xiàn)的知識(shí)點(diǎn)數(shù); 根據(jù)公式2計(jì)算特定詞或詞類的詞頻tf: tf = sqrt(n'/Ν')公式2; 其中,Ν'為特定詞或詞類所在知識(shí)點(diǎn)的詞以及詞類的總數(shù),η'為該知識(shí)點(diǎn)中出現(xiàn)特定 詞或詞類的數(shù); 根據(jù)公式3計(jì)算特定詞或詞類的原始權(quán)重w: W= idf*tf 公式 3; 當(dāng)修正趨勢為增加時(shí),根據(jù)公式4確定修正處理后的權(quán)重w',當(dāng)修正趨勢為縮減時(shí),根 據(jù)公式5確定修正處理后的權(quán)重w' ; w'=w+w*n 公式 4; w'=w_w*n 公式 5; 其中:w為原始權(quán)重,η為修正系數(shù)。4. 一種知識(shí)庫優(yōu)化方法,所述知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè) 或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,所述語義表達(dá)式包括詞類,其特征在 于,所述方法包括: 確定所述語義表達(dá)式中的特定詞類; 對(duì)所述特定詞類添加修正權(quán)重標(biāo)記,所述修正權(quán)重標(biāo)記用于調(diào)整所述特定詞類在該語 義表達(dá)式中的重要程度。5. 如權(quán)利要求4所述的方法,其特征在于,所述修正權(quán)重標(biāo)記包括修正趨勢以及修正系 數(shù),所述修正趨勢為增加或縮減,所述修正系數(shù)大于〇。6. 如權(quán)利要求4所述的方法,其特征在于,所述特定詞類通過分析錯(cuò)誤日志數(shù)據(jù)庫獲 得。7. 如權(quán)利要求4所述的方法,其特征在于,所述修正權(quán)重標(biāo)記通過以下方式確定: 提供一個(gè)或多個(gè)測試問; 調(diào)整所述修正權(quán)重標(biāo)記直至通過語義相似度計(jì)算從所述知識(shí)庫中為每個(gè)所述測試問 提供正確的答案。8. -種智能知識(shí)庫,其特征在于,所述知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以 及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,所述語義表達(dá)式包括詞類,至少 部分詞類包括修正權(quán)重標(biāo)記。9. 如權(quán)利要求8所述的智能知識(shí)庫,其特征在于,所述修正權(quán)重標(biāo)記包括修正趨勢以及 修正系數(shù),所述修正趨勢為增加或縮減,所述修正系數(shù)大于O。10. -種智能問答裝置,包括:知識(shí)庫模塊,用于提供知識(shí)庫,所述知識(shí)庫包括多個(gè)知識(shí) 點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè)或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,所述 語義表達(dá)式包括詞類;處理模塊,用于獲取用戶的輸入信息;將所述輸入信息與所述知識(shí)點(diǎn) 中的問題進(jìn)行語義相似度計(jì)算,當(dāng)計(jì)算得到的最大語義相似度值大于預(yù)設(shè)閾值時(shí),將所述 最大語義相似度值對(duì)應(yīng)的知識(shí)點(diǎn)中的答案發(fā)送給用戶,其特征在于,至少部分詞類包括修 正權(quán)重標(biāo)記;所述處理模塊具體用于:在進(jìn)行語義相似度計(jì)算時(shí),根據(jù)所述修正權(quán)重標(biāo)記對(duì) 對(duì)應(yīng)的詞類的原始權(quán)重進(jìn)行修正處理。11. 如權(quán)利要求10所述的裝置,其特征在于,所述修正權(quán)重標(biāo)記包括修正趨勢以及修正 系數(shù),所述修正趨勢為增加或縮減,所述修正系數(shù)大于〇。12. 如權(quán)利要求11所述的裝置,其特征在于, 所述處理模塊具體用于: 通過以下方式對(duì)所述原始權(quán)重進(jìn)行計(jì)算: 根據(jù)公式1計(jì)算特定詞或詞類的文檔頻率idf: idf =l+log(N/ (n+1))公式 I; 其中,N為知識(shí)庫中的總知識(shí)點(diǎn)數(shù),η為特定詞或詞類出現(xiàn)的知識(shí)點(diǎn)數(shù); 根據(jù)公式2計(jì)算特定詞或詞類的詞頻tf: tf = sqrt(n'/Ν')公式2; 其中,Ν'為特定詞或詞類所在知識(shí)點(diǎn)的詞以及詞類的總數(shù),η'為該知識(shí)點(diǎn)中出現(xiàn)特定 詞或詞類的數(shù); 根據(jù)公式3計(jì)算特定詞或詞類的原始權(quán)重w: W= idf*tf 公式 3; 所述處理模塊進(jìn)一步用于: 通過以下方式對(duì)所述原始權(quán)重進(jìn)行修正: 當(dāng)修正趨勢為增加時(shí),根據(jù)公式4確定修正處理后的權(quán)重w',當(dāng)修正趨勢為縮減時(shí),根 據(jù)公式5確定修正處理后的權(quán)重w' ; w'=w+w*n 公式 4; w'=w_w*n 公式 5; 其中:w為原始權(quán)重,η為修正系數(shù)。13. -種知識(shí)庫優(yōu)化裝置,所述知識(shí)庫包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案以及一個(gè) 或多個(gè)問題,至少部分?jǐn)?shù)目的問題采用語義表達(dá)式,所述語義表達(dá)式包括詞類,其特征在 于,所述裝置具體包括: 確定模塊,用于確定所述語義表達(dá)式中的特定詞類; 添加模塊,用于對(duì)所述特定詞類添加修正權(quán)重標(biāo)記,所述修正權(quán)重標(biāo)記用于調(diào)整所述 特定詞類在該語義表達(dá)式中的重要程度。14. 如權(quán)利要求13所述的裝置,其特征在于,所述修正權(quán)重標(biāo)記包括修正趨勢以及修正 系數(shù),所述修正趨勢為增加或縮減,所述修正系數(shù)大于〇。15. 如權(quán)利要求13所述的裝置,其特征在于,所述特定詞類通過分析錯(cuò)誤日志數(shù)據(jù)庫獲 得。16. 如權(quán)利要求13所述的裝置,其特征在于,所述添加模塊還用于: 通過以下方式確定所述修正權(quán)重標(biāo)記: 提供一個(gè)或多個(gè)測試問; 調(diào)整所述修正權(quán)重標(biāo)記直至通過語義相似度計(jì)算從所述知識(shí)庫中為每個(gè)所述測試問 提供正確的答案。
【文檔編號(hào)】G06F17/30GK105893476SQ201610186030
【公開日】2016年8月24日
【申請(qǐng)日】2016年3月29日
【發(fā)明人】曾永梅, 李波, 朱頻頻
【申請(qǐng)人】上海智臻智能網(wǎng)絡(luò)科技股份有限公司