本發(fā)明涉及人工智能技術(shù)領(lǐng)域,具體涉及一種數(shù)據(jù)庫(kù)維護(hù)方法和裝置。
背景技術(shù):
隨著人工智能技術(shù)的不斷發(fā)展以及人們對(duì)于交互體驗(yàn)要求的不斷提高,智能交互方式已逐漸開(kāi)始替代一些傳統(tǒng)的人機(jī)交互方式,并且已成為一個(gè)研究熱點(diǎn)。智能交互方式一般是基于一個(gè)數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)的,該數(shù)據(jù)庫(kù)包括多個(gè)標(biāo)準(zhǔn)問(wèn)句和多個(gè)擴(kuò)展問(wèn)句集,其中每個(gè)標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)一個(gè)擴(kuò)展問(wèn)句集,基于該數(shù)據(jù)庫(kù)來(lái)分析識(shí)別用戶所發(fā)出的用戶消息并將對(duì)應(yīng)的應(yīng)答信息反饋給用戶。因此,作為智能交互的數(shù)據(jù)基礎(chǔ),該數(shù)據(jù)庫(kù)需要不斷的維護(hù)以更新其中的數(shù)據(jù)來(lái)實(shí)現(xiàn)更加智能更加精準(zhǔn)的交互體驗(yàn)。然而在現(xiàn)有技術(shù)中,該用于智能交互的數(shù)據(jù)庫(kù)的維護(hù)過(guò)程卻仍需要通過(guò)人工完成。例如,在智能客服交互場(chǎng)景下,就需要客服人員憑借工作經(jīng)驗(yàn),手工導(dǎo)入人工客服問(wèn)答數(shù)據(jù)來(lái)維護(hù)該用于智能客戶交互的數(shù)據(jù)庫(kù),這顯然效率極低。而若數(shù)據(jù)庫(kù)中的數(shù)據(jù)維護(hù)不夠及時(shí),則勢(shì)必會(huì)導(dǎo)致智能交互體驗(yàn)的下降。由此可見(jiàn),急需一種高效的數(shù)據(jù)庫(kù)維護(hù)方式。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)庫(kù)維護(hù)方法和裝置,解決了現(xiàn)有技術(shù)中數(shù)據(jù)庫(kù)維護(hù)方式的效率低的問(wèn)題。
本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法,所述數(shù)據(jù)庫(kù)包括多個(gè)標(biāo)準(zhǔn)問(wèn)句和多個(gè)擴(kuò)展問(wèn)句集,其中每個(gè)所述標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)一個(gè)所述擴(kuò)展問(wèn)句集,該方法包括:
將待入庫(kù)數(shù)據(jù)輸入標(biāo)準(zhǔn)分類(lèi)模型以獲得匹配的標(biāo)準(zhǔn)問(wèn)句,其中所述標(biāo)準(zhǔn)分類(lèi)模型基于多個(gè)自然語(yǔ)言語(yǔ)句和與所述多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句而建立;以及
將所述待入庫(kù)數(shù)據(jù)存入數(shù)據(jù)庫(kù)中與所述匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)的擴(kuò)展問(wèn)句集。
本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)裝置,所述數(shù)據(jù)庫(kù)包括多個(gè)標(biāo)準(zhǔn)問(wèn)句和多個(gè)擴(kuò)展問(wèn)句集,其中每個(gè)所述標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)一個(gè)所述擴(kuò)展問(wèn)句集,該裝置包括:
標(biāo)準(zhǔn)分類(lèi)模型,基于多個(gè)自然語(yǔ)言語(yǔ)句和與所述多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句而建立;
標(biāo)準(zhǔn)問(wèn)句獲取模塊,配置為將待入庫(kù)數(shù)據(jù)輸入所述標(biāo)準(zhǔn)分類(lèi)模型以獲得匹配的標(biāo)準(zhǔn)問(wèn)句;以及
處理模塊,配置為將所述待入庫(kù)數(shù)據(jù)存入數(shù)據(jù)庫(kù)中與所述匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)的擴(kuò)展問(wèn)句集。
本發(fā)明實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法和裝置,通過(guò)建立標(biāo)準(zhǔn)分類(lèi)模型來(lái)獲取與待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句,并將待入庫(kù)數(shù)據(jù)存入所匹配的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句集,避免了以人工的方式來(lái)維護(hù)數(shù)據(jù)庫(kù),提高了數(shù)據(jù)庫(kù)維護(hù)的效率。同時(shí),由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)能夠得到及時(shí)的自動(dòng)維護(hù)更新,也提升了用戶的智能交互體驗(yàn)。
附圖說(shuō)明
圖1所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法的流程示意圖。
圖2所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中標(biāo)準(zhǔn)分類(lèi)模型的建立過(guò)程的流程示意圖。
圖3所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中標(biāo)準(zhǔn)分類(lèi)模型輸出與一個(gè)輸入的待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句的流程示意圖。
圖4所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中的語(yǔ)義相似度計(jì)算的聚類(lèi)方式的流程示意圖。
圖5所示為本發(fā)明另一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式的流程示意圖。
圖6所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中獲得與一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句的流程示意圖。
圖7所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中獲取并存儲(chǔ)與一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的答案的流程示意圖。
圖8所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)裝置的結(jié)構(gòu)示意圖。
圖9所示為本發(fā)明另一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法的流程示意圖。所維護(hù)的數(shù)據(jù)庫(kù)包括多個(gè)標(biāo)準(zhǔn)問(wèn)句和多個(gè)擴(kuò)展問(wèn)句集,其中每個(gè)標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)一個(gè)擴(kuò)展問(wèn)句集。每個(gè)標(biāo)準(zhǔn)問(wèn)句代表一定語(yǔ)義內(nèi)容的標(biāo)準(zhǔn)表述方式,為所對(duì)應(yīng)擴(kuò)展問(wèn)句集中擴(kuò)展問(wèn)句的擴(kuò)展基礎(chǔ),可由業(yè)務(wù)專家根據(jù)實(shí)際的工作經(jīng)驗(yàn)預(yù)設(shè)在數(shù)據(jù)庫(kù)中;與標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)的擴(kuò)展問(wèn)句集中可以直接包括具體的擴(kuò)展問(wèn)句,也可以包括用于展開(kāi)成擴(kuò)展問(wèn)句的抽象語(yǔ)義表達(dá)式。如圖1所示,該方法包括:
步驟101:將待入庫(kù)數(shù)據(jù)輸入標(biāo)準(zhǔn)分類(lèi)模型以獲得匹配的標(biāo)準(zhǔn)問(wèn)句,其中標(biāo)準(zhǔn)分類(lèi)模型基于多個(gè)自然語(yǔ)言語(yǔ)句和與該多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句而建立。
待入庫(kù)數(shù)據(jù)為準(zhǔn)備要更新入數(shù)據(jù)庫(kù)的數(shù)據(jù),待入庫(kù)數(shù)據(jù)待錄入作為數(shù)據(jù)庫(kù)中擴(kuò)展問(wèn)句集中的語(yǔ)句,例如當(dāng)該數(shù)據(jù)庫(kù)為用于智能客服交互的數(shù)據(jù)庫(kù)時(shí),該待入庫(kù)數(shù)據(jù)就可為一些人工客服交互數(shù)據(jù)中的請(qǐng)求(輸入)數(shù)據(jù)。通過(guò)將這些人工客服交互數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展數(shù)據(jù)集中,以實(shí)現(xiàn)更加智能更加精準(zhǔn)的交互體驗(yàn)。
標(biāo)準(zhǔn)分類(lèi)模型為一種根據(jù)輸入的待入庫(kù)數(shù)據(jù)而輸出匹配的標(biāo)準(zhǔn)問(wèn)句的模型工具。該標(biāo)準(zhǔn)分類(lèi)模型要依據(jù)多個(gè)自然語(yǔ)言語(yǔ)句和與該多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句而建立。
在本發(fā)明一實(shí)施例中,由于數(shù)據(jù)庫(kù)中已經(jīng)存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)問(wèn)句以及與該多個(gè)標(biāo)準(zhǔn)問(wèn)句分別對(duì)應(yīng)的多個(gè)擴(kuò)展問(wèn)句集,因此標(biāo)準(zhǔn)分類(lèi)模型可以是直接根據(jù)這些已存儲(chǔ)的標(biāo)準(zhǔn)問(wèn)句和擴(kuò)展問(wèn)句集中的擴(kuò)展問(wèn)句而建立。此時(shí)用于建立標(biāo)準(zhǔn)分類(lèi)模型的自然語(yǔ)言語(yǔ)句就可為與標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)的擴(kuò)展問(wèn)句集中的擴(kuò)展問(wèn)句。利用該標(biāo)準(zhǔn)分類(lèi)模型便可在后續(xù)的過(guò)程中根據(jù)輸入的待入庫(kù)數(shù)據(jù)來(lái)輸出與待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句。
在本發(fā)明另一實(shí)施例中,與自然語(yǔ)言語(yǔ)句對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句是要通過(guò)一個(gè)基于數(shù)據(jù)庫(kù)的問(wèn)答模塊而獲取的。此時(shí)就要先向該基于數(shù)據(jù)庫(kù)的問(wèn)答模塊中輸入多個(gè)自然語(yǔ)言問(wèn)句,通過(guò)該問(wèn)答模塊進(jìn)行語(yǔ)義匹配以得到數(shù)據(jù)庫(kù)中匹配的標(biāo)準(zhǔn)問(wèn)句作為該多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句。然后再根據(jù)這些自然語(yǔ)言語(yǔ)句和對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句來(lái)建立該標(biāo)準(zhǔn)分類(lèi)模型,后續(xù)利用該標(biāo)準(zhǔn)分類(lèi)模型便可根據(jù)輸入的待入庫(kù)數(shù)據(jù)來(lái)輸出與待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句。在本發(fā)明一實(shí)施例中,自然語(yǔ)言語(yǔ)句對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句也可以通過(guò)問(wèn)答模塊的歷史已答數(shù)據(jù)中直接獲取,此時(shí)就不用重復(fù)執(zhí)行該語(yǔ)義匹配過(guò)程了
該基于數(shù)據(jù)庫(kù)的問(wèn)答模塊的語(yǔ)義匹配過(guò)程可通過(guò)語(yǔ)義相似度的計(jì)算過(guò)程實(shí)現(xiàn)。通過(guò)計(jì)算當(dāng)前自然語(yǔ)言語(yǔ)句與多個(gè)預(yù)設(shè)的擴(kuò)展問(wèn)句集之間的相似度,然后將相似度最高的擴(kuò)展問(wèn)句集所對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句作為匹配的標(biāo)準(zhǔn)問(wèn)句。相似度計(jì)算過(guò)程可采用如下計(jì)算方法中的一種或多種:編輯距離計(jì)算方法,n-gram計(jì)算方法,JaroWinkler計(jì)算方法以及Soundex計(jì)算方法。
在本發(fā)明一實(shí)施例中,擴(kuò)展問(wèn)句集可采用語(yǔ)義模板的形式,語(yǔ)義模板可為表示某一種語(yǔ)義內(nèi)容的一個(gè)或多個(gè)抽象語(yǔ)義表達(dá)式的集合,由開(kāi)發(fā)人員根據(jù)預(yù)定的規(guī)則結(jié)合語(yǔ)義內(nèi)容生成,即通過(guò)一個(gè)語(yǔ)義模板就可描述一個(gè)標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)語(yǔ)義內(nèi)容的多種不同表達(dá)方式的語(yǔ)句,以應(yīng)對(duì)當(dāng)前自然語(yǔ)言語(yǔ)句可能的多種變形。這樣將自然語(yǔ)言語(yǔ)句的文本內(nèi)容與預(yù)設(shè)的語(yǔ)義模板進(jìn)行匹配,避免了利用僅能描述一種表達(dá)方式的“標(biāo)準(zhǔn)問(wèn)”來(lái)識(shí)別用戶消息時(shí)的局限性。
每一個(gè)抽象語(yǔ)義表達(dá)式主要可包括語(yǔ)義成分詞和語(yǔ)義規(guī)則詞。語(yǔ)義成分詞由語(yǔ)義成分符表示,當(dāng)這些語(yǔ)義成分符被填充了相應(yīng)的值(即內(nèi)容)后可以表達(dá)各式各樣的具體語(yǔ)義。
抽象語(yǔ)義的語(yǔ)義成分符可包括:
[concept]:表示主體或客體成份的詞或短語(yǔ)。
比如:“彩鈴如何開(kāi)通”中的“彩鈴”。
[action]:表示動(dòng)作成分的詞或短語(yǔ)。
比如:“信用卡如何辦理”中的“辦理”。
[attribute]:表示屬性成份的詞或短語(yǔ)。
比如:“iphone有哪些顏色”中的“顏色”。
[adjective]:表示修飾成分的詞或短語(yǔ)。
比如:“冰箱哪個(gè)品牌便宜”中的“便宜”。
一些主要的抽象語(yǔ)義類(lèi)別示例有:
概念說(shuō)明[concept]是什么
屬性構(gòu)成[concept]有哪些[attribute]
行為方式[concept]如何[action]
行為地點(diǎn)[concept]在什么地方[action]
行為原因[concept]為什么會(huì)[action]
行為預(yù)測(cè)[concept]會(huì)不會(huì)[action]
行為判斷[concept]有沒(méi)有[attribute]
屬性狀況[concept]的[attribute]是不是[adjective]
屬性判斷[concept]是不是有[attribute]
屬性原因[concept]的[attribute]為什么這么[adjective]
概念比較[concept1]和[concept2]的區(qū)別在哪里
屬性比較[concept1]和[concept2]的[attribute]有什么不同之處
問(wèn)句在抽象語(yǔ)義層面的成份判斷可以通過(guò)詞性標(biāo)注來(lái)做一般的評(píng)判,concept對(duì)應(yīng)的詞性為名詞、action對(duì)應(yīng)的詞性為動(dòng)詞、attribute對(duì)應(yīng)的詞性為名詞、adjective對(duì)應(yīng)的是形容詞。
以類(lèi)別為“行為方式”的抽象語(yǔ)義[concept]如何[action]為例,該類(lèi)別的抽象語(yǔ)義集合下可包括多條抽象語(yǔ)義表達(dá)式:
抽象語(yǔ)義類(lèi)別:行為方式
抽象語(yǔ)義表達(dá)式:
a.[concept][需要|應(yīng)該?][如何]<才[可以]?><進(jìn)行?>[action]
b.{[concept]~[action]}
c.[concept]<的?>[action]<方法|方式|步驟?>
d.<有哪些|有什么|有沒(méi)有><通過(guò)|用|在>[concept][action]<的?>[方法]
e.[如何][action]~[concept]
上述a、b、c、d四個(gè)抽象語(yǔ)義表達(dá)式都是用來(lái)描述“行為方式”這一抽象語(yǔ)義類(lèi)別的。語(yǔ)義符號(hào)“|”表示“或”關(guān)系,語(yǔ)義符號(hào)“?”表示該成分可有可無(wú)。
應(yīng)當(dāng)理解,雖然上面給出了一些語(yǔ)義成分詞、語(yǔ)義規(guī)則詞和語(yǔ)義符號(hào)的示例,但語(yǔ)義成分詞的具體內(nèi)容和詞類(lèi),語(yǔ)義規(guī)則詞的具體內(nèi)容和詞類(lèi)以及語(yǔ)義符號(hào)的定義和搭配都可由開(kāi)發(fā)人員根據(jù)實(shí)際的智能交互業(yè)務(wù)場(chǎng)景而預(yù)設(shè),本發(fā)明對(duì)此并不做限定。
在本發(fā)明一實(shí)施例中,如前所述,抽象語(yǔ)義表達(dá)式可由語(yǔ)義成分詞和語(yǔ)義規(guī)則詞構(gòu)成,而這些語(yǔ)義成分詞和語(yǔ)義規(guī)則詞又與這些詞語(yǔ)在抽象語(yǔ)義表達(dá)式中的詞性以及詞語(yǔ)之間的語(yǔ)法關(guān)系有關(guān),因此該相似度計(jì)算過(guò)程可具體為:先識(shí)別出當(dāng)前自然語(yǔ)言語(yǔ)句中的詞語(yǔ)、詞語(yǔ)的詞性以及語(yǔ)法關(guān)系,然后根據(jù)詞語(yǔ)的詞性以及語(yǔ)法關(guān)系識(shí)別出其中的語(yǔ)義成分詞和語(yǔ)義規(guī)則詞,再將所識(shí)別出的語(yǔ)義成分詞和語(yǔ)義規(guī)則詞引入向量空間模型以計(jì)算當(dāng)前自然語(yǔ)言語(yǔ)句與多個(gè)預(yù)設(shè)的語(yǔ)義模板之間的多個(gè)相似度。在本發(fā)明一實(shí)施例中,可以如下分詞方法中的一種或多種識(shí)別當(dāng)前自然語(yǔ)言語(yǔ)句中的詞語(yǔ)、詞語(yǔ)的詞性以及詞語(yǔ)之間的語(yǔ)法關(guān)系:隱馬爾可夫模型方法、正向最大匹配方法、逆向最大匹配方法以及命名實(shí)體識(shí)別方法。
在本發(fā)明一實(shí)施例中,如前所述,擴(kuò)展問(wèn)句集所采用的語(yǔ)義模板可為表示某一種語(yǔ)義內(nèi)容的多個(gè)抽象語(yǔ)義表達(dá)式的集合,此時(shí)通過(guò)一個(gè)擴(kuò)展問(wèn)句集就可描述所對(duì)應(yīng)語(yǔ)義內(nèi)容的多種不同表達(dá)方式的語(yǔ)句,以對(duì)應(yīng)同一標(biāo)準(zhǔn)問(wèn)句的多個(gè)擴(kuò)展問(wèn)句。因此在計(jì)算當(dāng)前自然語(yǔ)言語(yǔ)句與預(yù)設(shè)的擴(kuò)展問(wèn)句集之間的語(yǔ)義相似度時(shí),需要計(jì)算當(dāng)前自然語(yǔ)言語(yǔ)句與多個(gè)預(yù)設(shè)的語(yǔ)義模板各自展開(kāi)的至少一個(gè)抽象語(yǔ)義表達(dá)式或擴(kuò)展問(wèn)句之間的相似度,然后將相似度最高的抽象語(yǔ)義表達(dá)式或擴(kuò)展問(wèn)句所對(duì)應(yīng)的擴(kuò)展問(wèn)句集作為匹配的擴(kuò)展問(wèn)句集,并將該匹配的擴(kuò)展問(wèn)句集對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句作為與當(dāng)前自然語(yǔ)言語(yǔ)句對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句。這些展開(kāi)的擴(kuò)展問(wèn)句可根據(jù)擴(kuò)展問(wèn)句集所包括的語(yǔ)義成分詞和/或語(yǔ)義規(guī)則詞和/或語(yǔ)義符號(hào)而獲得。
應(yīng)當(dāng)理解,用于建立標(biāo)準(zhǔn)分類(lèi)模型的多個(gè)自然語(yǔ)言語(yǔ)句和與該多個(gè)自然語(yǔ)言語(yǔ)句中每個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句也可通過(guò)其他方式獲取,例如由業(yè)務(wù)專家根據(jù)實(shí)際的工作經(jīng)驗(yàn)人工預(yù)設(shè)與每個(gè)標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)的自然語(yǔ)言語(yǔ)句,本發(fā)明對(duì)這些自然語(yǔ)言語(yǔ)句和標(biāo)準(zhǔn)問(wèn)句的獲取方式并不做限定。
在本發(fā)明一實(shí)施例中,如圖2所示,基于多個(gè)自然語(yǔ)言語(yǔ)句和與該多個(gè)自然語(yǔ)言語(yǔ)句中每個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句,標(biāo)準(zhǔn)分類(lèi)模型的建立過(guò)程可包括如下步驟:
步驟201:將多個(gè)自然語(yǔ)言語(yǔ)句和與該多個(gè)自然語(yǔ)言語(yǔ)句中每個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句分別進(jìn)行分詞處理以得到多個(gè)分詞向量。
當(dāng)對(duì)一個(gè)自然語(yǔ)言語(yǔ)句或標(biāo)準(zhǔn)問(wèn)句進(jìn)行分詞處理后可得到的多個(gè)特征詞,該多個(gè)特征詞為該自然語(yǔ)言語(yǔ)句或標(biāo)準(zhǔn)問(wèn)句的分詞向量中的多個(gè)參數(shù)。即,在經(jīng)過(guò)分詞處理后,每個(gè)自然語(yǔ)言語(yǔ)句或標(biāo)準(zhǔn)問(wèn)句各自對(duì)應(yīng)一個(gè)分詞向量,該分詞向量的參數(shù)由該自然語(yǔ)言語(yǔ)句或標(biāo)準(zhǔn)問(wèn)句中的特征詞構(gòu)成。分詞處理可以采用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種進(jìn)行。
步驟202:將多個(gè)分詞向量輸入分類(lèi)器中進(jìn)行訓(xùn)練以建立標(biāo)準(zhǔn)分類(lèi)模型,其中,標(biāo)準(zhǔn)分類(lèi)模型所對(duì)應(yīng)的向量空間包括至少一個(gè)分類(lèi)超平面分割該向量空間得到的多個(gè)空間區(qū)域,其中每個(gè)空間區(qū)域?qū)?yīng)一個(gè)標(biāo)準(zhǔn)問(wèn)句。
分類(lèi)器可包括以下幾項(xiàng)中的一種或多種的組合:libshorttext分類(lèi)器、LR分類(lèi)器、SVM分類(lèi)器和fastText分類(lèi)器。
基于以上方式所建立的標(biāo)準(zhǔn)分類(lèi)模型可通過(guò)如下步驟輸出與一個(gè)輸入的待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句,如圖3所示:
步驟1011:將輸入的待入庫(kù)數(shù)據(jù)進(jìn)行分詞處理以得到對(duì)應(yīng)的分詞向量。將輸入的待入庫(kù)數(shù)據(jù)進(jìn)行分詞處理并向量化,以引入標(biāo)準(zhǔn)分類(lèi)模型所對(duì)應(yīng)的向量空間。
步驟1012:計(jì)算對(duì)應(yīng)的分詞向量落入了向量空間的哪一個(gè)空間區(qū)域。
步驟1013:將分詞向量所落入的空間區(qū)域所對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句作為與輸入的待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句輸出。
在標(biāo)準(zhǔn)分類(lèi)模型所對(duì)應(yīng)的向量空間中,分類(lèi)超平面將該向量空間分割成了多個(gè)空間區(qū)域,其中的每個(gè)空間區(qū)域?qū)?yīng)一個(gè)標(biāo)準(zhǔn)問(wèn)句,因此通過(guò)計(jì)算待入庫(kù)數(shù)據(jù)所對(duì)應(yīng)的分詞向量落入了哪一個(gè)空間區(qū)域即可得知與待入庫(kù)數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句。
步驟102:當(dāng)獲取到與待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句后,將待入庫(kù)數(shù)據(jù)存入數(shù)據(jù)庫(kù)中與匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)的擴(kuò)展問(wèn)句集。
這樣待入庫(kù)數(shù)據(jù)便成為了所匹配的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句集中的一個(gè)擴(kuò)展問(wèn)句。后續(xù)再基于該數(shù)據(jù)庫(kù)進(jìn)行智能交互時(shí),該待入庫(kù)數(shù)據(jù)便可作為智能交互過(guò)程中分析用戶消息語(yǔ)義的一個(gè)數(shù)據(jù)基礎(chǔ)。
由此可見(jiàn),本發(fā)明實(shí)施例所提供的數(shù)據(jù)庫(kù)維護(hù)方法,通過(guò)建立標(biāo)準(zhǔn)分類(lèi)模型來(lái)獲取與待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句,并將待入庫(kù)數(shù)據(jù)存入所匹配的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句集,避免了以人工的方式來(lái)維護(hù)數(shù)據(jù)庫(kù),提高了數(shù)據(jù)庫(kù)維護(hù)的效率。同時(shí),由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)能夠得到及時(shí)的自動(dòng)維護(hù)更新,也提升了用戶的智能交互體驗(yàn)。特別當(dāng)待入庫(kù)數(shù)據(jù)為人工問(wèn)答數(shù)據(jù)中的用戶問(wèn)句時(shí),更便于提高數(shù)據(jù)庫(kù)維護(hù)的效率。
在本發(fā)明一實(shí)施例中,考慮到待入庫(kù)數(shù)據(jù)的數(shù)據(jù)量通常比較龐大,為了進(jìn)一步提高數(shù)據(jù)庫(kù)的維護(hù)效率,可先對(duì)待入庫(kù)數(shù)據(jù)進(jìn)行聚類(lèi)處理以獲取多個(gè)數(shù)據(jù)聚類(lèi)集,再獲取與該數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句,然后將該數(shù)據(jù)聚類(lèi)集中所包括的多個(gè)待入庫(kù)數(shù)據(jù)都存入數(shù)據(jù)庫(kù)中與該匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)的擴(kuò)展問(wèn)句集中。由此避免了以待入庫(kù)數(shù)據(jù)為單位進(jìn)行數(shù)據(jù)庫(kù)的維護(hù)過(guò)程,而是以待入庫(kù)數(shù)據(jù)的數(shù)據(jù)聚類(lèi)集為單位進(jìn)行數(shù)據(jù)庫(kù)的維護(hù),進(jìn)一步提高了數(shù)據(jù)庫(kù)的維護(hù)效率。
在本發(fā)明一實(shí)施例中,待入庫(kù)數(shù)據(jù)的聚類(lèi)處理可通過(guò)語(yǔ)義相似度計(jì)算的聚類(lèi)方式來(lái)獲取。具體而言,如圖4所示,該語(yǔ)義相似度計(jì)算的聚類(lèi)方式可包括如下步驟:
步驟401:將待聚類(lèi)的多個(gè)待入庫(kù)數(shù)據(jù)引入向量空間以獲取對(duì)應(yīng)的多個(gè)句向量。
具體而言,可以是先將待入庫(kù)數(shù)據(jù)進(jìn)行分詞處理以獲取其中的特征詞,還可以通過(guò)新詞發(fā)現(xiàn)方法獲取待入庫(kù)數(shù)據(jù)中的新詞,并根據(jù)新詞重新進(jìn)行分詞處理。此外,還可以通過(guò)同義詞發(fā)現(xiàn)方法從待入庫(kù)數(shù)據(jù)中獲取語(yǔ)義相同的詞語(yǔ),以用于后續(xù)的相似度值計(jì)算。例如,后續(xù)在進(jìn)行相似度計(jì)算時(shí),如果通過(guò)同義詞發(fā)現(xiàn)方法確認(rèn)兩個(gè)詞為同義詞,則會(huì)提高最后的語(yǔ)義相似度值的準(zhǔn)確率。分詞處理可以采用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種進(jìn)行。新詞發(fā)現(xiàn)方法具體可以包括:互信息、共現(xiàn)概率、信息熵等方法,利用新詞發(fā)現(xiàn)方法可以獲取新的詞語(yǔ),根據(jù)獲取的新的詞語(yǔ)可以更新分詞詞典,那么在進(jìn)行分詞處理時(shí),可以根據(jù)更新后的分詞詞典進(jìn)行分詞,增加了分詞處理的準(zhǔn)確率。同義詞發(fā)現(xiàn)方法具體可以包括:W2V和編輯距離等方法,利用同義詞發(fā)現(xiàn)方法可以發(fā)現(xiàn)具有相同含義的詞語(yǔ),例如:通過(guò)同義詞發(fā)現(xiàn)方法發(fā)現(xiàn)組合詞、簡(jiǎn)化詞是同義詞,那么后續(xù)進(jìn)行語(yǔ)義相似度值計(jì)算時(shí),根據(jù)發(fā)現(xiàn)的同義詞就可以提高語(yǔ)義相似度值計(jì)算的準(zhǔn)確率。
在獲取了待入庫(kù)數(shù)據(jù)中的特征詞后,將這些特征詞輸入向量模型,獲取向量模型輸出的特征詞的詞向量,并根據(jù)詞向量構(gòu)造待入庫(kù)數(shù)據(jù)的句向量。在實(shí)際應(yīng)用中,向量模型可以包括:word2vector模型。根據(jù)詞向量獲取句向量的具體構(gòu)造方法可包括如下方式中的一種:
方式一:將單個(gè)待入庫(kù)數(shù)據(jù)中的所有特征詞的詞向量進(jìn)行矢量疊加并取平均值,獲取待入庫(kù)數(shù)據(jù)的句向量;
方式二:根據(jù)特征詞的個(gè)數(shù)和詞向量的維度、以及相應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的特征詞的詞向量,獲取該待入庫(kù)數(shù)據(jù)的句向量,其中,句向量的維度是特征詞的個(gè)數(shù)與詞向量的維度的乘積,句向量的維度值為:未在相應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的特征詞所對(duì)應(yīng)的維度值為0,在相應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的特征詞所對(duì)應(yīng)的維度值為該特征詞的詞向量;
方式三:根據(jù)特征詞的個(gè)數(shù)、以及相應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的特征詞的TF-IDF值,獲取該待入庫(kù)數(shù)據(jù)的句向量,其中,句向量的維度是特征詞的個(gè)數(shù),句向量的維度值為:未在相應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的特征詞的維度值為0,在相應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的特征詞的維度值為該特征詞的TF-IDF值。
在方式三中,特征詞的TF-IDF值可通過(guò)以下方式獲?。?/p>
1、將待入庫(kù)數(shù)據(jù)總數(shù)目除以包含特征詞的待入庫(kù)數(shù)據(jù)的數(shù)目,將得到的商取對(duì)數(shù)得到特征詞的IDF值;
2、計(jì)算特征詞在對(duì)應(yīng)待入庫(kù)數(shù)據(jù)中出現(xiàn)的頻率,確定TF值;
3、將TF值乘以IDF值得到特征詞的TF-IDF值。
步驟402:分別獲取第M個(gè)句向量與已聚類(lèi)的K個(gè)數(shù)據(jù)聚類(lèi)集的句向量平均值之間的最大相似度值,當(dāng)最大相似度值大于預(yù)設(shè)值時(shí),將第M個(gè)句向量所對(duì)應(yīng)的待入庫(kù)數(shù)據(jù)聚類(lèi)到最大相似度值對(duì)應(yīng)的數(shù)據(jù)聚類(lèi)集中;當(dāng)最大相似度值小于預(yù)設(shè)值時(shí),將第M個(gè)句向量所對(duì)應(yīng)的待入庫(kù)數(shù)據(jù)或答案聚類(lèi)為第K+1個(gè)數(shù)據(jù)聚類(lèi)集,K≤M-1,M≥2。
本實(shí)施例在進(jìn)行聚類(lèi)處理之前,并不需要預(yù)先確定聚類(lèi)結(jié)果的數(shù)目,即當(dāng)聚類(lèi)處理后得到K個(gè)問(wèn)句信息組時(shí),K數(shù)值是自動(dòng)聚類(lèi)的結(jié)果,在聚類(lèi)之前并不清楚也沒(méi)有限定聚類(lèi)的結(jié)果,從而實(shí)現(xiàn)了自動(dòng)聚類(lèi)。
在一進(jìn)一步實(shí)施例中,待入庫(kù)數(shù)據(jù)的聚類(lèi)處理還可通過(guò)另一種改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式來(lái)獲取,如圖5所示,該改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式具體包括:
步驟501:將待聚類(lèi)的多個(gè)待入庫(kù)數(shù)據(jù)或多個(gè)答案引入向量空間以獲取對(duì)應(yīng)的T個(gè)句向量QT,其中T≥M。句向量的具體獲取方式不再贅述。
步驟502:初始K值、中心點(diǎn)PK-1、以及數(shù)據(jù)聚類(lèi)集{K,[PK-1]},其中,K表示聚類(lèi)的類(lèi)別數(shù),K的初始值為1,中心點(diǎn)PK-1的初始值為P0,P0=Q1,Q1表示第1個(gè)句向量,數(shù)據(jù)聚類(lèi)集的初始值為{1,[Q1]}。
步驟503:依次對(duì)剩下的QT進(jìn)行聚類(lèi),計(jì)算當(dāng)前句向量與每個(gè)數(shù)據(jù)聚類(lèi)集的中心點(diǎn)的相似度,如果當(dāng)前句向量與某個(gè)數(shù)據(jù)聚類(lèi)集的中心點(diǎn)的相似度大于或等于預(yù)設(shè)值,則將當(dāng)前句向量聚類(lèi)到相應(yīng)的數(shù)據(jù)聚類(lèi)集中,保持K值不變,將相應(yīng)的中心點(diǎn)更新為數(shù)據(jù)聚類(lèi)集中所有句向量的向量平均值,相應(yīng)的數(shù)據(jù)聚類(lèi)集為{K,[句向量的向量平均值]};如果當(dāng)前句向量與所有數(shù)據(jù)聚類(lèi)集中的中心點(diǎn)的相似度均小于預(yù)設(shè)值,則令K=K+1,增加新的中心點(diǎn),新的中心點(diǎn)的值為當(dāng)前句向量,并增加新的數(shù)據(jù)聚類(lèi)集{K,[當(dāng)前句向量]}。
以對(duì)Q2聚類(lèi)進(jìn)行舉例說(shuō)明:計(jì)算Q2與Q1的語(yǔ)義相似度I,若相似度I大于0.9(根據(jù)需求設(shè)定預(yù)設(shè)值),則認(rèn)為Q2和Q1屬于同一個(gè)類(lèi),此時(shí)K=1不變,P0更新為Q1和Q2的向量平均值,聚類(lèi)的問(wèn)題集為{1,[Q1,Q2]};若相似度I不滿足要求,則Q2和Q1屬于不同的類(lèi),此時(shí)K=2,P0=Q1,P1=Q2,聚類(lèi)的問(wèn)題集為{1,[Q1]},{2,[Q2]}。采用上述方法依次對(duì)剩余其他待入庫(kù)數(shù)據(jù)進(jìn)行聚類(lèi)完成的同時(shí)可以得到K最終值。
由此可見(jiàn),采用這種改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式,避免了K值選擇難的問(wèn)題。該改進(jìn)的算法是指對(duì)待入庫(kù)數(shù)據(jù)依次進(jìn)行聚類(lèi);K值從1開(kāi)始遞增,并且在此過(guò)程中不斷更新中心點(diǎn)來(lái)實(shí)現(xiàn)整個(gè)聚類(lèi)過(guò)程。
在本發(fā)明一實(shí)施例中,為了進(jìn)一步提高對(duì)于待入庫(kù)數(shù)據(jù)的聚類(lèi)處理的準(zhǔn)確度,該聚類(lèi)處理過(guò)程還可包括一個(gè)初步聚類(lèi)過(guò)程和一個(gè)二次聚類(lèi)過(guò)程。具體而言,首先對(duì)待入庫(kù)數(shù)據(jù)進(jìn)行初步聚類(lèi)以獲取多個(gè)初步數(shù)據(jù)聚類(lèi)集,然后再在每個(gè)初步數(shù)據(jù)聚類(lèi)集中以前述的語(yǔ)義相似度計(jì)算或改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式進(jìn)行二次聚類(lèi)以獲取多個(gè)數(shù)據(jù)聚類(lèi)集。在一進(jìn)一步實(shí)施例中,該初步聚類(lèi)過(guò)程可以基于待入庫(kù)數(shù)據(jù)中所包括的關(guān)鍵詞進(jìn)行聚類(lèi)實(shí)現(xiàn),也可以前述的語(yǔ)義相似度計(jì)算或改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式進(jìn)行聚類(lèi)。本發(fā)明對(duì)待入庫(kù)數(shù)據(jù)的聚類(lèi)處理的具體實(shí)現(xiàn)方式并不做限定。
圖6所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中獲得與一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句的流程示意圖。如圖6所示,該與一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句的獲取過(guò)程包括:
步驟601:將一個(gè)數(shù)據(jù)聚類(lèi)集中所包括的N個(gè)待入庫(kù)數(shù)據(jù)分別輸入標(biāo)準(zhǔn)分類(lèi)模型以獲得與N個(gè)待入庫(kù)數(shù)據(jù)所分別匹配的N個(gè)標(biāo)準(zhǔn)問(wèn)句,N為大于等于1的整數(shù)。
由于標(biāo)準(zhǔn)分類(lèi)模型可根據(jù)輸入的待入庫(kù)數(shù)據(jù)輸出匹配的標(biāo)準(zhǔn)問(wèn)句,因此當(dāng)將一個(gè)數(shù)據(jù)聚類(lèi)集中的N個(gè)待入庫(kù)數(shù)據(jù)分別輸入標(biāo)準(zhǔn)分類(lèi)模型時(shí),便可得到輸出的N個(gè)匹配的標(biāo)準(zhǔn)問(wèn)句。但這N個(gè)標(biāo)準(zhǔn)問(wèn)句還需要后續(xù)的篩選過(guò)程來(lái)確定其中的哪一個(gè)為與該數(shù)據(jù)聚類(lèi)集匹配的標(biāo)準(zhǔn)問(wèn)句。
步驟602:將N個(gè)標(biāo)準(zhǔn)問(wèn)句中匹配一個(gè)數(shù)據(jù)聚類(lèi)集中的待入庫(kù)數(shù)據(jù)的數(shù)量最多的S個(gè)標(biāo)準(zhǔn)問(wèn)句作為一個(gè)數(shù)據(jù)聚類(lèi)集的S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句,其中S為大于等于1且小于等于N的整數(shù)。
由于同一個(gè)數(shù)據(jù)聚類(lèi)集中的待入庫(kù)數(shù)據(jù)之間存在相似性,因此同一個(gè)數(shù)據(jù)聚類(lèi)集中的不同待入庫(kù)數(shù)據(jù)很可能被標(biāo)準(zhǔn)分類(lèi)模型輸出相同的標(biāo)準(zhǔn)問(wèn)句,即,標(biāo)準(zhǔn)分類(lèi)模型輸出的N個(gè)標(biāo)準(zhǔn)問(wèn)句中有可能有一些標(biāo)準(zhǔn)問(wèn)句是對(duì)應(yīng)多個(gè)待入庫(kù)數(shù)據(jù)的,而對(duì)應(yīng)待入庫(kù)數(shù)據(jù)的數(shù)量越多的標(biāo)準(zhǔn)問(wèn)句與該數(shù)據(jù)聚類(lèi)集的匹配度就越高,因此可從N個(gè)標(biāo)準(zhǔn)問(wèn)句中選擇匹配該數(shù)據(jù)聚類(lèi)集中的待入庫(kù)數(shù)據(jù)的數(shù)量最多的S個(gè)標(biāo)準(zhǔn)問(wèn)句作為該數(shù)據(jù)聚類(lèi)集的S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句句。在一實(shí)施例中,也可以將N各標(biāo)準(zhǔn)問(wèn)句都作為推薦標(biāo)準(zhǔn)問(wèn)句,此時(shí)S=N。
步驟603:選取S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句中的一個(gè)作為一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句。
在本發(fā)明一實(shí)施例中,可以是展示該S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句,并接收選取指令以選取S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句中的一個(gè)作為該數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句。例如,將該S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句展示給數(shù)據(jù)庫(kù)維護(hù)人員,并基于數(shù)據(jù)庫(kù)維護(hù)人員的選取指令以選取其中的一個(gè)推薦標(biāo)準(zhǔn)問(wèn)句作為該數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句。
在本發(fā)明一實(shí)施例中,數(shù)據(jù)庫(kù)中包括知識(shí)點(diǎn),知識(shí)點(diǎn)包括標(biāo)準(zhǔn)問(wèn)句、擴(kuò)展問(wèn)句集和答案。待入庫(kù)數(shù)據(jù)為已采集數(shù)據(jù)中的問(wèn)句,已采集數(shù)據(jù)中還包括與問(wèn)句對(duì)應(yīng)的已采集的答案。例如,問(wèn)句為人工客服數(shù)據(jù)中的用戶問(wèn)句,答案為人工客服數(shù)據(jù)中的人工客服答案。此時(shí),在進(jìn)行數(shù)據(jù)庫(kù)維護(hù)的過(guò)程中,除了要將待入庫(kù)數(shù)據(jù)存入匹配的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句集中,還要將待入庫(kù)數(shù)據(jù)對(duì)應(yīng)的已采集的答案也存入數(shù)據(jù)庫(kù)中。當(dāng)待入庫(kù)數(shù)據(jù)存在數(shù)據(jù)聚類(lèi)集時(shí),可以將獲取的答案作為該數(shù)據(jù)聚類(lèi)集匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)知識(shí)點(diǎn)的答案存入數(shù)據(jù)庫(kù)。
圖7所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)方法中獲取并存儲(chǔ)與一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的答案的流程示意圖。如圖7所示,該流程包括如下步驟:
步驟701:獲取一個(gè)數(shù)據(jù)聚類(lèi)集中所包括的多個(gè)問(wèn)句各自對(duì)應(yīng)的預(yù)設(shè)數(shù)量個(gè)答案以形成一個(gè)數(shù)據(jù)聚類(lèi)的答案集,其中與一個(gè)問(wèn)句對(duì)應(yīng)的預(yù)設(shè)數(shù)量個(gè)答案為多個(gè)已采集的答案中距離一個(gè)問(wèn)句的采集時(shí)間最近的預(yù)設(shè)數(shù)量個(gè)答案。
在實(shí)際的交互過(guò)程中,問(wèn)句與對(duì)應(yīng)的答案之間往往存在一定的時(shí)間間隔,這是因?yàn)楫?dāng)提問(wèn)方發(fā)出一個(gè)問(wèn)句時(shí),回答方往往要通過(guò)多個(gè)交互層級(jí)(例如反問(wèn)該問(wèn)句的具體含義或目的等)才能確定與該問(wèn)句準(zhǔn)確對(duì)應(yīng)的答案。若僅選取距離問(wèn)句的采集時(shí)間最近的一個(gè)答案作為對(duì)應(yīng)的答案,則很有可能將中間交互層級(jí)的語(yǔ)句作為對(duì)應(yīng)的答案,而漏掉最終準(zhǔn)確對(duì)應(yīng)的答案。因此,可將距離問(wèn)句的采集時(shí)間最近的預(yù)設(shè)數(shù)量個(gè)答案都作為與該問(wèn)句對(duì)應(yīng)的答案,以此提高答案獲取的準(zhǔn)確度。應(yīng)當(dāng)理解,預(yù)設(shè)數(shù)量的大小可由開(kāi)發(fā)人員根據(jù)實(shí)際業(yè)務(wù)場(chǎng)景的具體情況而調(diào)整,本發(fā)明對(duì)該預(yù)設(shè)數(shù)量的大小并不做限定。
步驟702:對(duì)該數(shù)據(jù)聚類(lèi)集的答案集中的答案進(jìn)行聚類(lèi)以獲取該數(shù)據(jù)聚類(lèi)集的多個(gè)答案聚類(lèi)集。
對(duì)一個(gè)答案集中的答案進(jìn)行聚類(lèi)的過(guò)程可與前述對(duì)待入庫(kù)數(shù)據(jù)進(jìn)行聚類(lèi)的過(guò)程采用相同的聚類(lèi)方式。例如,也可以先對(duì)一個(gè)數(shù)據(jù)聚類(lèi)集的答案集中的答案進(jìn)行初步聚類(lèi)以獲取多個(gè)初步答案聚類(lèi)集,然后再在每個(gè)初步答案聚類(lèi)集中以前述語(yǔ)義相似度計(jì)算或改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式進(jìn)行二次聚類(lèi)以獲取多個(gè)答案聚類(lèi)集。在一進(jìn)一步實(shí)施例中,該初步聚類(lèi)過(guò)程可以基于答案中所包括的關(guān)鍵詞進(jìn)行聚類(lèi)實(shí)現(xiàn),也可以前述的語(yǔ)義相似度計(jì)算或改進(jìn)的語(yǔ)義相似度計(jì)算的聚類(lèi)方式進(jìn)行聚類(lèi)。本發(fā)明對(duì)答案聚類(lèi)處理的具體實(shí)現(xiàn)方式并不做限定。
步驟703:從多個(gè)答案聚類(lèi)集中選取一個(gè)答案聚類(lèi)集中的一個(gè)答案作為該數(shù)據(jù)聚類(lèi)集匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)知識(shí)點(diǎn)的答案存入數(shù)據(jù)庫(kù)。
數(shù)據(jù)庫(kù)中知識(shí)點(diǎn)所初始包括的答案雖然與標(biāo)準(zhǔn)問(wèn)句存在對(duì)應(yīng)關(guān)系,但該初始的答案可能是數(shù)據(jù)庫(kù)建立人員自行設(shè)置的,并不一定足夠準(zhǔn)確。然而,通過(guò)采用本發(fā)明實(shí)施例所提供的數(shù)據(jù)庫(kù)維護(hù)方法,新的答案可從一個(gè)答案聚類(lèi)集中選出,該新的答案可用于替代知識(shí)點(diǎn)中所初始包括的答案。由此可見(jiàn),通過(guò)該數(shù)據(jù)庫(kù)維護(hù)過(guò)程其實(shí)還實(shí)現(xiàn)了對(duì)知識(shí)點(diǎn)中答案的更新,使知識(shí)點(diǎn)中所包括的答案隨著該數(shù)據(jù)庫(kù)維護(hù)過(guò)程的不斷循環(huán)進(jìn)行而變得更加準(zhǔn)確。在本發(fā)明一實(shí)施例中,從多個(gè)答案聚類(lèi)集中選取答案的過(guò)程可由業(yè)務(wù)專家通過(guò)人工選取步驟完成,然而本發(fā)明對(duì)答案選取的具體方式并不做具體限定。在本發(fā)明一實(shí)施例中,在利用待入庫(kù)數(shù)據(jù)和/或答案進(jìn)行數(shù)據(jù)庫(kù)維護(hù)之前,還需要對(duì)待入庫(kù)數(shù)據(jù)和/或答案進(jìn)行預(yù)處理,以去掉無(wú)意義的文本內(nèi)容或避免重復(fù)存儲(chǔ),減少數(shù)據(jù)庫(kù)維護(hù)處理的工作量。具體而言,可將待入庫(kù)數(shù)據(jù)進(jìn)行過(guò)濾以得到包括預(yù)設(shè)的業(yè)務(wù)關(guān)鍵詞的待入庫(kù)數(shù)據(jù);和/或,過(guò)濾以去除已存儲(chǔ)在數(shù)據(jù)庫(kù)中的待入庫(kù)數(shù)據(jù);和/或,將已采集的問(wèn)句和/或答案進(jìn)行過(guò)濾以去除采用反問(wèn)句式和/或僅包含禮貌用語(yǔ)的問(wèn)句和/或答案。在本發(fā)明一實(shí)施例中,反問(wèn)句式可包括預(yù)設(shè)的開(kāi)頭標(biāo)識(shí)和預(yù)設(shè)的結(jié)尾標(biāo)識(shí)。預(yù)設(shè)的開(kāi)頭標(biāo)識(shí)可包括以下幾種中的任一種:如何辦、咋整、怎么辦、如何弄、咋辦、怎莫辦、則么辦、迮么辦、怎么整、怎么弄、怎樣辦、何處、哪兒、在哪和去哪;預(yù)設(shè)的結(jié)尾標(biāo)識(shí)可包括以下幾種中任的一種:中英文問(wèn)號(hào),嗎、呢和哦。
圖8所示為本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)庫(kù)維護(hù)裝置的結(jié)構(gòu)示意圖。所維護(hù)的數(shù)據(jù)庫(kù)包括多個(gè)標(biāo)準(zhǔn)問(wèn)句和多個(gè)擴(kuò)展問(wèn)句集,其中每個(gè)標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)一個(gè)擴(kuò)展問(wèn)句集。每個(gè)標(biāo)準(zhǔn)問(wèn)句代表一定語(yǔ)義內(nèi)容的標(biāo)準(zhǔn)表述方式,為所對(duì)應(yīng)擴(kuò)展問(wèn)句集中擴(kuò)展問(wèn)句的擴(kuò)展基礎(chǔ),可由業(yè)務(wù)專家根據(jù)實(shí)際的工作經(jīng)驗(yàn)預(yù)設(shè)在數(shù)據(jù)庫(kù)中;與標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)的擴(kuò)展問(wèn)句集中可以包括具體的擴(kuò)展問(wèn)句,也可以包括語(yǔ)義表達(dá)式。如圖8所示,該數(shù)據(jù)庫(kù)維護(hù)裝置80包括:標(biāo)準(zhǔn)分類(lèi)模型81、標(biāo)準(zhǔn)問(wèn)句獲取模塊82以及處理模塊83。該標(biāo)準(zhǔn)分類(lèi)模型81基于多個(gè)自然語(yǔ)言語(yǔ)句和與多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句而建立。標(biāo)準(zhǔn)問(wèn)句獲取模塊82配置為將待入庫(kù)數(shù)據(jù)輸入標(biāo)準(zhǔn)分類(lèi)模型81以獲得匹配的標(biāo)準(zhǔn)問(wèn)句。處理模塊83配置為將待入庫(kù)數(shù)據(jù)存入數(shù)據(jù)庫(kù)中與匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)的擴(kuò)展問(wèn)句集。
由此可見(jiàn),本發(fā)明實(shí)施例所提供的數(shù)據(jù)庫(kù)維護(hù)裝置80,通過(guò)建立標(biāo)準(zhǔn)分類(lèi)模型81來(lái)獲取與待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句,并將待入庫(kù)數(shù)據(jù)存入所匹配的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句集,避免了以人工的方式來(lái)維護(hù)數(shù)據(jù)庫(kù),提高了數(shù)據(jù)庫(kù)維護(hù)的效率。同時(shí),由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)能夠得到及時(shí)的自動(dòng)維護(hù)更新,也提升了用戶的智能交互體驗(yàn)。
在本發(fā)明一實(shí)施例中,如圖9所示,該數(shù)據(jù)庫(kù)維護(hù)裝置80進(jìn)一步包括:標(biāo)準(zhǔn)分類(lèi)模型建立模塊84,包括:第一分詞單元841和訓(xùn)練單元842。第一分詞單元841,配置為將多個(gè)自然語(yǔ)言語(yǔ)句和與多個(gè)自然語(yǔ)言語(yǔ)句中每個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句分別進(jìn)行分詞處理以得到多個(gè)分詞向量。訓(xùn)練單元842,配置為將多個(gè)分詞向量輸入分類(lèi)器中進(jìn)行訓(xùn)練以建立標(biāo)準(zhǔn)分類(lèi)模型81,其中,標(biāo)準(zhǔn)分類(lèi)模型81所對(duì)應(yīng)的向量空間包括至少一個(gè)分類(lèi)超平面分割該向量空間得到的多個(gè)空間區(qū)域,其中每個(gè)空間區(qū)域?qū)?yīng)一個(gè)標(biāo)準(zhǔn)問(wèn)句。在本發(fā)明一實(shí)施例中,分類(lèi)器可包括以下幾項(xiàng)中的一種或多種的組合:libshorttext分類(lèi)器、LR分類(lèi)器、SVM分類(lèi)器和fastText分類(lèi)器。
在本發(fā)明一實(shí)施例中,如圖9所示,標(biāo)準(zhǔn)分類(lèi)模型81包括:第二分詞單元811、計(jì)算單元812以及輸出單元813。第二分詞單元811配置為將輸入的待入庫(kù)數(shù)據(jù)進(jìn)行分詞處理以得到對(duì)應(yīng)的分詞向量。計(jì)算單元812配置為計(jì)算對(duì)應(yīng)的分詞向量落入了向量空間的哪一個(gè)空間區(qū)域。輸出單元813配置為將分詞向量所落入的空間區(qū)域所對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句作為與輸入的待入庫(kù)數(shù)據(jù)匹配的標(biāo)準(zhǔn)問(wèn)句輸出。
在本發(fā)明一實(shí)施例中,自然語(yǔ)言語(yǔ)句為數(shù)據(jù)庫(kù)中已存儲(chǔ)的與標(biāo)準(zhǔn)問(wèn)句對(duì)應(yīng)的擴(kuò)展問(wèn)句集中的擴(kuò)展問(wèn)句。因此標(biāo)準(zhǔn)分類(lèi)模型81可以是直接根據(jù)這些已存儲(chǔ)的標(biāo)準(zhǔn)問(wèn)句和擴(kuò)展問(wèn)句集中的擴(kuò)展問(wèn)句而建立。
在本發(fā)明另一實(shí)施例中,如圖9所示,該數(shù)據(jù)庫(kù)維護(hù)裝置80進(jìn)一步包括:
問(wèn)答模塊85,配置為接收多個(gè)自然語(yǔ)言問(wèn)句,通過(guò)基于數(shù)據(jù)庫(kù)的語(yǔ)義匹配過(guò)程以得到數(shù)據(jù)庫(kù)中匹配的標(biāo)準(zhǔn)問(wèn)句作為多個(gè)自然語(yǔ)言語(yǔ)句分別對(duì)應(yīng)的多個(gè)標(biāo)準(zhǔn)問(wèn)句問(wèn)答模塊85問(wèn)答模塊85。該基于數(shù)據(jù)庫(kù)的問(wèn)答模塊85的語(yǔ)義匹配過(guò)程可通過(guò)語(yǔ)義相似度的計(jì)算過(guò)程實(shí)現(xiàn)。通過(guò)計(jì)算當(dāng)前自然語(yǔ)言語(yǔ)句與多個(gè)預(yù)設(shè)的擴(kuò)展問(wèn)句集之間的相似度,然后將相似度最高的擴(kuò)展問(wèn)句集所對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句作為匹配的標(biāo)準(zhǔn)問(wèn)句。在本發(fā)明一實(shí)施例中,擴(kuò)展問(wèn)句集可采用語(yǔ)義模板的形式,語(yǔ)義模板可為表示某一種語(yǔ)義內(nèi)容的一個(gè)或多個(gè)抽象語(yǔ)義表達(dá)式的集合,由開(kāi)發(fā)人員根據(jù)預(yù)定的規(guī)則結(jié)合語(yǔ)義內(nèi)容生成,即通過(guò)一個(gè)語(yǔ)義模板就可描述一個(gè)標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)語(yǔ)義內(nèi)容的多種不同表達(dá)方式的語(yǔ)句,以應(yīng)對(duì)當(dāng)前自然語(yǔ)言語(yǔ)句可能的多種變形。這樣將自然語(yǔ)言語(yǔ)句的文本內(nèi)容與預(yù)設(shè)的語(yǔ)義模板進(jìn)行匹配,避免了利用僅能描述一種表達(dá)方式的“標(biāo)準(zhǔn)問(wèn)”來(lái)識(shí)別用戶消息時(shí)的局限性。
在本發(fā)明一實(shí)施例中,如圖9所示,該數(shù)據(jù)庫(kù)維護(hù)裝置80進(jìn)一步包括:數(shù)據(jù)聚類(lèi)模塊86,配置為將待入庫(kù)數(shù)據(jù)進(jìn)行聚類(lèi)以獲取多個(gè)數(shù)據(jù)聚類(lèi)集。此時(shí),標(biāo)準(zhǔn)問(wèn)句獲取模塊82進(jìn)一步配置為:將一個(gè)數(shù)據(jù)聚類(lèi)集中所包括的多個(gè)待入庫(kù)數(shù)據(jù)分別輸入標(biāo)準(zhǔn)分類(lèi)模型81以獲得與一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句。由此避免了以待入庫(kù)數(shù)據(jù)為單位進(jìn)行數(shù)據(jù)庫(kù)的維護(hù)過(guò)程,而是以待入庫(kù)數(shù)據(jù)的數(shù)據(jù)聚類(lèi)集為單位進(jìn)行數(shù)據(jù)庫(kù)的維護(hù),進(jìn)一步提高了數(shù)據(jù)庫(kù)的維護(hù)效率。
在本發(fā)明一實(shí)施例中,考慮到同一個(gè)數(shù)據(jù)聚類(lèi)集中的待入庫(kù)數(shù)據(jù)之間存在相似性,因此同一個(gè)數(shù)據(jù)聚類(lèi)集中的不同待入庫(kù)數(shù)據(jù)很可能被標(biāo)準(zhǔn)分類(lèi)模型81輸出相同的標(biāo)準(zhǔn)問(wèn)句。因此如圖9所示,標(biāo)準(zhǔn)問(wèn)句獲取模塊82可包括:輸入單元821、推薦單元822以及選取單元823。輸入單元821配置為將一個(gè)數(shù)據(jù)聚類(lèi)集中所包括的N個(gè)待入庫(kù)數(shù)據(jù)分別輸入標(biāo)準(zhǔn)分類(lèi)模型81以獲得與N個(gè)待入庫(kù)數(shù)據(jù)所分別匹配的N個(gè)標(biāo)準(zhǔn)問(wèn)句,N為大于等于1的整數(shù)。推薦單元822配置為將N個(gè)標(biāo)準(zhǔn)問(wèn)句中匹配一個(gè)數(shù)據(jù)聚類(lèi)集中的待入庫(kù)數(shù)據(jù)的數(shù)量最多的S個(gè)標(biāo)準(zhǔn)問(wèn)句作為一個(gè)數(shù)據(jù)聚類(lèi)集的S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句,其中S為大于等于1且小于等于N的整數(shù)。選取單元823配置為選取S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句中的一個(gè)作為一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句。
在本發(fā)明一實(shí)施例中,選取單元823可包括:展示子單元以及選取指令接收子單元。展示子單元配置為展示該S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句。選取指令接收子單元配置為接收選取指令以選取S個(gè)推薦標(biāo)準(zhǔn)問(wèn)句中的一個(gè)作為一個(gè)數(shù)據(jù)聚類(lèi)集所匹配的標(biāo)準(zhǔn)問(wèn)句。
在本發(fā)明一實(shí)施例中,數(shù)據(jù)庫(kù)中包括知識(shí)點(diǎn),知識(shí)點(diǎn)包括標(biāo)準(zhǔn)問(wèn)句、擴(kuò)展問(wèn)句集和答案。待入庫(kù)數(shù)據(jù)為已采集數(shù)據(jù)中的問(wèn)句,已采集數(shù)據(jù)中還包括與問(wèn)句對(duì)應(yīng)的已采集的答案。例如,問(wèn)句為人工客服數(shù)據(jù)中的用戶問(wèn)句,答案為人工客服數(shù)據(jù)中的人工客服答案。此時(shí),在進(jìn)行數(shù)據(jù)庫(kù)維護(hù)的過(guò)程中,除了要將待入庫(kù)數(shù)據(jù)存入匹配的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句集中,還要將待入庫(kù)數(shù)據(jù)對(duì)應(yīng)的已采集的答案也存入數(shù)據(jù)庫(kù)中。當(dāng)待入庫(kù)數(shù)據(jù)存在數(shù)據(jù)聚類(lèi)集時(shí),可以將獲取的答案作為該數(shù)據(jù)聚類(lèi)集匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)知識(shí)點(diǎn)的答案存入數(shù)據(jù)庫(kù)。此時(shí),如圖9所示,該數(shù)據(jù)庫(kù)維護(hù)裝置80進(jìn)一步包括:答案獲取模塊87、答案聚類(lèi)模塊88以及答案選取模塊89。答案獲取模塊87配置為獲取一個(gè)數(shù)據(jù)聚類(lèi)集中所包括的多個(gè)問(wèn)句各自對(duì)應(yīng)的預(yù)設(shè)數(shù)量個(gè)答案以形成一個(gè)數(shù)據(jù)聚類(lèi)的答案集,其中與一個(gè)問(wèn)句對(duì)應(yīng)的預(yù)設(shè)數(shù)量個(gè)答案為多個(gè)已采集的答案中距離一個(gè)問(wèn)句的采集時(shí)間最近的預(yù)設(shè)數(shù)量個(gè)答案。答案聚類(lèi)模塊88配置為對(duì)該數(shù)據(jù)聚類(lèi)集的答案集中的答案進(jìn)行聚類(lèi)以獲取該數(shù)據(jù)聚類(lèi)集的多個(gè)答案聚類(lèi)集。答案選取模塊89配置為從多個(gè)答案聚類(lèi)集中選取一個(gè)答案聚類(lèi)集中的一個(gè)答案作為該數(shù)據(jù)聚類(lèi)集匹配的標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)知識(shí)點(diǎn)的答案存入數(shù)據(jù)庫(kù)。
通過(guò)采用本發(fā)明實(shí)施例所提供的數(shù)據(jù)庫(kù)維護(hù)裝置,新的答案可從一個(gè)答案聚類(lèi)集中選出,該新的答案可用于替代知識(shí)點(diǎn)中所初始包括的答案。由此可見(jiàn),該數(shù)據(jù)庫(kù)維護(hù)裝置其實(shí)還實(shí)現(xiàn)了對(duì)知識(shí)點(diǎn)中答案的更新,使知識(shí)點(diǎn)中所包括的答案隨著該數(shù)據(jù)庫(kù)維護(hù)過(guò)程的不斷循環(huán)進(jìn)行而變得更加準(zhǔn)確。在本發(fā)明一實(shí)施例中,答案選取模塊89所執(zhí)行的答案選取的過(guò)程可通過(guò)接收業(yè)務(wù)專家的人工選取指令完成,然而本發(fā)明對(duì)答案選取模塊89所執(zhí)行的答案選取過(guò)程的具體方式并不做具體限定。
在本發(fā)明一實(shí)施例中,如圖9所示,該數(shù)據(jù)庫(kù)維護(hù)裝置80進(jìn)一步包括:第一過(guò)濾模塊810a和/或第二過(guò)濾模塊810b。第一過(guò)濾模塊810a配置為將待入庫(kù)數(shù)據(jù)進(jìn)行過(guò)濾以得到包括預(yù)設(shè)的業(yè)務(wù)關(guān)鍵詞的待入庫(kù)數(shù)據(jù),和/或過(guò)濾以去除已存儲(chǔ)在數(shù)據(jù)庫(kù)中的待入庫(kù)數(shù)據(jù)。第二過(guò)濾模塊810b,配置為將已采集的問(wèn)句和/或答案進(jìn)行過(guò)濾以去除采用反問(wèn)句式和/或僅包含禮貌用語(yǔ)的問(wèn)句和/或答案。這樣在利用待入庫(kù)數(shù)據(jù)和/或答案進(jìn)行數(shù)據(jù)庫(kù)維護(hù)之前,對(duì)待入庫(kù)數(shù)據(jù)和/或答案進(jìn)行預(yù)處理,去掉了無(wú)意義的文本內(nèi)容或避免了重復(fù)存儲(chǔ),減少了數(shù)據(jù)庫(kù)維護(hù)處理的工作量。
在本發(fā)明一實(shí)施例中,反問(wèn)句式包括預(yù)設(shè)的開(kāi)頭標(biāo)識(shí)和預(yù)設(shè)的結(jié)尾標(biāo)識(shí)。預(yù)設(shè)的開(kāi)頭標(biāo)識(shí)可包括以下幾種中的任一種:如何辦、咋整、怎么辦、如何弄、咋辦、怎莫辦、則么辦、迮么辦、怎么整、怎么弄、怎樣辦、何處、哪兒、在哪和去哪。預(yù)設(shè)的結(jié)尾標(biāo)識(shí)可包括以下幾種中任的一種:中英文問(wèn)號(hào),嗎、呢和哦。
在本發(fā)明一實(shí)施例中,數(shù)據(jù)聚類(lèi)模塊86進(jìn)一步配置為通過(guò)相似度計(jì)算的聚類(lèi)方式獲取多個(gè)數(shù)據(jù)聚類(lèi)集;和/或答案聚類(lèi)模塊88進(jìn)一步配置為通過(guò)語(yǔ)義相似度計(jì)算的聚類(lèi)方式獲取多個(gè)答案聚類(lèi)集。該語(yǔ)義相似度計(jì)算的聚類(lèi)方式可包括如下步驟:將待聚類(lèi)的多個(gè)待入庫(kù)數(shù)據(jù)或多個(gè)答案引入向量空間以獲取對(duì)應(yīng)的多個(gè)句向量;分別獲取第M個(gè)句向量與已聚類(lèi)的K個(gè)數(shù)據(jù)聚類(lèi)集或答案聚類(lèi)集的句向量平均值之間的最大相似度值,當(dāng)最大相似度值大于預(yù)設(shè)值時(shí),將第M個(gè)句向量所對(duì)應(yīng)的待入庫(kù)數(shù)據(jù)或答案聚類(lèi)到最大相似度值對(duì)應(yīng)的數(shù)據(jù)聚類(lèi)集或答案聚類(lèi)集中;當(dāng)最大相似度值小于預(yù)設(shè)值時(shí),將第M個(gè)句向量所對(duì)應(yīng)的待入庫(kù)數(shù)據(jù)或答案聚類(lèi)為第K+1個(gè)數(shù)據(jù)聚類(lèi)集或答案聚類(lèi)集,K≤M-1,M≥2。
在本發(fā)明另一實(shí)施例中,該語(yǔ)義相似度計(jì)算的聚類(lèi)方式可包括如下步驟:將待聚類(lèi)的多個(gè)待入庫(kù)數(shù)據(jù)或多個(gè)答案引入向量空間以獲取對(duì)應(yīng)的T個(gè)句向量QT,其中T≥M;初始K值、中心點(diǎn)PK-1、以及聚類(lèi)集{K,[PK-1]},其中,K表示聚類(lèi)的類(lèi)別數(shù),K的初始值為1,中心點(diǎn)PK-1的初始值為P0,P0=Q1,Q1表示第1個(gè)句向量,聚類(lèi)集的初始值為{1,[Q1]};以及依次對(duì)剩下的QT進(jìn)行聚類(lèi),計(jì)算當(dāng)前句向量與每個(gè)聚類(lèi)集的中心點(diǎn)的相似度,如果當(dāng)前句向量與某個(gè)聚類(lèi)集的中心點(diǎn)的相似度大于或等于預(yù)設(shè)值,則將當(dāng)前句向量聚類(lèi)到相應(yīng)的聚類(lèi)集中,保持K值不變,將相應(yīng)的中心點(diǎn)更新為聚類(lèi)集中所有句向量的向量平均值,相應(yīng)的聚類(lèi)集為{K,[句向量的向量平均值]};如果當(dāng)前句向量與所有聚類(lèi)集中的中心點(diǎn)的相似度均小于預(yù)設(shè)值,則令K=K+1,增加新的中心點(diǎn),新的中心點(diǎn)的值為當(dāng)前句向量,并增加新的聚類(lèi)集{K,[當(dāng)前句向量]};其中,聚類(lèi)集為數(shù)據(jù)聚類(lèi)集或答案聚類(lèi)集。采用這種語(yǔ)義相似度計(jì)算的聚類(lèi)方式,避免了K值選擇難的問(wèn)題。通過(guò)對(duì)待入庫(kù)數(shù)據(jù)依次進(jìn)行聚類(lèi),K值從1開(kāi)始遞增,并且在此過(guò)程中不斷更新中心點(diǎn)來(lái)實(shí)現(xiàn)整個(gè)聚類(lèi)過(guò)程。
在本發(fā)明一實(shí)施例中,如圖9所示,數(shù)據(jù)聚類(lèi)模塊86可包括:數(shù)據(jù)初步聚類(lèi)單元861和數(shù)據(jù)二次聚類(lèi)單元862。數(shù)據(jù)初步聚類(lèi)單元861配置為對(duì)待入庫(kù)數(shù)據(jù)進(jìn)行初步聚類(lèi)以獲取多個(gè)初步數(shù)據(jù)聚類(lèi)集。數(shù)據(jù)二次聚類(lèi)單元862,配置為在每個(gè)初步數(shù)據(jù)聚類(lèi)集中以相似度計(jì)算的聚類(lèi)方式進(jìn)行二次聚類(lèi)以獲取多個(gè)數(shù)據(jù)聚類(lèi)集。和/或,答案聚類(lèi)模塊88可包括:答案初步聚類(lèi)單元881和答案二次聚類(lèi)單元882。答案初步聚類(lèi)單元881配置為對(duì)一個(gè)數(shù)據(jù)聚類(lèi)集的答案集中的答案進(jìn)行初步聚類(lèi)以獲取多個(gè)初步答案聚類(lèi)集。答案二次聚類(lèi)單元882配置為在每個(gè)初步答案聚類(lèi)集中以相似度計(jì)算的聚類(lèi)方式進(jìn)行二次聚類(lèi)以獲取多個(gè)答案聚類(lèi)集。通過(guò)采用這種二級(jí)聚類(lèi)的方式實(shí)現(xiàn)對(duì)待入庫(kù)數(shù)據(jù)和/或答案的聚類(lèi),可進(jìn)一步提高聚類(lèi)處理的準(zhǔn)確度。
在本發(fā)明一實(shí)施例中,初步聚類(lèi)可包括:基于待入庫(kù)數(shù)據(jù)或答案中所包括的關(guān)鍵詞進(jìn)行聚類(lèi),或以前述的相似度計(jì)算的聚類(lèi)方式進(jìn)行聚類(lèi)。
應(yīng)當(dāng)理解,上述實(shí)施例所提供的數(shù)據(jù)庫(kù)維護(hù)裝置80中記載的每個(gè)模塊或單元都與前述的一個(gè)方法步驟相對(duì)應(yīng)。由此,前述的方法步驟描述的操作和特征同樣適用于數(shù)據(jù)庫(kù)維護(hù)裝置80及其中所包含的對(duì)應(yīng)的模塊和單元,重復(fù)的內(nèi)容在此不再贅述。
本發(fā)明的教導(dǎo)還可以實(shí)現(xiàn)為一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序代碼,當(dāng)計(jì)算機(jī)程序代碼由處理器執(zhí)行時(shí),其使得處理器能夠按照本發(fā)明實(shí)施方式的方法來(lái)實(shí)現(xiàn)如本文實(shí)施方式所述的數(shù)據(jù)庫(kù)維護(hù)方法。計(jì)算機(jī)存儲(chǔ)介質(zhì)可以為任何有形媒介,例如軟盤(pán)、CD-ROM、DVD、硬盤(pán)驅(qū)動(dòng)器、甚至網(wǎng)絡(luò)介質(zhì)等。
應(yīng)當(dāng)理解,雖然以上描述了本發(fā)明實(shí)施方式的一種實(shí)現(xiàn)形式可以是計(jì)算機(jī)程序產(chǎn)品,但是本發(fā)明的實(shí)施方式的方法或裝置可以被依軟件、硬件、或者軟件和硬件的結(jié)合來(lái)實(shí)現(xiàn)。硬件部分可以利用專用邏輯來(lái)實(shí)現(xiàn);軟件部分可以存儲(chǔ)在存儲(chǔ)器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器或者專用設(shè)計(jì)硬件來(lái)執(zhí)行。本領(lǐng)域的普通技術(shù)人員可以理解上述的方法和設(shè)備可以使用計(jì)算機(jī)可執(zhí)行指令和/或包含在處理器控制代碼中來(lái)實(shí)現(xiàn),例如在諸如磁盤(pán)、CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲(chǔ)器(固件)的可編程的存儲(chǔ)器或者諸如光學(xué)或電子信號(hào)載體的數(shù)據(jù)載體上提供了這樣的代碼。本發(fā)明的方法和裝置可以由諸如超大規(guī)模集成電路或門(mén)陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場(chǎng)可編程門(mén)陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實(shí)現(xiàn),也可以用由各種類(lèi)型的處理器執(zhí)行的軟件實(shí)現(xiàn),也可以由上述硬件電路和軟件的結(jié)合例如固件來(lái)實(shí)現(xiàn)。
應(yīng)當(dāng)理解,盡管在上文的詳細(xì)描述中提及了裝置的若干模塊或單元,但是這種劃分僅僅是示例性而非強(qiáng)制性的。實(shí)際上,根據(jù)本發(fā)明的示例性實(shí)施方式,上文描述的兩個(gè)或更多模塊/單元的特征和功能可以在一個(gè)模塊/單元中實(shí)現(xiàn),反之,上文描述的一個(gè)模塊/單元的特征和功能可以進(jìn)一步劃分為由多個(gè)模塊/單元來(lái)實(shí)現(xiàn)。此外,上文描述的某些模塊/單元在某些應(yīng)用場(chǎng)景下可被省略。
還應(yīng)當(dāng)理解,為了不模糊本發(fā)明的實(shí)施方式,說(shuō)明書(shū)僅對(duì)一些關(guān)鍵、未必必要的技術(shù)和特征進(jìn)行了描述,而可能未對(duì)一些本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)的特征做出說(shuō)明。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。