案例知識(shí)庫表示及案例相似度獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基于案例的問題求解領(lǐng)域,更為具體地,涉及一種案例知識(shí)庫表示及 案例相似度獲取方法及系統(tǒng)。
【背景技術(shù)】
[0002] 根據(jù)以往案例中的相關(guān)信息和知識(shí)理解并解決現(xiàn)有案例存在問題的過程,被稱為 基于案例推理(Case-based Reasoning,簡(jiǎn)稱CBR)。以醫(yī)生看病為例,在對(duì)某個(gè)病人做各種 檢查之后,醫(yī)生會(huì)將檢查結(jié)果關(guān)聯(lián)到之前診斷過的有類似癥狀的病人案例,并參考在重要 癥狀上相似的病人的診斷和治療方案,對(duì)現(xiàn)有病人進(jìn)行診斷與治療。
[0003] 在CBR中,把當(dāng)前所面臨的問題或情況稱為目標(biāo)案例(target case),而把記憶的 問題或情況稱為源案例(base case)。粗略地說,基于案例推理就是由目標(biāo)案例的提示獲得 記憶中的源案例,并由源案例來指導(dǎo)目標(biāo)案例求解的一種策略。
[0004] 與規(guī)則鏈的推理方法相比,基于案例的推理使用的主要知識(shí)不是規(guī)則而是案例, 是在案例庫中找到與當(dāng)前問題最相關(guān)的案例,然后對(duì)源案例作必要的改動(dòng)以求解當(dāng)前問 題。目前,基于案例的推理已經(jīng)在許多領(lǐng)域得到成功的應(yīng)用。
[0005] 以下將對(duì)案例知識(shí)的表示及案例相似度推理兩部分進(jìn)行分別說明。
[0006] 1、案例知識(shí)表示
[0007] 案例知識(shí)的表示不僅要使知識(shí)成為有結(jié)構(gòu)和有組織的體系,還應(yīng)保證知識(shí)是易于 檢索、存取和學(xué)習(xí)的。傳統(tǒng)的案例知識(shí)表示,一般基于其應(yīng)用領(lǐng)域和案例檢索方法,采用定 制化的表示方法,這種表示方法存在的問題主要有:
[0008] (1)案例特征被簡(jiǎn)單羅列,忽略這些特征之間內(nèi)在的聯(lián)系,即沒有從語義上對(duì)信息 進(jìn)行理解,進(jìn)而造成了推薦質(zhì)量的下降;
[0009] (2)定制化的案例知識(shí)表示方法不利于案例知識(shí)的共享和重用,在知識(shí)工程中, 知識(shí)的獲取代價(jià)昂貴,如果知識(shí)不能實(shí)現(xiàn)重用與共享,必然會(huì)造成大量時(shí)間及成本的浪費(fèi)。
[0010] 針對(duì)上述問題,目前采用語義網(wǎng)(Semantic Web)來表示案例知識(shí),語義網(wǎng)的核心 是本體(Ontology)。本體是對(duì)客觀世界現(xiàn)象的抽象描述,目的是捕獲相關(guān)領(lǐng)域的知識(shí),提供 對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上 給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。
[0011] 采用語義網(wǎng)來表示案例知識(shí)主要存在以下幾個(gè)問題:
[0012] (1)本體是共享概念模型明確的形式化規(guī)范說明,只能處理明確或精確的語義信 息和知識(shí),即本體中的概念和關(guān)系等信息都通過明確的語義描述方法來定義,而無法處理 不確定性或模糊性的語義信息和知識(shí)。而具有不確定性或模糊性的模糊信息在自然界、人 類自身以及人類社會(huì)中普遍存在,這些大量不確定性和模糊性信息無法通過明確的語義描 述方法來定義。
[0013] (2)本體只能表達(dá)二元關(guān)系(binary),而無法表達(dá)多元/N元關(guān)系(N-ary)。而案 例知識(shí)的表示,經(jīng)常需要使用N元關(guān)系,即需要附加屬性來描述一個(gè)案例關(guān)系,例如若描述 "小張患乳腺腫瘤的概率很高",需要表達(dá)同一個(gè)關(guān)系的不同的方面,例如需要描述"小李的 體溫很高,但在往下走"等;在多個(gè)實(shí)例共同描述一個(gè)個(gè)性化的用戶興趣模型或者疾病處方 時(shí),需要多維關(guān)系來描述這些實(shí)例的參與關(guān)系和參與角色,例如描述"糖尿病早期、妊娠女 性的干預(yù)處方"等。
[0014] (3)不能描述有時(shí)間順序的多元關(guān)系。例如,不能通過語義Web描述某個(gè)航班先后 經(jīng)停多個(gè)目的地的事件;以及描述疾病臨床路徑中的診療方案在時(shí)間上的順序等。
[0015] 2、案例相似度推理
[0016]目前,基于語義網(wǎng)來表示案例知識(shí)、獲取案例相似度的方法存在以下問題:
[0017] (1)在基于實(shí)例的各個(gè)特征進(jìn)行實(shí)例間的相似度比較時(shí),某些實(shí)例特征可能存在 依賴關(guān)系,換言之,如果在某個(gè)特征不相同時(shí),進(jìn)行其余特征的比較可能是毫無意義的。比 如,男性和女性進(jìn)行比較,兒童和老人進(jìn)行比較,有時(shí)可能是毫無意義的。而現(xiàn)有的研究并 沒有考慮到這一問題。
[0018] (2)在計(jì)算實(shí)例的數(shù)據(jù)類型屬性的相似度時(shí),僅根據(jù)數(shù)據(jù)類型屬性的數(shù)據(jù)類型的 名稱來進(jìn)行比較,而并沒有從數(shù)據(jù)類型屬性具有的語義和數(shù)值進(jìn)行比較,比如身高和體重 這兩個(gè)數(shù)據(jù)類型屬性的值域雖然都是浮點(diǎn)類型的數(shù)據(jù),但明顯其具有的語義是完全不一樣 的,沒有可比性;又比如某人需求的數(shù)碼相機(jī)的快門速度要達(dá)到0.0005,商家提供的一款 數(shù)碼相機(jī)的快門速度為〇. 00002,雖然這兩個(gè)數(shù)值相差很大,但實(shí)際上商家提供的這款相機(jī) 在快門速度上是完全滿足用戶的需求的。
[0019] ⑶實(shí)例的數(shù)據(jù)類型屬性可以有多個(gè),如果待比較的兩個(gè)實(shí)例,一個(gè)沒有說明某個(gè) 數(shù)據(jù)類型屬性的取值,而另一個(gè)說明了,這種情況如何處理,現(xiàn)有方法沒有給出明確的解釋 與說明。
[0020] (4)同樣,在實(shí)例的對(duì)象屬性有多個(gè)的情況下,如果待比較的兩個(gè)實(shí)例,一個(gè)沒有 說明某個(gè)對(duì)象屬性的取值,而另一個(gè)說明了,這種情況如何處理,也沒有給出比較明確的說 明。
[0021] (5)現(xiàn)有的研究沒有給出實(shí)例相同、相似或不同的明確定義。
【發(fā)明內(nèi)容】
[0022] 鑒于上述問題,本發(fā)明的目的是提供一種案例知識(shí)庫表示及案例相似度獲取方法 及系統(tǒng),以解決目前相似度比較方法中存在的關(guān)系描述不準(zhǔn)確,案例知識(shí)不能有效共享,案 例推薦速度及推薦精度低等問題。
[0023] 根據(jù)本發(fā)明的一個(gè)方面,提供一種案例知識(shí)庫表示及案例相似度獲取方法,包括 增強(qiáng)語義網(wǎng)標(biāo)準(zhǔn)描述語言的語義表示能力、創(chuàng)建案例知識(shí)庫和獲取案例相似度;其中,所述 增強(qiáng)語義網(wǎng)標(biāo)準(zhǔn)描述語言的語義表示能力,指在語義網(wǎng)標(biāo)準(zhǔn)描述語言的基礎(chǔ)上通過引入N 元關(guān)系模型、模糊隸屬函數(shù)和關(guān)系權(quán)重以增強(qiáng)語義網(wǎng)標(biāo)準(zhǔn)描述語言的語義表示能力;其中, 引入N兀關(guān)系|旲型以表不在案例知識(shí)中存在的多兀關(guān)系,多兀關(guān)系包括|旲糊隸屬度、關(guān)系 權(quán)重;引入模糊隸屬函數(shù)以表示在案例知識(shí)中存在的模糊概念和模糊關(guān)系;引入關(guān)系權(quán)重 以表示案例知識(shí)中案例特征于案例的權(quán)重關(guān)系;創(chuàng)建案例知識(shí)庫包括:基于增強(qiáng)后的語義 網(wǎng)標(biāo)準(zhǔn)描述語言創(chuàng)建案例知識(shí)庫,案例知識(shí)庫包括案例知識(shí)表示模型、案例庫、語義網(wǎng)規(guī)則 庫以及基于語義網(wǎng)標(biāo)準(zhǔn)描述語言的推理機(jī)制;其中,
[0024] 推理機(jī)制是在獲取案例相似度階段,由源案例查詢操作引發(fā)的動(dòng)態(tài)推理,案例知 識(shí)表示模型和案例庫直接聲明的是顯式事實(shí),規(guī)則引擎基于案例知識(shí)表示模型、案例庫和 語義網(wǎng)規(guī)則庫推理得到的是隱含事實(shí),顯式事實(shí)和隱含事實(shí)一起構(gòu)成案例知識(shí)庫,并提供 案例查詢;
[0025] 獲取案例相似度包括:
[0026] 使用與案例庫中的源案例相同的案例知識(shí)表示模型表示目標(biāo)案例;
[0027] 獲取案例庫中的所有源案例,并分別與目標(biāo)案例進(jìn)行相似度比較;其中,如果源案 例和目標(biāo)案例具有公共父類的實(shí)例對(duì),則分別獲取實(shí)例對(duì)在實(shí)例類型、數(shù)據(jù)類型屬性及對(duì) 象屬性上的相似度;
[0028] 通過將實(shí)例對(duì)在實(shí)例類型、數(shù)據(jù)類型屬性及對(duì)象屬性上的相似度以迭加權(quán)重進(jìn)行 迭加,獲取實(shí)例對(duì)的總體相似度;其中,在實(shí)例對(duì)中的實(shí)例為模糊實(shí)例時(shí),通過將迭加權(quán)重 與模糊實(shí)例于模糊類型的隸屬度相乘,獲取新的迭加權(quán)重,進(jìn)而獲取模糊實(shí)例在模糊類型 上的相似度;通過將迭加權(quán)重與模糊實(shí)例與模糊實(shí)例在模糊關(guān)系上的隸屬度相乘,獲取新 的迭加權(quán)重,進(jìn)而獲取|旲糊實(shí)例在1?糊關(guān)系上的相似度;
[0029] 將所有實(shí)例對(duì)的總體相似度以關(guān)系權(quán)重進(jìn)行迭加,獲取目標(biāo)案例與源案例的總體 相似度。
[0030] 其中,在語義網(wǎng)標(biāo)準(zhǔn)描述語言的基礎(chǔ)上引入N元關(guān)系模型、模糊隸屬函數(shù)和關(guān)系 權(quán)重的過程中,
[0031] N元關(guān)系模型通過引入新類和相關(guān)屬性來實(shí)現(xiàn),新類支持有名類和無名類;通過N 元關(guān)系模型描述案例知識(shí)表示中存在的多元關(guān)系;其中,N元關(guān)系模型包括有序模型、無序 模型和混合模型;
[0032] 模糊隸屬函數(shù)用于表示在案例知識(shí)中存在的模糊概念和模糊關(guān)系,通過語義網(wǎng)標(biāo) 準(zhǔn)規(guī)則描述語言來進(jìn)行描述,并通過規(guī)則引擎觸發(fā)規(guī)則執(zhí)行以獲取模糊隸屬度;其中,模糊 隸屬度表示模糊實(shí)例隸屬于模糊概念的程度以及模糊實(shí)例之間于模糊關(guān)系的關(guān)聯(lián)程度;
[0033] 關(guān)系權(quán)重描述案例特征于案例之間的權(quán)重關(guān)系;其中,案例特征是指案例中某個(gè) 實(shí)例的數(shù)據(jù)類型屬性和與該實(shí)例具有語義關(guān)系的所有實(shí)例。
[0034] 其中,在通過規(guī)則引擎觸發(fā)規(guī)則執(zhí)行以獲取模糊隸屬度的過程中,基于模糊實(shí)例 提供的輸入觸發(fā)規(guī)則推理引擎執(zhí)行描述模糊隸屬函數(shù)的語義網(wǎng)規(guī)則以獲取模糊隸屬度,并 通過N元關(guān)系模型表示模糊隸屬度。
[0035] 其中,在基于增強(qiáng)后的語義網(wǎng)標(biāo)準(zhǔn)