亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法

文檔序號(hào):6483412閱讀:275來源:國知局
專利名稱:基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法
專利說明基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法 技術(shù)領(lǐng)域
本發(fā)明屬于人工智能技術(shù)領(lǐng)域,特別涉及一種計(jì)算機(jī)系統(tǒng)或智能機(jī)器人等以信息推理為核心,從大量現(xiàn)有數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,獲得有價(jià)值的信息,并利用這些信息進(jìn)行智能分析和推理以便解決用戶所提出實(shí)際問題的系統(tǒng)構(gòu)造方法。
背景技術(shù)
一、數(shù)據(jù)挖掘技術(shù)人工智能領(lǐng)域中傳統(tǒng)的從大量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的方法是關(guān)聯(lián)規(guī)則挖掘、相關(guān)規(guī)則挖掘、Web挖掘等數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)的一個(gè)參考文獻(xiàn)是韓家煒等著,《數(shù)據(jù)挖掘概念與技術(shù)》(機(jī)械工業(yè)出版社,2001)。
數(shù)據(jù)挖掘的一個(gè)核心技術(shù)是從數(shù)據(jù)庫中存儲(chǔ)的大量數(shù)據(jù)中挖掘數(shù)據(jù)項(xiàng)之間的因果關(guān)系的規(guī)律。傳統(tǒng)的方法是挖掘關(guān)聯(lián)規(guī)則,給出滿足最小支持度和最小置信度條件的形如“如果A,則B”的關(guān)聯(lián)規(guī)則。其中關(guān)聯(lián)規(guī)則“如果A,則B”的支持度是A和B同時(shí)發(fā)生的概率;它的置信度是發(fā)生A的條件下發(fā)生B的概率。關(guān)聯(lián)規(guī)則“如果A,則B”的支持度p(A∩B)反映規(guī)則的有用性,置信度p(B|A)反映規(guī)則的確定性。挖掘關(guān)聯(lián)規(guī)則的一般過程是先生成滿足最小支持度條件的頻繁項(xiàng)集,再由頻繁項(xiàng)集產(chǎn)生滿足最小置信度條件的關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘的一個(gè)典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品的關(guān)聯(lián),分析顧客的購買習(xí)慣,從而幫助零售商制定營銷策略和商業(yè)布局。隨著數(shù)據(jù)量越來越大,許多業(yè)界人士對(duì)于從數(shù)據(jù)庫中的大量數(shù)據(jù)間挖掘規(guī)律越來越感興趣。
關(guān)聯(lián)規(guī)則本身存在的缺陷是,關(guān)聯(lián)規(guī)則“如果A,則B”的置信度只是給定A、B之間條件概率的估計(jì),不必指示因果關(guān)系,并不度量A和B之間蘊(yùn)涵的實(shí)際強(qiáng)度。舉個(gè)例子來說明。在某商店的事務(wù)分析中,60%的事務(wù)包含購買計(jì)算機(jī)游戲,75%的事務(wù)包含購買錄像,而40%的事務(wù)同時(shí)包含計(jì)算機(jī)游戲和錄像。設(shè)A=購買計(jì)算機(jī)游戲,B=購買錄像,則關(guān)聯(lián)規(guī)則“如果A,則B”的支持度為40%,置信度約為66%。如果設(shè)置最小支持度為20%,最小置信度為60%,則關(guān)聯(lián)規(guī)則“如果A,則B”將作為強(qiáng)關(guān)聯(lián)規(guī)則向用戶報(bào)告。然而,購買錄像的可能性是75%,比66%還大,因此,計(jì)算機(jī)游戲和錄像是負(fù)相關(guān)的,買其中一種實(shí)際上減小了買另一種的可能性。由這個(gè)例子可見,關(guān)聯(lián)規(guī)則“如果A,則B”的置信度有一定的欺騙性,并不度量A和B之間蘊(yùn)涵的實(shí)際強(qiáng)度,有可能產(chǎn)生誤導(dǎo)。
另一種傳統(tǒng)的方法是相關(guān)規(guī)則的挖掘,這里相關(guān)規(guī)則“如果A,則B”中A和B之間的相關(guān)性通過來度量。這個(gè)值大于1,等于1,小于1分別反映A和B之間是正相關(guān),獨(dú)立無關(guān),負(fù)相關(guān)。它反映了統(tǒng)計(jì)的相關(guān)性,但是它的缺陷是沒有反映A和B之間蘊(yùn)涵的實(shí)際強(qiáng)度。
此外,國家知識(shí)產(chǎn)權(quán)局于2004年4月14日公告授權(quán)的03105330.0號(hào)《一種基于信息挖掘的智能決策支持構(gòu)造方法》(申請(qǐng)日2003年2月23日)的發(fā)明專利屬于Web挖掘的例子,Web挖掘從大量非結(jié)構(gòu)化、異構(gòu)的Web文檔的集合中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識(shí)(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)。其主要數(shù)據(jù)挖掘的方式是關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn);聚類和分類。利用這些方法來給出能從大量的、異質(zhì)的Web信息資源中,快速、有效地發(fā)現(xiàn)資源和知識(shí)的工具。該方法的特點(diǎn)是針對(duì)Web網(wǎng)頁內(nèi)容、用戶訪問信息、電子商務(wù)信息等Web信息源的多樣性,根據(jù)處理對(duì)象的不同,采用適當(dāng)?shù)耐诰蚍椒?,?duì)目標(biāo)樣本進(jìn)行挖掘處理,得到潛在的知識(shí)或者模式。方法中存在的問題是僅僅集成了多種傳統(tǒng)的數(shù)據(jù)挖掘方式,并根據(jù)任務(wù)選擇適當(dāng)?shù)臄?shù)據(jù)挖掘方式,因而不能有效地克服前面提到的傳統(tǒng)的數(shù)據(jù)挖掘方法的缺陷。
二、不確定性推理技術(shù)不確定性可以理解為在缺少足夠信息的情況下做出判斷,是智能問題的特征之一;推理是人類的思維過程,它是從已知事實(shí)出發(fā),通過運(yùn)用相關(guān)的知識(shí)逐步推出某個(gè)結(jié)論的過程。所謂不確定性推理就是從不確定性初始證據(jù)出發(fā),通過運(yùn)用不確定性的知識(shí),最終推出具有一定程度的不確定性但卻是基本合理的結(jié)論的思維過程。
最常見的不確定性是隨機(jī)性。處理隨機(jī)性的典型理論是數(shù)學(xué)上的概率論。反映到推理上,概率論體現(xiàn)為一種“概率邏輯”。概率邏輯分兩種。一種是“定量的”概率邏輯。在定量的概率邏輯里面,對(duì)命題成立的概率是多少進(jìn)行數(shù)學(xué)上的計(jì)算和推算。在復(fù)雜的推理中,相應(yīng)的概率邏輯具有一種網(wǎng)絡(luò)式的結(jié)構(gòu),這就是所謂的“信念網(wǎng)絡(luò)”或“貝葉斯網(wǎng)絡(luò)”。另一種是“定性的”概率邏輯。這種邏輯不具體涉及命題成立的概率值是多少,只是進(jìn)行定性的討論。另一種不確定性是模糊性。比如,說某學(xué)生“成績良好”的時(shí)候,“成績良好”的范圍是不確定的,由此帶來整個(gè)命題的不確定性。處理模糊性的典型理論是模糊數(shù)學(xué)。經(jīng)過多年的努力,模糊數(shù)學(xué)已經(jīng)廣泛地用到許多實(shí)際領(lǐng)域。除此之外,還有其它的不確定性推理模型,在此不作介紹。
在面向各種具體應(yīng)用領(lǐng)域的專家系統(tǒng)中,不確定性推理的數(shù)學(xué)模型被廣泛研究和使用。在實(shí)際應(yīng)用中,上述不確定推理方法也存在著各自的問題。例如貝葉斯網(wǎng)絡(luò)對(duì)數(shù)據(jù)有一定的要求,構(gòu)造貝葉斯網(wǎng)絡(luò)時(shí)事件要滿足條件獨(dú)立的前提;模糊數(shù)學(xué)中隸屬函數(shù)的確定有一定的主觀性,模糊系統(tǒng)適合于人的經(jīng)驗(yàn)的有效控制系統(tǒng)而不適合于高精度定量的系統(tǒng)等。

發(fā)明內(nèi)容
本發(fā)明目的是克服現(xiàn)有技術(shù)存在的上述不足,提供一種以信息推理為核心,從大量現(xiàn)有數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,獲得有價(jià)值的信息,并利用這些信息進(jìn)行智能決策分析和推理以便解決用戶所提出實(shí)際問題的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法。
本發(fā)明方法的特點(diǎn)是使用新的信息理論發(fā)現(xiàn)大量數(shù)據(jù)當(dāng)中蘊(yùn)含的規(guī)律,給出相應(yīng)的信息推理規(guī)則及其可信度的定量數(shù)值,使用信息推理提取大量數(shù)據(jù)中有價(jià)值的信息并加以處理,在此基礎(chǔ)上構(gòu)造智能計(jì)算機(jī)系統(tǒng)。
本發(fā)明方法是建立在新的信息理論的基礎(chǔ)上新的信息理論中,兩個(gè)事件A和B的關(guān)聯(lián)度可正可負(fù),即反映事件A和B之間“正面關(guān)聯(lián)”或“反面關(guān)聯(lián)”的程度,在此基礎(chǔ)上給出可信度,度量事件A和B之間蘊(yùn)涵的實(shí)際強(qiáng)度。事件A和B之間“正面關(guān)聯(lián)”時(shí),可信度為正;“反面關(guān)聯(lián)”時(shí),可信度為負(fù);獨(dú)立時(shí),可信度為0。
本發(fā)明提供的基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法,是以計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)中的中央處理器和數(shù)據(jù)存儲(chǔ)器為智能系統(tǒng)的硬件基礎(chǔ),以信息推理為核心,其中所述的數(shù)據(jù)存儲(chǔ)器用于存儲(chǔ)與任務(wù)有關(guān)的數(shù)據(jù)庫、由選擇任務(wù)相關(guān)的數(shù)據(jù)生成的數(shù)據(jù)表、用于信息推理的各種參數(shù)、由數(shù)據(jù)表計(jì)算出的概率場、以及得出的信息推理規(guī)則和可信度,該方法的具體構(gòu)造步驟如下 第1、首先由用戶提出所要解決的問題,即事件B; 第2、分析用戶的需求,選擇數(shù)據(jù)庫中與需求相關(guān)的數(shù)據(jù),收集解決用戶問題要用到的外部數(shù)據(jù),對(duì)外部數(shù)據(jù)和存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整理得到目標(biāo)數(shù)據(jù); 第3、按照用戶要求,交互地由用戶選擇計(jì)算中所用的數(shù)據(jù),經(jīng)過離散化等數(shù)據(jù)預(yù)處理生成數(shù)據(jù)表,由用戶設(shè)置計(jì)算中可調(diào)的參數(shù)可信度的正閾值與負(fù)閾值; 第4、由數(shù)據(jù)表計(jì)算概率場,即從數(shù)據(jù)表計(jì)算事件的頻率,根據(jù)概率論中的大數(shù)定律,當(dāng)數(shù)據(jù)量足夠豐富時(shí),頻率將接近于概率,從而將事件的頻率作為事件的概率就得到概率場; 第5、由數(shù)據(jù)表發(fā)現(xiàn)數(shù)據(jù)當(dāng)中蘊(yùn)含的形如“如果事件A成立,那么事件B成立”的規(guī)律,使用新的信息理論計(jì)算規(guī)律的可信度,當(dāng)可信度大于正閾值或者小于負(fù)閾值時(shí)得到信息推理規(guī)則; 第6、保存第5步得到的信息推理規(guī)則和計(jì)算出的可信度結(jié)果; 第7、交互地將提取的信息顯示給用戶,幫助用戶進(jìn)行獲取信息的評(píng)價(jià)。
以上第3步所述的數(shù)據(jù)預(yù)處理包括完成數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約和離散化,其中 第3.1、數(shù)據(jù)清理,是要填寫空缺的值,處理不完整數(shù)據(jù),解決不一致的數(shù)據(jù); 第3.2、數(shù)據(jù)集成和變換,是由多個(gè)數(shù)據(jù)存儲(chǔ)合并數(shù)據(jù),根據(jù)需要變換成適合信息推理的形式; 第3.3、數(shù)據(jù)歸約和離散化,是將數(shù)據(jù)集進(jìn)行壓縮,使用新的信息理論在歸約后的數(shù)據(jù)集上進(jìn)行信息推理將更有效。
第5步所述的得到信息推理規(guī)則的具體方法是 第5.1、對(duì)于事件A和B,由概率場得到p(A),p(B)和p(A,B); 第5.2、比較p(A)p(B)和P(A,B)的大小,判斷事件A和B的關(guān)聯(lián)性 當(dāng)p(A,B)>p(A)p(B),是正面關(guān)聯(lián), 當(dāng)p(A,B)=p(A)p(B),獨(dú)立無關(guān), 當(dāng)p(A,B)<p(A)p(B),是反面關(guān)聯(lián); 然后根據(jù)以上不同情況按如下計(jì)算公式計(jì)算規(guī)則A→B的可信度H(A→B)
第5.3、當(dāng)可信度H(A→B)大于可信度的正閾值或者小于可信度的負(fù)閾值,則得到信息推理規(guī)則A→B,輸出規(guī)則“如果A,則B”及其可信度H(A→B)。
這一步是提取信息和進(jìn)行信息推理的核心。
對(duì)于多個(gè)前提下可信度的計(jì)算是完全類似的,即第5步所述的得到信息推理規(guī)則的具體方法是 第5.4、對(duì)于事件A1、A2…An和B,由概率場得到p(A1,A2,...,An),p(B)和p(A1,A2,...,An,B); 第5.5、比較p(A1,A2,...,An)p(B)和p(A1,A2,...,An,B)的大小,然后根據(jù)不同情況按如下計(jì)算公式計(jì)算規(guī)則A1,A2,...,An→B的可信度H(A1,A2,...,An→B)
第5.6、當(dāng)可信度H(A1,A2,...,An→B)大于可信度的正閾值或者小于可信度的負(fù)閾值,則得到信息推理規(guī)則A1,A2,...,An→B,輸出規(guī)則“如果A1,A2,...,An,則B”及其可信度H(A1,A2,...,An→B)。
下面介紹本發(fā)明的理論基礎(chǔ)新的信息理論。
事件S的補(bǔ)集

表示事件S的信息。事件S的信息量滿足公理 (a)非負(fù)性事件的信息量總非負(fù); (b)嚴(yán)格單調(diào)性若事件A的概率小于事件B的概率,則事件A的信息量大于事件B的信息量; (c)可加性若事件A與事件B獨(dú)立,則事件“A且B”的信息量等于事件A的信息量加上事件B的信息量。
數(shù)學(xué)上可以證明在上述公理下,事件S的信息量為 其中p(S)是事件S的概率。事件包含的信息愈多,則信息量愈大,推理潛能愈強(qiáng)。
由兩個(gè)事件S1和S2的基本信息量

可以給出兩個(gè)事件的派生信息量



。

稱為事件S1和S2的關(guān)聯(lián)度;

稱為事件S2對(duì)S1的差異度。

與傳統(tǒng)信息量中的互信息不同,互信息始終非負(fù),而

可正可負(fù),反映事件S1和S2“正面關(guān)聯(lián)”與“反面關(guān)聯(lián)”的程度。例如,例.S1=戴眼鏡,S2=知識(shí)分子,則

>0,S1和S2正面關(guān)聯(lián);S1=戴眼鏡,S2=兒童,則

<0,S1和S2反面關(guān)聯(lián);S1=假日,S2=地震,則

=0,S1和S2獨(dú)立無關(guān)。
圖1是關(guān)于信息的韋恩圖,由它可以得出兩個(gè)事件的基本信息量與派生信息量之間的各種可加關(guān)系。例如,
等等。
規(guī)律S′→S的可信度是已知證據(jù)S′的已知信息提取未知原因S的未知信息的信息量的比重。實(shí)際應(yīng)用中,當(dāng)S′和S反面關(guān)聯(lián)時(shí),為了使得可信度取值在[-1,0],用-H(S′→

)(這里的

是S的對(duì)立事件而不是S的信息)作為反面關(guān)聯(lián)時(shí)的可信度。用公式來說,就是
可信度不僅反映了相關(guān)性,而且反映了蘊(yùn)涵的實(shí)際強(qiáng)度。
本發(fā)明的優(yōu)點(diǎn)和積極效果 本發(fā)明構(gòu)造的智能計(jì)算機(jī)系統(tǒng)可對(duì)大量數(shù)據(jù)進(jìn)行智能化的信息處理,自動(dòng)地從數(shù)據(jù)中提取信息,發(fā)現(xiàn)大量數(shù)據(jù)之中的規(guī)律,用信息推理規(guī)則表示規(guī)律并給出信息推理規(guī)則的可信度的定量數(shù)值,可信度不僅反映規(guī)律A→B中A與B之間是正面關(guān)聯(lián),獨(dú)立無關(guān)還是反面關(guān)聯(lián),并且它也度量推理規(guī)則A→B中證據(jù)A蘊(yùn)涵結(jié)果B的實(shí)際強(qiáng)度,即定量地給出信息推理中證據(jù)充分的程度,從而幫助用戶從其所有的大量數(shù)據(jù)中獲取有價(jià)值的信息,本發(fā)明可以廣泛地應(yīng)用于從大量現(xiàn)有數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,獲得有價(jià)值的信息,并利用這些信息進(jìn)行智能決策分析和推理以便解決用戶所提出實(shí)際問題的各種計(jì)算機(jī)系統(tǒng)或智能機(jī)器人等。


圖1是關(guān)于信息的韋恩圖; 圖2是智能系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施方式
該方法可以通過編程制成相應(yīng)的計(jì)算機(jī)軟件來具體實(shí)施。
本發(fā)明提供的基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法,是以計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)中的中央處理器和數(shù)據(jù)存儲(chǔ)器為智能系統(tǒng)的硬件基礎(chǔ),以信息推理為核心,其中所述的數(shù)據(jù)存儲(chǔ)器用于存儲(chǔ)與任務(wù)有關(guān)的數(shù)據(jù)庫、由選擇任務(wù)相關(guān)的數(shù)據(jù)生成的數(shù)據(jù)表、用于信息推理的各種參數(shù)、由數(shù)據(jù)表計(jì)算出的概率場、以及得出的信息推理規(guī)則和可信度,該方法的具體構(gòu)造步驟如下 第1、首先由用戶提出所要解決的問題,即事件B; 第2、分析用戶的需求,選擇數(shù)據(jù)庫中與需求相關(guān)的數(shù)據(jù),收集解決用戶問題要用到的外部數(shù)據(jù),對(duì)外部數(shù)據(jù)和存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整理得到目標(biāo)數(shù)據(jù); 第3、按照用戶要求,交互地由用戶選擇計(jì)算中所用的數(shù)據(jù),經(jīng)過離散化等數(shù)據(jù)預(yù)處理生成數(shù)據(jù)表,由用戶設(shè)置計(jì)算中可調(diào)的參數(shù)可信度的正閾值與負(fù)閾值; 第4、由數(shù)據(jù)表計(jì)算概率場,即從數(shù)據(jù)表計(jì)算事件的頻率,根據(jù)概率論中的大數(shù)定律,當(dāng)數(shù)據(jù)量足夠豐富時(shí),頻率將接近于概率,從而將事件的頻率作為事件的概率就得到概率場; 第5、由數(shù)據(jù)表發(fā)現(xiàn)數(shù)據(jù)當(dāng)中蘊(yùn)含的形如“如果事件A成立,那么事件B成立”的規(guī)律,使用新的信息理論計(jì)算規(guī)律的可信度,當(dāng)可信度大于正閾值或者小于負(fù)閾值時(shí)得到信息推理規(guī)則,具體方法是 第5.1、對(duì)于事件A和B,由概率場得到p(A),p(B)和p(A,B); 第5.2、比較p(A)p(B)和P(A,B)的大小,判斷事件A和B的關(guān)聯(lián)性 當(dāng)p(A,B)>p(A)p(B),是正面關(guān)聯(lián), 當(dāng)p(A,B)=p(A)p(B),獨(dú)立無關(guān), 當(dāng)p(A,B)<p(A)p(B),是反面關(guān)聯(lián); 然后根據(jù)以上不同情況按如下計(jì)算公式計(jì)算規(guī)則A→B的可信度H(A→B)
第5.3、當(dāng)可信度H(A→B)的絕對(duì)值大于等于最小可信度的閾值,則得到信息推理規(guī)則A→B,輸出規(guī)則“如果A,則B”及其可信度H(A→B)。
這一步是提取信息和進(jìn)行信息推理的核心。對(duì)于多個(gè)前提下可信度的計(jì)算是完全類似的。
第6、保存第5步得到的信息推理規(guī)則和計(jì)算出的可信度結(jié)果; 第7、交互地將提取的信息顯示給用戶,幫助用戶進(jìn)行獲取信息的評(píng)價(jià)。
實(shí)施例1 下面我們來看一個(gè)從數(shù)據(jù)計(jì)算可信度的例子。
設(shè)某學(xué)校有1000個(gè)學(xué)生。數(shù)據(jù)中包含性別、成績和健康三個(gè)屬性。性別的屬性值是男、女;成績的屬性值是優(yōu)、良、劣;健康的屬性值是上、中、下。將相同屬性值的學(xué)生歸并成一個(gè)學(xué)生組并記下組中的學(xué)生人數(shù)。據(jù)此得到一個(gè)數(shù)據(jù)表 表1 根據(jù)上述數(shù)據(jù),我們來計(jì)算規(guī)律“如果A,則B”的可信度,其中A=健康是上,B=成績優(yōu)秀(即指用戶的需求)。由上表的數(shù)據(jù),有 由于A和B反面關(guān)聯(lián),從而規(guī)律“如果健康是上,則成績優(yōu)秀”的可信度為 即健康是上較弱地否定成績優(yōu)秀。
同樣方法來計(jì)算規(guī)律“如果A,則B”的可信度,其中A=女生,B=成績良。則得可信度為H(A→B)=-0.06,可知是很弱的反面關(guān)聯(lián),而這個(gè)規(guī)則作為關(guān)聯(lián)規(guī)則的置信度為并不反映女生與成績良之間近乎獨(dú)立無關(guān)的情況。由此可見在發(fā)現(xiàn)和處理因果關(guān)系的規(guī)律上本發(fā)明提出的方法有優(yōu)越之處。
實(shí)施例2多個(gè)前提下可信度的計(jì)算。
例如我們來計(jì)算規(guī)律“如果A1并且A2,則B”的可信度,其中A1=男生,A2=健康是上,B=成績優(yōu)秀。由上表的數(shù)據(jù),有 由于前提與結(jié)論反面關(guān)聯(lián),從而規(guī)律“如果男生且健康是上,則成績優(yōu)秀”的可信度為 即男生且健康是上較弱地否定成績優(yōu)秀。
這里,所謂“規(guī)律”應(yīng)該反映事件A與事件B之間的關(guān)系,更確切地說,是二者之間可信度為H(A→B)的信息推理規(guī)則“如果A,則B”。與關(guān)聯(lián)規(guī)則的置信度不同,可信度可正可負(fù),本發(fā)明可以發(fā)現(xiàn)有用的強(qiáng)的正信息推理規(guī)則與強(qiáng)的負(fù)信息推理規(guī)則,這里強(qiáng)是指可信度的絕對(duì)值大,規(guī)則越強(qiáng),那么規(guī)則“如果A,則B”的蘊(yùn)涵的實(shí)際強(qiáng)度越大。實(shí)際應(yīng)用中設(shè)定可信度的正、負(fù)閾值,當(dāng)信息推理規(guī)則的可信度大于正的閾值或小于負(fù)的閾值,則認(rèn)為是強(qiáng)的信息推理規(guī)則。極端情況H(A→B)=1,那么規(guī)則“如果A,則B”100%成立;H(A→B)=-1,那么規(guī)則“如果A,則非B”100%成立。
實(shí)施例3地球化學(xué)探礦中的應(yīng)用 在某地區(qū)進(jìn)行金礦的勘探,根據(jù)地球化學(xué)理論,在一些區(qū)域進(jìn)行了實(shí)地勘探,結(jié)果其中有些區(qū)域發(fā)現(xiàn)金礦,另一些區(qū)域沒有發(fā)現(xiàn)金礦。
對(duì)于這個(gè)實(shí)施例,具體實(shí)施步驟如下 第1、用戶是地質(zhì)勘探人員,他們所提出的問題是如何根據(jù)已勘探過的區(qū)域的情況去判斷未勘探過的區(qū)域地下是否有金礦。這里,目標(biāo)事件B是“地下有金礦”。
第2、現(xiàn)有在該地區(qū)所有地點(diǎn)采樣而得到的地表元素含量的數(shù)據(jù)庫。每四平方公里采一個(gè)樣本,每個(gè)樣本分析金、銀、鉛、鋅等三十多種元素的含量。元素含量數(shù)據(jù)庫中數(shù)據(jù)表的形式如下(只列了10種元素) 在信息推理中不需要考慮橫坐標(biāo)和縱坐標(biāo)。根據(jù)用戶的專業(yè)知識(shí),某些元素與地下是否有金礦沒有關(guān)系。因此,在構(gòu)造智能系統(tǒng)時(shí),選擇元素含量數(shù)據(jù)庫中已勘探區(qū)域的數(shù)據(jù),刪去橫、縱坐標(biāo)以及上述與金礦無關(guān)的元素,保留其余元素的數(shù)據(jù)用于信息推理的計(jì)算。除了數(shù)據(jù)庫中的元素含量數(shù)據(jù)外,還要加上已勘探區(qū)域的金礦勘探結(jié)果作為外部數(shù)據(jù),加以整合后得到目標(biāo)數(shù)據(jù)(圖2的步驟1)。對(duì)于本例來說,目標(biāo)數(shù)據(jù)的形式如下 其中金礦屬性值為0表示沒有金礦,為1表示有金礦。
第3、按照用戶要求,交互地由用戶選擇計(jì)算中所用的數(shù)據(jù),在本例中,用戶選擇全部目標(biāo)數(shù)據(jù),經(jīng)過離散化等數(shù)據(jù)預(yù)處理生成數(shù)據(jù)表(圖2的步驟2),數(shù)據(jù)表的形式如下 由用戶設(shè)置計(jì)算中可調(diào)的參數(shù)可信度的正閾值與負(fù)閾值,在本例中,正閾值設(shè)為0.75,負(fù)閾值設(shè)為-0.65. 第4、由數(shù)據(jù)表計(jì)算概率場,即從數(shù)據(jù)表可以計(jì)算事件的頻率,根據(jù)概率論中的大數(shù)定律,當(dāng)數(shù)據(jù)量足夠豐富時(shí),頻率將接近于概率,從而將事件的頻率作為事件的概率就得到概率場; 第5、對(duì)于本例,解決問題的關(guān)鍵是從數(shù)據(jù)中發(fā)現(xiàn)各種元素的含量對(duì)于地下是否有金礦的規(guī)律,在此基礎(chǔ)上進(jìn)行信息推理來幫助判斷未進(jìn)行實(shí)地勘探區(qū)域的地下是否有金礦。這里要尋找的是結(jié)論B為“有金礦”而前提A為元素含量組合的規(guī)律。這種規(guī)律反映由前提到結(jié)論的因果關(guān)系。具體來說,由數(shù)據(jù)表發(fā)現(xiàn)數(shù)據(jù)當(dāng)中蘊(yùn)含的形如“如果事件A1,A2,...,An成立,那么事件B成立”的規(guī)律,使用新的信息理論計(jì)算推理規(guī)則A1,A2,...,An→B的可信度。在本實(shí)施例中,對(duì)于n等于1或者2,計(jì)算所有形如A1,A2,...,An→B的推理規(guī)則的可信度,當(dāng)可信度大于正閾值或者小于負(fù)閾值時(shí)得到信息推理規(guī)則,對(duì)于三個(gè)或三個(gè)以上前提的情況,在本例中只考慮在兩個(gè)前提的信息推理計(jì)算基礎(chǔ)上增加新前提去發(fā)現(xiàn)規(guī)律(圖2的步驟3)。例如,由數(shù)據(jù)表計(jì)算可得信息推理規(guī)則“如果三氧化二鐵含量數(shù)據(jù)值為4,并且氧化鈣含量數(shù)據(jù)值為1,則有金礦”的可信度=-93%。這里可信度為負(fù),說明前提和結(jié)論是反面關(guān)聯(lián)。由可信度小于負(fù)閾值可見這是一條強(qiáng)的負(fù)面信息推理規(guī)則。
第6、保存第5步得到的信息推理規(guī)則和計(jì)算出的可信度結(jié)果; 第7、將第6步保存的信息推理規(guī)則加以解釋,例如“如果三氧化二鐵含量數(shù)據(jù)值為4,并且氧化鈣含量數(shù)據(jù)值為1,則有金礦”,其可信度為-93%,實(shí)際上是“如果三氧化二鐵含量在9.5到12之間,并且氧化鈣的含量在1.4到2之間,則有金礦”,其可信度為-93%。整理后形成信息推理結(jié)果的報(bào)告,交互地將提取的信息顯示給用戶,幫助用戶進(jìn)行獲取信息的評(píng)價(jià)。
最后發(fā)現(xiàn)的信息推理規(guī)則都反映數(shù)據(jù)中的前提到結(jié)論(“有金礦”)的因果關(guān)系,可信度確實(shí)反映了從數(shù)據(jù)中得到的前提到結(jié)論的推理規(guī)則的蘊(yùn)涵強(qiáng)度。用戶(地質(zhì)勘探人員)可以利用信息推理所提取的數(shù)據(jù)中的信息來作為判斷未勘探區(qū)域地下是否有金礦的依據(jù)。對(duì)于本實(shí)施例,在定量發(fā)現(xiàn)因果規(guī)律時(shí),本發(fā)明提供的技術(shù)方案比傳統(tǒng)技術(shù)方案要優(yōu)越,信息推理所提取的信息對(duì)地球化學(xué)的研究有幫助。
權(quán)利要求
1、一種基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法,該方法以計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)中的中央處理器和數(shù)據(jù)存儲(chǔ)器為智能系統(tǒng)的硬件基礎(chǔ),以信息推理為核心,其中所述的數(shù)據(jù)存儲(chǔ)器用于存儲(chǔ)與信息推理有關(guān)的數(shù)據(jù)庫、由選擇任務(wù)相關(guān)的數(shù)據(jù)生成的數(shù)據(jù)表、由數(shù)據(jù)表計(jì)算出的概率場、用于信息推理計(jì)算的參數(shù)、以及得出的信息推理規(guī)則和可信度,該方法的具體構(gòu)造步驟如下
第1、首先由用戶提出所要解決的問題,即事件B;
第2、分析用戶的需求,選擇數(shù)據(jù)庫中與需求相關(guān)的數(shù)據(jù),收集解決用戶問題要用到的外部數(shù)據(jù),對(duì)外部數(shù)據(jù)和存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整理得到目標(biāo)數(shù)據(jù);
第3、按照用戶要求,交互地由用戶選擇計(jì)算中所用的數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理生成數(shù)據(jù)表,由用戶設(shè)置計(jì)算中可調(diào)的參數(shù)可信度的正閾值與負(fù)閾值;
第4、由數(shù)據(jù)表計(jì)算概率場,即從數(shù)據(jù)表計(jì)算事件的頻率,根據(jù)概率論中的大數(shù)定律,當(dāng)數(shù)據(jù)量足夠豐富時(shí),頻率將接近于概率,從而將事件的頻率作為事件的概率就得到概率場;
第5、由數(shù)據(jù)表發(fā)現(xiàn)數(shù)據(jù)當(dāng)中蘊(yùn)含的形如“如果事件A成立,那么事件B成立”的規(guī)律,使用新的信息理論計(jì)算規(guī)律的可信度,當(dāng)可信度大于正閾值或者小于負(fù)閾值時(shí)得到信息推理規(guī)則;
第6、保存第5步得到的信息推理規(guī)則和計(jì)算出的可信度結(jié)果;
第7、交互地將第5步得到的信息推理規(guī)則顯示給用戶,幫助用戶進(jìn)行獲取信息的評(píng)價(jià)。
2、根據(jù)權(quán)利要求1所述的方法,其特征在于第3步所述的數(shù)據(jù)預(yù)處理包括完成數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約和離散化,其中
第3.1、數(shù)據(jù)清理,是要填寫空缺的值,處理不完整數(shù)據(jù),解決不一致的數(shù)據(jù);
第3.2、數(shù)據(jù)集成和變換,是由多個(gè)數(shù)據(jù)存儲(chǔ)合并數(shù)據(jù),根據(jù)需要變換成適合信息推理的形式;
第3.3、數(shù)據(jù)歸約和離散化,是將數(shù)據(jù)集進(jìn)行壓縮,使用新的信息理論在歸約后的數(shù)據(jù)集上進(jìn)行信息推理將更有效。
3、根據(jù)權(quán)利要求1所述的方法,其特征在于第5步所述的發(fā)現(xiàn)數(shù)據(jù)當(dāng)中蘊(yùn)含的形如“如果事件A成立,那么事件B成立”的規(guī)律的具體方法是
第5.1、對(duì)于事件A和B,由概率場得到p(A),p(B)和p(A,B);
第5.2、比較p(A)p(B)和P(A,B)的大小,判斷事件A和B的關(guān)聯(lián)性
當(dāng)p(A,B)>p(A)p(B),是正面關(guān)聯(lián),
當(dāng)p(A,B)=p(A)p(B),獨(dú)立無關(guān),
當(dāng)p(A,B)<p(A)p(B),是反面關(guān)聯(lián);
然后根據(jù)以上不同情況按如下計(jì)算公式計(jì)算規(guī)則A→B的可信度H(A→B)
第5.3、當(dāng)可信度H(A→B)大于可信度的正閾值或者小于可信度的負(fù)閾值,則得到信息推理規(guī)則A→B,輸出規(guī)則“如果A,則B”及其可信度H(A→B)。
4、根據(jù)權(quán)利要求1所述的方法,其特征在于對(duì)于多個(gè)前提下可信度的計(jì)算,第5步所述的方法是
第5.4、對(duì)于事件A1、A2...An和B,由概率場得到p(A1,A2,...,An),p(B)和p(A1,A2,...,An,B);
第5.5、比較p(A1,A2,...,An)p(B)和p(A1,A2,...,An,B)的大小,然后根據(jù)不同情況按如下計(jì)算公式計(jì)算規(guī)則A1,A2,...,An→B的可信度H(A1,A2,...,An→B)
第5.6、當(dāng)可信度H(A1,A2,...,An→B)大于可信度的正閾值或者小于可信度的負(fù)閾值,則得到信息推理規(guī)則A1,A2,...,An→B,輸出規(guī)則“如果A1,A2,...,An,則B”及其可信度H(A1,A2,...,An→B)。
全文摘要
一種基于信息推理的智能計(jì)算機(jī)系統(tǒng)構(gòu)造方法。該方法以信息推理為核心,具體步驟由用戶提出問題,分析用戶的需求,選擇數(shù)據(jù)庫中與需求相關(guān)的數(shù)據(jù),收集解決問題要用的外部數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;生成數(shù)據(jù)表,計(jì)算概率場,根據(jù)新的信息理論進(jìn)行信息推理規(guī)則的可信度計(jì)算,輸出信息推理規(guī)則“如果A,則B”及其可信度;保存發(fā)現(xiàn)的信息推理規(guī)則的結(jié)果。本發(fā)明構(gòu)造的智能計(jì)算機(jī)系統(tǒng)可對(duì)大量數(shù)據(jù)進(jìn)行智能化的信息處理,根據(jù)信息推理規(guī)則“如果A,則B”的可信度判斷A與B是正面關(guān)聯(lián),獨(dú)立無關(guān)還是反面關(guān)聯(lián),并定量給出推理中證據(jù)充分的程度。本發(fā)明幫助用戶從其所有的大量數(shù)據(jù)中獲取有價(jià)值的信息,可廣泛地應(yīng)用于大量數(shù)據(jù)上的智能系統(tǒng)的構(gòu)造。
文檔編號(hào)G06F17/30GK101599072SQ20091006954
公開日2009年12月9日 申請(qǐng)日期2009年7月3日 優(yōu)先權(quán)日2009年7月3日
發(fā)明者胡國定 申請(qǐng)人:南開大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1