專利名稱:構(gòu)造混合模型的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及構(gòu)造混合模型的方法。
背景技術(shù):
數(shù)據(jù)挖掘是用于從數(shù)據(jù)中提取信息和值的技木。數(shù)據(jù)挖掘算法用于許多應(yīng)用中,例如預(yù)測(cè)購(gòu)物者對(duì)目標(biāo)市場(chǎng)的消費(fèi)習(xí)慣、檢測(cè)信用卡詐騙交易、預(yù)測(cè)顧客的網(wǎng)站的瀏覽路線、機(jī)器的故障檢測(cè)等。數(shù)據(jù)挖掘使用多年來(lái)由人工智能(Al)和統(tǒng)計(jì)建模團(tuán)體所開(kāi)發(fā)的一系列算法。存在許多不同類的算法,但是它們?nèi)抗灿些`些共同特征,例如(a)表示(隱式地或顯式地)數(shù)據(jù)域的知識(shí)的模型,(b)使用訓(xùn)練數(shù)據(jù)來(lái)構(gòu)造模型的模型構(gòu)建或?qū)W習(xí)階段,以及(3)獲得新數(shù)據(jù)并且對(duì)數(shù)據(jù)應(yīng)用模型以進(jìn)行預(yù)測(cè)的推理工具。已知的示例是線性回歸模型,其中通過(guò)對(duì)第二變量的值進(jìn)行加權(quán)并且對(duì)加權(quán)值與常數(shù)值進(jìn)行求和,由第二變量來(lái)預(yù)測(cè)第一變量。加權(quán)和常數(shù)值是模型的參數(shù)?;旌夏P褪菍W(xué)術(shù)研究團(tuán)體中的數(shù)據(jù)挖掘應(yīng)用的常用模型,如G McLachlan和D Peel 在有限混合模型(Finite Mixture Models) (John ffiley&Sons, (2000))中所述。存在混合模型的類的變化,例如混合專家(Mixture of Experts)和分層混合專家(Hierarchical Mixture of Experts)。還存在用于構(gòu)建混合模型的有大量文獻(xiàn)證明的算法。一個(gè)示例是期望最大化(EM)。一般通過(guò)識(shí)別數(shù)據(jù)中的簇或成分并且將適當(dāng)數(shù)學(xué)函數(shù)擬合每個(gè)簇,來(lái)構(gòu)造這類混合模型。
發(fā)明內(nèi)容
在ー個(gè)方面,生成非暫時(shí)介質(zhì)中存儲(chǔ)的數(shù)據(jù)集的一般混合模型(general mixturemodel)的方法包括下列步驟提供用于定義數(shù)據(jù)集的子集的子集標(biāo)準(zhǔn);在處理器中基于子集標(biāo)準(zhǔn)將數(shù)據(jù)集劃分為至少兩個(gè)子集;生成至少兩個(gè)子集的每個(gè)的子集混合模型;以及將至少兩個(gè)子集的每個(gè)的子集混合模型組合為一般混合模型。
附圖包括圖I是示出按照本發(fā)明的一個(gè)實(shí)施例的生成一般混合模型的方法的流程圖。圖2是示出作為圖I所示方法的一部分的從子集混合模型過(guò)濾成分的方法的流程圖。圖3是示出按照?qǐng)DI的生成一般混合模型的方法的數(shù)據(jù)集的過(guò)濾的示例的圖表。圖4是示出第一子集的子集混合模型的圖表。圖5是示出第二子集的子集混合模型的圖表。圖6是示出通過(guò)圖I公開(kāi)的方法而構(gòu)造的一般混合模型的圖表。附圖標(biāo)記說(shuō)明
100生成一般混合模型的方法;102數(shù)據(jù)庫(kù);104生成具有子集標(biāo)識(shí)的子集;106存在至少ー個(gè)子集? ;108子集標(biāo)準(zhǔn);110構(gòu)建每個(gè)子集的混合模型;112存在至少兩個(gè)子集? ;114子集模型是一般模型;116需要模型過(guò)濾? ;118從模型中去除成分;120將子集模型組合;122需要簡(jiǎn)化? ;124組合子集模型是一般模型;126簡(jiǎn)化組合模型;128簡(jiǎn)化模型是一般模型;140接收來(lái)自所有子集的所有成分;142選擇下ー個(gè)成分;144計(jì)算所選成分與其它子集中的所有其它成分的距離;146距離大于預(yù)定值? ;148所選成分是最后ー個(gè)成分? ;150去除所選成分;152識(shí)別最終成分集;180第一子集數(shù)據(jù);190第二子集數(shù)據(jù);G1第一簇?cái)M合函數(shù);G2第二簇?cái)M合函數(shù);G3第三簇?cái)M合函數(shù);G4第四簇?cái)M合函數(shù);G5第五簇?cái)M合函數(shù);μ !第一簇的均值;μ 2第二簇的均值 ;μ 3第三簇的均值;P 4第四簇的均值;μ 5第五簇的均值。
具體實(shí)施例方式為便于說(shuō)明,以下描述中提出了大量具體細(xì)節(jié),以便提供對(duì)本文所述技術(shù)的透徹理解。然而,本領(lǐng)域的技術(shù)人員將會(huì)清楚地知道,沒(méi)有這些具體細(xì)節(jié)也可實(shí)施示范實(shí)施例。在其它情況下,結(jié)構(gòu)和裝置以簡(jiǎn)圖形式示出,以便于示范實(shí)施例的描述。下面參照附圖來(lái)描述示范實(shí)施例。這些附圖示出實(shí)現(xiàn)本文所述的模塊、方法和計(jì)算機(jī)程序產(chǎn)品的具體實(shí)施例的某些細(xì)節(jié)。但是,附圖不應(yīng)當(dāng)被理解為施加附圖中可存能在的任何限制。方法和計(jì)算機(jī)程序產(chǎn)品可在任何機(jī)器可讀介質(zhì)上提供以用于實(shí)現(xiàn)其操作。實(shí)施例可使用現(xiàn)有的計(jì)算機(jī)處理器、或者通過(guò)為這個(gè)或另ー個(gè)目的而結(jié)合的專用計(jì)算機(jī)處理器、或者通過(guò)硬連線系統(tǒng)來(lái)實(shí)現(xiàn)。如上所述,本文所述的實(shí)施例包括計(jì)算機(jī)程序產(chǎn)品,其中包括用于攜帶或其上存儲(chǔ)了機(jī)器可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的機(jī)器可讀介質(zhì)。這類機(jī)器可讀介質(zhì)能夠是能夠由通用或?qū)S糜?jì)算機(jī)或者具有處理器的其它機(jī)器來(lái)訪問(wèn)的任何可用介質(zhì)。舉例來(lái)說(shuō),這類機(jī)器可讀介質(zhì)能夠包括RAM、ROM、EPR0M、EEPR0M、CD-ROM或其它光盤(pán)存儲(chǔ)裝置、磁盤(pán)存儲(chǔ)裝置或者其它磁存儲(chǔ)裝置、或者能夠用于攜帯或存儲(chǔ)采取機(jī)器可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的預(yù)期的程序代碼并且能夠由通用或?qū)S糜?jì)算機(jī)或者具有處理器的其它機(jī)器來(lái)訪問(wèn)的其它任何介質(zhì)。當(dāng)信息通過(guò)網(wǎng)絡(luò)或另ー種通信連接(硬連線、無(wú)線或者硬連線或無(wú)線的組合)傳遞或提供給機(jī)器時(shí),機(jī)器將連接適當(dāng)?shù)乜醋魇菣C(jī)器可讀介質(zhì)。因此,任何這種連接都適當(dāng)?shù)胤Q作機(jī)器可讀介質(zhì)。以上的組合也包含在機(jī)器可讀介質(zhì)的范圍之內(nèi)。機(jī)器可執(zhí)行指令例如包括使通用計(jì)算機(jī)、專用計(jì)算機(jī)或者專用處理機(jī)來(lái)執(zhí)行某個(gè)功能或某組功能的指令和數(shù)據(jù)。將在方法步驟的一般上下文中描述實(shí)施例,方法步驟在一個(gè)實(shí)施例中可通過(guò)程序產(chǎn)品來(lái)實(shí)現(xiàn),其中程序產(chǎn)品包括例如采取由組網(wǎng)環(huán)境中的機(jī)器所執(zhí)行的程序模塊形式的機(jī)器可執(zhí)行指令、如程序代碼。一般來(lái)說(shuō),程序模塊包括具有執(zhí)行特定任務(wù)或者實(shí)現(xiàn)特定抽象數(shù)據(jù)類型的技術(shù)效果的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。機(jī)器可執(zhí)行指令、關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)和程序模塊表示用于運(yùn)行本文所公開(kāi)方法的步驟的程序代碼的示例。這類可執(zhí)行指令或關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)的特定序列表示用于實(shí)現(xiàn)在這類步驟中所述的功能的相應(yīng)動(dòng)作的示例。實(shí)施例可在使用到具有處理器的一個(gè)或更多遠(yuǎn)程計(jì)算機(jī)的邏輯連接的組網(wǎng)環(huán)境中實(shí)施。邏輯連接可包括在此作為舉例而不是限制來(lái)提供的局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)。這類組網(wǎng)環(huán)境是辦公室范圍或企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中常見(jiàn)的,并且可使用很多種不同的通信協(xié)議。本領(lǐng)域的技術(shù)人員將會(huì)理解,這類網(wǎng)絡(luò)計(jì)算環(huán)境通常包含許多類型的計(jì)算機(jī)系統(tǒng)配置,其中包括個(gè)人計(jì)算機(jī)、手持裝置、多處理器系統(tǒng)、基于微處理器或者可編程的消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)等等。實(shí)施例還可在分布式計(jì) 算環(huán)境中實(shí)施,在這些環(huán)境中,任務(wù)由通過(guò)通信網(wǎng)絡(luò)鏈接(通過(guò)硬連線鏈路、無(wú)線鏈路或者通過(guò)硬連線或無(wú)線鏈路的組合)的本地和遠(yuǎn)程處理裝置來(lái)執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)裝置中。一種用于實(shí)現(xiàn)示范實(shí)施例的整體或部分的示范系統(tǒng)可包括采取計(jì)算機(jī)形式的通用計(jì)算裝置,其中包括處理單元、系統(tǒng)存儲(chǔ)器以及將包括系統(tǒng)存儲(chǔ)器在內(nèi)的各種系統(tǒng)組件耦合到處理單元的系統(tǒng)總線。系統(tǒng)存儲(chǔ)器可包括只讀存儲(chǔ)器(ROM)和隨機(jī)存取存儲(chǔ)器(RAM)。計(jì)算機(jī)還可包括用于對(duì)磁硬盤(pán)進(jìn)行讀取和寫(xiě)入的磁硬盤(pán)驅(qū)動(dòng)器、對(duì)可移動(dòng)磁盤(pán)進(jìn)行讀取或?qū)懭氲拇疟P(pán)驅(qū)動(dòng)器以及用于對(duì)可移動(dòng)光盤(pán)、如CDROM或其它光介質(zhì)進(jìn)行讀取或?qū)懭氲墓獗P(pán)驅(qū)動(dòng)器。驅(qū)動(dòng)器及其關(guān)聯(lián)的機(jī)器可讀介質(zhì)提供對(duì)機(jī)器可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和計(jì)算機(jī)的其它數(shù)據(jù)的非易失性存儲(chǔ)。實(shí)施例中公開(kāi)的方法的技術(shù)效果包括更有效地提供用于挖掘預(yù)測(cè)模式的復(fù)雜數(shù)據(jù)集的精確模型。該方法引入用于實(shí)質(zhì)上使用単一算法從不同觀點(diǎn)來(lái)探索數(shù)據(jù)的高度靈活性,其中単一算法被分派為解決不同問(wèn)題。因此,技術(shù)效果包括更有效的數(shù)據(jù)探索、異常檢測(cè)、用于預(yù)測(cè)值和取代缺失數(shù)據(jù)的回歸以及數(shù)據(jù)的分段。如何能夠使用所公開(kāi)方法有效地探索這類數(shù)據(jù)的示例包括基于顧客的購(gòu)買習(xí)慣的目標(biāo)市場(chǎng)、通過(guò)識(shí)別有風(fēng)險(xiǎn)的信貸申請(qǐng)人來(lái)降低信貸風(fēng)險(xiǎn)以及通過(guò)了解飛行器的健康狀態(tài)的預(yù)測(cè)維護(hù)。本發(fā)明涉及生成數(shù)據(jù)集的一般混合模型。更具體來(lái)說(shuō),數(shù)據(jù)集劃分為兩個(gè)或更多子集,為各子集生成子集混合模型,然后將子集混合模型組合以生成數(shù)據(jù)集的一般混合模型?,F(xiàn)在參照?qǐng)D1,公開(kāi)生成一般混合模型100的方法。首先提供數(shù)據(jù)庫(kù)102中包含的數(shù)據(jù)集連同子集標(biāo)準(zhǔn)108,用于生成具有子集標(biāo)識(shí)104的子集。具有組成數(shù)據(jù)集的數(shù)據(jù)庫(kù)能夠存儲(chǔ)在電子存儲(chǔ)器中。數(shù)據(jù)集能夠包含多個(gè)維或參數(shù),其中各維具有與其關(guān)聯(lián)的ー個(gè)或更多值。這些值能夠是離散值或連續(xù)值。例如,數(shù)據(jù)集能夠包括具有離散值CFM56、CF6、CF34、GE90和GEnx的燃?xì)鉁u輪發(fā)動(dòng)機(jī)的維。離散值表示通用電氣公司制造和銷售的燃?xì)鉁u輪發(fā)動(dòng)機(jī)的各種型號(hào)。數(shù)據(jù)集還能夠包括稱為機(jī)身的具有離散值B737-700、B737700ER、B747-8、B777-200LR、B777-300ER和B787的另ー個(gè)維,表示數(shù)據(jù)集的燃?xì)鉁u輪發(fā)動(dòng)機(jī)維的燃?xì)鉁u輪發(fā)動(dòng)機(jī)能夠安裝到其上的各種機(jī)身。繼續(xù)這個(gè)示例,數(shù)據(jù)集還可包括稱為推力的具有諸如18000磅カ至115000磅カ(80kN-512kN)的范圍中的值之類的連續(xù)值的維。子集標(biāo)準(zhǔn)108能夠是能夠用于過(guò)濾數(shù)據(jù)集的數(shù)據(jù)集的一個(gè)或更多維的ー個(gè)或更多值。子集標(biāo)準(zhǔn)能夠存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中或者通過(guò)任何其它已知方法來(lái)指定。一般來(lái)說(shuō),子集標(biāo)準(zhǔn)108由數(shù)據(jù)集的用戶基于用戶想要從數(shù)據(jù)集了解的內(nèi)容來(lái)制定。子集標(biāo)準(zhǔn)108能夠包含用于過(guò)濾和劃分?jǐn)?shù)據(jù)集中的數(shù)據(jù)的任何數(shù)量的單獨(dú)標(biāo)準(zhǔn)。繼續(xù)上面的示例,子集標(biāo)準(zhǔn)108可包括三個(gè)不同元素,例如安裝在B747-8上的GE90發(fā)動(dòng)機(jī)、安裝在B777-300ER上的GEnx發(fā)動(dòng)機(jī)以及安裝在B787上的GEnx。雖然這是具有三個(gè)元素的ニ維子集標(biāo)準(zhǔn)的示例,但是子集標(biāo)準(zhǔn)可包括一直到數(shù)據(jù)集中的維數(shù)的任何數(shù)量的維,并且可包含任何數(shù)量的元素。生成子集和子集標(biāo)識(shí)104包括濾過(guò)數(shù)據(jù)集并且識(shí)別每個(gè)子集中的每個(gè)元素。子集的數(shù)量相當(dāng)于選擇標(biāo)準(zhǔn)中的元素的數(shù)量。過(guò)濾過(guò)程可通過(guò)運(yùn)行于可訪問(wèn)包含數(shù)據(jù)庫(kù)102的電子存儲(chǔ)器的處理器的計(jì)算機(jī)軟件單元來(lái)實(shí)現(xiàn)。在過(guò)濾之后或同吋,為每個(gè)子集指配子集標(biāo)識(shí)符,以便區(qū)分子集及其組成元素與其它子集的每個(gè)及其組成元素。子集標(biāo)識(shí)符能夠是文本串或者識(shí)別在104生成的子集的任何其它已知方法。隨后在106評(píng)估是否存在至少ー個(gè)子集。如果不存在至少ー個(gè)子集,則方法100返回到108,以便接受產(chǎn)生至少ー個(gè)子集的新的子集標(biāo)準(zhǔn)。如果存在至少ー個(gè)子集,則方法100在110為每個(gè)子集生成混合模型?;旌夏P偷纳稍跀?shù)據(jù)挖掘領(lǐng)域中又通常稱作訓(xùn)練。每個(gè)子集的混合模型能夠通過(guò)任何已知方法并且作為任何已知類型的混合模型來(lái)生成,一個(gè)非限制性示例是使用期望最大化(EM)所訓(xùn)練的高斯混合模型。為每個(gè)子集生成混合模型的過(guò)程產(chǎn)生表示子集密度的數(shù)學(xué)泛函。在對(duì)連續(xù)隨機(jī)向量進(jìn)行建模的示例中,每個(gè)子集的數(shù)學(xué)泛函表示是概率密度函數(shù)(pdf)的換算和(scaled summation) 姆個(gè)pdf對(duì)應(yīng)于對(duì) 其生成混合模型的子集中的數(shù)據(jù)元素的成分或簇。換言之,為每個(gè)子集生成混合模型的方法110由運(yùn)行于處理器的軟件單元來(lái)進(jìn)行,其中軟件單元考慮子集中的所有數(shù)據(jù)元素,將數(shù)據(jù)元素群集為ー個(gè)或更多成分,將Pdf擬合到每個(gè)成分,并且將換算因子歸于每個(gè)成分,以便生成數(shù)據(jù)的數(shù)學(xué)泛函表示?;旌夏P偷囊粋€(gè)非限制性示例是如下形式的高斯或正態(tài)分布混合模型
權(quán)利要求
1.ー種生成非暫時(shí)介質(zhì)(102)中存儲(chǔ)的數(shù)據(jù)集的一般混合模型(100)的方法,包括下列步驟 提供用于定義所述數(shù)據(jù)集的子集的子集標(biāo)準(zhǔn)(108); 在處理器中基于所述子集標(biāo)準(zhǔn)(108)將所述數(shù)據(jù)集劃分為至少兩個(gè)子集(108); 生成所述至少兩個(gè)子集的每個(gè)的子集混合模型(110);以及 將所述至少兩個(gè)子集的每個(gè)的所述子集混合模型組合為所述一般混合模型(120)。
2.如權(quán)利要求I所述的方法,其中,所述子集標(biāo)準(zhǔn)包括在關(guān)系數(shù)據(jù)庫(kù)中被定義以及根據(jù)至少一維來(lái)過(guò)濾所述數(shù)據(jù)集的ー個(gè)。
3.如權(quán)利要求I或2所述的方法,其中,所述生成步驟包括識(shí)別子集的至少ー個(gè)成分(104)、將函數(shù)擬合到子集的至少ー個(gè)成分、根據(jù)換算因子來(lái)?yè)Q算擬合函數(shù)以及對(duì)換算擬合函數(shù)求和中的至少ー個(gè)。
4.如權(quán)利要求3所述的方法,其中,所述函數(shù)是概率密度函數(shù)。
5.如權(quán)利要求4所述的方法,其中,所述概率密度函數(shù)是正態(tài)分布函數(shù)。
6.如權(quán)利要求3所述的方法,其中,所述換算因子是標(biāo)量值。
7.如權(quán)利要求4所述的方法,其中,與子集的所述擬合函數(shù)的每個(gè)對(duì)應(yīng)的所有所述換算因子之和為I。
8.如權(quán)利要求I或2所述的方法,其中,所述組合步驟(120)包括連接所述至少ー個(gè)子集的每個(gè)的所述子集混合模型,獨(dú)立換算所述至少一個(gè)子集的每個(gè)的所述子集混合模型,然后連接所述換算子集混合模型,并且在組合所述子集混合模型之前去除一個(gè)或更多成分函數(shù)(150)。
9.如權(quán)利要求8所述的方法,其中,在組合所述子集混合模型之前去除一個(gè)或更多成分函數(shù)(150)包括,選擇成分并且確定所述所選成分與來(lái)自除了對(duì)應(yīng)于所述所選成分的所述子集之外的子集的所有所述成分之間的距離(144)。
10.如權(quán)利要求9所述的方法,其中,在組合所述子集混合模型之前去除一個(gè)或更多成分函數(shù)(150)還包括去除具有最大距離的所述成分。
全文摘要
一種構(gòu)造數(shù)據(jù)集的一般混合模型(100)的方法包括按照預(yù)定義的標(biāo)準(zhǔn)(108)將數(shù)據(jù)集劃分為至少兩個(gè)子集(104),生成至少兩個(gè)子集的每個(gè)的子集混合模型(110),然后組合來(lái)自每個(gè)子集的混合模型,以便生成一般混合模型(120)。
文檔編號(hào)G06F17/30GK102693265SQ20121004149
公開(kāi)日2012年9月26日 申請(qǐng)日期2012年2月15日 優(yōu)先權(quán)日2011年2月15日
發(fā)明者B·拉登, R·E·凱蘭 申請(qǐng)人:通用電氣公司