專利名稱:在存儲(chǔ)器有限的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及數(shù)據(jù)的分類,更具體地涉及在存儲(chǔ)器有限的系統(tǒng) 中進(jìn)行數(shù)據(jù)的分類。
背景技術(shù):
數(shù)據(jù)分類
數(shù)據(jù)分類是基于從數(shù)據(jù)項(xiàng)中提取的某種定量信息以及先前標(biāo)記過(guò)的 數(shù)據(jù)項(xiàng)的訓(xùn)練集而將預(yù)定標(biāo)記指派給該數(shù)據(jù)項(xiàng)。例如,電子郵件分類系 統(tǒng)可以基于電子郵件的內(nèi)容以及已知是"垃圾郵件"或者"非垃圾郵件"的 電子郵件的訓(xùn)練數(shù)據(jù)集而將特定的郵件標(biāo)記為"垃圾郵件"或者"非垃圾郵 件"。分類器的性能很大程度上依賴于要被分類的數(shù)據(jù)的特性。不存在對(duì) 所有的分類問(wèn)題都能很好地工作的單一分類器。該性能還依賴于訓(xùn)練數(shù) 據(jù)的質(zhì)量。 一個(gè)良好訓(xùn)練的分類器要求大的訓(xùn)練數(shù)據(jù)集,該大的訓(xùn)練數(shù) 據(jù)集具有帶有各種特性的帶標(biāo)記樣本。
分類器可以根據(jù)用于從數(shù)據(jù)項(xiàng)中提取信息的數(shù)學(xué)模型、訓(xùn)練數(shù)據(jù)的 量和模型復(fù)雜度而不同。分類器的選擇通常依賴于數(shù)據(jù)特性及其對(duì)計(jì)算
資源的要求,例如CPU的使用和存儲(chǔ)器要求。例如,當(dāng)實(shí)時(shí)地要求分類 結(jié)果時(shí),某些分類器可能是不適合的。 嵌入式系統(tǒng)
嵌入式系統(tǒng)通常集成在某種其它設(shè)備或機(jī)器中。嵌入式系統(tǒng)可以被 設(shè)計(jì)為通常實(shí)時(shí)地執(zhí)行專用的功能。對(duì)于很多設(shè)備而言嵌入式系統(tǒng)是非 常常見(jiàn)的,這些設(shè)備例如便攜式視頻播放器、照相機(jī)、交通信號(hào)燈、工 廠控制器和監(jiān)視系統(tǒng)。因?yàn)樵S多嵌入式系統(tǒng)執(zhí)行專用功能,因此可以在 大小、成本、可靠性和性能方面對(duì)嵌入式系統(tǒng)進(jìn)行優(yōu)化。
包括傳感器并執(zhí)行分類的嵌入式系統(tǒng)可以使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。
4經(jīng)過(guò)訓(xùn)練的嵌入式系統(tǒng)可以具有增強(qiáng)的功能和性能。例如,照相機(jī)上的
分類器可以報(bào)警在"非法侵入(non-trespassing)"監(jiān)視區(qū)域中有入侵者出 現(xiàn)。然而,嵌入式系統(tǒng)通常具有有限的存儲(chǔ)器,且不能存儲(chǔ)大訓(xùn)練數(shù)據(jù) 集。
對(duì)于有限存儲(chǔ)器的一個(gè)解決方法是存儲(chǔ)在訓(xùn)練數(shù)據(jù)中精心選擇的足 以用于進(jìn)行有效分類的少量的"實(shí)例"。如這里定義的,范例是具有更大 量訓(xùn)練數(shù)據(jù)集的特性的樣本數(shù)據(jù)。
實(shí)例學(xué)習(xí)(EL)方法
實(shí)例學(xué)習(xí)(EL)方法可以被用來(lái)從大訓(xùn)練數(shù)據(jù)集中選擇一個(gè)小的訓(xùn) 練數(shù)據(jù)集。就像其名稱所暗示的,EL通過(guò)實(shí)例來(lái)學(xué)習(xí)。也就是說(shuō),降低 了分類器的錯(cuò)誤率的"好的"樣本被保留,而"壞的"樣本被丟棄。因此, EL可以被用來(lái)在具有有限存儲(chǔ)器的嵌入式系統(tǒng)中生成基于存儲(chǔ)器的分類 器的少量訓(xùn)練數(shù)據(jù)集。
常規(guī)的EL方法基于某種鄰域結(jié)構(gòu)而學(xué)習(xí)實(shí)例。那么,這些方法使用 常規(guī)的誤分類率對(duì)由于樣本被移除而產(chǎn)生的性能損失或性能增加進(jìn)行測(cè)
EL方法可以隨著對(duì)樣本的處理而連續(xù)地調(diào)整訓(xùn)練數(shù)據(jù)集,使得好的 新樣本被保留,而壞的新樣本被丟棄。因此,分類器可以動(dòng)態(tài)適應(yīng)嵌入 式系統(tǒng)工作的變化環(huán)境。幾乎所有的EL方法都基于以下假設(shè)來(lái)丟棄樣 本
假設(shè)0 (//。)如果移除給定訓(xùn)練數(shù)據(jù)集中的樣本不會(huì)增加其余樣本 的誤分類率或者錯(cuò)誤率,則該樣本可以被丟棄。 EL方法具有某些缺點(diǎn)。 遞增更新
常規(guī)的EL方法是計(jì)算密集型的、離線的且在本質(zhì)上不是遞增的。它 們要求整個(gè)訓(xùn)練數(shù)據(jù)集在實(shí)例EL方法執(zhí)行期間始終被存儲(chǔ)在存儲(chǔ)器中。 這使得這些方法不適用于存儲(chǔ)器有限并且訓(xùn)練數(shù)據(jù)定期更新的嵌入式系 統(tǒng)。
類不均衡在假設(shè)/^中使用的誤分類率對(duì)于類不均衡并不敏感。這個(gè)問(wèn)題在
EL中非常關(guān)鍵,其中樣本的移除改變了類總體(class population)。例如, 在具有90個(gè)正樣本和IO個(gè)負(fù)樣本的集合中,移除一個(gè)正樣本會(huì)導(dǎo)致九 個(gè)正樣本的誤分類和一個(gè)負(fù)樣本的誤分類,而丟棄一個(gè)負(fù)樣本會(huì)導(dǎo)致一 個(gè)正樣本和九個(gè)負(fù)樣本的誤分類。
因?yàn)樵谶@兩種情況下錯(cuò)誤率是相同的,即為10%,所以類不均衡會(huì) 導(dǎo)致負(fù)樣本的丟棄,從而在訓(xùn)練數(shù)據(jù)集中僅保留了正向樣本。
希望具有如下的EL方法,與產(chǎn)生更好結(jié)果的整體分類精度相對(duì)照, 其產(chǎn)生了對(duì)分類器在兩個(gè)分類之間進(jìn)行區(qū)分的能力的估計(jì)。
按順序的移除
大多數(shù)按順序的移除過(guò)程或者是ad-hoc的,或者是返回訓(xùn)練數(shù)據(jù)集, 該訓(xùn)練數(shù)據(jù)集的大小在運(yùn)行期間是確定的。這些方法忽略了按順序移除 樣本以找到對(duì)于給定存儲(chǔ)器大小而言最佳的訓(xùn)練數(shù)據(jù)集。希望有如下的 EL方法,其產(chǎn)生滿足預(yù)定的存儲(chǔ)器大小限制(例如典型的在嵌入式系統(tǒng) 中)的最優(yōu)訓(xùn)練數(shù)據(jù)集。
驗(yàn)證一致性
如果在訓(xùn)練數(shù)據(jù)集中保留的樣本的錯(cuò)誤率沒(méi)有增加,則常規(guī)的EL 方法將樣本移除。因此, 一個(gè)樣本扮演了雙重的角色。亦即,該樣本同
時(shí)參與了對(duì)訓(xùn)練數(shù)據(jù)集和待分類測(cè)試集的更新。隨著移除的進(jìn)行,訓(xùn)練 數(shù)據(jù)集的大小和屬性動(dòng)態(tài)變化,因此,錯(cuò)誤率是在不一致且具有更低統(tǒng) 計(jì)顯著性的不同集合上確定。這就希望具有一種與訓(xùn)練數(shù)據(jù)集不相交且 在移除過(guò)程中保持不變的單獨(dú)的驗(yàn)證數(shù)據(jù)集。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施方式提供了一種用于對(duì)數(shù)據(jù)樣本進(jìn)行分類的方法和系 統(tǒng)。更具體地說(shuō),通過(guò)具有有限存儲(chǔ)器的嵌入式系統(tǒng)中的傳感器來(lái)感測(cè) 樣本。因此,該方法構(gòu)建了一種與存儲(chǔ)器的大小一致的預(yù)定大小的實(shí)例 數(shù)據(jù)集。
在一個(gè)實(shí)施方式中,該方法使用在訓(xùn)練期間保持不變的訓(xùn)練數(shù)據(jù)集
6以及與該訓(xùn)練數(shù)據(jù)集不相交的驗(yàn)證數(shù)據(jù)集。
本發(fā)明的一個(gè)實(shí)施方式使用基于熵的實(shí)例學(xué)習(xí)(EBEL)過(guò)程。該EBEL過(guò)程基于訓(xùn)練數(shù)據(jù)集的信息內(nèi)容而不使用錯(cuò)誤率從訓(xùn)練數(shù)據(jù)集中移除樣本的實(shí)例。
并不使用ad-hoc分級(jí)(ranking)方案,EBEL過(guò)程將如下的訓(xùn)練數(shù)據(jù)實(shí)例移除,即對(duì)該訓(xùn)練數(shù)據(jù)實(shí)例的移除使得類指示符變量的條件熵的降低最小化。這使得信息的損失最小化。該EBEL方法具有低計(jì)算開(kāi)銷,提供了按順序的移除,且對(duì)于類不均衡是不敏感的。
本發(fā)明的另一個(gè)實(shí)施方式使用利用了支持寬帶的高級(jí)學(xué)習(xí)(advanced broadband enabled learning, ABEL)過(guò)程的接收機(jī)工作特性曲線下的面積(AUC),其基于AUC的性能來(lái)移除樣本。ABEL過(guò)程使用驗(yàn)證數(shù)據(jù)集,并且如果對(duì)一個(gè)樣本的移除沒(méi)有降低在驗(yàn)證數(shù)據(jù)集上確定的AUC,則移除該樣本。
發(fā)明效果
本發(fā)明的實(shí)施方式描述了用于確定實(shí)例數(shù)據(jù)集的EBEL過(guò)程和ABEL過(guò)程,該實(shí)例數(shù)據(jù)集可以用于在具有有限存儲(chǔ)器的嵌入式系統(tǒng)中的對(duì)數(shù)據(jù)進(jìn)行分類。該EBEL和ABEL過(guò)程可以利用新的訓(xùn)練數(shù)據(jù)集有效地更新,同時(shí)維持任意的用戶定義大小的高質(zhì)量實(shí)例數(shù)據(jù)集。
圖1是根據(jù)本發(fā)明的實(shí)施方式的用于對(duì)數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)的框圖2是根據(jù)本發(fā)明的實(shí)施方式的用于確定實(shí)例數(shù)據(jù)集的方法和系統(tǒng)的框圖3是根據(jù)本發(fā)明的實(shí)施方式的EBEL過(guò)程的偽代碼;圖4是根據(jù)本發(fā)明的實(shí)施方式的ABEL過(guò)程的偽代碼。
具體實(shí)施例方式
圖l使出了根據(jù)本發(fā)明的實(shí)施方式的使用實(shí)例學(xué)習(xí)(EL)來(lái)對(duì)輸入信號(hào)101進(jìn)行分類的方法和系統(tǒng)100。該系統(tǒng)可以被嵌入在某種其它的機(jī)器或設(shè)備105中,或者可獨(dú)立工作。該系統(tǒng)100具有有限大小的存儲(chǔ)器130。該輸入信號(hào)101通過(guò)傳感器110獲取和并被實(shí)時(shí)地分類140。
該傳感器110從環(huán)境103獲取信號(hào)101。我們使用術(shù)語(yǔ)"環(huán)境"通常用來(lái)指代可以被感測(cè)的任何對(duì)象,例如,溫度、壓力、濕度、氣體、液體、固體、機(jī)器、聲學(xué)波形和EM波形、照相機(jī)圖像等。典型地,環(huán)境涉及其中嵌入有系統(tǒng)100的設(shè)備105的操作。該傳感器生成數(shù)據(jù)102。
數(shù)據(jù)102被分類140,以產(chǎn)生數(shù)據(jù)分類輸出145。數(shù)據(jù)分類140可以由處理器150執(zhí)行。數(shù)據(jù)分類140使用實(shí)例數(shù)據(jù)集135來(lái)對(duì)數(shù)據(jù)102進(jìn)行分類。實(shí)例數(shù)據(jù)集135存儲(chǔ)在具有有限大小的存儲(chǔ)器130中,g卩,存儲(chǔ)器大小是預(yù)定的較小值。因此,實(shí)例數(shù)據(jù)集135的大小要根據(jù)存儲(chǔ)器的大小而適于符合存儲(chǔ)器130。
確定實(shí)例數(shù)據(jù)集
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用于確定實(shí)例數(shù)據(jù)集135的方法和系統(tǒng)200的框圖。該實(shí)例數(shù)據(jù)集135還被用于方法和系統(tǒng)100中進(jìn)行數(shù)據(jù)分類140。
本發(fā)明的實(shí)施方式可以使用基于熵的EL (EBEL)過(guò)程或基于AUC的EL (ABEL)過(guò)程來(lái)學(xué)習(xí)(210)實(shí)例數(shù)據(jù)集135。該EL過(guò)程210根據(jù)系統(tǒng)100的有限存儲(chǔ)器大小t (220)由訓(xùn)練數(shù)據(jù)集230來(lái)學(xué)習(xí)實(shí)例數(shù)據(jù)集135。
訓(xùn)練數(shù)據(jù)集230是從樣本數(shù)據(jù)集260和當(dāng)前實(shí)例數(shù)據(jù)集250確定(240)。在本發(fā)明的一個(gè)實(shí)施方式中,確定步驟240將樣本數(shù)據(jù)集260和當(dāng)前實(shí)例數(shù)據(jù)集250組合起來(lái),如這里所述。
樣本數(shù)據(jù)集260包括用于確定訓(xùn)練數(shù)據(jù)集230的數(shù)據(jù)樣本。該樣本數(shù)據(jù)集260可以通過(guò)某些應(yīng)用程序生成,或者可以從通過(guò)傳感器110生成的數(shù)據(jù)102來(lái)構(gòu)建。該樣本數(shù)據(jù)集260可以包括一個(gè)或多個(gè)數(shù)據(jù)樣本。
該系統(tǒng)和方法200啟動(dòng)并更新實(shí)例數(shù)據(jù)集135。在啟動(dòng)期間,當(dāng)前實(shí)例數(shù)據(jù)集250為空,且訓(xùn)練數(shù)據(jù)集230僅從樣本數(shù)據(jù)集260確定(240)。在更新期間,當(dāng)前實(shí)例數(shù)據(jù)集250是先前確定的實(shí)例數(shù)據(jù)集135。與常規(guī)的EL過(guò)程相反,訓(xùn)練數(shù)據(jù)集230不需要利用先前獲得的訓(xùn)練數(shù)據(jù)集來(lái)確定。
基于Parzen核密度估計(jì)(PKDE)的分類器
本分類器140使用Parzen核密度估計(jì)(PKDE)分類器。該P(yáng)KDE
分類器以非參數(shù)方式對(duì)隨機(jī)變量的概率分布函數(shù)(pdf)進(jìn)行估計(jì)。然而,
本發(fā)明還可以推廣到任意的分類器。
對(duì)于給定的類c和n個(gè)樣本的訓(xùn)練集&,子集Z,;為
(1)
對(duì)于PKDE分類器,核函數(shù)K具有帶寬、。對(duì)于訓(xùn)練子集&,屬于類c的樣本;c的密度估計(jì)/為
z ,
其中y是z:中的樣本元素-各類的先驗(yàn)概率《為
x—少義
(2)
7T =
-" (3)給定訓(xùn)練數(shù)據(jù)集&,我們可以確定屬于特定類c的任意樣本x的后
驗(yàn)概率P為
洲=,)
義
(4)
對(duì)于二類的分類問(wèn)題,給定訓(xùn)練數(shù)據(jù)集&,如果兩個(gè)類由c+和c—
表示,則樣本:c的價(jià)值分?jǐn)?shù)(merit-score) ^W為
該價(jià)值分?jǐn)?shù)可以用來(lái)對(duì)利用接收機(jī)工作特性曲線下的面積(AUC)或者閾值選擇來(lái)分類的精度進(jìn)行分析。實(shí)例學(xué)習(xí)
9我們將訓(xùn)練數(shù)據(jù)集表示為T,使得ITHV,其中W是訓(xùn)練數(shù)據(jù)集中的
樣本數(shù)量。具有"個(gè)樣本的訓(xùn)練子集是&,從而&G丁且Sf7;給定訓(xùn)練
子集&,本發(fā)明的實(shí)施方式以遞增方式確定被移除的子集
(s |(i《"a0 a d s +1)),
從而在從&+1轉(zhuǎn)變?yōu)?amp;時(shí),分類精度的降低小于預(yù)定的閾值。
簡(jiǎn)單的常規(guī)解決方法找到全部子集的所有可能的組合,并選擇具有
最佳性能的子集,其具有復(fù)雜度op。。
本發(fā)明的實(shí)施方式使用從Sn有效地獲得的遞增解決方法?;陟氐膶?shí)例學(xué)習(xí)(EBEL)方法
對(duì)于訓(xùn)練數(shù)據(jù)集230中的各樣本;^S", EBEL使用子集&\{:(:}作為
訓(xùn)練數(shù)據(jù)集230且;c作為測(cè)試樣本來(lái)確定類變量的條件熵?fù)p失。EBEL選
擇并移除所選擇的樣本,使得條件熵的減少最小化。
如果C是該類,p(jc)是訓(xùn)練實(shí)例x上的先驗(yàn)概率,而/f(Cl;c)是存在實(shí)
例:c的條件下類變量的熵,則EBEL根據(jù)下式選擇并移除所選擇的樣本
<formula>formula see original document page 10</formula>(6)
其中<formula>formula see original document page 10</formula>
因?yàn)橛?xùn)練數(shù)據(jù)集是獨(dú)立且同分布,所以任何樣本實(shí)例的先驗(yàn)概率P(x)是恒定的,且可以被忽略。分類器G的分類錯(cuò)誤由條件熵界定為具有下界<formula>formula see original document page 10</formula>
因此,選擇具有最小條件熵的子集最不可能降低分類精度。
本發(fā)明的實(shí)施方式以有效的方式確定了要移除的最適合的候選樣
本。通過(guò)僅存儲(chǔ)訓(xùn)練數(shù)據(jù)集的成對(duì)(pair-wise)核心值之和,可以按O(iV)
時(shí)間找到要被移除的樣本。
給定訓(xùn)練子集&,按如下方式存儲(chǔ)各樣本^ e S 與該類中的所有其它
樣本的核心值之和
<formula>formula see original document page 10</formula>然后可以獲得如下的具有各實(shí)例 e&的類輸出變量的條件熵<formula>formula see original document page 11</formula>
如果使用公式(6)來(lái)選擇要移除實(shí)例》貝Uv矩陣可以被更新為<formula>formula see original document page 11</formula>
對(duì)于訓(xùn)練數(shù)據(jù)集230T,例如使用使得均方誤差(MSE)最小化的常規(guī)帶寬優(yōu)化方案而獲得核帶寬。如果樣本的密度》Oc)為r階連續(xù),且不隨樣本大小而變化,則使得MSE最小化的最優(yōu)帶寬A(n)與樣本大小n有
關(guān),為<formula>formula see original document page 11</formula>其中&是核函數(shù)狀.)的特性成分。對(duì)于^=2,大小為"的樣本的最優(yōu)帶寬為<formula>formula see original document page 11</formula>
其中義M是利用大小為AA的訓(xùn)練數(shù)據(jù)集獲得的帶寬,其使得MSE最小化。
盡管這避免了隨著樣本大小的改變而重復(fù)帶寬優(yōu)化這一計(jì)算量很大的工作,但帶寬更新仍然要求重新計(jì)算公式(10)中的v矩陣。因?yàn)閹掚S著樣本大小而以"-。2緩慢地變化,當(dāng)#^/">:/^時(shí),周期性地更新v矩
陣,其中iVto是當(dāng)最后一次帶寬更新發(fā)生時(shí)的樣本大小,而"是用戶指定的敏感度參數(shù)。
在EBEL過(guò)程中的遞增步驟的復(fù)雜度在訓(xùn)練數(shù)據(jù)集230的大小中是
線性的。因此,用于從大小為iV的訓(xùn)練數(shù)據(jù)集230獲得大小為A的實(shí)例數(shù)據(jù)集135的EBEL過(guò)程的運(yùn)行時(shí)復(fù)雜度是(9((W-。
圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的EBEL過(guò)程的偽代碼。當(dāng)系統(tǒng)已經(jīng)使用當(dāng)前實(shí)例數(shù)據(jù)集250 T。w進(jìn)行分類(140)且利用樣本數(shù)據(jù)
集260 X^進(jìn)行了更新時(shí),在學(xué)習(xí)步驟210中EBEL方法找到實(shí)例數(shù)據(jù)集
135Ss.t., |s| = h期望的實(shí)例集的大小A:取決于存儲(chǔ)器限制220。對(duì)應(yīng)于7"的帶寬值X是離線地獲得的。在初始階段,我們通過(guò)設(shè)置7;^=0;且
T。w=7",從樣本數(shù)據(jù)集7t導(dǎo)到大小為A:的實(shí)例數(shù)據(jù)集135。
EBEL過(guò)程首先將來(lái)自當(dāng)前實(shí)例數(shù)據(jù)集250 T。w和樣本數(shù)據(jù)集260t;^的數(shù)據(jù)組合,并相應(yīng)地更新對(duì)應(yīng)的核帶寬,如圖3的步驟1所示。
在計(jì)算v矩陣后,EBEL過(guò)程減小訓(xùn)練數(shù)據(jù)集230S的大小,直到該
大小達(dá)到期望值L在步驟4-8中每次移除訓(xùn)練數(shù)據(jù)集230的一個(gè)實(shí)例,
在步驟9-12,如果樣本大小變得小于敏感度參數(shù)a所允許的大小,則更新v矩陣。所產(chǎn)生的實(shí)例數(shù)據(jù)集135 S替換當(dāng)前實(shí)例數(shù)據(jù)集250 T。w,且
被用于對(duì)感測(cè)的數(shù)據(jù)102進(jìn)行分類(140)?;贏UC的實(shí)例學(xué)習(xí)(ABEL)方法
ABEL過(guò)程通過(guò)基于一致性驗(yàn)證數(shù)據(jù)集和保留樣本上的AUC性能之間的相關(guān)性(dependency)來(lái)移除訓(xùn)練數(shù)據(jù)集的樣本,從而解決了驗(yàn)證一致性問(wèn)題。因此,樣本具有訓(xùn)練樣本(只要該樣本沒(méi)有被移除)和當(dāng)確定公式(6)的條件概率時(shí)的測(cè)試樣本的雙重角色。
在ABEL過(guò)程的不同階段,性能被驗(yàn)證,即確定對(duì)于不同數(shù)據(jù)集的熵,因此降低了結(jié)果的統(tǒng)計(jì)顯著性。
在ABEL過(guò)程中,在移除操作的開(kāi)始從訓(xùn)練數(shù)據(jù)集中提取驗(yàn)證數(shù)據(jù)集,且移除訓(xùn)練數(shù)據(jù)集的樣本使得AUC性能降低,結(jié)果,移除的次數(shù)被最小化。給定訓(xùn)練數(shù)據(jù)集230&和驗(yàn)證數(shù)據(jù)集K,使得化門&} = 0, ABEL
過(guò)程根據(jù)下式移除樣本x:
其中^(m是利用集合義進(jìn)行測(cè)試且利用集合7作為訓(xùn)練數(shù)據(jù)集時(shí)的AUC值。ABEL過(guò)程提供了一種簡(jiǎn)單然而有效的適用于任何分類器的EL框架。
給定驗(yàn)證數(shù)據(jù)集中的樣本的價(jià)值分?jǐn)?shù),在不實(shí)際生成ROC曲線的情況下以0(M2)時(shí)間確定AUC。然而,對(duì)于有限樣本集,AUC等于公知的
歸一化Wilcoxon-Mann-Whitney (WMW)統(tǒng)計(jì)量j:乂;=一 , (i4)
其中,廣=&,^,...,^是正類的價(jià)值分?jǐn)?shù),而廠-k,K,...,d是在v(lv卜"+p)中的負(fù)類樣本的價(jià)值分?jǐn)?shù)。該統(tǒng)計(jì)量使用非參數(shù)測(cè)試來(lái)評(píng)估
兩個(gè)樣本是否來(lái)自相同的分布。
統(tǒng)計(jì)量乂是戶(廣>廠)的估計(jì)量,即,所有正類樣本比負(fù)類樣本獲得
更高的價(jià)值分?jǐn)?shù)時(shí)的概率,且如果所有價(jià)值分?jǐn)?shù)以非降序存儲(chǔ)使得r是《
的次序,則乂可以進(jìn)一步簡(jiǎn)化為
h丄
廣
》,-
、/=1 2
(15)
式(15)表明,給定驗(yàn)證數(shù)據(jù)集的價(jià)值分?jǐn)?shù),AUC值可以按0(Mlog(v))時(shí)間確定。如果^是由分類器g利用訓(xùn)練數(shù)據(jù)集Z)^測(cè)試樣本
進(jìn)行分類所花的時(shí)間,則ABEL的運(yùn)行時(shí)復(fù)雜度是0(l^(log(M) + ^)。
圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的ABEL過(guò)程的偽代碼。ABEL過(guò)程首先從訓(xùn)練數(shù)據(jù)230中提取驗(yàn)證數(shù)據(jù)集,給定驗(yàn)證數(shù)據(jù)集(77)的部分大小作為輸入?yún)?shù)(步驟2),接著從訓(xùn)練數(shù)據(jù)集230的其余樣本中移除實(shí)例(步驟3-6)。部分大小ti的最優(yōu)值取決于存儲(chǔ)器的大小以及分類140的復(fù)雜度。盡管大小T!的較大值導(dǎo)致高存儲(chǔ)器開(kāi)銷,但小的值降低了驗(yàn)證數(shù)據(jù)集元素的AUC分?jǐn)?shù)的統(tǒng)計(jì)顯著性,從而導(dǎo)致更差的實(shí)例移除決策。本發(fā)明的一個(gè)實(shí)施方式使用rr0.1。
將會(huì)理解的是,在本發(fā)明的精神和范圍內(nèi)可以進(jìn)行各種其它的改變和修改。因此,所附權(quán)利要求書的目的是涵蓋落入本發(fā)明的真實(shí)精神和范圍的所有這種變型和修改。
1權(quán)利要求
1、一種用于在具有有限存儲(chǔ)器的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法,該方法包括以下步驟確定訓(xùn)練數(shù)據(jù)集;獲取用于存儲(chǔ)數(shù)據(jù)的存儲(chǔ)器大??;對(duì)所述訓(xùn)練數(shù)據(jù)集應(yīng)用實(shí)例學(xué)習(xí)(EL)過(guò)程以產(chǎn)生適于所述存儲(chǔ)器大小的實(shí)例數(shù)據(jù)集,其中該EL過(guò)程是從包括基于熵的實(shí)例學(xué)習(xí)(EBEL)過(guò)程和支持寬帶的高級(jí)學(xué)習(xí)(ABEL)過(guò)程的組中選擇的;獲取待分類數(shù)據(jù);以及使用所述實(shí)例數(shù)據(jù)集對(duì)所述數(shù)據(jù)進(jìn)行分類。
2、 根據(jù)權(quán)利要求1的方法,其中該確定步驟進(jìn)一步包括以下步驟獲取當(dāng)前實(shí)例數(shù)據(jù)集;獲取樣本數(shù)據(jù)集;以及將所述當(dāng)前實(shí)例數(shù)據(jù)集和所述樣本數(shù)據(jù)組合起來(lái)以產(chǎn)生訓(xùn)練數(shù)據(jù)集。
3、 根據(jù)權(quán)利要求2的方法,其中,所述當(dāng)前實(shí)例數(shù)據(jù)集最初為空。
4、 根據(jù)權(quán)利要求l的方法,其中,所述EBEL過(guò)程進(jìn)一步包括以下對(duì)于所述訓(xùn)練數(shù)據(jù)集&中的各樣本;c,確定在給定樣本x的條件下的類變量C的條件熵?fù)p失/Z(4c);以及從所述訓(xùn)練數(shù)據(jù)集&中移除使得條件熵?fù)p失Z/(Cl;c)最小的所選擇的樣本。
5、根據(jù)權(quán)利要求4的方法,其中所選擇的樣本是根據(jù)arg min4i/(C卜)]確定的。
6、根據(jù)權(quán)利要求4的方法,其中該存儲(chǔ)器限制是所述實(shí)例數(shù)據(jù)集的大小"該方法進(jìn)一步包括以下步驟對(duì)確定所述條件熵?fù)p失的步驟和移除樣本X的步驟進(jìn)行重復(fù),直到所述訓(xùn)練數(shù)據(jù)集達(dá)到所述大小t
7、 根據(jù)權(quán)利要求4的方法,其中確定所述條件熵?fù)p失的步驟使用所述訓(xùn)練數(shù)據(jù)集的樣本的成對(duì)核心值。
8、 根據(jù)權(quán)利要求1的方法,其中所述ABEL過(guò)程進(jìn)一步包括以下步驟從所述訓(xùn)練數(shù)據(jù)集提取驗(yàn)證數(shù)據(jù)集V ;對(duì)于所述訓(xùn)練數(shù)據(jù)集&中的各樣本;c,確定子集S" W的接收機(jī)工作曲線下的面積(AUC);以及從所述訓(xùn)練數(shù)據(jù)集中移除與AUC的最小損失相對(duì)應(yīng)的樣本;c。
9、 根據(jù)權(quán)利要求8的方法,其中移除步驟是根據(jù)下式<formula>formula see original document page 3</formula>其中A (V,<S \^})是針對(duì)所述驗(yàn)證數(shù)據(jù)集V和所述訓(xùn)練數(shù)據(jù)集&的樣本x確定的AUC,且是在移除步驟之后的新訓(xùn)練數(shù)據(jù)集。
10、根據(jù)權(quán)利要求8的方法,其中所述驗(yàn)證數(shù)據(jù)集的大小等于所述訓(xùn)練數(shù)據(jù)集大小的O.l倍。
全文摘要
本發(fā)明的實(shí)施方式表述了一種用于在具有有限存儲(chǔ)器的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法。該方法對(duì)訓(xùn)練數(shù)據(jù)集應(yīng)用實(shí)例學(xué)習(xí)(EL)過(guò)程,以產(chǎn)生適于該存儲(chǔ)器大小的實(shí)例數(shù)據(jù)集。該EL過(guò)程是從包括基于熵的實(shí)例學(xué)習(xí)(EBEL)過(guò)程和支持寬帶的高級(jí)學(xué)習(xí)(ABEL)過(guò)程的組中選擇的。該實(shí)例數(shù)據(jù)集被用來(lái)對(duì)系統(tǒng)獲取的數(shù)據(jù)進(jìn)行分類。
文檔編號(hào)G06F17/30GK101676912SQ20091016691
公開(kāi)日2010年3月24日 申請(qǐng)日期2009年8月3日 優(yōu)先權(quán)日2008年9月15日
發(fā)明者丹尼爾·N·尼科夫斯基, 安庫(kù)爾·賈殷 申請(qǐng)人:三菱電機(jī)株式會(huì)社