在存儲(chǔ)器有限的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法

文檔序號(hào)：6579921閱讀：297來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：在存儲(chǔ)器有限的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法
技術(shù)領(lǐng)域：
本發(fā)明總體上涉及數(shù)據(jù)的分類，更具體地涉及在存儲(chǔ)器有限的系統(tǒng) 中進(jìn)行數(shù)據(jù)的分類。
背景技術(shù)：
數(shù)據(jù)分類
數(shù)據(jù)分類是基于從數(shù)據(jù)項(xiàng)中提取的某種定量信息以及先前標(biāo)記過(guò)的數(shù)據(jù)項(xiàng)的訓(xùn)練集而將預(yù)定標(biāo)記指派給該數(shù)據(jù)項(xiàng)。例如，電子郵件分類系統(tǒng)可以基于電子郵件的內(nèi)容以及已知是"垃圾郵件"或者"非垃圾郵件"的電子郵件的訓(xùn)練數(shù)據(jù)集而將特定的郵件標(biāo)記為"垃圾郵件"或者"非垃圾郵件"。分類器的性能很大程度上依賴于要被分類的數(shù)據(jù)的特性。不存在對(duì) 所有的分類問(wèn)題都能很好地工作的單一分類器。該性能還依賴于訓(xùn)練數(shù) 據(jù)的質(zhì)量。一個(gè)良好訓(xùn)練的分類器要求大的訓(xùn)練數(shù)據(jù)集，該大的訓(xùn)練數(shù) 據(jù)集具有帶有各種特性的帶標(biāo)記樣本。
分類器可以根據(jù)用于從數(shù)據(jù)項(xiàng)中提取信息的數(shù)學(xué)模型、訓(xùn)練數(shù)據(jù)的量和模型復(fù)雜度而不同。分類器的選擇通常依賴于數(shù)據(jù)特性及其對(duì)計(jì)算
資源的要求，例如CPU的使用和存儲(chǔ)器要求。例如，當(dāng)實(shí)時(shí)地要求分類結(jié)果時(shí)，某些分類器可能是不適合的。嵌入式系統(tǒng)
嵌入式系統(tǒng)通常集成在某種其它設(shè)備或機(jī)器中。嵌入式系統(tǒng)可以被設(shè)計(jì)為通常實(shí)時(shí)地執(zhí)行專用的功能。對(duì)于很多設(shè)備而言嵌入式系統(tǒng)是非常常見(jiàn)的，這些設(shè)備例如便攜式視頻播放器、照相機(jī)、交通信號(hào)燈、工廠控制器和監(jiān)視系統(tǒng)。因?yàn)樵S多嵌入式系統(tǒng)執(zhí)行專用功能，因此可以在大小、成本、可靠性和性能方面對(duì)嵌入式系統(tǒng)進(jìn)行優(yōu)化。
包括傳感器并執(zhí)行分類的嵌入式系統(tǒng)可以使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。
4經(jīng)過(guò)訓(xùn)練的嵌入式系統(tǒng)可以具有增強(qiáng)的功能和性能。例如，照相機(jī)上的
分類器可以報(bào)警在"非法侵入(non-trespassing)"監(jiān)視區(qū)域中有入侵者出現(xiàn)。然而，嵌入式系統(tǒng)通常具有有限的存儲(chǔ)器，且不能存儲(chǔ)大訓(xùn)練數(shù)據(jù) 集。
對(duì)于有限存儲(chǔ)器的一個(gè)解決方法是存儲(chǔ)在訓(xùn)練數(shù)據(jù)中精心選擇的足以用于進(jìn)行有效分類的少量的"實(shí)例"。如這里定義的，范例是具有更大量訓(xùn)練數(shù)據(jù)集的特性的樣本數(shù)據(jù)。
實(shí)例學(xué)習(xí)(EL)方法
實(shí)例學(xué)習(xí)(EL)方法可以被用來(lái)從大訓(xùn)練數(shù)據(jù)集中選擇一個(gè)小的訓(xùn) 練數(shù)據(jù)集。就像其名稱所暗示的，EL通過(guò)實(shí)例來(lái)學(xué)習(xí)。也就是說(shuō)，降低了分類器的錯(cuò)誤率的"好的"樣本被保留，而"壞的"樣本被丟棄。因此， EL可以被用來(lái)在具有有限存儲(chǔ)器的嵌入式系統(tǒng)中生成基于存儲(chǔ)器的分類器的少量訓(xùn)練數(shù)據(jù)集。
常規(guī)的EL方法基于某種鄰域結(jié)構(gòu)而學(xué)習(xí)實(shí)例。那么，這些方法使用常規(guī)的誤分類率對(duì)由于樣本被移除而產(chǎn)生的性能損失或性能增加進(jìn)行測(cè)
EL方法可以隨著對(duì)樣本的處理而連續(xù)地調(diào)整訓(xùn)練數(shù)據(jù)集，使得好的新樣本被保留，而壞的新樣本被丟棄。因此，分類器可以動(dòng)態(tài)適應(yīng)嵌入式系統(tǒng)工作的變化環(huán)境。幾乎所有的EL方法都基于以下假設(shè)來(lái)丟棄樣本
假設(shè)0 (//。)如果移除給定訓(xùn)練數(shù)據(jù)集中的樣本不會(huì)增加其余樣本的誤分類率或者錯(cuò)誤率，則該樣本可以被丟棄。 EL方法具有某些缺點(diǎn)。遞增更新
常規(guī)的EL方法是計(jì)算密集型的、離線的且在本質(zhì)上不是遞增的。它們要求整個(gè)訓(xùn)練數(shù)據(jù)集在實(shí)例EL方法執(zhí)行期間始終被存儲(chǔ)在存儲(chǔ)器中。這使得這些方法不適用于存儲(chǔ)器有限并且訓(xùn)練數(shù)據(jù)定期更新的嵌入式系統(tǒng)。
類不均衡在假設(shè)/^中使用的誤分類率對(duì)于類不均衡并不敏感。這個(gè)問(wèn)題在
EL中非常關(guān)鍵，其中樣本的移除改變了類總體(class population)。例如，在具有90個(gè)正樣本和IO個(gè)負(fù)樣本的集合中，移除一個(gè)正樣本會(huì)導(dǎo)致九個(gè)正樣本的誤分類和一個(gè)負(fù)樣本的誤分類，而丟棄一個(gè)負(fù)樣本會(huì)導(dǎo)致一個(gè)正樣本和九個(gè)負(fù)樣本的誤分類。
因?yàn)樵谶@兩種情況下錯(cuò)誤率是相同的，即為10%，所以類不均衡會(huì) 導(dǎo)致負(fù)樣本的丟棄，從而在訓(xùn)練數(shù)據(jù)集中僅保留了正向樣本。
希望具有如下的EL方法，與產(chǎn)生更好結(jié)果的整體分類精度相對(duì)照，其產(chǎn)生了對(duì)分類器在兩個(gè)分類之間進(jìn)行區(qū)分的能力的估計(jì)。
按順序的移除
大多數(shù)按順序的移除過(guò)程或者是ad-hoc的，或者是返回訓(xùn)練數(shù)據(jù)集，該訓(xùn)練數(shù)據(jù)集的大小在運(yùn)行期間是確定的。這些方法忽略了按順序移除樣本以找到對(duì)于給定存儲(chǔ)器大小而言最佳的訓(xùn)練數(shù)據(jù)集。希望有如下的 EL方法，其產(chǎn)生滿足預(yù)定的存儲(chǔ)器大小限制(例如典型的在嵌入式系統(tǒng) 中)的最優(yōu)訓(xùn)練數(shù)據(jù)集。
驗(yàn)證一致性
如果在訓(xùn)練數(shù)據(jù)集中保留的樣本的錯(cuò)誤率沒(méi)有增加，則常規(guī)的EL 方法將樣本移除。因此，一個(gè)樣本扮演了雙重的角色。亦即，該樣本同
時(shí)參與了對(duì)訓(xùn)練數(shù)據(jù)集和待分類測(cè)試集的更新。隨著移除的進(jìn)行，訓(xùn)練數(shù)據(jù)集的大小和屬性動(dòng)態(tài)變化，因此，錯(cuò)誤率是在不一致且具有更低統(tǒng) 計(jì)顯著性的不同集合上確定。這就希望具有一種與訓(xùn)練數(shù)據(jù)集不相交且在移除過(guò)程中保持不變的單獨(dú)的驗(yàn)證數(shù)據(jù)集。

發(fā)明內(nèi)容
本發(fā)明的實(shí)施方式提供了一種用于對(duì)數(shù)據(jù)樣本進(jìn)行分類的方法和系統(tǒng)。更具體地說(shuō)，通過(guò)具有有限存儲(chǔ)器的嵌入式系統(tǒng)中的傳感器來(lái)感測(cè) 樣本。因此，該方法構(gòu)建了一種與存儲(chǔ)器的大小一致的預(yù)定大小的實(shí)例數(shù)據(jù)集。
在一個(gè)實(shí)施方式中，該方法使用在訓(xùn)練期間保持不變的訓(xùn)練數(shù)據(jù)集
6以及與該訓(xùn)練數(shù)據(jù)集不相交的驗(yàn)證數(shù)據(jù)集。
本發(fā)明的一個(gè)實(shí)施方式使用基于熵的實(shí)例學(xué)習(xí)(EBEL)過(guò)程。該EBEL過(guò)程基于訓(xùn)練數(shù)據(jù)集的信息內(nèi)容而不使用錯(cuò)誤率從訓(xùn)練數(shù)據(jù)集中移除樣本的實(shí)例。
并不使用ad-hoc分級(jí)(ranking)方案，EBEL過(guò)程將如下的訓(xùn)練數(shù)據(jù)實(shí)例移除，即對(duì)該訓(xùn)練數(shù)據(jù)實(shí)例的移除使得類指示符變量的條件熵的降低最小化。這使得信息的損失最小化。該EBEL方法具有低計(jì)算開(kāi)銷，提供了按順序的移除，且對(duì)于類不均衡是不敏感的。
本發(fā)明的另一個(gè)實(shí)施方式使用利用了支持寬帶的高級(jí)學(xué)習(xí)(advanced broadband enabled learning, ABEL)過(guò)程的接收機(jī)工作特性曲線下的面積(AUC)，其基于AUC的性能來(lái)移除樣本。ABEL過(guò)程使用驗(yàn)證數(shù)據(jù)集，并且如果對(duì)一個(gè)樣本的移除沒(méi)有降低在驗(yàn)證數(shù)據(jù)集上確定的AUC，則移除該樣本。
發(fā)明效果
本發(fā)明的實(shí)施方式描述了用于確定實(shí)例數(shù)據(jù)集的EBEL過(guò)程和ABEL過(guò)程，該實(shí)例數(shù)據(jù)集可以用于在具有有限存儲(chǔ)器的嵌入式系統(tǒng)中的對(duì)數(shù)據(jù)進(jìn)行分類。該EBEL和ABEL過(guò)程可以利用新的訓(xùn)練數(shù)據(jù)集有效地更新，同時(shí)維持任意的用戶定義大小的高質(zhì)量實(shí)例數(shù)據(jù)集。

圖1是根據(jù)本發(fā)明的實(shí)施方式的用于對(duì)數(shù)據(jù)進(jìn)行分類的方法和系統(tǒng)的框圖2是根據(jù)本發(fā)明的實(shí)施方式的用于確定實(shí)例數(shù)據(jù)集的方法和系統(tǒng)的框圖3是根據(jù)本發(fā)明的實(shí)施方式的EBEL過(guò)程的偽代碼；圖4是根據(jù)本發(fā)明的實(shí)施方式的ABEL過(guò)程的偽代碼。
具體實(shí)施例方式
圖l使出了根據(jù)本發(fā)明的實(shí)施方式的使用實(shí)例學(xué)習(xí)(EL)來(lái)對(duì)輸入信號(hào)101進(jìn)行分類的方法和系統(tǒng)100。該系統(tǒng)可以被嵌入在某種其它的機(jī)器或設(shè)備105中，或者可獨(dú)立工作。該系統(tǒng)100具有有限大小的存儲(chǔ)器130。該輸入信號(hào)101通過(guò)傳感器110獲取和并被實(shí)時(shí)地分類140。
該傳感器110從環(huán)境103獲取信號(hào)101。我們使用術(shù)語(yǔ)"環(huán)境"通常用來(lái)指代可以被感測(cè)的任何對(duì)象，例如，溫度、壓力、濕度、氣體、液體、固體、機(jī)器、聲學(xué)波形和EM波形、照相機(jī)圖像等。典型地，環(huán)境涉及其中嵌入有系統(tǒng)100的設(shè)備105的操作。該傳感器生成數(shù)據(jù)102。
數(shù)據(jù)102被分類140，以產(chǎn)生數(shù)據(jù)分類輸出145。數(shù)據(jù)分類140可以由處理器150執(zhí)行。數(shù)據(jù)分類140使用實(shí)例數(shù)據(jù)集135來(lái)對(duì)數(shù)據(jù)102進(jìn)行分類。實(shí)例數(shù)據(jù)集135存儲(chǔ)在具有有限大小的存儲(chǔ)器130中，g卩，存儲(chǔ)器大小是預(yù)定的較小值。因此，實(shí)例數(shù)據(jù)集135的大小要根據(jù)存儲(chǔ)器的大小而適于符合存儲(chǔ)器130。
確定實(shí)例數(shù)據(jù)集
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用于確定實(shí)例數(shù)據(jù)集135的方法和系統(tǒng)200的框圖。該實(shí)例數(shù)據(jù)集135還被用于方法和系統(tǒng)100中進(jìn)行數(shù)據(jù)分類140。
本發(fā)明的實(shí)施方式可以使用基于熵的EL (EBEL)過(guò)程或基于AUC的EL (ABEL)過(guò)程來(lái)學(xué)習(xí)(210)實(shí)例數(shù)據(jù)集135。該EL過(guò)程210根據(jù)系統(tǒng)100的有限存儲(chǔ)器大小t (220)由訓(xùn)練數(shù)據(jù)集230來(lái)學(xué)習(xí)實(shí)例數(shù)據(jù)集135。
訓(xùn)練數(shù)據(jù)集230是從樣本數(shù)據(jù)集260和當(dāng)前實(shí)例數(shù)據(jù)集250確定(240)。在本發(fā)明的一個(gè)實(shí)施方式中，確定步驟240將樣本數(shù)據(jù)集260和當(dāng)前實(shí)例數(shù)據(jù)集250組合起來(lái)，如這里所述。
樣本數(shù)據(jù)集260包括用于確定訓(xùn)練數(shù)據(jù)集230的數(shù)據(jù)樣本。該樣本數(shù)據(jù)集260可以通過(guò)某些應(yīng)用程序生成，或者可以從通過(guò)傳感器110生成的數(shù)據(jù)102來(lái)構(gòu)建。該樣本數(shù)據(jù)集260可以包括一個(gè)或多個(gè)數(shù)據(jù)樣本。
該系統(tǒng)和方法200啟動(dòng)并更新實(shí)例數(shù)據(jù)集135。在啟動(dòng)期間，當(dāng)前實(shí)例數(shù)據(jù)集250為空，且訓(xùn)練數(shù)據(jù)集230僅從樣本數(shù)據(jù)集260確定(240)。在更新期間，當(dāng)前實(shí)例數(shù)據(jù)集250是先前確定的實(shí)例數(shù)據(jù)集135。與常規(guī)的EL過(guò)程相反，訓(xùn)練數(shù)據(jù)集230不需要利用先前獲得的訓(xùn)練數(shù)據(jù)集來(lái)確定。
基于Parzen核密度估計(jì)(PKDE)的分類器
本分類器140使用Parzen核密度估計(jì)(PKDE)分類器。該P(yáng)KDE
分類器以非參數(shù)方式對(duì)隨機(jī)變量的概率分布函數(shù)(pdf)進(jìn)行估計(jì)。然而，
本發(fā)明還可以推廣到任意的分類器。
對(duì)于給定的類c和n個(gè)樣本的訓(xùn)練集&，子集Z,;為
(1)
對(duì)于PKDE分類器，核函數(shù)K具有帶寬、。對(duì)于訓(xùn)練子集&，屬于類c的樣本;c的密度估計(jì)/為
z ，
其中y是z:中的樣本元素-各類的先驗(yàn)概率《為
x—少義
(2)
7T =
-" (3)給定訓(xùn)練數(shù)據(jù)集&，我們可以確定屬于特定類c的任意樣本x的后
驗(yàn)概率P為
洲=，)
義
(4)
對(duì)于二類的分類問(wèn)題，給定訓(xùn)練數(shù)據(jù)集&，如果兩個(gè)類由c+和c—
表示，則樣本:c的價(jià)值分?jǐn)?shù)(merit-score) ^W為
該價(jià)值分?jǐn)?shù)可以用來(lái)對(duì)利用接收機(jī)工作特性曲線下的面積(AUC)或者閾值選擇來(lái)分類的精度進(jìn)行分析。實(shí)例學(xué)習(xí)
9我們將訓(xùn)練數(shù)據(jù)集表示為T，使得ITHV，其中W是訓(xùn)練數(shù)據(jù)集中的
樣本數(shù)量。具有"個(gè)樣本的訓(xùn)練子集是&，從而&G丁且Sf7;給定訓(xùn)練
子集&，本發(fā)明的實(shí)施方式以遞增方式確定被移除的子集
(s |(i《"a0 a d s +1))，
從而在從&+1轉(zhuǎn)變?yōu)?amp;時(shí)，分類精度的降低小于預(yù)定的閾值。
簡(jiǎn)單的常規(guī)解決方法找到全部子集的所有可能的組合，并選擇具有
最佳性能的子集，其具有復(fù)雜度op。。
本發(fā)明的實(shí)施方式使用從Sn有效地獲得的遞增解決方法?；陟氐膶?shí)例學(xué)習(xí)(EBEL)方法
對(duì)于訓(xùn)練數(shù)據(jù)集230中的各樣本;^S"， EBEL使用子集&\{:(:}作為
訓(xùn)練數(shù)據(jù)集230且;c作為測(cè)試樣本來(lái)確定類變量的條件熵?fù)p失。EBEL選
擇并移除所選擇的樣本，使得條件熵的減少最小化。
如果C是該類，p(jc)是訓(xùn)練實(shí)例x上的先驗(yàn)概率，而/f(Cl;c)是存在實(shí)
例:c的條件下類變量的熵，則EBEL根據(jù)下式選擇并移除所選擇的樣本
<formula>formula see original document page 10</formula>(6)
其中<formula>formula see original document page 10</formula>
因?yàn)橛?xùn)練數(shù)據(jù)集是獨(dú)立且同分布，所以任何樣本實(shí)例的先驗(yàn)概率P(x)是恒定的，且可以被忽略。分類器G的分類錯(cuò)誤由條件熵界定為具有下界<formula>formula see original document page 10</formula>
因此，選擇具有最小條件熵的子集最不可能降低分類精度。
本發(fā)明的實(shí)施方式以有效的方式確定了要移除的最適合的候選樣
本。通過(guò)僅存儲(chǔ)訓(xùn)練數(shù)據(jù)集的成對(duì)(pair-wise)核心值之和，可以按O(iV)
時(shí)間找到要被移除的樣本。
給定訓(xùn)練子集&，按如下方式存儲(chǔ)各樣本^ e S 與該類中的所有其它
樣本的核心值之和
<formula>formula see original document page 10</formula>然后可以獲得如下的具有各實(shí)例 e&的類輸出變量的條件熵<formula>formula see original document page 11</formula>
如果使用公式(6)來(lái)選擇要移除實(shí)例》貝Uv矩陣可以被更新為<formula>formula see original document page 11</formula>
對(duì)于訓(xùn)練數(shù)據(jù)集230T，例如使用使得均方誤差(MSE)最小化的常規(guī)帶寬優(yōu)化方案而獲得核帶寬。如果樣本的密度》Oc)為r階連續(xù)，且不隨樣本大小而變化，則使得MSE最小化的最優(yōu)帶寬A(n)與樣本大小n有
關(guān)，為<formula>formula see original document page 11</formula>其中&是核函數(shù)狀.)的特性成分。對(duì)于^=2，大小為"的樣本的最優(yōu)帶寬為<formula>formula see original document page 11</formula>
其中義M是利用大小為AA的訓(xùn)練數(shù)據(jù)集獲得的帶寬，其使得MSE最小化。
盡管這避免了隨著樣本大小的改變而重復(fù)帶寬優(yōu)化這一計(jì)算量很大的工作，但帶寬更新仍然要求重新計(jì)算公式(10)中的v矩陣。因?yàn)閹掚S著樣本大小而以"-。2緩慢地變化，當(dāng)#^/">:/^時(shí)，周期性地更新v矩
陣，其中iVto是當(dāng)最后一次帶寬更新發(fā)生時(shí)的樣本大小，而"是用戶指定的敏感度參數(shù)。
在EBEL過(guò)程中的遞增步驟的復(fù)雜度在訓(xùn)練數(shù)據(jù)集230的大小中是
線性的。因此，用于從大小為iV的訓(xùn)練數(shù)據(jù)集230獲得大小為A的實(shí)例數(shù)據(jù)集135的EBEL過(guò)程的運(yùn)行時(shí)復(fù)雜度是(9((W-。
圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的EBEL過(guò)程的偽代碼。當(dāng)系統(tǒng)已經(jīng)使用當(dāng)前實(shí)例數(shù)據(jù)集250 T。w進(jìn)行分類(140)且利用樣本數(shù)據(jù)
集260 X^進(jìn)行了更新時(shí)，在學(xué)習(xí)步驟210中EBEL方法找到實(shí)例數(shù)據(jù)集
135Ss.t.， |s| = h期望的實(shí)例集的大小A:取決于存儲(chǔ)器限制220。對(duì)應(yīng)于7"的帶寬值X是離線地獲得的。在初始階段，我們通過(guò)設(shè)置7;^=0;且
T。w=7"，從樣本數(shù)據(jù)集7t導(dǎo)到大小為A:的實(shí)例數(shù)據(jù)集135。
EBEL過(guò)程首先將來(lái)自當(dāng)前實(shí)例數(shù)據(jù)集250 T。w和樣本數(shù)據(jù)集260t;^的數(shù)據(jù)組合，并相應(yīng)地更新對(duì)應(yīng)的核帶寬，如圖3的步驟1所示。
在計(jì)算v矩陣后，EBEL過(guò)程減小訓(xùn)練數(shù)據(jù)集230S的大小，直到該
大小達(dá)到期望值L在步驟4-8中每次移除訓(xùn)練數(shù)據(jù)集230的一個(gè)實(shí)例，
在步驟9-12，如果樣本大小變得小于敏感度參數(shù)a所允許的大小，則更新v矩陣。所產(chǎn)生的實(shí)例數(shù)據(jù)集135 S替換當(dāng)前實(shí)例數(shù)據(jù)集250 T。w，且
被用于對(duì)感測(cè)的數(shù)據(jù)102進(jìn)行分類(140)?；贏UC的實(shí)例學(xué)習(xí)(ABEL)方法
ABEL過(guò)程通過(guò)基于一致性驗(yàn)證數(shù)據(jù)集和保留樣本上的AUC性能之間的相關(guān)性(dependency)來(lái)移除訓(xùn)練數(shù)據(jù)集的樣本，從而解決了驗(yàn)證一致性問(wèn)題。因此，樣本具有訓(xùn)練樣本(只要該樣本沒(méi)有被移除)和當(dāng)確定公式(6)的條件概率時(shí)的測(cè)試樣本的雙重角色。
在ABEL過(guò)程的不同階段，性能被驗(yàn)證，即確定對(duì)于不同數(shù)據(jù)集的熵，因此降低了結(jié)果的統(tǒng)計(jì)顯著性。
在ABEL過(guò)程中，在移除操作的開(kāi)始從訓(xùn)練數(shù)據(jù)集中提取驗(yàn)證數(shù)據(jù)集，且移除訓(xùn)練數(shù)據(jù)集的樣本使得AUC性能降低，結(jié)果，移除的次數(shù)被最小化。給定訓(xùn)練數(shù)據(jù)集230&和驗(yàn)證數(shù)據(jù)集K，使得化門&} = 0， ABEL
過(guò)程根據(jù)下式移除樣本x:
其中^(m是利用集合義進(jìn)行測(cè)試且利用集合7作為訓(xùn)練數(shù)據(jù)集時(shí)的AUC值。ABEL過(guò)程提供了一種簡(jiǎn)單然而有效的適用于任何分類器的EL框架。
給定驗(yàn)證數(shù)據(jù)集中的樣本的價(jià)值分?jǐn)?shù)，在不實(shí)際生成ROC曲線的情況下以0(M2)時(shí)間確定AUC。然而，對(duì)于有限樣本集，AUC等于公知的
歸一化Wilcoxon-Mann-Whitney (WMW)統(tǒng)計(jì)量j:乂；=一， (i4)
其中，廣=&,^，...，^是正類的價(jià)值分?jǐn)?shù)，而廠-k,K,...,d是在v(lv卜"+p)中的負(fù)類樣本的價(jià)值分?jǐn)?shù)。該統(tǒng)計(jì)量使用非參數(shù)測(cè)試來(lái)評(píng)估
兩個(gè)樣本是否來(lái)自相同的分布。
統(tǒng)計(jì)量乂是戶(廣>廠)的估計(jì)量，即，所有正類樣本比負(fù)類樣本獲得
更高的價(jià)值分?jǐn)?shù)時(shí)的概率，且如果所有價(jià)值分?jǐn)?shù)以非降序存儲(chǔ)使得r是《
的次序，則乂可以進(jìn)一步簡(jiǎn)化為
h丄
廣
》,-
、/=1 2
(15)
式(15)表明，給定驗(yàn)證數(shù)據(jù)集的價(jià)值分?jǐn)?shù)，AUC值可以按0(Mlog(v))時(shí)間確定。如果^是由分類器g利用訓(xùn)練數(shù)據(jù)集Z)^測(cè)試樣本
進(jìn)行分類所花的時(shí)間，則ABEL的運(yùn)行時(shí)復(fù)雜度是0(l^(log(M) + ^)。
圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的ABEL過(guò)程的偽代碼。ABEL過(guò)程首先從訓(xùn)練數(shù)據(jù)230中提取驗(yàn)證數(shù)據(jù)集，給定驗(yàn)證數(shù)據(jù)集(77)的部分大小作為輸入?yún)?shù)(步驟2)，接著從訓(xùn)練數(shù)據(jù)集230的其余樣本中移除實(shí)例(步驟3-6)。部分大小ti的最優(yōu)值取決于存儲(chǔ)器的大小以及分類140的復(fù)雜度。盡管大小T！的較大值導(dǎo)致高存儲(chǔ)器開(kāi)銷，但小的值降低了驗(yàn)證數(shù)據(jù)集元素的AUC分?jǐn)?shù)的統(tǒng)計(jì)顯著性，從而導(dǎo)致更差的實(shí)例移除決策。本發(fā)明的一個(gè)實(shí)施方式使用rr0.1。
將會(huì)理解的是，在本發(fā)明的精神和范圍內(nèi)可以進(jìn)行各種其它的改變和修改。因此，所附權(quán)利要求書的目的是涵蓋落入本發(fā)明的真實(shí)精神和范圍的所有這種變型和修改。
1權(quán)利要求
1、一種用于在具有有限存儲(chǔ)器的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法，該方法包括以下步驟確定訓(xùn)練數(shù)據(jù)集；獲取用于存儲(chǔ)數(shù)據(jù)的存儲(chǔ)器大??；對(duì)所述訓(xùn)練數(shù)據(jù)集應(yīng)用實(shí)例學(xué)習(xí)(EL)過(guò)程以產(chǎn)生適于所述存儲(chǔ)器大小的實(shí)例數(shù)據(jù)集，其中該EL過(guò)程是從包括基于熵的實(shí)例學(xué)習(xí)(EBEL)過(guò)程和支持寬帶的高級(jí)學(xué)習(xí)(ABEL)過(guò)程的組中選擇的；獲取待分類數(shù)據(jù)；以及使用所述實(shí)例數(shù)據(jù)集對(duì)所述數(shù)據(jù)進(jìn)行分類。
2、根據(jù)權(quán)利要求1的方法，其中該確定步驟進(jìn)一步包括以下步驟獲取當(dāng)前實(shí)例數(shù)據(jù)集；獲取樣本數(shù)據(jù)集；以及將所述當(dāng)前實(shí)例數(shù)據(jù)集和所述樣本數(shù)據(jù)組合起來(lái)以產(chǎn)生訓(xùn)練數(shù)據(jù)集。
3、根據(jù)權(quán)利要求2的方法，其中，所述當(dāng)前實(shí)例數(shù)據(jù)集最初為空。
4、根據(jù)權(quán)利要求l的方法，其中，所述EBEL過(guò)程進(jìn)一步包括以下對(duì)于所述訓(xùn)練數(shù)據(jù)集&中的各樣本;c，確定在給定樣本x的條件下的類變量C的條件熵?fù)p失/Z(4c);以及從所述訓(xùn)練數(shù)據(jù)集&中移除使得條件熵?fù)p失Z/(Cl;c)最小的所選擇的樣本。
5、根據(jù)權(quán)利要求4的方法，其中所選擇的樣本是根據(jù)arg min4i/(C卜)]確定的。
6、根據(jù)權(quán)利要求4的方法，其中該存儲(chǔ)器限制是所述實(shí)例數(shù)據(jù)集的大小"該方法進(jìn)一步包括以下步驟對(duì)確定所述條件熵?fù)p失的步驟和移除樣本X的步驟進(jìn)行重復(fù)，直到所述訓(xùn)練數(shù)據(jù)集達(dá)到所述大小t
7、根據(jù)權(quán)利要求4的方法，其中確定所述條件熵?fù)p失的步驟使用所述訓(xùn)練數(shù)據(jù)集的樣本的成對(duì)核心值。
8、根據(jù)權(quán)利要求1的方法，其中所述ABEL過(guò)程進(jìn)一步包括以下步驟從所述訓(xùn)練數(shù)據(jù)集提取驗(yàn)證數(shù)據(jù)集V ;對(duì)于所述訓(xùn)練數(shù)據(jù)集&中的各樣本;c，確定子集S" W的接收機(jī)工作曲線下的面積(AUC);以及從所述訓(xùn)練數(shù)據(jù)集中移除與AUC的最小損失相對(duì)應(yīng)的樣本;c。
9、根據(jù)權(quán)利要求8的方法，其中移除步驟是根據(jù)下式<formula>formula see original document page 3</formula>其中A (V,<S \^})是針對(duì)所述驗(yàn)證數(shù)據(jù)集V和所述訓(xùn)練數(shù)據(jù)集&的樣本x確定的AUC，且是在移除步驟之后的新訓(xùn)練數(shù)據(jù)集。
10、根據(jù)權(quán)利要求8的方法，其中所述驗(yàn)證數(shù)據(jù)集的大小等于所述訓(xùn)練數(shù)據(jù)集大小的O.l倍。
全文摘要
本發(fā)明的實(shí)施方式表述了一種用于在具有有限存儲(chǔ)器的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法。該方法對(duì)訓(xùn)練數(shù)據(jù)集應(yīng)用實(shí)例學(xué)習(xí)(EL)過(guò)程，以產(chǎn)生適于該存儲(chǔ)器大小的實(shí)例數(shù)據(jù)集。該EL過(guò)程是從包括基于熵的實(shí)例學(xué)習(xí)(EBEL)過(guò)程和支持寬帶的高級(jí)學(xué)習(xí)(ABEL)過(guò)程的組中選擇的。該實(shí)例數(shù)據(jù)集被用來(lái)對(duì)系統(tǒng)獲取的數(shù)據(jù)進(jìn)行分類。
文檔編號(hào)G06F17/30GK101676912SQ20091016691
公開(kāi)日2010年3月24日申請(qǐng)日期2009年8月3日優(yōu)先權(quán)日2008年9月15日
發(fā)明者丹尼爾·N·尼科夫斯基, 安庫(kù)爾·賈殷申請(qǐng)人:三菱電機(jī)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：安庫(kù)爾.賈殷;丹尼爾.Ｎ.尼科夫斯基
技術(shù)所有人：三菱電機(jī)株式會(huì)社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)存儲(chǔ)器相關(guān)技術(shù)

單片機(jī)數(shù)據(jù)存儲(chǔ)器相關(guān)技術(shù)

存儲(chǔ)器地址線和數(shù)據(jù)線相關(guān)技術(shù)

外部數(shù)據(jù)存儲(chǔ)器寫選通相關(guān)技術(shù)

外部數(shù)據(jù)存儲(chǔ)器相關(guān)技術(shù)

存儲(chǔ)器數(shù)據(jù)寄存器相關(guān)技術(shù)

什么是數(shù)據(jù)存儲(chǔ)器相關(guān)技術(shù)

片內(nèi)數(shù)據(jù)存儲(chǔ)器相關(guān)技術(shù)

32位數(shù)據(jù)存儲(chǔ)器設(shè)計(jì)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

在存儲(chǔ)器有限的系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行分類的方法