數(shù)據(jù)分類方法和裝置的制造方法_3

文檔序號：9226055閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>數(shù)據(jù)分類方法和裝置的制造方法

行歸一化處理，可W包括根據(jù)所述至少一個特征對所述數(shù)據(jù)進(jìn)行歸一化，w使所述樣本數(shù)據(jù)的各個特征對應(yīng)的數(shù)據(jù)取值范圍一致；可選地，還可W對所述數(shù)據(jù)進(jìn)行類別標(biāo)記。對所述數(shù)據(jù)進(jìn)行類別標(biāo)記，是指將某個數(shù)據(jù)標(biāo)記為某個類別。例如，對于圖片數(shù)據(jù)，可W將某個圖片標(biāo)記為會議場景。
[0090] 步驟202、利用所述壓縮碼訓(xùn)練數(shù)據(jù)對二值化壓縮碼編碼器進(jìn)行編碼器訓(xùn)練，獲得二值化壓縮碼編碼器，并獲得二值化壓縮碼。
[0091] 具體地，可W根據(jù)使分類誤差的目標(biāo)函數(shù)最小化的函數(shù)進(jìn)行編碼器訓(xùn)練，從而學(xué) 習(xí)得到壓縮編碼模型。
[0092] W圖片數(shù)據(jù)的分類為例，假設(shè)有N個圖片，每個圖片具有M個不同的特征，再假設(shè) 第m個特征可W表示為一個佳的矢量，每個圖片屬于K個類別中的一個。具體地，可W 使用X來代表一個圖片，戈表該圖片的第m個特征。然后，圖片的M個特征中的每一個特征可W學(xué)習(xí)到一個C維的二值碼，其中，C可W由用戶定義，M個該樣的C維二值碼聯(lián)合起來就構(gòu)成了該圖片的壓縮碼。假設(shè)訓(xùn)練數(shù)據(jù)為：
[0093]
[0094] 所述使分類誤差的目標(biāo)函數(shù)最小化的公式為如下的公式（1);
[009引
（1 )
[009引其中，a ik是權(quán)重系數(shù)，IbikXfk (Xi))為損失函數(shù)，所述損失函數(shù)的表達(dá)式為 1 (a) =max (0, 1-a)，yik e (-1，1 )，為Xi在第k類別中的類別標(biāo)化Xi為第 i個壓縮碼訓(xùn)練數(shù)據(jù)，
wj為第k類別中，第皿個特征對應(yīng)的分類參數(shù)，bk為偏置參數(shù)，M為特征的數(shù)量，A為投影矩陣，A<i" 為第m個特征對應(yīng)的投影矩陣，(A?Xi?)為哈希函數(shù)，N為所述壓縮碼訓(xùn)練數(shù)據(jù)的個數(shù)，K 為所述壓縮碼訓(xùn)練數(shù)據(jù)的類別個數(shù)，g(W)和h(A)是兩個規(guī)范化函數(shù)，分別用于調(diào)整分類參數(shù)矩陣W和投影矩陣A的作用，A為投影矩陣，W為分類參數(shù)矩陣，A 1和A 2為兩個實(shí)數(shù)，分別用于調(diào)整規(guī)范化函數(shù)g(W)和h(A)，B為偏置參數(shù)矩陣，B={bi，b2,…，bj。
[0097] 將壓縮碼訓(xùn)練數(shù)據(jù)代入到公式（1 )，并求解A、W、B，即利用公式（1)對壓縮碼訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，可W得到W下哈希函數(shù)，即公式（2);
[0098] (HA(m)Xi(m)) (2)
[0099] 其中，哈希函數(shù)MA^x嚴(yán)）為元素選擇指示函數(shù)，當(dāng)變量大于0時，該函數(shù)值為1，否則為零;A為投影矩陣，e巧，Xi為第i個壓縮碼訓(xùn)練數(shù)據(jù)，結(jié)合起來，(35 (A?Xi?) 可W將第m個特征映射到一個C維的二值碼矢量上，因此，公式（2)所示的哈希函數(shù)即可W 作為壓縮碼編碼器。對于獲得二值化壓縮碼的過程，具體地，可W將歸一化之后的數(shù)據(jù)輸入到公式（2)所示的哈希函數(shù)，即代入Xi，可W輸出二值化壓縮碼。
[0100] 步驟202的過程為編碼器訓(xùn)練過程，本實(shí)施例是通過聯(lián)合優(yōu)化一個基本分類誤差的目標(biāo)函數(shù)即公式（1)進(jìn)行的。
[0101] 步驟203、將所述二值化壓縮碼作為分類器訓(xùn)練數(shù)據(jù)，對分類器進(jìn)行訓(xùn)練，獲得基于二值化壓縮碼的分類器。
[0102] 具體地，將步驟202得到的二值化壓縮碼作為分類器的輸入，對分類器進(jìn)行訓(xùn)練，可w獲得基于所述二值化壓縮碼的分類器。
[0103] 具體地，所述基于二值化壓縮碼的分類器可W表示為如下的公式（3)
[0104]
(3)
[010引其中，kTg巧f，w:'代表第k類別中第m個特征對應(yīng)的分類參數(shù)，bk為偏置參數(shù)。
[0106] 假設(shè)每個類別有一個對應(yīng)的分類器，第k個類別的分類器就可W采用公式（3)的形式。
[0107] 其中，所述分類器可W為W下任意一個分類器；支持向量機(jī)（Suppod Vector Machine,簡稱；SVM)、貝葉斯模型（Bayesian Model)和邏輯回歸化ogistic Regression)。 [010引對于圖片數(shù)據(jù)，該分類器的輸入是圖片的二值化壓縮碼，輸出是場景類別。
[0109] 需要說明的是，W上的步驟202中對壓縮編碼器的訓(xùn)練W及步驟203中對分類器的訓(xùn)練，其輸入數(shù)據(jù)可W為樣本數(shù)據(jù)。上述步驟201~203為步驟204~206的準(zhǔn)備過程。
[0110] 步驟204、根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類數(shù)據(jù)進(jìn)行歸一化處理，W使所述待分類數(shù)據(jù)的各個特征對應(yīng)的數(shù)據(jù)取值范圍一致，形成所述待分類數(shù) 據(jù)的特征數(shù)據(jù)。
[0111] 具體實(shí)現(xiàn)時，從待分類數(shù)據(jù)中抽取到的特征與從樣本數(shù)據(jù)中抽取到的特征相同。
[0112] 步驟205、利用二值化壓縮碼編碼器處理所述待分類數(shù)據(jù)的特征數(shù)據(jù)，得到所述待分類數(shù)據(jù)的二值化壓縮碼。
[0113] 步驟206、利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進(jìn) 行分類處理，獲得所述待分類數(shù)據(jù)的類別。
[0114] 本實(shí)施例，通過對樣本數(shù)據(jù)進(jìn)行歸一化處理，形成壓縮碼訓(xùn)練數(shù)據(jù)，并從該壓縮碼訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到二值化壓縮碼的表示函數(shù)，即哈希函數(shù)，將該哈希函數(shù)作為二值化壓縮碼編碼器，用所述哈希函數(shù)處理所述預(yù)處理后的每個特征對應(yīng)的數(shù)據(jù)，得到每個特征對應(yīng)的二值化壓縮碼，并將所述二值化壓縮碼作為分類器訓(xùn)練數(shù)據(jù)，用于訓(xùn)練分類器，從而獲得基于二值化壓縮碼的分類器，然后利用所述基于所述二值化壓縮碼的分類器對待分類的數(shù)據(jù)進(jìn)行分類，該樣，可W減少數(shù)據(jù)的存儲空間，加快運(yùn)算速度，并且還可W提高分類準(zhǔn)確性，從而特別地，有利于基于手機(jī)平臺的場景圖片分類器訓(xùn)練和測試。另一方面，由于本發(fā) 明實(shí)施例的數(shù)據(jù)分類方法在分類過程中所需要的數(shù)據(jù)量較小，因此占用內(nèi)存較少，計(jì)算速度較快，能夠直接在手機(jī)等便攜設(shè)備上完成，避免了將數(shù)據(jù)傳導(dǎo)到服務(wù)器上進(jìn)行分類，能夠提升用戶使用的便利性。
[0115] 進(jìn)一步地，上述實(shí)施例的編碼器訓(xùn)練過程中，即步驟202,可W有W下兩種方式。
[0116] 在第一種方式中，對各個特征抽取同樣長度的二值碼。具體實(shí)現(xiàn)時，公式（1)中的規(guī)范化函數(shù)g (W)可W采用如下的公式（4)的形式：
[0117]
(4)
[0118] 在第二種方式中，根據(jù)不同特征在分類過程中的重要性來選擇不同編碼長度，即自適應(yīng)編碼，具體實(shí)現(xiàn)的思想是通過加入每個特征分配分類器回歸系數(shù)或權(quán)重的稀疏性限巧||。對于公式（1)和公式（3)中的W，可W寫成系數(shù)矩陣的表達(dá)形式W=[wi…Wk] GR^xK，其中C表示對每種特征類型的編碼長度，M表示特征類型種類，K表示分類目標(biāo)總數(shù)，Wi表示列向量。Wi向量中每一維數(shù)值的大小代表了二值碼中相應(yīng)一位的重要性。
[0119] 具體實(shí)現(xiàn)時，可利用L2,i范數(shù)對系數(shù)矩陣W進(jìn)行稀疏性限制。該個稀疏性限制是將W執(zhí)行關(guān)于行向量的稀疏性限制，也就是說大部分W中的行都是零向量，而W中的每一行又對應(yīng)于二值碼的中一個特征維，從而達(dá)到特征維數(shù)選擇的目的。該時，規(guī)范化函數(shù)g(W) 可W采用如下的公式（5)的形式：
[0120]
(5J
[0121] 采用第二種方式，除了可W從樣本數(shù)據(jù)沖學(xué)習(xí)到不同類型的特征的表示函數(shù)，還可W并從樣本數(shù)據(jù)中學(xué)習(xí)出不同特征的重要性，然后根據(jù)不同特征的重要性自動判斷每種特征對應(yīng)的壓縮碼長度，從而提高壓縮碼的可判別性，即提高分類的準(zhǔn)確性。
[0122] 圖3為本發(fā)明數(shù)據(jù)分類方法實(shí)施例H的流程圖，本實(shí)施例所述的數(shù)據(jù)可W為圖片數(shù)據(jù)、文本數(shù)據(jù)、多媒體語義數(shù)據(jù)等。本實(shí)施例在圖2所示方法的基礎(chǔ)上，重點(diǎn)介紹了根據(jù) 數(shù)據(jù)特征的重要程度自適應(yīng)的選擇壓縮碼長度，并基于壓縮碼進(jìn)行分類的方法，并增加了如何提取特征的步驟。如圖3所示，本實(shí)施例的方法可W包括：
[0123] 步驟301、從所述樣本數(shù)據(jù)抽取至少一個特征，所述特征反映所述樣本數(shù)據(jù)的特點(diǎn)。
[0124] 具體地，抽取特征的過程可W采用現(xiàn)有的方法，對于圖片數(shù)據(jù)，可W從圖片數(shù)據(jù)中抽取反應(yīng)圖像不同特點(diǎn)的圖像表達(dá)形式，如SIFT,BOW和GIST等。
[0125] 步驟302、根據(jù)所述至少一個特征對所述數(shù)據(jù)進(jìn)行歸一化處理，形成壓縮碼訓(xùn)練數(shù) 據(jù)。
[0126] 其中，還可W對所述數(shù)據(jù)進(jìn)行類別標(biāo)記。
[0127] 步驟303、為每個特征分配分類器回歸系數(shù)或權(quán)重的稀疏性限制。
[012引具體地，對于分類參數(shù)W，可W引入系數(shù)矩陣w=[wi'"Wk]GirxK，其中，wr代表第 k類別中第m個特征對應(yīng)的分類參數(shù)，C表示對每種特征類型的編碼長度，M表示特征類型種類，K表示分類目標(biāo)總數(shù)，Wi表示列向量。
[0129] 具體實(shí)現(xiàn)時，可W利用L2,i范數(shù)對系數(shù)矩陣W進(jìn)行稀疏性限制。
[0130] 步驟304、利用所述壓縮碼訓(xùn)練數(shù)據(jù)對二值化壓縮碼編碼器進(jìn)行編碼器訓(xùn)練，獲得二值化壓縮碼編碼器，并獲得二值化壓縮碼。
[0131] 需要說明的是，步驟304中壓縮碼編碼器所處理的是樣本數(shù)據(jù)，其輸出為樣本數(shù) 據(jù)的二值化壓縮碼。
[0132] 步驟305、

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

射線裝置分類方法相關(guān)技術(shù)

數(shù)據(jù)分類方法相關(guān)技術(shù)

數(shù)據(jù)分類方法有哪些相關(guān)技術(shù)

數(shù)據(jù)挖掘分類方法相關(guān)技術(shù)

大數(shù)據(jù)分類方法相關(guān)技術(shù)

數(shù)據(jù)分類的方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)分類方法和裝置的制造方法_3