行歸一化處理,可W包括根據(jù)所述至少一個特征 對所述數(shù)據(jù)進(jìn)行歸一化,w使所述樣本數(shù)據(jù)的各個特征對應(yīng)的數(shù)據(jù)取值范圍一致;可選地, 還可W對所述數(shù)據(jù)進(jìn)行類別標(biāo)記。對所述數(shù)據(jù)進(jìn)行類別標(biāo)記,是指將某個數(shù)據(jù)標(biāo)記為某個 類別。例如,對于圖片數(shù)據(jù),可W將某個圖片標(biāo)記為會議場景。
[0090] 步驟202、利用所述壓縮碼訓(xùn)練數(shù)據(jù)對二值化壓縮碼編碼器進(jìn)行編碼器訓(xùn)練,獲得 二值化壓縮碼編碼器,并獲得二值化壓縮碼。
[0091] 具體地,可W根據(jù)使分類誤差的目標(biāo)函數(shù)最小化的函數(shù)進(jìn)行編碼器訓(xùn)練,從而學(xué) 習(xí)得到壓縮編碼模型。
[0092] W圖片數(shù)據(jù)的分類為例,假設(shè)有N個圖片,每個圖片具有M個不同的特征,再假設(shè) 第m個特征可W表示為一個佳的矢量,每個圖片屬于K個類別中的一個。具體地,可W 使用X來代表一個圖片,戈表該圖片的第m個特征。然后,圖片的M個特征中的每一個 特征可W學(xué)習(xí)到一個C維的二值碼,其中,C可W由用戶定義,M個該樣的C維二值碼聯(lián)合起 來就構(gòu)成了該圖片的壓縮碼。假設(shè)訓(xùn)練數(shù)據(jù)為:
[0093]
[0094] 所述使分類誤差的目標(biāo)函數(shù)最小化的公式為如下的公式(1);
[009引
(1 )
[009引其中,a ik是權(quán)重系數(shù),IbikXfk (Xi))為損失函數(shù),所述損失函數(shù)的表達(dá)式為 1 (a) =max (0, 1-a),yik e (-1,1 ),為Xi在第k類別中的類別標(biāo)化Xi為第 i個壓縮碼訓(xùn)練數(shù)據(jù),
wj為第k類別中,第皿 個特征對應(yīng)的分類參數(shù),bk為偏置參數(shù),M為特征的數(shù)量,A為投影矩陣,A<i" 為第m個特征對應(yīng)的投影矩陣,(A?Xi?)為哈希函數(shù),N為所述壓縮碼訓(xùn)練數(shù)據(jù)的個數(shù),K 為所述壓縮碼訓(xùn)練數(shù)據(jù)的類別個數(shù),g(W)和h(A)是兩個規(guī)范化函數(shù),分別用于調(diào)整分類參 數(shù)矩陣W和投影矩陣A的作用,A為投影矩陣,W為分類參數(shù)矩陣,A 1和A 2為兩個實(shí)數(shù), 分別用于調(diào)整規(guī)范化函數(shù)g(W)和h(A),B為偏置參數(shù)矩陣,B={bi,b2,…,bj。
[0097] 將壓縮碼訓(xùn)練數(shù)據(jù)代入到公式(1 ),并求解A、W、B,即利用公式(1)對壓縮碼訓(xùn)練 數(shù)據(jù)進(jìn)行學(xué)習(xí),可W得到W下哈希函數(shù),即公式(2);
[0098] (HA(m)Xi(m)) (2)
[0099] 其中,哈希函數(shù)MA^x嚴(yán))為元素選擇指示函數(shù),當(dāng)變量大于0時,該函數(shù)值為1, 否則為零;A為投影矩陣,e巧,Xi為第i個壓縮碼訓(xùn)練數(shù)據(jù),結(jié)合起來,(35 (A?Xi?) 可W將第m個特征映射到一個C維的二值碼矢量上,因此,公式(2)所示的哈希函數(shù)即可W 作為壓縮碼編碼器。對于獲得二值化壓縮碼的過程,具體地,可W將歸一化之后的數(shù)據(jù)輸入 到公式(2)所示的哈希函數(shù),即代入Xi,可W輸出二值化壓縮碼。
[0100] 步驟202的過程為編碼器訓(xùn)練過程,本實(shí)施例是通過聯(lián)合優(yōu)化一個基本分類誤差 的目標(biāo)函數(shù)即公式(1)進(jìn)行的。
[0101] 步驟203、將所述二值化壓縮碼作為分類器訓(xùn)練數(shù)據(jù),對分類器進(jìn)行訓(xùn)練,獲得基 于二值化壓縮碼的分類器。
[0102] 具體地,將步驟202得到的二值化壓縮碼作為分類器的輸入,對分類器進(jìn)行訓(xùn)練, 可w獲得基于所述二值化壓縮碼的分類器。
[0103] 具體地,所述基于二值化壓縮碼的分類器可W表示為如下的公式(3)
[0104]
(3)
[010引其中,kTg巧f,w:'代表第k類別中第m個特征對應(yīng)的分類參數(shù),bk為偏置參數(shù)。
[0106] 假設(shè)每個類別有一個對應(yīng)的分類器,第k個類別的分類器就可W采用公式(3)的 形式。
[0107] 其中,所述分類器可W為W下任意一個分類器;支持向量機(jī)(Suppod Vector Machine,簡稱;SVM)、貝葉斯模型(Bayesian Model)和邏輯回歸化ogistic Regression)。 [010引對于圖片數(shù)據(jù),該分類器的輸入是圖片的二值化壓縮碼,輸出是場景類別。
[0109] 需要說明的是,W上的步驟202中對壓縮編碼器的訓(xùn)練W及步驟203中對分類器 的訓(xùn)練,其輸入數(shù)據(jù)可W為樣本數(shù)據(jù)。上述步驟201~203為步驟204~206的準(zhǔn)備過程。
[0110] 步驟204、根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類數(shù)據(jù)進(jìn)行歸 一化處理,W使所述待分類數(shù)據(jù)的各個特征對應(yīng)的數(shù)據(jù)取值范圍一致,形成所述待分類數(shù) 據(jù)的特征數(shù)據(jù)。
[0111] 具體實(shí)現(xiàn)時,從待分類數(shù)據(jù)中抽取到的特征與從樣本數(shù)據(jù)中抽取到的特征相同。
[0112] 步驟205、利用二值化壓縮碼編碼器處理所述待分類數(shù)據(jù)的特征數(shù)據(jù),得到所述待 分類數(shù)據(jù)的二值化壓縮碼。
[0113] 步驟206、利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進(jìn) 行分類處理,獲得所述待分類數(shù)據(jù)的類別。
[0114] 本實(shí)施例,通過對樣本數(shù)據(jù)進(jìn)行歸一化處理,形成壓縮碼訓(xùn)練數(shù)據(jù),并從該壓縮碼 訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到二值化壓縮碼的表示函數(shù),即哈希函數(shù),將該哈希函數(shù)作為二值化壓 縮碼編碼器,用所述哈希函數(shù)處理所述預(yù)處理后的每個特征對應(yīng)的數(shù)據(jù),得到每個特征對 應(yīng)的二值化壓縮碼,并將所述二值化壓縮碼作為分類器訓(xùn)練數(shù)據(jù),用于訓(xùn)練分類器,從而獲 得基于二值化壓縮碼的分類器,然后利用所述基于所述二值化壓縮碼的分類器對待分類的 數(shù)據(jù)進(jìn)行分類,該樣,可W減少數(shù)據(jù)的存儲空間,加快運(yùn)算速度,并且還可W提高分類準(zhǔn)確 性,從而特別地,有利于基于手機(jī)平臺的場景圖片分類器訓(xùn)練和測試。另一方面,由于本發(fā) 明實(shí)施例的數(shù)據(jù)分類方法在分類過程中所需要的數(shù)據(jù)量較小,因此占用內(nèi)存較少,計(jì)算速 度較快,能夠直接在手機(jī)等便攜設(shè)備上完成,避免了將數(shù)據(jù)傳導(dǎo)到服務(wù)器上進(jìn)行分類,能夠 提升用戶使用的便利性。
[0115] 進(jìn)一步地,上述實(shí)施例的編碼器訓(xùn)練過程中,即步驟202,可W有W下兩種方式。
[0116] 在第一種方式中,對各個特征抽取同樣長度的二值碼。具體實(shí)現(xiàn)時,公式(1)中的 規(guī)范化函數(shù)g (W)可W采用如下的公式(4)的形式:
[0117]
(4)
[0118] 在第二種方式中,根據(jù)不同特征在分類過程中的重要性來選擇不同編碼長度,即 自適應(yīng)編碼,具體實(shí)現(xiàn)的思想是通過加入每個特征分配分類器回歸系數(shù)或權(quán)重的稀疏性限 巧||。對于公式(1)和公式(3)中的W,可W寫成系數(shù)矩陣的表達(dá)形式W=[wi…Wk] GR^xK,其 中C表示對每種特征類型的編碼長度,M表示特征類型種類,K表示分類目標(biāo)總數(shù),Wi表示 列向量。Wi向量中每一維數(shù)值的大小代表了二值碼中相應(yīng)一位的重要性。
[0119] 具體實(shí)現(xiàn)時,可利用L2,i范數(shù)對系數(shù)矩陣W進(jìn)行稀疏性限制。該個稀疏性限制是 將W執(zhí)行關(guān)于行向量的稀疏性限制,也就是說大部分W中的行都是零向量,而W中的每一行 又對應(yīng)于二值碼的中一個特征維,從而達(dá)到特征維數(shù)選擇的目的。該時,規(guī)范化函數(shù)g(W) 可W采用如下的公式(5)的形式:
[0120]
(5J
[0121] 采用第二種方式,除了可W從樣本數(shù)據(jù)沖學(xué)習(xí)到不同類型的特征的表示函數(shù),還 可W并從樣本數(shù)據(jù)中學(xué)習(xí)出不同特征的重要性,然后根據(jù)不同特征的重要性自動判斷每種 特征對應(yīng)的壓縮碼長度,從而提高壓縮碼的可判別性,即提高分類的準(zhǔn)確性。
[0122] 圖3為本發(fā)明數(shù)據(jù)分類方法實(shí)施例H的流程圖,本實(shí)施例所述的數(shù)據(jù)可W為圖片 數(shù)據(jù)、文本數(shù)據(jù)、多媒體語義數(shù)據(jù)等。本實(shí)施例在圖2所示方法的基礎(chǔ)上,重點(diǎn)介紹了根據(jù) 數(shù)據(jù)特征的重要程度自適應(yīng)的選擇壓縮碼長度,并基于壓縮碼進(jìn)行分類的方法,并增加了 如何提取特征的步驟。如圖3所示,本實(shí)施例的方法可W包括:
[0123] 步驟301、從所述樣本數(shù)據(jù)抽取至少一個特征,所述特征反映所述樣本數(shù)據(jù)的特 點(diǎn)。
[0124] 具體地,抽取特征的過程可W采用現(xiàn)有的方法,對于圖片數(shù)據(jù),可W從圖片數(shù)據(jù)中 抽取反應(yīng)圖像不同特點(diǎn)的圖像表達(dá)形式,如SIFT,BOW和GIST等。
[0125] 步驟302、根據(jù)所述至少一個特征對所述數(shù)據(jù)進(jìn)行歸一化處理,形成壓縮碼訓(xùn)練數(shù) 據(jù)。
[0126] 其中,還可W對所述數(shù)據(jù)進(jìn)行類別標(biāo)記。
[0127] 步驟303、為每個特征分配分類器回歸系數(shù)或權(quán)重的稀疏性限制。
[012引具體地,對于分類參數(shù)W,可W引入系數(shù)矩陣w=[wi'"Wk]GirxK,其中,wr代表第 k類別中第m個特征對應(yīng)的分類參數(shù),C表示對每種特征類型的編碼長度,M表示特征類型 種類,K表示分類目標(biāo)總數(shù),Wi表示列向量。
[0129] 具體實(shí)現(xiàn)時,可W利用L2,i范數(shù)對系數(shù)矩陣W進(jìn)行稀疏性限制。
[0130] 步驟304、利用所述壓縮碼訓(xùn)練數(shù)據(jù)對二值化壓縮碼編碼器進(jìn)行編碼器訓(xùn)練,獲得 二值化壓縮碼編碼器,并獲得二值化壓縮碼。
[0131] 需要說明的是,步驟304中壓縮碼編碼器所處理的是樣本數(shù)據(jù),其輸出為樣本數(shù) 據(jù)的二值化壓縮碼。
[0132] 步驟305、