亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)分類方法和裝置的制造方法

文檔序號:9226055閱讀:319來源:國知局
數(shù)據(jù)分類方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明實施例涉及通信技術,尤其涉及一種數(shù)據(jù)分類方法和裝置。
【背景技術】
[0002] 數(shù)據(jù)分類技術一直是口工業(yè)界和學術界的研究熱點。數(shù)據(jù)分類技術可W包括圖 片場景分類、文本分類(例如應用于多語言文本情感分類領域)、多媒體語義分類(例如應用 于多媒體語義識別領域)。圖片場景分類可W為圖片的后續(xù)處理提供方便,一個潛在的應用 場合是在手機平臺上。隨著智能手機的普及,手機拍照已經(jīng)成為手機的第二大功能。通過 手機拍攝場景圖片而識別出用戶所處的環(huán)境,可W為用戶提供相關服務,例如判定拍攝圖 片是在會議廳,自動設置成會議狀態(tài)模式,使得手機變得更加智能。
[0003] 現(xiàn)有的數(shù)據(jù)分類技術是基于實特征向量進行分類,使用實數(shù)值的特征表示作為輸 入進行分類器訓練,但該種技術需要耗費大量的計算資源,計算效率低,不適用于大規(guī)模數(shù) 據(jù)的分類。

【發(fā)明內容】

[0004] 本發(fā)明實施例提供一種數(shù)據(jù)分類方法和裝置,W克服現(xiàn)有技術的數(shù)據(jù)分類方法計 算量過大,計算效率低的問題。
[0005] 第一方面,本發(fā)明實施例提供一種數(shù)據(jù)分類方法,包括:
[0006] 根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類數(shù)據(jù)進行歸一化處理, W使所述待分類數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致,形成所述待分類數(shù)據(jù)的特征數(shù) 據(jù);
[0007] 利用二值化壓縮碼編碼器處理所述待分類數(shù)據(jù)的特征數(shù)據(jù),得到所述待分類數(shù)據(jù) 的二值化壓縮碼;
[0008] 利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處 理,獲得所述待分類數(shù)據(jù)的類別。
[0009] 在第一方面的第一種可能的實現(xiàn)方式中,在所述根據(jù)從待分類數(shù)據(jù)中抽取到的至 少一個特征對所述原始數(shù)據(jù)進行歸一化處理,W使所述待分類數(shù)據(jù)的各個特征對應的數(shù)據(jù) 取值范圍一致,形成所述待分類數(shù)據(jù)的特征數(shù)據(jù)之前,還包括:
[0010] 對樣本數(shù)據(jù)進行歸一化處理,W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍 一致,形成壓縮碼訓練數(shù)據(jù),所述樣本數(shù)據(jù)來自于所述待分類數(shù)據(jù);
[0011] 利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練,獲得二值化壓 縮碼編碼器,并獲得二值化壓縮碼;
[0012] 將所述二值化壓縮碼作為分類器訓練數(shù)據(jù),對分類器進行訓練,獲得基于二值化 壓縮碼的分類器。
[0013] 根據(jù)第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述利用 所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練,獲得二值化壓縮碼編碼器, 包括:
[0014] 利用所述壓縮碼訓練數(shù)據(jù),根據(jù)W下使分類誤差的目標函數(shù)最小化的公式進行編 碼器訓練:
[0015]
[001引其中,a ik是權重系數(shù),Ibik ? fk(Xi))為損失函數(shù),所述損失函數(shù)的表達式為 1 (a) =max (0, 1-a),yike(-1,1),為Xi在第k類別的類別標化Xi為第i個壓 縮碼訓練數(shù)據(jù),
W;"為第k類別中,第m個特征 對應的分類參數(shù),bk為偏置參數(shù),M為特征的數(shù)量,A為投影矩陣,AW為 第m個特征對應的投影矩陣,(A?Xi?)為哈希函數(shù),N為所述壓縮碼訓練數(shù)據(jù)的個數(shù),K 為所述壓縮碼訓練數(shù)據(jù)的類別個數(shù),g(W)和h(A)是兩個規(guī)范化函數(shù),分別用于調整分類參 數(shù)矩陣W和投影矩陣A的作用,Ai和A2為兩個實數(shù),分別用于調整規(guī)范化函數(shù)g(W)和 h(A);
[0017]訓練后得到所述投影矩陣A、所述分類參數(shù)矩陣W和偏置矩陣B ;
[001引并將所述哈希函數(shù);(A?Xi?)作為二值化壓縮碼編碼器。
[0019] 根據(jù)第一方面的第二種可能的實現(xiàn)方式,在第H種可能的實現(xiàn)方式中,所述利用 基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處理,包括:通過 如下函數(shù)對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處理:
[0020]
根據(jù)第一方面的第二種或第H種可能的實現(xiàn)方式,在第四種可能的實 現(xiàn)方式中,在所述利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練之前, 還包括:
[0021] 為所述樣本數(shù)據(jù)的各個特征分配分類器回歸系數(shù)或權重的稀疏性限制,W使所述 二值化壓縮碼編碼器進行編碼時每個特征分配相同或不同的位數(shù)。
[0022] 根據(jù)第一方面的第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述為所 述每個特征分配分類器回歸系數(shù)或權重的稀疏性限制,包括:
[0023] 引入分類參數(shù)矩陣W=[wi…Wk]G I^xK,其中C表示對每種特征的編碼長度,M表 示特征的數(shù)量,K表示分類目標的類別個數(shù),C、M、K分別為大于1的整數(shù),Wk為列向量,表示 第k個類別中各個特征對應的分類參數(shù),k={l,…,時。
[0024] 根據(jù)第一方面的第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,所述為所 述每個特征分配分類器回歸系數(shù)或權重的稀疏性限制,包括:
[002引利用L2,i范數(shù)對分類參數(shù)矩陣W進行稀疏性限制。
[0026] 在第一方面的第走種可能的實現(xiàn)方式中,在所述根據(jù)從待分類數(shù)據(jù)中抽取到的至 少一個特征對所述待分類數(shù)據(jù)進行歸一化處理,W使所述待分類數(shù)據(jù)的各個特征對應的數(shù) 據(jù)取值范圍一致,形成所述待分類數(shù)據(jù)的特征數(shù)據(jù)之前,還包括:
[0027] 從所述待分類數(shù)據(jù)抽取至少一個特征,所述特征反映所述待分類數(shù)據(jù)的特點。
[002引根據(jù)第一方面的第走種可能的實現(xiàn)方式,在第八種可能的實現(xiàn)方式中,所述從所 述待分類數(shù)據(jù)抽取至少一個特征,包括采用W下至少一個算法處理所述待分類數(shù)據(jù);尺度 不變特征轉換SIFT、詞袋BOW和面向分類的全局圖像特征GIST。
[0029] 根據(jù)第一方面的第一種至第八可能的實現(xiàn)方式中的任意一種,在第九種可能的實 現(xiàn)方式中,所述對樣本數(shù)據(jù)進行歸一化處理,W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取 值范圍一致,形成壓縮碼訓練數(shù)據(jù),包括:
[0030] 對樣本數(shù)據(jù)進行歸一化處理,W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍 一致,并對所述樣本數(shù)據(jù)進行類別標記,形成壓縮碼訓練數(shù)據(jù)。
[0031] 根據(jù)第一方面的第一種至第九可能的實現(xiàn)方式中的任意一種,在第十種可能的實 現(xiàn)方式中,所述將所述二值化壓縮碼作為分類器訓練數(shù)據(jù),對分類器進行訓練,獲得基于二 值化壓縮碼的分類器,包括:
[0032] 采用支持向量機SVM、貝葉斯模型和邏輯回歸函數(shù)中的任意一個作為分類器,利用 二值化壓縮碼對分類器進行訓練,獲得基于所述二值化壓縮碼的分類器。
[0033] 第二方面,本發(fā)明實施例提供一種數(shù)據(jù)分類裝置,包括:
[0034]歸一化處理模塊,用于根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類 數(shù)據(jù)進行歸一化處理,W使所述待分類數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致,形成所 述待分類數(shù)據(jù)的特征數(shù)據(jù);
[0035] 壓縮模塊,用于利用二值化壓縮碼編碼器處理所述待分類數(shù)據(jù)的特征數(shù)據(jù),得到 所述待分類數(shù)據(jù)的二值化壓縮碼;
[0036] 分類模塊,用于利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮 碼進行分類處理,獲得所述待分類數(shù)據(jù)的類別。
[0037] 在第二方面的第一種可能的實現(xiàn)方式中:
[0038] 所述歸一化處理模塊,還用于對樣本數(shù)據(jù)進行歸一化處理,W使所述樣本數(shù)據(jù)的 各個特征對應的數(shù)據(jù)取值范圍一致,形成壓縮碼訓練數(shù)據(jù),所述樣本數(shù)據(jù)來自于所述待分 類數(shù)據(jù);
[0039] 所述裝置還包括:
[0040] 編碼器訓練模塊,用于利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼 器訓練,獲得二值化壓縮碼編碼器,并獲得二值化壓縮碼;
[0041] 分類器訓練模塊,用于將所述二值化壓縮碼作為分類器訓練數(shù)據(jù),對分類器進行 訓練,獲得基于二值化壓縮碼的分類器。
[0042] 根據(jù)第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述編碼 器訓練模塊,具體用于:
[0043] 利用所述壓縮碼訓練數(shù)據(jù),根據(jù)W下使分類誤差的目標函數(shù)最小化的公式進行編 碼器訓練:
[0044]
[004引其中,aik是權重系數(shù),l(yik?fk(Xi))為損失函數(shù),所述損失函數(shù)的表達式為 1 (a) =max (0, 1-a),yike (-1,1),為Xi在第k類別的類別標化Xi為 第i個壓縮碼訓練數(shù)據(jù),
W:為第k類別中, 第m個特征對應的分類參數(shù),bk刃懈置寥數(shù),M刃特征的數(shù)量,A為投 影矩陣,A?為第m個特征對應的投影矩陣,MA^x嚴)為哈希函數(shù),N為所述壓縮碼訓練 數(shù)據(jù)的個數(shù),K為所述壓縮碼訓練數(shù)據(jù)的類別個數(shù),g(W)和h(A)是兩個規(guī)范化函數(shù),分別用 于調整分類參數(shù)矩陣W和投影矩陣A的作用,A 1和A2為兩個實數(shù),分別用于調整規(guī)范化 函數(shù)g(w)和h(A);
[0046] 訓練后得到所述投
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1