數(shù)據(jù)分類方法和裝置的制造方法

文檔序號：9226055閱讀：319來源：國知局

數(shù)據(jù)分類方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明實施例涉及通信技術，尤其涉及一種數(shù)據(jù)分類方法和裝置。
【背景技術】
[0002] 數(shù)據(jù)分類技術一直是口工業(yè)界和學術界的研究熱點。數(shù)據(jù)分類技術可W包括圖片場景分類、文本分類(例如應用于多語言文本情感分類領域)、多媒體語義分類(例如應用于多媒體語義識別領域)。圖片場景分類可W為圖片的后續(xù)處理提供方便，一個潛在的應用場合是在手機平臺上。隨著智能手機的普及，手機拍照已經(jīng)成為手機的第二大功能。通過手機拍攝場景圖片而識別出用戶所處的環(huán)境，可W為用戶提供相關服務，例如判定拍攝圖片是在會議廳，自動設置成會議狀態(tài)模式，使得手機變得更加智能。
[0003] 現(xiàn)有的數(shù)據(jù)分類技術是基于實特征向量進行分類，使用實數(shù)值的特征表示作為輸入進行分類器訓練，但該種技術需要耗費大量的計算資源，計算效率低，不適用于大規(guī)模數(shù) 據(jù)的分類。

【發(fā)明內容】

[0004] 本發(fā)明實施例提供一種數(shù)據(jù)分類方法和裝置，W克服現(xiàn)有技術的數(shù)據(jù)分類方法計算量過大，計算效率低的問題。
[0005] 第一方面，本發(fā)明實施例提供一種數(shù)據(jù)分類方法，包括：
[0006] 根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類數(shù)據(jù)進行歸一化處理， W使所述待分類數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致，形成所述待分類數(shù)據(jù)的特征數(shù) 據(jù)；
[0007] 利用二值化壓縮碼編碼器處理所述待分類數(shù)據(jù)的特征數(shù)據(jù)，得到所述待分類數(shù)據(jù) 的二值化壓縮碼；
[0008] 利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處理，獲得所述待分類數(shù)據(jù)的類別。
[0009] 在第一方面的第一種可能的實現(xiàn)方式中，在所述根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述原始數(shù)據(jù)進行歸一化處理，W使所述待分類數(shù)據(jù)的各個特征對應的數(shù)據(jù) 取值范圍一致，形成所述待分類數(shù)據(jù)的特征數(shù)據(jù)之前，還包括：
[0010] 對樣本數(shù)據(jù)進行歸一化處理，W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致，形成壓縮碼訓練數(shù)據(jù)，所述樣本數(shù)據(jù)來自于所述待分類數(shù)據(jù)；
[0011] 利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練，獲得二值化壓縮碼編碼器，并獲得二值化壓縮碼；
[0012] 將所述二值化壓縮碼作為分類器訓練數(shù)據(jù)，對分類器進行訓練，獲得基于二值化壓縮碼的分類器。
[0013] 根據(jù)第一方面的第一種可能的實現(xiàn)方式，在第二種可能的實現(xiàn)方式中，所述利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練，獲得二值化壓縮碼編碼器，包括：
[0014] 利用所述壓縮碼訓練數(shù)據(jù)，根據(jù)W下使分類誤差的目標函數(shù)最小化的公式進行編碼器訓練：
[0015]
[001引其中，a ik是權重系數(shù)，Ibik ? fk(Xi))為損失函數(shù)，所述損失函數(shù)的表達式為 1 (a) =max (0, 1-a)，yike(-1，1)，為Xi在第k類別的類別標化Xi為第i個壓縮碼訓練數(shù)據(jù)，
W;"為第k類別中，第m個特征對應的分類參數(shù)，bk為偏置參數(shù)，M為特征的數(shù)量，A為投影矩陣，AW為第m個特征對應的投影矩陣，(A?Xi?)為哈希函數(shù)，N為所述壓縮碼訓練數(shù)據(jù)的個數(shù)，K 為所述壓縮碼訓練數(shù)據(jù)的類別個數(shù)，g(W)和h(A)是兩個規(guī)范化函數(shù)，分別用于調整分類參數(shù)矩陣W和投影矩陣A的作用，Ai和A2為兩個實數(shù)，分別用于調整規(guī)范化函數(shù)g(W)和 h(A)；
[0017]訓練后得到所述投影矩陣A、所述分類參數(shù)矩陣W和偏置矩陣B ;
[001引并將所述哈希函數(shù)；(A?Xi?)作為二值化壓縮碼編碼器。
[0019] 根據(jù)第一方面的第二種可能的實現(xiàn)方式，在第H種可能的實現(xiàn)方式中，所述利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處理，包括：通過如下函數(shù)對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處理：
[0020]
根據(jù)第一方面的第二種或第H種可能的實現(xiàn)方式，在第四種可能的實現(xiàn)方式中，在所述利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練之前，還包括：
[0021] 為所述樣本數(shù)據(jù)的各個特征分配分類器回歸系數(shù)或權重的稀疏性限制，W使所述二值化壓縮碼編碼器進行編碼時每個特征分配相同或不同的位數(shù)。
[0022] 根據(jù)第一方面的第四種可能的實現(xiàn)方式，在第五種可能的實現(xiàn)方式中，所述為所述每個特征分配分類器回歸系數(shù)或權重的稀疏性限制，包括：
[0023] 引入分類參數(shù)矩陣W=[wi…Wk]G I^xK，其中C表示對每種特征的編碼長度，M表示特征的數(shù)量，K表示分類目標的類別個數(shù)，C、M、K分別為大于1的整數(shù)，Wk為列向量，表示第k個類別中各個特征對應的分類參數(shù)，k={l，…，時。
[0024] 根據(jù)第一方面的第五種可能的實現(xiàn)方式，在第六種可能的實現(xiàn)方式中，所述為所述每個特征分配分類器回歸系數(shù)或權重的稀疏性限制，包括：
[002引利用L2,i范數(shù)對分類參數(shù)矩陣W進行稀疏性限制。
[0026] 在第一方面的第走種可能的實現(xiàn)方式中，在所述根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類數(shù)據(jù)進行歸一化處理，W使所述待分類數(shù)據(jù)的各個特征對應的數(shù) 據(jù)取值范圍一致，形成所述待分類數(shù)據(jù)的特征數(shù)據(jù)之前，還包括：
[0027] 從所述待分類數(shù)據(jù)抽取至少一個特征，所述特征反映所述待分類數(shù)據(jù)的特點。
[002引根據(jù)第一方面的第走種可能的實現(xiàn)方式，在第八種可能的實現(xiàn)方式中，所述從所述待分類數(shù)據(jù)抽取至少一個特征，包括采用W下至少一個算法處理所述待分類數(shù)據(jù)；尺度不變特征轉換SIFT、詞袋BOW和面向分類的全局圖像特征GIST。
[0029] 根據(jù)第一方面的第一種至第八可能的實現(xiàn)方式中的任意一種，在第九種可能的實現(xiàn)方式中，所述對樣本數(shù)據(jù)進行歸一化處理，W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致，形成壓縮碼訓練數(shù)據(jù)，包括：
[0030] 對樣本數(shù)據(jù)進行歸一化處理，W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致，并對所述樣本數(shù)據(jù)進行類別標記，形成壓縮碼訓練數(shù)據(jù)。
[0031] 根據(jù)第一方面的第一種至第九可能的實現(xiàn)方式中的任意一種，在第十種可能的實現(xiàn)方式中，所述將所述二值化壓縮碼作為分類器訓練數(shù)據(jù)，對分類器進行訓練，獲得基于二值化壓縮碼的分類器，包括：
[0032] 采用支持向量機SVM、貝葉斯模型和邏輯回歸函數(shù)中的任意一個作為分類器，利用二值化壓縮碼對分類器進行訓練，獲得基于所述二值化壓縮碼的分類器。
[0033] 第二方面，本發(fā)明實施例提供一種數(shù)據(jù)分類裝置，包括：
[0034]歸一化處理模塊，用于根據(jù)從待分類數(shù)據(jù)中抽取到的至少一個特征對所述待分類數(shù)據(jù)進行歸一化處理，W使所述待分類數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致，形成所述待分類數(shù)據(jù)的特征數(shù)據(jù)；
[0035] 壓縮模塊，用于利用二值化壓縮碼編碼器處理所述待分類數(shù)據(jù)的特征數(shù)據(jù)，得到所述待分類數(shù)據(jù)的二值化壓縮碼；
[0036] 分類模塊，用于利用基于二值化壓縮碼的分類器對所述待分類數(shù)據(jù)的二值化壓縮碼進行分類處理，獲得所述待分類數(shù)據(jù)的類別。
[0037] 在第二方面的第一種可能的實現(xiàn)方式中：
[0038] 所述歸一化處理模塊，還用于對樣本數(shù)據(jù)進行歸一化處理，W使所述樣本數(shù)據(jù)的各個特征對應的數(shù)據(jù)取值范圍一致，形成壓縮碼訓練數(shù)據(jù)，所述樣本數(shù)據(jù)來自于所述待分類數(shù)據(jù)；
[0039] 所述裝置還包括：
[0040] 編碼器訓練模塊，用于利用所述壓縮碼訓練數(shù)據(jù)對二值化壓縮碼編碼器進行編碼器訓練，獲得二值化壓縮碼編碼器，并獲得二值化壓縮碼；
[0041] 分類器訓練模塊，用于將所述二值化壓縮碼作為分類器訓練數(shù)據(jù)，對分類器進行訓練，獲得基于二值化壓縮碼的分類器。
[0042] 根據(jù)第二方面的第一種可能的實現(xiàn)方式，在第二種可能的實現(xiàn)方式中，所述編碼器訓練模塊，具體用于：
[0043] 利用所述壓縮碼訓練數(shù)據(jù)，根據(jù)W下使分類誤差的目標函數(shù)最小化的公式進行編碼器訓練：
[0044]
[004引其中，aik是權重系數(shù)，l(yik?fk(Xi))為損失函數(shù)，所述損失函數(shù)的表達式為 1 (a) =max (0, 1-a)，yike (-1，1)，為Xi在第k類別的類別標化Xi為第i個壓縮碼訓練數(shù)據(jù)，
W：為第k類別中，第m個特征對應的分類參數(shù)，bk刃懈置寥數(shù)，M刃特征的數(shù)量，A為投影矩陣，A?為第m個特征對應的投影矩陣，MA^x嚴）為哈希函數(shù)，N為所述壓縮碼訓練數(shù)據(jù)的個數(shù)，K為所述壓縮碼訓練數(shù)據(jù)的類別個數(shù)，g(W)和h(A)是兩個規(guī)范化函數(shù)，分別用于調整分類參數(shù)矩陣W和投影矩陣A的作用，A 1和A2為兩個實數(shù)，分別用于調整規(guī)范化函數(shù)g(w)和h(A);
[0046] 訓練后得到所述投

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：江焯林;甄毅;楊強;
技術所有人：華為技術有限公司;
我是此專利的發(fā)明人

上一篇：用于分類扇形色卡顏色的系統(tǒng)和方法
上一篇：基于多源逆透視圖像無縫拼接的車道線識別方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

射線裝置分類方法相關技術

數(shù)據(jù)分類方法相關技術

數(shù)據(jù)分類方法有哪些相關技術

數(shù)據(jù)挖掘分類方法相關技術

大數(shù)據(jù)分類方法相關技術

數(shù)據(jù)分類的方法相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)分類方法和裝置的制造方法