亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

圖片的標注方法、裝置及電子設備與流程

文檔序號:11251448閱讀:1426來源:國知局
圖片的標注方法、裝置及電子設備與流程

本發(fā)明涉及圖片標注技術(shù)領(lǐng)域,具體而言,涉及一種圖片的標注方法、裝置及電子設備。



背景技術(shù):

在多媒體大數(shù)據(jù)時代,隨著越來越多的圖片的出現(xiàn),目前大多數(shù)基于內(nèi)容的圖片檢索方法并不能得到良好的體驗,而自動圖片標注(automaticimageannotation)由于可很好的促進圖片語義檢索及其它相關(guān)圖片管理任務已經(jīng)成為多媒體領(lǐng)域最重要的研究方向之一。自動圖片標注可通過結(jié)合標簽和圖片,把基于內(nèi)容的圖片檢索轉(zhuǎn)換為基于文本的圖片檢索。當圖片特征和相關(guān)的語義標簽得到以后,可應用多種機器學習算法來適應標簽。

現(xiàn)如今,由于智能手機和無線通信網(wǎng)絡的發(fā)展,圖片的獲取越來越方便,能夠隨時隨地分享到互聯(lián)網(wǎng)上去,這帶來多媒體應用的迫切需求,包括語義索引、搜索、檢索以及其他的圖片管理任務。盡管多媒體內(nèi)容分析方面做了很多工作,主要的搜索引擎產(chǎn)品還是基于文本索引技術(shù)。因而在圖片大數(shù)據(jù)的背景下,圖片標注算法的效率、穩(wěn)定性依然不足。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明實施例的目的在于提供一種圖片的標注方法、裝置及電子設備,以改善上述問題。為了實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案如下:

第一方面,本發(fā)明實施例提供了一種圖片的標注方法,所述方法包括對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量;基于所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果。

第二方面,本發(fā)明實施例提供了一種圖片的標注裝置,所述裝置包括特征提取單元和標注單元。特征提取單元,用于對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量。標注單元,用于基于所述特征提取單元獲得的所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果。

第三方面,本發(fā)明實施例提供了一種電子設備,所述電子設備包括處理器和存儲器。所述處理器和所述存儲器通過總線電連接。所述存儲器用于儲存程序。所述處理器用于通過所述總線調(diào)用存儲在所述存儲器中的程序,執(zhí)行:對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量;基于所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果。

本發(fā)明實施例提供了一種圖片的標注方法、裝置及電子設備,對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量;再基于所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果,以此實現(xiàn)采用多視圖半監(jiān)督圖片標注模型對圖片進行標注,具備良好的噪聲認知能力,效率高、穩(wěn)定性強。

本發(fā)明的其他特征和優(yōu)點將在隨后的說明書闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明實施例了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。

圖1為本發(fā)明實施例提供的一種電子設備的結(jié)構(gòu)框圖;

圖2為本發(fā)明第一實施例提供的圖片的標注方法的流程圖;

圖3為本發(fā)明第一實施例提供的圖片的標注方法中獲取預設的多視圖半監(jiān)督圖片標注模型的流程圖;

圖4為本發(fā)明第一實施例提供的圖片的標注方法中以nus-wide為訓練數(shù)據(jù),提取llc特征、fk特征與已有算法的效果對比示意圖;

圖5為本發(fā)明第一實施例提供的圖片的標注方法中以nus-wide為訓練數(shù)據(jù),提取fc6、fc7特征與已有算法的效果對比示意圖;

圖6為本發(fā)明第一實施例提供的圖片的標注方法中以mirflickr-25000為訓練數(shù)據(jù),提取llc特征、fk特征與已有算法的效果對比示意圖;

圖7為本發(fā)明第一實施例提供的圖片的標注方法中以mirflickr-25000為訓練數(shù)據(jù),提取fc6、fc7特征與已有算法的效果對比示意圖;

圖8為本發(fā)明第一實施例提供的圖片的標注方法中以iaprtc-12為訓練數(shù)據(jù),提取llc特征、fk特征與已有算法的效果對比示意圖;

圖9為本發(fā)明第一實施例提供的圖片的標注方法中以iaprtc-12為訓練數(shù)據(jù),提取fc6、fc7特征與已有算法的效果對比示意圖;

圖10為本發(fā)明第二實施例提供的圖片的標注裝置的結(jié)構(gòu)框圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。同時,在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。

請參閱圖1,圖1示出了本發(fā)明實施例提供的一種電子設備100的結(jié)構(gòu)框圖。所述電子設備100可以作為用戶終端,也可以作為服務器。用戶終端可以為:pc(personalcomputer)電腦、平板電腦、手機、電子閱讀器、筆記本電腦、智能電視、機頂盒、車載終端等終端設備。如圖1所示,電子設備100可以包括存儲器110、存儲控制器111、處理器112、外設接口113、輸入輸出單元115、音頻單元116、顯示單元117。

所述存儲器110、存儲控制器111、處理器112、外設接口113、輸入輸出單元115、音頻單元116、顯示單元117各元件之間直接或間接地電連接,以實現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件之間可以通過一條或多條通訊總線或信號總線實現(xiàn)電連接。圖片的標注方法分別包括至少一個可以以軟件或固件(firmware)的形式存儲于存儲器110中的軟件功能模塊,例如所述圖片的標注裝置包括的軟件功能模塊或計算機程序。

存儲器110可以存儲各種軟件程序以及模塊,如本申請實施例提供的圖片的標注方法及裝置對應的程序指令/模塊。處理器112通過運行存儲在存儲器110中的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理,即實現(xiàn)本申請實施例中的圖片的標注方法。存儲器110可以包括但不限于隨機存取存儲器(randomaccessmemory,ram),只讀存儲器(readonlymemory,rom),可編程只讀存儲器(programmableread-onlymemory,prom),可擦除只讀存儲器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲器(electricerasableprogrammableread-onlymemory,eeprom)等。

處理器112可以是一種集成電路芯片,具有信號處理能力。上述處理器可以是通用處理器,包括中央處理器(centralprocessingunit,簡稱cpu)、網(wǎng)絡處理器(networkprocessor,簡稱np)等;還可以是數(shù)字信號處理器(dsp)、專用集成電路(asic)、現(xiàn)成可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件。其可以實現(xiàn)或者執(zhí)行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。

所述外設接口113將各種輸入/輸入裝置耦合至處理器112以及存儲器110。在一些實施例中,外設接口113、處理器112以及存儲控制器111可以在單個芯片中實現(xiàn)。在其他一些實例中,他們可以分別由獨立的芯片實現(xiàn)。

輸入輸出單元115用于提供給用戶輸入數(shù)據(jù)實現(xiàn)用戶與服務器(或本地終端)的交互。所述輸入輸出單元115可以是,但不限于,鼠標和鍵盤等。

音頻單元116向用戶提供音頻接口,其可包括一個或多個麥克風、一個或者多個揚聲器以及音頻電路。

顯示單元117在所述服務器(或本地終端)與用戶之間提供一個交互界面(例如用戶操作界面)或用于顯示圖像數(shù)據(jù)給用戶參考。在本實施例中,所述顯示單元117可以是液晶顯示器或觸控顯示器。若為觸控顯示器,其可為支持單點和多點觸控操作的電容式觸控屏或電阻式觸控屏等。支持單點和多點觸控操作是指觸控顯示器能感應到來自該觸控顯示器上一個或多個位置處同時產(chǎn)生的觸控操作,并將該感應到的觸控操作交由處理器進行計算和處理。

可以理解,圖1所示的結(jié)構(gòu)僅為示意,電子設備100還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件或其組合實現(xiàn)。

第一實施例

請參閱圖2,本發(fā)明實施例提供了一種圖片的標注方法,所述方法包括步驟s200和步驟s210。

步驟s200:對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量。

步驟s210:基于所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果。

基于步驟s210,進一步地,基于表達式(1):

獲得所述待標注圖片的預測標簽值,以此獲得所述待標注圖片的標注結(jié)果;其中,xt,t=1,2,…,m為所述待標注圖片對應的特征向量,wt,t=1,2,…,m為預設的映射矩陣,bt,t=1,2,…,m為預設的偏差項,為所述待標注圖片的預測標簽值。

表達式(1)為所述預設的多視圖半監(jiān)督圖片標注模型。將所述所述待標注圖片對應的特征向量帶入表達式(1),獲得所述待標注圖片的預測標簽值,即根據(jù)所述待標注圖片的預測標簽值,獲得其對應的標注結(jié)果。

基于步驟s200,所述方法還包括:對所述待標注圖片對應的特征向量通過主成分分析法進行降維,獲得降維后的特征向量。

再將所述降維后的特征向量帶入預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果。

請參閱圖3,為了獲取預設的多視圖半監(jiān)督圖片標注模型,所述方法還可以包括步驟s300、步驟s310、步驟s320、步驟s330和步驟s340。

步驟s300:對獲取到的n個圖片進行特征提取,獲得所述n個圖片對應的多視圖特征及標簽矩陣。

將所述獲取到的n個圖片作為訓練數(shù)據(jù),分別進行特征提取,獲得每個圖片對應的m個視圖特征,獲得n個圖片對應的n×m個多視圖特征。

為n個圖片中的第t個多視圖特征,其中,為第i個圖片中的第t個視圖特征,dt為其對應第t個視圖特征的維度。訓練數(shù)據(jù)中前l(fā)個圖片是有標簽的,而其余n-l個圖片是沒有標簽的。訓練數(shù)據(jù)中與第t個視圖特征相關(guān)的標簽矩陣為其中,c為標簽的數(shù)量,當(1≤i≤l),為有標簽圖片;當(l+1≤i≤n),為全零向量,為沒有標簽圖片。令表示與第t個視圖特征相關(guān)的第i個圖片的第j個類別,而當?shù)趇個圖片在第j個類別中,其余情況下,若第i個圖沒有標簽,為0,以此利用有標簽圖片和沒有標簽圖片來學習視圖半監(jiān)督圖片標注模型,提高穩(wěn)定性(魯棒性)。

步驟s310:基于所述n個圖片對應的多視圖特征以及預設的相似度計算規(guī)則,獲得所述n個圖片對應的相似度矩陣。

基于步驟s310,進一步地,基于獲得所述n個圖片對應的相似度矩陣,s=[sij],1≤i,j≤n為所述n個圖片對應的相似度矩陣,xi,xj(1≤i,j≤n)為所述n個圖片中第i、j個圖片各自對應的多視圖特征,nk(xi)為xi的最近鄰集合k,nq(xj)為xj的最近鄰集合q。

利用多視圖特征來構(gòu)建相似度矩陣,sij的定義為所述預設的相似度計算規(guī)則,反映出了兩個圖片對應的多視圖特征xi和xj之間的特征相似性。為了減少參數(shù)數(shù)量,本發(fā)明實施例定義了以上的相似度矩陣。

步驟s320:獲取所述n個圖片對應的相似度矩陣中的所有對角元值,獲得對角矩陣。

步驟s330:將所述對角矩陣減去所述n個圖片對應的相似度矩陣,獲得所述n個圖片對應的拉普拉斯矩陣。

基于步驟s310,獲取對角矩陣d,其第i個對角元值通過計算得到。然后計算l=d-s,得到所述n個圖片對應的拉普拉斯矩陣l。

步驟s340:將所述n個圖片對應的標簽矩陣、拉普拉斯矩陣帶入預設的目標函數(shù)進行迭代計算,獲得所述預設的映射矩陣和所述預設的偏差項。

進一步地,為了同時得到有標簽和沒有標簽圖片,本發(fā)明實施例定義作為所有訓練數(shù)據(jù)的標簽預測矩陣,其中,為第i個圖片的預測標簽。作為一種實施方式,根據(jù)半監(jiān)督學習方法,f可通過解目標函數(shù)如下的最小優(yōu)化問題得到:

表達式(2)中,為對角陣,被稱為決策方式矩陣。若第i個圖片有標簽則其對角元uii為很大的數(shù)(設置為1010),否則,uii=1。這樣設置決策規(guī)則矩陣可使求解的標簽預測矩陣f和y保持一致。

為了進一步提高得到的預設的多視圖半監(jiān)督圖片標注模型的容忍噪聲能力,本發(fā)明實施例提出了一個集成了適應不同級別噪聲能力的魯棒的損失函數(shù)。選擇l2,p損失函數(shù),然后表達式(2)可表示為如下形式:

表達式(3)為所述預設的目標函數(shù),其中,||·||2,p為矩陣的l2,p范數(shù),||·||f標簽矩陣的frobenius范數(shù),符號(·)t表示矩陣的轉(zhuǎn)置,tr(·)表示矩陣的跡,μ,γ均為預設的平衡參數(shù),為預設的映射矩陣,為預設的偏差項,為正則項,1n為全1向量。m的l2,p范數(shù)定義為:

表達式(4)中,mi為m的第i行。

進一步地,對n個圖片中的第t個視圖特征,本發(fā)明實施例可以從視圖特征xt計算得到相關(guān)聯(lián)的拉普拉斯矩陣lt,然后對應的,利用表達式(3)可以計算得到視圖依賴的預測標簽矩陣ft。據(jù)此,本發(fā)明把多視圖特征學習引入到表達式(3)中以調(diào)節(jié)不同視圖特征中相關(guān)的和補充的信息從而獲得更好的效果。提出共同最小化所有視圖特征的目標函數(shù)來盡可能限制某一視圖特征的ft,即:

表達式(5)中,λ為預設的平衡參數(shù),可使每對視圖特征的輸出結(jié)果更加一致,從而達到更好的效果。該模型結(jié)合了多視圖學習和基于圖的半監(jiān)督學習的優(yōu)點,有效利用了大量的未加標簽的數(shù)據(jù)和不同視圖中的補充信息。

由于l2,p損失函數(shù)的非凸性和l2,p正則項,直接求解表達式(5)并不容易。為了簡化計算,本發(fā)明實施例提出了一種高效的迭代算法來求解表達式(5),首先將表達式(5)轉(zhuǎn)換為:

表達式(6)中,為對角陣,其第i個對角元可以通過公式(7)計算得到:

公式(7)中,為矩陣的第i行。類似地,也為一個對角陣,其對角元可以通過公式(8)得到:

公式(8)中,為矩陣ft-fs的第i行。

由于都與ft、wt以及bt相關(guān),使得式(6)更加難以求解。據(jù)此,本發(fā)明實施例設計了一種迭代方法,在前次迭代中固定來突破障礙,這樣可通過式(6)來求解ft,wt以及bt。

通過設置式(6)關(guān)于bt的推導結(jié)果為0,有:

將公式(9)帶入表達式(6)中,并設置表達式(6)關(guān)于wt的推導結(jié)果為0,有:

wt=atft(10)

公式(10)中,有:

再將公式(9)和公式(10)帶入表達式(6)中,有:

表達式(13)中,設置目標函數(shù)關(guān)于ft的推導結(jié)果為0,有:

ft=mtqt(14)

公式(14)中,有:

公式(15)、(16)中設置當t=s,t=1,2,...,m.。據(jù)此,可通過解目標函數(shù)來獲得ft,wt,bt的最優(yōu)解。

具體地,將所述n個圖片對應的標簽矩陣、拉普拉斯矩陣帶入表達式(5),通過迭代方式對表達式(5)進行求解,隨機初始化ft,wt,bt,(t=1,2,...,m),迭代計算對ft,wt,bt,(t=1,2,...,m)進行最優(yōu)求解,直到滿足迭代收斂為止,優(yōu)選的迭代收斂條件為:最近兩次的求解結(jié)果的變化不超過預設閾值,以此獲得所述預設的映射矩陣和所述預設的偏差項。在迭代過程中,首先根據(jù)公式(7)和(8)分別計算再對每個視圖(t=1,2,…,m),依次有:

根據(jù)公式(12)計算ht,根據(jù)公式(11)計算at,根據(jù)公式(15)計算mt,根據(jù)公式(16)計算qt,根據(jù)公式(14)、公式(10)、公式(9),分別更新ft,wt,bt。獲得ft,wt,bt的最優(yōu)解,以此獲得多視圖半監(jiān)督圖片標注模型,即:

此外,為了更進一步地說明本發(fā)明實施例提供的圖片的標注方法的有益效果,應用到了三種網(wǎng)絡圖片數(shù)據(jù)集,分別為nus-wide(包含269,648張現(xiàn)實場景圖片,被標記有81種標簽),mirflickr-25000(包含25,000張圖片和24種標簽)以及iaprtc-12(包含20,000張來自世界各地的代表性的靜止自然景觀圖片)。數(shù)據(jù)集被分成兩部分,一部分用于訓練,另一部分用于測試。

特征提取部分本實施例首先使用了sift局部描述符,提取了圖片的兩種視覺特征,分別基于兩種譯碼方式即llc(locality-constrainedlinearencoding)和fk(improvedfisherencoding)。llc特征向量的最終維數(shù)為k(詞匯表大小),本實施例設置k=4096。對于fk特征,特征向量最終維數(shù)等于2d*k,其中d是sift描述符的維數(shù),k是詞匯表大小。在本實施例中,通過pca(主成分分析法)將sift的描述符的維數(shù)從128降低到50。在本實施例中,fk特征向量維數(shù)為25,600,進而通過pca降維到4096,以節(jié)約計算開銷。最終llc和fk特征向量都為4096維。本實施例還提取了兩種新的深度學習特征,fc6、fc7(均為4096維)使用caffe基于第6層和第7層網(wǎng)絡全連接層的輸出得到。

通過實驗,本實施例對于不同的數(shù)據(jù)集設置不同的參數(shù)值以達到最好的表現(xiàn)。

對于數(shù)據(jù)集nus-wide,設置參數(shù)如下:

μ=106,γ=104,λ=104,p=0.8,q=1.9

對于數(shù)據(jù)集mirflickr-25000,設置參數(shù)如下:

μ=106,γ=102,λ=102,p=0.4,q=1.5

對于數(shù)據(jù)集iaprtc-12,設置參數(shù)如下:

μ=106,γ=104,λ=104,p=1.0,q=1.6

基于本發(fā)明實施例提供的圖片的標注方法得到輸出結(jié)果,本實施例采用平均準確率(map)來衡量圖片標注的表現(xiàn)。如圖4和圖5所示,以nus-wide(包含269,648張現(xiàn)實場景圖片,被標記有81種標簽)為訓練數(shù)據(jù),以提取的llc特征向量、fk特征向量、fc6特征向量、fc7特征向量,分別對比本發(fā)明實施例提供的圖片的標注方法和已有的算法得出的結(jié)果。已有的算法包括典型的多視圖學習算法cca(根據(jù)是基于最小平方回歸(leastsquareregression,ls)或支持向量機(svm),分別定義為cca-ls和cca-svm)、一種新的基于ls的多視圖半監(jiān)督維度下降法(mvssdr-ls)以及兩種半監(jiān)督算法,即structuralfeatureselectionwithsparsity(sfss)和flexiblemanifoldembedding(fme)、boost算法族中的一個新算法taylorboost。圖4中,橫坐標表示有標簽的圖片個數(shù),1xc表示每類一個,縱坐標表示平均準確率,a1為本發(fā)明實施例提供的以提取的llc特征向量、圖片的標注方法的效果,a2為本發(fā)明實施例提供的以提取的fk特征向量、圖片的標注方法的效果,a3為sfss算法的效果,a4為mvssdr-ls算法的效果,a5為cca-ls算法的效果,a6為taylorboost算法的效果,a7為fme算法的效果,a8為cca-svm算法的效果。圖5中,d1為本發(fā)明實施例提供的以提取的fc6特征向量、圖片的標注方法的效果,d2為本發(fā)明實施例提供的以提取的fc7特征向量、圖片的標注方法的效果,d3為sfss算法的效果,d4為mvssdr-ls算法的效果,d5為cca-ls算法的效果,d6為taylorboost算法的效果,d7為fme算法的效果,d8為cca-svm算法的效果。很明顯,本發(fā)明實施例提供的圖片的標注方法在效果上有很大提升。

同理,如圖6和圖7所示,以mirflickr-25000(包含25,000張圖片和24種標簽)為訓練數(shù)據(jù),以提取的llc特征向量、fk特征向量、fc6特征向量、fc7特征向量,分別對比本發(fā)明實施例提供的圖片的標注方法和已有的算法得出的結(jié)果。圖6中,橫坐標表示有標簽的圖片個數(shù),1xc表示每類一個,縱坐標表示平均準確率,b1為本發(fā)明實施例提供的以提取的llc特征向量、圖片的標注方法的效果,b2為本發(fā)明實施例提供的以提取的fk特征向量、圖片的標注方法的效果,b3為sfss算法的效果,b4為mvssdr-ls算法的效果,b5為cca-ls算法的效果,b6為taylorboost算法的效果,b7為fme算法的效果,b8為cca-svm算法的效果。圖7中,e1為本發(fā)明實施例提供的以提取的fc6特征向量、圖片的標注方法的效果,e2為本發(fā)明實施例提供的以提取的fc7特征向量、圖片的標注方法的效果,e3為sfss算法的效果,e4為mvssdr-ls算法的效果,e5為cca-ls算法的效果,e6為taylorboost算法的效果,e7為fme算法的效果,e8為cca-svm算法的效果。很明顯,本發(fā)明實施例提供的圖片的標注方法在效果上有很大提升。

同理,如圖8和圖9所示,以iaprtc-12作為訓練數(shù)據(jù),以提取的llc特征向量、fk特征向量、fc6特征向量、fc7特征向量,分別對比本發(fā)明實施例提供的圖片的標注方法和已有的算法得出的結(jié)果。圖8中,橫坐標表示有標簽的圖片個數(shù),1xc表示每類一個,縱坐標表示平均準確率,c1為本發(fā)明實施例提供的以提取的llc特征向量、圖片的標注方法的效果,c2為本發(fā)明實施例提供的以提取的fk特征向量、圖片的標注方法的效果,c3為sfss算法的效果,c4為mvssdr-ls算法的效果,c5為cca-ls算法的效果,c6為taylorboost算法的效果,c7為fme算法的效果,b8為cca-svm算法的效果。圖9中,f1為本發(fā)明實施例提供的以提取的fc6特征向量、圖片的標注方法的效果,f2為本發(fā)明實施例提供的以提取的fc7特征向量、圖片的標注方法的效果,f3為sfss算法的效果,e4為mvssdr-ls算法的效果,f5為cca-ls算法的效果,f6為taylorboost算法的效果,f7為fme算法的效果,f8為cca-svm算法的效果。很明顯,本發(fā)明實施例提供的圖片的標注方法在效果上有很大提升。

通過以上三種不同的圖片數(shù)據(jù)集作為訓練數(shù)據(jù),在多視圖條件下,本發(fā)明提供的圖片的標注方法的效果和已知算法的效果對比,適用于多視圖條件少量標簽下的圖片標注,并具有良好的噪聲認知能力,能夠在較少的迭代次數(shù)下收斂。

本發(fā)明實施例提供的一種圖片的標注方法,對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量;再基于所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果,以此實現(xiàn)采用多視圖半監(jiān)督圖片標注模型對圖片進行標注,具備良好的噪聲認知能力,效率高、穩(wěn)定性強。

第二實施例

請參閱圖10,本發(fā)明實施例提供了一種圖片的標注裝置400,所述裝置400包括提取單元410、相似度矩陣獲得單元420、對角矩陣獲得單元430、拉普拉斯矩陣獲得單元440、計算單元450、特征提取單元470、標注單元480。

提取單元410,用于對獲取到的n個圖片進行特征提取,獲得所述n個圖片對應的多視圖特征及標簽矩陣。

相似度矩陣獲得單元420,用于基于所述提取單元410獲得的所述n個圖片對應的多視圖特征以及預設的相似度計算規(guī)則,獲得所述n個圖片對應的相似度矩陣。

作為一種實施方式,所述相似度矩陣獲得單元420可以包括相似度矩陣獲得子單元421。

相似度矩陣獲得子單元421,用于基于獲得所述n個圖片對應的相似度矩陣,s=[sij],1≤i,j≤n為所述n個圖片對應的相似度矩陣,xi,xj(1≤i,j≤n)為所述n個圖片中第i、j個圖片各自對應的多視圖特征,nk(xi)為xi的最近鄰集合k,nq(xj)為xj的最近鄰集合q。

對角矩陣獲得單元430,用于獲取所述n個圖片對應的相似度矩陣中的所有對角元值,獲得對角矩陣。

拉普拉斯矩陣獲得單元440,用于將所述對角矩陣減去所述n個圖片對應的相似度矩陣,獲得所述n個圖片對應的拉普拉斯矩陣。

計算單元450,用于將所述n個圖片對應的標簽矩陣、拉普拉斯矩陣帶入預設的目標函數(shù)進行迭代計算,獲得所述預設的映射矩陣和所述預設的偏差項。

特征提取單元470,用于對獲取到的待標注圖片進行特征提取,獲得所述待標注圖片對應的特征向量。

標注單元480,用于基于所述特征提取單元獲得的所述待標注圖片對應的特征向量以及預設的多視圖半監(jiān)督圖片標注模型,獲得所述待標注圖片的標注結(jié)果。

作為一種實施方式,所述標注單元480可以包括標注子單元481。

標注子單元481,用于基于獲得所述待標注圖片的預測標簽值,以此獲得所述待標注圖片的標注結(jié)果;其中,xt,t=1,2,…,m為所述待標注圖片對應的特征向量,wt,t=1,2,…,m為預設的映射矩陣,bt,t=1,2,…,m為預設的偏差項,為所述待標注圖片的預測標簽值。

所述裝置400還可以包括降維單元460。

降維單元460,用于對所述待標注圖片對應的特征向量通過主成分分析法進行降維,獲得降維后的特征向量。

以上各單元可以是由軟件代碼實現(xiàn),此時,上述的各單元可存儲于存儲器110內(nèi)。以上各單元同樣可以由硬件例如集成電路芯片實現(xiàn)。

本發(fā)明實施例提供的圖片的標注裝置400,其實現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實施例相同,為簡要描述,裝置實施例部分未提及之處,可參考前述方法實施例中相應內(nèi)容。

在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,也可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)方式中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。

另外,在本發(fā)明各個實施例中的各功能模塊可以集成在一起形成一個獨立的部分,也可以是各個模塊單獨存在,也可以兩個或兩個以上模塊集成形成一個獨立的部分。

所述功能如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。

以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應所述以權(quán)利要求的保護范圍為準。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1