圖像搜索、獲取圖像文本信息的方法及裝置制造方法
【專利摘要】本申請公開了圖像搜索、獲取圖像文本信息的方法及裝置,其中,所述圖像搜索方法包括:接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提??;將所述查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的類目信息和/或描述信息;根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。通過本申請,能夠自動獲取圖像的類目等信息,降低對用戶交互的依賴。
【專利說明】圖像搜索、獲取圖像文本信息的方法及裝置
【技術領域】
[0001]本申請涉及圖像處理【技術領域】,特別是涉及圖像搜索、獲取圖像文本信息的方法及裝置。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)上的圖像數(shù)據(jù)信息日漸龐大,用戶對網(wǎng)上圖像搜索的需求也在不斷增長,這使得各種基于Web的圖像搜索引擎應運而生。圖像搜索,就是通過搜索圖像文本或者視覺特征,為用戶提供互聯(lián)網(wǎng)上相關圖形圖像資料檢索服務的專業(yè)搜索引擎系統(tǒng)。
[0003]圖像搜索引擎按照搜索的圖像范圍可以分為兩大類,一種是綜合類圖像搜索,另一種是垂直圖像搜索。前者針對全網(wǎng)圖像進行相似搜索,而后者則主要針對部分類目(如月艮裝、鞋類等產(chǎn)品)進行搜索。目前,電子商務交易平臺等專業(yè)網(wǎng)站中的站內圖像搜索引擎主要屬于垂直圖像搜索,根據(jù)用戶上傳的查詢圖進行搜索,返回與之相同或相似的業(yè)務對象的圖像。
[0004]最初,專業(yè)網(wǎng)站的站內圖像搜索一般需要以網(wǎng)站自身數(shù)據(jù)庫中的某一幅圖像作為查詢圖進行搜索。例如,某電子商務交易平臺中,其圖像數(shù)據(jù)庫中保存有賣方用戶上傳的多幅業(yè)務對象的圖像,同時還保存有各圖像對應的業(yè)務對象所屬的類目信息和相應的款式信息(包括顏色、形狀等)等圖像信息;用戶可以選擇其中一個業(yè)務對象的圖像作為查詢圖,這樣站內搜索引擎就可以根據(jù)查詢圖的類目信息和相應的顏色、形狀等圖像信息進行搜索,返回與查詢圖相同或高度相似的業(yè)務對象的圖像。
[0005]以上這種方式能夠獲得較為理想的搜索結果,但是,對于來源為網(wǎng)站圖像數(shù)據(jù)庫以外的圖像(例如,在日常生活中用戶使用手機拍攝的圖像等)而言,由于無法事先獲得查詢圖的相關描述信息,從而導致搜索結果圖像相似度較低,召回率不高。當然,為了獲得較優(yōu)的搜索結果,可以要求用戶在輸入查詢圖的同時,還提供查詢圖中的主體內容所屬的類目、款式信息等描述信息。但是,這會使得搜索結果過分依賴用戶輸入的描述信息,從用戶角度而言,搜索過程變得繁瑣,并且由于用戶可能并不了解網(wǎng)站圖像數(shù)據(jù)庫對各類目的定義,或者自己對類目的理解存在偏差等原因,使得所輸入的描述信息不一定準確,最終導致系統(tǒng)很可能返回錯誤的搜索結果。
【發(fā)明內容】
[0006]本申請?zhí)峁┝藞D像搜索、獲取圖像文本信息的方法及裝置,能夠自動獲取圖像的文本信息,降低對用戶交互的依賴。
[0007]本申請?zhí)峁┝巳缦路桨?
[0008]一種圖像搜索方法,包括:
[0009]接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提??;
[0010]將所述查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0011]根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的類目信息和/或描述信息;
[0012]根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。
[0013]一種獲取圖像文本信息的方法,包括:
[0014]獲取待確定類目信息的目標圖像,對所述目標圖像進行視覺特征提?。?br>
[0015]將所述目標圖像的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0016]根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,獲取所述目標圖像所屬的類目信息和/或描述信息。
[0017]一種圖像搜索裝置,包括:
[0018]特征提取單元,用于接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提取;
[0019]相似度判別單元,用于將所述查詢圖的特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0020]預測單元,用于根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的類目信息和/或描述信息;
[0021]搜索結果返回單元,用于根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。
[0022]一種獲取圖像文本信息的裝置,包括:
[0023]特征提取單元,用于獲取待確定類目信息的目標圖像,對所述目標圖像進行視覺特征提??;
[0024]相似度判別單元,用于將所述目標圖像的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0025]預測單元,用于根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,獲取所述目標圖像所屬的類目信息和/或描述信息。
[0026]根據(jù)本申請?zhí)峁┑木唧w實施例,本申請公開了以下技術效果:
[0027]通過本申請實施例,如果用戶需要進行圖像搜索,則可以僅提交查詢圖,不需要同時提交查詢圖所屬的類目、描述信息等其他信息,并且提交的查詢圖可以是圖像數(shù)據(jù)庫之外的任意圖像;在接收到查詢圖之后,系統(tǒng)可以首先根據(jù)查詢圖的視覺特征以及圖像數(shù)據(jù)庫中各圖像的視覺特征預測出該查詢圖所屬的類目和/或描述信息,進而可以結合查詢圖以及類目和/或描述信息,共同得出與查詢圖屬于同種類目和/或在款式、色彩等視覺特征上高度相似的圖像集合作為搜索結果。這樣,可以使得在不需要用戶提供類目或描述信息的情況下,就能為用戶提供符合用戶需求的搜索結果,并且,通過查詢圖特征的對比預測得到的類目、描述信息等更為客觀、準確,可以降低對用戶輸入信息的依賴。
[0028]另外,根據(jù)獲取圖像文本信息的方法及裝置,可以根據(jù)用戶提交的目標圖像,自動根據(jù)目標圖像的視覺特征以及圖像數(shù)據(jù)庫中圖像的視覺特征,預測出目標圖像所屬的類目和/或描述信息。這樣,在需要使用到目標圖像的文本信息的應用中,就不再需要用戶手動進行文本信息的輸入,即使用戶輸入了文本信息,還可以根據(jù)預測出的信息對用戶輸入的信息進行驗證,避免出現(xiàn)通過文本進行作弊等現(xiàn)象。
[0029]當然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
【專利附圖】
【附圖說明】
[0030]為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0031]圖1是本申請實施例提供的圖像搜索方法的流程圖;
[0032]圖2是本申請實施例提供的獲取圖像文本信息的方法的流程圖;
[0033]圖3是本申請實施例提供的圖像搜索裝置的示意圖;
[0034]圖4是本申請實施例提供的獲取圖像文本信息的裝置的示意圖。
【具體實施方式】
[0035]下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I域普通技術人員所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0036]在本申請實施例中,在用戶需要進行圖像搜索時,可以使用網(wǎng)站圖像數(shù)據(jù)庫以外的圖像作為查詢圖,例如,用戶用手機拍攝的一張圖片,或者其他網(wǎng)站、本地文件夾中的一幅圖片等等,并且只需要輸入查詢圖,而不用手動指定類目、描述信息(商品的屬性、關鍵字、主顏色等款式信息)等。從搜索引擎角度而言,在接收到用戶輸入的查詢圖之后,可以首先分析出該查詢圖可能所屬的類目,另外還可以預測出該查詢圖的描述信息等,進而就可以基于這些信息為用戶提供搜索結果。下面對具體的實現(xiàn)方式進行詳細地介紹。
[0037]首先需要說明的是,在本申請實施例中,為了能夠確定查詢圖所屬的類目和/或描述信息,主要采用的方式是,將查詢圖與數(shù)據(jù)庫中的圖像進行比對,由于數(shù)據(jù)庫中的圖像自身都帶有所屬類目以及描述信息,因此,如果能在數(shù)據(jù)庫中找到一些與查詢圖相似的圖像,則可以根據(jù)這些圖像所屬的類目確定出當前的查詢圖所屬的類目,進而還可以確定出當前的查詢圖的描述信息。
[0038]而為了便于在數(shù)據(jù)庫中查找與當前查詢圖相似的圖像,可以首先在線下對圖像數(shù)據(jù)庫中的圖像進行視覺特征提取,并將每個圖像對應的視覺特征保存到圖像數(shù)據(jù)庫中。具體實現(xiàn)時,可以從各個圖像中進行視覺特征提取,在數(shù)據(jù)庫中保存各個圖像對應的視覺特征,以便當用戶提交上查詢圖時,同樣從查詢圖中提取視覺特征,然后將查詢圖的視覺特征與數(shù)據(jù)庫中各個圖像的視覺特征進行比對,找到與查詢圖相似的圖像。當然,對于具體的圖像而言,一般除了主體內容之外,還可能存在背景等其他內容,但只有主體內容能夠體現(xiàn)出圖像主要顯示的內容。例如,某圖像主要想展現(xiàn)某服飾,則只有其中人物的軀干部分屬于該圖像的主體內容區(qū)域。因此,在從各個圖像中提取視覺特征之前,還可以首先對各個圖像的主體內容區(qū)域進行檢測,然后再基于主體內容區(qū)域進行特征視覺提取,這樣可以避免圖像的背景等對相似度判別準確度的影響。
[0039]其中,關于具體如何進行主體內容區(qū)域檢測,以及具體提取哪些視覺特征,后文中會有詳細地介紹。這里需要指出的是,對于電子商務交易平臺,圖像數(shù)據(jù)庫中的圖像一般是賣方用戶上傳的業(yè)務對象的圖像,而賣方用戶可能會為同一個業(yè)務對象上傳多幅圖像,其中一幅是主要圖像(簡稱主圖),本申請實施例中,可以僅針對業(yè)務對象的主圖進行視覺特征提取。另外,由于系統(tǒng)中的賣方用戶眾多,并且也總是在不斷上傳新的業(yè)務對象的圖像,因此,具體實現(xiàn)時,可以提取數(shù)據(jù)庫中每天(也可以是其他時間長度)新增的業(yè)務對象的主圖進行特征提取。當然,由于這些圖像均是由用戶上傳的,因此可能存在圖像質量(像素、清晰度等)不符合要求的情況,因此,還可以預先對圖像質量進行判斷,如果滿足要求,再進行主體內容區(qū)域的檢測,以及視覺特征的提取。這樣,系統(tǒng)可以周期性的(比如每天)將計算好的圖像特征推送到線上分布式圖像數(shù)據(jù)庫中,用于進行對查詢圖類目的預測,還可以用于后續(xù)的搜索。
[0040]這樣,用戶上傳一張查詢圖后,系統(tǒng)就可以首先提取查詢圖的視覺特征,并將提取到的查詢圖視覺特征輸入至線上實時分析器中。該分析器就可以根據(jù)相應的查詢圖視覺特征進行類目推斷,同時還可以提取該類目相應的款式等描述信息。進而,就可以利用這些信息在線上分布式索引中進行查詢,將得到的結果圖像按照一定的規(guī)則進行排序,返回給用戶。下面就基于圖像搜索的過程對具體的實現(xiàn)進行介紹。
[0041]參見圖1,本申請實施例首先提供了一種圖像搜索方法,該方法可以包括以下步驟:
[0042]SlOl:接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提?。?br>
[0043]對于提取查詢圖視覺特征的具體實現(xiàn),與線下提取數(shù)據(jù)庫中各圖像的視覺特征的方式是相同的,并且提取的視覺特征類型也是對應的,因此,這里一并進行介紹。
[0044]在具體實現(xiàn)時,提取的圖像視覺特征可以是圖像的顏色直方圖、紋理、形狀等全局特征,后續(xù)基于這些全局特征進行圖像相似性的計算,還可以進行圖像的搜索。然而,雖然這種全局特征能夠對圖像進行全局描述,但是在圖像的細節(jié)方面卻不能很好的進行區(qū)分。因此,在優(yōu)選的實施方式中,可以采用全局特征(顏色、邊緣)與局部特征相結合的方式對圖像進行描述,進而基于這些特征,從數(shù)據(jù)庫的圖像中查找與查詢圖相似的圖像,這樣能夠從全局和局部來對圖像進行描述,提高預測的準確率。當然,在對準確率要求不高的情況下,也可以只提取全局特征或者局部特征。
[0045]其中,具體在提取全局特征時,可以包括全局邊緣視覺特征和/或全局顏色分布特征。具體在提取局部特征時,可以包括局部旋轉不變特征。具體實現(xiàn)時,可以僅提取其中的任意一種視覺特征信息,或者,也可以同時提取其中的任意兩種或者三種,等等。也就是說,在本申請實施例中,在提取視覺特征的數(shù)量上并沒有特殊的限制,即使僅提取其中一種特征,也可以達到預測圖像所述類目信息等的目的,同時還可以減少存儲空間的壓力。當然,如果這幾種特征都進行提取,則一幅查詢圖可以提取出三種不同類型的特征,類似的,對于數(shù)據(jù)庫中的各個用于建立索引的圖像,同樣可以提取這三種不同類型的特征,保存到數(shù)據(jù)庫中。需要說明的是,無論是全局特征還是局部特征,都可以通過已有技術中的一些標準來提取,這里不進行詳述。
[0046]如前文所述,在進行視覺特征提取之前,還可以首先對查詢圖的主體內容區(qū)域進行檢測,然后基于主體內容區(qū)域進行視覺特征提取,這樣可以進一步提高預測以及搜索的準確率。其中,具體在進行主體內容區(qū)域檢測時,通常可以采用圖像分割、顯著性檢測等方法進行提取,這類方法依賴于圖像色彩分布信息,計算量較大,可能會影響系統(tǒng)的性能,并且當圖像場景復雜時,可能無法準確分割出主體內容區(qū)域,對后續(xù)處理過程造成影響。因此,在本申請實施例中,針對主要內容是由模特展示服飾類內容的查詢圖,可以采用人臉檢測的方式,來進一步確定圖像的主體內容區(qū)域。
[0047]優(yōu)先地,可以首先利用人臉檢測技術進對查詢圖進行人臉檢測,檢測出人臉區(qū)域的位置及面積,然后根據(jù)人臉區(qū)域的位置、面積以及預置的人臉區(qū)域與軀干區(qū)域的比例關系,確定軀干區(qū)域的位置及面積,最后根據(jù)軀干區(qū)域的位置及面積,提取查詢圖的主體內容區(qū)域。
[0048]例如,首先對輸入圖像(可以是查詢圖,也可以是數(shù)據(jù)庫中的圖像)進行人臉檢測,若檢測到人臉,則得到人臉圓形區(qū)域以及區(qū)域中心點坐標center (x,y);否則將整張圖像作為服飾主體區(qū)域輸出;
[0049]接下來,由先驗知識得知,人體軀干部分可以看成一個矩形區(qū)域Rect,其長和寬與人臉圓形區(qū)域的直徑R有一個比例關系,根據(jù)該關系可以得到Rect的長與寬。例如,根據(jù)實際情況可以推薦如下參數(shù):
[0050]長=3.5*R ;寬=2.5*R ;
[0051]這樣,由人臉區(qū)域中心點坐標center (X,y)和矩形區(qū)域Rect的長和寬,可以得到人體軀干矩形區(qū)域左上角的點Pl (X,y),并根據(jù)點Pl (X,y)和Rect的長和寬得到相應的服飾主體區(qū)域的坐標。
[0052]S102:將所述查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0053]在得到查詢圖的視覺特征之后,由于預先也對數(shù)據(jù)庫中的圖像進行了視覺特征提取,因此,就可以將查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別。其中,如果僅提取一種類型的視覺特征,并且具體的視覺特征一般是以一定維度的向量來表示,因此,可以直接通過計算向量間的距離,來表示兩個圖像之間的相似度。但是,在實際應用中,有可能針對同一個圖像提取多種不同類型的視覺特征,例如前文所述的既可能包括全局特征,又可能包括局部特征,而全局特征也可能有多種,等等。而在這種具有多種不同類型的視覺特征的情況下,如果想要計算兩個圖像之間的相似性,則一般情況下可以基于分類器進行。也就是說,人工的選取一批訓練樣本進行分類器模型的訓練,然后再將查詢圖的各種視覺特征輸入到分類器中,輸出該查詢圖所屬的類目。然而,這種方式一般具有以下弊端:
[0054]第一,人工選取訓練樣本,人工成本過大,且選取過程帶有主觀性,對分類器模型的訓練結果造成不利影響;
[0055]第二,在實際的系統(tǒng)中,樣本的分布往往呈現(xiàn)巨大的不均衡性,其表現(xiàn)在部分類目樣本數(shù)量較多,而部分類目樣本數(shù)量較少。這種樣本分布的不均衡性會對分類器的訓練過程造成較大的影響,使得最后訓練得到的分類器模型不能很好的區(qū)分各類樣本;
[0056]第三,圖像數(shù)據(jù)庫中的圖像數(shù)據(jù)量巨大,且圖像場景十分復雜。因此,選取訓練樣本的數(shù)量較為困難:選取數(shù)量較少,不能很好的描述各類樣本;選取數(shù)量較多,則對分類器模型的構建提出了巨大的挑戰(zhàn),需要較多的資源進行分類器的構建;
[0057]第四,基于分類器的物體類目預測系統(tǒng)在正式上線后,需要定期進行分類器模型的更新,而這又涉及到訓練樣本的重新選取。整個過程耗費較多資源,不利于快速實時進行系統(tǒng)更新。
[0058]基于以上使用分類器預測類目時的缺點,本申請實施例提出了一種級聯(lián)式的Re-Search圖像相似性計算方法,也即,按照預先為各種視覺類型的特征設置的先后順序,進行級聯(lián)式的分層計算;其中,在每層的計算中,僅基于其中一種類型的特征進行相似度判另IJ,并將符合層內預置條件的圖像集合輸入到下一層、以便基于下一種類型的特征進行相似度判別。
[0059]例如,假設一幅查詢圖包含三種不同類型的視覺特征:全局邊緣特征、全局顏色分布特征和局部旋轉不變特征,并且圖像數(shù)據(jù)庫中的各幅圖像也分別具有上述三種類型的特征。并且,假設預先設定的各種視覺特征的順序為:全局顏色分布特征、全局邊緣特征、局部旋轉不變特征,則具體在進行比對時,可以如下進行:
[0060]步驟一:將查詢圖的全局顏色分布特征和圖像數(shù)據(jù)庫中每張圖像的全局顏色特征按照相似性度量方法I計算相似度,并選擇出在部分相似度較高的圖像集合進入下一步判別;
[0061]步驟二:將查詢圖的全局邊緣特征與步驟一中得到的圖像集合中的每一幅圖像的全局邊緣特征按照相似性度量方法2計算相似度,并選擇出部分相似度較高的圖像集合進入下一步判別;
[0062]步驟三:將查詢圖的局部旋轉不變特征與步驟二中得到的圖像集合中的每一幅圖像的局部旋轉不變特征按照相似性度量方法3計算相似度,并選擇出部分相似度較高的圖像集合。
[0063]也就是說,每一步的判別都僅基于一種類型的視覺特征進行,并且每一步都能過濾掉一些圖像,最終,步驟三得到的圖像集合,就是在各種類型的視覺特征上都與查詢圖相似的圖像,這就是所謂的級聯(lián)式的判斷。其中,各步驟中的相似性度量方法可以是相同的,也可以是不同的。也就是說,不同類型的視覺特征可以有不同的相似性度量方法。在申請實施例總,可以采用向量間的距離作為相似性度量方法。需要說明的是,本申請實施例中所采用的全局顏色分布特征、全局邊緣特征以及旋轉不變特征的比較順序是可變的。
[0064]這種級聯(lián)式的判別方法相比訓練分類器的方法,至少有以下幾點優(yōu)點:
[0065]第一,該方法不需要任何訓練樣本,也不需要進行傳統(tǒng)的分類器訓練過程,可以節(jié)省大量的系統(tǒng)資源和分類器重新訓練過程時所需資源;
[0066]第二,該方法分層次進行相似度判別,每一層均采用不同類型的圖像特征得到在某種視覺特征上與查詢圖像最相似的圖像集合,并將其作為下一級的輸入進行進一步篩選。
[0067]第三,該方法只需要在離線階段計算單一圖像特征即可,后續(xù)特征計算均是實時計算。相比一次性計算圖像的不同特征并進行融合的技術而言,這種方法對于系統(tǒng)的存儲壓力和計算資源的消耗都要更小。
[0068]第四,該方法由于不需要傳統(tǒng)機器學習的分類器訓練過程,因此可拓展性強,能夠擴展到更多的類目進行搜索。
[0069]在得到與查詢圖在圖像視覺上高度相似的圖像組成的集合之后,就可以根據(jù)圖像數(shù)據(jù)庫中保存各個圖像所屬的類目,確定出當前查詢圖所屬的類目。具體的,根據(jù)圖像數(shù)據(jù)庫中保存的各個圖像的類目信息,確定相似度符合預置條件的各個圖像分別對應的類目,然后將出現(xiàn)次數(shù)最多的類目確定為查詢圖所屬的類目信息。C例如,最終確定出與查詢圖最相似的圖像一共有10幅,其中5幅都屬于類目A,另外有2幅屬于類目B,2幅屬于類目C,I幅屬于類目D,則可以確定出當前的查詢圖屬于類目A。當然,具體實現(xiàn)時,還可以采用其他的決策方法來實現(xiàn),這里不再一一介紹。
[0070]進而,在確定出查詢圖所屬的類目之后,還可以確定出該查詢圖的描述信息。具體的,可以提取相似度符合預置條件的圖像中出現(xiàn)次數(shù)最多的類目對應的圖像的描述信息,通過分析這些圖像的描述信息獲取當前查詢圖的描述信息。例如,在前述例子中,確定出查詢圖屬于類目A之后,就可以取出該類目A對應的5幅圖像,然后根據(jù)這5幅圖像的標題等文字描述信息進行分詞后,并進行分析,最終取出一些關鍵詞作為該查詢圖的描述信息。[0071 ] 當然,在實際應用中,也可以通過其他方式來預測查詢圖的描述信息,不一定是在預測出查詢圖的類目后再預測描述信息。另外,也可以僅預測查詢圖的類目信息或者描述信息,后續(xù)基于其中一方面的信息為用戶提供搜索結果。當然,如果兩方面的信息都獲取至IJ,則搜索結果的質量將會得到提高。
[0072]S104:根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。
[0073]在預測出查詢圖所屬的類目信息和/或描述信息之后,就可以基于這些信息,從圖像數(shù)據(jù)庫中獲取相關的搜索結果。具體的搜索過程,可以與用戶提交查詢圖并提交了類目信息以及描述信息的情況相同,例如,可以首先在圖像數(shù)據(jù)庫中搜索該查詢圖所屬類目下的所有業(yè)務對象,然后將該查詢圖的描述信息與各個業(yè)務對象的標題進行相似度判別,相似度滿足條件的業(yè)務對象的圖像再與查詢圖的圖像特征進行比對,最終得到搜索結果返回給用戶,等等,這里不再進行詳述。
[0074]總之,在本申請實施例中,如果用戶需要進行圖像搜索,則可以僅提交查詢圖,不需要同時提交查詢圖所屬的類目、描述信息等其他信息,并且提交的查詢圖可以是圖像數(shù)據(jù)庫之外的任意圖像;在接收到查詢圖之后,系統(tǒng)可以首先根據(jù)查詢圖的特征預測出該查詢圖所屬的類目和/或描述信息,進而可以結合查詢圖以及類目和/或描述信息,共同得出與查詢圖屬于同種類目和/或在款式、色彩等視覺特征上高度相似的圖像集合作為搜索結果。這樣,可以使得在不需要用戶提供類目或描述信息的情況下,就能為用戶提供符合用戶需求的搜索結果,并且,通過查詢圖特征的對比預測得到的類目、描述信息等更為客觀、準確,可以消除對用戶輸入信息的依賴。
[0075]以上對本申請實施例提供的圖像搜索的方法進行了詳細地介紹,可以看出,在本申請實施例解決圖像搜索過程中的問題的方案中,如何對一幅圖像預測出所屬的類目和/或描述信息,是解決問題的關鍵。而在實際應用中,如果能夠針對一幅圖像預測出所屬的類目和/或描述信息,則在其他的應用場景下也能解決一些技術問題。例如,在電子商務交易平臺中,賣方用戶在上傳業(yè)務對象的時候,需要為其選擇相應的類目。然而,系統(tǒng)中的類目關系繁雜,賣方用戶容易選錯;同時有部分賣方用戶可能會故意對類目進行錯放,以達到搜索作弊等目的。而如果能夠針對用戶上傳的業(yè)務對象的圖像預測出其所屬的類目,則不需要賣方用戶人工選取類目,減輕賣方用戶選擇類目的過程,提高用戶體驗;如果賣方用戶選擇了類目,也可以進行類目預測,如果預測出的類目與用戶選擇的類目完全不相關,則可以向系統(tǒng)管理員等發(fā)出提示信息,或者拒絕用戶的提交,等等。這樣,可以避免賣方用戶通過文本進行作弊的途徑。因此,在本申請實施例中,將系統(tǒng)自動確定一幅圖像的相關文本信息的方法單獨進行保護。參見圖2,該獲取圖像文本信息的方法可以包括以下步驟:
[0076]S201:獲取待確定類目信息的目標圖像,對所述目標圖像進行視覺特征提?。?br>
[0077]這里的目標圖像,就可以是指前文所述的用戶在需要進行圖像搜索時提交的查詢圖,或者賣方用戶提交的業(yè)務對象的圖像等等。具體在進行特征提取時,同樣可以如前文所述,提取目標圖像的全局和/或局部特征。
[0078]S202:將所述目標圖像的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0079]這里的圖像數(shù)據(jù)庫與前文所述的圖像數(shù)據(jù)庫類似,同樣可以是在線下對數(shù)據(jù)庫中已知類目以及描述信息的圖像進行特征提取,并保存在數(shù)據(jù)庫中。同樣的,數(shù)據(jù)庫中的同一幅圖像可以提取多種不同類型的特征。因此,得到目標圖像的特征之后,就可以與圖像數(shù)據(jù)庫中各圖像的特征進行相似度判別。類似的,如果一幅圖像對應多種不同類型的特征,則可以按照前文所述的級聯(lián)式判決方法。
[0080]S203:根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,獲取所述目標圖像所屬的類目信息和/或描述信息。
[0081]從圖像數(shù)據(jù)庫中找出與當前目標圖像最相似的若干個圖像之后,就可以根據(jù)這些圖像的類目,預測出目標圖像所屬的類目信息。另外,還可以預測出目標圖像的描述信息。
[0082]需要說明的是,在圖2所述的獲取圖像文本信息的方法,與圖1所述的圖像搜索方法中,獲取查詢圖所屬的類目信息和/或描述信息的過程實際是相同的,因此,相關的實現(xiàn)細節(jié)可以參見前文的介紹,這里不再贅述。
[0083]總之,通過本申請實施例提供的上述獲取圖像文本信息的方法,可以根據(jù)用戶提交的目標圖像,自動根據(jù)目標圖像的視覺特征以及圖像數(shù)據(jù)庫中圖像的視覺特征,預測出目標圖像所屬的類目和/或描述信息。這樣,在需要使用到目標圖像的文本信息的應用中,就不再需要用戶手動進行文本信息的輸入,即使用戶輸入了文本信息,還可以根據(jù)預測出的信息對用戶輸入的信息進行驗證,避免出現(xiàn)通過文本進行作弊等現(xiàn)象。
[0084]與本申請實施例提供的圖像搜索方法相對應,本申請實施例還提供了一種圖像搜索裝置,參見圖3,該裝置可以包括:
[0085]特征提取單元301,用于接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提取;
[0086]相似度判別單元302,用于將所述查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0087]預測單元303,用于根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的類目信息和/或描述信息;
[0088]搜索結果返回單元304,用于根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。
[0089]具體實現(xiàn)時,為了避免圖像背景等在進行相似度判別時的干擾,特征提取單元301具體可以包括:
[0090]主體內容區(qū)域提取子單元,用于提取所述查詢圖的主體內容區(qū)域;
[0091 ] 特征提取子單元,用于對所述主體內容區(qū)域進行特征提取。
[0092]其中,如果所述查詢圖的主要內容是服飾類內容,則特征提取單元301具體可以包括:
[0093]人臉檢測子單元,用于利用人臉檢測技術進對所述查詢圖進行人臉檢測,檢測出人臉區(qū)域的位置及面積;
[0094]軀干區(qū)域確定子單元,用于根據(jù)所述人臉區(qū)域的位置、面積以及預置的人臉區(qū)域與軀干區(qū)域的比例關系,確定軀干區(qū)域的位置及面積;
[0095]主體內容區(qū)域確定子單元,用于根據(jù)所述軀干區(qū)域的位置及面積,提取所述查詢圖的主體內容區(qū)域。
[0096]具體在進行視覺特征提取時,特征提取單元301具體可以用于:
[0097]對所述查詢圖進行全局特征和/或局部特征的提取。
[0098]其中,所述全局特征包括全局邊緣視覺特征和/或全局顏色分布特征,所述局部特征包括局部旋轉不變特征。
[0099]當提取出的特征為至少兩種時,所述相似度判別單元302具體可以用于:
[0100]按照預先為各種特征設置的先后順序,進行級聯(lián)式的分層計算;其中,在每層的計算中,僅基于其中一種特征進行相似度判別,并將符合層內預置條件的圖像集合輸入到下一層、以便基于下一種特征進行相似度判別。
[0101]其中,預測單元303具體可以用于:
[0102]根據(jù)圖像數(shù)據(jù)庫中保存的各個圖像的類目信息,確定所述相似度符合預置條件的各個圖像分別對應的類目;
[0103]將出現(xiàn)次數(shù)最多的類目確定為所述查詢圖所屬的類目信息。
[0104]另外,特征提取單元301還可以用于:
[0105]提取所述相似度符合預置條件的圖像中所述出現(xiàn)次數(shù)最多的類目對應的圖像的描述信息,通過分析該描述信息獲取所述查詢圖的描述信息。
[0106]總之,在本申請實施例中,如果用戶需要進行圖像搜索,則可以僅提交查詢圖,不需要同時提交查詢圖所屬的類目、描述信息等其他信息,并且提交的查詢圖可以是圖像數(shù)據(jù)庫之外的任意圖像;在接收到查詢圖之后,系統(tǒng)可以首先根據(jù)查詢圖的特征預測出該查詢圖所屬的類目和/或描述信息,進而可以結合查詢圖以及類目和/或描述信息,共同得出與查詢圖屬于同種類目和/或在款式、色彩等視覺特征上高度相似的圖像集合作為搜索結果。這樣,可以使得在不需要用戶提供類目或描述信息的情況下,就能為用戶提供符合用戶需求的搜索結果,并且,通過查詢圖特征的對比預測得到的類目、描述信息等更為客觀、準確,可以消除對用戶輸入信息的依賴。
[0107]與本申請實施例提供的獲取圖像文本信息的方法相對應,本申請實施例還提供了一種獲取圖像文本信息的裝置,參見圖4,該裝置還可以包括:
[0108]特征提取單元401,用于獲取待確定類目信息的目標圖像,對所述目標圖像進行視覺特征提取;
[0109]相似度判別單元402,用于將所述目標圖像的特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別;
[0110]預測單元403,用于根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,獲取所述目標圖像所屬的類目信息和/或描述信息。
[0111]其中,具體實現(xiàn)是,預測單元403具體可以用于:
[0112]根據(jù)圖像數(shù)據(jù)庫中保存的各個圖像的類目信息,確定所述相似度符合預置條件的各個圖像分別對應的類目;
[0113]將出現(xiàn)次數(shù)最多的類目確定為所述查詢圖所屬的類目信息。
[0114]通過本申請實施例提供的上述獲取圖像文本信息的裝置,可以根據(jù)用戶提交的目標圖像,自動根據(jù)目標圖像的視覺特征以及圖像數(shù)據(jù)庫中圖像的視覺特征,預測出目標圖像所屬的類目和/或描述信息。這樣,在需要使用到目標圖像的文本信息的應用中,就不再需要用戶手動進行文本信息的輸入,即使用戶輸入了文本信息,還可以根據(jù)預測出的信息對用戶輸入的信息進行驗證,避免出現(xiàn)通過文本進行作弊等現(xiàn)象。
[0115]通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。
[0116]本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
[0117]以上對本申請所提供的圖像搜索、獲取圖像文本信息的方法及裝置,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本申請的思想,在【具體實施方式】及應用范圍上均會有改變之處。綜上所述,本說明書內容不應理解為對本申請的限制。
【權利要求】
1.一種圖像搜索方法,其特征在于,包括: 接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提?。? 將所述查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別; 根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的類目信息和/或描述信息; 根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。
2.根據(jù)權利要求1所述的方法,其特征在于,所述對所述查詢圖進行視覺特征提取,包括: 提取所述查詢圖的主體內容區(qū)域; 對所述主體內容區(qū)域進行視覺特征提取。
3.根據(jù)權利要求2所述的方法,其特征在于,如果所述查詢圖的主體內容是服飾類內容,則所述提取所述查詢圖的主體內容區(qū)域,包括: 利用人臉檢測技術進對所述查詢圖進行人臉檢測,檢測出人臉區(qū)域的位置及面積;根據(jù)所述人臉區(qū)域的位置、面積以及預置的人臉區(qū)域與軀干區(qū)域的比例關系,確定軀干區(qū)域的位置及面積; 根據(jù)所述軀干區(qū)域的位置及面積,提取所述查詢圖的主體內容區(qū)域。
4.根據(jù)權利要求1所述的方法,其特征在于,所述對所述查詢圖進行視覺特征提取包括: 對所述查詢圖進行全局特征和/或局部特征的提取。
5.根據(jù)權利要求4所述的方法,其特征在于,所述全局特征包括全局邊緣視覺特征和/或全局顏色分布特征,所述局部特征包括局部旋轉不變特征。
6.根據(jù)權利要求1至5任一項所述的方法,其特征在于,當提取出的視覺特征為至少兩種時,所述將所述查詢圖的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別,包括: 按照預先為各種特征設置的先后順序,進行級聯(lián)式的分層計算;其中,在每層的計算中,僅基于其中一種特征進行相似度判別,并將符合層內預置條件的圖像集合輸入到下一層、以便基于下一種特征進行相似度判別。
7.根據(jù)權利要求1至5任一項所述的方法,其特征在于,所述根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息,確定所述查詢圖所屬的類目信息,包括: 根據(jù)圖像數(shù)據(jù)庫中保存的各個圖像的類目信息,確定所述相似度符合預置條件的各個圖像分別對應的類目; 將出現(xiàn)次數(shù)最多的類目確定為所述查詢圖所屬的類目信息。
8.根據(jù)權利要求7所述的方法,其特征在于,所述根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的描述信息,包括: 提取所述相似度符合預置條件的圖像中所述出現(xiàn)次數(shù)最多的類目對應的圖像的描述信息,通過分析該描述信息獲取所述查詢圖的描述信息。
9.一種獲取圖像文本信息的方法,其特征在于,包括: 獲取待確定類目信息的目標圖像,對所述目標圖像進行視覺特征提取; 將所述目標圖像的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別; 根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,獲取所述目標圖像所屬的類目信息和/或描述信息。
10.根據(jù)權利要求9所述的方法,其特征在于,所述根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息,確定所述目標圖像所屬的類目信息,包括: 根據(jù)圖像數(shù)據(jù)庫中保存的各個圖像的類目信息,確定所述相似度符合預置條件的各個圖像分別對應的類目; 將出現(xiàn)次數(shù)最多的類目確定為所述查詢圖所屬的類目信息。
11.一種圖像搜索裝置,其特征在于,包括: 特征提取單元,用于接收到輸入的查詢圖后,對所述查詢圖進行視覺特征提??; 相似度判別單元,用于將所述查詢圖的特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別; 預測單元,用于根據(jù)與所述查詢圖的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,確定所述查詢圖所屬的類目信息和/或描述信息; 搜索結果返回單元,用于根據(jù)所述查詢圖以及確定出的查詢圖所屬的類目信息和/或描述信息進行搜索,返回搜索結果。
12.一種獲取圖像文本信息的裝置,其特征在于,包括: 特征提取單元,用于獲取待確定類目信息的目標圖像,對所述目標圖像進行視覺特征提??; 相似度判別單元,用于將所述目標圖像的視覺特征與圖像數(shù)據(jù)庫中各圖像的視覺特征進行相似度判別; 預測單元,用于根據(jù)與所述目標圖像的相似度符合預置條件的圖像對應業(yè)務對象的類目信息和/或描述信息,獲取所述目標圖像所屬的類目信息和/或描述信息。
【文檔編號】G06F17/30GK104346370SQ201310328673
【公開日】2015年2月11日 申請日期:2013年7月31日 優(yōu)先權日:2013年7月31日
【發(fā)明者】劉瑞濤, 張洪明, 茹新峰 申請人:阿里巴巴集團控股有限公司