注釋顯示輔助設(shè)備及輔助注釋顯示的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種注釋顯示輔助設(shè)備及輔助注釋顯示的方法。
【背景技術(shù)】
[0002]已經(jīng)有技術(shù)通過指示諸如“羊”或“貓”的預(yù)定視覺概念是否存在于每一個(gè)圖像中的圖像分類器來對(duì)圖像分類。所述圖像分類器通過使用包括包含該視覺概念的肯定圖像和不包含該視覺概念的否定圖像的訓(xùn)練集的學(xué)習(xí)算法來建立。作為通用的學(xué)習(xí)算法,支持向量機(jī)(SVM)算法是已知的,其中所得到的分類器是在圖像特征(諸如從圖像中提取的直方圖的高維向量)空間中定義分離超平面的線性分類器。
[0003]此外,美國專利第7,890,443號(hào)公開了用于訓(xùn)練弱分類器的“多實(shí)例修剪”(MIP)或者組合分類器的“特征”。
[0004]然而,難以使每個(gè)用戶準(zhǔn)備訓(xùn)練集。例如,手動(dòng)準(zhǔn)備較大集合的肯定圖像和否定圖像以表示視覺概念是耗時(shí)的。因此,限制了每個(gè)用戶可以組裝的視覺概念的量。
[0005]為了解決這個(gè)問題,已經(jīng)提出了一種技術(shù),其中使用谷歌圖像搜索(GIS)得到肯定圖像,為每個(gè)肯定圖像計(jì)算描述符,使用肯定圖像描述符和具有預(yù)先計(jì)算的描述符的否定圖像的池來訓(xùn)練線性SVM分類器以獲得權(quán)重向量,并且通過該分類器對(duì)數(shù)據(jù)集排序(K.Chatfield 和 A.Zisserman,“VISOR:Towards On-the-Fly Large-Scale ObjectCategory Retrieval”,亞洲計(jì)算機(jī)視覺會(huì)議,2012年)。
[0006]然而,由于網(wǎng)絡(luò)的普遍性以及一些詞匯的歧義,由GIS返回的肯定集合有時(shí)對(duì)視覺概念(搜索詞)的代表性較差。出于這個(gè)原因,每一個(gè)用戶仍然需要通過標(biāo)記出對(duì)視覺概念代表性較差的圖像來手動(dòng)校正返回的肯定圖像。因此,仍然需要解決難以準(zhǔn)備訓(xùn)練集的上述問題以便提高圖像分類結(jié)果的質(zhì)量。
【發(fā)明內(nèi)容】
[0007]本發(fā)明是鑒于上述問題做出的,并提供了輔助用戶容易地準(zhǔn)備用于對(duì)圖像進(jìn)行分類的訓(xùn)練集的技術(shù)。
[0008]根據(jù)一個(gè)實(shí)施例,提供了一種注釋顯示輔助設(shè)備,包括:顯示處理單元,用于顯示關(guān)于搜索詞可能包括在第一分組中的圖像;輸入接受單元,用于接受來自用戶的、在由顯示處理單元顯示的圖像之中的關(guān)于該搜索詞應(yīng)包括在第二分組中的圖像的選擇;以及注釋添加單元,基于由用戶選擇的要被包括在第二分組中的圖像,檢測(cè)由顯示處理單元顯示的圖像之中的、除了由用戶選擇的要被包括在第二分組中的圖像以外的、可能屬于該第二分組的圖像,用于對(duì)該圖像添加注釋;其中,所述顯示處理單元顯示由該注釋添加單元檢測(cè)為可能屬于該第二分組的圖像的注釋,所述注釋指示該圖像可能屬于該第二分組。
[0009]根據(jù)另一實(shí)施例,提供了一種輔助注釋顯示的方法,包括:顯示關(guān)于搜索詞可能包括在第一分組中的圖像;接受來自用戶的、在所述顯示中顯示的圖像之中的關(guān)于該搜索詞應(yīng)包括在第二分組中的圖像的選擇;以及基于由用戶選擇的要被包括在第二分組中的圖像,檢測(cè)在所述顯示中顯示的圖像之中的、除了由用戶選擇的要被包括在第二分組中的圖像以外的、可能屬于該第二分組的圖像,用于對(duì)該圖像添加注釋;以及顯示在所述檢測(cè)中被檢測(cè)為可能屬于該第二分組的圖像的注釋,所述注釋指示該圖像可能屬于該第二分組。
[0010]注意,上述要素的任意組合,以及在方法、設(shè)備、系統(tǒng)等之中做出的本發(fā)明中的表述的任何互換,都作為本發(fā)明的實(shí)施例而是有效的。
【附圖說明】
[0011]與附圖一起閱讀時(shí)下面的詳細(xì)描述,本發(fā)明的其它目的、特征和優(yōu)點(diǎn)將變得更加明顯。
[0012]圖1是示出一實(shí)施例的注釋顯示輔助設(shè)備的功能結(jié)構(gòu)的示例的方框圖;
[0013]圖2是示出該實(shí)施例的注釋顯示輔助設(shè)備的硬件結(jié)構(gòu)的示例的方框圖;
[0014]圖3是示出由該實(shí)施例的顯示處理單元顯示的屏幕的示例的視圖;
[0015]圖4是示出由該實(shí)施例的顯示處理單元顯示的屏幕的另一示例的視圖;以及
[0016]圖5是示出該實(shí)施例的處理的示例的流程圖。
【具體實(shí)施方式】
[0017]將在這里參照說明性實(shí)施例來描述本發(fā)明。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,使用本發(fā)明的教導(dǎo)可以實(shí)現(xiàn)許多替代實(shí)施例,并且本發(fā)明不限于出于解釋目的示出的實(shí)施例。
[0018]應(yīng)注意的是,在附圖的說明中,相同的組件被給予相同的附圖標(biāo)記,并且不再重復(fù)說明。
[0019]圖1是示出一實(shí)施例的注釋顯示輔助設(shè)備100的功能結(jié)構(gòu)的示例的方框圖。
[0020]注釋顯示輔助設(shè)備100能夠經(jīng)由諸如因特網(wǎng)等的網(wǎng)絡(luò)400與包括諸如谷歌圖像搜索(GIS)等的圖像搜索引擎的外部圖像搜索系統(tǒng)300通信。
[0021]在詳細(xì)描述注釋顯示輔助設(shè)備100的功能結(jié)構(gòu)之前,先說明注釋顯示輔助設(shè)備100的硬件結(jié)構(gòu)。
[0022]圖2是示出該實(shí)施例的注釋顯示輔助設(shè)備100的硬件結(jié)構(gòu)的示例的視圖。這里,說明了注釋顯示輔助設(shè)備100是諸如智能電話、移動(dòng)電話等的移動(dòng)終端的示例。
[0023]注釋顯示輔助設(shè)備100包括電源系統(tǒng)251、包含處理器253、存儲(chǔ)器控制器254和外圍接口 255的主系統(tǒng)252、存儲(chǔ)單元256、外部端口 257、高頻電路258、天線259、音頻電路260、揚(yáng)聲器261、麥克風(fēng)262、傳感器263、包括顯示控制器265、光學(xué)傳感器控制器266和輸入控制器267的1/0(輸入/輸出)子系統(tǒng)264、觸摸面板顯不系統(tǒng)268、光學(xué)傳感器269和輸入單元270。雖然沒有詳細(xì)示出,但傳感器263可包括接近傳感器、全球定位系統(tǒng)(GPS)電路、加速器、陀螺儀、磁力計(jì)、光度傳感器等。
[0024]可替換地,注釋顯示輔助設(shè)備100可以是諸如個(gè)人計(jì)算機(jī)等的終端設(shè)備。
[0025]回到圖1,注釋顯示輔助設(shè)備100包括輸入接受單元12、顯示處理單元14、注釋添加單元18、圖像獲取單元16和圖像數(shù)據(jù)存儲(chǔ)器20。
[0026]輸入接受單元12接受注釋顯示輔助設(shè)備100的用戶的各種輸入操作。具體地,所述輸入接受單元12接受來自用戶的視覺概念的文本說明(在下文稱為“搜索詞”)。例如,當(dāng)用戶希望獲得關(guān)于羊的圖像時(shí)搜索詞可以是“羊”。
[0027]圖像獲取單元基于用戶輸入的搜索詞使用外部搜索引擎獲得可能包括在第一分組中的圖像。
[0028]圖像獲取單元16基于搜索詞獲得(下載)關(guān)于由外部圖像搜索系統(tǒng)300搜索和定位的搜索詞可能包括在第一分組中的圖像。在本實(shí)施例中,第一分組是對(duì)于搜索詞為肯定的一組圖像(下文中稱為“對(duì)于搜索詞的肯定圖像”)。因此,具體地,圖像獲取單元16基于搜索詞獲得(下載)對(duì)于由外部圖像搜索系統(tǒng)300搜索和定位的搜索詞可能為肯定的圖像(下文中稱為“對(duì)于搜索詞的可能為肯定的圖像”)。
[0029]顯示處理單元14在諸如觸摸面板顯示系統(tǒng)等的顯示單元上顯示各種信息項(xiàng)。具體地,顯示處理單元14顯示由圖像獲取單元16獲取的對(duì)于搜索詞可能為肯定的圖像的列表。
[0030]輸入接受單元12接受來自用戶的、在由顯示處理單元14顯示的圖像之中的關(guān)于該搜索詞應(yīng)包括在第二分組中的圖像的選擇。在本實(shí)施例中,第二分組是對(duì)于搜索詞為否定的一組圖像(下文中稱為“對(duì)于搜索詞的否定圖像”)。因此,具體地,輸入接受單元12接受在由顯示處理單元14顯示的可能為否定的圖像之中的對(duì)于來自用戶的該搜索詞為否定的圖像的選擇。
[0031]例如,顯示處理單元14可以以復(fù)選框(check box)分別顯示對(duì)于該搜索詞可能為肯定的圖像。然后,用戶可以通過手動(dòng)地標(biāo)記或勾選伴隨不包括由所述搜索詞等所限定的視覺概念的圖像的復(fù)選框來選擇對(duì)于該搜索詞的否定圖像。當(dāng)用戶勾選復(fù)選框時(shí),顯示處理單元14可以例如在伴隨著的圖像上顯示諸如十字標(biāo)記的否定圖標(biāo),以指示它實(shí)際上是否定圖像。
[0032]注釋添加單元18基于用戶選擇的否定圖像在顯示處理單元14顯示的剩余可能為肯定的圖像中檢測(cè)對(duì)于該搜索詞可能為否定的圖像(下文中稱為“對(duì)于搜索詞可能為否定的圖像”)。此時(shí),注釋添加單元18可以執(zhí)行使用所選擇的否定圖像作為因果圖像以自動(dòng)檢測(cè)由顯示處理單元14顯示的剩余可能為肯定的圖像是否被建議為對(duì)于該搜索詞可能為否定圖像的算法。此時(shí),注釋添加單元18也可以使用基于相似性的比較、基于分類的比較等。
[0033]在使用基于相似性的比較的情況下,注釋添加單元18將每個(gè)由顯示處理單元14顯示的剩余可能為肯定的圖像與所選否定圖像進(jìn)行比較。該比較可使用局部描述符來進(jìn)行,諸如跟隨有匹配描述符的幾何驗(yàn)證的尺度不變特征變換(SIFT)。
[0034]在使用基于分類的比較的情況下,注釋添加單元18例如使用所選否定圖像作為否定圖像、使用剩余可能為肯定的圖像作為肯定圖像來建立圖像分類器。
[0035]顯示處理單元14在由注釋添加單元18檢測(cè)的可能為否定的圖像上顯示注釋以指示該圖像對(duì)于該搜索詞可能是否定的。例如,指示該圖像可能為否定的該注釋可以是諸如問號(hào)的否定的建議圖標(biāo)。
[0036]因此,用戶能夠通過參考伴隨由顯示處理單元14顯示的圖像的否定的建議圖標(biāo)來容易地選出對(duì)于該搜索詞的另一否定圖像。輸入接受單元12接受來自用戶的對(duì)于該搜索詞的否定圖像的選擇。
[0037]當(dāng)用戶選擇對(duì)于該搜索詞的否定圖像時(shí),結(jié)果被存儲(chǔ)在圖像數(shù)據(jù)存儲(chǔ)器20。具體地,圖像獲取單元16獲取的每個(gè)圖像的圖像數(shù)據(jù)、搜索詞和指示相應(yīng)的圖像是否被用戶選擇作為對(duì)應(yīng)該搜索詞的否定圖像的信息被彼此相對(duì)應(yīng)地存儲(chǔ)在圖像數(shù)據(jù)存儲(chǔ)器20中。
[0038]另外,當(dāng)圖像獲取單元16新獲取對(duì)于由外部圖像搜索系統(tǒng)300搜索并定位的搜索詞可能為肯定的圖像時(shí),注釋添加單元18可以將新獲取的可能為肯定的圖像與存儲(chǔ)在圖像數(shù)據(jù)存儲(chǔ)器20中的圖像進(jìn)行比較。然后,注釋添