使用最短連線特征的圖像標(biāo)記的制作方法
【專利說(shuō)明】使用最短連線特征的圖像標(biāo)記
[0001]
[0002] 圖像標(biāo)記涉及根據(jù)圖像元素是描繪背景還是前景對(duì)象或?yàn)榱似渌蝿?wù)來(lái)向它們 分派標(biāo)記。例如,語(yǔ)義圖像分割是這樣的過(guò)程,其中圖像被解析為語(yǔ)義上有意義的各區(qū)域。 例如,醫(yī)學(xué)圖像可能需要被分析以允許身體各器官被識(shí)別。在另一個(gè)示例中,街景的視頻可 能需要被解析為描繪車輛、行人、道路、和其它對(duì)象的各區(qū)域。
[0003] 許多現(xiàn)有圖像標(biāo)記方法在所產(chǎn)生的結(jié)果的精確性以及所需時(shí)間和資源方面受限。 通常,需要兩個(gè)或更多個(gè)分開(kāi)的處理階段以給予合理的精確性水平但這引入了復(fù)雜性和時(shí) 間成本。
[0004] 以下描述的各實(shí)施例不限于解決已知圖像標(biāo)記系統(tǒng)的缺點(diǎn)中的任一個(gè)或全部的 實(shí)現(xiàn)。
[0005] 麗述
[0006] 下面呈現(xiàn)了本發(fā)明的簡(jiǎn)要概述,以便向讀者提供基本理解。本概述不是本公開(kāi)的 窮盡概覽,并且不標(biāo)識(shí)本發(fā)明的關(guān)鍵/重要元素或描述本說(shuō)明書(shū)的范圍。其唯一的目的是 以簡(jiǎn)化形式呈現(xiàn)此處所公開(kāi)的精選概念,作為稍后呈現(xiàn)的更詳細(xì)的描述的序言。
[0007] 描述了圖像標(biāo)記,例如,以識(shí)別醫(yī)學(xué)圖像中的身體器官、以標(biāo)記游戲玩家的深度圖 像中的身體部分、以標(biāo)記場(chǎng)景視頻中的對(duì)象。在各種實(shí)施例中,自動(dòng)化分類器使用圖像的最 短連線(geodesic)特征,以及可選地其它類型的特征,來(lái)按語(yǔ)義分割圖像。例如,最短連線 特征與圖像元素間的距離相關(guān),該距離將與圖像元素間的圖像內(nèi)容有關(guān)的信息納入考慮。 在某些示例中,自動(dòng)化分類器是糾纏的隨機(jī)決策森林,其中在較早的樹(shù)層次累積的數(shù)據(jù)被 用于在較晚的樹(shù)層次處作決策。在某些示例中,自動(dòng)化分類器通過(guò)包括兩個(gè)或更多個(gè)隨機(jī) 決策森林而具有自動(dòng)上下文。在各種示例中,并行處理和查找過(guò)程被使用。
[0008] 通過(guò)結(jié)合附圖參考以下詳細(xì)描述,可易于領(lǐng)會(huì)并更好地理解許多附帶特征。
[0009] 附圖簡(jiǎn)沐
[0010] 根據(jù)附圖閱讀以下【具體實(shí)施方式】,將更好地理解本發(fā)明,在附圖中:
[0011] 圖1是使用最短連線特征的圖像標(biāo)記引擎的示意圖;
[0012] 圖2是頭和軀干的醫(yī)學(xué)圖像的示意圖;
[0013] 圖3是自動(dòng)分類器的示意圖;
[0014] 圖4是糾纏的隨機(jī)決策森林的示意圖;
[0015] 圖5是訓(xùn)練糾纏的隨機(jī)決策森林的方法的流程圖;
[0016] 圖6是圖5中方法的一部分的更詳細(xì)的流程圖;
[0017] 圖7是使用經(jīng)訓(xùn)練的糾纏的隨機(jī)決策森林以按語(yǔ)義分割圖像的方法的流程圖;
[0018] 圖8是給予自動(dòng)上下文的多個(gè)隨機(jī)決策森林的示意圖;
[0019] 圖9是訓(xùn)練圖8的隨機(jī)決策森林的方法的流程圖;
[0020] 圖10是使用(經(jīng)訓(xùn)練的)圖8的隨機(jī)決策森林以按語(yǔ)義分割圖像的方法的流程 圖;
[0021] 圖11示出可在其中實(shí)現(xiàn)圖像標(biāo)記引擎的實(shí)施例的示例性的基于計(jì)算的設(shè)備。
[0022] 在各個(gè)附圖中使用相同的附圖標(biāo)記來(lái)指代相同的部件。
[0023] 詳細(xì)描沐
[0024] 下面結(jié)合附圖提供的詳細(xì)描述旨在作為本發(fā)明示例的描述,并不旨在表示可以構(gòu) 建或使用本發(fā)明示例的唯一形式。本描述闡述了本發(fā)明示例的功能,以及用于構(gòu)建和操作 本發(fā)明示例的步驟的序列。然而,可以通過(guò)不同的示例來(lái)實(shí)現(xiàn)相同或等效功能和序列。
[0025] 盡管此處將本發(fā)明示例描述和示出為在街景圖像分析系統(tǒng)中實(shí)現(xiàn),但是所述系統(tǒng) 是作為示例而非限制提供的。本領(lǐng)域的技術(shù)人員將會(huì)意識(shí)到,本發(fā)明示例適合在各種不同 類型的圖像標(biāo)記系統(tǒng)中應(yīng)用。
[0026] 圖1是使用最短連線特征的圖像標(biāo)記引擎102的示意圖。最短連線特征描述圖 像元素間的距離,該距離將與圖像元素間的圖像內(nèi)容有關(guān)的信息納入考慮。最短連線特征 可相對(duì)于在概率上定義的圖像區(qū)域來(lái)被計(jì)算,并可使用邊緣圖、使用圖像量(諸如亮度、色 彩、紋理或其它關(guān)于圖像內(nèi)容的信息)的漸變(包括被標(biāo)記的圖像元素的漸變和/或從其 它圖像標(biāo)記系統(tǒng)獲得的概率值)來(lái)計(jì)算。最短連線特征可被稱為連通性特征,因?yàn)樗鼈兠?述了在圖像中的不同位置處的各圖像元素如何通過(guò)圖像中的路徑來(lái)連接。該路徑可以是從 一圖像元素到圖像的在概率上定義的區(qū)域中的最近點(diǎn)的最短路徑。該路徑考慮圖像量(諸 如亮度)的漸變。通過(guò)使用最短連線特征,圖像標(biāo)記引擎102產(chǎn)生相比先前使用常規(guī)成對(duì) 的條件隨機(jī)場(chǎng)系統(tǒng)或現(xiàn)有隨機(jī)決策森林分類器而言的可能結(jié)果更精確的結(jié)果。并行處理和 查找過(guò)程可被使用以使得能夠降低操作時(shí)間。
[0027] 圖像標(biāo)記系統(tǒng)102接收?qǐng)D像100,諸如數(shù)字照片、視頻、醫(yī)學(xué)圖像、深度圖像或任何 其它類型的二維或更高維度圖像。在圖1所示的示例中,圖像100描繪包括房子、汽車和樹(shù) 的場(chǎng)景。圖像標(biāo)記引擎102將圖像100的圖像元素標(biāo)記為屬于多個(gè)可能的類(諸如建筑 物、天空、地面、樹(shù)木、機(jī)動(dòng)車、自行車、人)之一。在醫(yī)學(xué)圖像的情況中,類可以是例如身體 器官、或諸如瘤之類的異物。
[0028] 圖1還示出了使用最短連線特征108的另一個(gè)圖像標(biāo)記系統(tǒng)108。這接收?qǐng)D像108 并輸出帶經(jīng)標(biāo)記圖像元素的圖像110。圖像元素是圖像的單元,諸如像素、體素、一組像素或 體素。該圖像標(biāo)記系統(tǒng)108可集成使用帶經(jīng)標(biāo)記圖像元素的圖像110的功能性,或與之進(jìn) 行通信。例如,醫(yī)學(xué)圖像分析系統(tǒng)114、視頻會(huì)議系統(tǒng)116、增強(qiáng)現(xiàn)實(shí)系統(tǒng)118、自然用戶界面 系統(tǒng)120、數(shù)字照片編輯系統(tǒng)122的任何一個(gè)。圖像標(biāo)記系統(tǒng)108是使用軟件和/或硬件的 計(jì)算機(jī)實(shí)現(xiàn)的。例如,在數(shù)字照片編輯系統(tǒng)或視頻會(huì)議系統(tǒng)的情況中,圖像標(biāo)記系統(tǒng)可在臺(tái) 式計(jì)算機(jī)處或在移動(dòng)通信設(shè)備處。圖像標(biāo)記系統(tǒng)可實(shí)現(xiàn)在游戲控制臺(tái)或其它裝備中。其可 在某些示例中被提供作為服務(wù),其中數(shù)字圖像被發(fā)送到云中的圖像標(biāo)記引擎,且標(biāo)記結(jié)果 被發(fā)送到終端用戶裝備。
[0029] 圖2是頭202和軀干的醫(yī)學(xué)圖像200的示意圖。該圖可被用于示出最短連線特征 如何對(duì)圖像標(biāo)記有用。該醫(yī)學(xué)圖像描繪具有兩肺204、208和部分大動(dòng)脈的軀干206。該醫(yī) 學(xué)圖像包括因組織類型、空氣、或其它描繪的物質(zhì)而具有不同亮度的圖像元素。如果大動(dòng)脈 中兩圖像元素210、212被檢查,它們被發(fā)現(xiàn)具有類似亮度,因?yàn)樗鼈兠枥L相同物質(zhì)。標(biāo)準(zhǔn)分 類器可基于亮度值將這些圖像元素分類為屬于相同類。如果描繪空氣的兩圖像元素被檢 查,它們同樣可基于類似的亮度值而被分類為屬于同一類。然而,這兩個(gè)圖像元素可在不同 的對(duì)象(諸如肺(圖像元素214)和圍繞身體外的空氣(圖像元素216))中。標(biāo)準(zhǔn)分類器 可在此情況中給出錯(cuò)誤分類。
[0030] 如果分類器能夠看著兩個(gè)端點(diǎn)之間的像素的圖像亮度,那么分類結(jié)果將改善。這 例如可通過(guò)計(jì)算最短連線路徑來(lái)做到。圖像元素214和216之間的最短連線路徑可被描繪 為圖2的那些圖像元素之間的實(shí)線。該最短連線路徑可跟隨在亮度值(或其它量)上具有 最少改變的路線。在此示例中,最短連線路徑比直線路徑(由214和216之間的虛線指示) 更長(zhǎng)。最短連線路徑的長(zhǎng)度(或與此相關(guān)的特征)可被用作在此描述的示例中的特征,以 允許圖像標(biāo)記正確地將圖像元素214和216標(biāo)識(shí)為屬于不同實(shí)體。然而,不直接允許自動(dòng) 分類器來(lái)以將在切實(shí)可行的時(shí)間標(biāo)尺上操作的實(shí)際的方式計(jì)算并使用最短連線特征。
[0031] 圖3是給出圖1的圖像標(biāo)記引擎的功能性的自動(dòng)分類器300的示意圖。在本文描 述的各種示例中,自動(dòng)分類器包括糾纏的隨機(jī)決策森林302。在其它示例中自動(dòng)分類器包括 具有自動(dòng)上下文的多個(gè)隨機(jī)決策森林304。使用使用最短連線特征的其它類型的自動(dòng)分類 器300 (諸如支持向量機(jī)或助推)也是可能的。
[0032] 隨機(jī)決策森林包括各自具有根節(jié)點(diǎn)、多個(gè)分叉節(jié)點(diǎn)以及多個(gè)葉節(jié)點(diǎn)的一個(gè)或多個(gè)