專利名稱:訓(xùn)練多類Boosting分類器的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分類器訓(xùn)練方法,更具體地講,涉及一種通過在使用多類 Boosting方法進(jìn)行類的訓(xùn)練時通過動態(tài)改變類權(quán)重調(diào)整訓(xùn)練樣本的訓(xùn)練權(quán)重 來訓(xùn)練多類Boosting分類器的方法。
背景技術(shù):
多類Boosting方法對于多類對象檢測和識別非常重要,特別是在圖像對 象檢測領(lǐng)域。圖像對象檢測變得越來越流行,并且被用于多個不同檢測類的 檢測中。其應(yīng)用的示例包括多視角人臉檢測、眼睛定位,交通信號檢測以 及車輛^r測等。
圖l示出用于多視角人臉檢測的多類Boosting方法。根據(jù)人臉相對于圖 像面的旋轉(zhuǎn)角度,多視角人臉被分為若干類。多類Boosting方法可用于同時 檢測若干個角度的人臉。
圖2示出多類Boosting方法的構(gòu)思。在多浮見角人臉4企測中,多類Boosting 方法使用具有所有類的相同特征的分類器,分類器對于不同的類具有不同的 置信參數(shù)。例如,使用人的眼睛作為分類特征來訓(xùn)練分類器,在對不同視角 的人臉圖像進(jìn)行檢測時,該分類器對于不同視角的人臉的檢測結(jié)果的置信度 是不同的,因此需要根據(jù)不同的視角(即,不同的類)設(shè)置不同的置信參數(shù)。
第2006/0248029號美國專利"Object-detection method multi-class Bhattacharyya Boost algorithm used therein" 7>開了 一種多類對象4企測方法,在 該方法中,對于不同的類使用具有不同參數(shù)的相同投影作為分類特征,整個 多類系統(tǒng)的消耗時間取決于性能最差的類。也就是說,性能越差的類需要更 多的弱分類器才能達(dá)到預(yù)定的分類效果,所以對性能最差的類進(jìn)行分類時消 耗的時間最多。這使得整個系統(tǒng)的速度變慢,效率降低。
因此,需要一種改進(jìn)的訓(xùn)練方法,使得對性能最差的類進(jìn)行分類的弱分 類器的數(shù)量減少,同時使對不同的類進(jìn)行檢測所需的弱分類器的數(shù)量基本相 同,從而提高系統(tǒng)的整體速度和效率。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種通過在使用多類Boosting方法進(jìn)行類的訓(xùn)練 時,為訓(xùn)練數(shù)據(jù)中的每個訓(xùn)練樣本的樣本權(quán)重分配一個與訓(xùn)練樣本所屬的類 對應(yīng)的類權(quán)重來訓(xùn)練多類Boosting分類器的方法,從而使得最差的類使用的 弱分類器的數(shù)量減少,同時用于不同的類的弱分類器的數(shù)量基本相同,從而 減少了系統(tǒng)的運(yùn)算量,提高了系統(tǒng)的整體速度和效率。
本發(fā)明提供一種用于訓(xùn)練多類Boosting分類器的方法,所述方法包括 (1)提供包括多個類的訓(xùn)練樣本的訓(xùn)練數(shù)據(jù);(2 )設(shè)置性能目標(biāo)閾值,初始 化訓(xùn)練樣本的訓(xùn)練權(quán)重,其中,訓(xùn)練樣本的訓(xùn)練權(quán)重包括訓(xùn)練樣本的樣本權(quán) 重和類權(quán)重,所述訓(xùn)練樣本的類權(quán)重與所述多個類中與訓(xùn)練樣本所屬的類相 對應(yīng);(3 )使用Boosting方法對訓(xùn)練數(shù)據(jù)中的被訓(xùn)練權(quán)重加權(quán)的訓(xùn)練樣本進(jìn) 行循環(huán)訓(xùn)練,其中,在所述循環(huán)訓(xùn)練過程中的每次循環(huán)之后,得到用于與所 述進(jìn)行訓(xùn)練的訓(xùn)練樣本對應(yīng)的類的弱分類器,將在已經(jīng)完成的訓(xùn)練循環(huán)得到 的弱分類器組合為強(qiáng)分類器,并測試所述強(qiáng)分類器的性能以確定是否存在性 能達(dá)到或超過所述性能目標(biāo)閾值而完成訓(xùn)練的類,對于完成訓(xùn)練的類,從訓(xùn) 練數(shù)據(jù)中去除完成訓(xùn)練的類的訓(xùn)練樣本;對于沒有完成訓(xùn)練的類,則根據(jù) Boosting方法調(diào)整其訓(xùn)練樣本的基礎(chǔ)權(quán)重,并根據(jù)其性能調(diào)整其類權(quán)重,以 使在本次以及最近的循環(huán)中或在本次循環(huán)中的性能差的類的訓(xùn)練樣本在下次 循環(huán)中的訓(xùn)練權(quán)重增大;(4)將在步驟(3)訓(xùn)練得到的所有弱分類器組合為 多類Boosting分類器。
根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整其類權(quán)重步驟還包括增大在本次循 環(huán)中性能最差的類的類權(quán)重;
如果一個類在上一次循環(huán)中的性能最差,而在本次循環(huán)中的性能不是最 差的,則減小所述類的類權(quán)重。
所述每個類的類權(quán)重是通過對每個類的基礎(chǔ)類權(quán)重進(jìn)行歸一化得到的, 所述基礎(chǔ)類權(quán)重根據(jù)下面的等式而得到 =(/^,,)
其中,Z是訓(xùn)練循環(huán)序號,/是類序號,WA,是在第"欠循環(huán)訓(xùn)練得到的強(qiáng) 分類器對第Z類進(jìn)行分類的虛警率,w是對應(yīng)于整個訓(xùn)練過程的全局變量,根 據(jù)各個類的性能而動態(tài)地改變。
5對每個類的基礎(chǔ)類權(quán)重進(jìn)行歸一化而得到每個類的類權(quán)重的步驟包括
在每次循環(huán)后基于還沒有完成訓(xùn)練的類的基礎(chǔ)類權(quán)重,通過下式來進(jìn)行所述
歸一化
其中,2>".表示在第P欠循環(huán)后還沒有完成訓(xùn)練的類的基礎(chǔ)類權(quán)重之和。
w^i步驟(2)中被初始化為0;如果第/類的性能在第Z次循環(huán)最差,并 且在第"次循環(huán)的性能最差,則"增大預(yù)定值;如果第/類的性能在第f次 循環(huán)不是最差的,但在第"次循環(huán)的性能最差,則w減小預(yù)定值。 通過下面的等式計(jì)算樣本在第什l次循環(huán)的訓(xùn)練權(quán)重
其中,是第/類的訓(xùn)練樣本s在第,次循環(huán)的樣本權(quán)重。
通過下面的等式來計(jì)算訓(xùn)練樣本在第,次循環(huán)的樣本權(quán)重w;(力
其中,w,—^)是第(")次循環(huán)中樣本S的訓(xùn)練權(quán)重,y("是樣本S的類別真
值,;^w是在第"欠循環(huán)中訓(xùn)練得到的弱分類器的分類結(jié)果,z是歸一化系數(shù)。
根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整其類權(quán)重步驟還包括減小在本次循 環(huán)中性能最好的類的類權(quán)重;如果一個類在上一次循環(huán)中的性能最好,而在 本次循環(huán)中的性能不是最好的,則增大所述類的類權(quán)重。
根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整其類權(quán)重步驟還包括減小在本次循 環(huán)中性能最好的類的類權(quán)重。
根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整其類權(quán)重步驟還包括增大在本次循 環(huán)中性能最差的類的類權(quán)重。
圖l示出用于多視角人臉檢測的多類Boosting方法; 圖2示出多類Boosting方法的構(gòu)思;
圖3示出根據(jù)本發(fā)明示例性實(shí)施例的訓(xùn)練Boosting多類分類器的方法的 流程圖。
具體實(shí)施例方式
本發(fā)明的用于訓(xùn)練多類Boosting分類器的方法基于Boosting方法,對包 括多個類的訓(xùn)練樣本的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,而得到用于所述多個類的弱分類 器來形成多類Boosting分類器。本發(fā)明的用于訓(xùn)練多類Boosting分類器的方 法與傳統(tǒng)的Boosting方法不同的是,在進(jìn)行訓(xùn)練之前,設(shè)置一個性能目標(biāo)閾 值,當(dāng)在某次訓(xùn)練循環(huán)之后得到的強(qiáng)分類器對一個類的性能達(dá)到所述性能目 標(biāo)閾值時,完成針對這個類的訓(xùn)練,并從訓(xùn)練數(shù)據(jù)中去除該類的訓(xùn)練樣本。 在隨后的循環(huán)中使用剩余的訓(xùn)練樣本針對剩余的類進(jìn)行訓(xùn)練。在訓(xùn)練過程中 的每次循環(huán)之后并在下一次循環(huán)開始之前,為訓(xùn)練數(shù)據(jù)中的每個訓(xùn)練樣本的 樣本權(quán)重分配一個與訓(xùn)練樣本所屬的類對應(yīng)的類權(quán)重,即,樣本權(quán)重和類權(quán)
重構(gòu)成訓(xùn)練樣本在每個訓(xùn)練循環(huán)中的訓(xùn)練權(quán)重。每個類對應(yīng)的類權(quán)重根據(jù)在 本次以及最近的循環(huán)或者在本次循環(huán)中得到的強(qiáng)分類器對于該類的性能而動 態(tài)地變化,以使性能差的類的訓(xùn)練樣本在下次循環(huán)中的訓(xùn)練權(quán)重增大,從而 性能好的類在下次循環(huán)中的訓(xùn)練權(quán)重減小。也就是說,通過調(diào)整類權(quán)重,在 下次循環(huán)的訓(xùn)練中增大性能差的類的訓(xùn)練樣本的訓(xùn)練權(quán)重,減d、性能好的類 的訓(xùn)練樣本的訓(xùn)練權(quán)重,使各個類的性能盡可能在相同的循環(huán)中達(dá)到性能目 標(biāo)閾值而完成訓(xùn)練,從而最終使得性能最差的類所需的弱分類器的數(shù)量減小, 同時對不同的類進(jìn)行分類所需的弱分類器的數(shù)量基本相同。
以下,將參照圖3來詳細(xì)說明根據(jù)本發(fā)明的第一示例性實(shí)施例。 圖3示出根據(jù)本發(fā)明示例性實(shí)施例的訓(xùn)練Boosting多類分類器的方法的 流程圖。
首先,提供包括多個類(例如,m個類,m為大于1的自然數(shù))的類集 合r的訓(xùn)練數(shù)據(jù)D「。訓(xùn)練數(shù)據(jù)D「包括正訓(xùn)練樣本和負(fù)訓(xùn)練樣本,可由類別 真值來標(biāo)識。訓(xùn)練數(shù)據(jù)D「可由下面的等式(1)來表示
D、((x;,y;),…,(x;,y;),…,(化iD,卩) (i)
D2 = {(x〖,y〖),..,,(x ,yi2),...(X|2D2|,y|2D2|)}
0、{(4,^),.."^), }
Dm = (0C,yr),…,(x「,y;",…(x「葉y「"" 二D1 YD2 Y..."4 Y..,ZT其中,x,表示訓(xùn)練數(shù)據(jù)D「中第k類的第i樣本;y,=±l,表示第i樣本x,的 類別真值;|W|表示訓(xùn)練數(shù)據(jù)Dr中第k類的樣本數(shù)量。
在開始對訓(xùn)練數(shù)據(jù)Dr進(jìn)行訓(xùn)練之前,初始化訓(xùn)練樣本的樣本權(quán)重以及不 同的類的類權(quán)重(步驟301)。與傳統(tǒng)Boosting方法相同,每個樣本的初始樣 本權(quán)重為i/ljlz)卞每個類的類權(quán)重是通過對每個類的基礎(chǔ)類權(quán)重進(jìn)行歸一化 得到的,所SL基礎(chǔ)類權(quán)重根據(jù)下面的等式(2)而得到
(2)
其中,/是在使用Boosting方法進(jìn)行訓(xùn)練期間的循環(huán)序號;/是類序號(每個 類的類序號在整個訓(xùn)練過程中保持不變);W《,是在第"欠循環(huán)訓(xùn)練得到的強(qiáng) 分類器對第/類進(jìn)行分類的虛警率;w是對應(yīng)于整個訓(xùn)練過程的全局變量。
在每次循環(huán)后基于還沒有訓(xùn)練完成的類的基礎(chǔ)類權(quán)重,通過下面的等式 (3)對基礎(chǔ)類權(quán)重進(jìn)行歸一化而得到類權(quán)重
,. = r',' ( 3 )
其中,1>,,,表示在第^次循環(huán)后還沒有完成訓(xùn)練的類的基礎(chǔ)類權(quán)重之和。 通ii使w為0來初始化訓(xùn)練樣本的類權(quán)重,根據(jù)等式(2 )和(3 )每個
類的類權(quán)重^f皮初始化為1/m。
可基于訓(xùn)練樣本的樣本權(quán)重和類權(quán)重由等式(4 )來計(jì)算訓(xùn)練樣本的訓(xùn)練
權(quán)重
<formula>formula see original document page 8</formula> = (4)
其中,w;,是第z類在第z次循環(huán)被調(diào)整后的類權(quán)重,是第z類的訓(xùn)練樣 本s在第,次循環(huán)的樣本權(quán)重。
可使用基于傳統(tǒng)Boosting方法的等式(5)來計(jì)算訓(xùn)練樣本的樣本權(quán)重 U.'(J) = w,—i") exP(- A,(力) (5)
其中, (力是第(Z-l)次循環(huán)中被調(diào)整后的樣本s的訓(xùn)練權(quán)重,y(力是樣本 s的類別真值,W力是在第,次循環(huán)中訓(xùn)練得到的弱分類器的分類結(jié)果,Z是
歸一化系數(shù)。
在完成初始化之后,開始對訓(xùn)練數(shù)據(jù)D「進(jìn)行訓(xùn)練(步驟302 )。 下面,以第T (T為大于1的自然數(shù))次循環(huán)為例描述根據(jù)本發(fā)明第一 示例性實(shí)施例的訓(xùn)練多類Boosting分類器的方法的訓(xùn)練循環(huán)。
在第T次訓(xùn)練循中得到弱分類器br之后,將在已經(jīng)完成的各個循環(huán)得到的弱分類器組合為強(qiáng)分類器,所述強(qiáng)分類器可被表示為
// = ^>, (6) 其中,4為在第t次循環(huán)得到的弱分類器。
測試所述強(qiáng)分類器對在T-l次循環(huán)中訓(xùn)練沒有完成的類的性能(步驟 303 ),并根據(jù)測試結(jié)果確定是否完成訓(xùn)練(步驟304 )。
如果所述強(qiáng)分類器對于例如第/類的性能達(dá)到或超過性能目標(biāo)閾值,例 如,0.5的虛警率,則可以確定完成對第/類的訓(xùn)練,并從訓(xùn)練數(shù)據(jù)D「中去 除第/類的訓(xùn)練it據(jù)Di。此外,如果本實(shí)施例中的m個類的性能都已達(dá)到或 超過性能目標(biāo)閾值,則可確定整個訓(xùn)練過程完成,操作進(jìn)入步驟305,并且 所述強(qiáng)分類器為最終訓(xùn)練得到的多類Boosting分類器。
在步驟306,對在第T次循環(huán)中性能沒有達(dá)到或超過性能目標(biāo)閾值的類 (即,沒有完成訓(xùn)練的類),根據(jù)所述類的性能的變化對類權(quán)重進(jìn)行調(diào)整,同 時根據(jù)等式(5)調(diào)整樣本權(quán)重。具體地說,如果在第T次循環(huán)得到的強(qiáng)分類 器對于沒有完成訓(xùn)練的類中的例如第/類(每個類的類序號在整個訓(xùn)練過程 中保持不變)的性能最差(即,虛警率高),并且在第T-l次循環(huán)訓(xùn)練得到的 強(qiáng)分類器對于第/類的性能也最差,則將等式(2)中的w增加l,從而根據(jù) 等式(3),第,'類的基礎(chǔ)類權(quán)重氣,的歸一化值類權(quán)重w;,增大;如果在第T次 循得到的強(qiáng)分類器對于第Z類的性能不是最差的,但在第T-l次循環(huán)訓(xùn)練得到 的強(qiáng)分類器對于第/類的性能最差,則將w減小l,從而根據(jù)等式(3),第z' 類的基礎(chǔ)類權(quán)重 的歸一化值類權(quán)重 減小。因?yàn)榇嬖谀硞€類在之前的循環(huán) 或本次循環(huán)中完成訓(xùn)練的情況,所以在本說明書中,性能最差的類是指在所 述的循環(huán)中沒有完成訓(xùn)練的類中,使用在所述的循環(huán)中得到的強(qiáng)分類器進(jìn)行 測試的性能最差的類。
根據(jù)步驟306的結(jié)果,可使用等式(4)和等式(5)計(jì)算將在下一循環(huán) 中使用的訓(xùn)練樣本的訓(xùn)練權(quán)重(步驟307)。當(dāng)w增大時,第z'類的每個訓(xùn)練 樣本的訓(xùn)練權(quán)重w,("(即,在第T+l次循環(huán)的訓(xùn)練權(quán)重)相對于樣本權(quán)重w;(力 增大;當(dāng)w減小時,第/類的每個訓(xùn)練樣本的訓(xùn)練權(quán)重w,W相對于樣本權(quán)重 w;(力減小。 j
也就是說,對于在上次循環(huán)中性能最差的類,如果在本次循環(huán)中該類仍 然是性能最差的類,則通過增大該類的類權(quán)重來最終增大該類的訓(xùn)練樣本在 下一循環(huán)中進(jìn)行訓(xùn)練時的訓(xùn)練權(quán)重,從而提高該類在下一循環(huán)后的性能(即,
9下一循環(huán)得到的強(qiáng)分類器對于該類的性能提高);如果在本次循環(huán)中該類不再 是性能最差的類,則通過減小該類的類權(quán)重來最終減小該類的訓(xùn)練樣本在下 一循環(huán)中進(jìn)行訓(xùn)練時的訓(xùn)練權(quán)重,從而降低該類在下一循環(huán)后的性能(即, 下一循環(huán)得到的強(qiáng)分類器對于該類的性能降低)。以這樣的方式使本實(shí)施例中
的m個類在相同或相近的循環(huán)達(dá)到性能目標(biāo)閾值,從而使性能最差的類所需 的弱分類器的數(shù)量減小,同時使每個類的弱分類器數(shù)量相同或相近。
隨后,返回步驟302,重復(fù)上述步驟,直至操作進(jìn)行到步驟305。需要注 意的是,如果一個類在步驟304完成了訓(xùn)練,則將不更新該類的類權(quán)重,并 且自本次循環(huán)起不將該類的類權(quán)重代入等式(3)。
在本實(shí)施例中的步驟306中調(diào)整類權(quán)重的方式不限于上面所述,也可以 通過針對性能最好的類的性能的變化,通過改變等式(2)中的w的值減小該 類的訓(xùn)練樣本在下一循環(huán)中的訓(xùn)練權(quán)重來實(shí)現(xiàn)本發(fā)明的目的或者只根據(jù)在本 次循環(huán)中類的性能來調(diào)整類權(quán)重。例如,如果第/類在第T-l、 T次循環(huán)連續(xù) 兩個循環(huán)性能最好,則將w減??;如果第z'類在第T-l次循環(huán)性能最好,而在 第T次循環(huán)的性能不是最好的,則將"增大。并且顯然這里w每次增大或減 小的值不限于l。
下面同樣參照圖3描述根據(jù)本發(fā)明的第二示例性實(shí)施例。
提供由等式l表示的包括多個類(例如,m個類,m為大于1的自然數(shù)) 的類集合r的訓(xùn)練數(shù)據(jù)D「。在開始對訓(xùn)練數(shù)據(jù)D「進(jìn)行訓(xùn)練之前,初始化訓(xùn) 練樣本的樣本權(quán)重以及類權(quán)重(步驟301)。初始化樣本的權(quán)重的方法與根據(jù) 本發(fā)明的第一示例性實(shí)施例相同,每個樣本的初始樣本權(quán)重為|/|;|/)1。每個 類的類權(quán)重是通過對每個類的基礎(chǔ)類權(quán)重進(jìn)行歸一化得到的,在^^實(shí)施例中 所述基礎(chǔ)類權(quán)重根據(jù)下面的等式(7)而得到
=歸 (7)
其中,f是在使用Boosting方法進(jìn)行訓(xùn)練期間的循環(huán)序號,/是類序號 (每個類的類序號在整個訓(xùn)練過程中保持不變),a,是在第"欠循環(huán)后還沒有 完成訓(xùn)練的類的數(shù)量, 是第Z類的對應(yīng)于整個訓(xùn)練過程的全局變量。
在每次循環(huán)后基于還沒有訓(xùn)練完成的類的基礎(chǔ)類權(quán)重,通過了面的等式 (8)對基礎(chǔ)類權(quán)重進(jìn)行歸一化而得到類權(quán)重其中,2(氣,)-1表示在第^次循環(huán)后還沒有完成訓(xùn)練的類的基礎(chǔ)類權(quán)重的倒數(shù)之和。'
可通過等式(4)和(5)來計(jì)算每個訓(xùn)練樣本的訓(xùn)練權(quán)重。
通過使",(z' =1, 2, ...m)為1來初始化訓(xùn)練樣本的類權(quán)重。其后,開始對訓(xùn)練數(shù)據(jù)D「進(jìn)行訓(xùn)練(步驟302 )。
下面,以第T (T為大于1的自然數(shù))次循環(huán)為例描述根據(jù)本發(fā)明第二示例性實(shí)施例的訓(xùn)練多類Boosting分類器的方法的訓(xùn)練循環(huán)。
在第T次訓(xùn)練循中得到弱分類器hT之后,根據(jù)等式(6)將在已經(jīng)完成的各個循環(huán)得到的弱分類器組合為強(qiáng)分類器,測試強(qiáng)分類器對在T-l次循環(huán)中訓(xùn)練沒有完成的類的性能(步驟303 ),并根據(jù)測試結(jié)果確定是否完成訓(xùn)練(步驟304 )。
如果在第T次循環(huán)訓(xùn)練得到的強(qiáng)分類器對于例如第Z類的性能達(dá)到或超過性能目標(biāo)閾值,例如,0.5的虛警率,則可以確定完成對第/類的訓(xùn)練,并從訓(xùn)練數(shù)據(jù)Dr中去除第/類的訓(xùn)練數(shù)據(jù)Di。此外,如果所述類的性能都已達(dá)到或超過性能目標(biāo)閾值,則可確定整個訓(xùn)練過程完成,操作進(jìn)入步驟405,并且所述強(qiáng)分類器為最終訓(xùn)練得到的多類Boosting分類器。
在步驟306,對于在第T次循環(huán)中性能沒有達(dá)到或超過性能目標(biāo)閾值的類(即,沒有完成訓(xùn)練的類),根據(jù)等式(5)調(diào)整樣本權(quán)重,并且如果在第T次循環(huán)得到的強(qiáng)分類器對于沒有完成訓(xùn)練的類中的例如第/類(每個類的類序號在整個訓(xùn)練過程中保持不變)的性能最差,并且在第T-l次循環(huán)得到的強(qiáng)分類器對于第,'類的性能也最差,則將等式(7)中的《,增加1,從而根據(jù)等式(8),第Z類的類權(quán)重w"的歸一化值w;,增大;如果在第T次循環(huán)得到的強(qiáng)分類器對于第/類的性能不是最差的,但在第T-l次以及第T-2次循環(huán)得到的強(qiáng)分類器對于第/類的性能最差,則將 減小1,從而根據(jù)等式(8),第/類的類權(quán)重w"的歸 一化值 < 減小。
根據(jù)步驟306的結(jié)果,可使用等式(4)、 (5)計(jì)算將在下一循環(huán)中使用的訓(xùn)練樣本的訓(xùn)練權(quán)重(操作307)。當(dāng)",.增大時,第/類的每個訓(xùn)練樣本的訓(xùn)練權(quán)重w,("(即,在第T+l次循環(huán)4吏用的訓(xùn)練權(quán)重)相對于樣本權(quán)重w;(力
z:二'
增大;當(dāng) 減小時,第/類的每個訓(xùn)練樣本的訓(xùn)練權(quán)重w,W相對于樣本權(quán)重隨后,返回步驟302,重復(fù)上述步驟,直至操作進(jìn)行到步驟305。需要注
ii意的是,如果一個類在步驟304完成了訓(xùn)練,則將不更新該類的類權(quán)重,并
且自本次循環(huán)起不將該類的類權(quán)重代入等式(9)。
也就是說,對于在上次循環(huán)中性能最差的類,如果在本次循環(huán)中該類仍然是性能最差的類,則通過調(diào)整該類的類權(quán)重的大小,使該類的訓(xùn)練樣本在
下一循環(huán)中的訓(xùn)練權(quán)重增大;如果在前面連續(xù)兩個循環(huán)中該類是性能最差的類,而在本次循環(huán)中不是性能最差的類,則在本次循環(huán)中通過調(diào)整該類的類權(quán)重的大小,使該類的樣本在下一循環(huán)中的訓(xùn)練權(quán)重減小。以這樣的方式使本實(shí)施例中的m個類在相同或相近的循環(huán)達(dá)到性能目標(biāo)閾值,從而使性能最差的類所需的弱分類器的數(shù)量減小,同時使每個類的弱分類器數(shù)量相同或相近。
本發(fā)明不限于上述實(shí)施例,也可通過其他方式構(gòu)造類權(quán)重,通過調(diào)整構(gòu)造的類權(quán)重使在本次以及最近的循環(huán)中或在本次循環(huán)中性能差(或最差)的類的訓(xùn)練樣本的訓(xùn)練權(quán)重增大或者性能好(或最好)的類的訓(xùn)練樣本的訓(xùn)練權(quán)重減小,來實(shí)現(xiàn)本發(fā)明的目的。
根據(jù)本發(fā)明,在訓(xùn)練期間每次循環(huán)后得到的強(qiáng)分類器對不同的類的性能被均衡,從而在多類系統(tǒng)中性能最差的類使用的弱分類器的數(shù)量減少,同時用于不同的類的弱分類器的數(shù)量基本相同,提高了整個系統(tǒng)的速度并提高了效率。
1權(quán)利要求
1、一種用于訓(xùn)練多類Boosting分類器的方法,所述方法包括(1)提供包括多個類的訓(xùn)練樣本的訓(xùn)練數(shù)據(jù);(2)設(shè)置性能目標(biāo)閾值,初始化訓(xùn)練樣本的訓(xùn)練權(quán)重,其中,訓(xùn)練樣本的訓(xùn)練權(quán)重包括訓(xùn)練樣本的樣本權(quán)重和類權(quán)重,所述訓(xùn)練樣本的類權(quán)重與所述多個類中與訓(xùn)練樣本所屬的類相對應(yīng);(3)使用Boosting方法對訓(xùn)練數(shù)據(jù)中的被訓(xùn)練權(quán)重加權(quán)的訓(xùn)練樣本進(jìn)行循環(huán)訓(xùn)練,其中,在所述循環(huán)訓(xùn)練過程中的每次循環(huán)之后,得到用于與所述進(jìn)行訓(xùn)練的訓(xùn)練樣本對應(yīng)的類的弱分類器,將在已經(jīng)完成的訓(xùn)練循環(huán)得到的弱分類器組合為強(qiáng)分類器,并測試所述強(qiáng)分類器的性能以確定是否存在性能達(dá)到或超過所述性能目標(biāo)閾值而完成訓(xùn)練的類,對于完成訓(xùn)練的類,從訓(xùn)練數(shù)據(jù)中去除完成訓(xùn)練的類的訓(xùn)練樣本;對于沒有完成訓(xùn)練的類,則根據(jù)Boosting方法調(diào)整其訓(xùn)練樣本的基礎(chǔ)權(quán)重,并根據(jù)其性能調(diào)整其類權(quán)重,以使在本次以及最近的循環(huán)中或僅在本次循環(huán)中性能差的類的訓(xùn)練樣本在下次循環(huán)中的訓(xùn)練權(quán)重增大;(4)將在步驟(3)訓(xùn)練得到的所有弱分類器組合為多類Boosting分類器。
2、 如權(quán)利要求l所述的方法,其中,根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整 其類權(quán)重步驟還包括增大在本次循環(huán)中性能最差的類的類權(quán)重;如果一個類在上一次循環(huán)中的性能最差,而在本次循環(huán)中的性能不是最 差的,則減小所述類的類權(quán)重。
3、 如權(quán)利要求2所述的方法,其中,所述每個類的類權(quán)重是通過對每個 類的基礎(chǔ)類權(quán)重進(jìn)行歸一化得到的,所述基礎(chǔ)類權(quán)重根據(jù)下面的等式而得到其中,Z是訓(xùn)練循環(huán)序號,/是類序號,F(xiàn)^ ,,,.是在第,次循環(huán)訓(xùn)練得到的強(qiáng) 分類器對第/類進(jìn)行分類的虛警率,w是對應(yīng)于整個訓(xùn)練過程的全局變量,根 據(jù)各個類的性能而動態(tài)地改變。
4、 如權(quán)利要求3所述的方法,其中,對每個類的基礎(chǔ)類權(quán)重進(jìn)行歸一化 而得到每個類的類權(quán)重的步驟包括在每次循環(huán)后基于還沒有完成訓(xùn)練的類的基礎(chǔ)類權(quán)重,通過下式來進(jìn)行所述歸一化:<formula>formula see original document page 3</formula>其中,2>"表示在第,次循環(huán)后還沒有完成訓(xùn)練的類的基礎(chǔ)類權(quán)重之和。
5、 '如權(quán)利要求4所述的方法,其中, w在步驟(2)中一皮初始化為0;如果第/類的性能在第f-l次循環(huán)最差,并且在第,次循環(huán)的性能最差, 則w增大預(yù)定值;如果第,'類的性能在第次循環(huán)最差,在第/次循環(huán)不是最差的,則w 減小預(yù)定值。
6、 如權(quán)利要求5所述的方法,其中,通過下面的等式計(jì)算樣本在第&1 次循環(huán)的訓(xùn)練權(quán)重其中,是屬于第/類的訓(xùn)練樣本s在第'次循環(huán)的樣本權(quán)重。
7、 如權(quán)利要求6所述的方法,其中,通過下面的等式來計(jì)算訓(xùn)練樣本 在第f次循環(huán)的樣本權(quán)重w;W:其中,w,-,(力是第(/-1 )次循環(huán)中樣本s的訓(xùn)練權(quán)重,y("是樣本s的類別真 值,W力是在第f次循環(huán)中訓(xùn)練得到的弱分類器的分類結(jié)果,z是歸一化系數(shù)。
8、 如權(quán)利要求l所述的方法,其中,根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整 其類權(quán)重步驟還包括減小在本次循環(huán)中性能最好的類的類權(quán)重;如果一個類在上一次循環(huán)中的性能最好,而在本次循環(huán)中的性能不是最 好的,則增大所述類的類權(quán)重。
9、 如權(quán)利要求l所述的方法,其中,根據(jù)沒有完成訓(xùn)練的類的性能調(diào)整 其類權(quán)重步驟還包括減小在本次循環(huán)中性能最好的類的類權(quán)重。
10、 如權(quán)利要求l所述的方法,其中,根據(jù)沒有完成訓(xùn)練的類的性能調(diào) 整其類權(quán)重步驟還包括增大在本次循環(huán)中性能最差的類的類權(quán)重。
全文摘要
一種訓(xùn)練多類Boosting分類器的方法,在訓(xùn)練過程中的每次循環(huán)之后并在下一次循環(huán)開始之前,為訓(xùn)練數(shù)據(jù)中的每個訓(xùn)練樣本的樣本權(quán)重分配一個與訓(xùn)練樣本所屬的類對應(yīng)的類權(quán)重,即,樣本權(quán)重和類權(quán)重構(gòu)成訓(xùn)練樣本在每個訓(xùn)練循環(huán)中的訓(xùn)練權(quán)重。每個類對應(yīng)的類權(quán)重根據(jù)在本次以及最近的循環(huán)訓(xùn)練得到的強(qiáng)分類器對于該類的性能而動態(tài)地變化,以使性能差的類的訓(xùn)練樣本在下次循環(huán)中的訓(xùn)練權(quán)重增大,從而性能好的類在下次循環(huán)中的訓(xùn)練權(quán)重減小,使各個類的性能盡可能在相同的循環(huán)中達(dá)到性能目標(biāo)閾值而完成訓(xùn)練,從而最終使得性能最差的類所需的弱分類器的數(shù)量減小,同時對不同的類進(jìn)行分類所需的弱分類器的數(shù)量基本相同。
文檔編號G06K9/62GK101464954SQ200710159768
公開日2009年6月24日 申請日期2007年12月21日 優(yōu)先權(quán)日2007年12月21日
發(fā)明者任海兵, 李宗河, 金培亭 申請人:三星電子株式會社;北京三星通信技術(shù)研究有限公司