用于轉(zhuǎn)導(dǎo)數(shù)據(jù)分類的方法和系統(tǒng)以及使用機(jī)器學(xué)習(xí)方法的數(shù)據(jù)分類方法

文檔序號：6618596閱讀：418來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于轉(zhuǎn)導(dǎo)數(shù)據(jù)分類的方法和系統(tǒng)以及使用機(jī)器學(xué)習(xí)方法的數(shù)據(jù)分類方法
技術(shù)領(lǐng)域：
本發(fā)明主要涉及用于數(shù)據(jù)分類的方法和裝置。具體地，本發(fā)明提供了改進(jìn)的轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)方法。本發(fā)明還涉及使用機(jī)器學(xué)習(xí)方法的新的應(yīng)用。

背景技術(shù)：
在信息時(shí)代、以及近期各行各業(yè)(包括，特別是，掃描文件、網(wǎng)上資料、搜索引擎數(shù)據(jù)、文本數(shù)據(jù)、圖像、音頻數(shù)據(jù)文件，等等)電子數(shù)據(jù)的大爆炸，如何處理數(shù)據(jù)已經(jīng)變得非常重要。
剛剛開始探索的一個(gè)領(lǐng)域是非人工數(shù)據(jù)分類。在許多分類方法中，機(jī)器或計(jì)算機(jī)必須依據(jù)人工輸入以及建立的規(guī)則設(shè)置和/或人工建立的訓(xùn)練樣例學(xué)習(xí)。在使用訓(xùn)練樣例的機(jī)器學(xué)習(xí)中，學(xué)習(xí)樣例的數(shù)量通常比所需估算的參數(shù)數(shù)量小，即，滿足由訓(xùn)練樣例所給定的限制條件的解的數(shù)量更大。機(jī)器學(xué)習(xí)的一項(xiàng)挑戰(zhàn)在于去發(fā)現(xiàn)一種不管欠缺限定仍歸納完好的解決方案。因此需要克服這些和/或其它現(xiàn)有技術(shù)的問題。
還進(jìn)一步需要各種類型的機(jī)器學(xué)習(xí)方法的實(shí)際應(yīng)用。

發(fā)明內(nèi)容
在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中，根據(jù)本發(fā)明的一個(gè)實(shí)施例，一種用于數(shù)據(jù)分類的方法，包括接收有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；接收無標(biāo)記數(shù)據(jù)點(diǎn)；接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；通過迭代計(jì)算，使用所述至少一個(gè)成本因子，以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，使用最大熵判別(MED)，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記的先驗(yàn)概率；將訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；并將所述分類的數(shù)據(jù)點(diǎn)或其衍生物的類別輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于數(shù)據(jù)分類的方法，包括向計(jì)算機(jī)系統(tǒng)提供需要使用的可執(zhí)行程序代碼，并在計(jì)算機(jī)系統(tǒng)上執(zhí)行，所述程序代碼包括多個(gè)指令，用于訪問存儲在計(jì)算機(jī)存儲器的有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；從計(jì)算機(jī)存儲器訪問無標(biāo)記的數(shù)據(jù)點(diǎn)；從計(jì)算機(jī)存儲器訪問所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；通過迭代計(jì)算，使用所述至少一個(gè)成本因子，以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，訓(xùn)練一個(gè)最大熵判別(MED)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記的先驗(yàn)概率；將訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；并將所述分類的數(shù)據(jù)點(diǎn)或其衍生物的類別輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種數(shù)據(jù)處理裝置，包括至少一個(gè)存儲器，用于存儲(i)有標(biāo)記數(shù)據(jù)點(diǎn)，所述每一個(gè)有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；(ii)無標(biāo)記數(shù)據(jù)點(diǎn)；和(iii)所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；以及一個(gè)轉(zhuǎn)導(dǎo)分類器訓(xùn)練器，以使用所述至少一個(gè)存儲的成本因子，以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，使用轉(zhuǎn)導(dǎo)的最大熵判別(MED)，循環(huán)地訓(xùn)練轉(zhuǎn)導(dǎo)分類器，其中，對于每一次MED迭代計(jì)算，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記的先驗(yàn)概率；其中，由轉(zhuǎn)導(dǎo)分類器訓(xùn)練器訓(xùn)練的分類器用于分類無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；其中，所述分類的數(shù)據(jù)點(diǎn)或其衍生物的類別，被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種制品，包括一個(gè)計(jì)算機(jī)可讀的程序存儲介質(zhì)，該介質(zhì)確切地包含有一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行的指令程序，以執(zhí)行一種數(shù)據(jù)分類的方法，包括接收有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；接收無標(biāo)記數(shù)據(jù)點(diǎn)；接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；使用所述至少一個(gè)存儲的成本因子，以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，利用迭代的最大熵判別(MED)計(jì)算，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，在每一次MED迭代計(jì)算中，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；將訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；并將分類的數(shù)據(jù)點(diǎn)或其衍生物的類別輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中，根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種無標(biāo)記數(shù)據(jù)的分類方法，包括接收有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；接收有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)；接收有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)標(biāo)記概率信息；接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；根據(jù)所述數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率，確定每一個(gè)有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的期望的標(biāo)記；重復(fù)下面的子步驟，直至數(shù)據(jù)值足夠收斂。
·為每一個(gè)與數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例的無標(biāo)記數(shù)據(jù)點(diǎn)生成一個(gè)調(diào)節(jié)的成本值； ·通過確定判定函數(shù)，給定被納入訓(xùn)練和被排除訓(xùn)練的樣例，使用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，訓(xùn)練一個(gè)分類器，根據(jù)它們的期望標(biāo)記，該判定函數(shù)將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布； ·使用所述訓(xùn)練的分類器，確定所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的分類分值； ·將訓(xùn)練的分類器的輸出校準(zhǔn)為組成員概率； ·根據(jù)所述確定的組成員概率，更新所述無標(biāo)記數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率； ·利用所述更新的標(biāo)記先驗(yàn)概率和之前確定的分類分值，使用最大熵判別(MED)，確定所述標(biāo)記和界限概率分布； ·使用之前確定的標(biāo)記概率分布，計(jì)算新的期望標(biāo)記；和 ·通過將之前迭代的所述期望標(biāo)記插入所述新的期望標(biāo)記，為每一個(gè)數(shù)據(jù)點(diǎn)更新期望標(biāo)記。
輸入數(shù)據(jù)點(diǎn)或其衍生物的一個(gè)分類被輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種文件分類方法，包括接收至少一個(gè)有標(biāo)記的種子文件，其具有標(biāo)記分配的已知置信級別；接收無標(biāo)記文件；接收至少一個(gè)預(yù)設(shè)的成本因子；使用所述至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子文件、以及所述無標(biāo)記文件，通過迭代計(jì)算訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)；在至少部分迭代之后，為所述無標(biāo)記文件存儲置信分值；以及將具有最高置信分值的無標(biāo)記文件的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于分析與法律查詢相關(guān)的文件的方法，包括接收與法律事件相關(guān)的文件；對所述文件執(zhí)行一種文件分類方法；以及基于其分類，輸出至少部分文件的標(biāo)識符。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種清理數(shù)據(jù)的方法，包括接收多個(gè)有標(biāo)記的數(shù)據(jù)項(xiàng)；為多個(gè)類別的每一個(gè)選取所述數(shù)據(jù)項(xiàng)的子集；在每一個(gè)子集中，將所述數(shù)據(jù)項(xiàng)的偏差設(shè)置成約為零；將不在所述子集中的數(shù)據(jù)項(xiàng)的偏差設(shè)置成一個(gè)不為約零的預(yù)設(shè)值；使用所述偏差、所述子集中的數(shù)據(jù)項(xiàng)、以及所述不在子集中的數(shù)據(jù)項(xiàng)作為訓(xùn)練樣例，通過迭代計(jì)算訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器；將所述訓(xùn)練的分類器應(yīng)用于所述每一個(gè)有標(biāo)記的數(shù)據(jù)項(xiàng)，以分類所述每一個(gè)數(shù)據(jù)項(xiàng)；以及將所述輸入數(shù)據(jù)項(xiàng)或其衍生物的分類輸出給一個(gè)用戶、另一系統(tǒng)、另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于核對發(fā)票與實(shí)體的關(guān)聯(lián)性的方法，包括基于與第一個(gè)實(shí)體相關(guān)的發(fā)票格式訓(xùn)練一個(gè)分類器；訪問多張被標(biāo)記為與所述第一實(shí)體和其它實(shí)體中的至少一個(gè)相關(guān)的發(fā)票；使用所述分類器對發(fā)票執(zhí)行一種文件分類方法；以及輸出至少一張發(fā)票的標(biāo)識符，該發(fā)票具有較高的概率與所述第一個(gè)實(shí)體不相關(guān)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于管理病歷的方法，包括基于醫(yī)療診斷訓(xùn)練一個(gè)分類器；訪問多個(gè)病歷；使用所述分類器對所述病歷執(zhí)行一種文件分類方法；以及輸出至少一個(gè)病歷的標(biāo)識符，該病歷具有較低的概率與所述醫(yī)療診斷相關(guān)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于人臉識別的方法，包括接收至少一個(gè)人臉的有標(biāo)記種子圖像，所述種子圖像具有一個(gè)已知的置信級別；接收無標(biāo)記圖像；接收至少一個(gè)預(yù)設(shè)的成本因子；通過迭代計(jì)算，使用所述至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子圖像、以及所述無標(biāo)記的圖像，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望的標(biāo)記值的函數(shù)；在至少部分迭代之后，為所述無標(biāo)記種子圖像存儲一個(gè)置信分值；以及將具有最高置信分值的無標(biāo)記圖像的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于分析現(xiàn)有技術(shù)文件的方法，包括基于一個(gè)搜索查詢訓(xùn)練一個(gè)分類器；訪問多個(gè)現(xiàn)有技術(shù)文件；使用所述分類器對至少部分所述現(xiàn)有技術(shù)文件執(zhí)行一種文件分類方法；以及基于其分類，輸出至少部分所述現(xiàn)有技術(shù)文件的標(biāo)識符。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種使專利分類適應(yīng)文件內(nèi)容變動的方法，包括接收至少一個(gè)有標(biāo)記的種子文件；接收無標(biāo)記的文件；使用所述至少一個(gè)種子文件和所述無標(biāo)記文件訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器；使用所述分類器，將具有一個(gè)高于預(yù)設(shè)閾值的置信級別的無標(biāo)記文件歸類到多個(gè)現(xiàn)有的類別；使用所述分類器，將具有一個(gè)低于預(yù)設(shè)閾值的置信級別的無標(biāo)記文件歸類到至少一個(gè)新的類別；使用分類器，將至少部分所述已分類的文件重新歸類到所述現(xiàn)有的類別和所述至少一個(gè)新的類別；以及將所述已分類文件的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種用于將文件與權(quán)利要求匹配的方法，包括基于一件專利或?qū)＠暾埖闹辽僖豁?xiàng)權(quán)利要求訓(xùn)練一個(gè)分類器；訪問多個(gè)文件；使用所述分類器對至少部分所述文件執(zhí)行一種文件分類方法；以及基于其分類，輸出至少部分所述文件的標(biāo)識符。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種專利或?qū)＠暾埖姆诸惙椒?，包括基于多個(gè)已知屬于一個(gè)特定專利分類的文件訓(xùn)練一個(gè)分類器；接收一件專利或?qū)＠暾埖闹辽僖徊糠?；使用所述分類器對所述專利或?qū)＠暾埖乃鲋辽僖徊糠謭?zhí)行一種文件分類方法；以及輸出所述專利或?qū)＠暾埖姆诸悾渲?，所述文件分類方法是一個(gè)是/否分類方法。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種適應(yīng)文件內(nèi)容變動的方法，包括接收至少一個(gè)有標(biāo)記種子文件；接收無標(biāo)記文件；接收至少一個(gè)預(yù)設(shè)的成本因子；使用所述至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子文件、以及所述無標(biāo)記文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器；使用所述分類器，將具有高于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件歸類到多個(gè)類別；使用所述分類器，將至少部分所述分類的文件重新歸類到多個(gè)類別；以及將所述已分類文件的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種分離文件的方法，包括接收有標(biāo)記的數(shù)據(jù)；接收一組無標(biāo)記文件；基于所述有標(biāo)記的數(shù)據(jù)和無標(biāo)記文件，使用轉(zhuǎn)導(dǎo)改寫概率分類規(guī)則；根據(jù)所述概率分類規(guī)則，更新用于文件分離的權(quán)重；確定所述一組文件中分離的位置；將所述確定的分離位置的指示符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)；以及給文件打上代碼，該代碼與所述指示符相關(guān)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，一種文件搜索的方法，包括接收一個(gè)搜索查詢；基于所述搜索查詢檢索文件；輸出所述文件；為至少部分所述文件接收用戶鍵入的標(biāo)記，所述標(biāo)記指示所述文件與所述搜索查詢之間的相關(guān)性；基于所述搜索查詢和用戶鍵入的標(biāo)記訓(xùn)練一個(gè)分類器；使用所述分類器對所述文件執(zhí)行一個(gè)文件分類方法，以對所述文件重新分類；以及基于其分類，輸出至少部分所述文件的標(biāo)識符。

圖1為期望標(biāo)記作為分類分值的一個(gè)函數(shù)的曲線圖，該分類分值通過使用適用于標(biāo)記歸納的MED判別學(xué)習(xí)而獲得。
圖2為一組由轉(zhuǎn)導(dǎo)MED學(xué)習(xí)獲得的判定函數(shù)的迭代計(jì)算的示意圖。
圖3為一組根據(jù)本發(fā)明一個(gè)實(shí)施例的由改進(jìn)的轉(zhuǎn)導(dǎo)MED學(xué)習(xí)獲得的判定函數(shù)的迭代計(jì)算的示意圖。
圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例，使用一個(gè)調(diào)節(jié)的成本因子，一個(gè)用于分類無標(biāo)記數(shù)據(jù)的控制流程圖。
圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例，使用用戶定義的先驗(yàn)概率信息，一個(gè)用于分類無標(biāo)記數(shù)據(jù)的流程控制圖。
圖6為根據(jù)本發(fā)明一個(gè)實(shí)施例，利用調(diào)節(jié)的成本因子和先驗(yàn)概率信息，使用最大熵判別，一個(gè)用于分類無標(biāo)記數(shù)據(jù)的詳細(xì)控制流程圖。
圖7為顯示實(shí)施此處描述的不同實(shí)施例的網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)圖。
圖8為一個(gè)有代表性的，與用戶設(shè)備相關(guān)的硬件環(huán)境的系統(tǒng)框圖。
圖9為代表本發(fā)明的一個(gè)實(shí)施例的裝置的框圖。
圖10為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖11為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖12為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖13為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖14為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖15為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖16為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖17為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖18為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖19為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖19為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖20為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖21為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖22為本發(fā)明一個(gè)實(shí)施例的方法，用于一個(gè)第一文件分類系統(tǒng)的控制流程圖。
圖23為本發(fā)明一個(gè)實(shí)施例的方法，用于一個(gè)第二文件分類系統(tǒng)的控制流程圖。
圖24為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖25為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖26為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖27為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖28為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖29為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。

具體實(shí)施例方式 下列的描述是目前預(yù)期的實(shí)現(xiàn)本發(fā)明的最佳方法，該描述的目的是為了說明本發(fā)明的一般原理，并不意味著限制此處所述的本發(fā)明的內(nèi)容。而且，此處所描述的特定特征可與各種不同可能的組合和排列中的每一個(gè)其它描述的特征相結(jié)合。
除非另在此處特別定義，所有術(shù)語都給予其最廣的可能的解釋，包括從說明書中暗示的意思，和本領(lǐng)域技術(shù)人員理解的意思，以及如字典、論文等所定義的意思。
文本分類文本數(shù)據(jù)分類的好處和需求已非常巨大，并且已經(jīng)有多種分類方法被使用。下面討論用于文本數(shù)據(jù)的分類方法為增加其效用和智能，要求諸如計(jì)算機(jī)之類的機(jī)器能夠分類(或識別)一個(gè)不斷擴(kuò)大的范圍內(nèi)的對象。例如，計(jì)算機(jī)可使用光學(xué)字符識別來分類手寫或掃描的數(shù)字和文字，使用圖案識別來分類圖像，如人臉、指紋、戰(zhàn)斗機(jī)等等，或者使用語音識別來分類聲音、語音等等。
機(jī)器還被要求能夠分類文本信息對象，例如文本計(jì)算機(jī)文件或文檔。文本分類的應(yīng)用是多樣且重要的。例如，文本分類可用于管理文本信息對象以將其歸入一個(gè)預(yù)定的類別或分類的層次結(jié)構(gòu)。這樣，發(fā)現(xiàn)(或找到)與特定主題有關(guān)的文本信息對象就被簡化了。文本分類可用于將適當(dāng)?shù)奈谋拘畔ο舐酚芍吝m當(dāng)?shù)娜巳夯虻攸c(diǎn)。這樣，信息服務(wù)可將涉及各種主題(如，商務(wù)、體育、股票市場、足球、特定公司、特定足球隊(duì))的文本信息對象路由至具有不同興趣的人群。文本分類可用于過濾文本信息對象，以使個(gè)人免受不需要的文本內(nèi)容(如不需要和未經(jīng)請求的電子郵件，也稱為垃圾電子郵件，或“垃圾”)的侵?jǐn)_。正如從這些示例中可以得知的那樣，文本分類具有多種激動人心和重要的應(yīng)用。
基于規(guī)則的分類在某些實(shí)例中，必須基于某種公認(rèn)的邏輯，利用絕對確定性對文件內(nèi)容進(jìn)行分類。一個(gè)基于規(guī)則的系統(tǒng)可用于實(shí)現(xiàn)此類分類?；旧?，基于規(guī)則的系統(tǒng)使用產(chǎn)生式規(guī)則的形式 IF條件，THEN事實(shí)。
所述條件可以包括文本信息是否包括某些單詞或短語，具有特定的語法，或具有特定的屬性。例如，如果文本內(nèi)容具有單詞“收盤”，短語“納斯達(dá)克”和數(shù)字，則將其分類為“股票市場”文本。
在過去的約10年里，其它類型的分類器已被逐漸地使用。盡管這類分類器不像基于規(guī)則的分類器那樣使用靜態(tài)、預(yù)定的邏輯，但是在許多應(yīng)用中，它們優(yōu)于基于規(guī)則的分類器。這類分類器通常包括一個(gè)學(xué)習(xí)元件和一個(gè)執(zhí)行元件。這類分類器包括神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、以及支持向量機(jī)。盡管每個(gè)這類分類器都已熟知，但為了方便讀者，下面簡要介紹各種分類器。
具有學(xué)習(xí)和執(zhí)行元件的分類器正如上節(jié)的末尾所提到的那樣，在許多應(yīng)用中，具有學(xué)習(xí)和執(zhí)行元件的分類器優(yōu)于基于規(guī)則的分類器。再次重申，這些分類器可以包括神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和支持向量機(jī)。
神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)基本上是相同處理元件(也稱為神經(jīng)元)的多層、層次排列。各神經(jīng)元可具有一個(gè)或多個(gè)輸入，但只有一個(gè)輸出。通過一個(gè)系數(shù)對各神經(jīng)元輸入進(jìn)行加權(quán)。神經(jīng)元的輸出通常是其加權(quán)輸入和偏差值之和的一個(gè)函數(shù)。這個(gè)函數(shù)，也稱為激活函數(shù)，通常是一個(gè)S形函數(shù)。即，該激活函數(shù)可以是S形單調(diào)遞增，且當(dāng)其(多個(gè))輸入分別接近正負(fù)無窮大時(shí)，漸進(jìn)逼近固定值(如+1，0，—1)。S形函數(shù)和單個(gè)神經(jīng)的權(quán)重和偏差值確定神經(jīng)元對輸入信號的響應(yīng)或“興奮性”。
在神經(jīng)元的層次排列中，一層內(nèi)的神經(jīng)元的輸出可分配作為下一層內(nèi)一個(gè)或多個(gè)神經(jīng)元的輸入。典型的神經(jīng)網(wǎng)絡(luò)可包括一個(gè)輸入層和兩(2)個(gè)不同層；即，一個(gè)輸入層，一個(gè)中間神經(jīng)元層，和一個(gè)輸出神經(jīng)元層。請注意，所述輸入層的節(jié)點(diǎn)不是神經(jīng)元。更確切地講，輸入層的節(jié)點(diǎn)僅有一個(gè)輸入，并主要提供未處理的輸入給下一層的輸入。如果，例如神經(jīng)網(wǎng)絡(luò)將被用于識別在20×15像素陣列中的一個(gè)數(shù)字字符，該輸入層可以具有300個(gè)神經(jīng)元(即輸入的每一個(gè)像素)，且輸出陣列可以具有10個(gè)神經(jīng)元(即10個(gè)數(shù)字中的每一個(gè))。
神經(jīng)網(wǎng)絡(luò)的使用一般包括兩(2)個(gè)連續(xù)的步驟。第一，初始化神經(jīng)網(wǎng)絡(luò)，并根據(jù)具有已知輸出值(或分類)的已知輸入訓(xùn)練該網(wǎng)絡(luò)。一旦神經(jīng)網(wǎng)絡(luò)被訓(xùn)練，它就能用于分類未知的輸入。通過將神經(jīng)元的權(quán)重和偏差設(shè)置為隨機(jī)值(通常由一個(gè)高斯分布生成)，神經(jīng)網(wǎng)絡(luò)可被初始化。然后使用一連串的具有已知輸出(或分類)的輸入，訓(xùn)練該神經(jīng)網(wǎng)絡(luò)。在將訓(xùn)練輸入提供給神經(jīng)網(wǎng)絡(luò)時(shí)，調(diào)整(例如根據(jù)已知的反向傳播技術(shù))神經(jīng)權(quán)重和偏差值，以使每一個(gè)單一訓(xùn)練模式的神經(jīng)網(wǎng)絡(luò)的輸出逼近或匹配該已知輸出?；旧希瑱?quán)重空間的梯度下降被用于最小化輸出誤差。這樣，使用連續(xù)訓(xùn)練輸入的學(xué)習(xí)，朝著權(quán)重和偏差的局部最優(yōu)解收斂。即，權(quán)重和偏差被調(diào)整至最小誤差。
實(shí)際操作中，通常并不將該系統(tǒng)訓(xùn)練成收斂到最優(yōu)解的某一點(diǎn)。相反，系統(tǒng)將被“過度訓(xùn)練”，致使其對于訓(xùn)練數(shù)據(jù)過于專業(yè)，且可能不善于分類與訓(xùn)練集有些不同的輸入。因此，在其訓(xùn)練的不同時(shí)期，在一組驗(yàn)證數(shù)據(jù)上對該系統(tǒng)進(jìn)行試驗(yàn)。當(dāng)系統(tǒng)的性能在驗(yàn)證集上不再改進(jìn)時(shí)，訓(xùn)練停止。
一旦訓(xùn)練完成，就可使用該神經(jīng)網(wǎng)絡(luò)，根據(jù)在訓(xùn)練期間確定的權(quán)重和偏差，分類未知輸入。如果該神經(jīng)網(wǎng)絡(luò)能有把握地分類未知輸入，某個(gè)輸出層中的神經(jīng)元的一個(gè)輸出將會遠(yuǎn)高于其它輸出。
貝葉斯網(wǎng)絡(luò) 通常，貝葉斯網(wǎng)絡(luò)使用假設(shè)，作為數(shù)據(jù)(如，輸入特征向量)和預(yù)測(如，分類)之間的媒介。對于給定的數(shù)據(jù)(“P(假設(shè)|數(shù)據(jù))”)，每一個(gè)假設(shè)的概率可以被估算。使用假設(shè)的后驗(yàn)概率，從所述假設(shè)獲得預(yù)測，以對每一個(gè)假設(shè)的單個(gè)預(yù)測進(jìn)行加權(quán)。給定數(shù)據(jù)D，預(yù)測X的概率可以表示為其中，Hi為第i個(gè)假設(shè)。最大化給定D(P(Hi|D))的Hi的概率的最大可能性的假設(shè)Hi被稱為最大后驗(yàn)假設(shè)(或“HMAP”)，且可表示為 P(X|D)～P(X|HMAP) 使用貝葉斯法則，給定數(shù)據(jù)D，假設(shè)Hi的概率可表示為數(shù)據(jù)D的概率保持不變。因此，為找到HMAP，必須最大化分子。
分子的第一項(xiàng)表示給定假設(shè)i，可能觀察到該數(shù)據(jù)的概率。分子的第二項(xiàng)表示分配給所述給定假設(shè)i的先驗(yàn)概率。
貝葉斯網(wǎng)絡(luò)包括變量和變量之間的有向邊，由此定義一個(gè)有向無環(huán)圖(即“DAG”)。每一個(gè)變量可假設(shè)為有限數(shù)量的互斥狀態(tài)中的任意值。對于每一個(gè)變量A，其具有母變量B1…Bn，有一個(gè)附屬概率表(P(A|B1…Bn)。貝葉斯網(wǎng)絡(luò)的所述結(jié)構(gòu)編碼了所述假設(shè)，給定其母變量，每一個(gè)變量有條件地獨(dú)立于其非子變量。
假設(shè)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)已知，且變量可觀察，則只需學(xué)習(xí)條件概率列表集合。直接使用來自一組學(xué)習(xí)樣例的統(tǒng)計(jì)，可估算這些列表。如果該結(jié)構(gòu)已知，而某些變量是隱藏的，則學(xué)習(xí)就類似于上述的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
下面介紹簡單的貝葉斯網(wǎng)絡(luò)的示例。變量“MML”可代表“我的草坪的濕度”(moisture of my lawn)，且可以具有狀態(tài)“濕”和“干”。MML變量可具有“下雨”和“我的灑水器打開”母變量，每一個(gè)都具有“是”和“否”狀態(tài)。另一個(gè)變量，“MNL”可代表“我的鄰居的草坪的濕度”，且可以具有狀態(tài)“濕”和“干”。MNL變量可共享“下雨”母變量。在本例中，預(yù)測可以是我的草坪是“濕”還是“干”。該預(yù)測可以基于假設(shè)(i)如果下雨，我的草坪將會濕的概率(x1)和假設(shè)(ii)如果我的灑水器打開，我的草坪將會濕的概率(x2)。下過雨的概率或我的灑水器打開的概率可取決于其它變量。例如，如果我的鄰居的草坪是濕的，而他們沒有灑水器，那很可能下過雨了。
如上所述，像神經(jīng)網(wǎng)絡(luò)的例子一樣，可訓(xùn)練貝葉斯網(wǎng)絡(luò)中的條件概率表。其優(yōu)點(diǎn)在于，通過允許提供先驗(yàn)知識，可縮短該學(xué)習(xí)過程。然而不幸的是，條件概率的先驗(yàn)概率常常是未知的，此時(shí)使用統(tǒng)一的先驗(yàn)概率。
本發(fā)明的一個(gè)實(shí)施例可執(zhí)行至少兩(2)個(gè)基本函數(shù)中的一(1)個(gè)，即生成分類器的參數(shù)，并分類對象，如文本信息對象。
基本上，基于一組訓(xùn)練樣例，為分類器生成參數(shù)?？梢詮囊唤M訓(xùn)練樣例生成一組特征向量。該組特征向量的特征可被簡化。將生成的參數(shù)可包括一個(gè)定義的單調(diào)(如S形)函數(shù)和一個(gè)權(quán)重向量。該權(quán)重向量可通過SVM訓(xùn)練的方式確定(或通過其它已知的技術(shù))?？赏ㄟ^最優(yōu)化方法確定該單調(diào)(如S形)函數(shù)。
文本分類器包括一個(gè)權(quán)重向量和一個(gè)定義的單調(diào)(如，S形)函數(shù)?；旧?，本發(fā)明的文本分類器的輸出可表示為其中 Oc＝類別c的分類輸出； wc＝與類別c相關(guān)的權(quán)重向量參數(shù)； x＝基于未知文本信息對象的(簡化的)特征向量； A和B是個(gè)單調(diào)(如，S形)函數(shù)的可調(diào)節(jié)參數(shù)；由表達(dá)式(2)計(jì)算輸出比由表達(dá)式(1)計(jì)算輸出快。
根據(jù)被分類對象的形式，分類器可以(i)將文本信息對象轉(zhuǎn)換為特征向量，和(ii)將特征向量簡化為具有較少元素的簡化特征向量。
轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí) 在商業(yè)上，現(xiàn)有技術(shù)中當(dāng)前使用的自動分類系統(tǒng)是基于規(guī)則或者利用歸納型機(jī)器學(xué)習(xí)，即，使用人工標(biāo)記訓(xùn)練樣例。相比于轉(zhuǎn)導(dǎo)方法，兩種方法通常都需要大量人工設(shè)置工作。由基于規(guī)則的系統(tǒng)或歸納型方法提供的解決方案是靜態(tài)解決方案，若沒有人工工作，它就不能適應(yīng)漂移分類概念。
歸納型機(jī)器學(xué)習(xí)用于將屬性或關(guān)系歸因于基于表征(即，基于一個(gè)或少數(shù)的觀察或經(jīng)驗(yàn))的類型；或基于有限的觀察重現(xiàn)模式來制定法則。歸納型機(jī)器學(xué)習(xí)包括從觀察到的訓(xùn)練案例中推理，以建立一般規(guī)則，該規(guī)則接著用于測試實(shí)例。
特殊地，優(yōu)選實(shí)施例使用轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)方法。轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)是一個(gè)有效的方法，可以避免這些缺陷。
轉(zhuǎn)導(dǎo)機(jī)器方法能夠從非常少的一組有標(biāo)記訓(xùn)練樣例中學(xué)習(xí)，自動適應(yīng)漂移分類概念，并自動糾正標(biāo)記的訓(xùn)練樣例。這些優(yōu)勢使得轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)成為一個(gè)有趣且有價(jià)值的方法，適合各種商業(yè)應(yīng)用。
轉(zhuǎn)導(dǎo)在數(shù)據(jù)中學(xué)習(xí)模式。通過不僅從有標(biāo)記數(shù)據(jù)而且從無標(biāo)記數(shù)據(jù)中學(xué)習(xí)，轉(zhuǎn)導(dǎo)擴(kuò)展了歸納型學(xué)習(xí)的概念。這使得轉(zhuǎn)導(dǎo)能夠?qū)W習(xí)并非從有標(biāo)記數(shù)據(jù)中捕獲或僅部分從有標(biāo)記數(shù)據(jù)中捕獲的模式。因此，相比基于規(guī)則的系統(tǒng)或基于歸納型學(xué)習(xí)的系統(tǒng)，轉(zhuǎn)導(dǎo)能夠適應(yīng)動態(tài)變化的環(huán)境。這個(gè)能力使得轉(zhuǎn)導(dǎo)能夠用于文件搜索、數(shù)據(jù)清理、尋址漂移分類概念等等。
下面描述利用支持向量機(jī)(SVM)分類以及最大熵判別(MED)框架的轉(zhuǎn)導(dǎo)分類的實(shí)施例。
支持向量機(jī) 支持向量機(jī)(SVM)是一種文本分類所采用的方法，通過使用正規(guī)化理論的概念對可能的解設(shè)置限制，該方法處理了大量解的問題，以及由此產(chǎn)生的泛化問題。例如，一個(gè)二元SVM分類器從所有準(zhǔn)確分隔訓(xùn)練數(shù)據(jù)的超平面中選取最大化界限的超平面作為解。最大界限正規(guī)化在訓(xùn)練數(shù)據(jù)被準(zhǔn)確地分類的限制條件下，滿足了前述在泛化和記憶之間選擇合適權(quán)衡的學(xué)習(xí)問題。對訓(xùn)練數(shù)據(jù)的限制記憶了數(shù)據(jù)，而正規(guī)化則保證了合適的泛化。歸納分類從具有已知標(biāo)記的訓(xùn)練樣例中學(xué)習(xí)，即，每個(gè)訓(xùn)練樣例的組成員是已知的。當(dāng)歸納分類從已知標(biāo)記中學(xué)習(xí)，轉(zhuǎn)導(dǎo)分類從有標(biāo)記以及無標(biāo)記數(shù)據(jù)中確定分類規(guī)則。一個(gè)轉(zhuǎn)導(dǎo)SVM分類的示例如表1所示。
轉(zhuǎn)導(dǎo)SVM分類的原理 RequireData matrix X of labeled training examples and their labels Y. RequireData matrix X′of the unlabeled training examples. RequireA list of all possible labels assignments of the unlabeled training examples
1MaximumMargin＝0 2

{Included label assignment of unlabeled training examples.} 3for all label assignments

in the list of label assignments do 4CurrentMaximumMargin＝MaximizeMargin(X，Y，X′，

) 5if CurrentMaximumMargin>MaximumMargin then 6 MaximumMargin＝CurrentMaximumMargin 7
8end if 9end for 表1 表1顯示了利用支持向量機(jī)的轉(zhuǎn)導(dǎo)分類的原理。解由超平面給出，該超平面針對無標(biāo)記數(shù)據(jù)的所有可能的標(biāo)記分配產(chǎn)生最大界限。所述可能的標(biāo)記分配隨著無標(biāo)記數(shù)據(jù)的數(shù)量呈指數(shù)增長，且對于實(shí)際上可用的方法，表1的算法必須被估算。該估算的例子在T.Joachims，Transductive inference for text classification using support vector machines，Technical report，Universitact Dortmund，LAS VIII，1999(Joachims)中有描述。
表1中對于標(biāo)記分配的均勻分布表示，一個(gè)無標(biāo)記數(shù)據(jù)點(diǎn)具有1/2的概率成為該組的正面樣例和具有1/2的概率成為負(fù)面樣例，即，y＝+1(正面樣例)和y＝—1(負(fù)面樣例)這兩種可能的標(biāo)記分配機(jī)會相等，且最終的期望標(biāo)記為0。為0的標(biāo)記期望可由一個(gè)等于1/2的固定的類別先驗(yàn)概率獲得，或由具有均勻先驗(yàn)分布的一個(gè)隨機(jī)變量的類別先驗(yàn)概率(即一個(gè)未知的類別先驗(yàn)概率)獲得。因此，在不等于1/2的已知類別先驗(yàn)概率的應(yīng)用中，通過結(jié)合該附加信息可改進(jìn)該算法。例如，不是使用表1中的標(biāo)記分配的均勻分布，而是根據(jù)類別先驗(yàn)概率，優(yōu)先選擇某些標(biāo)記分配，而不是其它標(biāo)記分配。然而，在較小卻具有較高標(biāo)記分配的界限解與較大但具有較低標(biāo)記分配的界限解之間作出權(quán)衡是困難的。標(biāo)記分配的概率和界限是不同尺度的。
最大熵判別另一種分類的方法，最大熵判別(MED)(參看，如，T.Jebara，Machine LearningDiscriminative and Generative，Kluwer Academic Publishers)(Jebara)沒有碰到與SVM相關(guān)的問題，因?yàn)榕卸ê瘮?shù)正規(guī)化項(xiàng)以及標(biāo)記分配正規(guī)化項(xiàng)都是來源于針對解的先驗(yàn)概率分布，因此都在相同的概率尺度上。因而，如果類別先驗(yàn)，以及由此的標(biāo)記先驗(yàn)已知時(shí)，轉(zhuǎn)導(dǎo)MED分類優(yōu)于轉(zhuǎn)導(dǎo)SVM分類，因?yàn)樗试S先驗(yàn)標(biāo)記知識以有原則的方式結(jié)合。
歸納MED分類假設(shè)一個(gè)判定函數(shù)參數(shù)的先驗(yàn)分布、一個(gè)偏差項(xiàng)的先驗(yàn)分布，和一個(gè)界限的先驗(yàn)分布。它選擇最接近于先驗(yàn)分布的那個(gè)分布作為這些參數(shù)的最終分布，并產(chǎn)生一個(gè)準(zhǔn)確地分類數(shù)據(jù)點(diǎn)的期望判定函數(shù)。
形式上，例如給定一個(gè)線性分類器，問題表述如下尋找超平面參數(shù)分布p(Θ)，偏差分布p(b)，數(shù)據(jù)點(diǎn)分類界限p(γ)，其聯(lián)合概率分布具有一個(gè)最小的庫爾貝克萊伯勒發(fā)散(Kullback Leibler divergence)KL賦予結(jié)合的各個(gè)先驗(yàn)分布p0，即受制于限制條件其中ΘXt是分隔超平面權(quán)重向量與第t個(gè)數(shù)據(jù)點(diǎn)的特征向量之間的點(diǎn)積。由于標(biāo)記分配yt為已知且固定，無需二元標(biāo)記分配的先驗(yàn)分布。因此，將歸納MED分類泛化為轉(zhuǎn)導(dǎo)MED分類的簡便方法，是將二元標(biāo)記分配作為受限于可能的標(biāo)記分配的先驗(yàn)分布參數(shù)來處理。轉(zhuǎn)導(dǎo)MED的例子如表2所示。
轉(zhuǎn)導(dǎo)MED分類 RequireData Matrix X of labeled and unlabeled training examples. RequireLabel prior probabilities p0(y)for labeled and unlabeled training examples. 1<Y>＝ExpectedLabel(p0(y)){Expected label determined from the training examples’label prior probabilities.} 2while-converged do 3W＝MinimizeKLDivergence(X，<Y>) 4Y′＝InduceLabels(W，X，p0(y)) 5<Y>＝∈<Y>+(1-∈)Y′ 6.end while 表2 對于有標(biāo)記數(shù)據(jù)，標(biāo)記先驗(yàn)分布是一個(gè)δ函數(shù)，因而能有效地確定標(biāo)記為+1或—1。對于無標(biāo)記數(shù)據(jù)，假設(shè)一個(gè)標(biāo)記先驗(yàn)概率p0(y)，分配給每一個(gè)無標(biāo)記數(shù)據(jù)點(diǎn)一個(gè)y＝+1的正標(biāo)記的概率為p0(y)，而一個(gè)y＝—1的負(fù)標(biāo)記的概率為1—p0(y)。假設(shè)一個(gè)非信息標(biāo)記先驗(yàn)(p0(y)＝1/2)，產(chǎn)生一個(gè)與上述轉(zhuǎn)導(dǎo)SVM分類類似的轉(zhuǎn)導(dǎo)MED分類。
如在轉(zhuǎn)導(dǎo)SVM分類的情況那樣，上述MED算法的實(shí)際可適用的實(shí)施方法必須估算對于全部可能的標(biāo)記分配的搜索。該方法在T.Jaakkola，M.Meila，and T.Jebara，Maximum entropy discrimination，Technical Report AITR-1668，Massachusetts Institute ofTechnology，Artificial Intelligence Laboratory，1999(Jaakkola)中有描述，其選擇一個(gè)近似值，將過程分解為兩個(gè)步驟，類似于一個(gè)期望值最大化(EM)公式。在該公式中，需要解決兩個(gè)問題。第一步，相當(dāng)于在EM算法中的M步驟，當(dāng)根據(jù)當(dāng)前標(biāo)記分配的最佳猜測，準(zhǔn)確地分類所有數(shù)據(jù)點(diǎn)時(shí)，類似于界限的最大值。第二步，相當(dāng)于E步驟，使用在M步驟中確定的分類結(jié)果，并為每一個(gè)樣例的組成員估算新的值。我們稱該第二步驟為標(biāo)記歸納。大致的描述如表2所示。
此處引用的Jakkola的方法的特殊實(shí)施方法，假設(shè)一個(gè)具有超平面參數(shù)的零平均值和單位方差的高斯函數(shù)，一個(gè)具有偏差參數(shù)的零平均值和方差

的高斯函數(shù)，公式exp[-c(1-γ)]的一個(gè)界限先驗(yàn)，其中γ為數(shù)據(jù)點(diǎn)的界限，c為成本因子，以及一個(gè)如上所述無標(biāo)記數(shù)據(jù)的二元標(biāo)記先驗(yàn)概率p0(y)。下面所討論的轉(zhuǎn)導(dǎo)分類算法Jaakkola，在此引用，由于簡易性和不喪失通用性的緣故，故假設(shè)1/2的標(biāo)記先驗(yàn)概率。
對于給定超平面參數(shù)的一個(gè)固定概率分布，標(biāo)記歸納步驟決定標(biāo)記概率分布。使用上述的界限和標(biāo)記先驗(yàn)，產(chǎn)生如下標(biāo)記歸納步驟的目標(biāo)函數(shù)(參看表2)
其中λt為第t個(gè)訓(xùn)練樣例拉格朗日乘子(Lagrange Multiplier)，st為在前述M步驟中確定的其分類分值，c為成本因子。訓(xùn)練樣例求和中的前兩項(xiàng)從界限先驗(yàn)分布中獲得，而第三項(xiàng)由標(biāo)記先驗(yàn)分布給定。通過最大化

，拉格朗日乘子被確定，并由此確定無標(biāo)記數(shù)據(jù)的標(biāo)記概率分布。如式3中可看出，數(shù)據(jù)點(diǎn)獨(dú)自作用于目標(biāo)函數(shù)，因此每一個(gè)拉格朗日乘子的確定與其它拉格朗日乘子無關(guān)。例如，為了最大化一個(gè)具有高絕對值的分類分值|st|的無標(biāo)記數(shù)據(jù)點(diǎn)的作用，需要一個(gè)小的拉格朗日乘子λt，而一個(gè)具有小的值|st|的無標(biāo)記數(shù)據(jù)點(diǎn)，則需利用一個(gè)大的拉格朗日乘子，最大化它對

的作用。另一方面，無標(biāo)記數(shù)據(jù)點(diǎn)的一個(gè)期望標(biāo)記<y>作為其分類分值s和拉格朗日乘子λ的函數(shù)表示為 <y>＝tanh(λs)(4) 圖1顯示了期望標(biāo)記<y>作為一個(gè)分類分值s的函數(shù)，其使用成本因子c＝5和c＝1.5。通過使用成本因子c＝5和c＝1.5求解公式3，確定用于產(chǎn)生圖1的拉格朗日乘子。由圖1可知，界限之外的無標(biāo)記數(shù)據(jù)點(diǎn)，即|s|>1，具有接近于0的期望標(biāo)記<y>，接近于界限的數(shù)據(jù)點(diǎn)，即|s|≈1，產(chǎn)生最高的絕對期望標(biāo)記值，以及接近于超平面的數(shù)據(jù)點(diǎn)，即|s|<∈，產(chǎn)生|<y>|<∈。當(dāng)|s|→∞，<y>→0的非直觀標(biāo)記分配的原因在于所決定的判別方法，該方法只要滿足分類限制，就試圖保持盡可能地接近先驗(yàn)分布。它不是一個(gè)由表2的已知方法所選擇的近似值的人工產(chǎn)物，即一個(gè)算法，該算法徹底地搜索所有可能的標(biāo)記分配，并由此確保找出全局最優(yōu)解，且同樣將接近或等于零的期望標(biāo)記分配給在界限之外的無標(biāo)記數(shù)據(jù)。再次重申，如上所述，那是判別觀點(diǎn)所期望的。在界限之外的數(shù)據(jù)點(diǎn)對于分隔樣例并不重要，因此所有這些數(shù)據(jù)點(diǎn)的單個(gè)概率分布回復(fù)到了它們的先驗(yàn)分布。
Jaakkola的轉(zhuǎn)導(dǎo)分類算法的M步驟，在此引用，確定了超平面參數(shù)的概率分布、偏差項(xiàng)、以及在限制的條件下最接近于各自的先驗(yàn)分布的數(shù)據(jù)點(diǎn)的界限，其中，st為第t個(gè)數(shù)據(jù)點(diǎn)分類分值，<yt>為其期望的標(biāo)記，<γt>為其期望的界限。對于有標(biāo)記數(shù)據(jù)，期望的標(biāo)記是固定的，為<y>＝+1或<y>＝—1。無標(biāo)記數(shù)據(jù)的期望標(biāo)記位于區(qū)間(—1，+1)之內(nèi)，且在標(biāo)記歸納步驟中被估算。根據(jù)公式5，由于分類分值由期望標(biāo)記決定，無標(biāo)記數(shù)據(jù)須滿足比有標(biāo)記數(shù)據(jù)更嚴(yán)格的分類限制。此外，給定期望標(biāo)記的關(guān)系式，作為分類分值的一個(gè)函數(shù)，參看圖1，接近于分隔超平面的無標(biāo)記數(shù)據(jù)具有最嚴(yán)格的分類限制，因?yàn)樗鼈兊姆种狄约捌谕麡?biāo)記的絕對值|<yt>|小。給定上述先驗(yàn)分布的M步驟的完全目標(biāo)函數(shù)為
第一項(xiàng)由高斯超平面參數(shù)先驗(yàn)分布獲得，第二項(xiàng)為界限先驗(yàn)正規(guī)化項(xiàng)，最后一項(xiàng)為偏差先驗(yàn)正規(guī)化項(xiàng)，由具有零平均值和方差

的高斯先驗(yàn)獲得。偏差項(xiàng)的先驗(yàn)分布可理解為一個(gè)類別先驗(yàn)概率的先驗(yàn)分布。因此，對應(yīng)于所述偏差先驗(yàn)分布的正規(guī)化項(xiàng)限制了正面樣例與負(fù)面樣例的權(quán)重。參看公式6，偏差項(xiàng)的作用被最小化，以防超平面上的正面樣例的集體拉動等于負(fù)面樣例的集體拉動。由于偏差先驗(yàn)，拉格朗日乘子的集體限制就由數(shù)據(jù)點(diǎn)的期望標(biāo)記加權(quán)，并因此無標(biāo)記數(shù)據(jù)比有標(biāo)記數(shù)據(jù)的限制更少。因而，無標(biāo)記數(shù)據(jù)具有比有標(biāo)記數(shù)據(jù)更強(qiáng)的影響最終解的能力。
總之，在Jaakkola的轉(zhuǎn)導(dǎo)分類算法的M步驟，在此引用，無標(biāo)記數(shù)據(jù)需要比有標(biāo)記數(shù)據(jù)滿足更嚴(yán)格的分類限制，且它們對于解的累積權(quán)重比有標(biāo)記數(shù)據(jù)的限制更少。另外，具有一個(gè)接近于零的期望標(biāo)記的無標(biāo)記數(shù)據(jù)，位于當(dāng)前M步驟的界限之內(nèi)的，對解的影響最大。這樣，如圖2所示，通過將該算法應(yīng)用于數(shù)據(jù)集，可以圖解說明公式化E和M步驟的凈效應(yīng)。數(shù)據(jù)集包括兩個(gè)有標(biāo)記樣例，一個(gè)位于x位置—1的負(fù)面樣例(x)，和一個(gè)+1的正面樣例(+)，以及沿x軸、位于—1與+1之間的六個(gè)無標(biāo)記樣例(o)。叉(x)表示一個(gè)有標(biāo)記負(fù)面樣例，加號(+)表示一個(gè)有標(biāo)記正面樣例，以及圓圈(o)表示無標(biāo)記數(shù)據(jù)。不同的圖表示分隔的超平面，由M步驟的不同的迭代決定。最終的解由Jaakkaola的轉(zhuǎn)導(dǎo)MED分類器決定，在此引用，正面有標(biāo)記訓(xùn)練樣例被錯(cuò)誤分類。圖2顯示了M步驟的多次迭代。在M步驟的第一次迭代，未考慮無標(biāo)記數(shù)據(jù)，且分隔的超平面位于x＝0。一個(gè)具有負(fù)x值的無標(biāo)記數(shù)據(jù)點(diǎn)比任何其它無標(biāo)記數(shù)據(jù)更接近于這個(gè)分隔的超平面。在隨后的標(biāo)記歸納步驟，它將被分配以最小的|<y>|，相應(yīng)地，在下一個(gè)M步驟，它具有最大的權(quán)限將超平面推向正面有標(biāo)記樣例。期望標(biāo)記<y>的特定形狀作為一個(gè)由選定的成本因子(參看圖1)確定的分類分值的函數(shù)，與無標(biāo)記數(shù)據(jù)點(diǎn)的特定間隔相結(jié)合產(chǎn)生了橋聯(lián)效應(yīng)，在每一個(gè)連續(xù)的M步驟，分隔的超平面越來越靠近正面樣例。直觀地講，M步驟遭受一種近視的困擾，最接近于當(dāng)前分隔超平面的無標(biāo)記數(shù)據(jù)點(diǎn)最能確定該平面的最終位置，而遠(yuǎn)離的數(shù)據(jù)點(diǎn)并不很重要。最終，由于偏差先驗(yàn)項(xiàng)限制了無標(biāo)記數(shù)據(jù)的集體拉動少于有標(biāo)記數(shù)據(jù)的集體拉動，因而分隔超平面移到超出正面標(biāo)記樣例，產(chǎn)生一個(gè)最終的解，圖2中的第15次迭代，其將正面標(biāo)記樣例進(jìn)行了錯(cuò)誤的分類。在圖2中使用了一個(gè)的偏差方差和一個(gè)c＝10的成本因子。利用任何在范圍9.8<c<13之內(nèi)的成本因子產(chǎn)生一個(gè)將某一正面標(biāo)記樣例進(jìn)行錯(cuò)誤的分類的最終超平面。而所有在區(qū)間9.8<c<13之外的成本因子，在兩個(gè)有標(biāo)記樣例之間的任何地方，產(chǎn)生分隔的超平面。
該算法的不穩(wěn)定性并不僅局限于圖2所示的樣例，當(dāng)應(yīng)用Jaakkola方法時(shí)，在此引用，還經(jīng)歷了局限于現(xiàn)實(shí)世界數(shù)據(jù)集，包括為本領(lǐng)域技術(shù)人員所熟知的路透社數(shù)據(jù)集。表2中所述的該方法的固有的不穩(wěn)定性為該實(shí)施方式的一個(gè)主要缺陷，且限制了其通用性，盡管Jaakkola方法可能在本發(fā)明的某些實(shí)施例中實(shí)施。
本發(fā)明一個(gè)優(yōu)選方法采用使用最大熵判別(MED)的框架的轉(zhuǎn)導(dǎo)分類。容易理解，本發(fā)明的不同實(shí)施例，適用于分類，也同樣適用于其它使用轉(zhuǎn)導(dǎo)的MED學(xué)習(xí)問題，包括，但不限于，轉(zhuǎn)導(dǎo)MED復(fù)原和圖像模式。
通過假設(shè)一個(gè)參數(shù)的先驗(yàn)概率分布，最大熵判別限制并減少可能的解。根據(jù)在期望的解準(zhǔn)確地描述訓(xùn)練數(shù)據(jù)的限制下，最接近于假設(shè)的先驗(yàn)概率分布的概率分布，最終解為所有可能解的期望值。所有解的先驗(yàn)概率分布映射到一個(gè)正規(guī)化項(xiàng)，即，選擇了一個(gè)特定的先驗(yàn)分布，就已經(jīng)選擇了一個(gè)特定的正規(guī)化。
由支持向量機(jī)實(shí)施的判別估計(jì)在從少量的樣例的學(xué)習(xí)中是有效的。本發(fā)明實(shí)施例的方法和裝置與支持向量機(jī)一樣都具有該特點(diǎn)，并且不會估算比解決給定的問題所必要的參數(shù)更多的參數(shù)，并因此產(chǎn)生一個(gè)稀疏解。與生成模式估算相比，生成模式估算試圖解釋基礎(chǔ)過程，通常需要比判別估算更高的統(tǒng)計(jì)。另一方面，生成模式更加靈活，故可用于各種各樣的問題。另外，生成模式估算能直接包括先驗(yàn)知識。通過使用最大熵判別，本發(fā)明實(shí)施例的方法和裝置縮短了純判別模式估算(如，支持向量機(jī)學(xué)習(xí))與生成模式估算之間的差距。
如表3中所示的本發(fā)明的實(shí)施例的方法是一個(gè)改進(jìn)的轉(zhuǎn)導(dǎo)MED分類算法，其不具有前述在Jaakkola(在此引用)的方法中所存在的不穩(wěn)定的問題。區(qū)別包括，但不限于，在本發(fā)明實(shí)施例中，每個(gè)數(shù)據(jù)點(diǎn)都具有其自身的成本因子，與其絕對標(biāo)記期望值|<y>|成比例。另外，根據(jù)估計(jì)組成員概率作為數(shù)據(jù)點(diǎn)到判定函數(shù)的距離的函數(shù)，在各M步驟之后，更新每一個(gè)數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率。本發(fā)明實(shí)施例的方法如以下表3所示改進(jìn)的轉(zhuǎn)導(dǎo)MED分類 RequireData matrix X of labeled and unlabeled training examples RequireLabel prior probabilities p0(y)for labeled and unlabeled training examples. RequireGlobal cost factor c. 1<Y>ExpectedLabel(p0(y)){Expected label determined from the training examples’label prior probabilities.} 2while-converged do 3C＝|<Y>|c{Scale each training example’s cost factor by the absolute value of its expected label.} 4 W＝MinimizeKLDivergence(X，<Y>，C) 5 p0(y)＝EstimateClassProbability(W，<Y>) 6 Y′＝InduceLabels(W，X，p0(y)，C) 7 <Y>＝∈<Y>+(1-∈)Y′ 8end while 表3 通過|<y>|調(diào)節(jié)數(shù)據(jù)點(diǎn)成本因子，緩和了無標(biāo)記數(shù)據(jù)對于超平面上的集體拖動的作用比有標(biāo)記數(shù)據(jù)更強(qiáng)的問題，因?yàn)楝F(xiàn)在無標(biāo)記數(shù)據(jù)的成本因子比有標(biāo)記數(shù)據(jù)的成本因子要小，也就是說，各無標(biāo)記數(shù)據(jù)點(diǎn)對于最終解的單獨(dú)作用總是小于有標(biāo)記數(shù)據(jù)點(diǎn)的單獨(dú)作用。然而，倘若無標(biāo)記數(shù)據(jù)的總量遠(yuǎn)大于有標(biāo)記數(shù)據(jù)的數(shù)量，無標(biāo)記數(shù)據(jù)仍然能比有標(biāo)記數(shù)據(jù)更多地影響最終解。另外，利用估算的類別概率，將成本因子調(diào)節(jié)與更新標(biāo)記先驗(yàn)概率結(jié)合，解決了上述橋聯(lián)效應(yīng)的問題。在第一個(gè)M步驟，無標(biāo)記數(shù)據(jù)具有小的成本因子，產(chǎn)生一個(gè)期望標(biāo)記，作為分類分值的函數(shù)，其相當(dāng)平坦(見圖1)，相應(yīng)地，在某種程度上，所有無標(biāo)記數(shù)據(jù)被允許繼續(xù)拉動超平面，雖然僅有較小的權(quán)重。另外，由于標(biāo)記先驗(yàn)概率的更新，遠(yuǎn)離分隔的超平面的無標(biāo)記數(shù)據(jù)沒有被分配一個(gè)接近于0的期望標(biāo)記，但在多次迭代之后，分配一個(gè)接近于y＝+1或y＝—1的標(biāo)記，并由此逐漸地被看作有標(biāo)記數(shù)據(jù)處理。
在本發(fā)明實(shí)施例的方法的一個(gè)特定實(shí)施中，通過假設(shè)一個(gè)具有判定函數(shù)參數(shù)Θ的零平均值和單位方差的一個(gè)高斯先驗(yàn) 判定函數(shù)參數(shù)的先驗(yàn)分布結(jié)合了即將到來的特定分類問題的重要先驗(yàn)知識。其它對于分類問題比較重要的判定函數(shù)參數(shù)的先驗(yàn)分布例如多項(xiàng)分布，泊松分布、柯西分布(Breit-Wigner)、麥克斯韋玻耳茲曼分布或玻色—愛因斯坦分布。
判定函數(shù)閾值b的先驗(yàn)分布由具有平均值μb和方差

的高斯分布給定作為數(shù)據(jù)點(diǎn)的分類界限γi的先驗(yàn)分布被選定，其中c為成本因子。該先驗(yàn)分布與Jaakkola(在此引用)中使用的先驗(yàn)分布不同，Jaakkola的表達(dá)式為exp[—c(1—γ)]。優(yōu)選地，式9所給出的表達(dá)式優(yōu)于Jaakkola(在此引用)使用的表達(dá)式，因?yàn)榧词钩杀疽蜃有∮?，式9也會產(chǎn)生一個(gè)正面期望界限，而當(dāng)c<1時(shí)，exp[—c(1—γ)]產(chǎn)生一個(gè)負(fù)面期望界限。
給定這些先驗(yàn)分布，可直接確定相應(yīng)的分配函數(shù)Z(參看樣例T.M.Cover and J.A.Thomas，Elements of Information Theory，John Wiley&Sons，Inc.)(Cover)，且目標(biāo)函數(shù)

為

根據(jù)Jaakkola(在此引用)，M步驟的目標(biāo)函數(shù)為
以及E步驟的目標(biāo)函數(shù)為
其中st為第t個(gè)數(shù)據(jù)點(diǎn)的分類分值，在前面的M步驟中確定，p0，1(yt)為數(shù)據(jù)點(diǎn)的二元標(biāo)記先驗(yàn)概率。對于有標(biāo)記數(shù)據(jù)，標(biāo)記先驗(yàn)初始化為p0，1(yt)＝1，而對于無標(biāo)記數(shù)據(jù)，標(biāo)記先驗(yàn)初始化為p0，1(yt)＝1/2的非信息先驗(yàn)，或類別先驗(yàn)概率。
這里命名為M步驟的部分描述了解決M步驟目標(biāo)函數(shù)的算法。同樣地，這里命名為E步驟的部分描述了E步驟算法。
在表3第5行的估算類別概率(Estimate Class Probability)步驟，使用了訓(xùn)練的數(shù)據(jù)以確定校準(zhǔn)參數(shù)，用于將分類分值變成組成員概率，即類別的概率給定分值p(c|s)。用于將分值校準(zhǔn)估算為概率的相關(guān)方法在J.Platt，Probabilistic outputs for support vectormachines and comparison to regularized likelihood methods，pages 61-74，2000(Platt)以及B.Zadrozny and C.Elkan，Transforming classifier scores into accurate multi-classprobability estimates，2002(Zadrozny)中有描述。
特別參看圖3，叉(x)表示一個(gè)有標(biāo)記負(fù)面樣例，加號(+)表示有標(biāo)記正面樣例，和圓圈(o)表示無標(biāo)記數(shù)據(jù)。不同的曲線表示以M步驟的不同迭代確定的分隔超平面。第20次迭代顯示了由改進(jìn)的轉(zhuǎn)導(dǎo)MED分類器決定的最終解。圖3所示為改進(jìn)的轉(zhuǎn)導(dǎo)MED分類算法，應(yīng)用于上述的小型數(shù)據(jù)集。使用的參數(shù)為c＝10，μb＝0。不同的c產(chǎn)生位于x≈—0.5，和x＝0之間的分隔超平面，當(dāng)c<3.5時(shí)，超平面位于一個(gè)x<0的無標(biāo)記數(shù)據(jù)的右側(cè)，而當(dāng)c≥3.5時(shí)，超平面位于該無標(biāo)記數(shù)據(jù)點(diǎn)的左側(cè)。
特別參看圖4，圖示了一個(gè)控制流程，顯示了本發(fā)明實(shí)施例的分類無標(biāo)記數(shù)據(jù)的方法。方法100在步驟102開始，在步驟104訪問存儲數(shù)據(jù)106。該數(shù)據(jù)存儲在存儲單元且包括有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)以及至少一個(gè)預(yù)設(shè)的成本因子。數(shù)據(jù)106包括具有分配的標(biāo)記的數(shù)據(jù)點(diǎn)。分配的數(shù)據(jù)點(diǎn)識別有標(biāo)記數(shù)據(jù)點(diǎn)是否將被納入一個(gè)特定的類別，還是從一個(gè)特定類別被排除。
一旦數(shù)據(jù)在步驟104被訪問，本發(fā)明實(shí)施例的方法在步驟108接著使用數(shù)據(jù)點(diǎn)的標(biāo)記信息，確定該數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率。然后，在步驟110，根據(jù)所述標(biāo)記先驗(yàn)概率，確定該數(shù)據(jù)點(diǎn)的期望標(biāo)記。隨著期望標(biāo)記在步驟110中被計(jì)算，連同有標(biāo)記數(shù)據(jù)，無標(biāo)記數(shù)據(jù)和成本因子，步驟112包括通過調(diào)節(jié)成本因子無標(biāo)記數(shù)據(jù)點(diǎn)，對轉(zhuǎn)導(dǎo)MED分類器進(jìn)行迭代訓(xùn)練。在每一次迭代計(jì)算中，無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子被調(diào)節(jié)。這樣，MED分類器從計(jì)算的反復(fù)迭代中學(xué)習(xí)。訓(xùn)練的分類器接著在步驟116訪問輸入數(shù)據(jù)114。然后該訓(xùn)練的分類器在步驟118完成分類輸入數(shù)據(jù)的步驟，并在步驟120終止。
容易理解，106的無標(biāo)記數(shù)據(jù)和輸入數(shù)據(jù)114可以從一個(gè)單一的來源獲得。由此，輸入數(shù)據(jù)/無標(biāo)記數(shù)據(jù)可用于步驟112的迭代過程，該過程隨后在步驟118中用于分類。而且，本發(fā)明實(shí)施例考慮，輸入數(shù)據(jù)114可包括一個(gè)反饋機(jī)構(gòu)，以將輸入數(shù)據(jù)提供給在106的存儲數(shù)據(jù)，以便112的MED分類器可動態(tài)地從輸入的新數(shù)據(jù)中學(xué)習(xí)。
特別參看圖5，圖示了一個(gè)控制流程圖，顯示了本發(fā)明實(shí)施例的另一種無標(biāo)記數(shù)據(jù)的分類方法，包括用戶定義的先驗(yàn)概率信息。方法200始于步驟202，在步驟204訪問存儲數(shù)據(jù)206。該數(shù)據(jù)206包括有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)、一個(gè)預(yù)設(shè)的成本因子、以及由用戶提供的先驗(yàn)概率信息。206的有標(biāo)記數(shù)據(jù)包括具有分配的標(biāo)記的數(shù)據(jù)點(diǎn)。所述分配的標(biāo)記識別該標(biāo)記的數(shù)據(jù)點(diǎn)是將被納入一個(gè)特定的類別還是從一個(gè)特定類別被排除。
在步驟208，期望的標(biāo)記由206的數(shù)據(jù)計(jì)算。然后，該期望的標(biāo)記在步驟210中連同有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)和成本因子被一起使用，以引導(dǎo)一個(gè)轉(zhuǎn)導(dǎo)MED分類器的迭代訓(xùn)練。210的迭代計(jì)算在每一次計(jì)算中，調(diào)節(jié)無標(biāo)記數(shù)據(jù)的成本因子。計(jì)算繼續(xù)，直至分類器被正確地訓(xùn)練。
然后，訓(xùn)練的分類器在步驟214訪問來自輸入數(shù)據(jù)212的輸入數(shù)據(jù)。訓(xùn)練的分類器接下來可以在步驟216完成分類輸入數(shù)據(jù)的步驟。圖4中所述的過程和方法，輸入數(shù)據(jù)和無標(biāo)記數(shù)據(jù)可以從一個(gè)單一的來源獲得，且在206和212都可以進(jìn)入系統(tǒng)。這樣，輸入數(shù)據(jù)212可在210影響訓(xùn)練，以便該過程可隨著連續(xù)的輸入數(shù)據(jù)動態(tài)地隨時(shí)間變化。
在圖4和圖5中所示的兩個(gè)方法中，一個(gè)監(jiān)視器可確定系統(tǒng)有沒有達(dá)到收斂。當(dāng)MED計(jì)算的每一次迭代之間的超平面的變化降到一個(gè)預(yù)設(shè)的閾值以下，可確定收斂。在本發(fā)明的另一實(shí)施例中，當(dāng)確定的期望標(biāo)記的變化降到一個(gè)預(yù)設(shè)的閾值以下，可確定所述閾值。如果達(dá)到收斂，則迭代訓(xùn)練過程可以停止。
特別參看圖6，顯示了本發(fā)明方法的至少一個(gè)實(shí)施例的迭代訓(xùn)練過程的更加詳細(xì)的控制流程圖。過程300始于步驟302，在步驟304，來自數(shù)據(jù)306的數(shù)據(jù)被訪問，該數(shù)據(jù)可以包括有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)、至少一個(gè)預(yù)設(shè)的成本因子，以及先驗(yàn)概率信息。306的有標(biāo)記數(shù)據(jù)點(diǎn)包括一個(gè)標(biāo)記，該標(biāo)記識別所述數(shù)據(jù)點(diǎn)是否是將被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是將被一個(gè)指定類別排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。306的先驗(yàn)概率信息包括有標(biāo)記數(shù)據(jù)集和無標(biāo)記數(shù)據(jù)集的概率信息。
在步驟308，期望標(biāo)記由來自步驟306的先驗(yàn)概率信息的數(shù)據(jù)確定。在步驟310中，每一個(gè)無標(biāo)記數(shù)據(jù)集的成本因子相對于數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例調(diào)節(jié)。然后通過確定一個(gè)判定函數(shù)，在步驟312訓(xùn)練一個(gè)MED分類器，即根據(jù)有標(biāo)記和無標(biāo)記數(shù)據(jù)的期望標(biāo)記，利用有標(biāo)記和無標(biāo)記數(shù)據(jù)作為訓(xùn)練樣例，最大化在被納入的訓(xùn)練樣例和被排除的訓(xùn)練樣例之間的界限。在步驟314，使用步驟312的訓(xùn)練的分類器確定分類分值。在步驟316，分類分值被校準(zhǔn)為組成員概率。在步驟318，根據(jù)組成員概率更新標(biāo)記先驗(yàn)概率信息。在步驟320執(zhí)行一個(gè)MED計(jì)算，以確定標(biāo)記和界限概率分布，其中，前面確定的分類分值在MED計(jì)算中使用。結(jié)果，新的期望標(biāo)記在步驟322計(jì)算，并且在步驟324，使用來自步驟322的計(jì)算更新該期望標(biāo)記。在步驟326，該方法確定是否達(dá)到收斂。如果是，該方法在步驟328終止。如果未達(dá)到收斂，則從步驟310開始，完成該方法的另一次迭代。重復(fù)迭代直至達(dá)到收斂，從而實(shí)現(xiàn)MED分類器的迭代訓(xùn)練。當(dāng)判定函數(shù)在每一次MED迭代計(jì)算之間的變化降到一個(gè)預(yù)設(shè)值以下時(shí)，達(dá)到收斂。在本發(fā)明另一個(gè)實(shí)施例中，當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
圖7顯示了根據(jù)一個(gè)實(shí)施例的一個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)700。如圖所示，提供了多個(gè)遠(yuǎn)程網(wǎng)絡(luò)702，包括第一遠(yuǎn)程網(wǎng)絡(luò)702和第二遠(yuǎn)程網(wǎng)絡(luò)704。網(wǎng)關(guān)707可連接在遠(yuǎn)程網(wǎng)絡(luò)702與鄰近網(wǎng)絡(luò)708之間。在本網(wǎng)絡(luò)體系結(jié)構(gòu)700的環(huán)境下，網(wǎng)絡(luò)704、706的每一個(gè)都可以采用任意形式，包括但并不限于局域網(wǎng)、廣域網(wǎng)，如因特網(wǎng)、公共開關(guān)電話網(wǎng)絡(luò)(PSTN)、內(nèi)部電話網(wǎng)，等等。
在使用中，網(wǎng)關(guān)707作為從遠(yuǎn)程網(wǎng)絡(luò)702到鄰近網(wǎng)絡(luò)708的入口點(diǎn)。由此，網(wǎng)關(guān)707可用作一個(gè)路由器，能管理一個(gè)到達(dá)網(wǎng)關(guān)707的給定的數(shù)據(jù)包，以及一個(gè)開關(guān)，其為給定的數(shù)據(jù)包進(jìn)出網(wǎng)關(guān)707提供實(shí)際的路徑。
進(jìn)一步包括至少一個(gè)與所述鄰近網(wǎng)絡(luò)708連接的數(shù)據(jù)服務(wù)器714，其可以通過網(wǎng)關(guān)707從遠(yuǎn)程網(wǎng)絡(luò)702訪問。需注意的是，數(shù)據(jù)服務(wù)器714可以包括任何類型的計(jì)算機(jī)設(shè)備/組件。與每個(gè)數(shù)據(jù)服務(wù)器714連接的是多個(gè)用戶設(shè)備716。這些用戶設(shè)備716可以包括臺式計(jì)算機(jī)、膝上型計(jì)算機(jī)、手提式計(jì)算機(jī)、打印機(jī)或任何其它邏輯設(shè)備。需注意的是，在一個(gè)實(shí)施例中，用戶設(shè)備717也可以直接連接于任意網(wǎng)絡(luò)。
一臺傳真機(jī)720或一系列傳真機(jī)720可連接于一個(gè)或多個(gè)網(wǎng)絡(luò)704、706、708。
需注意的是，數(shù)據(jù)庫和/或附加組件可以與連接于網(wǎng)絡(luò)704、706、708的任意類型的網(wǎng)絡(luò)元件一起使用或整合在其中。在本描述的環(huán)境下，網(wǎng)絡(luò)元件優(yōu)選為網(wǎng)絡(luò)的任意組件。
根據(jù)一個(gè)實(shí)施例，圖8顯示了一個(gè)與圖7的用戶設(shè)備716有關(guān)的典型硬件環(huán)境。該圖顯示了一個(gè)典型工作站的硬件結(jié)構(gòu)，具有一個(gè)中央處理器810，如一個(gè)微處理器，以及多個(gè)通過系統(tǒng)總線812相互連接的其它單元。
圖8所示的工作站包括隨機(jī)存取存儲器(RAM)814，只讀存儲器(ROM)816，I/O適配器818，用于連接外圍設(shè)備(如與總線812連接的磁盤存儲單元820)，用戶接口適配器822，用于將鍵盤824、鼠標(biāo)826、揚(yáng)聲器828、話筒832、和/或其它用戶接口設(shè)備，如觸摸屏和數(shù)碼相機(jī)(圖未示)，連接于總線812，通信適配器834，用于將工作站連接于通信網(wǎng)絡(luò)835(如，數(shù)據(jù)處理網(wǎng)絡(luò))，以及顯示適配器836，用于將總線812與顯示設(shè)備838連接。
特別參看圖9，顯示了本發(fā)明一個(gè)實(shí)施例的裝置414。本發(fā)明的一個(gè)實(shí)施例包括用于存儲標(biāo)記數(shù)據(jù)416的存儲設(shè)備814。每一個(gè)標(biāo)記數(shù)據(jù)點(diǎn)416都包括一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。存儲器814還存儲無標(biāo)記數(shù)據(jù)418，先驗(yàn)概率數(shù)據(jù)420和成本因子422。
處理器810訪問來自存儲器814的數(shù)據(jù)，并使用轉(zhuǎn)導(dǎo)MED計(jì)算訓(xùn)練一個(gè)二元分類器，使其能夠分類無標(biāo)記數(shù)據(jù)。通過使用成本因子以及來自有標(biāo)記和無標(biāo)記數(shù)據(jù)訓(xùn)練樣例，處理器810使用迭代轉(zhuǎn)導(dǎo)計(jì)算，并調(diào)節(jié)該成本因子作為期望標(biāo)記值的一個(gè)函數(shù)，從而影響成本因子數(shù)據(jù)422的數(shù)據(jù)，該數(shù)據(jù)然后再次輸入處理器810。因此，成本因子422隨著處理器810的MED分類的每一次迭代而變化。一旦處理器810充分地訓(xùn)練了一個(gè)MED分類器，處理器接著就能指導(dǎo)該分類器將無標(biāo)記數(shù)據(jù)歸類到已分類的數(shù)據(jù)424。
現(xiàn)有技術(shù)的轉(zhuǎn)導(dǎo)SVM和MED公式造成潛在的標(biāo)記分配呈指數(shù)增長，且近似值須向?qū)嶋H應(yīng)用發(fā)展。在本發(fā)明的另一個(gè)實(shí)施例中，介紹了不同的轉(zhuǎn)導(dǎo)MED分類的公式，無需遭受呈指數(shù)增長的可能的標(biāo)記分配，并允許一個(gè)常規(guī)的閉型解(closed formsolution)。對于線性分類器，問題表述如下找到超平面參數(shù)分布p(Θ)，偏差分布p(b)，數(shù)據(jù)點(diǎn)分類界限p(γ)，其結(jié)合的概率分布相比結(jié)合的各自的先驗(yàn)分布p0具有一個(gè)最小化庫樂伯克累積勒發(fā)散(Kullback Leibler divergence)KL，即受制于以下有標(biāo)記數(shù)據(jù)的限制以及受制于以下無標(biāo)記數(shù)據(jù)的限制其中ΘXt為分隔的超平面的權(quán)重向量與第t個(gè)數(shù)據(jù)點(diǎn)的特征向量之間的點(diǎn)積。無需標(biāo)記的先驗(yàn)分布。有標(biāo)記數(shù)據(jù)根據(jù)其已知的標(biāo)記被限制在分隔的超平面的右側(cè)，而對于無標(biāo)記數(shù)據(jù)的唯一要求是，它們到超平面的距離的平方大于界限?？傊?，本發(fā)明的實(shí)施例找到了一個(gè)分隔的超平面，它是在最接近于選定的先驗(yàn)概率，準(zhǔn)確地分隔有標(biāo)記數(shù)據(jù)，以及在界限之間沒有無標(biāo)記數(shù)據(jù)之間的一個(gè)權(quán)衡。其優(yōu)點(diǎn)在于，無需引入標(biāo)記的先驗(yàn)分布，因而，避免了潛在的標(biāo)記分配指數(shù)增長的問題。
在本發(fā)明另一個(gè)實(shí)施例的特定實(shí)施中，使用用于超平面參數(shù)的公式7、8和9中給定的先驗(yàn)分布、偏差、和界限，得到以下分配函數(shù) 其中下標(biāo)t為有標(biāo)記數(shù)據(jù)的下標(biāo)，而t’為無標(biāo)記數(shù)據(jù)的下標(biāo)。
引入符號
G3＝G1-2G2，和W＝∑tλtγtUt-2∑t′λt′γt′Ut′，公式16可改寫為如下
在積分之后，產(chǎn)生下列分配函數(shù)
即，最終的目標(biāo)函數(shù)為
如在這里稱為M步驟的段落中論述的已知標(biāo)記的情況那樣，目標(biāo)函數(shù)

可通過應(yīng)用類似的方法求解。不同之處在于，最大界限項(xiàng)的二次型中的矩陣

當(dāng)前具有非對角項(xiàng)。
除了分類，本發(fā)明采用最大熵判別框架的方法還存在多種應(yīng)用。例如，MED可用于解決數(shù)據(jù)的分類?？傊?，可用于任何種類的判別函數(shù)和先驗(yàn)分布、復(fù)原和圖像模式(T.Jebara，Machine Learning Discriminative and Generative，Kluwer Academic Publishers)(Jebara)。
本發(fā)明實(shí)施例的應(yīng)用可以用公式表示成具有已知標(biāo)記的純歸納學(xué)習(xí)問題，以及具有有標(biāo)記和無標(biāo)記訓(xùn)練樣例的轉(zhuǎn)導(dǎo)學(xué)習(xí)問題。在后面的實(shí)施例中，表3中描述的轉(zhuǎn)導(dǎo)MED分類算法的改進(jìn)對于普通轉(zhuǎn)導(dǎo)MED分類、轉(zhuǎn)導(dǎo)MED復(fù)原、圖像模式的轉(zhuǎn)導(dǎo)MED學(xué)習(xí)都同樣適用。這樣，對于本公開的目的及其從屬的權(quán)利要求，詞語“分類”可包括復(fù)原或圖像模式。
M步驟根據(jù)式11，M步驟的目標(biāo)函數(shù)為
{λt|0≤λt≤c}，其中拉格朗日乘子λt由最大化JM確定。
忽略冗余限制λt<c，上述兩個(gè)問題的拉格朗日算符為
對于最優(yōu)性必要且充分的KKT條件為
其中Ft為在最優(yōu)解中，偏差等于期望偏差得到 <yt>(-Ft-)+δt＝0 (25) 通過考慮δtλt＝0限制的兩種情況，可總結(jié)出這些公式。第一種情況所有λt＝0，以及第二種所有0<λt<c。無需考慮第三種，如S.Keerthi，S.Shevade，C.Bhattacharhyya，and K.Murthy，Improvements to platt’ssmo algorithm for svm classifier design，1999(Keerthi)，中所描述，應(yīng)用于SVM算法；在此公式中，勢函數(shù)(potential function)保持λt≠c。
這些情況下某些數(shù)據(jù)點(diǎn)t會存在干擾，直至達(dá)到最優(yōu)解。即，當(dāng)λt為非零時(shí)，F(xiàn)t≠-，或當(dāng)λt為零時(shí)，F(xiàn)t<yt><-<yt>。不幸的是，沒有最優(yōu)解λt，就無法計(jì)算。對于這個(gè)問題的一個(gè)好的解決方法是借鑒Keerthi(再次在此引用)的方法，通過構(gòu)建下列三個(gè)集合 I0＝{t0<λt<c} (28) I1＝{t<yt>>0，λt＝0}(29) I4＝{t<yt><0，λt＝0}(30) 通過使用這些集合，使用下面的定義，我們可以限定最優(yōu)性條件的最大極限干擾。I0中的元素為干擾，只要它們不等于-，因此，來自I0的最大和最小的Ft為成為干擾的候選。當(dāng)Ft<-時(shí)，I1中的元素為干擾，因此，如果存在的話，來自I1的最小元素為最大極限干擾。最后，當(dāng)Ft>-時(shí)，在I4中的元素為干擾，其從I4干擾候選中產(chǎn)生最大元素。因此，-受到如下所示的這些集合的“最小”和“最大”值的限制由于在最優(yōu)解中，-bup和-blow必須相等的緣故，即-，然后，減小-bup與-blow的差距將會推動訓(xùn)練算法收斂。另外，差距也可以作為一種確定數(shù)值收斂的方法被測定。
如前所述，只有達(dá)到收斂，才能知道b的值＝。另一個(gè)實(shí)施例的方法的區(qū)別在于，一次只能優(yōu)化一個(gè)樣例。因此，每隔一次，啟發(fā)式訓(xùn)練將在I0中的樣例與所有樣例之間交替使用。
E步驟公式12中E步驟的目標(biāo)函數(shù)為
其中st為在之前的M步驟中確定的第t個(gè)數(shù)據(jù)點(diǎn)的分類分值。拉格朗日乘子λt由最大化

確定。
忽略冗余限制λt<c，上述兩個(gè)問題的拉格朗日算符為
對于最優(yōu)性必要且充分的KKT條件為由于對樣例進(jìn)行了因式分解，只要忽略樣例，通過優(yōu)化KKT條件對拉格朗日乘子的求解可以完成。
對于有標(biāo)記樣例，期望標(biāo)記<yt>具有P0，1(yt)＝1和P0，1(-yt)＝0，簡化KKT條件為并生成作為有標(biāo)記樣例的拉格朗日乘子的解對于無標(biāo)記樣例，公式35不能分解求解，但必須通過使用，如對每個(gè)滿足公式35的無標(biāo)記樣例的拉格朗日乘子進(jìn)行線性搜索，來確定。
下面為多個(gè)非限制的樣例，其可通過上述所例舉的方法、及其推導(dǎo)或變化，以及其它現(xiàn)有技術(shù)已知的方法實(shí)現(xiàn)。每一個(gè)例子包括優(yōu)選的運(yùn)算，結(jié)合可選的運(yùn)算或參數(shù)，其可在基本的優(yōu)選方法論中實(shí)施。
在實(shí)施例中，如圖10所示，有標(biāo)記數(shù)據(jù)點(diǎn)在步驟1002被接收，每一個(gè)數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)特定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)特定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。另外，無標(biāo)記數(shù)據(jù)點(diǎn)在步驟1004被接收，同時(shí)接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子。所述數(shù)據(jù)點(diǎn)可以包括任何介質(zhì)，如單詞、圖像、聲音等等。有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息也可以被接收。而且，被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值，如+1等，而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值，如—1等。另外，所述有標(biāo)記數(shù)據(jù)點(diǎn)、無標(biāo)記數(shù)據(jù)點(diǎn)、輸入數(shù)據(jù)點(diǎn)、以及有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子可存入計(jì)算機(jī)存儲器。
進(jìn)一步，在步驟1006，使用所述至少一個(gè)成本因子，以及有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，通過迭代計(jì)算，一個(gè)轉(zhuǎn)導(dǎo)MED分類器被訓(xùn)練。對于每一次迭代計(jì)算，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一期望標(biāo)記值，例如一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值等，的函數(shù)，并根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估算調(diào)整數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，由此確保穩(wěn)定性。而且，轉(zhuǎn)導(dǎo)分類器可學(xué)習(xí)使用有標(biāo)記和無標(biāo)記數(shù)據(jù)的先驗(yàn)概率信息，這進(jìn)一步提高了穩(wěn)定性。訓(xùn)練轉(zhuǎn)導(dǎo)分類器的迭代步驟可以重復(fù)，直至達(dá)到數(shù)據(jù)值的收斂，例如，當(dāng)轉(zhuǎn)導(dǎo)分類器的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，等等。
此外，在步驟1008，訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一種。輸入數(shù)據(jù)點(diǎn)可在分類器被訓(xùn)練之前或之后接收，或根本不接收。而且，根據(jù)它們的期望標(biāo)記，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為學(xué)習(xí)樣例，可確定判定函數(shù)，給定被納入和被逐出的訓(xùn)練樣例，該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。換言之，該判定函數(shù)可以使用判定函數(shù)參數(shù)的多項(xiàng)式分布，由最小的KL發(fā)散來確定。
在步驟1010，分類的數(shù)據(jù)點(diǎn)的類別，或其衍生物，被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。系統(tǒng)可以是遠(yuǎn)程的或當(dāng)?shù)氐?。類別的衍生物的例子可以是，但并不限于，分類的數(shù)據(jù)點(diǎn)本身、分類數(shù)據(jù)點(diǎn)的表征或標(biāo)志符、或者主文件/文檔，等等。
在另一個(gè)實(shí)施例中，計(jì)算機(jī)系統(tǒng)使用并執(zhí)行計(jì)算機(jī)可執(zhí)行程序代碼。該程序代碼包括用于訪問存儲于計(jì)算機(jī)存儲器的有標(biāo)記數(shù)據(jù)點(diǎn)的指令，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是否為被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別中被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。另外，計(jì)算機(jī)代碼包括用于從計(jì)算機(jī)存儲器訪問無標(biāo)記數(shù)據(jù)點(diǎn)的指令，以及從計(jì)算機(jī)存儲器訪問有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子的指令。存儲于計(jì)算存儲器的有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息也可以被訪問。而且，被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值，如+1等，而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值，如—1等。
進(jìn)一步，程序代碼包括這樣的指令，所述指令使用至少一個(gè)存儲的成本因子、以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，通過迭代計(jì)算訓(xùn)練轉(zhuǎn)導(dǎo)分類器。而且，對于每一次迭代計(jì)算，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為該數(shù)據(jù)點(diǎn)的期望標(biāo)記值，例如數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值，的一個(gè)函數(shù)。而且，對于每一次迭代，先驗(yàn)概率信息可以根據(jù)數(shù)據(jù)點(diǎn)的組成員概率的估算進(jìn)行調(diào)整。訓(xùn)練轉(zhuǎn)導(dǎo)分類器的迭代步驟可被重復(fù)，直至數(shù)據(jù)值達(dá)到收斂，例如，當(dāng)轉(zhuǎn)導(dǎo)分類器的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，等等。
另外，程序代碼包括這樣的指令，所述指令用于訓(xùn)練分類器，對無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一種進(jìn)行分類，以及用于輸出所述分類的數(shù)據(jù)點(diǎn)的類別或其衍生物的指令，將類別輸出給一個(gè)用戶、另一個(gè)系統(tǒng)、和另一個(gè)過程中的至少一個(gè)。而且，根據(jù)它們的期望標(biāo)記，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為學(xué)習(xí)樣例，可確定判定函數(shù)，給定被納入和被排除的訓(xùn)練樣例，該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。
在另一個(gè)實(shí)施例中，數(shù)據(jù)處理裝置包括至少一個(gè)存儲器，用于存儲(i)有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；(ii)無標(biāo)記數(shù)據(jù)點(diǎn)；和(iii)所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子。所述存儲器還可以存儲有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息。而且，被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值，如+1等，而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值，如—1等。
另外，所述數(shù)據(jù)處理裝置包括一個(gè)轉(zhuǎn)導(dǎo)分類訓(xùn)練器，以利用所述至少一個(gè)成本因子，以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，使用轉(zhuǎn)導(dǎo)的最大熵判別(MED)，迭代地訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器。此外，在每一次MED迭代計(jì)算，調(diào)整所述無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為該數(shù)據(jù)點(diǎn)的期望標(biāo)記值，例如一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值等，的一個(gè)函數(shù)。而且，在每一次MED迭代計(jì)算，先驗(yàn)概率信息可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估計(jì)被調(diào)整。該裝置還可以包括一個(gè)用于確定數(shù)據(jù)值收斂的裝置，如，當(dāng)轉(zhuǎn)導(dǎo)分類器計(jì)算的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，等等，以及一旦確定收斂，則終止計(jì)算。
另外，訓(xùn)練的分類器用于分類無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一種。而且，根據(jù)它們的期望標(biāo)記，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為學(xué)習(xí)樣例，可確定判定函數(shù)，給定被納入和被排除的訓(xùn)練樣例，該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。而且，分類的數(shù)據(jù)點(diǎn)的類別，或其衍生物，輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
在另一個(gè)實(shí)施例中，一個(gè)制品，包括計(jì)算機(jī)可讀的程序存儲介質(zhì)，該介質(zhì)確切地包括一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行的指令程序，以執(zhí)行數(shù)據(jù)分類的方法。在使用中，接收有標(biāo)記數(shù)據(jù)點(diǎn)，每個(gè)有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。另外，接收無標(biāo)記數(shù)據(jù)點(diǎn)，以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子。有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息也可以存入計(jì)算機(jī)存儲器。而且，被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值，如+1等，而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值，如—1，等。
進(jìn)一步，使用至少一個(gè)存儲的成本因子和存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，利用迭代的最大熵判別(MED)計(jì)算，訓(xùn)練轉(zhuǎn)導(dǎo)分類器。在MED計(jì)算的每一次迭代中，調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為該數(shù)據(jù)點(diǎn)的期望標(biāo)記值，例如一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值等，的一個(gè)函數(shù)。而且，在每一次MED迭代計(jì)算，先驗(yàn)概率信息可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算被調(diào)整。訓(xùn)練轉(zhuǎn)導(dǎo)分類器的迭代步驟可被重復(fù)，直至達(dá)到數(shù)據(jù)值收斂，例如，當(dāng)轉(zhuǎn)導(dǎo)分類器的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，等等。
另外，從計(jì)算機(jī)存儲器訪問輸入數(shù)據(jù)點(diǎn)，訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一種。而且，根據(jù)它們的期望標(biāo)記，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)當(dāng)作學(xué)習(xí)樣例，可確定判定函數(shù)，給定被納入和被排除的訓(xùn)練樣例，該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。而且，分類的數(shù)據(jù)點(diǎn)的類別，或其衍生物，被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
在另一個(gè)實(shí)施例中，提供了一種用于在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中分類無標(biāo)記數(shù)據(jù)的方法。在使用中，有標(biāo)記數(shù)據(jù)點(diǎn)被接收，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。
另外，有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)被接收，有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)標(biāo)記概率信息也被接收。而且，有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子也被接收。
而且，每一個(gè)有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的期望標(biāo)記根據(jù)該數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率被確定。重復(fù)下面的子步驟，直至數(shù)據(jù)值足夠收斂。
·為每一個(gè)與數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例的無標(biāo)記數(shù)據(jù)點(diǎn)生成一個(gè)調(diào)節(jié)的成本值； ·通過確定判定函數(shù)，給定被納入訓(xùn)練和被逐出訓(xùn)練的樣例，使用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，訓(xùn)練一個(gè)最大熵判別(MED)分類器，根據(jù)它們的期望標(biāo)記，該判定函數(shù)將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布； ·使用所述訓(xùn)練的分類器，確定所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的分類分值； ·將訓(xùn)練的分類器的輸出校準(zhǔn)為組成員概率； ·根據(jù)所述確定的組成員概率，更新所述無標(biāo)記數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率； ·利用所述更新的標(biāo)記先驗(yàn)概率和之前確定的分類分值，使用最大熵判別(MED)，確定所述標(biāo)記和界限概率分布； ·使用之前確定的標(biāo)記概率分布，計(jì)算新的期望標(biāo)記；和 ·通過將之前迭代的所述期望標(biāo)記插入所述新的期望標(biāo)記，為每一個(gè)數(shù)據(jù)點(diǎn)更新期望標(biāo)記。
而且，輸入數(shù)據(jù)點(diǎn)的類別或其衍生物，被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
當(dāng)判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。此外，當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，也可以達(dá)到發(fā)散。而且，被納入的訓(xùn)練樣例的標(biāo)記可具有任意值，如+1，且被排除的訓(xùn)練樣例可具有任意值，如—1。
在本發(fā)明的一個(gè)實(shí)施例中，一種用于分類文件的方法如圖11所示。在使用中，在步驟1100，接收至少一個(gè)具有已知置信級別的種子文件，并接收無標(biāo)記文件和至少一個(gè)預(yù)設(shè)成本因子。該種子文件和其它項(xiàng)可以從計(jì)算機(jī)存儲器、用戶、網(wǎng)絡(luò)連接等被接收，且可以在一個(gè)來自執(zhí)行該方法的系統(tǒng)的請求后被接收。所述至少一個(gè)種子文件可以具有一個(gè)該文件是否被納入一個(gè)指定類別的指示標(biāo)記，可以含有一個(gè)關(guān)鍵字列表，或具有任何其它有助于分類文件的特征。而且，在步驟1102，通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、以及無標(biāo)記文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整成本因子作為一個(gè)期望標(biāo)記值的函數(shù)。有標(biāo)記和無標(biāo)記文件的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率也可以被接收，其中，對于每一次迭代計(jì)算，可以根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估計(jì)，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
另外，在至少部分迭代之后，在步驟1104為無標(biāo)記文件存儲置信分值，且在步驟1106，具有最高置信分值的無標(biāo)記文件的標(biāo)識符被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。該標(biāo)識符可以是該文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針，等等。而且，置信分值可以在每一次迭代之后存儲，其中，在每一次迭代之后，具有最高置信分值的無標(biāo)記文件的標(biāo)識符被輸出。
本發(fā)明的一個(gè)實(shí)施例能夠查詢將初始文件與其余文件鏈接的模式。查詢的目標(biāo)是一個(gè)這種模式查詢證明為特別有價(jià)值的區(qū)域。例如，在審前法律查詢(pre-trial legaldiscovery)中，針對手頭上訴訟的可能的鏈接，須研究大量的文件。最終目的為了發(fā)現(xiàn)“確鑿的證據(jù)”。在另一個(gè)例子中，對于發(fā)明人、專利審查員，以及專利律師的共同的任務(wù)，就是通過對現(xiàn)有技術(shù)的檢索，評估一項(xiàng)技術(shù)的新穎性。特別地，該任務(wù)為搜索所有公布的專利和其它出版物，并在這個(gè)集合中發(fā)現(xiàn)可能與審查新穎性的特定技術(shù)有關(guān)的文件。
查詢的任務(wù)包括在一組數(shù)據(jù)中找到一個(gè)文件或一組文件。給定一個(gè)初始文件或概念，用戶可能想要發(fā)現(xiàn)與該初始文件或概念有關(guān)的文件。然而，初始文件或概念與目標(biāo)文件之間關(guān)系的見解，即，將要查詢的文件，僅在查詢過之后，才能很好地理解。通過學(xué)習(xí)有標(biāo)記和無標(biāo)記文件、概念等，本發(fā)明能學(xué)習(xí)單個(gè)或多個(gè)初始文件與目標(biāo)文件之間的模式和關(guān)系。
在本發(fā)明的另一個(gè)實(shí)施例中，一種用于分析與法律查詢相關(guān)的文件的方法如圖12所示。在使用中，在步驟1200接收與法律事件相關(guān)的文件。這些文件可以包括文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針，等等。另外，在步驟1202，對文件執(zhí)行一種文件分類方法。進(jìn)一步地，在步驟1204，基于其分類輸出至少部分文件的標(biāo)識符?？蛇x地，這些文件之間的鏈接的標(biāo)識也被輸出。
所述文件識別方法可以包括任何類型的過程，如一個(gè)轉(zhuǎn)導(dǎo)過程等等。例如，可以使用前述的任何歸納或轉(zhuǎn)導(dǎo)方法。在一個(gè)優(yōu)選的方法中，使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、以及與法律事件有關(guān)的文件，通過迭代計(jì)算訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。對于每一次迭代計(jì)算，成本因子優(yōu)選地調(diào)整作為一個(gè)期望標(biāo)記值的函數(shù)，訓(xùn)練的分類器被用于分類接收的文件。該過程還可以包括為有標(biāo)記和無標(biāo)記文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。另外，所述文件分類方法還可以包括一個(gè)或多個(gè)支持向量機(jī)過程和最大熵判別過程。
在另一個(gè)實(shí)施例中，一種分析現(xiàn)有技術(shù)文件的方法如圖13所示。在使用中，在步驟1300，基于一個(gè)搜索查詢訓(xùn)練一個(gè)分類器。在步驟1302，多個(gè)現(xiàn)有技術(shù)文件被訪問。這些現(xiàn)有技術(shù)可以包括在一個(gè)給定日期前，公眾可以任何形式獲得的任何信息。該現(xiàn)有技術(shù)也可以包括在一個(gè)給定日期前，公眾還不能以任何形式獲得的任何信息。例舉的現(xiàn)有技術(shù)文件可以是任意類型的文件，如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、收集的現(xiàn)有技術(shù)、網(wǎng)頁的部分，等等。而且，在步驟1304，使用所述分類器對至少部分所述的現(xiàn)有技術(shù)文件執(zhí)行一種文件分類方法，且在步驟1306，基于其分類，輸出至少部分所述的現(xiàn)有技術(shù)文件的標(biāo)識符。所述文件分類技術(shù)可以包括一個(gè)或多個(gè)過程，包括一個(gè)支持向量機(jī)過程、一個(gè)最大熵判別過程，或前述的任意歸納或轉(zhuǎn)導(dǎo)方法。也或者，所述文件之間鏈接的表征也可以被輸出。在另一個(gè)實(shí)施例中，至少部分現(xiàn)有技術(shù)文件之間相關(guān)性的分值基于其分類被輸出。
所述搜索查詢可以包括專利公開的至少一部分。例舉的專利公開包括，由發(fā)明人總結(jié)其發(fā)明而產(chǎn)生的公開、臨時(shí)專利申請、非臨時(shí)專利申請、國外專利或?qū)＠暾埖鹊取?br> 在一個(gè)優(yōu)選的方法中，所述搜索查詢包括一件專利或?qū)＠暾埖臋?quán)利要求的至少一部分。在另一個(gè)方法中，所述搜索查詢包括一件專利或?qū)＠暾埖恼闹辽僖徊糠?。在另一個(gè)方法中，所述搜索查詢包括一件專利或?qū)＠暾埖陌l(fā)明概要的至少一部分。
圖27顯示了一種用于將文件與權(quán)利要求匹配的方法。在步驟2700，基于一件專利或?qū)＠暾埖闹辽僖豁?xiàng)權(quán)利要求訓(xùn)練一個(gè)分類器。因此，一項(xiàng)或多項(xiàng)權(quán)利要求，或其一部分，可用于訓(xùn)練分類器。在步驟2702，多個(gè)文件被訪問。這些文件可包括現(xiàn)有技術(shù)文件，描述潛在的侵權(quán)或占先使用產(chǎn)品的文件。在步驟2704，使用所述分類器對至少部分文件執(zhí)行一種文件分類方法。在步驟2706，基于其分類，輸出至少部分文件的標(biāo)識符。至少部分文件的相關(guān)分值也可以基于其分類被輸出。
本發(fā)明的一個(gè)實(shí)施例可用于專利申請的分類。在美國，例如，現(xiàn)如今專利和專利申請使用美國專利分類(USPC)系統(tǒng)，根據(jù)其主題被分類。該任務(wù)現(xiàn)在由人工完成，因此成本高且費(fèi)時(shí)。這種人工分類還受到人為錯(cuò)誤的制約。解決這個(gè)任務(wù)的復(fù)雜性在于，可將專利或?qū)＠暾埛殖啥鄠€(gè)種類。
根據(jù)一個(gè)實(shí)施例，圖28顯示了一種用于分類專利申請的方法。在步驟2800，基于多個(gè)已知屬于一個(gè)特定專利分類的文件訓(xùn)練一個(gè)分類器。這些文件通?？梢允菍＠?qū)＠暾?或其一部分)，但也可以是描述特定專利分類的目標(biāo)主題的概要文件。在步驟2802，一件專利或?qū)＠暾埖闹辽僖徊糠直唤邮?。所述部分可以包括?quán)利要求、發(fā)明概要、摘要、說明書、名稱，等等。在步驟2804，使用所述分類器對所述專利或?qū)＠暾埖闹辽僖徊糠謭?zhí)行一種文件分類方法。在步驟2806，所述專利或?qū)＠暾埖姆诸惐惠敵??？蛇x地，用戶可以手動地校驗(yàn)部分或全部專利申請的分類。
所述文件分類方法優(yōu)選地為一種是/否分類方法。換句話說，如果文件在正確的類別內(nèi)的概率高于一個(gè)閾值，則判定為是，該文件屬于該類別。如果文件在正確的類別內(nèi)的概率低于一個(gè)閾值，則判定為否，該文件不屬于該類別。
圖29顯示了另一個(gè)用于分類專利申請的方法。在步驟2900，使用一個(gè)分類器對一件專利或?qū)＠暾埖闹辽僖徊糠謭?zhí)行一種文件分類方法，該分類器事先基于至少一個(gè)與一個(gè)特定專利分類相關(guān)的文件被訓(xùn)練。同樣的，所述文件分類方法優(yōu)選為一種是/否分類方法。在步驟2902，所述專利或?qū)＠暾埖姆诸惐惠敵觥?br> 在圖28和圖29所示的兩種方法中，可以使用不同的分類器重復(fù)各自的方法，所述分類器事先基于多個(gè)已知屬于一個(gè)不同的專利分類的文件被訓(xùn)練。
正式地，專利的分類應(yīng)當(dāng)基于權(quán)利要求。然而，也希望執(zhí)行匹配介于(任何IP相關(guān)內(nèi)容)和(任何IP相關(guān)內(nèi)容)。作為一個(gè)例子，一種方法使用專利的說明書進(jìn)行訓(xùn)練，并根據(jù)專利申請的權(quán)利要求對專利申請進(jìn)行分類。另一種方法使用說明書和權(quán)利要求進(jìn)行訓(xùn)練，并基于摘要分類。在特別優(yōu)選的方法中，無論專利或申請的哪個(gè)部分被用于訓(xùn)練，在分類時(shí)使用相同類型的內(nèi)容，即如果系統(tǒng)根據(jù)權(quán)利要求進(jìn)行訓(xùn)練，則分類基于權(quán)利要求。
所述文件分類方法可以包括任何類型的過程，例如一個(gè)轉(zhuǎn)導(dǎo)過程等等。例如，可使用上述的任何歸納或轉(zhuǎn)導(dǎo)方法。在一個(gè)優(yōu)選的方法中，所述分類器可以是一個(gè)轉(zhuǎn)導(dǎo)分類器，且所述轉(zhuǎn)導(dǎo)分類器使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、和現(xiàn)有技術(shù)文件，通過迭代計(jì)算進(jìn)行訓(xùn)練，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，且所述訓(xùn)練的分類器可用于分類所述現(xiàn)有技術(shù)文件。所述種子文件和現(xiàn)有技術(shù)文件的一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率也可以被接收，其中，對于每一次迭代計(jì)算，可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。種子文件可以是任何文件，如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、一組現(xiàn)有技術(shù)、網(wǎng)站、專利公開等。
在一個(gè)方法中，圖14描述了本發(fā)明的一個(gè)實(shí)施例。在步驟1401，一組數(shù)據(jù)被讀取。在該組數(shù)據(jù)內(nèi)，和用戶有關(guān)的文件的發(fā)現(xiàn)是需要的。在步驟1402，單個(gè)或多個(gè)初始種子文件被標(biāo)記。所述文件可以是任何種類的文件，例如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、一組現(xiàn)有技術(shù)、網(wǎng)站等等。也可以一串不同的關(guān)鍵字或由用戶提供的文件安排轉(zhuǎn)導(dǎo)過程。在步驟1406，使用有標(biāo)記數(shù)據(jù)和一個(gè)給定集合中的一組無標(biāo)記數(shù)據(jù)，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。在迭代轉(zhuǎn)導(dǎo)過程中的每一個(gè)標(biāo)記歸納步驟，在標(biāo)記歸納過程中確定的置信分值被存儲。在步驟1408，一旦完成訓(xùn)練，就向用戶顯示在標(biāo)記歸納步驟中獲得高置信分值的文件。這些具有高置信分值的文件代表與用戶查詢目的相關(guān)的文件。該顯示可以按照標(biāo)記歸納步驟的時(shí)間先后順序，從初始種子文件開始，一直到在最后的標(biāo)記歸納步驟中被發(fā)現(xiàn)的最后一組文件。
本發(fā)明的另一實(shí)施例涉及數(shù)據(jù)清理和精確分類，例如與自動化的商業(yè)過程相結(jié)合。所述清理和分類方法可以包括任何類型的過程，例如一個(gè)轉(zhuǎn)導(dǎo)過程等。例如，可以使用上述任何轉(zhuǎn)導(dǎo)或歸納方法。在一個(gè)優(yōu)選的方法中，根據(jù)數(shù)據(jù)庫的期望清潔度，進(jìn)入數(shù)據(jù)庫的密鑰被用作與置信級別相關(guān)的標(biāo)記。然后，該標(biāo)記連同相關(guān)的置信級別，即期望標(biāo)記，被用于訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，該分類器修正所述標(biāo)記(密鑰)，以實(shí)現(xiàn)對數(shù)據(jù)庫中數(shù)據(jù)的更為可靠的管理。例如，發(fā)票必須首先根據(jù)開出發(fā)票的公司或個(gè)人被分類，以實(shí)現(xiàn)自動數(shù)據(jù)提取，例如確定總金額、訂單編號、產(chǎn)品數(shù)量、裝運(yùn)地址等等。通常，設(shè)立一個(gè)自動分類系統(tǒng)需要訓(xùn)練樣例。然而，由顧客提供的訓(xùn)練樣例常常含有錯(cuò)誤分類的文件或其它干擾，如傳真封頁，為了獲得準(zhǔn)確的分類，在訓(xùn)練所述自動分類系統(tǒng)之前，這些文件必須被識別并移除。在另一個(gè)實(shí)施例中，在病例的領(lǐng)域，有助于檢測由醫(yī)生所寫的報(bào)告與其診斷報(bào)告之間的不一致性。
在另一個(gè)實(shí)施例中，眾所周知，專利局需要經(jīng)歷連續(xù)的重新分類過程，其中，他們(1)評估他們的干擾分類法的一個(gè)現(xiàn)存分支，(2)重建該分類法以均勻地分布過度擁擠的節(jié)點(diǎn)，以及(3)將現(xiàn)存的專利重新分類到新的結(jié)構(gòu)。這里的轉(zhuǎn)導(dǎo)學(xué)習(xí)方法為專利局以及他們外包的用來做這項(xiàng)工作的公司所用，以重新評估他們的分類法，并幫助他們(1)為一個(gè)給定的主分類建立新的分類法，(2)重新分類現(xiàn)存的專利。
轉(zhuǎn)導(dǎo)從有標(biāo)記和無標(biāo)記數(shù)據(jù)學(xué)習(xí)，由此從有標(biāo)記到無標(biāo)記的轉(zhuǎn)變是流暢的。圖譜的一端是具有完美的現(xiàn)有知識的有標(biāo)記數(shù)據(jù)，如，給定的標(biāo)記無一例外都是正確的。在另一端為沒有給定現(xiàn)有知識的無標(biāo)記數(shù)據(jù)。帶有某種程度干擾的組編的數(shù)據(jù)組成錯(cuò)誤分類的數(shù)據(jù)，并位于圖譜的兩個(gè)極端之間的某處。由數(shù)據(jù)組織給出的標(biāo)記在某種程度上可以肯定地認(rèn)為是正確的，但并不完全。因此，轉(zhuǎn)變可被用于清理現(xiàn)有的數(shù)據(jù)組編，通過在一個(gè)給定的數(shù)據(jù)組織之內(nèi)假設(shè)一個(gè)特定的出錯(cuò)程度，并在標(biāo)記分配的現(xiàn)有知識中把這些解釋為不確定性。
在一個(gè)實(shí)施例中，一種清理數(shù)據(jù)的方法如圖5所示。在使用中，在步驟1500，多個(gè)有標(biāo)記數(shù)據(jù)項(xiàng)被接收，在步驟1502，為多個(gè)類別中的每一個(gè)類別選取所述數(shù)據(jù)項(xiàng)的子集。另外，在步驟1504，將每一個(gè)子集中的數(shù)據(jù)項(xiàng)的不確定性設(shè)置成約為零，在步驟1506，將不在所述子集中的數(shù)據(jù)項(xiàng)的不確定性設(shè)置成一個(gè)不約為零的預(yù)設(shè)值。進(jìn)一步，在步驟1508，通過迭代計(jì)算，使用所述不確定性、子集中的數(shù)據(jù)項(xiàng)、以及不在子集中的數(shù)據(jù)項(xiàng)作為訓(xùn)練樣例，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，并在步驟1510，訓(xùn)練的分類器用于每一個(gè)有標(biāo)記數(shù)據(jù)項(xiàng)，以分類每一個(gè)所述數(shù)據(jù)項(xiàng)。而且，輸入數(shù)據(jù)項(xiàng)的分類，或其衍生物，在步驟1512被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
進(jìn)一步，所述子集可隨機(jī)選取，并可以由用戶選取和校驗(yàn)。至少部分所述數(shù)據(jù)項(xiàng)的標(biāo)記可以基于其分類被改變。而且，在分類后，具有低于一個(gè)預(yù)設(shè)的閾值的置信級別的數(shù)據(jù)項(xiàng)的標(biāo)識符被輸出給用戶。所述標(biāo)識符可以是該文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向該文件的指針，等等。
在本發(fā)明的一個(gè)實(shí)施例中，如圖16所示，在步驟1600，啟動一個(gè)清理過程的兩個(gè)選項(xiàng)被呈現(xiàn)給用戶。在步驟1602，一個(gè)選項(xiàng)為全自動清理，對于每一個(gè)概念或類別，隨機(jī)地選取特定數(shù)量的文件，并假設(shè)它們被正確地組編。或者，在步驟1604，一定數(shù)量的文件可被打上標(biāo)記，以人工檢查及校驗(yàn)是否每一個(gè)概念或類別的一個(gè)或多個(gè)標(biāo)記分配被準(zhǔn)確地組編。在步驟1606，數(shù)據(jù)中干擾程度的一個(gè)估計(jì)被接收。在步驟1610，使用在步驟1608中的已校驗(yàn)的(人工校驗(yàn)或隨機(jī)選取)數(shù)據(jù)和未校驗(yàn)的數(shù)據(jù)，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器。一旦訓(xùn)練結(jié)束，文件根據(jù)新的標(biāo)記被重新組編。在步驟1612，在標(biāo)記分配中具有低于一個(gè)特定閾值的低置信級別的文件，被顯示給用戶，以用于人工檢查。在步驟1614，根據(jù)轉(zhuǎn)導(dǎo)標(biāo)記分配，在標(biāo)記分配中具有高于一個(gè)特定閾值的置信級別的文件被自動校對。
在另一個(gè)實(shí)施例中，一種用于管理病歷的方法如圖17所示。在使用中，在步驟1700，一個(gè)分類器基于醫(yī)療診斷被訓(xùn)練，在步驟1702，多個(gè)病歷被訪問。另外，在步驟1704，使用所述分類器對所述病歷執(zhí)行一種文件分類方法，且具有低概率的與醫(yī)療診斷相關(guān)性的至少一個(gè)病歷的標(biāo)識符，在步驟1706被輸出。該文件分類方法包括任何類型的過程，如一個(gè)轉(zhuǎn)導(dǎo)過程等，且可以包括上述一個(gè)或多個(gè)任意的歸納或轉(zhuǎn)導(dǎo)方法，包括支持向量機(jī)過程、最大熵判別過程等等。
在一個(gè)實(shí)施例中，所述分類器可以是一個(gè)轉(zhuǎn)導(dǎo)分類器，且所述轉(zhuǎn)導(dǎo)分類器可以通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件、以及病歷被訓(xùn)練，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為期望標(biāo)記值的一個(gè)函數(shù)，且訓(xùn)練的分類器可用于分類所述病歷。種子文件和病歷的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率也可以被接收，其中，對于每一次迭代計(jì)算，可以根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
本發(fā)明的另一實(shí)施例描述了動態(tài)、漂移的分類概念。例如，在形式處理申請中，分類文件，使用文件的版面信息和/或內(nèi)容信息對文件進(jìn)行分類，以分類所述文件用于進(jìn)一步的處理。在許多申請中，文件不是固定不變的，而是隨時(shí)間而變化。例如，文件的內(nèi)容和/或版面可能因?yàn)樾碌牧⒎ǘ淖儭＾D(zhuǎn)導(dǎo)分類自動適應(yīng)這些變化，產(chǎn)生相同或類似的分類準(zhǔn)確性，而不受漂移的分類概念的影響。與基于規(guī)則的系統(tǒng)或歸納分類方法相比，無需人工調(diào)節(jié)，不會由于概念漂移而影響準(zhǔn)確性。這個(gè)方法的一個(gè)例子是發(fā)票處理，其傳統(tǒng)地包括歸納學(xué)習(xí)，或使用利用發(fā)票版面的基于規(guī)則的系統(tǒng)。對于這些傳統(tǒng)的系統(tǒng)，如果版面發(fā)生變化，則系統(tǒng)必須通過標(biāo)記新的訓(xùn)練數(shù)據(jù)或確定新的規(guī)則來人工重新設(shè)置。然而，轉(zhuǎn)導(dǎo)的使用通過自動適應(yīng)發(fā)票版面上的微小變化，使得人工重新設(shè)置變得不再必要。在另一個(gè)實(shí)施例中，轉(zhuǎn)導(dǎo)分類可用于分析客戶投訴，以監(jiān)測這些投訴性質(zhì)的變化。例如，一家公司可自動地將產(chǎn)品變化與客戶投訴相鏈接。
轉(zhuǎn)導(dǎo)也可用于新聞文章的分類。例如，有關(guān)戰(zhàn)爭、恐怖襲擊的新聞文章，始于針對2001年9月11日阿富汗戰(zhàn)爭的恐怖份子襲擊，直至有關(guān)伊拉克當(dāng)今局勢的新聞故事，都可以使用轉(zhuǎn)導(dǎo)自動識別。
在另一個(gè)實(shí)施例中，生物分類(α分類學(xué))可以隨時(shí)間而改變，通過進(jìn)化，新的物種產(chǎn)生，而其它物種滅絕。隨著分類概念隨時(shí)間的改變，分類綱要或分類學(xué)的該項(xiàng)和其它規(guī)則是可以動態(tài)變化的。
通過使用必須被歸類為無標(biāo)記數(shù)據(jù)的輸入數(shù)據(jù)，轉(zhuǎn)導(dǎo)可以識別漂移分類概念，并由此自動地適應(yīng)變化的分類綱要。例如，圖18顯示了本發(fā)明的一個(gè)給定漂移分類概念使用轉(zhuǎn)導(dǎo)的實(shí)施例。文件組Dt在時(shí)間tt進(jìn)入系統(tǒng)，如步驟1802所示。在步驟1804，使用迄今為止積累的有標(biāo)記和無標(biāo)記數(shù)據(jù)訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器Ct，在步驟1806，文件組Dt中的文件被分類。如果使用人工模式，在步驟1808中被確定為具有低于一個(gè)用戶提供的閾值的置信級別的文件，在步驟1810被呈現(xiàn)給用戶以用于人工檢查。如步驟1812所示，在自動模式中，一個(gè)具有置信級別的文件觸發(fā)了一個(gè)新的類別的創(chuàng)建，該類別被加入系統(tǒng)，然后該文件就被歸于該新的類別。在步驟1820A-B，具有高于上述選定閾值的置信級別的文件被分類到當(dāng)前的類別1至N。在步驟tt之前已經(jīng)被分類到當(dāng)前類別的所有當(dāng)前類別的文件，在步驟1822由分類器Ct重新分類，且在步驟1824和1826，所有不再被分類到上述指定類別的文件，被移入新的類別。
在另一個(gè)實(shí)施例中，一種適應(yīng)文件內(nèi)容變動的方法如圖19所示。文件內(nèi)容可以包括，但不限于，圖像內(nèi)容、文本內(nèi)容、版面、編號，等等。變動的例子可以包括時(shí)間的變化、風(fēng)格的變化(由2個(gè)或更多個(gè)人處理一個(gè)或多個(gè)文件)，應(yīng)用過程的變化、版面的變動，等等。在步驟1900，接收至少一個(gè)有標(biāo)記種子文件、以及無標(biāo)記文件和至少一個(gè)預(yù)設(shè)成本因子。所述文件可以包括，但不局限于，客戶投訴、發(fā)票、表格文件、收據(jù)，等等。另外，在步驟1902，使用所述至少一個(gè)預(yù)設(shè)成本因子，至少一個(gè)種子文件，以及無標(biāo)記文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。而且，在步驟1904，具有大于一個(gè)預(yù)設(shè)的閾值的置信級別的無標(biāo)記文件，使用分類器被分類到多個(gè)類別，且在步驟1906，所述分類的文件的至少一部分，使用分類器被重新分類到多個(gè)類別。進(jìn)一步，在步驟1908，所述分類的文件的標(biāo)識符被輸出給一個(gè)客戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。所述標(biāo)識符可以是文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針，等等。而且，產(chǎn)品變化可以與客戶投訴等相鏈接。
另外，具有低于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件可被移入一個(gè)或多個(gè)新的類別。而且，通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件、以及所述無標(biāo)記文件，可以訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述無標(biāo)記文件。而且，所述種子文件和無標(biāo)記文件的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率可以被接收，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
在另一個(gè)實(shí)施例中，一種使專利分類適應(yīng)文件內(nèi)容的變動的方法如圖20所示。在步驟2000，接收至少一個(gè)有標(biāo)記種子文件，以及無標(biāo)記文件。所述無標(biāo)記文件可以包括任何類型的文件，如，專利申請、法律文件、信息公開表格、文件修正，等等。種子文件可以包括專利、專利申請等等。在步驟2002，使用所述至少一個(gè)種子文件和無標(biāo)記文件訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，以及使用所述分類器將具有高于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到多個(gè)現(xiàn)有的類別。所述分類器可以是任何類型的分類器，例如轉(zhuǎn)導(dǎo)分類器等，且所述文件分類方法可以是任何方法，例如支持向量機(jī)方法、最大熵判別方法等等。例如，可使用上述的任何歸納或轉(zhuǎn)導(dǎo)方法。
而且，在步驟2004，使用所述分類器將所述具有低于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到至少一個(gè)新的類別，且在步驟2006，使用所述分類器將至少部分所述分類的文件重新分類到現(xiàn)有的類別以及至少一個(gè)新的類別。進(jìn)一步，在步驟2008，所述分類的文件的標(biāo)識符被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。而且，可以使用至少一個(gè)預(yù)設(shè)的成本因子、所述搜索查詢、以及所述文件，通過迭代計(jì)算，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，且所述訓(xùn)練的分類器可用于分類所述文件。進(jìn)一步，所述搜索查詢和文件的數(shù)據(jù)點(diǎn)先驗(yàn)概率可以被接收，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)先驗(yàn)概率。
在本發(fā)明的另一個(gè)實(shí)施例中，描述了在文件分離領(lǐng)域的文件漂移。一個(gè)應(yīng)用的例子包括抵押文件的過程。包括一系列不同的借貸文件，例如借貸申請、批準(zhǔn)、請求、數(shù)量等的借貸文件夾被掃描，且在進(jìn)一步處理之前，必須確定在一系列圖像中的不同的文件。使用的文件不是固定不變的，而是可隨時(shí)間變化。例如，在借貸文件夾中，使用的納稅申請表格，可根據(jù)法律法規(guī)的變化而隨時(shí)間變化。
文件分離解決了在一系列圖像中發(fā)現(xiàn)文件或子文件界限的問題。一般產(chǎn)生一系列圖像的例子是數(shù)字掃描儀或多功能外圍設(shè)備(MFP)。如在分類的實(shí)施例中，轉(zhuǎn)導(dǎo)可用于文件分離，以處理文件及其界限隨時(shí)間的漂移問題。靜態(tài)的分離系統(tǒng)，如基于規(guī)則的系統(tǒng)或基于歸納學(xué)習(xí)方法的系統(tǒng)，不能自動地適應(yīng)漂移分離概念。無論何時(shí)發(fā)生漂移，這些靜態(tài)分離系統(tǒng)的表現(xiàn)性能隨時(shí)間而降低。為了保持其初始水平的性能，要么人工調(diào)整規(guī)則(就基于規(guī)則的系統(tǒng)來說)，要么人工標(biāo)記新的文件并重新學(xué)習(xí)系統(tǒng)(就歸納學(xué)習(xí)方法來說)。無論哪一種都是費(fèi)時(shí)費(fèi)財(cái)。應(yīng)用轉(zhuǎn)導(dǎo)到文件分離，使得系統(tǒng)得以改進(jìn)，其可自動適應(yīng)在分離概念中的漂移。
在一個(gè)實(shí)施例中，一種分離文件的方法如圖21所示。在步驟2100，接收有標(biāo)記數(shù)據(jù)，且在步驟2102，接收一組無標(biāo)記文件。這些數(shù)據(jù)和文件可以包括合法的查詢文件、官方通知、網(wǎng)頁數(shù)據(jù)、代理律師公函等等。另外，在步驟2104，基于所述有標(biāo)記數(shù)據(jù)和無標(biāo)記文件，使用轉(zhuǎn)導(dǎo)，概率性分類規(guī)則被調(diào)整，且在步驟2106中，根據(jù)概率性分類規(guī)則，更新用于文件分離的權(quán)重。而且，在步驟2108中，確定在一組文件中分離的位置，且在步驟2110，確定的在一組文件中分離的位置的指示符被輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。所述指示符可以是文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針，等等。進(jìn)一步，在步驟2112，文件被打上編碼，所述編碼與所述指示符有關(guān)。
圖22顯示了本發(fā)明所使用的用于文件分離的分類方法和設(shè)備的實(shí)施過程。在數(shù)字式掃描之后，使用自動文件分離以減少涉及文件分離和識別的人工工作。通過使用推理算法，將文件分離方法與分類規(guī)則相結(jié)合以自動分離多組頁面，使用這里所述的分類方法，以減少來自所有可得到信息的最有可能的分離。本發(fā)明的一個(gè)例子如圖22所示，本發(fā)明的轉(zhuǎn)導(dǎo)MED的分類方法被用于文件分離。具體地，文件頁面2200被放入數(shù)字掃描儀2202或MFP，并被轉(zhuǎn)成一組數(shù)字圖像2204。所述文件頁面可以是來自任何類型文件的頁面，如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、現(xiàn)有技術(shù)的集合、網(wǎng)站等等。在步驟2206，輸入一組數(shù)字圖像，以動態(tài)適應(yīng)使用轉(zhuǎn)導(dǎo)的概率性分類規(guī)則。步驟2206使用一組圖像2204作為無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)2208。在步驟2210，概率性網(wǎng)絡(luò)中的權(quán)重被更新，并被用于基于動態(tài)適應(yīng)分類規(guī)則的自動文件分離。輸出步驟2212為自動放入分離圖像的動態(tài)自適應(yīng)，這樣，一組數(shù)字化的頁面2214被隔行掃描成分離器頁面2216的自動圖像，在步驟2212，將分離器頁面自動插入到圖像序列。在本發(fā)明的一個(gè)實(shí)施例中，軟件生成的分離器頁面2216也可以指示緊隨所述分離器頁面2216的文件的類型。此處描述的系統(tǒng)自動地適應(yīng)文件隨時(shí)間而發(fā)生的漂移分離概念，而不必?fù)?dān)心會像基于規(guī)則的靜態(tài)系統(tǒng)或基于方法的歸納型機(jī)器學(xué)習(xí)那樣出現(xiàn)分離準(zhǔn)確度的降低。在表單處理(form processing)申請中，漂移分離或分類概念的一個(gè)常見的例子是，如之前所提到的，文件由于新的法律法規(guī)而產(chǎn)生變化。
另外，如圖22所示的系統(tǒng)可改為如圖23所示的系統(tǒng)，其頁面2300放入數(shù)字掃描儀2302或MFP轉(zhuǎn)換為一組數(shù)字圖像2304。該組數(shù)字圖像在步驟2306被輸入，以使用轉(zhuǎn)導(dǎo)動態(tài)適應(yīng)概率性分類規(guī)則。步驟2306使用該組圖像2304作為無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)2308。步驟2310，根據(jù)所采用的動態(tài)自適應(yīng)分類規(guī)則，更新用于自動文件分離的概率性網(wǎng)絡(luò)中的權(quán)重。在步驟2312，不是如圖18所述的插入分離器頁面圖像，而是步驟2312動態(tài)地適應(yīng)自動插入分離信息，并用編碼的描述標(biāo)記所述文件圖像。由此，文件頁面圖像可被輸入一個(gè)圖像處理數(shù)據(jù)庫2316，且所述文件可通過軟件標(biāo)識符訪問。
本發(fā)明的另一個(gè)實(shí)施例可使用轉(zhuǎn)導(dǎo)進(jìn)行人臉識別。如上所述，使用轉(zhuǎn)導(dǎo)具有諸多優(yōu)勢，例如，僅需相對少量的訓(xùn)練樣例，在訓(xùn)練中使用無標(biāo)記樣例的能力，等等。利用上述優(yōu)勢，轉(zhuǎn)導(dǎo)人臉識別可用于犯罪偵查。
例如，國土安全部必需保證恐怖份子不得登上商用班機(jī)。機(jī)場篩選過程的一部分可以是在機(jī)場安檢處采集每個(gè)乘客的相片，并嘗試識別該人。系統(tǒng)初始可以使用少量的樣例進(jìn)行訓(xùn)練，該樣例來自于可得到的可能是恐怖份子的有限的照片。在其它法律執(zhí)法數(shù)據(jù)庫中的、同一恐怖份子的無標(biāo)記照片也可用于訓(xùn)練。因此，轉(zhuǎn)導(dǎo)訓(xùn)練器不僅可以運(yùn)用最初稀疏的數(shù)據(jù)建立功能性人臉識別系統(tǒng)，并且還可以使用其它來源的無標(biāo)記樣例以增強(qiáng)性能。在處理了機(jī)場安檢處采集的照片后，轉(zhuǎn)導(dǎo)系統(tǒng)能夠比歸納系統(tǒng)更為精確地識別可疑人物。
在另一個(gè)實(shí)施例中，一種用于人臉識別的方法如圖24所示。在步驟2400，至少一個(gè)人臉的有標(biāo)記種子圖像被接收，該種子圖像具有已知的置信級別。該至少一個(gè)種子圖像可以具有一個(gè)標(biāo)記，指示該圖像是否被納入一個(gè)指定的類別。另外，在步驟2400，無標(biāo)記圖像被接收，如，從警察局、政府機(jī)構(gòu)、失蹤兒童數(shù)據(jù)庫、機(jī)場安全，或任何其它地方，并接收至少一個(gè)預(yù)設(shè)的成本因子。而且，在步驟2402，通過迭代計(jì)算，使用所述至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子圖像，和無標(biāo)記圖像，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)。在至少多次迭代之后，在步驟2404，為所述無標(biāo)記種子圖像存儲一個(gè)置信分值。
進(jìn)一步，在步驟2406，具有最高置信分值的無標(biāo)記文件的標(biāo)識符被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。所述標(biāo)識符可以是該文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針，等等。而且，每一次迭代之后可以存儲置信分值，其中，在每一次迭代之后，輸出具有最高置信分值的無標(biāo)記圖像的標(biāo)識符。另外，可以接收用于所述有標(biāo)記和無標(biāo)記圖像的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，其中，對于每一次迭代計(jì)算，可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估計(jì)，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。進(jìn)一步，第三張人臉的無標(biāo)記圖像，如來自上述機(jī)場安全樣例，可被接收，所述第三張無標(biāo)記圖像可與具有最高置信分值的至少部分圖像比較，且如果確信該第三張無標(biāo)記圖像中的人臉與種子圖像中的人臉是相同的，則可以輸出所述第三個(gè)無標(biāo)記圖像的標(biāo)識符。
本發(fā)明的另一個(gè)實(shí)施例通過提供反饋給文件檢索系統(tǒng)，使用戶能夠改進(jìn)他們的搜索結(jié)果。例如，當(dāng)在一個(gè)互聯(lián)網(wǎng)搜索引擎(專利或?qū)＠暾埶阉鳟a(chǎn)品等)上執(zhí)行一項(xiàng)搜索時(shí)，用戶可以得到大量對應(yīng)于其搜索查詢的結(jié)果。本發(fā)明的一個(gè)實(shí)施例使用戶能夠從搜索引擎瀏覽建議的結(jié)果，并告知搜索引擎一個(gè)或多個(gè)所得結(jié)果的相關(guān)性，如，“接近，但不是我真正想要的”、“絕對不是”等等。當(dāng)用戶提供反饋給搜索引擎時(shí)，更好的結(jié)果按照優(yōu)先順序給用戶瀏覽。
在一個(gè)實(shí)施例中，一種用于文件搜索的方法如圖25所示。在步驟2500，接收一個(gè)搜索查詢。該搜索查詢可以是任何類型的查詢，包括區(qū)分大小寫的查詢、布爾查詢、近似匹配查詢、結(jié)構(gòu)化查詢，等等。在步驟2502，獲得基于搜索查詢的文件。另外，在步驟2504，輸出所述文件，且在步驟2506，用于至少部分文件的用戶鍵入的標(biāo)記被接收，該標(biāo)記指示所述文件與搜索查詢之間的相關(guān)性。例如，用戶可以指示從所述查詢返回的一個(gè)特定結(jié)果是相關(guān)還是無關(guān)。而且，在步驟2508，基于所述搜索查詢和用戶鍵入的標(biāo)記，一個(gè)分類器被訓(xùn)練，且在步驟2510，使用所述分類器對所述文件執(zhí)行一種文件分類方法，以重新分類所述文件。進(jìn)一步，在步驟2512，基于其分類，輸出至少部分文件的標(biāo)識符。所述標(biāo)識符可以是文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針，等等。所述重新分類的文件也可以被輸出，條件是那些具有最高置信度的文件被首先輸出。
所述文件分類方法可以包括任何類型的過程，如，轉(zhuǎn)導(dǎo)過程、支持向量機(jī)過程、最大熵判別過程，等等?？梢允褂蒙鲜鋈魏螝w納或轉(zhuǎn)導(dǎo)方法。在一個(gè)優(yōu)選的方法中，所述分類器可以是一個(gè)轉(zhuǎn)導(dǎo)分類器，且通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、所述搜索查詢，以及所述文件，可以訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，且所述訓(xùn)練的分類器可以用于分類所述文件。另外，用于所述搜索查詢和文件的一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率可以被接收，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，可以調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
本發(fā)明的另一個(gè)實(shí)施例可以用于改進(jìn)ICR/OCR，以及語音識別。例如，許多語音識別程序和系統(tǒng)的實(shí)施例需操作者重復(fù)許多單詞以訓(xùn)練所述系統(tǒng)。本發(fā)明可以首先對一個(gè)用戶的聲音監(jiān)聽一段預(yù)定的時(shí)間，以收集“未分類”的內(nèi)容，如，監(jiān)聽電話談話。結(jié)果是，當(dāng)用戶開始訓(xùn)練該識別系統(tǒng)時(shí)，該系統(tǒng)利用轉(zhuǎn)導(dǎo)學(xué)習(xí)，以利用所述監(jiān)聽的語音來協(xié)助構(gòu)建一個(gè)記憶模型。
在另一個(gè)實(shí)施例中，一種用于核對一張發(fā)票與一個(gè)實(shí)體的關(guān)聯(lián)性的方法如圖26所示。在步驟2600，基于與第一實(shí)體相關(guān)的發(fā)票格式訓(xùn)練一個(gè)分類器。該發(fā)票格式可以是指發(fā)票上記號的實(shí)際布局，或發(fā)票上的特征，如關(guān)鍵詞、發(fā)票號碼、客戶姓名，等等。另外，在步驟2602，被標(biāo)記作為與所述第一實(shí)體和其它實(shí)體中的至少一個(gè)相聯(lián)系的多張發(fā)票被訪問，且在步驟2604，使用所述分類器對所述發(fā)票執(zhí)行一種文件分類方法。例如，上述的任何歸納或轉(zhuǎn)導(dǎo)方法可以用作一種文件分類方法。例如，所述文件分類方法可以包括一個(gè)轉(zhuǎn)導(dǎo)過程、支持向量機(jī)過程、最大熵判別過程，等等。而且，在步驟2606，輸出至少一張所述發(fā)票的標(biāo)識符，該發(fā)票具有較高的概率與所述第一實(shí)體不相關(guān)。
進(jìn)一步，所述分類器可以是任何類型的分類器，例如，一個(gè)轉(zhuǎn)導(dǎo)分類器，且通過迭代計(jì)算，使用至少一個(gè)預(yù)定的成本因子、至少一個(gè)種子文件，以及所述發(fā)票，可以訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述發(fā)票。而且，用于所述種子文件和發(fā)票的一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率可以被接收，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
這里說描述的實(shí)施例的一個(gè)優(yōu)點(diǎn)是轉(zhuǎn)導(dǎo)算法的穩(wěn)定性。這個(gè)穩(wěn)定性通過調(diào)節(jié)所述成本因子和調(diào)節(jié)所述標(biāo)記先驗(yàn)概率來實(shí)現(xiàn)。例如，在一個(gè)實(shí)施例中，通過迭代分類，使用至少一個(gè)成本因子、有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。對于每一次迭代計(jì)算，調(diào)節(jié)所述無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望的標(biāo)記值的函數(shù)。此外，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算調(diào)節(jié)一個(gè)數(shù)據(jù)點(diǎn)先驗(yàn)概率。
工作站可以在一個(gè)操作系統(tǒng)上具有常駐內(nèi)存，該操作系統(tǒng)例如微軟

操作系統(tǒng)(OS)、MAC操作系統(tǒng)，或UNIX操作系統(tǒng)。應(yīng)當(dāng)理解，優(yōu)選實(shí)施例也可以在不同于那些提到的平臺和操作系統(tǒng)上實(shí)施。一個(gè)優(yōu)選的實(shí)施例可以使用JAVA、XML、C和/或C++語言、或者其它編程語言編寫，結(jié)合面向?qū)ο蟮某绦蛟O(shè)計(jì)方法?？梢允褂妹嫦?qū)ο蟮某绦蛟O(shè)計(jì)(OOP)，其已經(jīng)越來越多地被用來開發(fā)復(fù)雜的應(yīng)用。
上述應(yīng)用使用轉(zhuǎn)導(dǎo)學(xué)習(xí)以克服數(shù)據(jù)集非常稀少的問題，該問題困擾著歸納型人臉識別系統(tǒng)。轉(zhuǎn)導(dǎo)學(xué)習(xí)的這個(gè)方面并不限于此項(xiàng)應(yīng)用，也可以用于解決其它由于數(shù)據(jù)集稀少說引起的機(jī)器學(xué)習(xí)問題。
在此處公開發(fā)明的各種實(shí)施例的范圍和精神之內(nèi)，本領(lǐng)域技術(shù)人員可設(shè)計(jì)出不同的變化。而且，以上公開的實(shí)施例的各種特征可單獨(dú)使用，或相互之間的不同組合，且并不局限于以上描述的特定組合。因此，權(quán)利要求的范圍不限于這些描述的實(shí)施例。
權(quán)利要求
1、在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中，一種用于數(shù)據(jù)分類的方法，其特征在于包括
接收有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定的類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定的類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；
接收無標(biāo)記數(shù)據(jù)點(diǎn)；
接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；
通過迭代計(jì)算，使用所述至少一個(gè)成本因子，以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，使用最大熵判別(MED)，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；
使用所述訓(xùn)練的分類器分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、所述有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；和
將所述分類的數(shù)據(jù)點(diǎn)的類別或其衍生物輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
2、根據(jù)權(quán)利要求1所述的方法，其特征在于所述函數(shù)為一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值。
3、根據(jù)權(quán)利要求1所述的方法，其特征在于還包括接收有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息的步驟。
4、根據(jù)權(quán)利要求3所述的方法，其特征在于所述轉(zhuǎn)導(dǎo)分類器使用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)的先驗(yàn)概率信息學(xué)習(xí)。
5、根據(jù)權(quán)利要求1所述的方法，其特征在于還包括使用判定函數(shù)參數(shù)的一個(gè)高斯先驗(yàn)，給定所述被納入和被排除的訓(xùn)練樣例，根據(jù)它們的期望標(biāo)記，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)作為訓(xùn)練樣例，確定具有最小的KL發(fā)散的判定函數(shù)的步驟。
6、根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括使用判定函數(shù)參數(shù)的多項(xiàng)式先驗(yàn)分布，確定具有最小的KL散度的判定函數(shù)的步驟。
7、根據(jù)權(quán)利要求1所述的方法，其特征在于重復(fù)訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器的迭代步驟，直至達(dá)到數(shù)據(jù)值的收斂。
8、根據(jù)權(quán)利要求7所述的方法，其特征在于當(dāng)所述轉(zhuǎn)導(dǎo)分類器的所述判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
9、根據(jù)權(quán)利要求7所述的方法，其特征在于當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
10、根據(jù)權(quán)利要求1所述的方法，其特征在于所述被納入的訓(xùn)練樣例的標(biāo)記的值為+1，而所述被排除的訓(xùn)練樣例的標(biāo)記的值為—1。
11、根據(jù)權(quán)利要求1所述的方法，其特征在于所述被納入的樣例的標(biāo)記被映射到第一個(gè)數(shù)值，而所述被排除的樣例的標(biāo)記被映射到第二個(gè)數(shù)值。
12、根據(jù)權(quán)利要求1所述的方法，其特征在于還包括
將所述有標(biāo)記數(shù)據(jù)點(diǎn)存入一個(gè)計(jì)算機(jī)存儲器；
將所述無標(biāo)記數(shù)據(jù)點(diǎn)存入一個(gè)計(jì)算機(jī)存儲器；
將所述輸入數(shù)據(jù)點(diǎn)存入一個(gè)計(jì)算機(jī)存儲器；和
將所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的所述至少一個(gè)預(yù)設(shè)的成本因子存入一個(gè)計(jì)算機(jī)存儲器。
13、一種用于數(shù)據(jù)分類的方法，其特征在于包括
提供計(jì)算機(jī)可執(zhí)行程序代碼，以在一個(gè)計(jì)算機(jī)系統(tǒng)上使用并執(zhí)行，所述程序代碼包括指令用于
訪問存儲于計(jì)算機(jī)存儲器的有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；
從計(jì)算機(jī)存儲器訪問所述無標(biāo)記數(shù)據(jù)點(diǎn)；
從計(jì)算機(jī)存儲器訪問所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；
通過迭代計(jì)算，使用所述至少一個(gè)存儲的成本因子，以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，訓(xùn)練一個(gè)最大熵判別(MED)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)一個(gè)數(shù)據(jù)點(diǎn)先驗(yàn)概率；
使用所述訓(xùn)練的分類器分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、所述有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；和
將所述分類的數(shù)據(jù)點(diǎn)的類別或其衍生物輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
14、根據(jù)權(quán)利要求13所述的方法，其特征在于所述函數(shù)為一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值。
15、根據(jù)權(quán)利要求13所述的方法，其特征在于還包括訪問存儲于計(jì)算機(jī)存儲器的有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息的步驟。
16、根據(jù)權(quán)利要求15所述的方法，其特征在于對于每一次迭代，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述先驗(yàn)概率信息。
17、根據(jù)權(quán)利要求13所述的方法，其特征在于還包括指令，給定所述被納入和被排除的訓(xùn)練樣例，根據(jù)它們的期望標(biāo)號，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)作為學(xué)習(xí)樣例，所述指令用于將具有最小的KL發(fā)散的判定函數(shù)確定為所述判定函數(shù)參數(shù)的先驗(yàn)分布。
18、根據(jù)權(quán)利要求13所述的方法，其特征在于重復(fù)訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器的迭代步驟，直至達(dá)到數(shù)據(jù)值的收斂。
19、根據(jù)權(quán)利要求18所述的方法，其特征在于當(dāng)所述轉(zhuǎn)導(dǎo)分類器的所述判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
20、根據(jù)權(quán)利要求18所述的方法，其特征在于當(dāng)所述確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
21、根據(jù)權(quán)利要求13所述的方法，其特征在于所述被納入的訓(xùn)練樣例的標(biāo)記的值為+1，而所述被排除的訓(xùn)練樣例的標(biāo)記的值為—1。
22、根據(jù)權(quán)利要求13所述的方法，其特征在于所述被納入的樣例的標(biāo)記被映射到第一個(gè)數(shù)值，而所述被排除的樣例的標(biāo)記被映射到第二個(gè)數(shù)值。
23、一個(gè)數(shù)據(jù)處理裝置，其特征在于包括
至少一個(gè)存儲器，用于存儲(i)有標(biāo)記數(shù)據(jù)點(diǎn)，其中，每一個(gè)所述有標(biāo)記數(shù)據(jù)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；(ii)無標(biāo)記數(shù)據(jù)點(diǎn)；和(iii)所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；和
一個(gè)轉(zhuǎn)導(dǎo)分類器訓(xùn)練器，用于使用所述至少一個(gè)存儲的成本因子，以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，使用轉(zhuǎn)導(dǎo)最大熵判別(MED)，迭代地培訓(xùn)所述轉(zhuǎn)導(dǎo)分類器，其中，在每一次迭代MED計(jì)算，調(diào)節(jié)所述無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；
其中，由所述轉(zhuǎn)導(dǎo)分類器訓(xùn)練器訓(xùn)練的一個(gè)分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；
其中，所述分類的數(shù)據(jù)點(diǎn)的類別或其衍生物，被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
24、根據(jù)權(quán)利要求23所述的裝置，其特征在于所述函數(shù)為一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值。
25、根據(jù)權(quán)利要求23所述的裝置，其特征在于所述存儲器還存儲有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息。
26、根據(jù)權(quán)利要求25所述的裝置，其特征在于在每一次迭代MED計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述先驗(yàn)概率信息。
27、根據(jù)權(quán)利要求23所述的裝置，其特征在于還包括一個(gè)處理器，給定所述被納入和被排除的訓(xùn)練樣例，根據(jù)它們的期望標(biāo)號，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)作為學(xué)習(xí)樣例，所述處理器用于將具有最小的KL發(fā)散的判定函數(shù)確定為所述判定函數(shù)參數(shù)的先驗(yàn)分布。
28、根據(jù)權(quán)利要求23所述的裝置，其特征在于還包括一個(gè)裝置，用于確定數(shù)據(jù)值的收斂，以及當(dāng)確定收斂時(shí)終止計(jì)算。
29、根據(jù)權(quán)利要求28所述的裝置，其特征在于當(dāng)所述轉(zhuǎn)導(dǎo)分類器計(jì)算的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
30、根據(jù)權(quán)利要求28所述的裝置，其特征在于當(dāng)所述確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
31、根據(jù)權(quán)利要求23所述的裝置，其特征在于所述被納入的訓(xùn)練樣例的標(biāo)記的值為+1，而所述被排除的訓(xùn)練樣例的標(biāo)記的值為—1。
32、根據(jù)權(quán)利要求23所述的方法，其特征在于所述被納入的樣例的標(biāo)記被映射到第一個(gè)數(shù)值，而所述被排除的樣例的標(biāo)記被映射到第二個(gè)數(shù)值。
33、一種制品，其特征在于包括一個(gè)由計(jì)算機(jī)可讀的程序存儲介質(zhì)，該介質(zhì)確切地包括一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行的指令程序，以執(zhí)行一種數(shù)據(jù)分類方法，包括
接收有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定的類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；
接收無標(biāo)記數(shù)據(jù)點(diǎn)；
接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；
使用所述至少一個(gè)存儲的成本因子，以及存儲的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，利用迭代的最大熵判別(MED)計(jì)算，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，在每一次迭代MED計(jì)算中，調(diào)節(jié)所述無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；
使用所述訓(xùn)練的分類器分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè)；和
將所述分類的數(shù)據(jù)點(diǎn)的類別或其衍生物，輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
34、根據(jù)權(quán)利要求33所述的制品，其特征在于所述函數(shù)為一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值。
35、根據(jù)權(quán)利要求33所述的制品，其特征在于還包括將有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息存儲于一個(gè)計(jì)算機(jī)存儲器的步驟。
36、根據(jù)權(quán)利要求35所述的制品，其特征在于在每一次迭代MED計(jì)算中，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率，調(diào)整所述先驗(yàn)概率信息。
37、根據(jù)權(quán)利要求33所述的制品，其特征在于還包括給定所述被納入和被排除的訓(xùn)練樣例，根據(jù)它們的期望標(biāo)號，利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)作為學(xué)習(xí)樣例，將具有最小的KL發(fā)散的判定函數(shù)確定為所述判定函數(shù)參數(shù)的先驗(yàn)分布的步驟。
38、根據(jù)權(quán)利要求33所述的制品，其特征在于重復(fù)訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器的迭代步驟，直至達(dá)到數(shù)據(jù)值的收斂。
39、根據(jù)權(quán)利要求38所述的制品，其特征在于當(dāng)所述轉(zhuǎn)導(dǎo)分類的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
40、根據(jù)權(quán)利要求38所述的方法，其特征在于當(dāng)所述確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
41、根據(jù)權(quán)利要求33所述的方法，其特征在于所述被納入的訓(xùn)練樣例的標(biāo)記的值為+1，而所述被排除的訓(xùn)練樣例的標(biāo)記的值為—1。
42、根據(jù)權(quán)利要求33所述的方法，其特征在于所述被納入的樣例的標(biāo)記被映射到第一個(gè)數(shù)值，而所述被排除的樣例的標(biāo)記被映射到第二個(gè)數(shù)值。
43、在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中，一種分類無標(biāo)記數(shù)據(jù)的方法，其特征在于包括
接收有標(biāo)記數(shù)據(jù)點(diǎn)，每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記，指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例，還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例；
接收有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)；
接收有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)標(biāo)記概率信息；
接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子；
根據(jù)所述數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率，為每一個(gè)有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)確定期望的標(biāo)記；
重復(fù)下面的子步驟，直至數(shù)據(jù)值的實(shí)質(zhì)性收斂
·為每一個(gè)與數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例的無標(biāo)記數(shù)據(jù)點(diǎn)生成一個(gè)調(diào)節(jié)的成本值；
·通過確定判定函數(shù)訓(xùn)練一個(gè)分類器，給定被納入訓(xùn)練和被排除訓(xùn)練的樣例，根據(jù)它們的期望標(biāo)記，使用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例，該判定函數(shù)將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布；
·使用所述訓(xùn)練的分類器，確定所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的分類分值；
·將訓(xùn)練的分類器的輸出校準(zhǔn)為組成員概率；
·根據(jù)所述確定的組成員概率，更新所述無標(biāo)記數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率；
·利用所述更新的標(biāo)記先驗(yàn)概率和之前確定的分類分值，使用最大熵判別(MED)，確定標(biāo)記和界限概率分布；
·使用之前確定的標(biāo)記概率分布，計(jì)算新的期望標(biāo)記；和
·通過將之前迭代的所述期望標(biāo)記插入所述新的期望標(biāo)記，為每一個(gè)數(shù)據(jù)點(diǎn)更新期望標(biāo)記。
將輸入數(shù)據(jù)點(diǎn)的類別或其衍生物輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
44、根據(jù)權(quán)利要求43所述的方法，其特征在于當(dāng)所述判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
45、根據(jù)權(quán)利要求43所述的方法，其特征在于當(dāng)所述確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)，達(dá)到收斂。
46、根據(jù)權(quán)利要求43所述的方法，其特征在于所述被納入的訓(xùn)練樣例的標(biāo)記的值為+1，而所述被排除的訓(xùn)練樣例的標(biāo)記的值為—1。
47、一種文件分類方法，其特征在于包括
接收至少一個(gè)有標(biāo)記種子文件，其具有標(biāo)記分配的已知置信級別；
接收無標(biāo)記文件；
接收至少一個(gè)預(yù)設(shè)的成本因子；
通過迭代計(jì)算，使用所述至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子文件、以及所述無標(biāo)記文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)；
在至少部分迭代之后，為所述無標(biāo)記文件存儲置信分值；和
將具有最高置信分子的無標(biāo)記文件的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
48、根據(jù)權(quán)利要求47所述的方法，其特征在于所述至少一個(gè)種子文件具有關(guān)鍵字列表。
49、根據(jù)權(quán)利要求47所述的方法，其特征在于在每一次迭代之后，存儲置信分值，其中，在每一次迭代之后，輸出具有最高置信分值的無標(biāo)記文件的標(biāo)識符。
50、根據(jù)權(quán)利要求47所述的方法，其特征在于還包括為所述有標(biāo)記和無標(biāo)記文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)先驗(yàn)概率。
51、一種用于分析與法律檢索相關(guān)的文件的方法，其特征在于包括
接收與法律事件相關(guān)的文件；
對所述文件執(zhí)行一種文件分類方法；和
基于其分類，輸出至少部分所述文件的標(biāo)識符。
52、根據(jù)權(quán)利要求51所述的方法，其特征在于所述文件分類方法包括一個(gè)轉(zhuǎn)導(dǎo)過程。
53、根據(jù)權(quán)利要求51所述的方法，其特征在于還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、以及所述與法律事件相關(guān)的文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述收到的文件。
54、根據(jù)權(quán)利要求53所述的方法，其特征在于還包括為所述有標(biāo)記和無標(biāo)記文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
55、根據(jù)權(quán)利要求51所述的方法，其特征在于所述文件分類方法包括一個(gè)支持向量機(jī)過程。
56、根據(jù)權(quán)利要求51所述的方法，其特征在于所述文件分類方法包括一個(gè)最大熵判別過程。
57、根據(jù)權(quán)利要求51所述的方法，其特征在于還包括輸出所述文件之間聯(lián)系的表征。
58、一種清理數(shù)據(jù)的方法，其特征在于包括
接收多個(gè)有標(biāo)記數(shù)據(jù)項(xiàng)；
為多個(gè)類別的每一個(gè)選取數(shù)據(jù)項(xiàng)的子集；
將每一個(gè)子集中的數(shù)據(jù)項(xiàng)的不確定性設(shè)置成約為零；
將不在所述子集中的數(shù)據(jù)項(xiàng)的不確定性設(shè)置成一個(gè)不約為零的預(yù)設(shè)值；
通過迭代計(jì)算，使用所述不確定性、所述子集中的數(shù)據(jù)項(xiàng)、以及不在所述子集中的數(shù)據(jù)項(xiàng)作為訓(xùn)練樣例，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器；
將所述訓(xùn)練的分類器用于每一個(gè)所述的有標(biāo)記數(shù)據(jù)項(xiàng)，以分類每一個(gè)數(shù)據(jù)項(xiàng)；和
將所述輸入數(shù)據(jù)項(xiàng)的分類或其衍生物，輸出給一個(gè)用戶、另一系統(tǒng)、另一過程中的至少一個(gè)。
59、根據(jù)權(quán)利要求58所述的方法，其特征在于所述子集是隨機(jī)選取的。
60、根據(jù)權(quán)利要求58所述的方法，其特征在于所述子集是由用戶選取并核對。
61、根據(jù)權(quán)利要求58所述的方法，其特征在于還包括基于分類，改變至少部分所述數(shù)據(jù)項(xiàng)的標(biāo)記。
62、根據(jù)權(quán)利要求58所述的方法，其特征在于在分類之后，具有低于一個(gè)預(yù)設(shè)閾值的置信級別的數(shù)據(jù)項(xiàng)的標(biāo)識符被輸出給用戶。
63、一種用于核對發(fā)票與實(shí)體的相關(guān)性的方法，其特征在于包括
基于與第一實(shí)體相關(guān)的發(fā)票格式，訓(xùn)練一個(gè)分類器；
訪問多張發(fā)票，該發(fā)票被標(biāo)記為與所述第一實(shí)體和其它實(shí)體中的至少一個(gè)相關(guān)；
使用所述分類器，對所述發(fā)票執(zhí)行一種文件分類方法；和
輸出具有較高的概率與所述第一實(shí)體不相關(guān)的至少一張發(fā)票的標(biāo)識符。
64、根據(jù)權(quán)利要求63所述的方法，其特征在于所述文件分類方法包括一個(gè)轉(zhuǎn)導(dǎo)過程。
65、根據(jù)權(quán)利要求64所述的方法，其特征在于所述分類器是一個(gè)轉(zhuǎn)導(dǎo)分類器，且還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件、以及所述發(fā)票，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述發(fā)票。
66、根據(jù)權(quán)利要求65所述的方法，其特征在于還包括為所述種子文件和發(fā)票接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
67、根據(jù)權(quán)利要求63所述的方法，其特征在于所述文件分類方法包括一個(gè)支持向量機(jī)過程。
68、根據(jù)權(quán)利要求65所述的方法，其特征在于所述文件分類方法包括一個(gè)最大熵判別過程。
69、一種用于管理病歷的方法，其特征在于包括
基于醫(yī)療診斷，訓(xùn)練一個(gè)分類器；
訪問多個(gè)病歷；
使用所述分類器，對所述病歷執(zhí)行一種文件分類方法；和
輸出具有較低的概率與所述醫(yī)療診斷相關(guān)的至少一個(gè)所述病歷的標(biāo)識符。
70、根據(jù)權(quán)利要求69所述的方法，其特征在于所述文件分類方法包括一個(gè)轉(zhuǎn)導(dǎo)過程。
71、根據(jù)權(quán)利要求70所述的方法，其特征在于所述分類器是一個(gè)轉(zhuǎn)導(dǎo)分類器，且還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件，以及所述病歷，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述病歷。
72、根據(jù)權(quán)利要求71所述的方法，其特征在于還包括為所述種子文件和病歷接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率，其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
73、根據(jù)權(quán)利要求69所述的方法，其特征在于所述文件分類方法包括一個(gè)支持向量機(jī)過程。
74、根據(jù)權(quán)利要求69所述的方法，其特征在于所述文件分類方法包括一個(gè)最大熵判別過程。
75、一種人臉識別方法，其特征在于包括
接收一張人臉的至少一個(gè)有標(biāo)記種子圖像，該種子圖像具有一個(gè)已知的置信級別；
接收無標(biāo)記圖像；
接收至少一個(gè)預(yù)設(shè)的成本因子；
通過迭代計(jì)算，使用所述至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子圖像、以及所述無標(biāo)記圖像，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)；
在至少部分迭代之后，為所述無標(biāo)記種子圖像存儲置信分值；和
將具有最高置信分值的無標(biāo)記圖像的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、另一過程中的至少一個(gè)。
76、根據(jù)權(quán)利要求75所述的方法，其特征在于所述至少一個(gè)種子圖像具有一個(gè)標(biāo)記，指示該圖像是否被納入一個(gè)指定的類別。
77、根據(jù)權(quán)利要求75所述的方法，其特征在于每一次迭代后存儲置信分值，其中，在每一次迭代后，具有最高置信分值的無標(biāo)記圖像的標(biāo)識符被輸出。
78、根據(jù)權(quán)利要求75所述的方法，其特征在于還包括為所述有標(biāo)記和無標(biāo)記圖像接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
79、根據(jù)權(quán)利要求75所述的方法，其特征在于還包括接收一張人臉的第三個(gè)無標(biāo)記圖像，將所述第三個(gè)無標(biāo)記圖像與至少部分具有最高置信分值的圖像比較，且如果確信第三個(gè)無標(biāo)記圖像中的人臉與所述種子圖像中的人臉是相同的，則輸出所述第三個(gè)無標(biāo)記圖像的標(biāo)識符。
80、一種分析現(xiàn)有文件的方法，其特征在于包括
基于一個(gè)搜索查詢，訓(xùn)練一個(gè)分類器；
訪問多個(gè)現(xiàn)有技術(shù)文件；
使用所述分類器，對至少部分所述現(xiàn)有技術(shù)文件執(zhí)行一種文件分類方法；和
基于其分類，輸出至少部分所述現(xiàn)有技術(shù)文件的標(biāo)識符。
81、根據(jù)權(quán)利要求80所述的方法，其特征在于所述文件分類方法包括一個(gè)轉(zhuǎn)導(dǎo)過程。
82、根據(jù)權(quán)利要求81所述的方法，其特征在于所述分類器是一個(gè)轉(zhuǎn)導(dǎo)分類器，且還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件、以及所述現(xiàn)有技術(shù)文件，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器；其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述現(xiàn)有技術(shù)文件。
83、根據(jù)權(quán)利要求82所述的方法，其特征在于還包括為所述種子文件和現(xiàn)有技術(shù)文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
84、根據(jù)權(quán)利要求80所述的方法，其特征在于所述搜索查詢包括一件專利公開的至少一部分。
85、根據(jù)權(quán)利要求80所述的方法，其特征在于所述搜索查詢包括一件專利或?qū)＠暾埖臋?quán)利要求的至少一部分。
86、根據(jù)權(quán)利要求80所述的方法，其特征在于所述搜索查詢包括一件專利或?qū)＠暾埖恼闹辽僖徊糠帧?br> 87、根據(jù)權(quán)利要求80所述的方法，其特征在于所述搜索查詢包括一件專利或?qū)＠暾埖陌l(fā)明概要的至少一部分。
88、根據(jù)權(quán)利要求80所述的方法，其特征在于所述文件分類方法包括一個(gè)支持向量機(jī)過程。
89、根據(jù)權(quán)利要求80所述的方法，其特征在于所述文件分類方法包括一個(gè)最大熵判別過程。
90、根據(jù)權(quán)利要求80所述的方法，其特征在于所述現(xiàn)有技術(shù)文件為專利局的出版物。
91、根據(jù)權(quán)利要求80所述的方法，其特征在于還包括輸出所述文件之間聯(lián)系的表征。
92、根據(jù)權(quán)利要求80所述的方法，其特征在于還包括基于其分類，輸出至少部分所述現(xiàn)有技術(shù)方法文件的相關(guān)性分值。
93、一種用于使專利分類適應(yīng)文件內(nèi)容的變化的方法，其特征在于包括
接收至少一個(gè)有標(biāo)記種子文件；
接收一個(gè)無標(biāo)記文件；
使用所述至少一個(gè)種子文件和所述無標(biāo)記文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器；
使用所述分類器，將具有高于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到多個(gè)現(xiàn)有的類別；
使用所述分類器，將具有低于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到至少一個(gè)新的類別；
使用所述分類器，將至少部分所述分類的文件重新分類到所述現(xiàn)有的類別和所述至少一個(gè)新的類別；和
將所述分類的文件的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
94、根據(jù)權(quán)利要求93所述的方法，其特征在于所述分類器是一個(gè)轉(zhuǎn)導(dǎo)分類器，且還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、所述搜索查詢、以及所述文件，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述文件。
95、根據(jù)權(quán)利要求94所述的方法，其特征在于還包括為所述搜索查詢和文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
96、根據(jù)權(quán)利要求93所述的方法，其特征在于所述文件分類方法包括一個(gè)支持向量機(jī)過程。
97、根據(jù)權(quán)利要求93所述的方法，其特征在于所述文件分類方法包括一個(gè)最大熵判別過程。
98、根據(jù)權(quán)利要求93所述的方法，其特征在于所述無標(biāo)記文件為專利申請。
99、根據(jù)權(quán)利要求93所述的方法，其特征在于所述至少一個(gè)種子文件選自一個(gè)專利和一個(gè)專利申請。
100、一種將文件與權(quán)利要求匹配的方法，其特征在于包括
基于一件專利或?qū)＠暾埖闹辽僖豁?xiàng)權(quán)利要求，訓(xùn)練一個(gè)分類器；
訪問多個(gè)文件；
使用所述分類器，對至少部分所述文件執(zhí)行一種文件分類方法；和
基于其分類，輸出至少部分所述文件的標(biāo)識符。
101、根據(jù)權(quán)利要求100所述的方法，其特征在于還包括基于其分類，輸出至少部分所述文件的相關(guān)性分值。
102、根據(jù)權(quán)利要求100所述的方法，其特征在于所述文件為現(xiàn)有技術(shù)文件。
103、根據(jù)權(quán)利要求100所述的方法，其特征在于所述文件描述產(chǎn)品。
104、一種分類專利或?qū)＠暾埖姆椒?，其特征在于包?br> 基于多個(gè)已知屬于一個(gè)特定專利分類的文件，訓(xùn)練一個(gè)分類器；
接收一件專利或?qū)＠暾埖闹辽僖徊糠郑?br> 使用所述分類器，對所述專利或?qū)＠暾埖乃鲋辽僖徊糠謭?zhí)行一種文件分類方法；和
輸出所述專利或?qū)＠暾埖姆诸悾?br> 其中，所述文件分類方法是一個(gè)是/否分類方法。
105、根據(jù)權(quán)利要求104所述的方法，其特征在于所述文件選自專利和專利申請。
106、根據(jù)權(quán)利要求105所述的方法，其特征在于所述專利或?qū)＠暾埖闹辽僖徊糠职▽＠驅(qū)＠暾埖臋?quán)利要求的至少一部分。
107、根據(jù)權(quán)利要求105所述方法，其特征在于所述專利或?qū)＠暾埖闹辽僖徊糠职▽＠驅(qū)＠暾埖恼闹辽僖徊糠帧?br> 108、根據(jù)權(quán)利要求105所述方法，其特征在于所述專利或?qū)＠暾埖闹辽僖徊糠职▽＠驅(qū)＠暾埖陌l(fā)明概要的至少一部分。
109、一種用于分類專利或?qū)＠暾埖姆椒?，其特征在于包?br> 使用一個(gè)分類器，對一件專利或?qū)＠暾埖闹辽僖徊糠謭?zhí)行一種文件分類方法，該分類器基于與一個(gè)特定專利分類相關(guān)的至少一個(gè)文件而被訓(xùn)練，其中，所述文件分類方法是一個(gè)是/否分類方法；和
輸出所述專利或?qū)＠暾埖姆诸悺?br> 110、根據(jù)權(quán)利要求109所述的方法，其特征在于還包括使用一個(gè)不同的分類器重復(fù)所述方法，該分類器基于多個(gè)已知屬于第二個(gè)專利分類的文件而被訓(xùn)練。
111、根據(jù)權(quán)利要求109所述的方法，其特征在于所述專利或?qū)＠暾埖闹辽僖徊糠职▽＠驅(qū)＠暾埖臋?quán)利要求的至少一部分。
112、根據(jù)權(quán)利要求109所述的方法，其特征在于所述專利或?qū)＠暾埖闹辽僖徊糠职▽＠驅(qū)＠暾埖恼闹辽僖徊糠帧?br> 113、根據(jù)權(quán)利要求109所述的方法，其特征在于所述專利或?qū)＠暾埖闹辽僖徊糠职▽＠驅(qū)＠暾埖陌l(fā)明概要的至少一部分。
114、一種適應(yīng)文件內(nèi)容變化的方法，其特征在于包括
接收至少一個(gè)有標(biāo)記種子文件；
接收無標(biāo)記文件；
接收至少一個(gè)預(yù)設(shè)的成本因子；
使用所述至少一個(gè)預(yù)設(shè)的所述成本因子、至少一個(gè)種子文件、以及所述無標(biāo)記文件，訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器；
使用所述分類器，將具有高于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到多個(gè)類別；
使用所述分類器，將至少部分所述分類的文件重新分類到多個(gè)類別；和
將所述分類的文件的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
115、根據(jù)權(quán)利要求114所述的方法，其特征在于還包括將具有低于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件移入一個(gè)或多個(gè)新的類別。
116、根據(jù)權(quán)利要求114所述的方法，其特征在于還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子文件、以及所述無標(biāo)記文件，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器；其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述無標(biāo)記文件。
117、根據(jù)權(quán)利要求116所述的方法，其特征在于還包括為所述種子文件和無標(biāo)記文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
118、根據(jù)權(quán)利要求114所述的方法，其特征在于所述無標(biāo)記文件為客戶投訴，且還包括將產(chǎn)品變化與客戶投訴相聯(lián)系。
119、根據(jù)權(quán)利要求114所述的方法，其特征在于所述無標(biāo)記文件為發(fā)票。
120、一種分離文件的方法，其特征在于包括
接收有標(biāo)記數(shù)據(jù)；
接收一組無標(biāo)記文件；
基于所述有標(biāo)記數(shù)據(jù)和無標(biāo)記文件，使用轉(zhuǎn)導(dǎo)，自適應(yīng)概率性分類規(guī)則；
根據(jù)所述概率性分類規(guī)則，更新用于文件分離的權(quán)重；
確定在一組文件中分離的位置；
將確定的該組文件中分離的位置的標(biāo)識符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)；和
給所述文件標(biāo)記代碼，該代碼與所述標(biāo)識符有關(guān)。
121、一種文件搜索的方法，其特征在于包括
接收一個(gè)搜索查詢；
基于所述搜索查詢，獲取文件；
輸出所述文件；
為至少部分所述文件接收用戶鍵入的標(biāo)記，所述標(biāo)記指示該文件與所述搜索查詢的相關(guān)性；
基于所述搜索查詢和用戶鍵入的標(biāo)記，訓(xùn)練一個(gè)分類器；
使用所述分類器，對所述文件執(zhí)行一種文件分類方法，以重新分類所述文件；和
基于其分類，輸出至少部分所述文件的標(biāo)識符。
122、根據(jù)權(quán)利要求121所述的方法，其特征在于所述文件分類方法包括一個(gè)轉(zhuǎn)導(dǎo)過程。
123、根據(jù)權(quán)利要求122所述的方法，其特征在于所述分類器是一個(gè)轉(zhuǎn)導(dǎo)分類器，且還包括通過迭代計(jì)算，使用至少一個(gè)預(yù)設(shè)的成本因子、所述搜索查詢、以及所述文件，訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器，其中，對于每一次迭代計(jì)算，調(diào)節(jié)所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)，并使用所述訓(xùn)練的分類器分類所述文件。
124、根據(jù)權(quán)利要求123所述的方法，其特征在于還包括為所述搜索查詢和文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率；其中，對于每一次迭代計(jì)算，根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算，調(diào)節(jié)所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
125、根據(jù)權(quán)利要求121所述的方法，其特征在于所述文件分類方法包括一個(gè)支持向量機(jī)過程。
126、根據(jù)權(quán)利要求121所述的方法，其特征在于所述文件分類方法包括一個(gè)最大熵判別過程。
127、根據(jù)權(quán)利要求121所述的方法，其特征在于所述重新分類的文件被輸出，那些具有最高置信度的文件被首先輸出。
全文摘要
本發(fā)明公開了一種用于分類數(shù)據(jù)的系統(tǒng)、方法、數(shù)據(jù)處理裝置和制品。還公開了使用機(jī)器學(xué)習(xí)方法的數(shù)據(jù)分類方法。
文檔編號G06F15/18GK101449264SQ200780001197
公開日2009年6月3日申請日期2007年6月7日優(yōu)先權(quán)日2006年7月12日
發(fā)明者毛里蒂烏斯·A·R·施密特勒, 克里斯托弗·K·哈里斯, 羅蘭·博雷, 安東尼·薩拉, 妮古拉·卡魯索申請人:柯法克斯公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：毛里蒂烏斯.A.R.施密特勒;克里斯托弗.K.哈里斯;羅蘭.博雷;安東尼.薩拉;妮古拉.卡魯索
技術(shù)所有人：柯法克斯公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于轉(zhuǎn)導(dǎo)數(shù)據(jù)分類的方法和系統(tǒng)以及使用機(jī)器學(xué)習(xí)方法的數(shù)據(jù)分類方法