專利名稱:為在大量電子文檔中搜索而確定文檔相關(guān)性的機(jī)器學(xué)習(xí)方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及計(jì)算機(jī)系統(tǒng),尤其涉及采用自動化分類技術(shù)來幫助尋找信息的用戶和/或管理這些信息的管理員進(jìn)行有效的信息檢索。
背景技術(shù):
搜索系統(tǒng)或信息檢索系統(tǒng)是使用戶能夠找出與主題相關(guān)的所需信息的通用工具。為了找到所需信息,搜索引擎或其它搜索系統(tǒng)常被用來使用戶能指引用戶設(shè)計(jì)的查詢。不幸地是,當(dāng)因?yàn)橛脩艨赡軐θ绾蝿?chuàng)作或設(shè)計(jì)特定查詢并無把握、或者因?yàn)椴樵兛赡苁呛磺宓亩性S多不相關(guān)文件被檢索到時(shí),常常會給用戶造成挫折感。這常常致使用戶連續(xù)不斷地修改查詢,以便把檢索到的搜索結(jié)果限定到適當(dāng)數(shù)量的文件。
作為此左右為難窘境的一個(gè)示例,在搜索系統(tǒng)輸入查詢字段中鍵入字或短語而檢索出數(shù)以千計(jì)的文件-在因特網(wǎng)情形中則可能為數(shù)百萬個(gè)網(wǎng)站-作為可能的候選文件也不是什么不同尋常之事。為了搞清檢索到的大量候選文件,用戶常常會用其它字的組合進(jìn)行試驗(yàn)以進(jìn)一步減少清單長度,因?yàn)楸M管許多檢索結(jié)果可能共享相同元素、詞語或短語但在主題上卻幾乎沒有或根本沒有上下文相似性。這種方法對執(zhí)行搜索的用戶和系統(tǒng)而言都是不準(zhǔn)確和浪費(fèi)時(shí)間的。不準(zhǔn)確性體現(xiàn)在檢索出成千上萬的(如果不是數(shù)以百萬的)用戶不感興趣的無關(guān)文件/網(wǎng)站。在大規(guī)模數(shù)據(jù)庫中搜索可能的卻無關(guān)的文件時(shí),被浪費(fèi)的還有時(shí)間及系統(tǒng)處理資源。
在信息檢索(IR)領(lǐng)域中有一個(gè)共識確保顯示給用戶的文檔是根據(jù)相關(guān)性排序的,最相關(guān)的排列在最前面。在涉及搜索大量文檔的一些應(yīng)用中,諸如在一家公司的全公司域(corporate domain)內(nèi)搜索時(shí),編輯人員檢查最常用的搜索詞,并選擇未來響應(yīng)于這些查詢詞應(yīng)當(dāng)被顯示的文檔。例如,編輯人員可選擇對用戶常見問題的解答??梢岳斫猓瑢?shù)百或數(shù)千詞語做人工處理是浪費(fèi)時(shí)間、低效的。
發(fā)明內(nèi)容
為了提供對本發(fā)明一些方面的基本理解,以下給出了本發(fā)明的簡單內(nèi)容。本部分并非是本發(fā)明的廣泛總覽。它并非旨在確定本發(fā)明的關(guān)鍵/重要元素或描繪本發(fā)明的范圍。其唯一目的是以簡化形式揭示本發(fā)明的一些概念,作為后面的更詳細(xì)說明的序幕。
本發(fā)明涉及通過一種或多種學(xué)習(xí)方法促進(jìn)信息檢索和管理的系統(tǒng)和方法,該學(xué)習(xí)方法根據(jù)正面和負(fù)面的測試數(shù)據(jù)進(jìn)行培訓(xùn),以便諸如根據(jù)文檔或提示其它有用信息網(wǎng)站的鏈接來確定條目的相關(guān)性。在一個(gè)方面,本發(fā)明采用了一個(gè)人工選定的文檔集或條目集(稱為“最佳方案(best bets)”)來培訓(xùn)機(jī)器學(xué)習(xí)文本分類器。該分類器可處理人工選定或機(jī)器選定的最佳方案(即正面案例)和由常規(guī)統(tǒng)計(jì)搜索選定的其它文檔(即負(fù)面案例),來建立標(biāo)識最佳方案文檔的模型。在訓(xùn)練之后,分類器(或多個(gè)分類器)和模型可被應(yīng)用到新的查詢詞上,以標(biāo)識最佳方案文檔。這包括在各種培訓(xùn)迭代(iteration)中對新模型進(jìn)行自舉(bootstrapping),以幫助建立可被用來作更準(zhǔn)確信息檢索的學(xué)習(xí)表達(dá)(learned expression)的成長型模型。
在一個(gè)示例方面,分類器可在若干應(yīng)用之一中使用。這包括例如在離線場景中幫助編輯人員選擇最佳方案的工具。在在線示例中,可在常規(guī)統(tǒng)計(jì)搜索的輸出之上運(yùn)行-過濾器,其中“最佳方案”被放置、顯示、或排列在被確定具較低重要性的非最佳方案或條目之前??蛇x地,所有文檔可根據(jù)它們成為最佳方案的幾率進(jìn)行排列。這些場景和其它因素的任何一種的效果是增加排列在最前的文檔的精確度(即相關(guān)性)。
本發(fā)明可根據(jù)有助于信息管理和檢索的各種不同方法來實(shí)現(xiàn)。例如,搜索分析員或管理員可以用分類工具進(jìn)行文本搜索,然后接收最佳方案或相關(guān)性排列的建議,并選擇相關(guān)聯(lián)最佳方案的網(wǎng)站或鏈接。在在線情形中,搜索網(wǎng)站的最終終端用戶可被提供以最佳或經(jīng)排列的結(jié)果列表。因而,用查詢無關(guān)(query-independent)的分類來確定在給定上下文中的最佳/最相關(guān)網(wǎng)站。
關(guān)于自舉過程,在起始時(shí)向系統(tǒng)提供人工選定的最佳方案。通過使用在每次培訓(xùn)迭代中從新模型導(dǎo)出的機(jī)器建議并經(jīng)人工校驗(yàn)的最佳方案,培訓(xùn)數(shù)據(jù)隨著每次迭代而增加。最佳方案可由編輯人員仔細(xì)檢查所有相應(yīng)內(nèi)容而以人工方式選定,或者可由系統(tǒng)通過例如觀察用戶往往選擇的是哪些文檔而推斷哪些條目可能是最佳的。在后一情形中,本發(fā)明提供了最佳的可能性來顯示用戶可能會認(rèn)為對其有足夠的興趣以至于希望查閱或檢索這些文檔或條目類型。
為了達(dá)到前述及相關(guān)目標(biāo),本發(fā)明的某些說明性方面在此結(jié)合以下說明及附圖來描述。但這些方面僅僅指示了本發(fā)明可在其中實(shí)踐的各種方式,且本發(fā)明旨在包括所有這些方式。結(jié)合附圖參閱本發(fā)明的以下具體說明,本發(fā)明的其它優(yōu)點(diǎn)和新穎特征會變得清楚。
圖1是根據(jù)本發(fā)明一個(gè)方面的查詢無關(guān)模型和系統(tǒng)的示意塊圖。
圖2是根據(jù)本發(fā)明一個(gè)方面的示例文檔排序過程的示圖。
圖3是根據(jù)本發(fā)明一方面的示例建模過程的流程圖。
圖4是根據(jù)本發(fā)明一方面的示例培訓(xùn)和測試過程的示圖。
圖5是根據(jù)本發(fā)明一方面的用于網(wǎng)站排序的示例性用戶界面的示圖。
圖6是根據(jù)本發(fā)明一方面的用于在線排序的示例性用戶界面的示圖。
圖7是根據(jù)本發(fā)明一方面的示例應(yīng)用的示圖。
圖8是根據(jù)本發(fā)明一個(gè)方面的適當(dāng)操作環(huán)境的示意塊圖。
圖9是本發(fā)明可與之交互的采樣計(jì)算環(huán)境的示意塊圖。
具體實(shí)施例方式
本發(fā)明涉及應(yīng)用自動學(xué)習(xí)過程用來確定文檔相關(guān)性并幫助信息檢索活動的系統(tǒng)和方法。在一方面中,提供了一種促進(jìn)機(jī)器學(xué)習(xí)方法以確定文檔相關(guān)性的系統(tǒng)。該系統(tǒng)包括接收用作正面測試案例的人工選定條目集和/或機(jī)器選定條目集的存儲組件。用人工選定條目(或機(jī)器選定條目)作正面測試案例并用一個(gè)或多個(gè)其它條目作負(fù)面測試案例,培訓(xùn)組件培訓(xùn)至少一個(gè)分類器以便提供查詢獨(dú)立模型,其中其它條目可通過統(tǒng)計(jì)搜索來選定。還有,受訓(xùn)分類器可用于協(xié)助人們來選擇新的正面案例,或用來過濾基于統(tǒng)計(jì)的搜索。如果指示相關(guān)性或重要性的期望或顯式標(biāo)記能加到返回的結(jié)果上,過濾器的輸出就可排列成使得正面案例被排列在負(fù)面案例之前。如果需要,輸出也可根據(jù)其為正面案例的幾率進(jìn)行排序。
當(dāng)在本申請中使用時(shí),術(shù)語“組件”、“分類器”、“模型”、“系統(tǒng)”等等都意指計(jì)算機(jī)相關(guān)實(shí)體,即硬件、硬件和軟件的組合、軟件、或執(zhí)行中的軟件。例如,組件可以是但不限于是運(yùn)行于處理器上的進(jìn)程、處理器、對象、可執(zhí)行程序、執(zhí)行線程、程序和/或計(jì)算機(jī)。作為說明,運(yùn)行于服務(wù)器上的應(yīng)用和服務(wù)器都是組件。一個(gè)或多個(gè)組件可駐留于執(zhí)行的進(jìn)程和/或線程中,且組件可位于一臺計(jì)算機(jī)上和/或分布在兩臺或多臺計(jì)算機(jī)之間。還有,這些組件可從存儲有各種數(shù)據(jù)結(jié)構(gòu)的各種計(jì)算機(jī)可讀介質(zhì)執(zhí)行。組件可經(jīng)由本地和/或遠(yuǎn)程的進(jìn)程進(jìn)行通信,比如根據(jù)有一個(gè)或多個(gè)數(shù)據(jù)分組的信號進(jìn)行通信(例如,來自一個(gè)與本地系統(tǒng)中的、分布式系統(tǒng)中的另一組件交互的組件、和/或一個(gè)通過該信號跨越諸如因特網(wǎng)的網(wǎng)絡(luò)與其它系統(tǒng)交互的組件的數(shù)據(jù))。
先參閱圖1,根據(jù)本發(fā)明的一方面示出了與查詢無關(guān)的模型和系統(tǒng)100。系統(tǒng)100包括分析存儲在數(shù)據(jù)存儲器120中的數(shù)據(jù)以提供一查詢無關(guān)模型的一個(gè)或多個(gè)分類器110。這些數(shù)據(jù)可包括用戶感興趣的相關(guān)網(wǎng)站、文檔、其它數(shù)據(jù)項(xiàng)等等的記錄(隨著時(shí)間的流逝而聚集的數(shù)據(jù))。數(shù)據(jù)存儲器120可包括用于集中存儲(例如公司.com)的信息或來自分散源的信息,諸如各種網(wǎng)站、文檔收藏、百科全書等等。分類器110被用來自動分析存儲器中的數(shù)據(jù)以便幫助與用戶界面140交互的一個(gè)或多個(gè)工具。
在一示例中,工具130可包括幫助管理員選擇用戶在搜索信息時(shí)選擇向他們顯示的相關(guān)網(wǎng)站的編輯工具。這些網(wǎng)站可包括以最可能上下文或重要性(即最佳方案)向用戶顯示的排序列表,其中可能性可從分類器110確定。另一工具130可包括幫助在線用戶或終端用戶基于分類器110所確定的信息排序或分類來確定條目重要性的排序工具。
一般而言,分類器根據(jù)正面和負(fù)面測試數(shù)據(jù)進(jìn)行培訓(xùn),以便諸如從文檔或建議其它有用信息網(wǎng)站的鏈接來確定條目的相關(guān)性。在一方面,這包括一組人工選定的文檔或條目(稱為“最佳方案”)用來培訓(xùn)機(jī)器信息文本分類器110(或多個(gè)分類器)。分類器110可處理存儲在數(shù)據(jù)存儲器120中的人工或機(jī)器選定最佳方案(即正面案例)以及由常規(guī)的統(tǒng)計(jì)搜索選定的其它文檔(即負(fù)面案例)。在培訓(xùn)之后,分類器110能應(yīng)用于新查詢詞,以標(biāo)識最佳方案或相關(guān)文檔。這包括在各種培訓(xùn)迭代中自舉新模型,以推動建立可用來進(jìn)行更準(zhǔn)確的信息檢索的學(xué)習(xí)表達(dá)的成長模型,詳述如下。
在一示例中,分類器110可在若干應(yīng)用之一中利用。例如,這包括幫助編輯人員或機(jī)器在離線場景中選擇最佳方案的工具130。在在線示例或用戶查詢示例中,過濾器(未示出)可運(yùn)行于常規(guī)統(tǒng)計(jì)搜索的輸出之上,其中“最佳方案”置于、顯示、或排序在確定為較不重要的非最佳方案或條目之前。可選地,所有文檔或者一個(gè)文檔子集可根據(jù)它們成為最佳方案的幾率進(jìn)行排序。這些和其它場景的任何一種的效果是提高排列在最前面的文檔的精確度(即相關(guān)性)。
如果需要,用戶界面140也可用來更新、改變或更改數(shù)據(jù)存儲器120,并分析、處理和接收分類的結(jié)果。界面140可包括具有一個(gè)或多個(gè)顯示對象(未示出)的顯示(未示出)以有助于對系統(tǒng)100的操作,其中顯示對象可包括有多種可配置尺寸、形狀、色彩、文本、數(shù)據(jù)和聲音的諸如可配置圖標(biāo)、按鈕、滑塊、輸入框、選項(xiàng)、菜單、制表鍵(tab)等等。此外,可提供包括多個(gè)其它輸入或控制的一個(gè)或多個(gè)用戶輸入(未示出)用來調(diào)節(jié)和配置本發(fā)明的一個(gè)或多個(gè)方面。這可包括從鼠標(biāo)、鍵盤、語音輸入、網(wǎng)站、瀏覽器、遠(yuǎn)程web服務(wù)和/或其它諸如話筒、照相機(jī)或視頻輸入的裝置接收用戶命令來影響或改變系統(tǒng)100的操作。
分類器110可根據(jù)多種技術(shù)實(shí)現(xiàn)。根據(jù)本發(fā)明的一方面,所熟知的支撐向量機(jī)器(Support Vector Machines,SVM)被用作分類器。可以理解其它分類器方法也可采用,諸如樸素貝葉斯( Bayes)方法貝葉斯網(wǎng)絡(luò)(Bayes Net)方法、決策樹方法、基于相似性的方法、基于向量的方法、隱藏馬爾可夫(Markov)模型方法、和/或其它學(xué)習(xí)方法。SVM方法通過學(xué)習(xí)或訓(xùn)練階段進(jìn)行配置。分類器是把輸入屬性向量x=(x1,x2,x3,x4,xn)映射到“輸入屬于一個(gè)類”的置信的函數(shù)-即f(x)=confidence(class)(置信(類))。在主題分類情形中,屬性是查詢中的字或其它源自查詢中字的域?qū)S脤傩?例如詞性、關(guān)鍵詞語的存在),而類是感興趣的類別或領(lǐng)域。SVM和其它學(xué)習(xí)方法的一個(gè)重要方面是采用一個(gè)經(jīng)標(biāo)注的實(shí)例的培訓(xùn)集以自動地學(xué)習(xí)分類函數(shù)。
培訓(xùn)集可包括指示用來詢問特定主題的可能和/或真實(shí)的元素或元素組合(例如字或短語)的詞1到N的子集。每個(gè)詞可與一個(gè)或多個(gè)主題相關(guān)聯(lián)(例如(Q1,T2,T3,T9)、(Q7,T2,T6)、(Q2,T5))。在學(xué)習(xí)期間,學(xué)習(xí)了把輸入特征映射到類的置信的函數(shù)。因而,在學(xué)習(xí)了模型之后,主題分別被表示為輸入特征的加權(quán)向量。注意,詞、查詢和/或主題的其它實(shí)現(xiàn)是可能的。例如,可采用另一種歸納法來不但培訓(xùn)主題和副主題的查詢,而且培訓(xùn)關(guān)聯(lián)于目標(biāo)內(nèi)容和/或文檔的原始文本。換言之,系統(tǒng)可用幾個(gè)查詢做種子,但卻向其提供多個(gè)原始文本,而且在后來還可添加查詢和原始文本來增強(qiáng)該系統(tǒng)。
對于主題分類,常采用二元特征值(例如,字在主題中出現(xiàn)或未曾出現(xiàn))、或?qū)嵵堤卣?例如帶有重要性權(quán)重r的字出現(xiàn))。由于主題集合會包含大量唯一的詞語,當(dāng)把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到主題分類時(shí)一般采用特征選擇。為了減少特征數(shù)量,特征可基于頻率總計(jì)數(shù)被移除,并基于對類別的擬合根據(jù)少量特征進(jìn)行選擇。對類別的擬合可通過交互信息、信息增益(information gain)、卡方(Chi-square)檢驗(yàn)法和/或任何其它統(tǒng)計(jì)選擇技術(shù)來確定。這些較小的描述則可作為SVM的輸入。注意,線性SVM提供了適當(dāng)?shù)臍w納準(zhǔn)確率并提供快速學(xué)習(xí)。其它類非線性SVM包括多項(xiàng)式分類器和徑向基函數(shù),并也可利用在本發(fā)明中。
對于包括SVM的多種學(xué)習(xí)方法而言,每個(gè)類別的模型都可表示為屬性權(quán)重的向量w(例如w1,w2,...,wv)。因而,每一類別都有帶權(quán)重的學(xué)習(xí)向量。當(dāng)?shù)孟?quán)重后,通過計(jì)算x和w的點(diǎn)積對新查詢進(jìn)行分類,其中w是相應(yīng)類學(xué)習(xí)權(quán)重的向量,而x是表示新查詢的向量。S型函數(shù)(sigmoid function)也可被提供用來把SVM的輸出變換為幾率。幾率提供跨類別或類的可比得分。
SVM是參數(shù)化函數(shù),其函數(shù)形式在培訓(xùn)前定義。培訓(xùn)SVM一般需要一個(gè)經(jīng)標(biāo)記的培訓(xùn)集,因?yàn)镾VM將從示例集擬合(fit)函數(shù)。培訓(xùn)集包括E個(gè)示例,E為整數(shù)。每個(gè)示例包括輸入向量x、以及類別標(biāo)記y,其描述輸入向量是否在類別中。對于每個(gè)類別,在用E個(gè)示例培訓(xùn)的SVM中有E個(gè)自由參數(shù)。為了得出這些參數(shù),要求解二次規(guī)劃問題(QP),這是眾所周知的。有多種眾所周知解決QP問題的技術(shù)。這些技術(shù)可包括順序最小優(yōu)化技術(shù)(Sequential Minimal Optimization),以及諸如多級組塊(chunking)的其它技術(shù)。
現(xiàn)在參閱圖2,示例文檔重新排列過程200根據(jù)本發(fā)明的一方面被示出。這可包括信息的后處理,用來確定文檔或網(wǎng)站對用戶或管理員的相關(guān)性。在該方面中,諸如條目、文檔、記錄、詞語等的數(shù)據(jù)在210接收并根據(jù)如上所述的分類技術(shù)在220自動排序。在230,成為相關(guān)條目的幾率高的條目在具較低排序的條目之前被呈現(xiàn)給用戶(240)。這種排序可根據(jù)預(yù)定幾率閾值獲取,其中成為相關(guān)條目的幾率校高的條目呈現(xiàn)在較低幾率的條目之前。然而,可以理解,與根據(jù)幾率的隱式排序不同,可在所顯示的條目上加顯式標(biāo)記用來指示文檔或網(wǎng)站的相關(guān)性或重要性(例如采用指示文檔相關(guān)性的色彩、數(shù)字、符號)。
圖3和4是根據(jù)本發(fā)明的一方面示出建模和培訓(xùn)過程的流程圖。為便于解釋,方法論被顯示和描述成一系列動作??梢岳斫夂兔靼椎氖牵景l(fā)明并不限于所述動作和/或動作之順序,例如動作能以各種順序和/或同時(shí)發(fā)生,并與未在此顯示和描述的其它動作一起發(fā)生。例如,本領(lǐng)域技術(shù)人員將理解和明白,這些方法論可另外通過狀態(tài)圖表示為一系列相互關(guān)連的狀態(tài)或事件。此外,要實(shí)現(xiàn)根據(jù)本發(fā)明的方法論,并不是所有的圖示動作都是必需的。
參閱圖3,示例建模過程300根據(jù)本發(fā)明的一方面示出。在310,至少一個(gè)被用來提取或確定最佳方案文檔或網(wǎng)站本質(zhì)的文本分類器被構(gòu)建。在320,要分析的測試數(shù)據(jù)存儲器被選中。例如,這可包括有各種主題或詞語的適當(dāng)域,或包括分布在各個(gè)本地或遠(yuǎn)程數(shù)據(jù)庫的多個(gè)域。在330,一個(gè)或多個(gè)類別從區(qū)域內(nèi)選中(例如,團(tuán)體、下載、合伙人、產(chǎn)品信息、支持、技術(shù)、培訓(xùn)、公司信息等等)。在340,至少一個(gè)分類器被分別分配給類別以便學(xué)習(xí)類別中最佳方案的特征。在350,已知培訓(xùn)數(shù)據(jù)集被用來培訓(xùn)和測試類別分類器,在下面參照圖4更詳細(xì)地描述。
圖4根據(jù)本發(fā)明的一方面示出了示例培訓(xùn)和測試過程400。進(jìn)行到410,數(shù)據(jù)庫中的詞語(term)被拆分為培訓(xùn)數(shù)據(jù)集和測試數(shù)據(jù)集(例如,80%的詞語用來培訓(xùn),20%的詞語用來測試分類器)。在420,每類的和每個(gè)詞語的最佳結(jié)果文檔被提取出來(例如,提取最佳的10個(gè)文檔)。在430,相應(yīng)類別分類器在420的提取結(jié)果之上進(jìn)行培訓(xùn)(例如,通過采用字特征)。在440,以上所述的培訓(xùn)數(shù)據(jù)由受訓(xùn)分類器分析,以確定分類器的準(zhǔn)確率。例如,這包括由分類器確定的類別準(zhǔn)確性與基線估計(jì)之間的比較,如下表所示
圖5根據(jù)本發(fā)明的一方面示出了用于網(wǎng)站排序的示例用戶界面500。在該方面中,示例搜索詞語(例如,blaster worm(胚胞蟲))在510根據(jù)本發(fā)明被提交給適合的數(shù)據(jù)網(wǎng)站。該網(wǎng)站被拆分成各種類別520和530。在每個(gè)類別中的結(jié)果540、541等可包括到提供與所需詞語相關(guān)的更多信息的網(wǎng)站的最佳方案鏈接(best bet link)。圖6根據(jù)本發(fā)明的一個(gè)方面描繪了在線排序的示例性用戶界面600。在該方面中,界面600根據(jù)用戶提交的查詢詞語620排序類別610中的文檔。如上所述,這可包括界面600上的隱式排序,其中相關(guān)性強(qiáng)的文檔呈現(xiàn)在其它文檔之前。
圖7根據(jù)本方面的一方面描述了示例應(yīng)用700。應(yīng)用700包括一個(gè)或多個(gè)可能使用場景,盡管可以理解的是還可采用其它應(yīng)用。在710,一個(gè)案例應(yīng)用到查詢和與這些查詢相關(guān)的文檔,其中的文檔是先前根據(jù)最佳方案分析時(shí)沒有進(jìn)行過處理的。在720,離線處理可包括處理來自記錄的最前面的n個(gè)查詢(n為整數(shù))、獲取這些查詢的搜索結(jié)果、從結(jié)果中標(biāo)識最佳候選結(jié)果、以及將該分析轉(zhuǎn)送給確定一則信息對于給定查詢或主題是否值得顯示的編輯人員。在730,在線過程可包括從可能文檔或網(wǎng)站列表中提取最佳方案,并自動把最佳方案置于其它諸如統(tǒng)計(jì)處理的技術(shù)所處理的可能條目之前。在740,在線技術(shù)還可包括按條目成為最佳方案的幾率來重新排序結(jié)果。
參照圖8,實(shí)現(xiàn)本發(fā)明各方面的示例性環(huán)境810具有計(jì)算機(jī)812。計(jì)算機(jī)812具有處理單元814、系統(tǒng)存儲器816、及系統(tǒng)總線818。系統(tǒng)總線818耦合系統(tǒng)組件包括,但不限于將系統(tǒng)存儲器816耦合到處理單元814。處理單元814可以是各種可用處理器的任一種。雙微處理器和其它多處理器架構(gòu)也可被用作處理單元814。
系統(tǒng)總線818可以是若干類總線結(jié)構(gòu)的任一種,包括存儲器總線或存儲器控制器、外圍總線或外部總線、和/或使用各種可用總線架構(gòu)任一種的本地總線,這些總線架構(gòu)包括,但不限于,16位總線、工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)、微信道架構(gòu)(MSA)、擴(kuò)展ISA(EISA)、智能磁盤設(shè)備(IDE)、VESA局部總線(VLB)、外圍部件互連(PCI)、通用串行總線(USB)、加速圖形接口(AGP)、個(gè)人計(jì)算機(jī)存儲卡國際協(xié)會總線(PCMCIA)、和小型計(jì)算機(jī)系統(tǒng)接口(SCSI)。
系統(tǒng)存儲器816具有易失存儲器820和非易失存儲器822。包含在計(jì)算機(jī)812硬件間傳送如起動時(shí)信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS),存儲在非易失存儲器822上。作為說明且無限制,非易失存儲器822可包括只讀存儲器(ROM)、可編程ROM(PROM)、電可編程ROM(EPROM)、電可擦除ROM(EEPROM)或閃存。易失存儲器820具有作為外部高速緩存的隨機(jī)存取存儲器(RAM)。作為說明且無限制,RAM有多種形式可用,諸如同步RAM(SRAM)、動態(tài)RAM(DRAM)、同步DRAM(SRAM)、雙數(shù)率SDRAM(DDR SDRAM)、增強(qiáng)DSRAM(ESDRAM)、同步鏈接DRAM(SLDRAM)、和直接Rambus RAM(DRRAM)。
計(jì)算機(jī)812還具有可移動/不可移動、易失/非易失計(jì)算機(jī)存儲介質(zhì)。圖8示出了例如磁盤存儲器824。磁盤存儲器包括,但不限于,象磁盤、軟盤、磁帶、Jaz盤、Zip盤、LS-100盤、閃存卡、或存儲棒。另外,磁盤存儲器824可具有單獨(dú)存儲介質(zhì)或結(jié)合其它存儲介質(zhì)包括,但不限于,諸如光盤ROM設(shè)備(CD-ROM)、可記錄光盤驅(qū)動器(CD-R盤)、可重寫光盤驅(qū)動器(CD-RW盤)、或數(shù)字化視頻ROM盤(DVD-ROM)的光盤。為便于磁盤存儲器824與系統(tǒng)總線818的連接,通??墒褂弥T如接口826的可移動或不可移動接口。
應(yīng)當(dāng)理解,圖8描述了作為用戶和在適當(dāng)操作環(huán)境800中描述的基本計(jì)算機(jī)資源間中間體的軟件。這種軟件具有操作系統(tǒng)828??纱鎯υ诖疟P存儲器824中的操作系統(tǒng)828,其作用是控制和分配計(jì)算機(jī)系統(tǒng)812的資源。系統(tǒng)應(yīng)用830得益于操作系統(tǒng)828通過存儲在或系統(tǒng)存儲器816或磁盤存儲器824中的程序模塊832和程序數(shù)據(jù)834對資源的管理。可以理解本發(fā)明可用各種操作系統(tǒng)或操作系統(tǒng)組合來實(shí)現(xiàn)。
用戶通過輸入設(shè)備836將命令或信息輸入到計(jì)算機(jī)812中。輸入設(shè)備836包括,但不限于,諸如鼠標(biāo)、跟蹤球、鐵筆、觸板、鍵盤、麥克風(fēng)、操縱桿、游戲墊、衛(wèi)星接收器、掃描儀、電視調(diào)諧器卡、數(shù)字相機(jī)、數(shù)字錄像照相機(jī)、網(wǎng)絡(luò)相機(jī)等定點(diǎn)設(shè)備。這些和其它輸入設(shè)備經(jīng)系統(tǒng)總線818通過接口端口838與處理單元814相連。接口端口838包括例如串行端口、并行端口、游戲端口、和通用串行總線(USB)。輸出設(shè)備840使用象輸入設(shè)備836的某些相同類型端口。因此,例如USB端口可用來為計(jì)算機(jī)812提供輸入,并將信息從計(jì)算機(jī)812輸出到輸出設(shè)備840。輸出適配器842被提供用來說明某些輸出設(shè)備象監(jiān)視器、揚(yáng)聲器、和打印機(jī),與其它輸出設(shè)備840之間,需要特殊適配器。輸出適配器842包括,作為說明且無限制,視頻卡和聲卡在輸出設(shè)備840和相同總線818間提供了連接方法。應(yīng)該注意的是諸如遠(yuǎn)程計(jì)算機(jī)844的其它設(shè)備和/或設(shè)備系統(tǒng)提供輸入和輸出功能。
計(jì)算機(jī)812使用與一臺或多臺遠(yuǎn)程計(jì)算機(jī)如遠(yuǎn)程計(jì)算機(jī)844的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)844可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、工作站、基于微處理器設(shè)備、同等設(shè)備或其它相同網(wǎng)絡(luò)節(jié)點(diǎn)等等,而且通常包括所述與計(jì)算機(jī)812相關(guān)的許多或全部元件。為簡化起見,僅存儲器存儲裝置846與遠(yuǎn)程計(jì)算機(jī)844一起圖示。遠(yuǎn)程計(jì)算機(jī)844經(jīng)網(wǎng)絡(luò)接口848與計(jì)算機(jī)812邏輯連接,然后通過網(wǎng)絡(luò)連接850進(jìn)行物理連接。網(wǎng)絡(luò)接口848包括諸如局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)的有線和/或無線通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口(FDDI)、銅線分布式數(shù)據(jù)接口(CDDI)、以太網(wǎng)/IEEE1102.3、令牌環(huán)/IEEE1102.5等等。WAN技術(shù)包括,但不限于,點(diǎn)對點(diǎn)鏈接、象綜合服務(wù)數(shù)字網(wǎng)(ISDN)及其后變種的電路切換網(wǎng)絡(luò)、報(bào)文分組交換網(wǎng)絡(luò)、和數(shù)字用戶線路(DSL)。
通信連接850指向被用來將網(wǎng)絡(luò)接口848連接到總線818的硬件/軟件。盡管為了清晰地說明,通信連接850被示為位于計(jì)算機(jī)812內(nèi),但它也可在計(jì)算機(jī)812之外。與網(wǎng)絡(luò)接口848連接所必需的硬件/軟件具有,僅作為示例,諸如包括常用電話級調(diào)制解調(diào)器、電纜調(diào)制解調(diào)器和DSL調(diào)制解調(diào)器的調(diào)制解調(diào)器、ISDN適配器、和以太網(wǎng)卡等內(nèi)部和外部技術(shù)。
圖9是本發(fā)明可與之交互的采樣計(jì)算環(huán)境900的示意塊圖。系統(tǒng)900包括一臺或多臺客戶機(jī)910??蛻魴C(jī)910可以是硬件和/或軟件(例如線程、過程、計(jì)算裝置)。系統(tǒng)900還可包括一臺或多臺服務(wù)器930。服務(wù)器930也可以是硬件和/或軟件(例如線程、過程、計(jì)算裝置)。服務(wù)器930可采用本發(fā)明覆蓋線程來執(zhí)行變換。在客戶機(jī)910和服務(wù)器930間的一可能通信可能是以適于在兩個(gè)或多個(gè)計(jì)算機(jī)過程間傳送的數(shù)據(jù)包形式進(jìn)行。系統(tǒng)900包括可用來便于客戶機(jī)910和服務(wù)器930間通信的通信框架950??蛻魴C(jī)910可與用來存儲客戶機(jī)910本地信息的一個(gè)或多個(gè)客戶數(shù)據(jù)存儲960作可操作連接。類似地,服務(wù)器930可與用來存儲服務(wù)器930本地信息的一個(gè)或多個(gè)客戶數(shù)據(jù)存儲940作可操作連接。
以上所述包括本發(fā)明的諸多示例。當(dāng)然,為描述本發(fā)明而對每一能想到的組件或方法論組合進(jìn)行描述是不可能的,但本領(lǐng)域普通技術(shù)人員明白本發(fā)明的更多排列和組合是可能的。因此,本發(fā)明意欲包含所有這樣的在所附權(quán)利要求書精神和范圍內(nèi)的變更、修改、和變化。此外,就用于具體實(shí)施方式
或權(quán)利要求書的術(shù)語“具有”而言,這種術(shù)語意在以類似于術(shù)語“包括”在權(quán)利要求書中作連接詞的方式作包含意義解。
權(quán)利要求
1.一種便于機(jī)器學(xué)習(xí)方法確定文檔相關(guān)性的系統(tǒng),其特征在于,包括一存儲組件,其接收人工或機(jī)器選定條目集并用作正面測試案例;以及一培訓(xùn)組件,其用所述人工或機(jī)器選定條目作為正面測試案例、用一個(gè)或多個(gè)其它條目作為負(fù)面測試案來培訓(xùn)至少一個(gè)分類器,以便提供一查詢無關(guān)模型。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述負(fù)面測試案例通過一統(tǒng)計(jì)搜索選定。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述受訓(xùn)分類器被用來幫助人們選擇新的正面案例。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述受訓(xùn)分類器被用來過濾基于統(tǒng)計(jì)搜索所獲得的文檔。
5.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述過濾器的輸出被排序,使得正面案例被排列在負(fù)面案例之前。
6.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述輸出根據(jù)它們是正面案例的幾率進(jìn)行排序。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述存儲組件包括用戶感興趣的相關(guān)網(wǎng)站、文檔或數(shù)據(jù)條目的記錄。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述存儲組件包括集中存儲信息或來自分散源的信息,諸如各種網(wǎng)站、文檔收藏、百科全書、本地?cái)?shù)據(jù)源和遠(yuǎn)程數(shù)據(jù)源等。
9.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類器被用來自動分析所述存儲組件中的數(shù)據(jù),以便協(xié)助與用戶界面交互的一個(gè)或多個(gè)工具。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述工具包括管理工具、編輯工具、和排列工具中的至少一個(gè)。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述工具以在線方式和離線方式中的至少一種被采用。
12.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類器根據(jù)正面和負(fù)面測試數(shù)據(jù)進(jìn)行培訓(xùn),以便根據(jù)諸如文檔或建議其它有用信息網(wǎng)站的鏈接確定條目的相關(guān)性。
13.如權(quán)利要求12所述的系統(tǒng),其特征在于,還包括一人工選定文檔或條目集以培訓(xùn)機(jī)器學(xué)習(xí)分類器。
14.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述分類器應(yīng)用于新詞語,以標(biāo)識最佳方案或相關(guān)文檔。
15.如權(quán)利要求12所述的系統(tǒng),其特征在于,還包括在各種培訓(xùn)迭代中對新模型加以自舉,以促進(jìn)建立用于更準(zhǔn)確地進(jìn)行信息檢索活動的學(xué)習(xí)表達(dá)的成長模型。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于,還包括由編輯人員人工選定的最佳方案。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于,還包括一組件,以最佳的可能性顯示用戶可能認(rèn)為會感興趣到查看或檢索的文檔或條目類型。
18.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類器包括以下學(xué)習(xí)技術(shù)的至少一種支撐向量機(jī)器(SVM)技術(shù)、樸素貝葉斯技術(shù)、貝葉斯網(wǎng)絡(luò)技術(shù)、決策樹技術(shù)、基于相似性的技術(shù)、基于向量的技術(shù)、隱藏馬爾可夫模型技術(shù)、和/或其它學(xué)習(xí)技術(shù)。
19.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括一組件,以執(zhí)行信息的后處理以確定一文檔或一網(wǎng)站與用戶或管理員的相關(guān)性。
20.如權(quán)利要求19所述的系統(tǒng),其特征在于,所述后處理包括根據(jù)預(yù)定幾率閾值進(jìn)行排序,其中相關(guān)幾率較高的條目顯示在幾率較低的條目之前。
21.如權(quán)利要求19所述的系統(tǒng),其特征在于,還包括加到所顯示的條目上以指示文檔或網(wǎng)站的相關(guān)性或重要性的顯式標(biāo)注。
22.一種帶有存儲于其上的計(jì)算機(jī)可讀指令的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述指令用于實(shí)現(xiàn)權(quán)利要求1所述培訓(xùn)組件和所述存儲組件。
23.一種基于計(jì)算機(jī)的信息檢索系統(tǒng),其特征在于,它包括用來確定數(shù)據(jù)項(xiàng)的培訓(xùn)集的裝置;用來自動對所述培訓(xùn)集分類的裝置;用來從所述已分類培訓(xùn)集確定新條目的裝置;以及用來根據(jù)信息檢索請求呈現(xiàn)所述新條目的裝置。
24.如權(quán)利要求23所述的系統(tǒng),其特征在于,還包括用來測試所述已分類培訓(xùn)集的裝置。
25.一種促進(jìn)自動化信息檢索的方法,其特征在于,包括處理來自數(shù)據(jù)記錄的n個(gè)查詢,n為整數(shù);從所述n個(gè)查詢標(biāo)識相關(guān)的候選信息;以及培訓(xùn)所述分類器用來為隨后的搜索標(biāo)識其它相關(guān)的候選信息。
26.如權(quán)利要求25所述的方法,其特征在于,還包括把一分析轉(zhuǎn)送給確定一則信息對于給定查詢或主題是否值得呈現(xiàn)給編輯人員。
27.如權(quán)利要求25所述的方法,其特征在于,還包括從可能文檔或網(wǎng)站的列表中提取相關(guān)候選信息、并自動把所述最佳方案置于其它統(tǒng)計(jì)排序信息之前。
28.如權(quán)利要求25所述的方法,其特征在于,還包括按照一文檔成為文檔的幾率對結(jié)果重新排序,其中相應(yīng)文檔被下載、且提取詞語并在其中查尋出現(xiàn)在文檔中詞語。
29.如權(quán)利要求25所述的方法,其特征在于,還包括確定至少一個(gè)要分類的類別。
30.如權(quán)利要求29所述的方法,其特征在于,還包括采用培訓(xùn)數(shù)據(jù)集的一子集來測試所述分類類別。
31.一種具有存儲于其上的一數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述數(shù)據(jù)結(jié)構(gòu)包括一第一數(shù)據(jù)域,其涉及一相關(guān)性類別的培訓(xùn)數(shù)據(jù)集;一第二數(shù)據(jù)域,其涉及關(guān)于所述相關(guān)性類別的一新數(shù)據(jù)項(xiàng)集;以及一第三數(shù)據(jù)域,其涉及所述新數(shù)據(jù)項(xiàng)集的幾率排序。
全文摘要
本發(fā)明涉及應(yīng)用自動化學(xué)習(xí)過程用于確定文檔相關(guān)性并幫助信息檢索的系統(tǒng)和方法。提供了一種促進(jìn)確定文檔相關(guān)性的機(jī)器學(xué)習(xí)方法的系統(tǒng)。所述系統(tǒng)包括一個(gè)接收人工選定條目集以便用作高相關(guān)性文檔的正面測試案例的存儲組件。一培訓(xùn)組件用人工選定條目作為正面測試案例、用一個(gè)或多個(gè)其它條目作為負(fù)面測試案例來培訓(xùn)至少一個(gè)分類器以便提供查詢無關(guān)模型,其中其它條目可由例如統(tǒng)計(jì)搜索選定。另外,受訓(xùn)后的分類器可用于協(xié)助人們標(biāo)識和選擇新的正面案例、或用來過濾或重新排序根據(jù)基于統(tǒng)計(jì)的搜索所得到的結(jié)果。
文檔編號G06N3/00GK1637744SQ20051000406
公開日2005年7月13日 申請日期2005年1月7日 優(yōu)先權(quán)日2004年1月9日
發(fā)明者H·陳, R·錢德拉西卡, S·H·科斯頓 申請人:微軟公司