專利名稱:使用外部數(shù)據(jù)的搜索引擎兜售信息檢測的制作方法
技術(shù)領域:
本發(fā)明的實施例涉及使用通信網(wǎng)絡搜索相關數(shù)據(jù)實體的領域。尤其是,本發(fā)明的實施例涉及使用外部數(shù)據(jù)來阻止由電子文檔建立者的故意操作以至于把搜索引擎誤導為給該電子文檔不該有的高級別。
背景技術(shù):
因特網(wǎng)具有分布在眾多計算機上的大量的信息,因此為用戶提供各種主題的大量信息。這一點對許多其它通信網(wǎng)絡例如企業(yè)內(nèi)部互聯(lián)網(wǎng)和外部互聯(lián)網(wǎng)來說也是實事。盡管在網(wǎng)絡上有大量信息可用,找到想要的信息通常并不容易或不快。
搜索引擎被發(fā)展用來從事在網(wǎng)絡上尋找想要信息的問題。典型地,具有所需類型信息的想法的用戶輸入一個或多個搜索術(shù)語到搜索引擎。該搜索引擎返回一列搜索引擎確定包括與用戶指定的搜索術(shù)語相關的電子文檔的網(wǎng)絡位置(例如,統(tǒng)一資源定位器(URLs))。許多搜索引擎還提供相關級別。典型的相關級別是與其它電子文檔相比給定網(wǎng)絡位置的電子文檔與用戶指定的搜索術(shù)語相關的相對的似然性估計。例如,常規(guī)的搜索引擎可以基于特定搜索術(shù)語在電子文檔中出現(xiàn)的次數(shù),在電子文檔中的位置(例如,術(shù)語出現(xiàn)在標題通常被認為比出現(xiàn)在電子文檔的結(jié)尾更重要)來提供相關級別。此外,鏈接分析在排列網(wǎng)頁和其它超鏈接文檔中也變成強有力的技術(shù)。固定-文本分析,網(wǎng)頁結(jié)構(gòu)分析,關鍵術(shù)語列表的使用,以及URL文本是用于提供相關級別的其它技術(shù)。
電子文檔的建立者通常通過有意的努力來把他們的電子文檔提供給用戶使相關級別問題復雜化。例如,一些建立者試圖促使搜索引擎為他們的文檔產(chǎn)生比被批準更高級別數(shù)字。由電子文檔建立者試圖從搜索引擎中獲得不適當?shù)母呒墑e而對電子文檔的故意操作通常稱作搜索引擎兜售信息。搜索引擎兜售信息的目的是欺詐地誘惑用戶來訪問受控的電子文檔。操作的一種形式包括把上百的關鍵術(shù)語放到電子文檔中(例如,在電子文檔的元標簽中)或使用其它技術(shù)來干擾搜索引擎為過高估計(或甚至不正確鑒別)該電子文檔的關于一個或多個搜索術(shù)語的相關性。例如,汽車的分類廣告網(wǎng)頁的建立者可以用“汽車”的重復來填充“關鍵術(shù)語”部分。建立者這樣做目的是無論何時用戶搜索術(shù)語“汽車”,搜索引擎將鑒別該網(wǎng)頁為更相關。但更加精確地代表網(wǎng)頁主題的“關鍵術(shù)語”部分可以包括術(shù)語“汽車”,“小汽車”,“分類的”,以及“待售”。
為建立搜索引擎兜售信息的一些其它技術(shù)包括與實際用戶相比返回不同的電子文檔給搜索引擎(例如,遮蔽技術(shù)),瞄準一個與電子文檔不相關的關鍵術(shù)語,把關鍵術(shù)語放在用戶看不到的區(qū)域來增加關鍵術(shù)語計數(shù),在用戶看不到的區(qū)域內(nèi)放入鏈接來增加鏈接普及,產(chǎn)生低質(zhì)量入門網(wǎng)頁,欺騙地把用戶從高級別電子文檔重定向到不相關電子文檔以把不相關電子文檔提供給用戶,等等。結(jié)果搜索引擎為運行查詢的用戶提供非真正相關的更高級別的電子文檔。因此,搜索引擎不保護用戶以防這樣的故意排序操作。
現(xiàn)有的搜索引擎嘗試通過單獨地分析每一個兜售信息技術(shù)來阻止搜索引擎兜售信息以鑒別受控電子文檔的模式。當這樣的搜索引擎檢測到具有鑒別模型的電子文檔,于是該搜索引擎標記該電子文檔為兜售信息以避免在搜索結(jié)果提供該電子文檔給用戶或降級該結(jié)果。例如,特殊的搜索引擎可以標記起初為了搜索引擎而不是為終端用戶建立的作為搜索引擎兜售信息的電子文檔。相似地,搜索引擎可以檢測在電子文檔中的隱藏文本和/或隱藏鏈接并標記這些電子文檔為搜索引擎兜售信息。一些搜索引擎也可以檢測具有大量無效主機名字的網(wǎng)絡站點(例如,poker.foo.com,blackjack.foo.com,等)或具有過多的用來人工膨脹該網(wǎng)站的表面普及的交叉鏈接,并標記該站點為搜索引擎兜售信息。此外,現(xiàn)有搜索引擎可以檢測使用遮蔽技術(shù)或鏈接方法的網(wǎng)站,網(wǎng)站通過該鏈接方法與另外的網(wǎng)站交換互惠鏈接來增加搜索引擎最佳化。
與搜索引擎兜售信息相比,電子郵件(或e-mail)兜售信息是未經(jīng)請求的電子郵件消息,通常在一個時間發(fā)送給許多接收者。電子郵件兜售信息是電子的等同于垃圾郵件。在大多數(shù)情況下,電子郵件兜售信息消息的內(nèi)容與接收者的興趣無關。因此,建立電子郵件兜售信息是濫用因特網(wǎng)來以最小的代價分發(fā)消息給大量的人。
電子郵件兜售信息在很多方面區(qū)別于搜索引擎兜售信息。例如,程序可以自動產(chǎn)生電子郵件消息,以發(fā)送電子郵件兜售信息給大量的接收者。相比,搜索引擎兜售信息不包含電子郵件地址,發(fā)送者,或接收者。但是搜索引擎兜售信息仍然與電子郵件兜售信息共用某些特征。例如,搜索引擎兜售信息和電子郵件兜售信息都是不希望的,因為他們都是為了欺騙地引導用戶訪問特定的產(chǎn)品或業(yè)務而建立的。因此,時常,電子郵件兜售信息的建立者也產(chǎn)生搜索引擎兜售信息來增加一個或多個與產(chǎn)品或業(yè)務相關的電子文檔的曝光。也就是,兜售信息制造者通常依靠電子郵件兜售信息和搜索引擎兜售信息來銷售產(chǎn)品或業(yè)務。這樣,通常在電子郵件兜售信息和搜索引擎兜售信息之間有很強的相關性。然而,現(xiàn)有技術(shù)系統(tǒng)和方法忽略了在電子郵件兜售信息和搜索引擎的可能的源之間的這種相關性。特別地,現(xiàn)有技術(shù)把電子郵件兜售信息和搜索引擎兜售信息作為需要用完全不同的解決方法的單獨的問題來對待。
因此,期望找到有效鑒別和阻止搜索引擎兜售信息的解決方法。
發(fā)明內(nèi)容
本發(fā)明的實施例克服在現(xiàn)有技術(shù)中的一個或多個缺陷,通過在其它事情當中提供外部資源的使用來檢測可能的與搜索有關的不希望的電子文檔,因此,提供更好的搜索引擎結(jié)果。根據(jù)本發(fā)明的一個實施例,電子郵件兜售信息檢測系統(tǒng)鑒別電子郵件消息為可能的電子郵件兜售信息。存儲區(qū)域例如數(shù)據(jù)庫存儲包含在該電子郵件信息中的一列鏈接。本發(fā)明的實施例訪問該數(shù)據(jù)庫并為存儲在數(shù)據(jù)庫中的鏈接提供的電子文檔確定信任級別。該電子文檔的信任級別指示電子文檔是搜索引擎兜售信息的似然性。在另一個實施例中,本發(fā)明鑒別可能的電子郵件兜售信息起源的網(wǎng)絡地址。于是該數(shù)據(jù)庫存儲該網(wǎng)址。通過訪問該數(shù)據(jù)庫,本發(fā)明的實施例可以為位于該網(wǎng)址的電子文檔確定信任級別,因此,更好鑒別搜索引擎兜售信息。此外,電子郵件兜售信息檢測系統(tǒng)可以鑒別一列在電子郵件兜售信息中經(jīng)常出現(xiàn)的術(shù)語(例如,單詞,詞組,短語,字符串,n個字符列,二進制數(shù)據(jù),等等)。于是該數(shù)據(jù)庫存儲該列術(shù)語。本發(fā)明的一個實施例因此為與搜索引擎兜售信息有關的電子文檔產(chǎn)生信任級別,該兜售信息包括一個或多個存儲的電子郵件兜售信息術(shù)語以指示電子文檔是搜索引擎兜售信息的似然性。如果電子文檔有成為搜索引擎兜售信息的高信任級別,于是本發(fā)明的實施例可以降級在提供給用戶的搜索結(jié)果中的該電子文檔。另外,本發(fā)明的實施例可以從提供的搜索結(jié)果中移除該電子文檔。
根據(jù)本發(fā)明的一個或多個其它實施例,本發(fā)明允許用戶提供關于電子文檔愿望的信息。用戶可以提供該信息以響應電子郵件兜售信息或搜索引擎兜售信息。如果用戶提供的信息表征該電子文檔為不希望的,本發(fā)明的實施例于是鑒別電子文檔的一個或多個屬性來產(chǎn)生電子文檔的等級。如果該電子文檔具有高的等級,那么它具有成為搜索引擎兜售信息的高似然性。因此,本發(fā)明的實施例可以調(diào)整在搜索結(jié)果中的電子文檔的排序以提供精確的相關性等級給用戶。此外,這里描述的本發(fā)明的實施例的特征是經(jīng)濟可行的,商業(yè)實用的,并且比現(xiàn)行可用技術(shù)更容易實現(xiàn)。
簡單描述,使用本發(fā)明方面的方法估計與搜索相關的電子文檔。該方法包括確定電子文檔的第一信任級別。電子文檔是可以被搜索引擎獲取的以響應來自用戶的搜索請求。第一信任級別基于由搜索引擎外部的源提供的信息,指示該電子文檔是不希望的似然性。該方法也包括確定該電子文檔的第二信任級別。第二信任級別基于電子文檔的一個或多個屬性,指示該電子文檔對于搜索請求來說是不滿意的似然性。該方法還包括為該電子文檔產(chǎn)生一個等級,作為確定的第一信任級別和確定的第二信任級別的函數(shù)。該方法也包括基于電子文檔產(chǎn)生的等級指定與搜索請求有關的電子文檔為不滿意的。
在本發(fā)明的另一個實施例中,使用本發(fā)明方面的方法估計與搜索相關的電子文檔。該方法包括接收用戶提供的與電子文檔有關的信息。電子文檔是可以響應來自用戶的搜索請求被搜索引擎獲取的。用戶提供的信息表征該電子文檔為不希望的。該方法也包括為該電子文檔產(chǎn)生一個等級,作為接收的用戶提供的信息的函數(shù)。該方法還包括根據(jù)電子文檔的產(chǎn)生的等級指定與搜索請求有關的電子文檔為不滿意的。
在本發(fā)明的另外一個實施例中,使用本發(fā)明方面的系統(tǒng)估計與搜索相關的電子文檔。該系統(tǒng)包括一個處理器,用于從用戶那里接收搜索請求和用于基于接收的搜索請求來鑒別電子文檔。該系統(tǒng)也包括一個存儲區(qū)域,存儲由處理器外部的源提供的數(shù)據(jù),用于估計該電子文檔是否是不希望的。處理器被配置來確定電子文檔的第一信任級別。該第一信任級別基于由外部源提供的數(shù)據(jù)指示該電子文檔為不希望的似然性。處理器也被配置來建立電子文檔的第二信任級別。該第二信任級別基于電子文檔的一個或多個屬性,指示該電子文檔對于搜索來說是不滿意的似然性。該處理器還被配置成為電子文檔產(chǎn)生一個等級,作為確定的第一信任級別和建立的第二信任級別的函數(shù),并基于該電子文檔產(chǎn)生的等級分類電子文檔為相對于接收的搜索請求是不滿意的。
在本發(fā)明的另一個實施例中,使用本發(fā)明方面的計算機可讀媒質(zhì)具有計算機可執(zhí)行元件用于估計與搜索相關的電子文檔。該計算機可讀媒質(zhì)包括接口元件,用于接收用戶提供的關于電子文檔的信息。電子文檔響應來自用戶的搜索請求是可獲取的。該用戶提供的信息表征該電子文檔為不希望的。該機算計可讀媒質(zhì)也包括分析元件,用于為電子文檔產(chǎn)生一個等級,作為接收的用戶提供的信息的函數(shù)。該計算機可讀媒質(zhì)還包括查詢元件,用于根據(jù)該電子文檔產(chǎn)生的等級分類電子文檔為相對于接收的搜索請求是不令人滿意的。
在本發(fā)明的另一個實施例中,使用本發(fā)明方面的計算機可讀媒質(zhì)具有用于估計與搜索相關的電子文檔計算機可執(zhí)行元件。該計算機可讀媒質(zhì)包括查詢元件來接收來自用戶的搜索請求并基于接收的搜索請求鑒別電子文檔。該計算機可讀媒質(zhì)也包括外部元件提供用于估計電子文檔是否是希望的數(shù)據(jù)。該計算機可讀媒質(zhì)還包括內(nèi)部元件用于確定電子文檔的第一信任級別。第一信任級別基于通過外部元件提供的數(shù)據(jù)來指示電子文檔是不希望的似然性。內(nèi)部元件還被配置用于建立電子文檔的第二信任級別。第二信任級別基于電子文檔的一個或多個屬性來指示電子文檔對于搜索是不滿意的似然性。計算機可讀媒質(zhì)還包括用于為電子文檔產(chǎn)生一個等級的分析元件,作為確定的第一信任級別和建立的第二信任級別的函數(shù)。查詢元件被配置用于根據(jù)該電子文檔產(chǎn)生的等級將電子文檔分類為相對于接收的搜索請求是不滿意的。
具有用于執(zhí)行檢測關于搜索為不滿意的電子文檔方法的計算機可執(zhí)行指令的計算機可讀媒質(zhì)具體表達為本發(fā)明的更多方面。
另外,本發(fā)明的實施例還包含各種其它的方法和裝置。
以下,其它特征將部分地呈現(xiàn)并且部分地被指出。
圖1是一個顯示本發(fā)明的實施例可以應用于其中的示例性網(wǎng)絡環(huán)境的方框圖。
圖2是一個顯示本發(fā)明的實施例可以應用于其中的另一個示例性網(wǎng)絡環(huán)境的方框圖。
圖3是一個顯示本發(fā)明的實施例可以應用于其中的再一個示例性網(wǎng)絡環(huán)境的方框圖。
圖4是根據(jù)本發(fā)明的一個實施例顯示為估計與搜索相關的電子文檔的示例性流程圖。
圖5是根據(jù)本發(fā)明的一個實施例顯示為估計與搜索相關的電子文檔的處理流程的示例性流程圖。
圖6是根據(jù)本發(fā)明的一個實施例顯示示例性計算機可讀媒質(zhì)的方框圖。
圖7是根據(jù)本發(fā)明的一個實施例顯示另一個示例性計算機可讀媒質(zhì)的方框圖。
圖8是顯示本發(fā)明的實施例可以執(zhí)行于其中的適當?shù)挠嬎銠C系統(tǒng)環(huán)境的示例性實施例的方框圖。
貫穿附圖中,對應的參考字符指示相同的部分。
本發(fā)明的詳細描述為檢測不希望的電子文檔的示例性網(wǎng)絡環(huán)境首先參照圖1,框圖顯示了本發(fā)明的實施例可以應用于其中的適當網(wǎng)絡環(huán)境例子。服務器計算機102包括處理器例如搜索引擎104。該搜索引擎104還包括牽引裝置106。該牽引裝置106搜索分散在連接到通信網(wǎng)絡108的一個或多個計算機上的電子文檔,例如顯示在圖1中的遠端服務器計算機110和遠端服務器計算機112。通信網(wǎng)絡108可以是一個局域網(wǎng)例如企業(yè)內(nèi)部互連網(wǎng),廣域網(wǎng)例如因特網(wǎng),或允許服務器計算機102與遠端計算機例如服務器計算機110和112直接或者間接通信的網(wǎng)絡的組合。
牽引裝置106搜索連接到網(wǎng)絡108的服務器計算機110和112并找到存儲在服務器計算機110上的電子文檔114和116以及存儲在服務器計算機112上的電子文檔118和120。存儲在遠端服務器計算機上的該電子文檔可以包括網(wǎng)頁(例如,超文本鏈接標示語言(HTML)頁面和XML頁面)和多媒體文件。牽引裝置106接收這些電子文檔和相關數(shù)據(jù)。而且,服務器計算機102可以包括被牽引裝置106訪問的電子文檔122和124。
如圖1所示,構(gòu)成搜索引擎104外部的源的電子郵件兜售信息檢測系統(tǒng)126,也連接到網(wǎng)絡108上。電子郵件兜售信息檢測系統(tǒng)126是一個檢測傳遞給系統(tǒng)126的用戶的電子郵件兜售信息的系統(tǒng)。特別地,一個或多個遠端計算機例如服務器110和/或服務器112可以產(chǎn)生并發(fā)送電子郵件信息給系統(tǒng)126的用戶。電子郵件兜售信息檢測系統(tǒng)126然后檢測到特定的電子郵件消息可以是電子郵件兜售信息并執(zhí)行一個保護它的用戶的行動。例如,系統(tǒng)126可以從用戶的郵箱中查出檢測到的電子郵件兜售信息或者可以警告用戶特定的電子郵件消息可能是電子郵件兜售信息。另外,系統(tǒng)126可以在傳遞該消息給它的接收者之前,傳遞電子郵件消息給負責的用戶來確認它不是電子郵件兜售信息。
電子郵件兜售信息檢測系統(tǒng)126可以應用許多技術(shù)來檢測電子郵件兜售信息。在一個技術(shù)中,系統(tǒng)126包括訓練用于鑒別電子郵件兜售信息模型的概率統(tǒng)計分類器。該概率統(tǒng)計分類器包括計算機可執(zhí)行指令來分類電子郵件消息。通常,概率統(tǒng)計分類器鑒別在電子郵件兜售信息中的統(tǒng)計重要的屬性的組合(例如,統(tǒng)計重要的關鍵術(shù)語和/或上下文的信息)。未經(jīng)請求的電子郵件消息通常包括一些通常共享的屬性。這種通常共享的和如此統(tǒng)計重要的屬性的例子包括描述產(chǎn)品或業(yè)務的不切實際提議的關鍵術(shù)語(例如,免費藥,重量丟失程序,或信用卡的應用)。此外,這樣的屬性可以包括確定已發(fā)送電子郵件兜售信息的電子郵件地址。特別地,概率統(tǒng)計分類器可以被訓練用于鑒別一個或多個電子郵件兜售信息建立者的域名(例如,基于電子郵件兜售信息的“來自”行)。概率統(tǒng)計分類器可以解析電子郵件消息的“來自”行來確定電子郵件消息的發(fā)送者是否對應于已知電子郵件兜售信息的建立者。
類似地,概率統(tǒng)計分類器可以被訓練用于識別電子郵件兜售信息起源的網(wǎng)絡地址。電子郵件兜售信息發(fā)布者通常任意地設置“來自”行或電子郵件兜售信息的其他信息為任何值。但是很難隱藏電子郵件兜售信息起源的網(wǎng)絡地址(例如,因特網(wǎng)協(xié)議(IP)地址)。引入的簡單郵件傳輸協(xié)議(SMTP)連接的網(wǎng)絡地址因此是用于訓練概率統(tǒng)計分類器來表征電子郵件兜售信息的有價值的屬性。另外,概率統(tǒng)計分類器可以被訓練來鑒別一個或多個與電子郵件兜售信息相關的鏈接或URL。也就是,包括在可能為電子郵件兜售信息中的URL特別地被解析用于產(chǎn)生表征電子郵件兜售信息的屬性。許多電子郵件消息包括嵌入的URL。這些URL的出現(xiàn)顯示了這些電子郵件消息是電子郵件兜售信息。例如,這些URL可以引導電子郵件接收者到一個或多個提供未被懇求的產(chǎn)品或業(yè)務的網(wǎng)頁。在一個實施例中,主機名字(例如,字母表的,有點的十進制的,十六進制的,或八進制編碼的主機名)從這些URL中被抽取出來幫助表征電子郵件兜售信息。因此,如果組合的URL是<URL1>@<URL2>@…@<URLn>的形式,在最后一個@符號后面的URL(例如,URLn)是抽取出的主機名。
電子郵件兜售信息發(fā)布者可以在URL中包括轉(zhuǎn)向器來避免關聯(lián)于兜售信息發(fā)布者的主機名被概率統(tǒng)計分類器抽取出。該轉(zhuǎn)向器也包括在URL中來改變電子郵件接收者的方向到與電子郵件兜售信息發(fā)布者交往的網(wǎng)站。在這樣的情況下,概率統(tǒng)計分類器被配置來鑒別隱藏在重定向URL中的真實的主機名并用該真實主機名作為表征電子郵件兜售信息的屬性。
如所討論的,概率統(tǒng)計分類器在可能為電子郵件兜售信息上被訓練來識別電子郵件兜售信息的一個或多個屬性。電子郵件兜售信息檢測系統(tǒng)126可以使用許多技術(shù)來識別潛在的電子郵件兜售信息以訓練概率統(tǒng)計分類器。在一個技術(shù)中,電子郵件接收者可以指示特定的電子郵件消息是否是電子郵件兜售信息。在另一個技術(shù)中,系統(tǒng)126保持蜜罐來捕獲電子郵件兜售信息。蜜罐代表從來不存在的或在一個給定時期終止的電子郵件報告表。但對于電子郵件兜售信息制造者來說,蜜罐通??醋鰹橐?guī)則的電子郵件報告表。因此,發(fā)送到蜜罐的電子郵件消息可以被認為電子郵件兜售信息,給出由蜜罐代表的電子郵件報告表從來不存在或已經(jīng)在某個時期被終止,因此不留給電子郵件報告表任何接收合法電子郵件的原因。
在為訓練概率統(tǒng)計分類器鑒別潛在的電子郵件兜售信息的另一個技術(shù)中,電子郵件兜售信息檢測系統(tǒng)126可以執(zhí)行相對于進入電子郵件的詢問響應。也就是,系統(tǒng)126可以請求進入電子郵件的發(fā)送者來解決詢問以確認該電子郵件不是機器產(chǎn)生的。如果發(fā)送者不能解決該詢問,系統(tǒng)126可以為概率統(tǒng)計分類器識別電子郵件為可能的電子郵件兜售信息以抽取出其屬性。
很多訓練技術(shù)可以用來訓練概率統(tǒng)計分類器。鑒別為兜售信息的電子郵件和鑒別為非兜售信息的電子郵件被饋給計算機可執(zhí)行訓練指令。該計算機可執(zhí)行訓練指令然后識別出現(xiàn)在鑒別為兜售信息的電子郵件但不識別在鑒別為非兜售信息的電子郵件的屬性。因此,已識別的屬性被分類為在電子郵件兜售信息中為統(tǒng)計重要的。計算機可執(zhí)行訓練指令還可以確定已分類的每一個屬性權(quán)重對于統(tǒng)計是重要的。訓練指令基于很多因素為給定的屬性確定權(quán)重,包括該屬性在電子郵件兜售信息中出現(xiàn)得多么頻繁。計算機可執(zhí)行訓練指令可以作為很多不同的結(jié)構(gòu)來執(zhí)行。例如,計算機可執(zhí)行訓練指令可以實施為 Bayesian分類器,有限依靠Bayesian分類器,Bayesian網(wǎng)絡分類器,決策樹,支持矢量機器,內(nèi)容匹配分類器,最大上熵分類器,其組合等等。
此外,系統(tǒng)126的概率統(tǒng)計分類器可以由模型識別來訓練以鑒別統(tǒng)計重要的屬性的組合,該屬性不被關鍵術(shù)語匹配技術(shù)鑒別。尤其是,由模型識別使用的用于訓練概率統(tǒng)計分類器的統(tǒng)計技術(shù)可以基于訓練樣本來概括屬性,使得概率統(tǒng)計分類器能夠識別各種給定的屬性。例如,概率統(tǒng)計分類器可以識別俚語的短語例如“free stereo p1@yer”與電子郵件兜售信息相關。相比,關鍵術(shù)語匹配技術(shù)不能有效地鑒別該俚語或其它短語變化。盡管如此,可以理解關鍵術(shù)語匹配可以同時與模型識別使用來訓練概率統(tǒng)計分類器。
基于抽取于電子郵件消息的屬性的分析,概率統(tǒng)計分類器為電子郵件消息產(chǎn)生等級。例如,概率統(tǒng)計分類器在電子郵件消息中可以分配絕對權(quán)重給個別的已鑒別的屬性(例如,術(shù)語,網(wǎng)絡地址,主機名,等)。如上所討論的,在概率統(tǒng)計分類器訓練過程中確定給定屬的權(quán)重。概率統(tǒng)計分類器通過將已分配的權(quán)重應用到數(shù)學函數(shù)(例如求和該權(quán)重)中而為電子郵件消息產(chǎn)生等級。在一個實施例中,電子郵件消息的等級可以是百分比的形式(例如,60%)。并且電子郵件消息的等級越高,電子郵件消息是電子郵件兜售信息的似然性就越高。也就是,電子郵件消息的等級指示電子郵件消息包括可能出現(xiàn)在電子郵件兜售信息中的元素的似然性。在另一個實施例中,概率統(tǒng)計分類器基于特定屬性出現(xiàn)在電子郵件消息中的頻率以及存在于電子郵件消息中的屬性的組合為電子郵件消息產(chǎn)生一個等級。特別地,通過它本身不能指示電子郵件兜售的屬性可以作為電子郵件信息構(gòu)成電子郵件兜售信息的上下文或綜合信息的。例如,單獨的屬性“信用卡”不能認為電子郵件消息是電子兜售信息。然而,與屬性“沒有年費”組合在一起的屬性“信用卡”可以認為電子郵件消息構(gòu)成了未經(jīng)請求的提供并且因而認為是電子郵件兜售信息。
概率統(tǒng)計分類器進而對電子郵件消息按照產(chǎn)生等級的功能來分類。也即,在概率統(tǒng)計分類器為電子郵件消息產(chǎn)生等級之后,它基于該等級確定電子郵件消息是否構(gòu)成電子郵件兜售信息。例如,電子郵件兜售消息檢測系統(tǒng)126可以在其中存儲門限級別(例如,70%),代表電子郵件消息是不期望的預定的似然性。概率統(tǒng)計分類器將電子郵件的等級與門限級別相比較。在一個實施例中,如果電子郵件消息的等級大于門限級別(或大于或等于),那么概率統(tǒng)計分類器對電子郵件消息分類為電子郵件兜售信息。注意到,管理員可以通過改變門限級別來改變電子郵件兜售信息檢測系統(tǒng)126的靈敏度。例如,管理員可以設置更高的門限級別使得較低的電子郵件消息被分類為電子郵件兜售信息。
如果電子消息被分類為可能的電子郵件兜售信息,那么系統(tǒng)126抽出與電子郵件消息有關的一定的屬性,來存儲在例如連接到網(wǎng)絡108的數(shù)據(jù)庫128的存儲區(qū)域中。根據(jù)本發(fā)明的一個實施例,系統(tǒng)126鑒別一個或多個與電子郵件消息有關的網(wǎng)路地址(例如,IP地址)。例如,系統(tǒng)126可以鑒別電子郵件消息的源網(wǎng)絡地址。這樣,如果電子郵件消息源自服務器110,那么系統(tǒng)126將服務器110的網(wǎng)絡地址存儲在數(shù)據(jù)庫128。根據(jù)本發(fā)明的另一個實施例,系統(tǒng)126還鑒別一個或多個包括在分類為電子郵件兜售信息中的電子郵件消息中的鏈接。于是系統(tǒng)126將鑒別出的鏈接的主機名字存儲在數(shù)據(jù)庫128中。這樣,如果分類為電子郵件兜售信息的電子郵件消息包括電子文檔114的URL,那么系統(tǒng)126將這個URL的主機名字存儲在數(shù)據(jù)庫128中。另外,系統(tǒng)126鑒別一列與電子郵件兜售信息有關的術(shù)語(例如,單詞,詞組,短語,字符串,n個字符列,二進制數(shù)據(jù),等等)。系統(tǒng)126還將該列術(shù)語存儲在數(shù)據(jù)庫128中。
對于存儲在數(shù)據(jù)庫128中的每一個網(wǎng)絡地址,主機名字,或術(shù)語,系統(tǒng)126還指定了網(wǎng)絡地址,主機名字,或術(shù)語與電子郵件兜售信息有關的信任級別。系統(tǒng)126可以基于電子郵件消息的等級指定信任級別,該消息包括網(wǎng)絡地址,主機名字,或術(shù)語。因此,如果概率統(tǒng)計分類器對特殊的電子郵件消息產(chǎn)生80%的等級,那么它為從該電子郵件消息中識別的網(wǎng)絡地址,主機名字,和/或術(shù)語的80%指定了信任級別。這個指定的用于網(wǎng)絡地址,主機名字,和/或術(shù)語的信任級別同樣的存儲在數(shù)據(jù)庫128中。
當搜索引擎104的牽引裝置106定位網(wǎng)絡108來收集一個或多個位于網(wǎng)絡108中的電子文檔,并且搜索引擎104的索引生成器129分析收集到的電子文檔來鑒別它們索引的特征時,搜索引擎104將對收集到的電子文檔建立另一個信任級別,來指示收集到的電子文檔是搜索引擎兜售信息的似然性(例如,關于搜索是不令人滿意的)。特別的,牽引裝置106將鑒別一個或多個收集的電子文檔模型來確定這些模型是否與表征為搜索引擎兜售信息的模型一致。例如,牽引裝置106可以鑒別收集的電子文檔是否主要是被建立用于搜索引擎104而不是用于最終用戶。牽引裝置106還可以檢測收集的電子文檔是否包括隱藏的文本和/或隱藏的鏈接,這經(jīng)常表征為搜索引擎兜售信息。一些其他的成為搜索引擎兜售信息的特征的模型包括很多不必要的主機名字,過度的交叉鏈接,鏈接失效分析報告等。基于收集的電子文檔的鑒別的模型,搜索引擎104可以產(chǎn)生收集的電子文檔構(gòu)成搜索引擎兜售信息的信任級別。
搜索引擎104還被配置成來訪問數(shù)據(jù)庫128,以抽取出涉及一個或多個由牽引裝置106收集的電子文檔的信息。在一個實施例中,搜索引擎104獲得存儲在數(shù)據(jù)庫128中的一列網(wǎng)絡地址。如果搜索引擎104確定獲得的網(wǎng)絡地址與收集的電子文檔的地址一致,那么它從數(shù)據(jù)庫128抽取出與這個網(wǎng)絡地址有關的信任級別。類似的,搜索引擎104可以從數(shù)據(jù)可128獲得一列主機名字,并確定獲得的主機名字是否與收集的電子文檔的主機名字一致。如果這樣,那么搜索引擎104從數(shù)據(jù)庫128抽取出與獲得的主機名字一致的信任級別。另外,搜索引擎104可以指定一個或多個由主機名字提供的來自電子文檔的鏈接的電子文檔作為具有這個信任級別。并且對于存儲在數(shù)據(jù)庫128中的術(shù)語,搜索引擎確定是否該術(shù)語出現(xiàn)在收集的電子文檔中。如果存儲的術(shù)語出現(xiàn)在收集的電子文檔中,那么搜索引擎從數(shù)據(jù)庫128中抽取出與這個存儲的術(shù)語相關的信任級別。
基于由搜索引擎104確定的信任級別來指示收集的電子文檔構(gòu)成搜索引擎兜售信息的似然性,以及網(wǎng)絡地址,主機名字,和/或與收集的電子文檔相關的術(shù)語的信任級別,搜索引擎104計算收集的電子文檔的權(quán)重等級。特別的,由搜索引擎104在網(wǎng)絡108的爬行期間確定的信任級別代表收集的電子文檔是關于搜索的不期望的似然性。并且從數(shù)據(jù)庫128獲得的信任級別代表收集的電子文檔是與不期望的電子郵件消息(例如,電子郵件兜售信息)有關的似然性。因為在電子郵件兜售信息何搜索引擎兜售信息之間的主權(quán)連接(例如,電子郵件兜售信息的建立者很可能產(chǎn)生搜索引擎兜售信息),搜索引擎104可以將這兩個類型的信任級別組合來產(chǎn)生加權(quán)的等級,以用高信任級別指示是否收集的電子文檔是搜索引擎兜售信息。
作為一種特別的方法以高的把握確認電子文檔構(gòu)成搜索引擎兜售信息的聯(lián)合似然性,各種類型的信任級別被平均加權(quán)來產(chǎn)生等級。例如,如果電子文檔具有60%的成為搜索引擎兜售信息的信任級別,那么電子文檔的網(wǎng)絡地址具有80%的成為與電子郵件兜售信息相關的信任級別,并且出現(xiàn)在電子文檔中的術(shù)語具有70%的成為與電子郵件兜售信息相關的信任級別,于是搜索引擎104可以將這些信任級別平均來產(chǎn)生電子文檔的70%的等級。換句話說,電子文檔的等級可以以成為搜索引擎兜售信息的信任級別和成為涉及電子郵件兜售信息的信任級別的平均來被加權(quán)。這樣,在上面的例子中,電子文檔的網(wǎng)絡地址與電子郵件兜售信息有關的80%的信任級別,與出現(xiàn)在電子文檔中的術(shù)語與電子郵件兜售信息有關的70%的信任級別加權(quán),來產(chǎn)生電子文檔與電子郵件兜售信息有關的75%的信任級別。搜索引擎104然后用成為搜索引擎兜售信息的60%的信任級別來平均這個加權(quán)的信任級別以產(chǎn)生67.5%的等級,這指示了電子文檔構(gòu)成搜索引擎兜售信息的加權(quán)的可能性。
換句話說,因為這兩個不同的信任級別使用不同的機制來確定電子文檔是否可能涉及兜售信息,電子文檔構(gòu)成搜索引擎的組合的似然性比任何類型的信任級別都高。例如,如果電子文檔具有70%的成為搜索引擎兜售信息的信任級別,并且電子文檔的網(wǎng)絡地址具有80%的與電子郵件兜售信息的信任級別,那么電子文檔構(gòu)成搜索引擎兜售信息的組合的似然性可以是90%。這樣,通過考慮電子文檔與可能的電子郵件兜售信息相關,搜索引擎104可以精確的確定電子文檔是否是搜索引擎兜售信息。
在搜索引擎104確定特殊的電子文檔構(gòu)成可能的搜索引擎后(例如,當電子文檔的等級比門限等級高),搜索引擎104的查詢處理器可以執(zhí)行各種動作來阻止在搜索結(jié)果中將電子文檔提供給用戶。這樣,基于用戶提交的搜索請求,查詢處理器可以鑒別確定構(gòu)成搜索引擎兜售信息的電子文檔作為提交的搜索請求中的“命中”。在這樣的情況中,查詢處理器可以在搜索結(jié)果中顯示該電子文檔給用戶。也即,搜索引擎104的查詢處理器降低搜索結(jié)果中的電子文檔的等級,因為電子文檔構(gòu)成可能的搜索引擎兜售信息。換句話說,查詢處理器可以在提供給用戶的搜索結(jié)果中移除該電子文檔。在本發(fā)明的一個實施例中,由查詢處理器執(zhí)行的該動作是可調(diào)的。也即,如果更確定電子文檔是搜索引擎兜售信息,那么電子文檔受到較重的懲罰。例如,具有比85%更高等級的電子文檔可以從提供給用戶的搜索結(jié)果中移除,而具有在65%和85%之間等級的電子文檔可以在搜索結(jié)果中由50個等級來顯示。另外,具有在50%和65%之間等級的電子文檔可以被顯示25等級,而具有在50%以下的等級的電子文檔將不接收懲罰。在本發(fā)明的另一個實施例中,如果電子文檔的初步等級比預定的等級要高(例如,5th等級),那么查詢處理器在搜索的結(jié)果中保留電子文檔的等級。也即,相對高的電子文檔可以不接收懲罰,盡管它被確定為搜索引擎兜售信息。
現(xiàn)在參考圖2,方框圖說明了在其中利用本發(fā)明的實施例的合適的網(wǎng)絡環(huán)境的另一個例子。服務器計算機202包括搜索引擎204。服務器計算機202連接到通信網(wǎng)絡206,其中還連接到遠程服務器計算機208。通信網(wǎng)絡206可以是局域網(wǎng)例如企業(yè)內(nèi)部互聯(lián)網(wǎng),廣域網(wǎng)例如因特網(wǎng),或者網(wǎng)絡的組合,其允許服務器計算機202與例如遠程服務器計算機208的遠程計算機直接或間接的通信。遠程服務器計算機208提供電子文檔210和電子文檔212,其可以是網(wǎng)頁或多媒體文件。另外,遠程服務器計算機208被配置程通過連接到網(wǎng)絡206的計算機傳輸一個或多個電子郵件消息給用戶214。
在用戶214從服務器計算機208接收到電子郵件消息后,他或她鑒別接收到的電子郵件消息是電子郵件兜售信息或非兜售信息。用戶214于是提交他的或她的接收的電子郵件消息(或通常用戶提供的信息)的標識作為給電子郵件兜售信息檢測系統(tǒng)216的接口的輸入。響應于接收的這個輸入,電子郵件兜售信息檢測系統(tǒng)216建立該電子郵件消息是電子郵件兜售信息的信任級別。此外,如果系統(tǒng)216從多路用戶接收多路輸入的電子郵件消息,那么系統(tǒng)216可以決定不建立電子郵件消息的信任級別。另一方面,如果輸入相互一致,那么系統(tǒng)216可以建立電子郵件消息構(gòu)成電子郵件兜售信息的信任級別。在本發(fā)明的可選的實施例中,系統(tǒng)216可以執(zhí)行規(guī)則來判斷一個或多個輸入。也即,確定的輸入被加權(quán)更高,因為提交輸入的用戶是更值得信賴的。在這個可選的實施例,系統(tǒng)216確定報告一個特殊的電子郵件消息為電子郵件兜售信息的用戶的百分比。如果多數(shù)用戶同意電子郵件消息是電子郵件兜售信息,那么來自少數(shù)人的那些輸入可能是不信任的。也即,如果特殊的用戶報告電子郵件消息為電子郵件兜售信息,并且多數(shù)其他的用戶同意這個特殊的用戶,那么系統(tǒng)216可以確定該用戶是值得信賴的。另一方面,如果多數(shù)其他的用戶不同意這個特殊的用戶,那么系統(tǒng)216可以確定該用戶是不可信賴的。因此,系統(tǒng)216可以基于至少部分的用戶提供的輸入的確實性來確定電子郵件消息的信任級別。
如果電子郵件兜售信息檢測系統(tǒng)216確定特殊的電子郵件消息構(gòu)成電子郵件兜售信息,那么它分析該電子郵件消息來鑒別一個或多個電子郵件消息的屬性來確定電子郵件兜售信息的模型。如果電子郵件消息包括圖像,那么系統(tǒng)216通過檢測該圖像中的膚色的級別來鑒別該屬性。在一個實施例中,系統(tǒng)216可以鑒別一個或多個與這個電子郵件兜售信息有關的術(shù)語。此外,系統(tǒng)216可以確定電子郵件兜售信息來源的網(wǎng)絡地址(例如,服務器計算機208的網(wǎng)絡地址)。并且,系統(tǒng)216可以鑒別與電子郵件兜售信息有關的主機名字。例如,如果電子文檔210和/或電子文檔212鏈接自電子郵件兜售信息,那么系統(tǒng)216可以從鏈接中抽取出這些電子文檔的主機名字。在另一個實施例,系統(tǒng)216將關于電子郵件兜售信息的鑒別的屬性存儲在諸如連接到網(wǎng)絡206的數(shù)據(jù)庫216的存儲區(qū)域。
服務器計算機202的搜索引擎204訪問數(shù)據(jù)庫217來獲得存儲的屬性?;诖鎯Φ膶傩?,搜索引擎204產(chǎn)生一個或多個位于特殊網(wǎng)絡地址或由特殊的主機名字提供的的電子文檔的等級。此外,搜索引擎204確定存儲在數(shù)據(jù)庫218中的術(shù)語是否出現(xiàn)在特殊的位于網(wǎng)絡206的電子文檔中來產(chǎn)生電子文檔的等級。電子文檔的等級指示電子文檔是搜索引擎兜售信息的似然性。如果電子文檔的等級超過了門限級別,搜索引擎204將電子文檔分類為搜索引擎兜售信息。搜索引擎204的查詢處理器還執(zhí)行提供精確的搜索結(jié)果給用戶的動作(例如,指示搜索結(jié)果的電子文檔,從搜索結(jié)果中移除該電子文檔,等。)。
參考圖3,方框圖還說明了合適的網(wǎng)絡環(huán)境的另一個例子,其中本發(fā)明的實施例可以估計與搜索有關的電子文檔。客戶計算機302通過網(wǎng)絡306連接到服務器計算機304。又,網(wǎng)絡306可以是局域網(wǎng)(例如企業(yè)內(nèi)部互聯(lián)網(wǎng)),廣域網(wǎng)(例如因特網(wǎng)),和網(wǎng)絡的組合??蛻粲嬎銠C302包括搜索用戶接口308(例如,瀏覽器)或其他機器可訪問程序接口或協(xié)議,可以查找或顯示電子文檔給用戶。
當客戶計算機302的用戶希望搜索一個或多個電子文檔時,他或她提交查詢字符310給搜索用戶接口308。在用戶提交查詢字符310后,客戶計算機302傳送查詢字符310給位于服務器計算機304的搜索引擎313的查詢處理器312來請求搜索?;谔峤坏牟樵冏址?10,查詢處理器312鑒別遠程服務器計算機316提供的電子文檔314為提交的查詢字符310的“命中”。遠程服務器計算機316同樣地連接到網(wǎng)絡306。查詢處理器312于是返回該電子文檔314或電子文檔314的網(wǎng)絡給客戶計算機302的搜索用戶接口308。用戶訪問返回的網(wǎng)絡地址而獲得電子文檔314后,他或她鑒別電子文檔314為搜索引擎兜售信息或非兜售信息。用戶于是將他的或她的鑒別作為輸入提交給搜索引擎313。
響應于接收該輸入,搜索引擎313建立電子文檔314是搜索引擎兜售信息的信任級別。此外,如果搜索引擎313從多個用戶接收電子文檔314的多路輸入,并且如果這些輸入相互抵觸,那么搜索引擎313可以確定不建立電子文檔314的信任級別。另一方面,如果輸入相互一致,那么搜索引擎313可以建立電子文檔314構(gòu)成搜索引擎兜售信息的信任級別。在本發(fā)明的可選的實施例中,搜索引擎313可以執(zhí)行規(guī)則來判斷一個或多個輸入。也即,確定的輸入被加權(quán)更高,因為提交輸入的用戶是更值得信賴的。在這個可選的實施例中,搜索引擎313確定報告電子文檔314為搜索引擎兜售信息的用戶的百分比。如果多數(shù)用戶同意電子文檔314是搜索引擎兜售信息,那么來自少數(shù)的那些輸入可以是不信任的。也即,如果特殊的用戶報告電子文檔314為搜索引擎兜售信息,并且多數(shù)其他的用戶同意該特殊的用戶,那么搜索引擎313可以確定該用戶是值得信賴的。另一方面,如果多數(shù)其他的用戶不同意該特殊的用戶,那么搜索引擎313可以確定這個用戶是不值得信賴的。此外,搜索引擎313可以至少部分的基于用戶提供的輸入的信賴度來確定特殊的電子文檔的信任級別。
如果這個用戶提供的信息鑒別電子文檔314微搜索引擎兜售信息,那么搜索引擎313分析電子文檔314來檢測一個或多個表征搜索引擎兜售信息的屬性。如果電子文檔314包括圖像,那么搜索引擎313通過檢測圖像中的膚色來檢測屬性。搜索引擎313將鑒別一個或多個電子文檔314的模型來確定這些模型是否符合搜索引擎兜售信息的模型特征。例如,搜索引擎313可以鑒別電子文檔314是否主要被建立來用于搜索引擎313而不是用于最終用戶。搜索引擎313還可以檢測電子文檔314是否包括隱藏的文本和/或隱藏的鏈接,其經(jīng)常表征為搜索引擎兜售信息。一些其他的表征為搜索引擎兜售信息的模型包括很多不必要的主機名字,過度交叉鏈接,鏈接失效分析報告等。
基于鑒別的模型或?qū)傩?,搜索引?13產(chǎn)生電子文檔314的等級。電子文檔314的等級指示電子文檔314是搜索引擎兜售信息的似然性。如果電子文檔314的等級超過了門限等級,那么搜索引擎313將電子文檔314分類為搜索引擎兜售信息。查詢處理器312還執(zhí)行提供精確的搜索結(jié)果給用戶的動作(例如,在搜索結(jié)果中指示電子文檔314,從搜索結(jié)果移除電子文檔314,等)。
檢測不希望的電子文檔的典型方法圖4根據(jù)本發(fā)明的一個實施例,說明了估計與搜索有關的電子文檔的示例性方法。在402,確定電子文檔的第一信任級別。該第一信任級別通過搜索引擎來獲得以響應于來自用戶的搜索請求。第一信任級別基于由搜索引擎外部的源提供的信息指示電子文檔是不期望的似然性。外部源可以包括電子郵件兜售信息檢測系統(tǒng),該系統(tǒng)提供有關一個或多個電子文檔的數(shù)據(jù)。例如,外部源可以提供主機名字,該主機名字提供一個或多個由外部源鑒別為具有不期望的預定的似然性電子文檔。并且鏈接自這些電子文檔的電子文檔可以被指定為第一信任級別。外部源還可以提供網(wǎng)絡地址,該網(wǎng)絡地址是一個或多個具有不期望的預定的似然性的電子文檔所在的位置。外部源還可以提供術(shù)語,該術(shù)語出現(xiàn)在一個或多個具有不期望的預定的似然性的電子文檔中。電子文檔的第一信任級別基于預定的似然性而確定。
在404,確定電子文檔的第二信任級別。基于一個或多個電子文檔的屬性,第二信任級別指示電子文檔是關于搜索請求不令人滿意的。這些屬性,表征了電子文檔的不期望的模式,通過分析電子文檔而被鑒別??蛇x擇地,用戶提供的關于電子文檔的信息可以被接收到。在搜索結(jié)果中,用戶提供的信息指定電子文檔為不期望的。并且因此,一個或多個電子文檔的屬性可以被鑒別來檢測不希望的模式。
在406,產(chǎn)生電子文檔的等級來作為確定的第一信任級別和確定的第二信任級別的函數(shù)。在408,電子文檔基于電子文檔產(chǎn)生的等級而指定為關于搜索請求是不令人滿意的。此外,響應于來自用戶的搜索請求,可以為用戶提供搜索結(jié)果。如果電子文檔被指定為不令人滿意的,那么它可以被排除在提供的搜索結(jié)果之外??蛇x擇的,在搜索結(jié)果中,電子文檔可以指示給用戶。如果在搜索結(jié)果中,電子文檔的等級超過預定的等級,那么電子文檔的等級可以被保持。
圖5說明了根據(jù)本發(fā)明的一個實施例估計有關搜索的電子文檔另一個示例性方法。在502,接收用戶提供的關于電子文檔的信息。響應于來自用戶的搜索請求,電子文檔通過搜索引擎獲得。該用戶提供的信息表征電子文檔是不希望的。例如,接收的用戶提供的信息可以指定電子文檔是與不希望的電子郵件一起的(例如,潛在地電子郵件兜售信息)??蛇x擇的,接收的用戶提供的信息可以指定電子文檔在搜索結(jié)果中是不希望的(例如,潛在的搜索引擎兜售信息)。在504,電子文檔的等級被產(chǎn)生來作為接收的用戶提供的信息的函數(shù)。例如,由用戶提供的信息表征為不希望的電子文檔可以被分析來鑒別一個或多個電子文檔的屬性。該鑒別的屬性于是被用于概率統(tǒng)計分類器來產(chǎn)生電子文檔的等級。該概率統(tǒng)計分類器被訓練以識別該鑒別的屬性是否是希望的,并且可實施為 Bayesian分類器,有限依靠Bayesian分類器,Bayesian網(wǎng)絡分類器,決策樹,支持矢量機器,內(nèi)容匹配分類器,最大上熵分類器,其組合等等。
此外,可以確定接收到用戶提供的信息的確實性。電子文檔的等級可以作為確定的確實性的函數(shù)產(chǎn)生。在一個實施例中,可以接收關于電子文檔的其它用戶提供的信息。該確實性可以通過確定其它用戶提供的信息是否與接收到的用戶提供的信息一致來確定。在506,根據(jù)產(chǎn)生的電子文檔的等級,電子文檔被標明為關于搜索請求是不希望的。
示例性計算機可讀媒盾圖6根據(jù)本發(fā)明的一個實施例是一個顯示示例性計算機可讀媒質(zhì)600的方框圖。如圖所示,該計算機可讀媒質(zhì)600包括查詢元件602,外部元件604,內(nèi)部元件606,以及分析元件608。然而,可以預期計算機可讀媒質(zhì)600可以是任何數(shù)量的計算機可讀媒質(zhì)并且可以包含各種元件和與每一個元件相關的功能性的組合。查詢元件602接收一個來自用戶的搜索請求并基于接收的搜索請求鑒別電子文檔。外部元件604提供用于估計電子文檔是否是不希望的數(shù)據(jù)。內(nèi)部元件606被配置來確定電子文檔的第一信任級別。第一信任級別基于由外部元件604提供的數(shù)據(jù)來指示電子文檔為不希望的似然性。例如,由外部元件604提供的數(shù)據(jù)鑒別一個或多個主機名。每一個主機名提供具有預定為不希望的似然性信息。內(nèi)部元件606被配置用于鑒別電子文檔為由提供的名字中的一個提供。內(nèi)部元件606還被配置用于指定第一信任級別,該第一信任級別是基于預定的似然性,用于電子文檔來響應鑒別該電子文檔被一個主機名提供。
類似地,由外部元件604提供的數(shù)據(jù)可以鑒別一個或多個網(wǎng)絡地址。外部元件604鑒別一個或多個位于該網(wǎng)絡地址之一的電子文檔為具有預定的成為不希望的似然性。內(nèi)部元件606被配置用于鑒別電子文檔為位于該網(wǎng)絡地址之一。內(nèi)部元件606被配置用于指定第一信任級別,該第一信任級別是基于預定的似然性,用于電子文檔來響應鑒別該電子文檔為位于一個網(wǎng)絡地址。
此外,由外部元件604提供的數(shù)據(jù)可以鑒別一個或多個術(shù)語例如一個或多個電子文檔其中出現(xiàn)至少一個術(shù)語具有預定的成為不希望的似然性。內(nèi)部元件606被配置用于確定何時至少該術(shù)語之一出現(xiàn)在電子文檔中。內(nèi)部元件606也被配置用于指定對電子文檔的第一信任級別以響應確定至少該術(shù)語之一出現(xiàn)在電子文檔中。第一信任級別是基于預定的似然性。
內(nèi)部元件606也建立電子文檔的第二信任級別。該第二信任級別基于該電子文檔的一個或多個屬性來指示該電子文檔是關于搜索為不令人滿意的似然性。該屬性表征與搜索相關的一個電子文檔的不希望的模式。
分析元件608為電子文檔產(chǎn)生一個等級作為確定的第一信任級別和建立的第二信任級別的函數(shù)。查詢元件602被配置用于基于產(chǎn)生的電子文檔的等級來分類電子文檔相對于接收的搜索請求是不令人滿意的。查詢元件608也提供搜索結(jié)果給用戶以響應接收的搜索請求。查詢元件608可以降級在提供的搜索結(jié)果中分類為不令人滿意的電子文檔或從提供的搜索結(jié)果中拒絕該分類為不令人滿意的電子文檔。換句話說,當在提供的搜索結(jié)果中電子文檔的排列超過了預定的等級,查詢元件608可以保留在提供的搜索結(jié)果中的電子文檔的排列。
圖7根據(jù)本發(fā)明的一個實施例顯示了另一個示例性計算機可讀媒質(zhì)700的方框圖。如圖所示,該計算機可讀媒質(zhì)700包括接口元件702,分析元件704,以及查詢元件706。然而,可以預期計算機可讀媒質(zhì)700可以是任何數(shù)量的計算機可讀媒質(zhì)并可以包含各種元件和與每一個元件相關的功能性的組合。接口元件702接收用戶提供的關于電子文檔的信息。該電子文檔是可獲得的以響應來自用戶的搜索請求。用戶提供的信息表征該電子文檔為不希望的。例如,接收的用戶提供的信息可以指定電子文檔是與不希望的電子郵件源相關。該接收的用戶提供的信息也可以指定該電子文檔在搜索結(jié)果中是不希望的。
分析元件704為電子文檔產(chǎn)生一個等級作為接收用戶提供的信息的函數(shù)。在一個實施例中,分析元件704分析電子文檔來鑒別電子文檔的一個或多個屬性。分析元件704還應用鑒別的屬性到概率統(tǒng)計的分類器,該分類器被訓練來識別鑒別的屬性是否是不希望的,來為電子文檔產(chǎn)生等級。在另一個實施例中,分析元件704確定接收的用戶提供的信息的確實性并為電子文檔產(chǎn)生等級作為確定的確實性的函數(shù)。例如,接口元件702可以接收其它用戶提供的關于電子文檔的信息。分析元件704然后檢查其它用戶提供的信息是否相應于該接收的用戶提供的信息來確定接收的電子文檔的確實性。在分析元件704為電子文檔產(chǎn)生該等級后,查詢元件706根據(jù)產(chǎn)生的電子文檔的等級來將電子文檔分類相對于搜索請求是不令人滿意的。
示例性操作環(huán)境圖8顯示了以計算機130形式的通用目的計算機設備的例子。在本發(fā)明的一個實施例中,計算機例如計算機130適合用于這里顯示或描述的其它形態(tài)。計算機130具有一個或多個處理器或處理單元132以及系統(tǒng)存儲器134。在顯示的實施例中,系統(tǒng)總線136連接各種系統(tǒng)元件包括系統(tǒng)存儲器134到處理器132。總線136代表一個或多個許多類型總線結(jié)構(gòu)中的任何一種,包括存儲器總線或存儲器控制器,外圍總線,加速圖形端口,以及處理單元或使用任何各種總線結(jié)構(gòu)的本地總線。通過例子的方式,但并不限制,這種結(jié)構(gòu)包括工業(yè)標準結(jié)構(gòu)(ISA)總線,微通道結(jié)構(gòu)(MCA),增強ISA(EISA)總線,視頻電子標準協(xié)會(VESA)本地總線,以及外圍元件互連(PCI)總線也被稱為中層總線。
計算機130典型地至少具有一些形式的計算機可讀媒質(zhì)。計算機可讀媒質(zhì),它包括易失的和非易失的,可移動的和非可移動的,可以是能被計算機130訪問的任何可用的媒質(zhì)。通過例子但不限制,計算機可讀媒質(zhì)包括計算機存儲媒質(zhì)和通信媒質(zhì)。計算機存儲媒質(zhì)包括以任何方法和技術(shù)執(zhí)行的易失的和非易失的,可移動的和非可移動的媒質(zhì),用于例如計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其它數(shù)據(jù)的信息的存儲。例如,計算機存儲媒質(zhì)包括RAM,ROM,EEPROM,閃存或其它存儲技術(shù),CD-ROM,數(shù)字通用磁盤(DVD)或其它光學磁盤存儲器,磁帶盒,磁帶,磁盤存儲器或其它磁存儲設備,或任何其它可以用來存儲想要的信息并可以通過計算機130訪問的媒質(zhì)。通信媒質(zhì)典型包括計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊,或在調(diào)制數(shù)據(jù)信號上的其它數(shù)據(jù)例如載波或其它傳輸機制并包括任何信息傳遞媒質(zhì)。本領域的熟練技術(shù)人員熟悉調(diào)制數(shù)據(jù)信號,該信號具有一個或多個它的以編碼信息于信號中的方式設置或改變的特征。有線媒質(zhì),例如有線網(wǎng)絡或直接有線連接,以及無線媒質(zhì),例如聲學,RF,紅外線,以及其它無線媒質(zhì),是通信媒質(zhì)的例子。以上任何組合也包括在計算機可讀媒質(zhì)的范圍內(nèi)。
系統(tǒng)存儲器134包括可移動的和/或不可移動的,易失的和/或非易失存儲器形式的計算機存儲媒質(zhì)。在顯示的實施例中,系統(tǒng)存儲器134包括只讀存儲器(ROM)138和隨機訪問存儲器(RAM)140。基本輸入/輸出系統(tǒng)142(BIOS),包括幫助用于在計算機130內(nèi)的元素之間傳送信息的基本例行程序,例如在開始,典型地存儲在ROM 138中。RAM 140典型包括可以立即被訪問的和/或當前被處理單元132操作的數(shù)據(jù)和/或程序模塊。通過例子,但不限制,圖8顯示了操作系統(tǒng)144,應用程序146,其它程序模塊148,以及程序數(shù)據(jù)150。
計算機130也可以包括其它可移動/不可移動,易失的/非易失計算機存儲媒質(zhì)。例如,圖8顯示了硬盤驅(qū)動器154讀出或?qū)懙讲豢梢苿?,非易失磁性媒質(zhì)。圖8也顯示了讀出和寫到可移動的,非易失磁盤158的磁盤驅(qū)動器156,以及讀出和寫到可移動的,非易失光盤162例如CD-ROM或其它光學媒質(zhì)的光盤驅(qū)動器160??梢杂迷谑纠圆僮鳝h(huán)境中的其它可移動/不可移動,易失的/非易失計算機存儲媒質(zhì)包括,但不限于,磁帶盒,閃存卡,數(shù)字通用磁盤,數(shù)字視頻磁帶,固態(tài)RAM,固態(tài)ROM,等等。硬盤驅(qū)動器154,磁盤驅(qū)動器156,以及光盤驅(qū)動器160典型通過非易失存儲器接口例如接口166,連接到系統(tǒng)總線136上。
以上討論并在圖8中顯示的驅(qū)動器或其它大容量存儲設備以及它們相關的計算機存儲媒質(zhì),提供計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊以及其它為計算機130的數(shù)據(jù)的存儲。在圖8中,例如,硬盤驅(qū)動器154顯示為存儲操作系統(tǒng)170,應用程序172,其它程序模塊174,以及程序數(shù)據(jù)176。注意這些元件可以相同于或不同于操作系統(tǒng)144,應用程序146,其它程序模塊148,以及程序數(shù)據(jù)150。操作系統(tǒng)170,應用程序172,其它程序模塊174,以及程序數(shù)據(jù)176在這里給定不同的序號來顯示,至少他們是不同的副本。
用戶可以通過輸入設備或用戶接口選擇設備例如鍵盤180和指示設備182(例如,鼠標,跟蹤球,筆,或觸摸墊)輸入命令和信息到計算機130中。其它輸入設備(沒有示出)可以包括麥克風,操縱桿,游戲墊,衛(wèi)星天線,掃描器,等等。這些和其它輸入設備通過連接到系統(tǒng)總線136的用戶輸入接口184連接到處理單元132,但可以通過其它接口和總線結(jié)構(gòu)連接,例如并口,游戲端口,或通用串行總線(USB)。監(jiān)視器188或其它類型的顯示裝置也通過接口例如視頻接口190,連接到系統(tǒng)總線136。除監(jiān)視器188外,計算機通常包括其它外圍輸出設備(沒有示出)例如打印機和揚聲器,它們可以通過輸出外圍接口(沒有示出)連接。
計算機130可以在網(wǎng)絡環(huán)境中使用到一個或多個遠端計算機的邏輯連接進行操作,例如遠端計算機194。遠端計算機194可以是個人計算機,服務器,路由器,網(wǎng)絡PC,對等設備或其它普通網(wǎng)絡節(jié)點,典型包括以上描述的與計算機130相關的許多或所有元素。在圖8中描述的邏輯連接包括局域網(wǎng)(LAN)196和廣域網(wǎng)(WAN)198,但也可以包括其它網(wǎng)絡。LAN 136和/或WAN 138可以是有線網(wǎng)絡,無線網(wǎng)絡,其組合,等等。這種網(wǎng)絡環(huán)境在辦公室,企業(yè)計算機網(wǎng)絡,企業(yè)內(nèi)部互聯(lián)網(wǎng)以及全球計算機網(wǎng)絡(例如,因特網(wǎng))中是平常的。
當在本地網(wǎng)絡環(huán)境中使用,計算機130通過網(wǎng)絡接口或適配器186連接到LAN 196。當在廣域網(wǎng)絡環(huán)境中使用,計算機130典型包括調(diào)制解調(diào)器178或其它方法來建立在WAN 198上的通信,例如因特網(wǎng)。調(diào)制解調(diào)器178,可以是內(nèi)部的或外部的,通過用戶輸入接口184或其它恰當?shù)臋C制連接到系統(tǒng)總線136上。在網(wǎng)絡環(huán)境中,描述與計算機130相關的程序模塊或其部分,可以存儲在遠端存儲器存儲設備中(沒有示出)。通過例子,但不限制,圖8顯示遠端應用程序192為駐存于存儲器設備中。所示的網(wǎng)絡連接是示例性的,可以使用在計算機之間建立通信連接的其它方法。
通常,計算機130的數(shù)據(jù)處理器通過不同次數(shù)存儲于各種計算機可讀計算機存儲媒質(zhì)的指令的方法來編程。程序和操作系統(tǒng)典型分布在,例如軟盤或CD-ROM上。從那里,它們可以被安裝或加載到計算機第二存儲器。在執(zhí)行中,它們至少部分地被加載到計算機基本電子存儲器中。當該媒質(zhì)包括用于執(zhí)行關于微處理器或其它數(shù)據(jù)處理器的以下描述步驟的指令和程序,本發(fā)明這里描述的實施例包括這些和其它各種類型的計算機可讀存儲媒質(zhì)。當根據(jù)這里描述的方法和技術(shù)編程時,本發(fā)明的一個實施例也包括計算機本身。
為了顯示的目的,程序和其它可執(zhí)行程序元件,例如操作系統(tǒng),作為分離單元在這里顯示。然而,可以承認,該程序和元件在不同的計算機存儲元件中駐留于不同的次數(shù),并由計算機的數(shù)據(jù)處理器執(zhí)行。
盡管描述的關于示例性計算機系統(tǒng)環(huán)境,包括計算機130,本發(fā)明的一個實施例通過許多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境和配置來操作。計算系統(tǒng)環(huán)境不是打算建議任何關于本發(fā)明實施例的使用或功能性范圍的限制。此外,計算系統(tǒng)環(huán)境不應該解釋為具有在示例性操作環(huán)境中顯示的關于任何一個元件或元件的組合的任何依賴性或要求。眾所周知的計算系統(tǒng),環(huán)境,和/或配置的例子,它們適用于與本發(fā)明的實施例一起使用包括,但不限制于,個人計算機,服務器計算機,手持或膝上型電腦設備,多處理器系統(tǒng),基于微處理器的系統(tǒng),機頂盒,可編程用戶電子儀器,移動電話,網(wǎng)絡PC,小型機,大型計算機,包括任何以上系統(tǒng)或設備的分布式計算環(huán)境,等等。
本發(fā)明的實施例可以在計算機可執(zhí)行指令的通用上下文中描述,例如程序模塊,被一個或多個計算機或其它設備執(zhí)行。通常,程序模塊包括,但是不限制于,例行程序,程序,目標,元件,以及執(zhí)行特定任務或執(zhí)行特定抽象數(shù)據(jù)類型的數(shù)據(jù)結(jié)構(gòu)。本發(fā)明的實施例也可以在分布式計算環(huán)境中實踐,其中任務由通過通信網(wǎng)絡連接的遠端處理設備執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于本地或遠端計算機存儲媒質(zhì)中,包括存儲器存儲設備。
在操作中,計算機130執(zhí)行計算機可執(zhí)行指令例如這里描述的那些來估計與搜索相關的電子文檔。計算機可執(zhí)行指令被配置用于確定電子文檔的第一信任級別。電子文檔可以通過搜索引擎來獲得以響應來自用戶的搜索請求。第一信任級別基于由外部搜索引擎的源提供的信息來指示電子文檔為不希望的似然性。計算機可執(zhí)行指令也被配置用于確定電子文檔的第二信任級別。第二信任級別基于電子文檔的一個或多個屬性來指示電子文檔是關于搜索請求的不令人滿意的似然性。計算機可執(zhí)行指令還被配置用于為電子文檔產(chǎn)生一個等級,作為確定的第一信任級別和確定的第二信任級別的函數(shù)。計算機可執(zhí)行指令也被配置用于基于產(chǎn)生的電子文當?shù)牡燃墎碇付娮游臋n為關于搜索請求是不令人滿意的。
計算機130也執(zhí)行計算機可執(zhí)行指令例如這里描述的那些來估計與搜索相關的電子文檔。計算機可執(zhí)行指令被配置用于接收用戶提供的關于電子文檔的信息。該電子文檔通過搜索引擎獲得以響應來自用戶的搜索請求。用戶提供的信息表征電子文檔為不希望的。計算機可執(zhí)行指令也被配置用于為電子文檔產(chǎn)生等級,作為接收的用戶提供的信息的函數(shù)。計算機可執(zhí)行指令還被配置用于根據(jù)產(chǎn)生的電子文檔的等級來指定電子文檔為關于搜索請求是不令人滿意的。
在這里顯示和描述的方法的執(zhí)行或性能的次序是不重要的,除非另外指定。也就是,可以被發(fā)明者預期,方法的元素可以以任何次序執(zhí)行,除非另外指定,并且該方法可以比這里揭示的那些包括更多或更少的元素。
當介紹本發(fā)明或?qū)嵤├脑兀瑮l目“a”,“an”,“the”,以及“said”意思是有一個或多個元素。術(shù)語“comprising”,“including”,以及“having”確定為包括并且意味著可能有不同于所列元素的附加的元素。
鑒于以上,可以看到實現(xiàn)了本發(fā)明的許多目標并且達到了其它有益的結(jié)果。
由于在以上的結(jié)構(gòu)中可以做各種改變并且不背離本發(fā)明實施例范圍的方法,意圖是包含在以上描述的以及在附圖中顯示的所有內(nèi)容將解釋為示例性的而不是限制的意義。
權(quán)利要求
1.一種估計關于搜索的電子文檔的方法,該方法包括確定電子文檔的第一信任級別,所述的電子文檔可以響應于來自用戶的搜索請求由搜索引擎來獲得,所述的第一信任級別基于由搜索引擎外部的源提供的信息,指示電子文檔是不希望的似然性;確定電子文檔的第二信任級別,所述的第二信任級別基于一個或多個電子文檔的屬性,指示電子文檔是相對于搜索請求不令人滿意的似然性;產(chǎn)生用于電子文檔的作為確定的第一信任級別和確定的第二信任級別的函數(shù)的等級;以及基于產(chǎn)生的電子文檔的等級,標明電子文檔對于搜索請求是不令人滿意的。
2.權(quán)利要求1的方法,其中所述的外部源包括電子郵件兜售信息檢測系統(tǒng)。
3.權(quán)利要求1的方法,其中所述的電子文檔包括一個或多個下述內(nèi)容網(wǎng)頁和多媒體文件。
4.權(quán)利要求1的方法,其中確定第一信任級別包括從外部源接收一個或多個主機名字,其中由接收的主機名字提供的信息具有預定的不希望的似然性;鑒別由一個接收的主機名字提供的電子文檔;以及響應于鑒別該電子文檔為一個接收的主機名字提供的,指定用于電子文檔的第一信任級別,該第一信任級別基于預定的似然性。
5.權(quán)利要求4的方法,進一步包括為鏈接自電子文檔的一個或多個其他的電子文檔指定第一信任級別。
6.權(quán)利要求1的方法,其中確定第一信任級別包括從外部源接收一個或多個網(wǎng)絡地址,其中外部源鑒別一個或多個位于接收到的其中一個網(wǎng)絡地址中的電子文檔為不希望的預定的似然性;鑒別電子文檔位于一個接收的網(wǎng)絡地址中;以及指定電子文檔的第一信任級別,響應于鑒別電子文檔為位于一個接收的網(wǎng)絡地址中,所述的第一信任級別基于預定的似然性。
7.權(quán)利要求1的方法,其中確定第一信任級別包括從外部源接收用戶提供的信息,所述的用戶提供的信息指定電子文檔為不希望的;響應于接收的用戶提供的信息,鑒別一個或多個電子文檔的屬性,所述的屬性表征電子文檔的不希望的模式;以及基于鑒別的電子文檔的屬性指定電子文檔的第一信任級別。
8.權(quán)利要求1的方法,其中確定第一信任級別包括從外部源接收一個或多個術(shù)語,其中外部源確定其中出現(xiàn)至少一個接收的術(shù)語的一個或多個電子文檔具有不希望的預定的似然性;在電子文檔中檢測至少一個接收的術(shù)語出現(xiàn);以及響應于在電子文檔中檢測的至少一個接收的術(shù)語的出現(xiàn),指定電子文檔的第一信任級別,該第一信任級別基于預定的似然性。
9.權(quán)利要求1的方法,其中確定第二信任級別包括分析電子文檔以鑒別電子文檔的屬性,所述的屬性表征了關于搜索的電子文檔的不希望的模式;以及基于電子文檔的屬性確定第二信任級別。
10.權(quán)利要求1的方法,其中確定第二信任級別包括接收用戶提供的關于電子文檔的信息,所述的接收的用戶提供的信息指定電子文檔在搜索結(jié)果中為不希望的;響應于接收的用戶提供的信息,鑒別一個或多個電子文檔的屬性,所述的屬性表征關于搜索的電子文檔的不希望的模式;以及基于鑒別的電子文檔的屬性來確定第二信任級別。
11.權(quán)利要求1的方法,進一步包括響應接收到的搜索請求,為用戶提供搜索結(jié)果;以及執(zhí)行一個或多個下面的步驟指示在提供的搜索結(jié)果中指定為不滿意的電子文檔,從提供的搜索結(jié)果中除去指定為不滿意的的電子文檔,并且當電子文檔的等級超過了在提供的搜索結(jié)果中預定的等級時,在提供的搜索結(jié)果中保存電子文檔的排序。
12.權(quán)利要求1的方法,其中一個或多個計算機可讀媒質(zhì)具有計算機可執(zhí)行指令來執(zhí)行權(quán)利要求1中提到的方法。
13.一種估計關于搜索的電子文檔的方法,該方法包括接收用戶提供的關于電子文檔的信息,所述的電子文檔可以響應于來自用戶的搜索請求而由搜索引擎獲得,所述用戶提供的信息表征了電子文檔為不希望的;產(chǎn)生作為接收的用戶提供的信息的函數(shù)的電子文檔的等級;以及根據(jù)產(chǎn)生的電子文檔的等級,指定電子文檔相對于搜索請求為不滿意的。
14.權(quán)利要求13的方法,其中所述的電子文檔包括一個或多個下面的內(nèi)容網(wǎng)頁和多媒體文件。
15.權(quán)利要求13的方法,其中接收的用戶提供的信息指定電子文檔與不希望的電子郵件有關。
16.權(quán)利要求13的方法,其中接收的用戶提供的信息指定電子文檔為在搜索結(jié)果中是不希望的。
17.權(quán)利要求13的方法,其中產(chǎn)生電子文檔的等級包括分析電子文檔來鑒別一個或多個電子文檔的屬性;以及給統(tǒng)計概率分類器提供鑒別的屬性來產(chǎn)生電子文檔的等級,所述的統(tǒng)計概率分類器被訓練來識別所鑒別的屬性是否是不希望的。
18.權(quán)利要求13的方法,其中統(tǒng)計概率分類器包括一個或多個可以從下組中選擇的分類器,包括 Bayesian分類器,有限依靠Bayesian分類器,Bayesian網(wǎng)絡分類器,決策樹,支持矢量機器,內(nèi)容匹配分類器,最大上熵分類器,及其組合。
19.權(quán)利要求13的方法,其中產(chǎn)生電子文檔的等級包括確定接收的用戶提供的信息的確實性,以及產(chǎn)生電子文檔的等級為確定的確實性的函數(shù)。
20.權(quán)利要求19的方法,其中確定接收的用戶提供的信息的確實性包括接收其他用戶提供的關于電子文檔的信息,以及確定其他用戶提供的信息是否與接收的用戶提供的信息一致。
21.權(quán)利要求13的方法,其中一個或多個計算機可讀媒質(zhì)具有執(zhí)行權(quán)利要求13提到的方法的計算機可執(zhí)行指令。
22.一種用于估計關于搜索的電子文檔的系統(tǒng),所述的系統(tǒng)包括處理器,用于接收來自用戶的搜索請求并且基于接收的搜索請求鑒別電子文檔;存儲區(qū),存儲由處理器外部的源提供的數(shù)據(jù),用于估計電子文檔是否是不希望的;所述處理器被配置成確定電子文檔的第一信任級別,基于外部源提供的數(shù)據(jù),所述的第一信任級別指示了電子文檔是不希望的似然度;所述處理器還被配置成建立電子文檔的第二信任級別,基于一個或多個電子文檔的屬性,所述的第二信任級別指示電子文檔是相對于搜索不滿意的似然度;所述處理器還被配置成產(chǎn)生作為確定的第一信任級別和建立的第二信任級別的函數(shù)的電子文檔的等級,基于產(chǎn)生的電子文檔的等級,來將電子文檔分類為相對于接收的搜索請求為不滿意。
23.權(quán)利要求22的系統(tǒng),其中所述的外部源包括電子郵件兜售信息檢測系統(tǒng)。
24.權(quán)利要求22的系統(tǒng),其中外部源提供的數(shù)據(jù)鑒別一個或多個主機名字,每一個所述的主機名字提供具有預定的不希望的似然度的信息,其中處理器被配置成鑒別電子文檔為由一個主機名字提供的,并且其中該處理器還被配置成響應于鑒別電子文檔為一個主機名字提供,指定電子文檔的第一信任級別,所述的第一信任級別基于預定的似然度。
25.權(quán)利要求22的系統(tǒng),其中由外部源提供的數(shù)據(jù)鑒別一個或多個網(wǎng)絡地址,其中外部源鑒別一個或多個位于其中一個網(wǎng)絡地址中的電子文檔為具有預定的不希望的似然度,其中該處理器還被配置成鑒別該電子文檔為位于其中一個網(wǎng)絡地址中,并且其中響應于鑒別的電子文檔,該處理器被配置成指定電子文檔的第一信任級別為位于其中一個網(wǎng)絡地址中,所述的第一信任級別基于預定的似然度。
26.權(quán)利要求22的系統(tǒng),其中由外部源提供的數(shù)據(jù)鑒別一個或多個術(shù)語,其中外部源確定一個或多個在其中至少出現(xiàn)一個術(shù)語的電子文檔為具有預定的不希望的似然性,其中處理器被配置成確定何時至少一個術(shù)語出現(xiàn)在電子文檔中,并且其中處理器被配置成指定電子文檔的第一信任級別來響應于確定至少一個術(shù)語出現(xiàn)在電子文檔中,所述的第一信任級別基于預定的似然性。
27.權(quán)利要求22的系統(tǒng),其中處理器被配置成分析電子文檔以鑒別電子文檔的屬性,并且基于鑒別的電子文檔的屬性來建立第二信任級別,所述的鑒別的屬性表征關于搜索的電子文檔的不希望的模式。
28.權(quán)利要求22的系統(tǒng),其中處理器被配置成提供搜索結(jié)果給用戶來響應接收的搜索請求,并且被配置成執(zhí)行一個或多個下面的內(nèi)容在提供的搜索結(jié)果中指示分類為不希望的電子文檔,從提供的搜索結(jié)果中除去分類為不滿意的電子文檔,并且在提供的搜索結(jié)果中當電子文檔的等級超過了預定的等級時,在提供的搜索結(jié)果中保存電子文檔的排序。
29.一個或多個具有計算機可執(zhí)行元件的計算機可讀媒質(zhì),用于估計關于搜索的電子文檔,所述的計算機可讀媒質(zhì)包括接口元件,用于接收關于電子文檔的用戶提供的信息,所述的電子文檔可以響應于來自用戶的搜索請求而獲得,所述的用戶提供的信息表征電子文檔為不希望的;分析元件,用于產(chǎn)生作為接收的用戶提供的信息的函數(shù)的電子文檔的等級;以及查詢元件,用于根據(jù)產(chǎn)生的電子文檔的等級,將電子文檔分類為相對于搜索請求為不滿意的。
30.權(quán)利要求29的計算機可讀媒質(zhì),其中接收的用戶提供的信息指定電子文檔與不希望的電子郵件的源有關。
31.權(quán)利要求29的計算機可讀媒質(zhì),其中接收的用戶提供的信息指定電子文檔在搜索結(jié)果中是不希望的。
32.權(quán)利要求29的計算機可讀媒質(zhì),其中分析元件被配置成分析電子文檔以鑒別一個或多個電子文檔的屬性,并且其中分析元件還被配置成為概率統(tǒng)計分類器提供鑒別的屬性來產(chǎn)生電子文檔的等級,所述的概率統(tǒng)計分類器被訓練來識別鑒別的屬性是否是不希望的。
33.權(quán)利要求32的計算機可讀媒質(zhì),其中概率統(tǒng)計分類器包括從下組中選擇的一個或多個分類器包括 Bayesian分類器,有限依靠Bayesian分類器,Bayesian網(wǎng)絡分類器,決策樹,支持矢量機器,內(nèi)容匹配分類器,最大上熵分類器,及其組合。
34.權(quán)利要求29的計算機可讀媒質(zhì),其中分析元件被配置成確定接收到的用戶提供的信息的確實性,并且產(chǎn)生電子文檔的等級為確定的確實性的函數(shù)。
35.權(quán)利要求34的計算機可讀媒質(zhì),其中接口元件被配置成接收關于其他用戶提供電子文檔的信息,并且其中分析元件被配置成檢查其他用戶提供的信息是否與接收的用戶提供的信息一致,以確定接收的電子文檔的確實性。
36.一個或多個具有計算機可執(zhí)行元件的計算機可讀媒質(zhì),用于估計關于搜索的電子文檔,所述的計算機可讀媒質(zhì)包括查詢元件,用于接收來自用戶的搜索請求,并且基于接收的搜索請求鑒別電子文檔;外部元件,用于提供數(shù)據(jù)來估計電子文檔是否是不希望的;內(nèi)部元件,用于確定電子文檔的第一信任級別,基于外部元件提供的數(shù)據(jù),所述的第一信任級別指示電子文檔是不希望的似然性,所述的內(nèi)部元件還被配置成建立電子文檔的第二信任級別,基于一個或多個電子文檔的屬性,所述的第二信任級別指示電子文檔相對于搜索是不滿意的;分析元件,用于產(chǎn)生作為確定的第一信任級別和建立的第二信任級別的函數(shù)的電子文檔的等級;以及其中的查詢元件被配置成基于產(chǎn)生的電子文檔的等級,將電子文檔分類為相對于接收的搜索請求是不滿意的。
37.權(quán)利要求36的計算機可讀媒質(zhì),其中由外部元件提供的數(shù)據(jù)鑒別一個或多個主機名字,每一個所述的主機名字提供具有預定為不希望的似然性的信息,其中內(nèi)部元件被配置成鑒別電子文檔為由其中一個主機名字提供的,并且其中內(nèi)部元件還被配置成指定電子文檔的第一信任級別以響應于鑒別電子文檔為其中一個主機名字提供的電子文檔,所述的第一信任級別基于預定的似然性。
38.權(quán)利要求36的計算機可讀媒質(zhì),其中由外部元件提供的數(shù)據(jù)鑒別一個或多個網(wǎng)絡地址,其中外部元件鑒別一個或多個位于其中一個網(wǎng)絡地址的電子文檔為具有預定的不希望的似然性,其中內(nèi)部元件被配置成鑒別電子文檔為位于其中一個網(wǎng)絡地址,并且其中內(nèi)部元件被配置成指定電子文檔的第一信任級別以響應于鑒別電子文檔為位于其中一個網(wǎng)絡地址中,所述的第一信任級別基于預定的似然性。
39.權(quán)利要求36的計算機可讀媒質(zhì),其中由外部元件提供的數(shù)據(jù)鑒別一個或多個術(shù)語,其中外部元件確定一個或多個在其中至少出現(xiàn)一個術(shù)語的電子文檔具有預定的不希望的似然性,其中內(nèi)部元件被配置成確定何時至少一個術(shù)語出現(xiàn)在電子文檔中,并且響應于確定至少一個術(shù)語出現(xiàn)在電子文檔中,其中內(nèi)部元件被配置成指定電子文檔的第一信任級別,所屬的第一信任級別基于預定的似然性。
40.權(quán)利要求36的計算機可讀媒質(zhì),其中查詢元件被配置成為用戶提供搜索結(jié)果來響應接收的搜索請求,并執(zhí)行一個或多個下述內(nèi)容指示在提供的搜索結(jié)果中分類為不滿意的電子文檔,從提供的搜索結(jié)果中除去分類為不滿意的電子文檔,并且在提供的搜索結(jié)果中當電子文檔的等級超過了預定的等級時,保存提供的搜索結(jié)果中的電子文檔的等級。
全文摘要
估計關于搜索的電子文檔。外部源為用戶提供數(shù)據(jù)用于估計由搜索引擎獲得的電子文檔?;谕獠刻峁┑臄?shù)據(jù)確定電子文檔的第一信任級別。第一信任級別指示電子文檔是不希望的似然性?;陔娮游臋n的屬性確定電子文檔的第二信任級別。第二信任級別指示關于搜索的電子文檔是不滿意的似然性。產(chǎn)生的電子文檔的等級作為確定的第一信任等級和確定的第二信任等級的函數(shù)用于將電子文檔分類為關于接收的搜索請求是不滿意的。
文檔編號G06F17/30GK1728148SQ200510092379
公開日2006年2月1日 申請日期2005年5月23日 優(yōu)先權(quán)日2004年5月21日
發(fā)明者B·拉馬拉斯森納姆, E·B·沃森, J·R·克拉姆 申請人:微軟公司