亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

對博客文檔進(jìn)行排名的制作方法

文檔序號:6569617閱讀:139來源:國知局
專利名稱:對博客文檔進(jìn)行排名的制作方法
技術(shù)領(lǐng)域
與本發(fā)明原理相一致的實(shí)施方式總體上涉及信息檢索,并且更具 體地,涉及響應(yīng)于搜索查詢提供一組經(jīng)排名的博客文檔。
背景技術(shù)
萬維網(wǎng)("網(wǎng)絡(luò)")包含巨量的信息。然而,定位信息的所需要 的部分卻是具有挑戰(zhàn)性的。由于網(wǎng)絡(luò)上的信息量和不具備網(wǎng)絡(luò)搜索經(jīng) 驗(yàn)的新用戶的數(shù)目均迅速增加,該問題被復(fù)雜化了。
搜索引擎試圖返回用戶感興趣的網(wǎng)頁的超鏈接。通常,搜索引擎 基于用戶所輸入的搜索術(shù)語(稱作搜索查詢)來進(jìn)行它們對用戶興趣 的確定。搜索引擎的目標(biāo)是基于搜索査詢向用戶提供高質(zhì)量的相關(guān)結(jié) 果(例如,網(wǎng)頁)的鏈接。典型地,搜索引擎通過將搜索查詢中的術(shù) 語與預(yù)存網(wǎng)頁的語料庫進(jìn)行匹配來實(shí)現(xiàn)這一目標(biāo)。包含用戶的搜索術(shù) 語的網(wǎng)頁被識別為搜索結(jié)果并作為鏈接返回給用戶。
在過去幾年中, 一種稱作博客的新媒體出現(xiàn)在網(wǎng)絡(luò)上。博客(網(wǎng) 絡(luò)日志的簡稱)是通常利用被稱為帖子的日志項(xiàng)來頻繁更新個人思想 的發(fā)布。

發(fā)明內(nèi)容
依據(jù)與本發(fā)明原理相一致的一種實(shí)施方式, 一種方法可包括在博 客搜索引擎接收搜索查詢,響應(yīng)于所述搜索查詢檢索博客文檔,基于 博客文檔與所述搜索查詢的相關(guān)度確定所述博客文檔的第一分值,基 于所述博客文檔的質(zhì)量改變所述第一分值,并且基于所改變的第一分 值提供關(guān)于所述博客文檔的信息。依據(jù)與本發(fā)明原理相一致的另一種實(shí)施方式, 一種計(jì)算機(jī)執(zhí)行的 方法包括獲取博客文檔,對所述博客文檔的質(zhì)量的正指標(biāo)或所述博客 文檔的質(zhì)量的負(fù)指標(biāo)中的至少一個進(jìn)行識別,并且基于所識別至少一 個的正指標(biāo)或負(fù)指標(biāo)確定所述博客文檔的質(zhì)量分值。
依據(jù)與本發(fā)明原理相一致的另一種實(shí)施方式, 一種方法可包括在 博客搜索引擎接收搜索査詢;響應(yīng)于所述搜索査詢確定一組博客文檔 的分值,這些分值基于該組博客文檔與所述搜索査詢的相關(guān)度以及該 組博客文檔的質(zhì)量;并且基于所確定的分值提供關(guān)于該組博客文檔的
倍息o
依據(jù)與本發(fā)明原理相一致的另一種實(shí)施方式, 一種方法可包括對 博客文檔質(zhì)量的正指標(biāo)或博客文檔質(zhì)量的負(fù)指標(biāo)中的至少一個進(jìn)行識
別,所識別的至少一個正指標(biāo)或負(fù)指標(biāo)包括特定于博客文檔的指標(biāo); 基于所識別的正指標(biāo)或負(fù)指標(biāo)中的至少一個確定所述博客文檔的質(zhì)量 分值;接收搜索查詢;基于所述博客文檔與所述搜索查詢的相關(guān)度確 定所述博客文檔的分值;基于所述質(zhì)量分值調(diào)整所述博客文檔的分值; 并且基于已調(diào)整的分值提供關(guān)于所述博客文檔的信息。


結(jié)合于該說明書中并且構(gòu)成其一部分的附圖示出了本發(fā)明的實(shí)施
方式,并且與說明書一起對本發(fā)明進(jìn)行解釋。其中,
圖l是示出與本發(fā)明原理相一致的概念的示例性示圖; 圖2是可以在其中實(shí)施與本發(fā)明原理相一致的系統(tǒng)和方法的網(wǎng)絡(luò)
的示例性示圖3是與本發(fā)明原理相一致的實(shí)施方式中的客戶端和服務(wù)器實(shí)體 的示例性示圖4是可由圖2的服務(wù)器使用的部分示例性計(jì)算機(jī)可讀介質(zhì)的示
圖;圖5是可以在與本發(fā)明原理相一致的實(shí)施方式中與圖2的服務(wù)器相 關(guān)聯(lián)的示例性數(shù)據(jù)庫;
圖6是在與本發(fā)明原理相一致的實(shí)施方式中用于對博客文檔確定 質(zhì)量分值的示例性過程的流程圖7是在與本發(fā)明原理相一致的實(shí)施方式中用于呈現(xiàn)搜索結(jié)果的 示例性過程的流程圖;和
圖8是在與本發(fā)明原理相一致的實(shí)施方式中可以被檢索的示例性 文檔集的示圖。
具體實(shí)施例方式
以下參考附圖對與本發(fā)明原理相一致的實(shí)施方式進(jìn)行詳細(xì)描述。不 同示圖中的相同參考標(biāo)記可標(biāo)記相同或相似的元件。而且,以下的詳細(xì)描 述并不對本發(fā)明進(jìn)行限定。
概述
與本發(fā)明原理相一致的系統(tǒng)和方法改善了響應(yīng)于搜索查詢而提供 的博客結(jié)果的質(zhì)量。為了改善博客結(jié)果的質(zhì)量,可以使用多個質(zhì)量因 數(shù)(正的或負(fù)的)來改變博客結(jié)果的分值。
圖1是示出與本發(fā)明原理相一致的概念的示例性示圖。如圖1所 示,兩組不同的數(shù)據(jù)被用來響應(yīng)于搜索査詢而確定博客(或博客帖子) 的分值一所述博客(或博客帖子)與所述搜索查詢中的術(shù)語的主題相 關(guān)度以及所述博客(或博客帖子)的質(zhì)量,所述質(zhì)量與所述查詢術(shù)語 無關(guān)。所述博客(或博客帖子)的質(zhì)量可以正面地或負(fù)面地影響所述 博客(或博客帖子)的分值。
這里所使用的短語"博客文檔"將寬泛地解釋為包括博客、博客 帖子或者博客和博客帖子二者。將意識到的是,這里所描述的技術(shù)可 等同的應(yīng)用于博客和博客帖子。這里所使用的術(shù)語"文檔"將寬泛地 解釋為包括任何機(jī)器可讀和機(jī)器可存儲的作品。例如,文檔可包括電子郵件、網(wǎng)站、文件、文件組合、具有其它文件的嵌入鏈接的一個或 多個文件、新聞群發(fā)、博客文檔、網(wǎng)絡(luò)廣告等。在互聯(lián)網(wǎng)背景下,普 通文檔是網(wǎng)頁。網(wǎng)頁通常包括文本信息并且可包括嵌入信息(諸如元
信息、圖像、超鏈接等)和/或嵌入指令(諸如Javascript等)。這里所 使用的術(shù)語"鏈接"將寬泛地解釋為包括從一個文檔指向另一個文檔 或相同文檔的另一部分的引用,或者從另一個文檔或相同文檔的另一 部分指向該文檔的引用。
示例性網(wǎng)絡(luò)配置
圖2是可以在其中實(shí)施與本發(fā)明原理相一致的系統(tǒng)和方法的網(wǎng)絡(luò) 200的示例性示圖。網(wǎng)絡(luò)200可包括經(jīng)由網(wǎng)絡(luò)250連接到多個服務(wù)器 220 —240的多個客戶端210。為了簡單,兩個客戶端210和三個服務(wù) 器220 —240被圖示為連接到網(wǎng)絡(luò)250。實(shí)際上,可以有更多或更少的 客戶端和服務(wù)器。而且,在一些實(shí)例中,客戶端可以執(zhí)行服務(wù)器的功 能,并且服務(wù)器可以執(zhí)行客戶端的功能。
客戶端210可包括客戶端實(shí)體。實(shí)體可被定義為設(shè)備,諸如個人 計(jì)算機(jī)、無線電話、個人數(shù)字助理(PDA)、筆記本電腦或其它類型 的計(jì)算或通信設(shè)備,在這些設(shè)備之一上運(yùn)行的線程或進(jìn)程,和/或可由 這些設(shè)備之一執(zhí)行的對象。服務(wù)器220 — 240可包括服務(wù)器實(shí)體,所述 服務(wù)器實(shí)體以與本發(fā)明原理相一致的方式進(jìn)行聚集、處理、搜索和/或 維護(hù)文檔。
在與本發(fā)明原理相一致的一種實(shí)施方式中,服務(wù)器220可包括能 夠由客戶端210使用的搜索引擎225。在一種實(shí)施方式中,搜索引擎 225可包括僅搜索博客文檔的博客搜索引擎。服務(wù)器220可抓取(crawl) 文檔的語料庫,對文檔進(jìn)行索引以及將與文檔相關(guān)聯(lián)的信息存儲在文 檔庫中。服務(wù)器230和240可以對可由服務(wù)器220抓取和分析的文檔 進(jìn)行存儲和維護(hù)。雖然服務(wù)器200 — 240被示為分離的實(shí)體,但是對于服務(wù)器220 — 240中的一個或多個而言,可以執(zhí)行服務(wù)器220 — 240中的另一個或多 個的一個或多個功能。例如,可以將服務(wù)器220 — 240中的兩個或更多 做為單個服務(wù)器來實(shí)現(xiàn)。也可以將服務(wù)器220 — 240中的單獨(dú)一個做為 兩個或多個分離的(并可能是分布式的)設(shè)備來實(shí)現(xiàn)。
網(wǎng)絡(luò)250可包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、諸如公共交 換電話網(wǎng)(PSTN)之類的電話網(wǎng)、內(nèi)部網(wǎng)、互聯(lián)網(wǎng)或者網(wǎng)絡(luò)的組合。 客戶端210和服務(wù)器220 — 240可經(jīng)由有線、無線和/或光連接而連接到 網(wǎng)絡(luò)250。
示例性客戶端/服務(wù)器體系 圖3是可對應(yīng)于客戶端210和/或服務(wù)器220 — 240中的一個或多 個的客戶端或服務(wù)器實(shí)體(此后稱作"客戶端/服務(wù)器實(shí)體")的示例 性示圖。所述客戶端/服務(wù)器實(shí)體可包括總線310、處理器320、主存儲 器330、只讀存儲器(ROM) 340、存儲設(shè)備350、輸入設(shè)備360、輸 出設(shè)備370和通信接口 380??偩€310可包括允許在所述客戶端/服務(wù) 器實(shí)體的元件之間進(jìn)行通信的路徑。
處理器320可包括能夠解釋和執(zhí)行指令的處理器、微處理器或處 理邏輯。主存儲器330可包括能夠存儲由處理器320執(zhí)行的信息和指 令的隨機(jī)訪問存儲器(RAM)或其它類型的動態(tài)存儲設(shè)備。ROM 340 可包括能夠存儲由處理器320使用的靜態(tài)信息和指令的ROM設(shè)備或其 它類型的靜態(tài)存儲設(shè)備。存儲設(shè)備350可包括磁和/或光記錄介質(zhì)及其 相應(yīng)的驅(qū)動器。
輸入設(shè)備360可包括允許操作者向客戶端/服務(wù)器實(shí)體輸入信息的 機(jī)制,諸如鍵盤、鼠標(biāo)、筆、語音識別和/或生物測定機(jī)制等。輸出設(shè) 備370可包括向操作者輸出信息的機(jī)制,包括顯示器、打印機(jī)、揚(yáng)聲 器等。通信接口 380可包括類似收發(fā)器的機(jī)制,其允許客戶端/服務(wù)器實(shí)體與其它設(shè)備和/或系統(tǒng)進(jìn)行通信。例如,通信接口 380可包括用于
經(jīng)由諸如網(wǎng)絡(luò)250的網(wǎng)絡(luò)與另一個設(shè)備或系統(tǒng)進(jìn)行通信的機(jī)制。
如下將要詳細(xì)描述的,與本發(fā)明原理相一致的客戶端/服務(wù)器實(shí)體 可執(zhí)行與特定文檔處理相關(guān)的操作。所述客戶端/服務(wù)器實(shí)體可響應(yīng)于
處理器320執(zhí)行軟件指令來執(zhí)行這些操作,所述軟件指令包含于諸如 存儲器330的計(jì)算機(jī)可讀介質(zhì)中。計(jì)算機(jī)可讀介質(zhì)可被定義為物理或 邏輯的存儲設(shè)備和/或載波。
軟件指令可以從諸如數(shù)據(jù)存儲設(shè)備350的另一計(jì)算機(jī)可讀介質(zhì)讀 入存儲器330,或者經(jīng)由網(wǎng)絡(luò)接口 380從另一設(shè)備讀入存儲器330。存 儲器330中所包含的軟件指令可使得處理器320執(zhí)行處理,所述處理 將在后面描述?;蛘?,硬件電路可以代替軟件指令或與其相結(jié)合來執(zhí) 行與本發(fā)明原理相一致的處理。因此,與本發(fā)明原理相一致的實(shí)施方
式并不局限于硬件電路和軟件的任何特定組合。
示例性計(jì)算機(jī)可讀介質(zhì) 圖4是可由服務(wù)器220使用的部分示例性計(jì)算機(jī)可讀介質(zhì)400的 示圖。在一種實(shí)施方式中,計(jì)算機(jī)可讀介質(zhì)400可對應(yīng)于服務(wù)器220 的存儲器330。圖4所示的部分計(jì)算機(jī)可讀介質(zhì)400可包括操作系統(tǒng) 410和博客質(zhì)量軟件420。
操作系統(tǒng)410可包括諸如Windows、 Unix或Li皿x操作系統(tǒng)之類 的操作系統(tǒng)軟件。博客質(zhì)量軟件420可包括接收關(guān)于博客文檔的數(shù)據(jù) 并基于該數(shù)據(jù)確定所述博客文檔的質(zhì)量分值的軟件。如將要在以下進(jìn) 一步詳細(xì)描述的,所述數(shù)據(jù)可包括測量博客文檔為低質(zhì)量的概率的信 號,博客文檔為低質(zhì)量將導(dǎo)致作為候選結(jié)果的博客文檔的降級或排除。 所述數(shù)據(jù)還可以包括測量博客文檔的內(nèi)容為高質(zhì)量/高受歡迎度的信 號,博客文檔的內(nèi)容為高質(zhì)量/高受歡迎度將導(dǎo)致作為候選結(jié)果的博客 文檔的晉級。圖5是可以在與本發(fā)明原理相一致的實(shí)施方式中與服務(wù)器220相 關(guān)聯(lián)的示例性數(shù)據(jù)庫500。數(shù)據(jù)庫500可在服務(wù)器220本地存儲,例如, 存儲在主存儲器330或存儲設(shè)備350中,或者存儲在服務(wù)器220之外, 例如,可能存儲在遠(yuǎn)程位置。如圖所示,數(shù)據(jù)庫500可包括以下示例 性字段文檔標(biāo)識(ID)字段510和質(zhì)量分值字段520??梢砸庾R到的 是,數(shù)據(jù)庫500可包括不同于圖5所示的其它字段。
文檔ID字段510可存儲識別博客文檔的信息,如以上所述,所述 博客文檔可以是博客或博客帖子。所述信息可包括唯一標(biāo)識符。質(zhì)量 分值字段520可存儲字段510中所識別的每個博客文檔的質(zhì)量分值。 可響應(yīng)于服務(wù)器220所接收的搜索查詢來訪問數(shù)據(jù)庫500。服務(wù)器220 可基于來自字段520的質(zhì)量分值而對一組搜索結(jié)果中的博客文檔(即, 博客和/或帖子)進(jìn)行晉級、降級或者甚至排除。
為博客文檔確定質(zhì)量分值 圖6是在與本發(fā)明原理相一致的實(shí)施方式中用于對博客文檔確定 質(zhì)量分值的示例性過程的流程圖。處理可以通過獲得關(guān)于要打分的博 客文檔的信息而開始(動作610)。所述信息可包括博客自身、帖子、 來自所述博客的元數(shù)據(jù)和/或與所述博客文檔相關(guān)聯(lián)的一個或多個饋給
(feeds)。
可以識別針對博客文檔的質(zhì)量的正指示符(動作620)。這些指 示符可包括博客文檔的受歡迎度,博客文檔的隱含受歡迎度,博客文 檔在博客列表(blogroll)中的存在,博客文檔在高質(zhì)量博客列表中的 存在,博客文檔的標(biāo)簽,其它資源對博客文檔的引用以及博客文檔的 網(wǎng)頁排名(pagerank)??梢砸庾R到的是,也可以使用其它指示符。
博客文檔的受歡迎度可以是該博客文檔的質(zhì)量的正指標(biāo)。多個新 聞聚合器(aggregator)網(wǎng)站(通常稱作"新聞閱讀器"或"饋給閱讀器")存在于個體能夠(通過其饋給)訂閱博客文檔的地方。這樣的 聚合器存儲描述有多少個體已經(jīng)訂閱了給定博客文檔的信息。具有高 訂閱數(shù)的博客文檔意味著所述博客文檔質(zhì)量更高。而且,能夠通過驗(yàn) 證訂閱的唯一用戶,或者通過過濾訂閱者的唯一互聯(lián)網(wǎng)協(xié)議(IP)地址
來針對"訂閱兜售信息(subscriptions spam)"(其中兜售信息者 (spammer)訂閱他們自己的博客文檔以試圖使其"更受歡迎")驗(yàn)證 訂閱。
可以識別博客文檔的隱含受歡迎度。例如,可以通過測試搜索結(jié)
果的點(diǎn)擊流來識別該隱含受歡迎度。例如,如果當(dāng)出現(xiàn)在結(jié)果集中時, 特定博客文檔比其它博客文檔被點(diǎn)擊更多,這就可以作為該博客文檔
是受歡迎的指示,并且由此作為該博客文檔的質(zhì)量的正指示符。
博客文檔存在于博客列表中可作為所述博客文檔的質(zhì)量的正指
標(biāo)??梢砸庾R到的是,博客文檔通常不僅包括最近的日志項(xiàng)(即,帖
子),而且包括"博客列表",所述博客列表是作者/博客撰寫者所感
興趣的外部站點(diǎn)(通常是其它博客)的鏈接的密集收集。鏈接到博客 文檔的博客列表是該博客文檔的受歡迎度的指標(biāo),所以能夠計(jì)算鏈接
到博客文檔的聚合博客列表并將其用于推斷所述博客文檔的受歡迎度 量級。
博客文檔存在于高質(zhì)量博客列表中可作為所述博客文檔的質(zhì)量的 正指標(biāo)。高質(zhì)量博客列表是鏈接到著名的或可信的博客撰寫者的博客 列表。因此,還鏈接到博客文檔的高質(zhì)量博客列表是所述博客文檔的 質(zhì)量的正指示符。
類似地,博客文檔存在于著名的或可信的博客撰寫者的博客列表 也可以作為所述博客文檔的質(zhì)量的正指標(biāo)。在這種情況下,假設(shè)所述 著名的或可信的博客撰寫者不會鏈接到兜售信息的博客撰寫者。博客文檔的標(biāo)簽可以作為博客文檔的質(zhì)量的正指標(biāo)。 一些現(xiàn)有的 站點(diǎn)允許用戶向博客文檔添加"標(biāo)簽"(即,進(jìn)行"分類")。這些 定制分類是個體已經(jīng)評估了博客文檔內(nèi)容并且確定了適當(dāng)描述其內(nèi)容 的一個或多個分類的指示符,并且同樣可以作為所述博客文檔的正指 示符。
其他源對博客文檔的引用可作為所述博客文檔的質(zhì)量的正指標(biāo)。
例如,電子郵件的內(nèi)容或聊天記錄可包含博客文檔的URL。包括對所
述博客文檔的引用的電子郵件或聊天討論是所述博客文檔的質(zhì)量的正 指示符。
博客文檔的網(wǎng)頁排名可作為所述博客文檔的質(zhì)量的正指示符。高 網(wǎng)頁排名(通常對于常規(guī)網(wǎng)頁進(jìn)行計(jì)算的信號)是高質(zhì)量的指示符, 并且由此能夠應(yīng)用于博客文檔作為所述博客文檔的質(zhì)量的正指標(biāo)。在 一些實(shí)施方式中,博客文檔(例如,帖子)可以不與網(wǎng)頁排名相關(guān)聯(lián) (例如,當(dāng)帖子是新的時)。在那些情況下,新的帖子可繼承其所關(guān) 聯(lián)的博客的網(wǎng)頁排名,直至對該新的帖子確定了獨(dú)立的網(wǎng)頁排名。該
繼承的網(wǎng)頁排名可作為所述新的帖子的質(zhì)量的正指標(biāo)。
可以識別針對博客文檔的質(zhì)量的負(fù)指示符(動作630)。這樣的 指示符可包括博客文檔上新帖子的頻率,博客文檔中的帖子的內(nèi)容, 博客文檔中帖子的大小,博客文檔的鏈接分布以及出現(xiàn)在博客文檔中
的廣告??梢砸庾R到的是,也可以使用其他指示符。
新帖子添加到博客文檔的頻率可作為該博客文檔的質(zhì)量的負(fù)指示 符。典型地,饋給僅包括來自博客文檔的最近的帖子。兜售信息者經(jīng) 常突然生成大量新帖子(即,短時期內(nèi)出現(xiàn)許多新帖子)或者以可預(yù) 計(jì)的間隔(每IO分鐘發(fā)一個帖子,或者在每3個小時中每小時過去32
分鐘時發(fā)一個新帖子)。這兩種行為都與惡意意圖相關(guān),并且能夠用 于識別可能的兜售信息者。因此,如果新帖子添加到博客文檔中的頻率與可預(yù)計(jì)模式相匹配。則這可以作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。
博客文檔中帖子的內(nèi)容可作為該博客文檔的質(zhì)量的負(fù)指標(biāo)。典型
地,饋給包含來自給定博客文檔的多個帖子的部分或全部內(nèi)容。所述 博客文檔本身也包括這些帖子的內(nèi)容。兜售信息者可以將一個版本的
內(nèi)容放入饋給中來提高他們在搜索結(jié)果中的排名,同時在他們的博客 文檔上放置不同的版本(例如,不相關(guān)廣告的鏈接)。因此,這種不 匹配(饋給和博客文檔之間的)可作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。
而且,在一些實(shí)例中,可以在博客文檔的多個帖子中復(fù)制特定的 內(nèi)容,導(dǎo)致多個饋給包含相同的內(nèi)容。這樣的復(fù)制指示出所述饋給是 低質(zhì)量/兜售信息,并且由此能夠作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。
博客文檔的帖子中使用的詞語/短語也可作為該博客文檔的質(zhì)量 的負(fù)指標(biāo)。例如,可以從博客文檔的集合以及評估者認(rèn)為是兜售信息 的饋給中提取出在兜售信息中頻繁出現(xiàn)的詞語和短語的列表(例如, 雙字重復(fù)、三字重復(fù)等)。如果博客文檔包含高比例的來自所述列表 的詞語或短語,則這可作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。
博客文檔中帖子的大小可作為該博客文檔的質(zhì)量的負(fù)指標(biāo)。許多
自動帖子生成器生成多個相同或非常相似長度的帖子。結(jié)果,帖子大 小的分布能夠作為兜售信息行為的可靠量度。當(dāng)博客文檔包括多個長 度相同或非常相似的帖子時,這可作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。
博客文檔的鏈接分布可作為該博客文檔的質(zhì)量的負(fù)指標(biāo)。如上所 述, 一些帖子被創(chuàng)建來增加特定博客文檔的網(wǎng)頁排名。在一些情況下, 來自這些帖子或博客文檔的所有鏈接中的大部分都指向單個網(wǎng)頁或者 單個外部站點(diǎn)。如果到任意單個外部站點(diǎn)的鏈接數(shù)目超出閾值,則這 可作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。廣告在博客文檔中的出現(xiàn)可作為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。 如果博客文檔包含大量廣告,則這可作為所述博客文檔的質(zhì)量的負(fù)指 標(biāo)。
此外,典型地,博客文檔包含三種類型的內(nèi)容最近帖子的內(nèi)容, 博客列表和博客元數(shù)據(jù)(例如,作者概況信息和/或關(guān)于所述博客文檔 或其作者的其他信息)。如果存在廣告,典型地出現(xiàn)在博客元數(shù)據(jù)段
內(nèi)或者接近博客列表。廣告在博客文檔的最近帖子部分中的存在可作 為所述博客文檔的質(zhì)量的負(fù)指標(biāo)。
可基于這些指示符來確定博客文檔的質(zhì)量分值(動作640)。例
如,在一種實(shí)施方式中,可以通過向不同指示符分配權(quán)重并且組合這 些權(quán)重以獲得質(zhì)量分值來確定博客文檔的質(zhì)量分值??梢砸匀我獾姆?式對這些指示符進(jìn)行組合和/或設(shè)置權(quán)重。例如,在與本發(fā)明原理相一 致的一種實(shí)施方式中,可以為每個指標(biāo)賦予正或負(fù)值??梢詫⑦@些數(shù) 值加在一起來確定博客文檔的質(zhì)量分值。或者,可以將每個指示符值 乘以對應(yīng)因數(shù)(或權(quán)重)并且將結(jié)果值加合來給出博客文檔的質(zhì)量分 值。也可以使用用于確定質(zhì)量分值的其他技術(shù)。
一旦確定了博客文檔的質(zhì)量分值,就可以將其與所述博客文檔相
關(guān)聯(lián)。例如,所述質(zhì)量分值可以在諸如數(shù)據(jù)庫500的數(shù)據(jù)庫中與對已 經(jīng)確定分值的博客文檔進(jìn)行識別的信息相關(guān)聯(lián)。以這種方式,數(shù)據(jù)庫 500可以具有博客文檔的質(zhì)量分值。所述質(zhì)量分值能夠定期更新。
呈現(xiàn)搜索結(jié)果
圖7是用于呈現(xiàn)搜索結(jié)果的示例性過程的流程圖。在一種實(shí)施方 式中,圖7的處理可以由服務(wù)器220內(nèi)的一個或多個軟件和/或硬件部 件來執(zhí)行。在另一種實(shí)施方式中,所述處理可以由另一設(shè)備或一組設(shè) 備內(nèi)的一個或多個軟件和/或硬件部件來執(zhí)行,所述一組設(shè)備與服務(wù)器 220分離或包括服務(wù)器220。處理可以從正在接收的搜索査詢開始(動作710)。例如,用戶 可以向與搜索引擎相關(guān)聯(lián)的搜索框中提供搜索査詢(例如,向搜索引 擎界面或添加工具欄的搜索框中輸入搜索術(shù)語)。網(wǎng)絡(luò)瀏覽器(或添
加工具欄)可以將所述搜索査詢發(fā)送給搜索引擎,諸如與服務(wù)器220 相關(guān)聯(lián)的搜索引擎225。
可以基于所述搜索查詢確定一組文檔的相關(guān)性分值(動作720)。 例如,服務(wù)器220可確定這些文檔的信息檢索(IR)分值??梢曰?搜索查詢的搜索術(shù)語與文檔內(nèi)容的匹配來確定所述文檔的IR分值。多 種已知技術(shù)可以用來確定文檔IR分值。例如,可以基于搜索術(shù)語在文 檔中出現(xiàn)的數(shù)量來確定IR分值。可選地或另外地,可以基于所述搜索 術(shù)語在文檔中哪里(例如,標(biāo)題、內(nèi)容等)出現(xiàn)或者所述搜索術(shù)語的 特征(例如,字體、大小、顏色等)來確定所述IR分值??蛇x地或另 外地,當(dāng)存在多個搜索術(shù)語時,對一個搜索術(shù)語設(shè)置權(quán)重可以不同于 另一個搜索術(shù)語??蛇x地或另外地,當(dāng)存在多個搜索術(shù)語時,搜索術(shù) 語的近似度可以影響IR分值。對于本領(lǐng)域技術(shù)人員來說,用于確定文 檔的IR分值的其他的技術(shù)是己知的。
可以基于文檔的質(zhì)量確定所述文檔的整體分值(動作730)。例 如,可以將每個文檔的IR分值與所述文檔的質(zhì)量分值進(jìn)行組合來確定 整體分值。組合這些分值使得所述文檔的IR分值可以基于質(zhì)量分值進(jìn) 行調(diào)整,由此提高或降低分值,或者在一些情況下,保持分值不變來 獲得整體分值?;蛘撸梢詥为?dú)基于質(zhì)量分值而不生成IR分值來對文 檔進(jìn)行評分。在任意情況下,可以使用質(zhì)量分值對文檔確定其整體分 值。
可以基于文檔的整體分值將一組經(jīng)排名的文檔提供給用戶(動作 740)。以這種方式,文檔的質(zhì)量可以被用來改善提供給用戶的搜索結(jié) 果。示例
以下示例說明了以上處理。假設(shè)用戶對關(guān)于幻想足球的博客感興
趣。所述用戶可能向諸如搜索引擎225的搜索引擎提交搜索査詢"幻 想足球"。作為響應(yīng),假設(shè)搜索引擎225基于一組博客文檔與所述搜 索查詢的相關(guān)度對它們進(jìn)行檢索(例如,使用IR技術(shù))。
圖8是響應(yīng)于搜索查詢而接收的示例性博客文檔集的示圖。如圖 所示,搜索引擎225檢索到具有以下相關(guān)度(或IR)分值的五個博客 文檔(博客文檔1一5):具有IR分值1.0的博客文檔1,具有IR分值 0.9的博客文檔2,具有IR分值0.8的博客文檔3,具有IR分值0.7的 博客文檔4和具有IR分值0.6的博客文檔5。出于解釋的目的,假設(shè) 這五個博客文檔具有以下質(zhì)量分值博客文檔1具有正質(zhì)量分值0.4, 博客文檔2具有負(fù)質(zhì)量分值-0.4,博客文檔3具有正質(zhì)量分值0.8,博 客文檔4具有正質(zhì)量分值0.3,以及博客文檔5具有正質(zhì)量分值0.3。
搜索引擎225可通過將相關(guān)度分值添加到質(zhì)量分值來確定博客文 檔的整體分值。在這種情況下,博客文檔l將具有整體分值1.4,博客 文檔2將具有整體分值0.5,博客文檔3將具有整體分值1.6,博客文 檔4將具有整體分值1.0,以及博客文檔5將具有整體分值0.9。因此, 搜索引擎可以按照以下順序向用戶提供博客文檔l一5:博客文檔3, 博客文檔l,博客文檔4,博客文檔5和博客文檔2。
如從圖8的示例明顯看到的,博客文檔的質(zhì)量可能導(dǎo)致那些文檔 的排名提高或降低。以這種方式,向用戶提供了更高質(zhì)量的結(jié)果。
結(jié)論
與本發(fā)明原理相一致的實(shí)施方式通過考慮博客質(zhì)量來改善博客搜索。本發(fā)明的示例性實(shí)施例的以上描述提供了說明和描述,但是并不 意在是詳盡的或者將本發(fā)明精確限制于所公開的內(nèi)容??赡芤罁?jù)以上 技術(shù)進(jìn)行修改和變化或者從本發(fā)明的實(shí)踐來獲得。
例如,雖然已經(jīng)關(guān)于圖6和7描述了一系列動作,但是這些動作 的順序在與本發(fā)明原理相一致的其他實(shí)施方式中可以進(jìn)行修改。此外, 可以平行執(zhí)行非從屬性的動作。
之前的描述提及了用戶。"用戶"意指諸如客戶端210 (圖2)的
客戶端,或者客戶端的操作者。
對于本領(lǐng)域技術(shù)人員是顯而易見的,在圖中所示的實(shí)施方式中, 如以上所述的本發(fā)明的各方面可以以許多不同形式的軟件、固件和硬 件來實(shí)現(xiàn)。用來實(shí)現(xiàn)與本發(fā)明原理相一致的各方面的實(shí)際軟件代碼或 特定控制硬件并不是對本發(fā)明的限制。因此,各方面的操作和行為并 沒有參考特定的軟件代碼來描述一可以理解的是本領(lǐng)域技術(shù)人員將能 夠基于本說明書來設(shè)計(jì)軟件和控制硬件以實(shí)施這些方面。
除非特別說明,不應(yīng)當(dāng)認(rèn)為本申請中所使用的元件、動作或指令 對于本發(fā)明是關(guān)鍵和實(shí)質(zhì)性的。并且,如此處所使用的,不加數(shù)量限 制的項(xiàng)旨在包括一個或者多個項(xiàng)。在僅僅指一個項(xiàng)的地方,使用了術(shù) 語"一個"或者類似表述。此外,除非另外特別指出,短語"基于" 旨在表示"至少部分地基于"。
權(quán)利要求
1. 一種方法,包括由博客搜索引擎接收搜索查詢;響應(yīng)于所述搜索查詢檢索博客文檔;基于所述博客文檔與所述搜索查詢的相關(guān)度確定所述博客文檔的第一分值;基于所述博客文檔的質(zhì)量改變所述第一分值;以及基于所改變的第一分值提供關(guān)于所述博客文檔的信息。
2. 如權(quán)利要求l所述的方法,其中所述博客文檔包括博客或博客 帖子。
3. 如權(quán)利要求l所述的方法,進(jìn)一步包括 基于多個指示符確定所述博客文檔的質(zhì)量。
4. 如權(quán)利要求3所述的方法,其中所述多個指示符包括一個或多 個正指示符或者一個或多個負(fù)指示符中的至少一個。
5. 如權(quán)利要求4所述的方法,其中所述一個或多個正指示符包括 所述博客文檔的受歡迎度、在與其它博客文檔相關(guān)聯(lián)的一個或多個博 客列表中存在的指向所述博客文檔的鏈接、所述博客文檔的標(biāo)簽、在 其它文檔中的對所述博客文檔的引用或所述博客文檔的網(wǎng)頁排名中的 一個或多個,以及其中所述一個或多個負(fù)指示符包括帖子添加到所述博客文檔的頻 率、所述博客文檔的內(nèi)容、所述博客文檔中帖子的大小、與所述博客 文檔相關(guān)聯(lián)的鏈接分布、所述博客文檔中廣告的數(shù)量或所述博客文檔 中廣告的位置中的一個或多個。
6. 如權(quán)利要求4所述的方法,其中確定所述博客文檔的質(zhì)量包括:將所述一個或多個正指示符與所述一個或多個負(fù)指示符進(jìn)行組合 來確定所述博客文檔的質(zhì)量分值。
7. 如權(quán)利要求6所述的方法,其中改變所述第一分值包括 基于所述質(zhì)量分值增加或減少所述第一分值。
8. 如權(quán)利要求l所述的方法,其中所述博客文檔的質(zhì)量與所述搜 索查詢不相關(guān)。
9. 一種系統(tǒng),包括用于由博客搜索引擎接收搜索查詢的裝置;用于響應(yīng)于所述搜索査詢獲取博客文檔的裝置;用于基于所述博客文檔與所述搜索查詢的相關(guān)度確定所述博客文檔的第一分值的裝置;用于基于所述博客文檔的質(zhì)量調(diào)整所述第一分值的裝置;以及 基于所調(diào)整的第一分值提供關(guān)于所述博客文檔的信息的裝置。
10. —種設(shè)備,包括 博客搜索引擎,用來接收搜索查詢;響應(yīng)于所述搜索查詢檢索多個博客文檔;基于所述多個博客文檔中的每個博客文檔與所述搜索查詢的 相關(guān)度確定所述每個博客文檔的第一分值;基于所述每個博客文檔的質(zhì)量改變所述每個博客文檔的第一 分值;以及基于所改變的第一分值提供關(guān)于所述博客文檔的信息。
11. 一種包含指令的計(jì)算機(jī)可讀介質(zhì),所述指令用于控制處理器 執(zhí)行方法,所述方法包括由博客搜索引擎接收搜索査詢;響應(yīng)于所述搜索查詢檢索文檔,所述文檔包括博客文檔; 基于所述文檔與所述搜索查詢的相關(guān)度確定所述文檔的分值; 基于所述博客文檔的質(zhì)量改變所述博客文檔的分值;以及 基于所確定的分值和所改變的分值提供關(guān)于所述文檔的信息。
12. —種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 獲取博客文檔;識別所述博客文檔的質(zhì)量的正指示符或所述博客文檔的質(zhì)量的負(fù) 指示符中的至少一個;基于所識別的至少一個正指示符或負(fù)指示符確定所述博客文檔的 質(zhì)量分值。
13. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述博客文檔 包括博客或博客帖子。
14. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述正指示符包括所述博客文檔的受歡迎度、在與其它博客文檔相關(guān)聯(lián)的一個或多 個博客列表中存在的指向所述博客文檔的鏈接、博客文檔的標(biāo)簽、在其它文檔中的對所述博客文檔的引用或所述博客文檔的網(wǎng)頁排名中的 一個或多個。
15. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述負(fù)指示符包括帖子添加到所述博客文檔的頻率、所述博客文檔中帖子的大小、與所述博客文檔相關(guān)聯(lián)的鏈接分布、所述博客文檔中廣告的質(zhì)量或所 述博客文檔中廣告的位置中的一個或多個。
16. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述負(fù)指示符 包括所述博客文檔的內(nèi)容和與所述博客文檔相關(guān)聯(lián)的饋給內(nèi)容不相匹 配的指示。
17. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述負(fù)指示符 包括所述博客文檔包括高百分比的預(yù)定詞語或短語的指示。
18. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述負(fù)指示符 包括所述博客文檔包括復(fù)制內(nèi)容的指示。
19. 如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括響應(yīng)于搜索查詢使用所述質(zhì)量分值對所述博客文檔進(jìn)行排名。
20. —種設(shè)備,包括 用于接收博客文檔的邏輯;用于對所述博客文檔的質(zhì)量的正指示符或所述博客文檔的質(zhì)量的 負(fù)指示符中的至少一個進(jìn)行識別的邏輯;用于基于所識別的至少一個正指示符或負(fù)指示符確定所述博客文 檔的質(zhì)量的邏輯。
21. —種方法,包括 在博客搜索引擎接收搜索査詢;響應(yīng)于所述搜索查詢確定多個博客文檔的分值,所述分值基于所 述多個博客文檔與所述搜索查詢的相關(guān)度以及所述多個博客文檔的質(zhì)量;以及基于所確定的分值提供關(guān)于所述多個博客文檔的信息。
22. 如權(quán)利要求21所述的方法,其中所述確定分值包括 確定所述多個博客文檔的相關(guān)度分值;以及 基于所述多個博客文檔的質(zhì)量調(diào)整所述相關(guān)度分值。
23. 如權(quán)利要求21所述的方法,進(jìn)一步包括 基于多個指示符確定所述多個博客文檔中的每個博客文檔的質(zhì)
24. 如權(quán)利要求23所述的方法,其中所述多個指示符包括一個或 多個正指示符和一個或多個負(fù)指示符。
25. 如權(quán)利要求24所述的方法,其中所述一個或多個正指示符包 括所述博客文檔的受歡迎度、在與其它博客文檔相關(guān)聯(lián)的一個或多個博客列表中存在的指向所述博客文檔的鏈接、博客文檔的標(biāo)簽、在其 它文檔中的對所述博客文檔的引用或博客文檔的網(wǎng)頁排名中的一個或 多個,以及其中所述一個或多個負(fù)指示符包括帖子添加到所述博客文檔的頻 率、所述博客文檔的內(nèi)容、所述博客文檔中帖子的大小、與所述博客 文檔相關(guān)聯(lián)的鏈接分布、所述博客文檔中廣告的數(shù)量或所述博客文檔 中廣告的位置中的一個或多個。
26. 如權(quán)利要求24所述的方法,其中所述確定每個博客文檔的質(zhì) 量包括將所述一個或多個正指示符和所述一個或多個負(fù)指示符進(jìn)行組合 來確定所述每個博客文檔的質(zhì)量分值。
27. —種方法,包括識別博客文檔的質(zhì)量的正指示符或者所述博客文檔的質(zhì)量的負(fù)指 示符中的至少一個,所識別的至少一個正指示符或負(fù)指示符包括特定 于博客文檔的指示符;基于所識別的至少一個正指示符或負(fù)指示符確定所述博客文檔的 質(zhì)量分值;接收搜索查詢;基于所述博客文檔與所述搜索查詢的相關(guān)度確定所述博客文檔的 分值;基于所述質(zhì)量分值調(diào)整所述博客文檔的分值;以及 基于所調(diào)整的分值提供關(guān)于所述博客文檔的信息。
全文摘要
一種博客搜索引擎可以接收搜索查詢。所述博客搜索引擎可以響應(yīng)于所述搜索查詢而對一組博客文檔確定分值,其中所述分值基于該組博客文檔與所述搜索查詢的相關(guān)度以及該組博客文檔的質(zhì)量。所述博客搜索引擎還可以基于所確定的分值提供關(guān)于該組博客文檔的信息。
文檔編號G06F17/30GK101305371SQ200680042202
公開日2008年11月12日 申請日期2006年9月13日 優(yōu)先權(quán)日2005年9月13日
發(fā)明者安德里·比胡恩, 杰夫·雷納爾, 杰森·勾德曼, 愛德華多·莫拉里斯, 阿里克斯·凱辛, 韋諾德·瑪盧爾 申請人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1