亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種提供相關(guān)搜索的方法及系統(tǒng)的制作方法

文檔序號:6613706閱讀:139來源:國知局
專利名稱:一種提供相關(guān)搜索的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別是涉及一種提供相關(guān)搜索的方法及系統(tǒng)。
背景技術(shù)
目前的搜索引擎一般都具有相關(guān)搜索的功能,即根據(jù)用戶的查詢關(guān)鍵詞提 供與該關(guān)鍵詞相關(guān)的信息。例如,用戶在搜索引擎中輸入關(guān)鍵詞"劉德華", 搜索結(jié)果頁面將顯示與"劉德華"相關(guān)的網(wǎng)頁鏈接,并提供"劉德華演唱會"、 "劉德華歌曲"、"劉德華電影"、"劉德華博客"等一系列關(guān)鍵詞推薦給用戶, 幫助用戶使用更多的查詢詞搜索到需要的信息。這種查詢推薦模式已經(jīng)成為搜 索領(lǐng)域最常見的方式。
查詢推薦采用的技術(shù)主要是統(tǒng)計分析搜索引擎的查詢?nèi)罩?,查詢?nèi)罩居涗?了用戶輸入的查詢關(guān)鍵詞及其出現(xiàn)次數(shù)、通過該關(guān)鍵詞點(diǎn)擊的網(wǎng)頁鏈接及點(diǎn)擊 次數(shù)等信息,通過分析查詢?nèi)罩咎崛〕龈鼫?zhǔn)確的查詢詞,將近期搜索排名靠前 的相關(guān)信息推薦給用戶。例如用戶查詢"劉德華"時,可以通過在歷史的查詢 日志中發(fā)現(xiàn)查詢"劉德華演唱會"的查詢較多,因此給出"劉德華演唱會"。 這種搜索模式的實(shí)質(zhì)在于縮小搜索范圍、精確查詢詞、提高搜索準(zhǔn)確度,從而 幫助用戶得到更理想的搜索效果。
針對用戶的不同搜索需求,還有一種不同于上述查詢推薦的搜索模式,稱
為相關(guān)推薦,是指利用相關(guān)性進(jìn)行的一些啟發(fā)性的推薦。例如在試聽某歌曲 時,給出聽該歌曲的人還聽過哪些歌曲;還有一些具有推薦性的門戶網(wǎng)站,典 型的如Amazon (亞馬遜)購書,通常會給出購買此書的讀者還買了哪些書的 提示信息。這種相關(guān)推薦采用的是日志挖掘技術(shù),通過分析網(wǎng)站日志并進(jìn)行頻 繁模式的統(tǒng)計計算,得出哪些歌曲經(jīng)常被放在一起聽、哪些書籍經(jīng)常被一起購 買。
這種基于網(wǎng)站日志的相關(guān)推薦模式,針對用戶在搜索廣度上的需要為用戶 在搜索特定信息時帶來了良好的搜索效果。但是, 一個網(wǎng)站的日志信息通常是 不對外公開的,只有網(wǎng)站擁有自己的日志信息,而實(shí)現(xiàn)相關(guān)推薦需要建立在分析多個不同網(wǎng)站日志的基礎(chǔ)上,因此如何獲取多個網(wǎng)站的日志信息就成為實(shí)現(xiàn) 相關(guān)推薦的難題,如果沒有充分的不同網(wǎng)站的日志偉息,就無法提供整個搜索 領(lǐng)域內(nèi)的相關(guān)推薦。
綜上所述,目前提供的搜索模式,較多的是為用戶提供更精確的查詢推薦, 而在某些特定信息的查詢上雖然提供了更廣泛的相關(guān)推薦,但是受到需要收集 網(wǎng)站日志的限制,不能在整個搜索領(lǐng)域內(nèi)實(shí)現(xiàn)更大范圍的相關(guān)推薦。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是實(shí)現(xiàn)一種提供相關(guān)搜索的方法及系統(tǒng),以解 決目前的搜索引擎不能提供更廣泛的查詢的問題。
為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下
技術(shù)方案
一種提供相關(guān)搜索的方法,包括
建立網(wǎng)頁信息的對象模型,對象模型中定義了對象屬性;
根據(jù)對象模型的定義,從網(wǎng)頁信息中識別并抽取出對象的屬性信息;
度量對象間的關(guān)聯(lián)關(guān)系;
將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象進(jìn)行相關(guān)性推薦。
其中,度量對象間關(guān)系的步驟包括統(tǒng)計對象關(guān)鍵詞在網(wǎng)頁信息中的出現(xiàn) 次數(shù);根據(jù)所述出現(xiàn)次數(shù)計算對象關(guān)鍵詞之間的相關(guān)性。
其中,度量對象間關(guān)系的步驟還可以包括分別計算對象的同類屬性間的 相關(guān)性;才艮據(jù)所述對象屬性間的相關(guān)性計算對象間的相關(guān)性。
所述方法還包括度量同一個對象的屬性之間的關(guān)聯(lián)關(guān)系,將關(guān)聯(lián)關(guān)系符 合預(yù)置條件的對象屬性進(jìn)行相關(guān)性推薦。
優(yōu)選的,相關(guān)性推薦的步驟包括在查詢模式下,將匹配查詢詞的對象及 其關(guān)聯(lián)對象作為查詢結(jié)果顯示,查詢操作進(jìn)入瀏覽模式。
優(yōu)選的,相關(guān)性推薦的步驟包括在瀏覽模式下,通過將網(wǎng)頁對象的關(guān)聯(lián) 對象顯示來提供查詢功能。
優(yōu)選的,相關(guān)性推薦的步驟包括將廣告信息對象化,并將與熱點(diǎn)廣告相 關(guān)聯(lián)的其他廣告進(jìn)行推薦展示。
優(yōu)選的,所述關(guān)聯(lián)對象按照相關(guān)程度進(jìn)行推薦;具有相同或相近相關(guān)性的
5關(guān)聯(lián)對象,根據(jù)竟價排名的順序進(jìn)行推薦。
所述方法還包括跟蹤記錄對象間關(guān)系的變化情況,分析得出與對象有關(guān) 的熱點(diǎn)事件。
所述方法還包括跟蹤記錄對象屬性信息的變化情況,分析得出對該對象
屬性的評價。
一種提供相關(guān)搜索的系統(tǒng),包括
存儲單元,用于建立網(wǎng)頁信息的對象模型,對象模型中定義了對象屬性; 存儲對象及其屬性信息,并保存對象間的關(guān)聯(lián)關(guān)系;
對象識別單元,用于根據(jù)對象模型的定義,從網(wǎng)頁信息中識別出對象;
信息抽取單元,用于從包含對象的網(wǎng)頁信息中抽取出對象的屬性信息;
對象間關(guān)系計算單元,用于度量對象間的關(guān)聯(lián)關(guān)系;
應(yīng)用單元,用于將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象進(jìn)行相關(guān)性推薦。
優(yōu)選的,所述存儲單元分為存儲對象及其屬性信息的對象數(shù)據(jù)庫,以及存 儲對象間關(guān)聯(lián)關(guān)系的對象間關(guān)系數(shù)據(jù)庫。
其中,所述對象間關(guān)系計算單元根據(jù)對象關(guān)鍵詞在網(wǎng)頁信息中的出現(xiàn)次 數(shù),或者根據(jù)對象的同類屬性間的相關(guān)性,來計算對象間的相關(guān)性,實(shí)現(xiàn)度量 對象間的關(guān)聯(lián)關(guān)系。
其中,所述對象間關(guān)系計算單元還度量同 一個對象的屬性之間的關(guān)聯(lián)關(guān) 系,并通過應(yīng)用單元將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象屬性進(jìn)行相關(guān)性推薦。
優(yōu)選的,針對查詢沖莫式下的查詢詞,所述應(yīng)用單元將匹配查詢詞的對象及 其關(guān)聯(lián)對象作為查詢結(jié)果顯示,查詢操作進(jìn)入瀏覽模式。
優(yōu)選的,針對瀏覽模式下的網(wǎng)頁信息,所述應(yīng)用單元通過將網(wǎng)頁對象的關(guān) 聯(lián)對象顯示來提供查詢功能。
優(yōu)選的,針對對象化的廣告信息,所述應(yīng)用單元將與熱點(diǎn)廣告相關(guān)聯(lián)的其 他廣告進(jìn)行推薦展示。
優(yōu)選的,所述應(yīng)用單元將關(guān)聯(lián)對象按照相關(guān)程度進(jìn)行推薦;具有相同或相 近相關(guān)性的關(guān)聯(lián)對象,根據(jù)竟價排名的順序進(jìn)行推薦。
根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果
首先,提出了一種新穎的搜索模式,在搜索范圍上不僅能提供更精確的查找,還能夠提供更廣泛的查找,即在查詢深度和查詢廣度上為用戶提供了更優(yōu) 質(zhì)的搜索服務(wù)。所述搜索模式通過將可以對象化的網(wǎng)頁信息對象化,并量化對 象之間的關(guān)聯(lián)關(guān)系,將具有相關(guān)性的對象推薦給用戶,幫助用戶發(fā)散思維,查 找到其他感興趣的信息。而且,與傳統(tǒng)的基于網(wǎng)站日志的搜索模式不同,本發(fā) 明基于搜索引擎系統(tǒng)中海量的網(wǎng)頁信息,由于各個網(wǎng)站的網(wǎng)頁信息是公開的, 所以這種基于網(wǎng)頁內(nèi)容的搜索模式能夠在搜索廣度上提供整個搜索范圍內(nèi)的 相關(guān)性推薦。
基于這種新的搜索模式,提供了網(wǎng)頁查詢模式下的相關(guān)性推薦功能,即在 查詢時能夠?qū)⒖梢詫ο蠡牟樵冊~對象化,并查找相關(guān)聯(lián)的對象,給出繼續(xù)查 詢的推薦;還提供了瀏覽模式下的查詢推薦功能,即用戶在瀏覽網(wǎng)頁時,能夠 將可以對象化的網(wǎng)頁信息對象化,并查找相關(guān)聯(lián)的對象,在保持瀏覽才莫式下給 出查詢推薦?;谶@種應(yīng)用,用戶第一次在查詢模式下輸入查詢詞并進(jìn)入瀏覽 模式后,就可以繼續(xù)保持在瀏覽模式下點(diǎn)擊查詢推薦,達(dá)到查詢?yōu)g覽化的效果。
其次,對象和對象的關(guān)系發(fā)生變化都蘊(yùn)含了重大事件的發(fā)生,因此通過跟 蹤記錄對象間關(guān)系的變化情況,可以發(fā)現(xiàn)熱點(diǎn)事件。而且,還可以對對象的屬 性進(jìn)行跟蹤分析,從而了解并評價對象的變化情況。
再次,可以將這種新的搜索模式應(yīng)用于廣告信息的發(fā)布與推送,讓廣告得 到更多的展示機(jī)會。首先將廣告信息對象化,然后在發(fā)布廣告時,將相關(guān)聯(lián)的 其他廣告進(jìn)行推薦顯示。所述應(yīng)用一方面,可以在推送熱點(diǎn)廣告的同時,將用
戶關(guān)注或點(diǎn)擊較少的廣告與相關(guān)聯(lián)的熱點(diǎn)廣告一起推送;另一方面,用戶在購
買廣告關(guān)4建詞時,由于各種原因無法購買相應(yīng)的關(guān)鍵詞,則可以通過購買相關(guān) 的廣告對象關(guān)鍵詞,得到類似的展示機(jī)會。


圖1是本發(fā)明實(shí)施例所述提供相關(guān)搜索的步驟流程圖; 圖2是本發(fā)明實(shí)施例中包含對象的網(wǎng)頁示意圖; 圖3是本發(fā)明實(shí)施例中具有推薦性的瀏覽模式示意圖; 圖4是本發(fā)明實(shí)施例所述提供相關(guān)搜索的系統(tǒng)結(jié)構(gòu)圖; 圖5是圖4所示系統(tǒng)實(shí)施例的數(shù)據(jù)處理示意圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。
目前的搜索引擎所提供的查詢功能都是通過縮小查詢范圍、精確查詢詞來 提高搜索準(zhǔn)確度,而本發(fā)明實(shí)施例提供了一種新穎的搜索模式,通過將對象化 的技術(shù)和相關(guān)性推薦方法結(jié)合起來,不僅實(shí)現(xiàn)了更精確的查詢,還能夠幫助用 戶實(shí)現(xiàn)更廣泛的查詢。例如,用戶查詢"劉德華",就能給出劉德華好友、劉 德華演唱會、與劉德華相關(guān)的近期事件如張學(xué)友演唱會等更廣范圍的推薦信 息。
在搜索引擎技術(shù)中,傳統(tǒng)方法習(xí)慣使用關(guān)鍵詞來標(biāo)識一類信息,因此提供 的搜索結(jié)果都基于關(guān)鍵詞匹配。而本實(shí)施例基于對象化的技術(shù)方法,對象化是 指使用一些概念來描述一個事物,每個對象賦予一定的屬性,對象之間通過不 同的屬性特征來區(qū)別。在提供搜索服務(wù)時,基于對象化的搜索結(jié)果為與查詢詞 匹配的對象,并且通過計算對象之間的關(guān)聯(lián)關(guān)系將相關(guān)聯(lián)的其他對象也一 同推 薦給用戶。
參照圖1,是本發(fā)明實(shí)施例所述提供相關(guān)搜索的步驟流程圖。
步驟IOI,建立應(yīng)用所需的對象模型。根據(jù)應(yīng)用需求建立的每一類對象都 會有一個模式,不同類型的對象有不同的模式,例如 對象人,具有屬性姓名,年齡,性別,等等; 對象書,具有屬性書名,出版社,作者,等等; 對象Mp3,具有屬性型號,經(jīng)銷商,價格,等等。 步驟102,根據(jù)對象^^莫型的定義,從網(wǎng)頁信息中識別出對象。 首先,并不是所有的網(wǎng)頁信息都包含了應(yīng)用所需的對象信息;其次,網(wǎng)頁 中并不是所有的信息都是對象。因此,需要針對建立的對象模式,從搜索引擎 系統(tǒng)存儲的海量網(wǎng)頁中識別出可能包含對象的網(wǎng)頁,進(jìn)一步再從這些網(wǎng)頁中識 別出對象信息。 一個網(wǎng)頁中如果沒有出現(xiàn)對象模式定義的屬性信息或出現(xiàn)的不 夠完整,則表示這個網(wǎng)頁不包含對象;如果一個網(wǎng)頁提到了這些屬性,就可能 是一個介紹對象的網(wǎng)頁。例如,在識別對象人的過程中,如果發(fā)現(xiàn)了**先生、 **女士,那么**就可能是人名。對象識別可以采用^L覺分析技術(shù),通過分析網(wǎng)頁源代碼,判斷網(wǎng)頁中內(nèi)容 塊在網(wǎng)頁中的位置。通常,在網(wǎng)頁的不同位置區(qū),頂端可能是導(dǎo)航條,右邊可 能是廣告,底端可能是無關(guān)信息,左邊和中間的位置是視覺主體,在這些位置 的內(nèi)容塊為網(wǎng)頁信息的中心內(nèi)容。但是,中心主體內(nèi)容塊也不一定是有價值的 信息,例如采集的是一篇娛樂新聞,通過自然語言處理,并沒有獲取到對象主 體及其相關(guān)屬性,因?yàn)樵摼W(wǎng)頁是一篇談?wù)搳蕵钒l(fā)展方向的文章,因此這些非對 象化的網(wǎng)頁也需要識別出來。
識別非對象化網(wǎng)頁的方法可以通過投票算法等方法實(shí)現(xiàn),例如識別對象 書,如果一個網(wǎng)頁中出現(xiàn)書的屬性信息,就減去幾分,如果沒有出現(xiàn),就加上 幾分,最后統(tǒng)計總分?jǐn)?shù)是否達(dá)到閾值,如果達(dá)到就是非對象化網(wǎng)頁,進(jìn)行過濾 處理,否則就可能是對象化網(wǎng)頁。
需要說明的是,識別對象的方法并不限于以上說明,還可以采用其他方法 從網(wǎng)頁信息中識別出對象信息。
步驟103,才艮據(jù)對象;^莫型的定義,從包含對象的網(wǎng)頁信息中抽取出對象的
屬性信息。
在識別出中心主體內(nèi)容塊,以及可能存在可以量化的對象后,采用自然語 言處理方法,如分詞、斷詞、權(quán)重計算等一系列網(wǎng)頁分析過程,可以提取出對
象主體及其相關(guān)屬性。例如,參照圖2所示,是包含對象的網(wǎng)頁示意圖。抽取 出的對象主體為劉德華,屬性為巡回演唱會、工人體育場、訂票電話,另外還 包括重要的時間屬性2007年10月。由于每類對象的屬性信息不同,所以每個 模式的抽取方法也不相同,例如對書的抽取,就要找到書名號,對價格的抽取 要找到"¥"符號等。
步驟104,度量對象間的關(guān)聯(lián)關(guān)系。
從海量的網(wǎng)頁信息中抽取出對象的所有屬性信息后,就需要對這些對象計 算他們之間是否存在關(guān)聯(lián)。本實(shí)施例提供了兩種計算對象相關(guān)性的方法, 一種 是通過對象關(guān)鍵詞在網(wǎng)頁信息中的出現(xiàn)次數(shù)來計算,具體計算公式過程如下
1(X;,log^^
其中,p(x)表示x出現(xiàn)的次數(shù),p(y)表示y出現(xiàn)的次數(shù),p(x,y)表示x、 y共同出現(xiàn)的次數(shù)。例如,劉德華和王菲經(jīng)常出現(xiàn)在同一個網(wǎng)頁中,或者經(jīng)常被一同提起,通過上述公式計算可以得到他們直接的關(guān)系遠(yuǎn)近程度,假設(shè)在互
聯(lián)網(wǎng)海量網(wǎng)頁信息中M個網(wǎng)頁提到了劉德華,N個網(wǎng)頁提到了王菲,X個網(wǎng)頁 即提到了劉德華也提到了王菲,則劉德華和王菲的關(guān)系為1og(X/MN)。
在實(shí)際應(yīng)用中,統(tǒng)計對象關(guān)鍵詞的出現(xiàn)次數(shù)的時候,還可參考網(wǎng)頁權(quán)威性 因素和關(guān)4定詞文檔頻率等因素,賦予相應(yīng)的權(quán)值調(diào)整。例如,對象關(guān)鍵詞"王 菲"在一些介紹娛樂信息的權(quán)威性網(wǎng)頁中出現(xiàn)時就賦予較高的權(quán)值,在普通網(wǎng) 頁或與娛樂新聞根本不相關(guān)的網(wǎng)頁中出現(xiàn)則忽略不計。
另 一種計算對象相關(guān)性的方法是通過計算對象屬性間的關(guān)系來度量對象
間的關(guān)系,而且是將同類屬性分別進(jìn)行比較。例如,對象A具有屬性pl、屬
性p2.....屬性pn,對象B具有屬性ql、 q2.....屬性qn,首先利用上述/>
式分別計算pl與ql、 p2與q2.....pn與qn的相關(guān)性,然后再取所有計算結(jié)
果的平均值作為對象A與B的相關(guān)性計算結(jié)果,或者按照其他算法來根據(jù)對象 屬性間的相關(guān)性計算對象間的相關(guān)性,如取中位數(shù)法(即取中間的屬性相關(guān)性 計算結(jié)果)等。
當(dāng)然,除了上述兩種方法,還可以利用其他計算信息相關(guān)性的方法來獲得 對象的關(guān)聯(lián)關(guān)系,例如通過計算兩個對象被同時使用的頻率來衡量他們之間的 關(guān)系等方法,本發(fā)明在此不作限定。而且,度量對象間關(guān)系還可以參考搜索引 擎系統(tǒng)中海量的查詢?nèi)罩?,并結(jié)合海量的網(wǎng)頁信息來計算。
步驟105,經(jīng)過上述處理,可以將這種對象間的關(guān)聯(lián)關(guān)系應(yīng)用到搜索引擎 服務(wù)中,下面將從五個方面進(jìn)行說明。以下所述關(guān)聯(lián)對象是指對象間的相關(guān)性 計算結(jié)果滿足一定閾值條件的兩個對象,具體的閾值設(shè)置將根據(jù)實(shí)際情況進(jìn)行 調(diào)整,這也是對相關(guān)性計算結(jié)果的評價。
其一,提供了網(wǎng)頁查詢模式下的相關(guān)性推薦功能。即用戶在搜索某個查詢 詞時,給出關(guān)系密切的相關(guān)對象搜索,用戶通過點(diǎn)擊這些相關(guān)對象進(jìn)行深入地 搜索,這種搜索包括更精確范圍的搜索,也包括更廣闊范圍的搜索。例如搜索 劉德華,給出"2007北京演唱會,,等相關(guān)主題或者"楊麗娟"等相關(guān)人物, 用戶點(diǎn)擊"楊麗娟,,就可以進(jìn)入介紹另一個主題的頁面。這種通過量化對象關(guān) 系的方法,使用一個查詢詞就能帶出全部相關(guān)主題,實(shí)現(xiàn)了查詢?yōu)g覽化的效果, 便于用戶第一次在查詢模式下輸入一次查詢詞,而在此后進(jìn)入瀏覽模式進(jìn)行繼續(xù)查詢。
其中,所述查詢模式是指用戶提交一次查詢詞(可能有多個詞匯),通過 搜索引擎的計算給出搜索結(jié)果頁面,用戶從中尋找感興趣的查詢結(jié)果,這種模 式包含了鍵盤和鼠標(biāo)的聯(lián)合操作。所述瀏覽模式是指用戶一般僅利用鼠標(biāo)進(jìn)行 的網(wǎng)上沖浪方法,例如在新聞門戶網(wǎng)站瀏覽新聞,對感興趣的新聞逐條瀏覽, 在此過程中很少使用到鍵盤操作。
其二,提供了瀏覽模式下的查詢推薦功能,即實(shí)現(xiàn)了一種利用相關(guān)性進(jìn)行 的推薦性的網(wǎng)頁瀏覽模式。例如,參照圖3所示,用戶在瀏覽一篇劉德華的新 聞時,通過機(jī)器自動識別,得到這是一篇包含劉德華這個對象的網(wǎng)頁,因此給 出和劉德華關(guān)系緊密的其他對象以及相關(guān)事件,如王菲、楊麗娟、某娛樂公司、 演唱會等。用戶點(diǎn)擊王菲后,繼續(xù)給出劉德華和王菲的相關(guān)搜索條目以及王菲 的相關(guān)搜索條目,如謝霆鋒、竇唯等。這種瀏覽模式為用戶提供傳統(tǒng)瀏覽功能 的同時,還提供了基于相關(guān)對象推薦的查詢功能,便于用戶保持網(wǎng)上沖浪的積 極性。
其三,這種對象化的相關(guān)性推薦功能還可應(yīng)用到廣告發(fā)布領(lǐng)域。即將廣告 信息對象化,并將廣告對象與用戶輸入的查詢詞或用戶瀏覽的網(wǎng)頁對象匹配起 來,給出更加有效的廣告展示方式。與傳統(tǒng)的廣告發(fā)布方式相比,這種將廣告 信息對象化的方式能讓廣告得到更多的展示機(jī)會。例如,商家購買不起廣告對 象關(guān)鍵詞"奧運(yùn)會"或者其他體育明星的查詢詞,就可以通過購買相對便宜的相 關(guān)廣告對象關(guān)鍵詞得到相同或類似的展示機(jī)會。再舉例,臺球明星丁俊暉大家 比較熟知,所以點(diǎn)擊這個關(guān)鍵詞的用戶較多,而同是臺J錄動員的田鵬飛,點(diǎn) 擊率就相對少很多,但是通過這種對象化的方法,可以將"丁俊暉"和"田鵬 飛,,通過臺球關(guān)聯(lián)起來,用戶在查詢"丁俊暉"時,就可以把宣傳"田鵬飛,, 的廣告也一同展示出來。由此可知,對象化的方式實(shí)現(xiàn)了一種廣告發(fā)布的新模 式,比傳統(tǒng)方式具有更好的廣告展示效果。
其四,通過跟蹤記錄對象間關(guān)系的變化,可以在成千上萬條信息中發(fā)現(xiàn)社 會熱點(diǎn)話題或熱點(diǎn)事件。例如,系統(tǒng)發(fā)現(xiàn)近期劉德華和某其他明星的關(guān)系發(fā)生 了變化,如更加緊密了,則其中蘊(yùn)含著重大事件的發(fā)生,因此在這個變化時間 內(nèi)可以進(jìn)行進(jìn)一步地事件挖掘。
11其五,通過跟蹤記錄對象屬性信息的變化,可以給出對一個對象的分析評 價。例如,汽車性能、蠔油的評價變化。再例如,系統(tǒng)發(fā)現(xiàn)劉德華的唱片公司 屬性發(fā)生變化,或者某電子產(chǎn)品的價格屬性發(fā)生變化等,由此可以進(jìn)行事件挖 掘。
在上述實(shí)施例中,如果計算的是同一個對象的屬性間的關(guān)聯(lián)關(guān)系,則給出 的相關(guān)性推薦即是更精確范圍內(nèi)的信息,這一點(diǎn)與傳統(tǒng)搜索引擎提供的相關(guān)搜 索功能類似。例如,用戶輸入"劉德華",搜索結(jié)果頁面將顯示與"劉德華" 相關(guān)的網(wǎng)頁鏈接,并提供"劉德華演唱會"、"劉德華歌曲"、"劉德華電影"、 "劉德華博客"等一系列關(guān)^t詞推薦給用戶。
在上述提供相關(guān)性推薦的各種應(yīng)用中,推薦的關(guān)聯(lián)對象通常按照關(guān)聯(lián)程度 進(jìn)行推薦, 一般將最相關(guān)的對象首先推薦給用戶,然后按照相關(guān)性排序依次推 薦。而對于相關(guān)性相同或相近似范圍內(nèi)的多個關(guān)聯(lián)對象,本實(shí)施例提供了竟價 排名功能,即將竟價排名高的關(guān)聯(lián)對象優(yōu)先推薦給用戶。例如,用戶查詢對象 關(guān)鍵詞"奧運(yùn)會"或?yàn)g覽以"奧運(yùn)會"為主題的網(wǎng)頁時,搜索系統(tǒng)會將相關(guān)性
在90%以上的關(guān)聯(lián)對象,按照竟價排名的先后進(jìn)行推薦,如果某網(wǎng)站的鏈接 排名靠前,就可以優(yōu)先推薦展示。因此,利用這種網(wǎng)頁信息對象化以及對象間 關(guān)系的搜索模式,各廣告商或網(wǎng)站經(jīng)營者可以利用對象間的關(guān)聯(lián)程度進(jìn)行竟價 排名,從而為自己的廣告或網(wǎng)頁鏈接提供更多的展示機(jī)會。
綜上所述,本發(fā)明實(shí)施例提供的搜索模式,通過將對象化的方法和相關(guān)性 推薦相結(jié)合,實(shí)現(xiàn)了在查詢精度和查詢廣度上的搜索,通過將相關(guān)聯(lián)的其他對 象給予推薦,使得用戶進(jìn)入瀏覽模式后可以繼續(xù)保持瀏覽狀態(tài)而實(shí)現(xiàn)查詢功
能。而且,這種搜索模式基于網(wǎng)頁內(nèi)容,由于各個網(wǎng)站的網(wǎng)頁信息是公開的, 所以這種基于網(wǎng)頁內(nèi)容的搜索模式能夠在搜索廣度上提供整個搜索范圍內(nèi)的 相關(guān)性推薦。
針對上述新的搜索模式,本發(fā)明還提供了 一種提供相關(guān)搜索的系統(tǒng)實(shí)施 例。參照圖4,是所述系統(tǒng)的結(jié)構(gòu)圖,該系統(tǒng)包括對象數(shù)據(jù)庫401、對象間關(guān) 系數(shù)據(jù)庫402、對象識別單元403、信息抽取單元404、對象間關(guān)系計算單元 405、應(yīng)用單元406。
對象數(shù)據(jù)庫401用于存儲對象及其屬性信息,對象間關(guān)系數(shù)據(jù)庫402用于存儲對象間的關(guān)聯(lián)關(guān)系。本實(shí)施例中,對象及其屬性信息以及對象間的關(guān)聯(lián)關(guān) 系是分開存儲,這樣便于系統(tǒng)管理,但根據(jù)應(yīng)用需要也可以保存到 一個存儲單 元中。
對象識別單元403用于從海量的網(wǎng)頁信息中識別出模型對應(yīng)的對象信息, 即確定哪些網(wǎng)頁可能包含模型定義的對象。從海量網(wǎng)頁中識別出可能包含對象 的網(wǎng)頁信息后,信息抽取單元404用于抽取出對象的各種屬性信息,并保存到 對象數(shù)據(jù)庫401。由于對象模式不同,信息抽取方式也不同,就像不同設(shè)備有 不同的驅(qū)動程序一樣。對象識別和信息抽取方法如前所述,在此不再詳述。
對象間關(guān)系計算單元405用于度量對象間的關(guān)聯(lián)關(guān)系,并保存到對象間關(guān) 系數(shù)據(jù)庫402,即通過計算對象之間的相關(guān)性來衡量對象間的關(guān)聯(lián)程度。計算 相關(guān)性的方法有多種,例如,可以通過統(tǒng)計對象關(guān)鍵詞在所有網(wǎng)頁信息中的出 現(xiàn)次數(shù),然后代入以下公式進(jìn)行計算得到,公式如下
<formula>formula see original document page 13</formula>
其中,p(x)表示x出現(xiàn)的次數(shù),p(y)表示y出現(xiàn)的次數(shù),p(x,y)表示x、 y共同出現(xiàn)的次數(shù)?;蛘?,利用以上公式通過計算屬性之間的關(guān)系來度量對象 間的關(guān)系,具體方法如前所述。
應(yīng)用單元406用于根據(jù)對象間的關(guān)聯(lián)關(guān)系,將相關(guān)聯(lián)的對象進(jìn)行查詢或?yàn)g 覽推薦,從而提供各種優(yōu)質(zhì)的搜索服務(wù)。例如,提供網(wǎng)頁查詢模式下的相關(guān)性 推薦功能,或者提供一種利用相關(guān)性進(jìn)行的推薦性的網(wǎng)頁瀏覽模式,即將與用 戶查詢或?yàn)g覽的對象相關(guān)聯(lián)的對象一 同推薦給用戶,實(shí)現(xiàn)了查詢?yōu)g覽化的效 果,便于用戶保持網(wǎng)上沖浪的積極性。此外,通過跟蹤記錄對象間關(guān)系的變化, 可以在成千上萬條信息中發(fā)現(xiàn)社會熱點(diǎn)話題或熱點(diǎn)事件;通過跟蹤記錄對象屬 性信息的變化,可以給出對一個對象的分析評價。
通常,應(yīng)用單元406按照對象間的關(guān)聯(lián)程度進(jìn)行關(guān)聯(lián)對象的推薦,即將對 象相關(guān)性高的關(guān)聯(lián)對象推薦。而對于具有相同或相似相關(guān)性的關(guān)聯(lián)對象,即對 屬于同一范圍內(nèi)的關(guān)聯(lián)對象,應(yīng)用單元406則按照用戶的竟價排名順序進(jìn)行推 薦。即應(yīng)用單元406為用戶提供了竟伯、排名功能,相關(guān)性在同一范圍內(nèi)的多個 關(guān)聯(lián)對象可以竟價,最后按照竟價結(jié)果進(jìn)行相關(guān)性推薦。
應(yīng)用單元406還提供了 一種廣告發(fā)布的新方式,由于將廣告信息進(jìn)行了對象化處理,所以在匹配廣告時匹配的是廣告對象關(guān)鍵詞。與傳統(tǒng)的基于關(guān)鍵詞 匹配的方法相比,這種對象.化的廣告匹配方式能夠給廣告帶來更多的展示機(jī) 會。因?yàn)槿绻凑贞P(guān)鍵詞匹配,某類廣告可能由于不匹配查詢詞而無法展示, 但是如果以對象關(guān)鍵詞進(jìn)行匹配,該廣告對象可能與查詢詞存在某種關(guān)聯(lián),因 此通過這種關(guān)聯(lián)關(guān)系,在展示與查詢詞匹配的廣告對象時將相關(guān)聯(lián)的廣告對象 也一同展示,這樣該廣告同樣能夠得到展示。
針對不同應(yīng)用需求,還可以通過對象間關(guān)系計算單元405計算同一個對象 屬性間的關(guān)系,并通過應(yīng)用單元406將相關(guān)聯(lián)的屬性信息進(jìn)行推薦。這種相關(guān) 性推薦提供的是縮小查找范圍、精確查詢的搜索服務(wù)。
上述各個單元的數(shù)據(jù)處理過程可參照圖5所示首先系統(tǒng)采集大量的網(wǎng) 頁,然后通過對象識別單元403確定哪些網(wǎng)頁可能包含對象,并通過信息抽取 單元404從可能包含對象信息的網(wǎng)頁中抽取出對象的各種屬性,存儲到對象數(shù) 據(jù)庫401中;繼續(xù)對對象數(shù)據(jù)庫401中的數(shù)據(jù)進(jìn)行處理,對象間關(guān)系計算單元 405通過對象間關(guān)系計算和評價得到對象間的關(guān)聯(lián)度,并保存到對象間關(guān)系數(shù) 據(jù)庫402;基于所述對象間關(guān)系數(shù)據(jù)庫402,針對用戶輸入的查詢詞,如果該 查詢詞可以對象化(即包含對象),則應(yīng)用單元405查找對象間關(guān)系數(shù)據(jù)庫402, 將相關(guān)聯(lián)的查詢詞推薦給用戶;針對用戶正在瀏覽的網(wǎng)頁,如果該網(wǎng)頁包含對 象,則應(yīng)用單元405查找對象間關(guān)系數(shù)據(jù)庫402,將相關(guān)聯(lián)的網(wǎng)頁對象推薦給 用戶。所述系統(tǒng)能夠幫助用戶不斷地在具有推薦或引導(dǎo)的情況下瀏覽或查詢需 要的各種信息,得到更理想的搜索效果。
圖4所示系統(tǒng)中未詳述的部分可以參見圖1所示方法的相關(guān)部分,為了篇 幅考慮,在此不再詳述。
以上對本發(fā)明所實(shí)現(xiàn)的一種提供相關(guān)搜索的方法及系統(tǒng),進(jìn)行了詳細(xì)介
例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的 一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會有改變 之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種提供相關(guān)搜索的方法,其特征在于,包括建立網(wǎng)頁信息的對象模型,對象模型中定義了對象屬性;根據(jù)對象模型的定義,從網(wǎng)頁信息中識別并抽取出對象的屬性信息;度量對象間的關(guān)聯(lián)關(guān)系;將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象進(jìn)行相關(guān)性推薦。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,度量對象間關(guān)系的步驟包括統(tǒng)計對象關(guān)4建詞在網(wǎng)頁信息中的出現(xiàn)次數(shù); 根據(jù)所述出現(xiàn)次數(shù)計算對象關(guān)鍵詞之間的相關(guān)性。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,度量對象間關(guān)系的步驟包括分別計算對象的同類屬性間的相關(guān)性; 根據(jù)所述對象屬性間的相關(guān)性計算對象間的相關(guān)性。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括度量同一個對象 的屬性之間的關(guān)聯(lián)關(guān)系,將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象屬性進(jìn)行相關(guān)性推 薦。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于,相關(guān)性推薦的步驟包括 在查詢模式下,將匹配查詢詞的對象及其關(guān)聯(lián)對象作為查詢結(jié)果顯示,查詢操 作進(jìn)入瀏覽模式。
6、 根據(jù)權(quán)利要求1所述的方法,其特征在于,相關(guān)性推薦的步驟包括 在瀏覽模式下,通過將網(wǎng)頁對象的關(guān)聯(lián)對象顯示來提供查詢功能。
7、 根據(jù)權(quán)利要求1所述的方法,其特征在于,相關(guān)性推薦的步驟包括 將廣告信息對象化,并將與熱點(diǎn)廣告相關(guān)聯(lián)的其他廣告進(jìn)行推薦展示。
8、 根據(jù)權(quán)利要求5、 6或7所述的方法,其特征在于所述關(guān)聯(lián)對象按照 相關(guān)程度進(jìn)行推薦;具有相同或相近相關(guān)性的關(guān)聯(lián)對象,根據(jù)竟價排名的順序 進(jìn)行推薦。
9、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括跟蹤記錄對象間 關(guān)系的變化情況,分析得出與對象有關(guān)的熱點(diǎn)事件。
10、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括跟蹤記錄對象屬 性信息的變化情況,分析得出對該對象屬性的評價。
11、 一種提供相關(guān)搜索的系統(tǒng),其特征在于,包括存儲單元,用于建立網(wǎng)頁信息的對象模型,對象模型中定義了對象屬性; 存儲對象及其屬性信息,并保存對象間的關(guān)聯(lián)關(guān)系;對象識別單元,用于根據(jù)對象模型的定義,從網(wǎng)頁信息中識別出對象; 信息抽取單元,用于從包含對象的網(wǎng)頁信息中抽取出對象的屬性信息; 對象間關(guān)系計算單元,用于度量對象間的關(guān)聯(lián)關(guān)系; 應(yīng)用單元,用于將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象進(jìn)行相關(guān)性推薦。
12、 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于所述存儲單元分為存儲 對象及其屬性信息的對象數(shù)據(jù)庫,以及存儲對象間關(guān)聯(lián)關(guān)系的對象間關(guān)系數(shù)據(jù) 庫。
13、 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于所述對象間關(guān)系計算單 元才艮據(jù)對象關(guān)鍵詞在網(wǎng)頁信息中的出現(xiàn)次數(shù),或者根據(jù)對象的同類屬性間的相 關(guān)性,來計算對象間的相關(guān)性,實(shí)現(xiàn)度量對象間的關(guān)聯(lián)關(guān)系。
14、 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于所述對象間關(guān)系計算單 元還度量同一個對象的屬性之間的關(guān)聯(lián)關(guān)系,并通過應(yīng)用單元將關(guān)聯(lián)關(guān)系符合 預(yù)置條件的對象屬性進(jìn)行相關(guān)性推薦。
15、 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于針對查詢模式下的查詢 詞,所述應(yīng)用單元將匹配查詢詞的對象及其關(guān)if關(guān)對象作為查詢結(jié)果顯示,查詢 操作進(jìn)入瀏覽模式。
16、 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于針對瀏覽模式下的網(wǎng)頁 信息,所述應(yīng)用單元通過將網(wǎng)頁對象的關(guān)聯(lián)對象顯示來提供查詢功能。
17、 根據(jù)權(quán)利要求ll所述的系統(tǒng),其特征在于針對對象化的廣告信息, 所述應(yīng)用單元將與熱點(diǎn)廣告相關(guān)聯(lián)的其他廣告進(jìn)行推薦展示。
18、 根據(jù)權(quán)利要求15、 16或17所述的系統(tǒng),其特征在于所述應(yīng)用單元 將關(guān)聯(lián)對象按照相關(guān)程度進(jìn)行推薦;具有相同或相近相關(guān)性的關(guān)聯(lián)對象,根據(jù) 竟價排名的順序進(jìn)行推薦。
全文摘要
本發(fā)明公開了一種提供相關(guān)搜索的方法及系統(tǒng),解決目前的搜索引擎不能提供更廣泛的查詢的問題。所述方法包括建立網(wǎng)頁信息的對象模型,對象模型中定義了對象屬性;根據(jù)對象模型的定義,從網(wǎng)頁信息中識別并抽取出對象的屬性信息;度量對象間的關(guān)聯(lián)關(guān)系;將關(guān)聯(lián)關(guān)系符合預(yù)置條件的對象進(jìn)行相關(guān)性推薦。本發(fā)明提出了一種新穎的搜索模式,在搜索范圍上不僅能提供更精確的查找,還能夠提供更廣泛的查找,并提供了查詢時的相關(guān)性推薦和瀏覽時的相關(guān)性推薦功能。基于這種搜索模式,用戶第一次在查詢模式下輸入查詢詞并進(jìn)入瀏覽模式后,就可以繼續(xù)保持在瀏覽模式下點(diǎn)擊查詢推薦,達(dá)到查詢?yōu)g覽化的效果。
文檔編號G06F17/30GK101436186SQ20071017721
公開日2009年5月20日 申請日期2007年11月12日 優(yōu)先權(quán)日2007年11月12日
發(fā)明者剛 李, 斌 梁 申請人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1