專利名稱:一種評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值的方法及其在搜索引擎領(lǐng)域的應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù),特別是涉及一種利用相關(guān)目標(biāo)的一種特定指標(biāo)——人氣指標(biāo)(PeopleRank)進(jìn)行檢索、歸納的方法及其在 搜索引擎領(lǐng)域的應(yīng)用。
背景技術(shù):
目前搜索引擎一般都是通過(guò)用戶輸入一個(gè)或一組關(guān)鍵詞或文字 片段,經(jīng)過(guò)檢索處理后,向用戶回饋相當(dāng)數(shù)量的包含該關(guān)鍵詞或文字 片段或者與其密切相關(guān)的網(wǎng)頁(yè),以供用戶瀏覽、查檢所需的資訊。然而,互聯(lián)網(wǎng)上網(wǎng)頁(yè)數(shù)量極其巨大,而且仍然在以空前的速度高 速增長(zhǎng),如果仍然按照傳統(tǒng)的搜索處理模式,即搜索引擎運(yùn)營(yíng)商將其 搜集到的數(shù)量驚人的網(wǎng)頁(yè)資源經(jīng)以筒單地分析處理,進(jìn)行歸類備用, 那么按照用戶的輸入源經(jīng)搜索所得的相關(guān)網(wǎng)頁(yè)數(shù)量通常都是極其巨 大,但是其中大部分為低價(jià)值甚至無(wú)價(jià)值的網(wǎng)頁(yè)資源,這些無(wú)價(jià)值的 或近似于無(wú)價(jià)值的網(wǎng)頁(yè)大大增加了處理的難度,并將嚴(yán)重干擾處理的 結(jié)果,從而有可能使得呈現(xiàn)給用戶的往往是價(jià)值甚微的資源,這將嚴(yán) 重浪費(fèi)用戶的時(shí)間和精力,間接的也將造成網(wǎng)絡(luò)資源的浪費(fèi)。怎樣才能將那些真正的滿足客戶需要的網(wǎng)頁(yè)篩選出來(lái)優(yōu)先提供給客戶,即在提供給客戶的反饋內(nèi)容中能夠真實(shí)反映客戶需求的內(nèi)容 優(yōu)先排列,是完全符合用戶的利益的。因此如何判斷用戶的興趣所在 就成了搜索引擎運(yùn)營(yíng)商必須解決的問(wèn)題。對(duì)檢索所得的網(wǎng)頁(yè)進(jìn)行相關(guān)性評(píng)價(jià),就成了搜索領(lǐng)域技術(shù)中的關(guān) 鍵。目前,關(guān)于網(wǎng)頁(yè)的相關(guān)性的評(píng)價(jià)方法很多,其大都注重某一方面 能反映客戶需求或意圖的因素,如檢索詞或句子的匹配程度、網(wǎng)頁(yè)鏈 接關(guān)系等,但是,僅僅利用這樣的檢索處理方法所得到的網(wǎng)頁(yè)往往包 含了諸多的復(fù)雜因素,很難準(zhǔn)確地提供與客戶實(shí)際需要緊密相連的搜 索資源。因此,目前還沒(méi)有一種較為完備的、成熟的可以較全面反映 網(wǎng)頁(yè)價(jià)值的評(píng)價(jià)方法。經(jīng)過(guò)長(zhǎng)期實(shí)踐,發(fā)現(xiàn)現(xiàn)有的大多數(shù)網(wǎng)頁(yè)中均包含有各類的與人相 關(guān)的因素,而這些人的因素對(duì)于網(wǎng)頁(yè)的質(zhì)量評(píng)價(jià)至關(guān)重要,能最大限 度的反映該網(wǎng)頁(yè)對(duì)于用戶興趣、意圖所蘊(yùn)含的價(jià)值,也就是利用這些 人的因素可使網(wǎng)頁(yè)的質(zhì)量評(píng)價(jià)更加貼近用戶的真實(shí)需求,從而使得所 作出的評(píng)價(jià)更加準(zhǔn)確,本發(fā)明正是根據(jù)這些人的因素為任一網(wǎng)絡(luò)資源確定一權(quán)值,該權(quán)值稱為PeapleRank值(簡(jiǎn)稱為PR值)。 發(fā)明內(nèi)容針對(duì)現(xiàn)有搜索技術(shù)中存在的缺陷和不足,本發(fā)明的一個(gè)目的在于 提供一種網(wǎng)絡(luò)資源的價(jià)值評(píng)價(jià)方法,利用該方法可以有效評(píng)價(jià)網(wǎng)頁(yè)資 源對(duì)搜索用戶的價(jià)值衡量,從而可以將高質(zhì)量的、真正符合用戶搜索 意圖的網(wǎng)頁(yè)資源優(yōu)先提供給用戶,以減少用戶瀏覽、查檢網(wǎng)頁(yè)的時(shí)間,提高用戶的搜索效能。本發(fā)明的另 一個(gè)目的在于提供一種將該網(wǎng)絡(luò)資源價(jià)值評(píng)估方法 應(yīng)用于網(wǎng)絡(luò)搜索引擎的方法,利用本發(fā)明的網(wǎng)絡(luò)資源評(píng)價(jià)方法,可以 使得網(wǎng)絡(luò)搜索時(shí),給予搜索到的網(wǎng)絡(luò)資源更為準(zhǔn)確的權(quán)值,利用該權(quán) 值, 一方面可以剔出那些無(wú)價(jià)值或價(jià)值甚微的網(wǎng)絡(luò)資源,另一方面可 以將與用戶真實(shí)意圖更為貼切的資源優(yōu)先排列呈給用戶。本發(fā)明的技術(shù)方案如下 一種評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值的方法,其特征在于 包括以下步驟1) 提取數(shù)據(jù),提取網(wǎng)絡(luò)資源上所包含的特定的與人相關(guān)的基本 因素;2) 處理數(shù)據(jù),結(jié)合采樣時(shí)間計(jì)算該基本因素的變化率;3)確定權(quán)值,根據(jù)該基本因素及其變化率計(jì)算并賦予該網(wǎng)絡(luò)資源 一確定的代表其質(zhì)量?jī)r(jià)值的權(quán)值。所述提取數(shù)據(jù)步驟中的基本因素包括發(fā)生時(shí)間因素;用戶閱讀 數(shù)量因素,如該網(wǎng)絡(luò)資源的點(diǎn)擊數(shù)或?yàn)g覽數(shù);相似內(nèi)容數(shù)量因素;關(guān) 聯(lián)及推薦關(guān)系因素;作者價(jià)值因素;網(wǎng)站價(jià)值因素。其中,除了發(fā)生時(shí)間因素;用戶閱讀數(shù)量因素,如該網(wǎng)絡(luò)資源的 點(diǎn)擊數(shù)或?yàn)g覽數(shù)可以直接獲得外,網(wǎng)絡(luò)資源的相似內(nèi)容數(shù)量因素、關(guān) 聯(lián)及推薦關(guān)系因素、作者價(jià)值因素、網(wǎng)站價(jià)值因素等都需要進(jìn)一步加 工才能轉(zhuǎn)換為可計(jì)算的基本因素。最后將各個(gè)基本因素按照設(shè)定的函 數(shù)關(guān)系變換為網(wǎng)絡(luò)資源的PeopleRank權(quán)值。所述需要進(jìn)一步加工的基本因素的處理方法包括 1 )根據(jù)網(wǎng)絡(luò)資源內(nèi)容,計(jì)算出其被轉(zhuǎn)發(fā)及與其相似的網(wǎng)絡(luò)資源的 數(shù)量數(shù)據(jù),并依據(jù)該數(shù)據(jù)計(jì)算該網(wǎng)絡(luò)資源的相似內(nèi)容數(shù)量權(quán)值。2) 根據(jù)網(wǎng)絡(luò)資源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計(jì)算該 網(wǎng)絡(luò)資源的關(guān)聯(lián)及推薦關(guān)系因素(1 ) 一個(gè)網(wǎng)絡(luò)資源被他人引 用的越多,則越有^介值;(2)被價(jià)值高的網(wǎng)絡(luò)資源所引用的資 源,其價(jià)值也高。關(guān)聯(lián)及推薦關(guān)系因素通常以某種迭代計(jì)算算 法實(shí)現(xiàn)。3) 根據(jù)該網(wǎng)絡(luò)資源作者的相關(guān)網(wǎng)絡(luò)資源經(jīng)迭代計(jì)算,確定作者價(jià) 值,并依據(jù)該作者價(jià)值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計(jì)算 通常為正反饋式系統(tǒng)。4) 根據(jù)該網(wǎng)絡(luò)資源所在網(wǎng)站經(jīng)迭代計(jì)算,確定該網(wǎng)站價(jià)值,并依 據(jù)該網(wǎng)站價(jià)值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計(jì)算通常為正 反饋式系統(tǒng)。所述各基本因素按照多點(diǎn)采樣時(shí)間計(jì)算其變化率。所述的評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照如上所述的價(jià)值評(píng)價(jià)方法,根據(jù)熱點(diǎn)網(wǎng)絡(luò)資源在一定時(shí)期內(nèi)變化率高的特性,結(jié)合網(wǎng)絡(luò)資源的類別信息,可以按照權(quán)值高低排序輸出各類別的熱點(diǎn)網(wǎng)絡(luò)資源。所述的評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照如上所述的價(jià)值評(píng)價(jià)方法,賦予搜索到的各網(wǎng)絡(luò)資源權(quán)值,并篩選剔除權(quán)值較低的網(wǎng)絡(luò)資源。所述的評(píng)價(jià)網(wǎng)絡(luò)資源相關(guān)性價(jià)值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照如上所述的價(jià)值評(píng)價(jià)方法,賦予搜索到的 各網(wǎng)絡(luò)資源權(quán)值,利用該權(quán)值參與引擎查詢結(jié)果的排序,使高質(zhì)量的 網(wǎng)頁(yè)優(yōu)先提供。本發(fā)明的技術(shù)效果本發(fā)明的評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值的方法,通過(guò)提取網(wǎng)絡(luò)資源上所包含 的特定的與人相關(guān)的基本因素,并結(jié)合采樣時(shí)間計(jì)算該基本因素的變 化率,從而根據(jù)該基本因素及變化率賦予該網(wǎng)絡(luò)資源一確定的能代表 其相關(guān)性價(jià)值的權(quán)值,即Pe(DpleRank值(簡(jiǎn)稱PR值)。由于該P(yáng)R值不但與網(wǎng)絡(luò)資源中抽取的特定的與人相關(guān)的因素相 關(guān),而且與所提取因素的時(shí)間因素也相關(guān),因此采用這種方法確定的 PR值不但可以反映其可能符合用戶需要的程度,而且還可以有效反 應(yīng)該網(wǎng)絡(luò)資源是否仍然在人們的關(guān)注期內(nèi),即可以反映出那些曾經(jīng)引 人關(guān)注而目前已無(wú)人問(wèn)津的網(wǎng)絡(luò)資源。正是這種自網(wǎng)絡(luò)資源提取的相關(guān)因素及與該因素的采樣時(shí)間之 間的相互作用,反映出了該網(wǎng)絡(luò)資源的受人關(guān)注的變化狀態(tài),這種時(shí) 間因素的作用,對(duì)于那些時(shí)效性較強(qiáng)的新聞?lì)惥W(wǎng)絡(luò)資源尤其重要。People Rank就是將上述各種與人相關(guān)的因素通過(guò)一定的數(shù)學(xué)模 型,合成為綜合的價(jià)值權(quán)重。不同網(wǎng)頁(yè)(即網(wǎng)絡(luò)資源,以下皆簡(jiǎn)稱網(wǎng)頁(yè))擁有不同的人為因素, 因此針對(duì)不同類別的網(wǎng)頁(yè),People Rank包含的因素也不同。對(duì)于不同的網(wǎng)絡(luò)資源而言,其包含有不同側(cè)重的人為因素,基本歸納起來(lái),包括六種基本因素 發(fā)生時(shí)間因素;用戶閱讀數(shù)量因素,*^r^^^^W r相似內(nèi)容數(shù)量因素;關(guān)聯(lián)及推薦關(guān)系因素;作者價(jià)值因素;網(wǎng)站價(jià)值因素等。其中發(fā)生時(shí)間、網(wǎng)絡(luò)資源點(diǎn)擊數(shù)或?yàn)g覽數(shù)提取后即可按照一定的 系數(shù)比例參與PR值的計(jì)算,其他因素都需要做進(jìn)一步分析轉(zhuǎn)換,即 按照某種設(shè)定的函數(shù)關(guān)系才能變換為可計(jì)算的基本因素。其中,對(duì)于相似內(nèi)容數(shù)量而言,其被轉(zhuǎn)發(fā)的數(shù)量以及網(wǎng)絡(luò)中存在 的相似網(wǎng)頁(yè)的數(shù)量反映了其受人關(guān)注的程度,因此通過(guò)計(jì)算其被轉(zhuǎn)發(fā) 的數(shù)量以及存在的與其相似的網(wǎng)頁(yè)的數(shù)量數(shù)據(jù),并依據(jù)該數(shù)據(jù)結(jié)合采 樣時(shí)間因素即可確定該網(wǎng)絡(luò)資源的權(quán)值——PR值。同理,對(duì)于關(guān)聯(lián)及推薦關(guān)系而言,各網(wǎng)頁(yè)之間的推薦或關(guān)聯(lián)特性,符合以下規(guī)律(1)網(wǎng)頁(yè)被他人引用的越多,則說(shuō)明該網(wǎng)頁(yè)越有價(jià)值;(2)被價(jià)值高的網(wǎng)頁(yè)資源所引用的資源,其價(jià)值必定也高,因此基于這種規(guī)律可以獲得各網(wǎng)頁(yè)的推薦和引用數(shù)據(jù),并結(jié)合時(shí)間因素確定該網(wǎng)絡(luò)資源的權(quán)值——PR值。對(duì)于作者價(jià)值來(lái)說(shuō),根據(jù)該作者的網(wǎng)頁(yè)的People Rank數(shù)據(jù)反饋計(jì)算該作者^(guò)H直。計(jì)算初始階段,所有作者價(jià)值完全相同,通過(guò)對(duì)作 者發(fā)表文章的分析,可以得到該作者不同階段的價(jià)值權(quán)值一一PR值,這些價(jià)值權(quán)值隨迭代計(jì)算的推進(jìn),分別成為該作者后續(xù)發(fā)表文章的反饋價(jià)值權(quán)值因素,由于采用正反饋式迭代計(jì)算,Rank合成需要控制 作者的放大系數(shù),以防止其影響其它因素的作用。 網(wǎng)站價(jià)值的分析計(jì)算與作者關(guān)系相似。正是基于上述的各種與人相關(guān)的基本因素,再加上多點(diǎn)采樣時(shí)間 (即時(shí)間因素),可以計(jì)算各種基本因素的變化率。將基本因素和基 本因素的變化率輸入,根據(jù)一定的數(shù)學(xué)模型,合成為最終的反映網(wǎng)頁(yè) 價(jià)值的單一數(shù)值——People Rank值。熱點(diǎn)網(wǎng)頁(yè)的重要特性是當(dāng)前時(shí)刻受到廣泛關(guān)注,其相關(guān)因素的變 化率比較高,通過(guò)這一特征,利用上述的評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值的方法, 再加上類別信息,可以輸出各類別的熱點(diǎn)網(wǎng)頁(yè),即熱點(diǎn)分析。People Rank本身就是網(wǎng)頁(yè)價(jià)值的重要評(píng)價(jià)參數(shù),因此可以利用 上述的評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值的方法確定搜索到的網(wǎng)頁(yè)其PR值,根據(jù)該 PR值,剔除那些價(jià)值不高的網(wǎng)頁(yè),篩選出其中最有價(jià)值的網(wǎng)頁(yè),以 提高搜索過(guò)程中后續(xù)網(wǎng)頁(yè)處理的質(zhì)量和效率。同理,該P(yáng)R值可以參與引擎查詢結(jié)果的排序計(jì)算,使高質(zhì)量的 網(wǎng)頁(yè)優(yōu)先排在前面,改善搜索引擎排序質(zhì)量。
圖1為PR值分析合成示意框圖;圖2為本發(fā)明在搜索領(lǐng)域的應(yīng)用示意框圖;圖3為時(shí)間衰減函數(shù)f (x)=l_eA(-1/x)的圖形。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。如圖1, Rank合成器1為一預(yù)先設(shè)定的數(shù)學(xué)模型。以下給出一種 具體的Rank合成算法的實(shí)施例。等價(jià)關(guān)系因各基本因素差異太大,我們對(duì)它做歸一處理;通過(guò) 大量統(tǒng)計(jì)及人類社會(huì)學(xué)特征,我們確定因素1價(jià)值=因素2價(jià)值=......=因素6價(jià)值。即認(rèn)為它們?cè)谝欢ㄖ迪聦?duì)Rank作用等價(jià)。Rank= (£用戶閱讀因素等價(jià)+ S相似內(nèi)容數(shù)量因素等價(jià)+2:網(wǎng) 頁(yè)關(guān)聯(lián)/推薦價(jià)值等價(jià))*作者價(jià)值因素價(jià)值*網(wǎng)站價(jià)值因素價(jià)值 *發(fā)生時(shí)間因素例其中時(shí)間衰減函數(shù)f (x)=l-e"(-l/x)的圖形如附圖3所示。 其中,時(shí)間越新,Rank值越大;時(shí)間越舊,Rank值越??;符合 時(shí)間衰減規(guī)律。發(fā)生時(shí)間因素,此因素通常可以在抓取網(wǎng)頁(yè)時(shí)獲得。 用戶閱讀數(shù)量因素3,如該網(wǎng)絡(luò)資源的點(diǎn)擊數(shù)或?yàn)g覽數(shù),通???以在抓取網(wǎng)頁(yè)時(shí)從頁(yè)面中抽取用戶閱讀數(shù)量的信息而獲得;此因素可 以直接作為基本因素,結(jié)合發(fā)生時(shí)間2 (即時(shí)間因素)進(jìn)行變化率分 析,獲得變化率因素,再將做為基本因素的閱讀數(shù)量與該變化率因素 輸入Rank合成器1中進(jìn)行合成輸出該基本因素的PR值。其中發(fā)生時(shí) 間2為多點(diǎn)采樣時(shí)間。相似內(nèi)容數(shù)量因素4,經(jīng)過(guò)內(nèi)容相關(guān)分析41,即通過(guò)計(jì)算其被轉(zhuǎn)發(fā)的數(shù)量以及存在的與其相似的網(wǎng)頁(yè)的數(shù)量數(shù)據(jù)獲得相關(guān)因素,該相 關(guān)因素作為基本因素結(jié)合發(fā)生時(shí)間2 (即時(shí)間因素)進(jìn)行變化率分析, 獲得變化率因素。相似內(nèi)容數(shù)量因素的進(jìn)一步加工可以利用自然語(yǔ)言處理技術(shù)中的文本相似性分析技術(shù)來(lái)實(shí)現(xiàn)。以下給出一種實(shí)現(xiàn)方式根據(jù)網(wǎng)絡(luò)資源的文本內(nèi)容,計(jì)算出給該資源的一個(gè)特征向量X,該特征向量的維度為n。再根據(jù)所有網(wǎng)絡(luò)資源的特征向量,計(jì)算不同特征向量之間的相似度R,再由相似度的不同閥值確定網(wǎng)絡(luò)資源內(nèi)容是否相同、相關(guān)、無(wú)關(guān)。特征向量的相似度R的計(jì)算公式其中X:特征向量,X(xl,x2,x3,…,xn);n:特征向量維度,1<= k <= n;i,j:特征向量Xi、 Xj的下標(biāo),表示第i,j篇網(wǎng)頁(yè);Rij :第i, j篇網(wǎng)頁(yè)的相似度;例<formula>formula see original document page 13</formula> \ =sqrt (900+900+900+900+400) =sqrt (4000)Rij = 3800/( sqrt(4200)* sqrt(4000)) = 0.927即這兩篇文章i, j的相似度Rij為0. 927再由閥值確定與該篇文章相同內(nèi)容頁(yè)數(shù)即網(wǎng)頁(yè)被轉(zhuǎn)發(fā)數(shù)量;與該篇文章相關(guān)內(nèi)容頁(yè)數(shù)即網(wǎng)頁(yè)內(nèi)容相似數(shù)量; 再將做為基本因素的相似內(nèi)容數(shù)量因素與該變化率因素輸入 Rank合成器1中進(jìn)行合成并輸出該相關(guān)因素的PR值。其中發(fā)生時(shí)間 2為多點(diǎn)采樣時(shí)間。對(duì)于關(guān)聯(lián)及推薦關(guān)系因素5,經(jīng)過(guò)關(guān)聯(lián)關(guān)系分析51,根據(jù)網(wǎng)絡(luò)資 源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計(jì)算該網(wǎng)絡(luò)資源的關(guān)聯(lián)及 推薦關(guān)系因素(1) 一個(gè)網(wǎng)絡(luò)資源被他人引用的越多,則越有價(jià)值; (2)被價(jià)值高的網(wǎng)絡(luò)資源所引用的資源,其價(jià)值也高。 這通常可以通過(guò)某種迭代計(jì)算算法實(shí)現(xiàn)。例如 網(wǎng)頁(yè)關(guān)聯(lián)/推薦價(jià)值=S被引用網(wǎng)站價(jià)值或作者價(jià)值或資源價(jià) 值/被引用數(shù)+ f (被引用數(shù))該關(guān)聯(lián)及推薦關(guān)系因素作為基本因素結(jié)合發(fā)生時(shí)間2 (即時(shí)間因 素)進(jìn)行變化率分析,獲得變化率因素,再將做為基本因素的推薦因 素與該變化率因素輸入Rank合成器1中進(jìn)行合成并輸出該推薦因素 的PR值。其中發(fā)生時(shí)間2為多點(diǎn)采樣時(shí)間。以下給出 一種具體的關(guān)聯(lián)及推薦關(guān)系因素的迭代計(jì)算方法; 第 一 步由作者價(jià)值和網(wǎng)站價(jià)值及被? 1用數(shù)計(jì)算網(wǎng)站每篇文章關(guān) 聯(lián)及推薦關(guān)系價(jià)值;第二步由第一步每篇文章的關(guān)聯(lián)/推薦價(jià)值,計(jì)算新的作者價(jià)值和網(wǎng)站1"介^直;由新的作者價(jià)值和網(wǎng)站價(jià)值、新的被引用網(wǎng)站價(jià)值和被引用數(shù)量,計(jì)算每篇文章的關(guān)聯(lián)/推薦價(jià)值;第n步由第n-1步的每篇文章的關(guān)聯(lián)/推薦價(jià)值,計(jì)算新的作者 價(jià)值和網(wǎng)站價(jià)值;由n-l步的作者價(jià)值和網(wǎng)站價(jià)值、被引用網(wǎng)站價(jià)值和被引用數(shù)量, 計(jì)算每篇文章的關(guān)聯(lián)/推薦價(jià)值;當(dāng)最近兩次關(guān)聯(lián)/推薦價(jià)值小于某一控制值時(shí),關(guān)聯(lián)/推薦價(jià)值趨 于穩(wěn)定,結(jié)束運(yùn)算退出。對(duì)于作者價(jià)值因素6,進(jìn)行作者價(jià)值分析61,初始階段,作者價(jià) 值完全相同,通過(guò)對(duì)作者發(fā)表文章的分析,可以得到該作者不同階段 的價(jià)值權(quán)值——PR值,這些價(jià)值權(quán)值隨計(jì)算的推進(jìn),分別成為該作 者后續(xù)發(fā)表文章的反饋價(jià)值權(quán)值因素,根據(jù)該網(wǎng)絡(luò)資源作者的相關(guān)網(wǎng)絡(luò)資源經(jīng)迭代計(jì)算,確定作者價(jià) 值,并依據(jù)該作者價(jià)值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計(jì)算通常為 正反饋式系統(tǒng)。 一個(gè)可能的計(jì)算方式舉例如下提取網(wǎng)絡(luò)資源主題特征詞文章價(jià)值=S特征詞idf /特征詞總數(shù)+關(guān)聯(lián)/推薦價(jià)值 作者價(jià)值=S文章價(jià)值/文章總數(shù)由于釆用正反饋系統(tǒng),Rank合成需要控制作者的放大系數(shù),以防止其影響其它因素的作用。以下給出一種具體的作者價(jià)值因素的迭代計(jì)算方法;第一步由關(guān)聯(lián)/推薦價(jià)值及文章內(nèi)容價(jià)值計(jì)算網(wǎng)站每篇文章價(jià)值;由每篇文章價(jià)值計(jì)算網(wǎng)站價(jià)值;第二步由第一步的網(wǎng)站價(jià)值計(jì)算每篇文章的關(guān)聯(lián)/推薦價(jià)值;由新文章綜合價(jià)值、新的關(guān)聯(lián)/推薦價(jià)值和文章內(nèi)容價(jià)值計(jì)算網(wǎng)站每篇文章價(jià)值;由每篇文章新價(jià)值計(jì)算網(wǎng)站價(jià)值;第n步由第n-1步的網(wǎng)站價(jià)值計(jì)算每篇文章的關(guān)聯(lián)/推薦價(jià)值; 由新文章綜合價(jià)值、新的關(guān)聯(lián)/推薦價(jià)值和文章內(nèi)容價(jià)值計(jì)算網(wǎng)站每篇文章價(jià)值;由每篇文章新價(jià)值計(jì)算網(wǎng)站價(jià)值;............當(dāng)最近兩次作者價(jià)值小于某一控制值時(shí),作者價(jià)值趨于穩(wěn)定,結(jié) 束運(yùn)算退出。對(duì)于網(wǎng)站價(jià)值因素7及其網(wǎng)站價(jià)值分析71,采用與作者關(guān)系因 素6相似的分析和計(jì)算方法,主要差異是網(wǎng)頁(yè)集合的分析粒度不同。根據(jù)該網(wǎng)絡(luò)資源所在網(wǎng)站經(jīng)迭代計(jì)算,確定該網(wǎng)站價(jià)值,并依據(jù) 該網(wǎng)站價(jià)值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計(jì)算通常為正反饋式系 統(tǒng)。 一個(gè)可能的計(jì)算方式舉例如下提取網(wǎng)絡(luò)資源主題特征詞i:文章價(jià)值- S特征詞idf /特征詞總數(shù)+關(guān)聯(lián)/推薦價(jià)值 網(wǎng)站價(jià)值=S文章價(jià)值/文章總數(shù)+新文章總數(shù)綜合價(jià)值 以下給出 一種具體的網(wǎng)站價(jià)值因素的迭代計(jì)算方法;第一步由關(guān)聯(lián)/推薦價(jià)值及文章內(nèi)容價(jià)值計(jì)算網(wǎng)站每篇文章價(jià) 值;由每篇文章價(jià)值計(jì)算網(wǎng)站價(jià)值;第二步由第一步的網(wǎng)站價(jià)值計(jì)算每篇文章的關(guān)聯(lián)/推薦價(jià)值;由 新文章綜合價(jià)值、新的關(guān)聯(lián)/推薦價(jià)值和文章內(nèi)容價(jià)值計(jì)算網(wǎng)站每篇 文章價(jià)值;由每篇文章新價(jià)值計(jì)算網(wǎng)站價(jià)值;第n步由第n-l步的網(wǎng)站價(jià)值計(jì)算每篇文章的關(guān)聯(lián)/推薦價(jià)值; 由新文章綜合價(jià)值、新的關(guān)聯(lián)/推薦價(jià)值和文章內(nèi)容價(jià)值計(jì)算網(wǎng)站每篇文章價(jià)值;由每篇文章新價(jià)值計(jì)算網(wǎng)站價(jià)值;............當(dāng)最近兩次網(wǎng)站價(jià)值小于某一控制值時(shí),網(wǎng)站價(jià)值趨于穩(wěn)定,結(jié) 束運(yùn)算退出。如圖2所示為本發(fā)明的PR值在搜索引擎領(lǐng)域中的三種不同應(yīng)用。 首先通過(guò)網(wǎng)頁(yè)提取8進(jìn)行網(wǎng)頁(yè)抓取及內(nèi)容抽取,按照上述方法由Rank合成器1確定該網(wǎng)頁(yè)的PR值,其后PR值可以分三路應(yīng)用至搜索引擎領(lǐng)域中其一,結(jié)合網(wǎng)頁(yè)分類81的信息,輸出各類別的熱點(diǎn)網(wǎng)頁(yè),即熱 點(diǎn)分析82。如各種排行榜等。其二,根據(jù)PR值,剔除那些價(jià)值不高的網(wǎng)頁(yè),篩選出其中最有 價(jià)值的網(wǎng)頁(yè),以提高搜索過(guò)程中后續(xù)網(wǎng)頁(yè)處理的質(zhì)量和效率,即網(wǎng)頁(yè) 篩選83。其三,PR值可以參與引擎查詢結(jié)杲的排序計(jì)算即搜索結(jié)果排序 84,使高質(zhì)量的網(wǎng)頁(yè)優(yōu)先排在前面,改善搜索引擎排序質(zhì)量。綜上所述,利用本發(fā)明的網(wǎng)頁(yè)價(jià)值評(píng)價(jià)方法,即利用PR值可以 有效評(píng)價(jià)網(wǎng)頁(yè)資源對(duì)搜索用戶的價(jià)值,從而優(yōu)先提供高質(zhì)量的、真正 符合用戶搜索意圖的網(wǎng)頁(yè)資源給用戶,以減少用戶瀏覽、查才t網(wǎng)頁(yè)的 時(shí)間,提高用戶的檢索效能。當(dāng)然,以上實(shí)施例中所例舉的具體計(jì)算方式,僅僅為可能的計(jì)算 方式中之一,對(duì)于本領(lǐng)域的技術(shù)人員而言,依據(jù)相同的技術(shù)目的,還 可以采用其它的具體的計(jì)算方式,但這種具體計(jì)算方式的改變和不 同,并不影響其實(shí)質(zhì)依然歸屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1. 一種評(píng)價(jià)網(wǎng)絡(luò)資源價(jià)值的方法,其特征在于包括以下步驟1)提取數(shù)據(jù),提取網(wǎng)絡(luò)資源上所包含的特定的與人相關(guān)的基本因素;2)處理數(shù)據(jù),結(jié)合采樣時(shí)間計(jì)算該基本因素的變化率;3)確定權(quán)值,根據(jù)該基本因素及其變化率賦予該網(wǎng)絡(luò)資源一確定的代表其相關(guān)性價(jià)值的權(quán)值。
2. 如權(quán)利要求l所述的方法,其特征在于所述提取數(shù)據(jù)步驟中的 基本因素包括發(fā)生時(shí)間因素、用戶閱讀數(shù)量因素、相似內(nèi)容數(shù)量 因素、關(guān)聯(lián)及推薦關(guān)系因素、作者價(jià)值因素、網(wǎng)站價(jià)值因素,其 中,相似內(nèi)容數(shù)量因素、關(guān)聯(lián)及推薦關(guān)系因素、作者價(jià)值因素、 網(wǎng)站價(jià)值因素需要按照設(shè)定的函數(shù)關(guān)系變換為可計(jì)算的基本因 素。
3. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)網(wǎng)絡(luò)資源內(nèi)容,計(jì)算出其被轉(zhuǎn)發(fā)及與其相似的網(wǎng)絡(luò)資源的數(shù) 量數(shù)據(jù),并依據(jù)該數(shù)據(jù)計(jì)算該網(wǎng)絡(luò)資源的相似內(nèi)容數(shù)量權(quán)值。
4. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)網(wǎng)絡(luò)資源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計(jì)算該網(wǎng) 絡(luò)資源的關(guān)聯(lián)及推薦關(guān)系因素(1) 一個(gè)網(wǎng)絡(luò)資源被他人引用的越多,則越有價(jià)值;(2)被價(jià)值高的網(wǎng)絡(luò)資源所引用的資源,其 價(jià)值也高。
5. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)該網(wǎng)絡(luò)資源作者的相關(guān)網(wǎng)絡(luò)資源經(jīng)迭代 計(jì)算,確定作者價(jià)值,并依據(jù)該作者價(jià)值確定該網(wǎng)絡(luò)資源的權(quán)值, 所述迭代計(jì)算為正反饋式系統(tǒng)。
6. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)該網(wǎng)絡(luò)資源所在網(wǎng)站經(jīng)迭代計(jì)算,確定 該網(wǎng)站價(jià)值,并依據(jù)該網(wǎng)站價(jià)值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭 代計(jì)算通常為正反饋式系統(tǒng)。
7. 如權(quán)利要求3-6所述的任一方法,其特征在于所述各基本因素 按照多點(diǎn)采樣時(shí)間計(jì)算其變化率。
8. 如權(quán)利要求1所述的評(píng)價(jià)網(wǎng)絡(luò)資源相關(guān)性價(jià)值方法在搜索引擎 領(lǐng)域的一種應(yīng)用方法,其特征在于按照權(quán)利要求l所述的價(jià)值 評(píng)價(jià)方法,根據(jù)熱點(diǎn)網(wǎng)絡(luò)資源在一定時(shí)期內(nèi)變化率高的特性,結(jié) 合網(wǎng)絡(luò)資源的類別信息,可以按照權(quán)值高低排序輸出各類別的熱 點(diǎn)網(wǎng)絡(luò)資源。
9. 如權(quán)利要求1所述的評(píng)價(jià)網(wǎng)絡(luò)資源相關(guān)性價(jià)值方法在搜索引擎 領(lǐng)域的一種應(yīng)用方法,其特征在于按照權(quán)利要求l所述的價(jià)值 評(píng)價(jià)方法,賦予搜索到的各網(wǎng)絡(luò)資源權(quán)值,并篩選剔除權(quán)值較低 的網(wǎng)絡(luò)資源。
10. 如權(quán)利要求1所述的評(píng)價(jià)網(wǎng)絡(luò)資源相關(guān)性價(jià)值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照權(quán)利要求l所述的價(jià)值評(píng)價(jià)方法,賦予搜索到的各網(wǎng)絡(luò)資源權(quán)值,利用該權(quán)值參與引擎 查詢結(jié)果的排序,使高質(zhì)量的網(wǎng)頁(yè)優(yōu)先提供。
全文摘要
本發(fā)明提供一種網(wǎng)絡(luò)資源的價(jià)值評(píng)價(jià)方法,利用該方法可以有效評(píng)價(jià)網(wǎng)頁(yè)資源對(duì)搜索用戶的價(jià)值衡量,從而可以有效的將高質(zhì)量的、真正符合用戶搜索意圖的網(wǎng)頁(yè)資源優(yōu)先提供給用戶,以減少用戶瀏覽、查檢網(wǎng)頁(yè)的時(shí)間,提高用戶的搜索效能,本發(fā)明還提供將該網(wǎng)絡(luò)資源價(jià)值評(píng)估方法應(yīng)用于網(wǎng)絡(luò)搜索引擎的方法。利用本發(fā)明的價(jià)值評(píng)價(jià)方法,可以使得網(wǎng)絡(luò)搜索時(shí),給予搜索到的網(wǎng)絡(luò)資源更為準(zhǔn)確的權(quán)值,利用該權(quán)值,一方面可以剔出那些無(wú)價(jià)值或價(jià)值甚微的網(wǎng)絡(luò)資源,另一方面可以將與用戶真實(shí)意圖更為貼切的資源優(yōu)先排列呈給用戶。
文檔編號(hào)G06F17/30GK101281519SQ20071006506
公開(kāi)日2008年10月8日 申請(qǐng)日期2007年4月2日 優(yōu)先權(quán)日2007年4月2日
發(fā)明者劉旭平, 周鴻祎, 釗 李, 謝軍樣 申請(qǐng)人:奇智軟件(北京)有限公司