亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法

文檔序號(hào):6370648閱讀:186來源:國知局
專利名稱:基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)質(zhì)量的研究范疇,涉及時(shí)態(tài)web、網(wǎng)絡(luò)信息質(zhì)量評(píng)估、時(shí)態(tài)信息的語義理解與抽取、時(shí)態(tài)對(duì)象模型的建立與約束關(guān)系、時(shí)態(tài)信息的推理機(jī)制與代數(shù)運(yùn)算系統(tǒng)等技術(shù)領(lǐng)域,特別提出了一種基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法。
背景技術(shù)
時(shí)態(tài)Web :本項(xiàng)目屬于時(shí)態(tài)Web研究范疇。近年來,時(shí)態(tài)Web日漸成為學(xué)者們關(guān)注的焦點(diǎn)。Web學(xué)術(shù)最權(quán)威的國際會(huì)議WWW在2011年專門設(shè)立了 “時(shí)態(tài)Web” Workshop——TWAW。Omar Alonso等分析了文檔中時(shí)間信息的類型,時(shí)間的表述方式及形式化,時(shí)間的標(biāo)注等內(nèi)容,指出了時(shí)態(tài)網(wǎng)絡(luò)的研究方向,包括時(shí)空信息挖掘、時(shí)態(tài)檢索、時(shí)間相似度與實(shí)時(shí)搜索等[1]。Mikl6s Erd6lyi等提出了新的基于特征的時(shí)態(tài)鏈接相似度,給出了在大規(guī)模的圖中高效計(jì)算的方法,用以探測網(wǎng)絡(luò)的垃圾信息[2]。Marilena Oita等研究了網(wǎng)頁進(jìn) 化的規(guī)律,并對(duì)近年來捕捉網(wǎng)頁隨時(shí)間而變化軌跡的各種最優(yōu)方法進(jìn)行了對(duì)比[3]。Brian
D.Davison等人基于在不同時(shí)間點(diǎn)的多種網(wǎng)絡(luò)快照組成的時(shí)態(tài)Web圖,建立了網(wǎng)絡(luò)沖浪模型來組合各個(gè)網(wǎng)絡(luò)的刷新率[4]。Yun Chi等通過“社區(qū)分解”分析結(jié)構(gòu)和時(shí)間動(dòng)態(tài)變化發(fā)現(xiàn)社區(qū)[5]。李必信等定義了時(shí)間屬性序列圖的形式語法,給出基于時(shí)間Buchi自動(dòng)機(jī)的形式操作語義,并用實(shí)時(shí)規(guī)約模式度量了時(shí)間屬性序列圖的表達(dá)力[6]。時(shí)態(tài)Web的相關(guān)成果為本項(xiàng)目的研究提供了理論基礎(chǔ)。網(wǎng)頁質(zhì)量評(píng)估及時(shí)效性度量目前,在網(wǎng)站質(zhì)量的評(píng)價(jià)方面,方濱興等研究了利用網(wǎng)頁質(zhì)量評(píng)價(jià)的新維度——社會(huì)性標(biāo)注——以改進(jìn)網(wǎng)頁檢索性能;中科院鐘華、黃濤等提出了一種網(wǎng)絡(luò)資源敏感的性能診斷方法[8]。陳傳夫等在采用層次分析法確定各級(jí)指標(biāo)權(quán)重的過程中,構(gòu)造了時(shí)效性指標(biāo)的判斷矩陣[9]。Brian D. Davison等人利用網(wǎng)頁新鮮度來評(píng)估網(wǎng)頁質(zhì)量,并從頁面本身及其鏈入頁面兩方面來度量網(wǎng)頁的新鮮度[1°]。王海勛等將內(nèi)容新鮮度的概念形式化,提出了用最少的網(wǎng)絡(luò)流量保持并優(yōu)化內(nèi)容新鮮度的方法[11]。事實(shí)上,以上的測評(píng)指標(biāo)均針對(duì)的是網(wǎng)站內(nèi)容的整體質(zhì)量和一般意義上的信息時(shí)效性,對(duì)于網(wǎng)頁的時(shí)間一致性并未進(jìn)行建模和度量?;跁r(shí)間感知的Web網(wǎng)頁信息檢索系統(tǒng)以PageRank為代表的基于鏈接分析打分方法并未考慮網(wǎng)頁的時(shí)效性,故在時(shí)間感知搜索中,其排序存在一定的偏差[12]。因此,對(duì)已有的檢索模型的時(shí)間維度的擴(kuò)展與深化成為必然。近年來,不斷出現(xiàn)基于時(shí)間信息的檢索系統(tǒng)的研究成果,Klaus Berberich等提出一種索引結(jié)構(gòu),能有效地對(duì)帶有時(shí)間信息的文檔進(jìn)行高性能的檢索支持。但該結(jié)構(gòu)僅僅支持基于時(shí)間點(diǎn)的查詢,不支持帶有時(shí)間段信息的查詢[13^BrianD. Davison研究了查詢條件的不同時(shí)間特性,提出用自適應(yīng)的機(jī)器學(xué)習(xí)框架來平衡和優(yōu)化網(wǎng)頁排序的新鮮度與相關(guān)性[14]。本項(xiàng)目將在現(xiàn)有工作的基礎(chǔ)上,利用網(wǎng)頁時(shí)間不一致度量,建立時(shí)間感知的Web網(wǎng)頁信息檢索模型。Web信息抽取在Web信息抽取方面,已有大量的研究工作。最近的研究包括ffeikum, Gerhard等人研究了基于知識(shí)理解的命名實(shí)體、它們的語義類,以及它們的相互關(guān)系[15]。Utku Irmak和Reiner Kraft研究了命名結(jié)構(gòu)實(shí)體,提出了一種檢測半結(jié)構(gòu)實(shí)體的新三級(jí)引導(dǎo)框架,描述了電話,日期和時(shí)間實(shí)體[16]。Jannik Strotgen等構(gòu)造了 TimeTrails系統(tǒng),用以提取、查詢、存儲(chǔ)并挖掘文本中隱含的時(shí)空信息[17]。于戈等分析DeepWeb結(jié)果頁面的特點(diǎn),提出了基于DOM樹的自動(dòng)實(shí)體抽取策略[18]。本項(xiàng)目主要采用基于時(shí)態(tài)DOM模型的Web信息提取方法,有關(guān)時(shí)間的正則文法匹配,以及基于模式代數(shù)的方法_和時(shí)間概念本體方法,抽取網(wǎng)頁多個(gè)時(shí)間維度。時(shí)態(tài)數(shù)據(jù)庫時(shí)態(tài)數(shù)據(jù)庫技術(shù)將時(shí)態(tài)信息引入到傳統(tǒng)數(shù)據(jù)庫,包括時(shí)態(tài)數(shù)據(jù)庫模型、歷史關(guān)系模型,歷史關(guān)系代數(shù)、對(duì)象歷史模型等[2°]。湯庸等運(yùn)用時(shí)態(tài)邏輯和動(dòng)態(tài)邏輯對(duì)時(shí)態(tài)數(shù)據(jù)庫的時(shí)間軸進(jìn)行了公理化建模,設(shè)計(jì)和實(shí)現(xiàn)了時(shí)態(tài)數(shù)據(jù)處理原理系統(tǒng)[21]。本項(xiàng)目將借鑒以上時(shí)態(tài)數(shù)據(jù)庫理論與技術(shù),將其拓展到網(wǎng)頁信息時(shí)間不一致性建模及度量。
參考文獻(xiàn)[I]Omar Alonso, Jannik Strongen, Ricardo Baeza-Yatesj Michael Gertz.Temporal Information Retrieval: Challenges and Opportunities. TWAW 2011:1-8.[2]Miklos Erdelyi,Andras A. Benczur. Temporal Analysis for Web SpamDetection:An Overview. TWAW 2011:17—24.[3]Marilena Oita,Pierre Senellart. Deriving Dynamics of Web Pages:ASurvey. TWAW 2011:25-32.[4] Na Dai, Brian D. Davison. Freshness Matters: In Flowers, Food, and WebAuthority. SIGIR2010:114-121.[5] Yun Chi, Shenghuo Zhu,Xiaodan Song,Jun’ichi Tatemura,Belle L. Tseng.Structural and temporal analysis of the blogosphere through communityfactorization. KDD 2007:163-172.[6]張鵬程,李必信,李雯睿.時(shí)間屬性序列圖語法和語義.軟件學(xué)報(bào),2010, Vol. 21 (11) :2752-2767.[7]劉凱鵬,方濱興.一種基于社會(huì)性標(biāo)注的網(wǎng)頁排序算法.計(jì)算機(jī)學(xué)報(bào),2010,Vol. 33 (6) : 1014-1023.[8]王偉,張文博,魏峻,鐘華,黃濤.一種資源敏感的Web應(yīng)用性能診斷方法 軟件學(xué)報(bào),2010,Vol. 21 (2) : 194-208.[9]陳傳夫,唐瓊,于媛,吳志強(qiáng)等.網(wǎng)絡(luò)上科學(xué)信息的時(shí)效性測量.情報(bào)學(xué)報(bào),2009,Vol. 28 (4) :610-617.[10]Na Dai, Brian D. Davison. Capturing Page Freshness for Web Search.SIGIR 2010:871-872.[II]Mohan Yang, Haixun Wang, Lipyeow Lim, Min Wang. Optimizing ContentFreshness of Relations Extracted From the Web Using Keyword Search. SIGMOD 2010 819-830.[12]Junghoo Cho, Sourashis Roy,Robert E. Adams. Page Quality:In Search ofan Unbiased Web Ranking. SIGMOD 2005:551-562.[13]Klaus Berberich, Srikanta J. Bedathur, Thomas Neumann, Gerhard ffeikum.A time machine for text search. SIGIR 2007:519-526.
[14]Na Dai, Milad Shokouhi, Brian D. Davison. Learning to Rank forFreshness and Relevance. SIGIR 2011:95-104.[15] Weikum, Gerhard and Theobald, Martin. From information toknowledge: harvesting entities and relationships from web sources.PODS2010:65-76.[16]Utku Irmak, Reiner Kraft. A scalable machine-learning approach forsemi-structured named entity recognition. Wffff 2010:461-470.[17]Jannik Strotgen, Michael Gertz, TimeTrails.A System for ExploringSpatioTemporal Information in Documents. VLDB 2010:1569-1572.[18]寇月,李冬,申德榮,于戈,聶鐵錚 D-EEM: 一種基于DOM樹的Deep Web實(shí)體抽取機(jī)制 計(jì)算機(jī)發(fā)展與研究,2010,Vol. 47(5) :858-865. [19]李石君,于俊清,歐偉杰.基于HTML模式代數(shù)的Web信息提取方法.計(jì)算機(jī)研究與發(fā)展,2006,Vol. 43 (9) : 1644-1650.[20]Fusheng Wang, Carlo Zaniolo, Xin Zhou:ArchIS:An XML-Based Approachto Transaction-Time Temporal Database Systems. The VLDB Journal, 2008, Vol. 17(6):1445 - 1463.[21]劉冬寧,湯庸.時(shí)態(tài)數(shù)據(jù)庫時(shí)間軸的動(dòng)態(tài)邏輯模型.軟件學(xué)報(bào),2010,Vol. 21 (4) :694-701.

發(fā)明內(nèi)容
針對(duì)因web時(shí)態(tài)不一致性而導(dǎo)致的數(shù)據(jù)質(zhì)量不高、而目前的相關(guān)技術(shù)對(duì)此類問題的處理較為薄弱的情況,本發(fā)明旨在建立Web時(shí)態(tài)對(duì)象模型,自動(dòng)獲取網(wǎng)頁的時(shí)態(tài)信息抽取路徑,學(xué)習(xí)時(shí)態(tài)信息抽取規(guī)則,根據(jù)Web數(shù)據(jù)時(shí)態(tài)一致性構(gòu)建約束關(guān)系、推理機(jī)制和代數(shù)運(yùn)算系統(tǒng),自動(dòng)發(fā)現(xiàn)Web過時(shí)信息,從而完成時(shí)態(tài)一致性的自動(dòng)排檢功能,并應(yīng)用于對(duì)同類網(wǎng)站進(jìn)行質(zhì)量排序,對(duì)傳統(tǒng)檢索加入時(shí)態(tài)要素,進(jìn)行時(shí)間感知的搜索。為完成以上目標(biāo),本發(fā)明提出一種基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,包括以下步驟步驟1,對(duì)Web進(jìn)行時(shí)態(tài)解析,該步驟進(jìn)一步包括以下子步驟步驟I I,計(jì)算網(wǎng)頁的時(shí)態(tài)敏感度;步驟I. 2,根據(jù)網(wǎng)站中時(shí)態(tài)敏感度大于預(yù)設(shè)閾值的網(wǎng)頁,建立Web時(shí)態(tài)對(duì)象模型,所述Web時(shí)態(tài)對(duì)象模型中將網(wǎng)站描述成一棵五層非空樹,網(wǎng)站主頁是根結(jié)點(diǎn),欄目及各級(jí)子欄目是中間結(jié)點(diǎn),網(wǎng)頁是葉子結(jié)點(diǎn);每個(gè)結(jié)點(diǎn)表示為一個(gè)二元組(Ve,VT),其中,V。為內(nèi)容向量,Vt為時(shí)態(tài)向量;步驟I. 3,利用Web時(shí)態(tài)對(duì)象模型對(duì)時(shí)態(tài)信息進(jìn)行抽?。徊襟E2,Web時(shí)態(tài)一致性約束與推理,包括根據(jù)步驟I所得Web時(shí)態(tài)對(duì)象模型,建立結(jié)點(diǎn)間時(shí)態(tài)一致性約束關(guān)系,并依此進(jìn)行推理,得到網(wǎng)頁的Web時(shí)態(tài)一致性分析結(jié)果;步驟3,Web時(shí)態(tài)不一致分類與度量,包括根據(jù)步驟I所得Web時(shí)態(tài)對(duì)象模型及步驟2所得結(jié)點(diǎn)間時(shí)態(tài)一致性約束關(guān)系,對(duì)步驟2所得Web時(shí)態(tài)一致性分析結(jié)果中的Web時(shí)態(tài)不一致情況進(jìn)行分類,并對(duì)不一致程度進(jìn)行評(píng)分,得到網(wǎng)頁的時(shí)態(tài)不一致度量值;
步驟4,Web時(shí)態(tài)不一致自動(dòng)發(fā)現(xiàn),包括根據(jù)步驟2所得Web時(shí)態(tài)一致性推理分析的結(jié)果和步驟3所得網(wǎng)頁的時(shí)態(tài)不一致度量值判斷發(fā)現(xiàn)Web時(shí)態(tài)不一致的過時(shí)網(wǎng)頁。而且,所述步驟I. I中,網(wǎng)頁的時(shí)態(tài)敏感性按下式計(jì)算
權(quán)利要求
1.一種基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,其特征在于,包括以下步驟 步驟1,對(duì)Web進(jìn)行時(shí)態(tài)解析,該步驟進(jìn)ー步包括以下子步驟 步驟I. 1,計(jì)算網(wǎng)頁的時(shí)態(tài)敏感度; 步驟I. 2,根據(jù)網(wǎng)站中時(shí)態(tài)敏感度大于預(yù)設(shè)閾值的網(wǎng)頁,建立Web時(shí)態(tài)對(duì)象模型,所述Web時(shí)態(tài)對(duì)象模型中將網(wǎng)站描述成ー棵五層非空樹,網(wǎng)站主頁是根結(jié)點(diǎn),欄目及各級(jí)子欄目是中間結(jié)點(diǎn),網(wǎng)頁是葉子結(jié)點(diǎn);姆個(gè)結(jié)點(diǎn)表示為ー個(gè)ニ元組(V。, Vt),其中,V。為內(nèi)容向量,Vt為時(shí)態(tài)向量; 步驟I. 3,利用Web時(shí)態(tài)對(duì)象模型對(duì)時(shí)態(tài)信息進(jìn)行抽取; 步驟2,Web時(shí)態(tài)一致性約束與推理,包括根據(jù)步驟I所得Web時(shí)態(tài)對(duì)象模型,建立結(jié)點(diǎn)間時(shí)態(tài)一致性約束關(guān)系,并依此進(jìn)行推理,得到網(wǎng)頁的Web時(shí)態(tài)一致性分析結(jié)果; 步驟3,Web時(shí)態(tài)不一致分類與度量,包括根據(jù)步驟I所得Web時(shí)態(tài)對(duì)象模型及步驟2所得結(jié)點(diǎn)間時(shí)態(tài)一致性約束關(guān)系,對(duì)步驟2所得Web時(shí)態(tài)一致性分析結(jié)果中的Web時(shí)態(tài)不一致情況進(jìn)行分類,并對(duì)不一致程度進(jìn)行評(píng)分,得到網(wǎng)頁的時(shí)態(tài)不一致度量值; 步驟4,Web時(shí)態(tài)不一致自動(dòng)發(fā)現(xiàn),包括根據(jù)步驟2所得Web時(shí)態(tài)一致性推理分析的結(jié)果和步驟3所得網(wǎng)頁的時(shí)態(tài)不一致度量值判斷發(fā)現(xiàn)Web時(shí)態(tài)不一致的過時(shí)網(wǎng)頁。
2.如權(quán)利要求I所述基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,其特征在于所述步驟I. I中,網(wǎng)頁的時(shí)態(tài)敏感性按下式計(jì)算TSp = AF(Pv) + yF(Pu) + uF(tw) 其中,TSp為時(shí)間敏感度,Pv為用戶訪問模式,Pu為欄目更新模式,tw為文本的時(shí)間信息特征,X、Y、y為權(quán)重函數(shù);
3.根據(jù)權(quán)利要求I或2所述基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,其特征在于 所述內(nèi)容向量Vc(w, e) = (Ctitle, Curt, Ctopi。,Ctrart),是一個(gè)關(guān)于網(wǎng)頁w與其描述的事件e的4維向量,包括網(wǎng)頁標(biāo)題Ctitl6、網(wǎng)頁鏈接Curl、網(wǎng)頁主題Ct()pi。和網(wǎng)頁文本Ct6xt ;所述時(shí)態(tài)向量 Vt (w,e) = (Toccur (w,e),Tpublish (w, e),Tforward (w, e),Texpire (w, e)),是一個(gè)關(guān)于網(wǎng)頁w與其描述的事件e的4維向量,包括事件發(fā)生時(shí)間Ttxxm (w,e)、發(fā)表時(shí)間Tpubiish(w, e)、轉(zhuǎn)載時(shí)間 TfOTwmd(w,e)和過期時(shí)間 Texpira (w, e); 其中wejf = .,wj,爐是網(wǎng)頁集合=,互為事件集合;n為網(wǎng)頁集合中的網(wǎng)頁總數(shù),m為事件集合中的事件總數(shù)。
4.根據(jù)權(quán)利要求I或2所述基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,其特征在于所述Web時(shí)態(tài)對(duì)象模型中各結(jié)點(diǎn)間的約束關(guān)系,包括結(jié)點(diǎn)自身時(shí)態(tài)向量的各分量之間、父結(jié)點(diǎn)與子結(jié)點(diǎn)之間、兄弟結(jié)點(diǎn)之間、不同樹的結(jié)點(diǎn)之間的約束關(guān)系。
5.根據(jù)權(quán)利要求I或2所述基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,其特征在于對(duì)不一致程度進(jìn)行評(píng)分時(shí),網(wǎng)頁按以下度量函數(shù)D(t)進(jìn)行時(shí)態(tài)不一致度量, 't-T publish rp* fV rprp5 publish ~ exp >e IK>) —J expire puhlmh I + ln(l + f (Texpire / Toccur¥ieyt,t > Texptre expire 其中,T。?!鰹槭录l(fā)生時(shí)間,為網(wǎng)頁過期時(shí)間,Tpublish為網(wǎng)頁發(fā)布時(shí)間,¥為權(quán)重,t為當(dāng)前讀取時(shí)間,且t>Tpublish ; 欄目的時(shí)態(tài)不一致度量,采用欄目所有網(wǎng)頁的時(shí)態(tài)不一致度量的平均值; 站點(diǎn)的時(shí)態(tài)不一致度量,采用站點(diǎn)所有欄目的時(shí)態(tài)不一致度量的平均值。
全文摘要
本發(fā)明是基于Web時(shí)態(tài)對(duì)象模型的過時(shí)網(wǎng)頁信息自動(dòng)發(fā)現(xiàn)方法,屬于數(shù)據(jù)質(zhì)量的研究范疇,涉及時(shí)態(tài)Web、網(wǎng)絡(luò)信息質(zhì)量評(píng)估、時(shí)態(tài)信息的語義理解與抽取、時(shí)態(tài)信息的約束與推理、網(wǎng)頁信息一致性自動(dòng)排檢等技術(shù)領(lǐng)域,主要針對(duì)因時(shí)態(tài)不一致而導(dǎo)致的web數(shù)據(jù)質(zhì)量低下的現(xiàn)象,基于不同網(wǎng)頁的不同時(shí)態(tài)敏感度,建立了Web時(shí)態(tài)對(duì)象模型,構(gòu)造了網(wǎng)絡(luò)數(shù)據(jù)時(shí)態(tài)一致性約束關(guān)系、推理機(jī)制和代數(shù)運(yùn)算規(guī)則,自動(dòng)排檢并提示W(wǎng)eb網(wǎng)頁中的過時(shí)信息,為網(wǎng)絡(luò)用戶提供兼具時(shí)效性與相關(guān)性的信息。本方法可廣泛應(yīng)用于同類網(wǎng)站質(zhì)量排序、時(shí)間感知的搜索排序等方面,在一定程度上提高Web信息質(zhì)量。
文檔編號(hào)G06F17/30GK102737125SQ20121019758
公開日2012年10月17日 申請(qǐng)日期2012年6月15日 優(yōu)先權(quán)日2012年6月15日
發(fā)明者丁永剛, 余偉, 劉晶, 李石君, 楊莎, 王俊, 王峰, 甘琳 申請(qǐng)人:武漢大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1