評估網(wǎng)頁發(fā)布時間的方法和相關(guān)裝置制造方法
【專利摘要】本發(fā)明實施例公開了評估網(wǎng)頁發(fā)布時間的方法和相關(guān)裝置。一種評估網(wǎng)頁發(fā)布時間的方法包括:識別網(wǎng)頁包含的N個時間字符串;分別提取N個時間字符串中的每個時間字符串的M個參考特征;按照預(yù)設(shè)的評分規(guī)則,分別對N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分,并得到N個時間字符串中的每個時間字符串的M個參考特征的總得分,將總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為網(wǎng)頁的發(fā)布時間。本發(fā)明實施例提供的技術(shù)方案有利于提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
【專利說明】評估網(wǎng)頁發(fā)布時間的方法和相關(guān)裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體主要涉及一種評估網(wǎng)頁發(fā)布時間的方法和相關(guān)裝置。
【背景技術(shù)】
[0002]超文本傳輸協(xié)議(HTTP, Hypertext transfer protocol)協(xié)議的響應(yīng)頭中通常含有網(wǎng)頁的最后修改時間(Last-Modified時間),而搜索引擎等在抓取頁面的時候通常是從HTTP響應(yīng)頭中提取該時間值作為網(wǎng)頁發(fā)布時間。
[0003]本發(fā)明的發(fā)明人在研究和實踐過程中發(fā)現(xiàn),現(xiàn)有技術(shù)至少存在以下的技術(shù)問題:網(wǎng)頁最后修改時間常常不能準(zhǔn)確地反映頁面的真實發(fā)布時間。例如當(dāng)編輯對網(wǎng)頁進(jìn)行修改(如添加廣告信息),最后修改時間發(fā)生變化。此時網(wǎng)頁的主體信息發(fā)布時間其實并沒有改變,真實發(fā)布時間應(yīng)早于最后修改時間。如某篇描述“2008北京奧運會”的網(wǎng)頁,但編輯在2012年對網(wǎng)頁做修改,最后修改時間變?yōu)?012年,與網(wǎng)頁主體的真實發(fā)布時間不符。并且,并非所有的網(wǎng)頁都具有最后修改時間。因此,將網(wǎng)頁的最后修改時間直接作為網(wǎng)頁的發(fā)布時間在很多場景下是不合適的。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供評估網(wǎng)頁發(fā)布時間的方法和相關(guān)裝置,以期提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0005]本發(fā)明實施例一方面提供一種評估網(wǎng)頁發(fā)布時間的方法,可包括:
[0006]識別網(wǎng)頁包含的N個時間字符串;
[0007]分別提取所述N個時間字符串中的每個時間字符串的M個參考特征;
[0008]按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到所述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為所述網(wǎng)頁的發(fā)布時間,其中,所述N為大于I的正整數(shù),所述M為正整數(shù)。
[0009]本發(fā)明實施例還提供一種評估網(wǎng)頁發(fā)布時間的裝置,可包括:
[0010]識別單元,用于識別網(wǎng)頁包含的N個時間字符串;
[0011]特征提取單元,用于分別提取所述N個時間字符串中的每個時間字符串的M個參考特征;
[0012]評估單元,用于按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到所述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為所述網(wǎng)頁的發(fā)布時間,其中,所述N為大于I的正整數(shù),所述M為正整數(shù)。
[0013]可以看出,本發(fā)明實施例方案中,通過分別提取從網(wǎng)頁中識別出的N個時間字符串中的每個時間字符串的M個參考特征;并按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,并將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。由于是從M個參考特征的角度,來分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,通過更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,相對于現(xiàn)有技術(shù),本實施例的機(jī)制有利于提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
【專利附圖】
【附圖說明】
[0014]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1是本發(fā)明實施例提供的一種評估網(wǎng)頁發(fā)布時間的方法的流程示意圖;
[0016]圖2是本發(fā)明實施例提供的另一種評估網(wǎng)頁發(fā)布時間的方法的流程示意圖;
[0017]圖3是本發(fā)明實施例提供的另一種評估網(wǎng)頁發(fā)布時間的方法的流程示意圖;
[0018]圖4是本發(fā)明實施例提供的一種獲取的網(wǎng)頁的示意圖;
[0019]圖5是本發(fā)明實施例提供的一種評估網(wǎng)頁發(fā)布時間的裝置的示意圖;
[0020]圖6是本發(fā)明實施例提供的一種計算節(jié)點的示意圖。
【具體實施方式】
[0021]本發(fā)明實施例提供評估網(wǎng)頁發(fā)布時間的方法和相關(guān)裝置,以期提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0022]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0023]以下分別進(jìn)行詳細(xì)說明。
[0024]本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三” “第四”等(如果存在)是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0025]本發(fā)明一種評估網(wǎng)頁發(fā)布時間的方法的一個實施例,其中,一種評估網(wǎng)頁發(fā)布時間的方法,可以包括:識別網(wǎng)頁包含的N個時間字符串;分別提取上述N個時間字符串中的每個時間字符串的M個參考特征;按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,上述N為大于I的正整數(shù),上述M為正整數(shù)。
[0026]首先請參見圖1,圖1是本發(fā)明一個實施例提供的一種評估網(wǎng)頁發(fā)布時間的方法的流程示意圖。如圖1所示,本發(fā)明一個實施例提供的一種評估網(wǎng)頁發(fā)布時間的方法可包括以下內(nèi)容:
[0027]11、識別網(wǎng)頁包含的N個時間字符串。
[0028]在本發(fā)明一些實施例中,可識別出網(wǎng)頁正文中包含的時間字符串,也還可以識別出統(tǒng)一資源定位符(URL,Universal Resource Locator)中包含的時間字符串。其中,由于時間字符串具有比較明顯的特征,因此可采用多種方式來進(jìn)行識別。
[0029]在本發(fā)明一些實施例中,識別網(wǎng)頁包含的N個時間字符串可以包括:構(gòu)建網(wǎng)頁對應(yīng)的Dom樹;從構(gòu)建出的上述Dom樹中識別上述網(wǎng)頁包含的N個時間字符串。其中,識別出的時間字符串可具有各種不同的格式,例如,識別出的時間字符串可能具體如下一些格式“2005-03-01”、“2008 年 8 月 2 日”、“2010 年 10 月 I 日 14:33”等。
[0030]102、分別提取上述N個時間字符串中的每個時間字符串的M個參考特征。
[0031 ] 103、按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0032]在本發(fā)明的一些實施例中,上述M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,上述N為大于I的正整數(shù),上述M為正整數(shù),上述ml和上述m2為小于或等于上述M的正整數(shù)。
[0033]在本發(fā)明的一些實施例中,上述按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分,可以包括:分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度(可以理解的是,M個標(biāo)準(zhǔn)參考特征和M個參考特征的類型是一一對應(yīng)的關(guān)系,因此,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,即,分別計算出M個標(biāo)準(zhǔn)參考特征中的每個標(biāo)準(zhǔn)參考特征,與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征之中與該每個標(biāo)準(zhǔn)參考特征的類型相同的參考特征之間的匹配度),將計算得到的匹配度所對應(yīng)的分值作為對應(yīng)參考特征的得分??梢岳斫獾氖?,匹配度越高,表示對應(yīng)參考特征和標(biāo)準(zhǔn)參考特征之間越近似,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。
[0034]可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,則對應(yīng)參考特征得分就可能越高,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0035]在本發(fā)明的一些實施例中,例如可以利用分類器,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度。
[0036]在本發(fā)明的另一些實施例中,上述按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分,可以包括:基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串之中的每個時間字符串的M個參考特征的得分。當(dāng)然,還可基于其它方式來按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分。其中,在本發(fā)明的一些實施例中,例如可以利用分類器基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串中的每個時間字符串的M個參考特征的得分??梢岳斫獾氖牵趨⒖继卣髋c分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高則對應(yīng)參考特征得分就可能越高,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果在參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,其中,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間就越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0037]在本發(fā)明的一些實施例中,上述分類器通過向量機(jī)訓(xùn)練方法得到、或者上述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者上述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到、當(dāng)然上述分類器亦可通過其它方式訓(xùn)練得到。
[0038]其中,利用分類器可綜合時間字符串的結(jié)構(gòu)特征和語義特征,進(jìn)而有利于從候選的N個時間字符串中選出最可能是描述網(wǎng)頁真實發(fā)布時間的哪個時間字符串來。進(jìn)一步的,還可利用總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串作為反饋樣本,繼續(xù)對分類器進(jìn)行訓(xùn)練。
[0039]可以理解,若總得分越高表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越高,則可得到的總得分最高的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。反之,若總得分越低表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越搞,則可得到的總得分最低的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0040]在本發(fā)明的一些實施例中,上述ml個語義特征例如可包括如下特征的至少I個:時間字符串所處塊的塊類型(其中,該塊類型可為正文塊、標(biāo)題塊或附屬塊)、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字(即時間字符串周圍設(shè)定長度范圍之內(nèi)的文本之中所包含的正向關(guān)鍵字和/或反向關(guān)鍵字)、時間字符串與網(wǎng)頁標(biāo)題的距尚。例如,從時間字符串所處塊的塊類型方面看,若時間字符串所處塊的塊類型為網(wǎng)頁標(biāo)題,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常大于該時間字符串所處塊的塊類型為正文的情況,而若時間字符串所處塊的塊類型為附屬塊(例如記錄引文出處的塊等等),則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常小于該時間字符串所處塊的塊類型為正文的情況。又例如,若從時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字的方面來看,時間字符串周圍所環(huán)繞文本中包含的正向關(guān)鍵字越多、各正向關(guān)鍵字的正向關(guān)鍵程度越高、反向關(guān)鍵字?jǐn)?shù)量越少、各反向關(guān)鍵字的反向關(guān)鍵程度越低,則該時間字符串所描述的時間為網(wǎng)頁真實的發(fā)布時間的可能性也就越高;反之,時間字符串周圍所環(huán)繞文本中包含的越多正向關(guān)鍵字越少,各正向關(guān)鍵字的正向關(guān)鍵程度越低、反向關(guān)鍵字?jǐn)?shù)量越多、各反向關(guān)鍵字的反向關(guān)鍵程度越高,表示該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越低。又舉例來說,若從時間字符串與網(wǎng)頁標(biāo)題的距離的方面來看,時間字符串距離網(wǎng)頁標(biāo)題越近,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,時間字符串距離網(wǎng)頁標(biāo)題越遠(yuǎn),該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。當(dāng)然,ml個語義特征中還可能包括其它可用于參考的語義特征,此處不再一一舉例。
[0041]在本發(fā)明的一些實施例中,上述m2個結(jié)構(gòu)特征例如可包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素(時間要素例如年、月、日、時、分、秒等)之間的分隔符的類型、時間字符串的串長度。舉例來說,若從時間字符串所描述時間的精確度的方面來看,時間字符串所描述時間的精確度越高,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,反之,若時間字符串所描述時間的精確度越低,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串的串長度的方面來看,時間字符串的串長度越長,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性就越大,時間字符串的串長度越短,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串中的各時間要素之間的分隔符的類型的方面來看,若時間字符串中的時間要素之間的分隔符的類型為漢字,則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性,通常大于該時間字符串的時間要素之間的分隔符的類型為字符的情況。當(dāng)然,m2個結(jié)構(gòu)特征中還可能包括其它可用于參考的結(jié)構(gòu)特征,此處不再一一舉例。
[0042]可以看出,本實施例的提供方案,通過分別提取從網(wǎng)頁中識別出的N個時間字符串中的每個時間字符串的M個參考特征;并按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,并將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。由于是從M個參考特征的角度,來分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,通過更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,相對于現(xiàn)有技術(shù),本實施例的機(jī)制有利于提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0043]進(jìn)一步的,若M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,則由于是從ml個語義特征和/或m2個結(jié)構(gòu)特征的角度,分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,這就有利于進(jìn)一步提聞網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0044]為便于更好的理解和實施本發(fā)明實施例的上述方案,下面通過一些具體例子進(jìn)行舉例說明。
[0045]參見圖2,圖2是本發(fā)明另一個實施例提供的另一種評估網(wǎng)頁發(fā)布時間的方法的流程示意圖。如圖2所示,本發(fā)明另一個實施例提供的另一種評估網(wǎng)頁發(fā)布時間的方法可包括以下內(nèi)容:
[0046]201、獲取網(wǎng)頁。
[0047]其中,可從互聯(lián)網(wǎng)上獲取網(wǎng)頁。
[0048]202、構(gòu)建獲取的網(wǎng)頁對應(yīng)的Dom樹。
[0049]203、從構(gòu)建出的上述Dom樹中識別上述網(wǎng)頁包含的N個時間字符串;
[0050]其中,識別出的時間字符串可具有各種不同的格式,例如,識別出的時間字符串可能具體如下一些格式“2005-03-01”、“2008年8月2日”、“2010年10月I日14:33”等。[0051 ] 204、分別提取上述N個時間字符串中的每個時間字符串的M個參考特征。
[0052]205、分別計算出M個標(biāo)準(zhǔn)參考特征,與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,將計算得到的匹配度所對應(yīng)的分值作為對應(yīng)參考特征的得分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分;將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,上述M個參考特征包括ml個語義特征和m2個結(jié)構(gòu)特征,上述N為大于I的正整數(shù),上述M為正整數(shù),上述ml和上述m2為小于上述M的正整數(shù)。
[0053]在本發(fā)明的一些實施例中,上述ml個語義特征例如可包括如下特征的至少I個:時間字符串所處塊的塊類型(其中,該塊類型可為正文塊、標(biāo)題塊或附屬塊)、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字(即時間字符串周圍設(shè)定長度范圍之內(nèi)的文本之中所包含的正向關(guān)鍵字和/或反向關(guān)鍵字)、時間字符串與網(wǎng)頁標(biāo)題的距尚。例如,從時間字符串所處塊的塊類型方面看,若時間字符串所處塊的塊類型為網(wǎng)頁標(biāo)題,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常大于該時間字符串所處塊的塊類型為正文的情況,而若時間字符串所處塊的塊類型為附屬塊(例如記錄引文出處的塊等等),則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常小于該時間字符串所處塊的塊類型為正文的情況。又例如,若從時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字的方面來看,時間字符串周圍所環(huán)繞文本中包含的正向關(guān)鍵字越多、各正向關(guān)鍵字的正向關(guān)鍵程度越高、反向關(guān)鍵字?jǐn)?shù)量越少、各反向關(guān)鍵字的反向關(guān)鍵程度越低,則該時間字符串所描述的時間為網(wǎng)頁真實的發(fā)布時間的可能性也就越高;反之,時間字符串周圍所環(huán)繞文本中包含的越多正向關(guān)鍵字越少,各正向關(guān)鍵字的正向關(guān)鍵程度越低、反向關(guān)鍵字?jǐn)?shù)量越多、各反向關(guān)鍵字的反向關(guān)鍵程度越高,表示該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越低。又舉例來說,若從時間字符串與網(wǎng)頁標(biāo)題的距離的方面來看,時間字符串距離網(wǎng)頁標(biāo)題越近,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,時間字符串距離網(wǎng)頁標(biāo)題越遠(yuǎn),該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。當(dāng)然,ml個語義特征中還可能包括其它可用于參考的語義特征,此處不再一一舉例。
[0054]在本發(fā)明的一些實施例中,上述m2個結(jié)構(gòu)特征例如可包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素(時間要素例如年、月、日、時、分、秒等)之間的分隔符的類型、時間字符串的串長度。舉例來說,若從時間字符串所描述時間的精確度的方面來看,時間字符串所描述時間的精確度越高,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,反之,若時間字符串所描述時間的精確度越低,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串的串長度的方面來看,時間字符串的串長度越長,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性就越大,時間字符串的串長度越短,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串中的各時間要素之間的分隔符的類型的方面來看,若時間字符串中的時間要素之間的分隔符的類型為漢字,則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性,通常大于該時間字符串的時間要素之間的分隔符的類型為字符的情況。當(dāng)然,m2個結(jié)構(gòu)特征中還可能包括其它可用于參考的結(jié)構(gòu)特征,此處不再一一舉例。
[0055]可以理解的是,上述M個標(biāo)準(zhǔn)參考特征和M個參考特征的類型是一一對應(yīng)的關(guān)系(其中,例如M個參考特征包括ml個語義特征,則M個標(biāo)準(zhǔn)參考特征也包括與上述ml個語義特征的類型一一對應(yīng)的ml個語義特征;又例如M個參考特征包括m2個結(jié)構(gòu)特征,則M個標(biāo)準(zhǔn)參考特征也包括與上述m2個結(jié)構(gòu)特征的類型--對應(yīng)的ml個語義特征;又例如M個參考特征包括ml個語義特征和m2個結(jié)構(gòu)特征,則M個標(biāo)準(zhǔn)參考特征也包括與上述ml個語義特征和m2個結(jié)構(gòu)特征的類型--對應(yīng)的ml個語義特征和m2個結(jié)構(gòu)特征),因此,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,即,分別計算出M個標(biāo)準(zhǔn)參考特征中的每個標(biāo)準(zhǔn)參考特征,與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征之中與該每個標(biāo)準(zhǔn)參考特征的類型相同的參考特征之間的匹配度。
[0056]可以理解的是,匹配度越高,則表示對應(yīng)參考特征和標(biāo)準(zhǔn)參考特征之間越近似,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。
[0057]可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,則對應(yīng)參考特征得分就可能越高,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0058]在本發(fā)明的一些實施例中,例如可以利用分類器,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度。
[0059]在本發(fā)明的一些實施例中,上述分類器通過向量機(jī)訓(xùn)練方法得到、或者上述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者上述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到、當(dāng)然上述分類器亦可通過其它方式訓(xùn)練得到。
[0060]其中,利用分類器可綜合時間字符串的結(jié)構(gòu)特征和語義特征,進(jìn)而有利于從候選的N個時間字符串中選出最可能是描述網(wǎng)頁真實發(fā)布時間的哪個時間字符串來。進(jìn)一步的,還可利用總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串作為反饋樣本,繼續(xù)對分類器進(jìn)行訓(xùn)練。
[0061]可以理解,若總得分越高表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越高,則可得到的總得分最高的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。反之,若總得分越低表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越搞,則可得到的總得分最低的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0062]可以看出,本實施例的提供方案,通過分別提取從網(wǎng)頁中識別出的N個時間字符串中的每個時間字符串的M個參考特征;并按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,并將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,上述M個參考特征包括ml個語義特征和m2個結(jié)構(gòu)特征,上述N為大于I的正整數(shù),ml和上述m2為小于或等于上述M的正整數(shù)。由于是從ml個語義特征和m2個結(jié)構(gòu)特征的角度,分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,相對于現(xiàn)有技術(shù),本實施例的機(jī)制有利于提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0063]參見圖3,圖3是本發(fā)明另一個實施例提供的一種評估網(wǎng)頁發(fā)布時間的方法的流程示意圖。如圖3所示,本發(fā)明另一個實施例提供的一種評估網(wǎng)頁發(fā)布時間的方法可包括以下內(nèi)容:
[0064]301、獲取網(wǎng)頁。
[0065]其中,可從互聯(lián)網(wǎng)上獲取網(wǎng)頁。
[0066]302、構(gòu)建網(wǎng)頁對應(yīng)的Dom樹。
[0067]303、從構(gòu)建出的上述Dom樹中識別上述網(wǎng)頁包含的N個時間字符串;
[0068]其中,識別出的時間字符串可具有各種不同的格式,例如,識別出的時間字符串可能具體如下一些格式“2005-03-01”、“2008年8月2日”、“2010年10月I日14:33”等。
[0069]304、分別提取上述N個時間字符串中的每個時間字符串的M個參考特征。
[0070]305、基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分;將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,上述M個參考特征包括ml個語義特征和m2個結(jié)構(gòu)特征,上述N為大于I的正整數(shù),上述M為正整數(shù),上述ml和上述m2為小于上述M的正整數(shù)。
[0071]在本發(fā)明的一些實施例中,上述ml個語義特征例如可包括如下特征的至少I個:時間字符串所處塊的塊類型(其中,該塊類型可為正文塊、標(biāo)題塊或附屬塊)、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字(即時間字符串周圍設(shè)定長度范圍之內(nèi)的文本之中所包含的正向關(guān)鍵字和/或反向關(guān)鍵字)、時間字符串與網(wǎng)頁標(biāo)題的距尚。例如,從時間字符串所處塊的塊類型方面看,若時間字符串所處塊的塊類型為網(wǎng)頁標(biāo)題,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常大于該時間字符串所處塊的塊類型為正文的情況,而若時間字符串所處塊的塊類型為附屬塊(例如記錄引文出處的塊等等),則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常小于該時間字符串所處塊的塊類型為正文的情況。又例如,若從時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字的方面來看,時間字符串周圍所環(huán)繞文本中包含的正向關(guān)鍵字越多、各正向關(guān)鍵字的正向關(guān)鍵程度越高、反向關(guān)鍵字?jǐn)?shù)量越少、各反向關(guān)鍵字的反向關(guān)鍵程度越低,則該時間字符串所描述的時間為網(wǎng)頁真實的發(fā)布時間的可能性也就越高;反之,時間字符串周圍所環(huán)繞文本中包含的越多正向關(guān)鍵字越少,各正向關(guān)鍵字的正向關(guān)鍵程度越低、反向關(guān)鍵字?jǐn)?shù)量越多、各反向關(guān)鍵字的反向關(guān)鍵程度越高,表示該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越低。又舉例來說,若從時間字符串與網(wǎng)頁標(biāo)題的距離的方面來看,時間字符串距離網(wǎng)頁標(biāo)題越近,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,時間字符串距離網(wǎng)頁標(biāo)題越遠(yuǎn),該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。當(dāng)然,ml個語義特征中還可能包括其它可用于參考的語義特征,此處不再一一舉例。
[0072]在本發(fā)明的一些實施例中,上述m2個結(jié)構(gòu)特征例如可包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素(時間要素例如年、月、日、時、分、秒等)之間的分隔符的類型、時間字符串的串長度。舉例來說,若從時間字符串所描述時間的精確度的方面來看,時間字符串所描述時間的精確度越高,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,反之,若時間字符串所描述時間的精確度越低,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串的串長度的方面來看,時間字符串的串長度越長,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性就越大,時間字符串的串長度越短,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串中的各時間要素之間的分隔符的類型的方面來看,若時間字符串中的時間要素之間的分隔符的類型為漢字,則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性,通常大于該時間字符串的時間要素之間的分隔符的類型為字符的情況。當(dāng)然,m2個結(jié)構(gòu)特征中還可能包括其它可用于參考的結(jié)構(gòu)特征,此處不再一一舉例。
[0073]其中,在本發(fā)明的一些實施例中,例如可以利用分類器基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串中的每個時間字符串的M個參考特征的得分??梢岳斫獾氖牵趨⒖继卣髋c分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高則對應(yīng)參考特征得分就可能越高,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果在參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,其中,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或者等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間就越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0074]在本發(fā)明的一些實施例中,上述分類器通過向量機(jī)訓(xùn)練方法得到、或者上述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者上述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到、當(dāng)然上述分類器亦可通過其它方式訓(xùn)練得到。
[0075]其中,利用分類器可綜合時間字符串的結(jié)構(gòu)特征和語義特征,進(jìn)而有利于從候選的N個時間字符串中選出最可能是描述網(wǎng)頁真實發(fā)布時間的哪個時間字符串來。進(jìn)一步的,還可利用總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串作為反饋樣本,繼續(xù)對分類器進(jìn)行訓(xùn)練。
[0076]可以理解,若總得分越高表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越高,則可得到的總得分最高的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。反之,若總得分越低表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越搞,則可得到的總得分最低的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0077]可以看出,本實施例的提供方案,通過分別提取從網(wǎng)頁中識別出的N個時間字符串中的每個時間字符串的M個參考特征;并按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,并將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,上述M個參考特征包括ml個語義特征和m2個結(jié)構(gòu)特征,上述N為大于I的正整數(shù),ml和上述m2為小于或等于上述M的正整數(shù)。由于是從ml個語義特征和m2個結(jié)構(gòu)特征的角度,分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,相對于現(xiàn)有技術(shù),本實施例的機(jī)制有利于提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0078]為便于更好的理解和實施本發(fā)明實施例的上述方案,下面通過一些更為具體例子進(jìn)行舉例說明。
[0079]如圖4 所不,輸入 urI 為 http://tech.hexun.com/2011-10-25/134541741, html的網(wǎng)頁的html源碼。其中,可從輸入url中提取時間“2011-10-25”;假設(shè)又從網(wǎng)頁內(nèi)容中提取“2012-02-2414:09:40”、“1949 年 9 月 21 日”、“ 1954 年 9 月”、“2011 年 10 月 25 日 14:33”、“2014年11月”等時間字符串。
[0080]可分別提取上述時間字符串中的每個時間字符串的語義特征和結(jié)構(gòu)特征。
[0081]以如下兩個時間字符串“2011年10月25日14:33”和“2014年11月”為例子分析。假設(shè)這兩個時間字符串的初始得分都為0,假設(shè)得分越高的時間表示越有可能描述的是網(wǎng)頁的真實發(fā)布時間。
[0082]以下依據(jù)各自的語義特征和結(jié)構(gòu)特征進(jìn)行比較。
[0083]時間字符串“2011年10月25日14:33”位于標(biāo)題下方,時間字符串“2014年11月”位于正文中,標(biāo)題下方的時間字符串更可能是描述真實時間,時間字符串“2011年10月25日14:33”的得分加10分,時間字符串“2014年11月”的得分加3分;時間字符串“2011年10月25日14:33”比時間字符串“2014年11月”具有更多的時分秒和日期信息,而描述的時間值越精確就越可能是真實時間,因此時間字符串“2011年10月25日14:33”的得分加5分,時間字符串“2014年11月”的得分加2分;時間字符串“2011年10月25日14:33”的年月日與url中提取到的時間字符串的年月日相匹配,與url中的時間字符串匹配的時間字符串更有可能是真實時間,因此,時間字符串“2011年10月25日14:33”的得分加8分;時間字符串“2014年11月”的得分加O分。
[0084]時間字符串“2011年10月25日14:33”最終總得分為23分,時間字符串“2014年11月”最終總得分為5分,因此,相對于時間字符串“2014年11月”,時間字符串“2011年10月25日14:33”描述的時間更有可能是網(wǎng)頁真實發(fā)布時間。其它時間字符串的比較與之類似。
[0085]可以理解,上述舉例中每個特征的得分可根據(jù)具體情況而設(shè)定,并不限于上述舉例。
[0086]本發(fā)明實施例提供的方案例如可為搜索引擎的排序提供重要因子,網(wǎng)頁的發(fā)布時間作為衡量網(wǎng)頁信息新舊程度的指標(biāo)。當(dāng)用戶輸入時新性查詢時,如“中國男足現(xiàn)任主教練”,搜索引擎在排序時,會對網(wǎng)頁發(fā)布時間新的網(wǎng)頁做提權(quán)處理。當(dāng)然,對于需要基于網(wǎng)頁發(fā)布時間進(jìn)行的其它操作,亦可采用本發(fā)明實施例提供的方案來評估網(wǎng)頁發(fā)布時間。
[0087]下面還提供用于實施上述方案的相關(guān)裝置。
[0088]參見圖5,本發(fā)明實施例還提供一種評估網(wǎng)頁發(fā)布時間的裝置500,可包括識別單元510、特征提取單元520和評估單元530。
[0089]識別單元510,用于識別網(wǎng)頁包含的N個時間字符串;
[0090]特征提取單元520,用于分別提取上述N個時間字符串中的每個時間字符串的M個參考特征;
[0091]評估單元530,用于按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0092]在本發(fā)明一些實施例中,上述M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,上述ml和上述m2為小于或等于上述M的正整數(shù),上述N為大于I的正整數(shù),上述M為正整數(shù)。
[0093]在本發(fā)明的一些實施例中,在上述按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分的方面,上述評估單元530可具體用于:基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串中的每個時間字符串的M個參考特征的得分;或者,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,將計算得到的匹配度所對應(yīng)的分值作為對應(yīng)參考特征的得分。
[0094]在本發(fā)明的一些實施例中,在分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度的方面,評估單元具體530可具體用于:利用分類器分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度。
[0095]可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,則對應(yīng)參考特征得分就可能越高,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0096]其中,在本發(fā)明的一些實施例中,在上述基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串中的每個時間字符串的M個參考特征的得分的方面,評估單元具體530可具體用于:利用分類器基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串中的每個時間字符串的M個參考特征的得分。
[0097]可以理解的是,在參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高則對應(yīng)參考特征得分就可能越高,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。
[0098]其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果在參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高則表示對應(yīng)參考特征的得分就可能越低,其中時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,其中,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間就越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0099]在本發(fā)明的一些實施例中,上述分類器通過向量機(jī)訓(xùn)練方法得到、或者上述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者上述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到。
[0100]其中,在本發(fā)明的一些實施例中,上述識別單元510可具體用于:構(gòu)建網(wǎng)頁對應(yīng)的Dom樹;從上述Dom樹識別上述網(wǎng)頁包含的N個時間字符串。
[0101]其中,在本發(fā)明的一些實施例中,上述ml個語義特征包括如下特征的至少I個:時間字符串所處塊的塊類型、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字、時間字符串與網(wǎng)頁標(biāo)題的距離。
[0102]其中,在本發(fā)明的一些實施例中,上述m2個結(jié)構(gòu)特征包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素之間的分隔符的類型、時間字符串的串長度。
[0103]在本發(fā)明的一些實施例中,上述ml個語義特征例如可包括如下特征的至少I個:時間字符串所處塊的塊類型(其中,該塊類型可為正文塊、標(biāo)題塊或附屬塊)、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字(即時間字符串周圍設(shè)定長度范圍之內(nèi)的文本之中所包含的正向關(guān)鍵字和/或反向關(guān)鍵字)、時間字符串與網(wǎng)頁標(biāo)題的距尚。例如,從時間字符串所處塊的塊類型方面看,若時間字符串所處塊的塊類型為網(wǎng)頁標(biāo)題,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常大于該時間字符串所處塊的塊類型為正文的情況,而若時間字符串所處塊的塊類型為附屬塊(例如記錄引文出處的塊等等),則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常小于該時間字符串所處塊的塊類型為正文的情況。又例如,若從時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字的方面來看,時間字符串周圍所環(huán)繞文本中包含的正向關(guān)鍵字越多、各正向關(guān)鍵字的正向關(guān)鍵程度越高、反向關(guān)鍵字?jǐn)?shù)量越少、各反向關(guān)鍵字的反向關(guān)鍵程度越低,則該時間字符串所描述的時間為網(wǎng)頁真實的發(fā)布時間的可能性也就越高;反之,時間字符串周圍所環(huán)繞文本中包含的越多正向關(guān)鍵字越少,各正向關(guān)鍵字的正向關(guān)鍵程度越低、反向關(guān)鍵字?jǐn)?shù)量越多、各反向關(guān)鍵字的反向關(guān)鍵程度越高,表示該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越低。又舉例來說,若從時間字符串與網(wǎng)頁標(biāo)題的距離的方面來看,時間字符串距離網(wǎng)頁標(biāo)題越近,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,時間字符串距離網(wǎng)頁標(biāo)題越遠(yuǎn),該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。當(dāng)然,ml個語義特征中還可能包括其它可用于參考的語義特征,此處不再一一舉例。
[0104]在本發(fā)明的一些實施例中,上述m2個結(jié)構(gòu)特征例如可包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素(時間要素例如年、月、日、時、分、秒等)之間的分隔符的類型、時間字符串的串長度。舉例來說,若從時間字符串所描述時間的精確度的方面來看,時間字符串所描述時間的精確度越高,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,反之,若時間字符串所描述時間的精確度越低,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串的串長度的方面來看,時間字符串的串長度越長,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性就越大,時間字符串的串長度越短,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串中的各時間要素之間的分隔符的類型的方面來看,若時間字符串中的時間要素之間的分隔符的類型為漢字,則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性,通常大于該時間字符串的時間要素之間的分隔符的類型為字符的情況。當(dāng)然,m2個結(jié)構(gòu)特征中還可能包括其它可用于參考的結(jié)構(gòu)特征,此處不再一一舉例。
[0105]可以理解的是,本實施例的評估網(wǎng)頁發(fā)布時間的裝置500的各功能模塊的功能可根據(jù)上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可以參照上述方法實施例的相關(guān)描述,此處不再贅述。
[0106]可以看出,本實施例的評估網(wǎng)頁發(fā)布時間的裝置500通過分別提取從網(wǎng)頁中識別出的N個時間字符串中的每個時間字符串的M個參考特征;并按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,并將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。由于是從M個參考特征的角度,來分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,通過更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,相對于現(xiàn)有技術(shù),本實施例的機(jī)制有利于提聞網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0107]進(jìn)一步的,若M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,則由于是從ml個語義特征和/或m2個結(jié)構(gòu)特征的角度,分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,這就有利于進(jìn)一步提聞網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0108]參見圖6,本發(fā)明實施例提供一種計算節(jié)點600,可包括:
[0109]處理器610、存儲器620、輸入裝置630和輸出裝置640。計算節(jié)點600中的處理器610的數(shù)量可以一個或多個,圖6中以一個處理器為例。在本發(fā)明的一些實施例中,處理器610、存儲器620、輸入裝置630和輸出裝置640可通過總線或其它方式連接,其中,圖6中以通過總線連接為例。
[0110]存儲器620可用于存儲軟件程序以及模塊,處理器610通過運行存儲在存儲器620的軟件程序以及模塊,從而執(zhí)行計算節(jié)點600的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器620可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)計算節(jié)點的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲器620可以包括高速隨機(jī)存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。輸入裝置630可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與計算節(jié)點600的用戶設(shè)置以及功能控制有關(guān)的鍵信號輸入。輸入裝置640可包括顯示屏等顯示設(shè)備。
[0111]其中,處理器610可執(zhí)行如下步驟:識別網(wǎng)頁包含的N個時間字符串;分別提取上述N個時間字符串中的每個時間字符串的M個參考特征;按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0112]在本發(fā)明一些實施例中,上述M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,上述N為大于I的正整數(shù),上述M為正整數(shù),上述ml和上述m2為小于或等于上述M的正整數(shù)。
[0113]在本發(fā)明一些實施例中,處理器610識別網(wǎng)頁包含的N個時間字符串可以包括:構(gòu)建網(wǎng)頁對應(yīng)的Dom樹;從構(gòu)建出的上述Dom樹中識別上述網(wǎng)頁包含的N個時間字符串。
[0114]在本發(fā)明的一些實施例中,處理器610按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分,可以包括:分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度(可以理解的是,M個標(biāo)準(zhǔn)參考特征和M個參考特征的類型是一一對應(yīng)的關(guān)系,因此,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,即,分別計算出M個標(biāo)準(zhǔn)參考特征中的每個標(biāo)準(zhǔn)參考特征,與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征之中與該每個標(biāo)準(zhǔn)參考特征的類型相同的參考特征之間的匹配度),將計算得到的匹配度所對應(yīng)的分值作為對應(yīng)參考特征的得分。可以理解的是,匹配度越高,表示對應(yīng)參考特征和標(biāo)準(zhǔn)參考特征之間越近似,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。
[0115]可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,則對應(yīng)參考特征得分就可能越高,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0116]在本發(fā)明的一些實施例中,例如處理器610可以利用分類器,分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的上述N個時間字符串中的每個時間字符串的M個參考特征的匹配度。
[0117]在本發(fā)明的另一些實施例中,處理器610按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分可包括:基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串之中的每個時間字符串的M個參考特征的得分。當(dāng)然,還可基于其它方式來按照預(yù)設(shè)的評分規(guī)則,分別對上述N個時間字符串中的每個時間字符串的M個參考特征進(jìn)行評分。其中,在本發(fā)明的一些實施例中,例如可以利用分類器基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到上述N個時間字符串中的每個時間字符串的M個參考特征的得分??梢岳斫獾氖?,在參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高則對應(yīng)參考特征得分就可能越高,也就表示從這個方面來看,對應(yīng)時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間。其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。如此,N個時間字符串之中,總得分越高的時間字符串所描述的時間越有可能是網(wǎng)頁的真實發(fā)布時間,而N個時間字符串之中總得分越低的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。反之,如果在參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高則表示對應(yīng)參考特征的得分就可能越低,其中,時間字符串的M個參考特征的總得分可等于各參考特征得分求積或加權(quán)求積或求和或加權(quán)求和等,其中,對于求積或加權(quán)求積的情況,以每個參考特征得分大于或等于O為例。這樣,N個時間字符串之中,總得分越低的時間字符串所描述的時間就越有可能是網(wǎng)頁的真實發(fā)布時間,N個時間字符串之中總得分越高的時間字符串所描述的時間越不可能是網(wǎng)頁的真實發(fā)布時間。按照其它打分規(guī)則對時間字符串的M個標(biāo)準(zhǔn)參考特征之中的每個參考特征進(jìn)行打分的場景以此類推。
[0118]在本發(fā)明的一些實施例中,上述分類器通過向量機(jī)訓(xùn)練方法得到、或者上述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者上述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到、當(dāng)然上述分類器亦可通過其它方式訓(xùn)練得到。
[0119]其中,利用分類器可綜合時間字符串的結(jié)構(gòu)特征和語義特征,進(jìn)而有利于從候選的N個時間字符串中選出最可能是描述網(wǎng)頁真實發(fā)布時間的哪個時間字符串來。進(jìn)一步的,還可利用總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串作為反饋樣本,繼續(xù)對分類器進(jìn)行訓(xùn)練。
[0120]可以理解,若總得分越高表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越高,則可得到的總得分最高的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。反之,若總得分越低表示對應(yīng)時間字符串所描述的時間為網(wǎng)頁真實發(fā)布時間的可能性越搞,則可得到的總得分最低的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。
[0121]在本發(fā)明的一些實施例中,上述ml個語義特征例如可包括如下特征的至少I個:時間字符串所處塊的塊類型(其中,該塊類型可為正文塊、標(biāo)題塊或附屬塊)、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字(即時間字符串周圍設(shè)定長度范圍之內(nèi)的文本之中所包含的正向關(guān)鍵字和/或反向關(guān)鍵字)、時間字符串與網(wǎng)頁標(biāo)題的距尚。例如,從時間字符串所處塊的塊類型方面看,若時間字符串所處塊的塊類型為網(wǎng)頁標(biāo)題,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常大于該時間字符串所處塊的塊類型為正文的情況,而若時間字符串所處塊的塊類型為附屬塊(例如記錄引文出處的塊等等),則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性通常小于該時間字符串所處塊的塊類型為正文的情況。又例如,若從時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字的方面來看,時間字符串周圍所環(huán)繞文本中包含的正向關(guān)鍵字越多、各正向關(guān)鍵字的正向關(guān)鍵程度越高、反向關(guān)鍵字?jǐn)?shù)量越少、各反向關(guān)鍵字的反向關(guān)鍵程度越低,則該時間字符串所描述的時間為網(wǎng)頁真實的發(fā)布時間的可能性也就越高;反之,時間字符串周圍所環(huán)繞文本中包含的越多正向關(guān)鍵字越少,各正向關(guān)鍵字的正向關(guān)鍵程度越低、反向關(guān)鍵字?jǐn)?shù)量越多、各反向關(guān)鍵字的反向關(guān)鍵程度越高,表示該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越低。又舉例來說,若從時間字符串與網(wǎng)頁標(biāo)題的距離的方面來看,時間字符串距離網(wǎng)頁標(biāo)題越近,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,時間字符串距離網(wǎng)頁標(biāo)題越遠(yuǎn),該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。當(dāng)然,ml個語義特征中還可能包括其它可用于參考的語義特征,此處不再一一舉例。
[0122]在本發(fā)明的一些實施例中,上述m2個結(jié)構(gòu)特征例如可包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素(時間要素例如年、月、日、時、分、秒等)之間的分隔符的類型、時間字符串的串長度。舉例來說,若從時間字符串所描述時間的精確度的方面來看,時間字符串所描述時間的精確度越高,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越大,反之,若時間字符串所描述時間的精確度越低,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串的串長度的方面來看,時間字符串的串長度越長,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性就越大,時間字符串的串長度越短,該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性也就越小。又例如,若從時間字符串中的各時間要素之間的分隔符的類型的方面來看,若時間字符串中的時間要素之間的分隔符的類型為漢字,則該時間字符串所描述時間為網(wǎng)頁真實發(fā)布時間的可能性,通常大于該時間字符串的時間要素之間的分隔符的類型為字符的情況。當(dāng)然,m2個結(jié)構(gòu)特征中還可能包括其它可用于參考的結(jié)構(gòu)特征,此處不再一一舉例。
[0123]其中,計算節(jié)點600可以是服務(wù)器(例如網(wǎng)站服務(wù)器或搜索服務(wù)器等)或個人計算機(jī)等。
[0124]可以看出,本實施例的計算節(jié)點600通過分別提取從網(wǎng)頁中識別出的N個時間字符串中的每個時間字符串的M個參考特征;并按照預(yù)設(shè)的評分規(guī)則對上述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到上述N個時間字符串中的每個時間字符串的M個參考特征的總得分,并將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間。由于是從M個參考特征的角度,來分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,通過更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,相對于現(xiàn)有技術(shù),本實施例的機(jī)制有利于提高網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0125]進(jìn)一步的,若M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,則由于是從ml個語義特征和/或m2個結(jié)構(gòu)特征的角度,分別對提取的N個時間字符串進(jìn)行評分,將得到的總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,更多方面因素綜合考慮來估計那個時間字符串所描述的時間作為上述網(wǎng)頁的發(fā)布時間,這就有利于進(jìn)一步提聞網(wǎng)頁主體內(nèi)容的發(fā)布時間的估計準(zhǔn)確度。
[0126]本發(fā)明實施例還提供一種計算機(jī)存儲介質(zhì),其中,該計算機(jī)存儲介質(zhì)可存儲有程序,該程序執(zhí)行時包括上述方法實施例中記載的評估網(wǎng)頁發(fā)布時間的方法的部分或全部步驟。
[0127]需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
[0128]在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
[0129]在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
[0130]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
[0131]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
[0132]所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可為個人計算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM, Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0133]以上所述,以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
【權(quán)利要求】
1.一種評估網(wǎng)頁發(fā)布時間的方法,其特征在于,包括: 識別網(wǎng)頁包含的N個時間字符串; 分別提取所述N個時間字符串中的每個時間字符串的M個參考特征; 按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到所述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為所述網(wǎng)頁的發(fā)布時間,其中,所述N為大于I的正整數(shù),所述M為正整數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,包括:分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,將計算得到的匹配度所對應(yīng)的分值作為對應(yīng)參考特征的得分。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,包括: 基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于, 所述分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,包括:利用分類器分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于, 所述基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分,包括:利用分類器基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述分類器通過向量機(jī)訓(xùn)練方法得至IJ、或者所述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者所述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到。
7.根據(jù)權(quán)利要求1至5任意一項所述的方法,其特征在于,所述識別網(wǎng)頁包含的N個時間字符串包括:構(gòu)建網(wǎng)頁對應(yīng)的Dom樹;從所述Dom樹中識別所述網(wǎng)頁包含的N個時間字符串O
8.根據(jù)權(quán)利要求1至5任意一項所述的方法,所述M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,所述ml和所述m2為小于或等于所述M的正整數(shù)。
9.根據(jù)權(quán)利要求8所述的方法,所述ml個語義特征包括如下特征的至少I個:時間字符串所處塊的塊類型、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字、時間字符串與網(wǎng)頁標(biāo)題的距離。
10.根據(jù)權(quán)利要求8所述的方法,所述m2個結(jié)構(gòu)特征包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素之間的分隔符的類型、時間字符串的串長度。
11.一種評估網(wǎng)頁發(fā)布時間的裝置,其特征在于,包括: 識別單元,用于識別網(wǎng)頁包含的N個時間字符串; 特征提取單元,用于分別提取所述N個時間字符串中的每個時間字符串的M個參考特征; 評估單元,用于按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分,并得到所述N個時間字符串中的每個時間字符串的M個參考特征的總得分,將總得分符合預(yù)設(shè)得分條件的對應(yīng)時間字符串所描述的時間作為所述網(wǎng)頁的發(fā)布時間,其中,所述N為大于I的正整數(shù),所述M為正整數(shù)。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于, 在所述按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分的方面,所述評估單元具體用于:基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于, 在所述按照預(yù)設(shè)的評分規(guī)則,對所述N個時間字符串中的每個時間字符串的M個參考特征分別進(jìn)行評分的方面,所述評估單元具體用于:分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度,將計算得到的匹配度所對應(yīng)的分值作為對應(yīng)參考特征的得分。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,在所述分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度的方面,所述評估單元具體用于:利用分類器分別計算出M個標(biāo)準(zhǔn)參考特征與提取到的所述N個時間字符串中的每個時間字符串的M個參考特征的匹配度。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,在所述基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分的方面,所述評估單元具體用于:利用分類器基于參考特征與分值之間的預(yù)設(shè)對應(yīng)關(guān)系,分別得到所述N個時間字符串中的每個時間字符串的M個參考特征的得分。
16.根據(jù)權(quán)利要求14或15所述的裝置,其特征在于,所述分類器通過向量機(jī)訓(xùn)練方法得到、或者所述分類器通過樸素貝葉斯訓(xùn)練方法得到、或者所述分類器通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到。
17.根據(jù)權(quán)利要求11至15任意一項所述的裝置,其特征在于,所述識別單元具體用于:構(gòu)建網(wǎng)頁對應(yīng)的Dom樹;從所述Dom樹中識別所述網(wǎng)頁包含的N個時間字符串。
18.根據(jù)權(quán)利要求11至15任意一項所述的裝置,所述M個參考特征包括ml個語義特征和/或m2個結(jié)構(gòu)特征,所述ml和所述m2為小于或等于所述M的正整數(shù)。
19.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述ml個語義特征包括如下特征的至少I個:時間字符串所處塊的塊類型、時間字符串周圍所環(huán)繞文本中包含的關(guān)鍵字、時間字符串與網(wǎng)頁標(biāo)題的距離。
20.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述m2個結(jié)構(gòu)特征包括如下特征的至少I個:時間字符串所描述時間的精確度、時間字符串中的各時間要素之間的分隔符的類型、時間字符串的串長度。
【文檔編號】G06F17/30GK104462151SQ201310442755
【公開日】2015年3月25日 申請日期:2013年9月25日 優(yōu)先權(quán)日:2013年9月25日
【發(fā)明者】邵紀(jì)春 申請人:騰訊科技(深圳)有限公司