網(wǎng)頁頁面信息的提取方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁頁面信息的提取方法和裝置。其中,網(wǎng)頁頁面信息的提取方法包括:獲取多個待提取網(wǎng)頁頁面的超文本標(biāo)記語言HTML代碼;根據(jù)HTML代碼對多個待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸屬類別;提取每個歸屬類別中的目標(biāo)塊元素,其中,目標(biāo)塊元素為同一歸屬類別中的不同待提取網(wǎng)頁頁面共有的塊元素;提取目標(biāo)塊元素中的文本,得到目標(biāo)塊元素的文本集合;計(jì)算文本集合的指標(biāo)值,其中,指標(biāo)值用于表示文本集合中的文本的差異程度;提取指標(biāo)值大于第一預(yù)設(shè)閾值的文本集合中的文本,得到網(wǎng)頁頁面信息。通過本發(fā)明,解決了現(xiàn)有技術(shù)中網(wǎng)頁信息提取準(zhǔn)確度低問題,進(jìn)而達(dá)到了提高網(wǎng)頁信息提取準(zhǔn)確性的效果。
【專利說明】網(wǎng)頁頁面信息的提取方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種網(wǎng)頁頁面信息的提取方法和裝置。
【背景技術(shù)】
[0002] 采集網(wǎng)頁信息是大數(shù)據(jù)分析的重要數(shù)據(jù)來源。目前采集網(wǎng)頁信息主要有兩種方 案,一種是使用基于規(guī)則的方法,使用正則表達(dá)式、Xpath或Css選擇器提取頁面元素,另一 種是基于統(tǒng)計(jì)的方法,通過機(jī)器學(xué)習(xí)人工標(biāo)注的數(shù)據(jù)得到訓(xùn)練模型,根據(jù)模型進(jìn)行信息提 取。
[0003] 基于規(guī)則的方法通過分析HTML(HyperTextMark-upLanguage,超文本標(biāo)記語言) 代碼,對待提取信息的左右邊界進(jìn)行分析,通過正則表達(dá)式或其它手段提取信息,或者通過 為頁面建立DOM(DocumentObjectModel,文件對象模型)樹,通過XPath或Css選擇器選 取網(wǎng)頁元素,進(jìn)而選取包含待提取信息的元素,從而實(shí)現(xiàn)信息提取。
[0004] 基于規(guī)則的提取方法,提取準(zhǔn)確,但是適用性差,往往只能針對一類頁面進(jìn)行信息 提取,頁面如果有變化會導(dǎo)致提取錯誤。
[0005] 基于統(tǒng)計(jì)的方法,通過機(jī)器學(xué)習(xí)的方法,對人工標(biāo)注的準(zhǔn)確結(jié)果進(jìn)行訓(xùn)練,得到訓(xùn) 練模型,通過訓(xùn)練模型進(jìn)行信息識別和提取。
[0006] 基于統(tǒng)計(jì)方法適用性好,可以用于各種網(wǎng)頁頁面,但是此種方法資源消耗大,對人 工標(biāo)注的依賴性強(qiáng),信息提取的質(zhì)量與人工標(biāo)注的質(zhì)量相關(guān)性強(qiáng)。準(zhǔn)確度不能完全保障, 基于訓(xùn)練的方法不是針對特定頁面的信息提取,對新的頁面可能會導(dǎo)致提取不全或提取失 敗。
[0007] 針對現(xiàn)有技術(shù)中網(wǎng)頁信息提取準(zhǔn)確度低的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的主要目的在于提供一種網(wǎng)頁頁面信息的提取方法和裝置,以解決現(xiàn)有技 術(shù)中網(wǎng)頁信息提取準(zhǔn)確度低的問題。
[0009] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種網(wǎng)頁頁面信息的 提取方法。
[0010] 根據(jù)本發(fā)明的網(wǎng)頁頁面信息的提取方法包括:獲取多個待提取網(wǎng)頁頁面的超文本 標(biāo)記語言HTML代碼;根據(jù)所述HTML代碼對多個所述待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸 屬類別;提取每個所述歸屬類別中的目標(biāo)塊元素,其中,所述目標(biāo)塊元素為同一所述歸屬類 別中的不同所述待提取網(wǎng)頁頁面共有的塊元素;提取所述目標(biāo)塊元素中的文本,得到所述 目標(biāo)塊元素的文本集合;計(jì)算所述文本集合的指標(biāo)值,其中,所述指標(biāo)值用于表示所述文本 集合中的文本的差異程度;以及提取所述指標(biāo)值大于第一預(yù)設(shè)閾值的所述文本集合中的文 本,得到所述網(wǎng)頁頁面信息。
[0011] 進(jìn)一步地,計(jì)算所述文本集合的指標(biāo)值包括:記錄所述文本集合中的每個不相同 的文本的出現(xiàn)次數(shù);根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù),確定所述文本集合中全部文 本的總出現(xiàn)次數(shù);根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù)和所述總出現(xiàn)次數(shù),計(jì)算每個所 述不相同的文本在所述文本集合中的出現(xiàn)頻率;以及根據(jù)每個所述不相同的文本在所述文 本集合中的所述出現(xiàn)頻率,確定所述文本集合的指標(biāo)值。
[0012] 進(jìn)一步地,根據(jù)每個所述不相同的文本在所述文本集合中的所述出現(xiàn)頻率,確定 所述文本集合的指標(biāo)值包括:按照公式& = 一計(jì)算所述 /=1 文本集合的指標(biāo)值,其中,Esrt為所述文本集合的指標(biāo)值,m為所述文本集合中包含所述不相 同的文本的個數(shù),PUexti)為每個所述不相同的文本在所述文本集合中的出現(xiàn)頻率。
[0013] 進(jìn)一步地,在提取所述指標(biāo)值大于第一預(yù)設(shè)閾值的所述文本集合中的文本,得到 所述網(wǎng)頁頁面信息之后,所述提取方法還包括:記錄所述文本的類別屬性。
[0014] 進(jìn)一步地,通過以下方式確定第一待提取網(wǎng)頁頁面和第二待提取頁面的歸屬類 另IJ,其中,所述第一待提取網(wǎng)頁頁面和所述第二待提取頁面為多個所述待提取頁面中的任 意兩個待提取網(wǎng)頁頁面:根據(jù)所述第一待提取網(wǎng)頁頁面的HTML代碼建立第一樹形結(jié)構(gòu),并 根據(jù)所述第二待提取網(wǎng)頁頁面的HTML代碼建立第二樹形結(jié)構(gòu);提取所述第一樹形結(jié)構(gòu)中 包含預(yù)設(shè)屬性的塊元素,得到第一塊元素,以及提取所述第二樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的 塊元素,得到第二塊元素;根據(jù)所述第一塊元素和所述第二塊元素,計(jì)算所述第一待提取網(wǎng) 頁頁面和所述第二待提取網(wǎng)頁頁面的相似度平均值;比較所述相似度平均值和第二預(yù)設(shè)閾 值的大?。灰约霸诒容^出所述相似度平均值大于所述第二預(yù)設(shè)閾值的情況下,確定所述第 一待提取網(wǎng)頁頁面和所述第二待提取頁面為相同歸屬類別,或在比較出所述相似度平均值 小于或等于所述第二預(yù)設(shè)閾值的情況下,確定所述第一待提取網(wǎng)頁頁面和所述第二待提取 頁面分別為不同的歸屬類別。
[0015] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種網(wǎng)頁頁面信息的 提取裝置。
[0016] 根據(jù)本發(fā)明的網(wǎng)頁頁面信息的提取裝置包括:獲取單元,用于獲取多個待提取網(wǎng) 頁頁面的超文本標(biāo)記語言HTML代碼;聚類單元,用于根據(jù)所述HTML代碼對多個所述待提取 網(wǎng)頁頁面進(jìn)行聚類,得到多個歸屬類別;第一提取單元,用于提取每個所述歸屬類別中的目 標(biāo)塊元素,其中,所述目標(biāo)塊元素為同一所述歸屬類別中的不同所述待提取網(wǎng)頁頁面共有 的塊元素;第二提取單元,用于提取所述目標(biāo)塊元素中的文本,得到所述目標(biāo)塊元素的文本 集合;第一計(jì)算單元,用于計(jì)算所述文本集合的指標(biāo)值,其中,所述指標(biāo)值用于表示所述文 本集合中的文本的差異程度;以及第三提取單元,用于提取所述指標(biāo)值大于第一預(yù)設(shè)閾值 的所述文本集合中的文本,得到所述網(wǎng)頁頁面信息。
[0017] 進(jìn)一步地,所述第一計(jì)算單元包括:記錄模塊,用于記錄所述文本集合中的每個不 相同的文本的出現(xiàn)次數(shù);第一確定模塊,用于根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù),確定 所述文本集合中全部文本的總出現(xiàn)次數(shù);計(jì)算模塊,用于根據(jù)每個所述不相同的文本的出 現(xiàn)次數(shù)和所述總出現(xiàn)次數(shù),計(jì)算每個所述不相同的文本在所述文本集合中的出現(xiàn)頻率;以 及第二確定模塊,用于根據(jù)每個所述不相同的文本在所述文本集合中的所述出現(xiàn)頻率,確 定所述文本集合的指標(biāo)值。
[0018] 進(jìn)一步地,所述第二確定模塊包括:計(jì)算子模塊,用于按照公式 m 心=-Σ 計(jì)算所述文本集合的指標(biāo)值,其中,Eset為所述文 /=1 本集合的指標(biāo)值,m為所述文本集合中包含所述不相同的文本的個數(shù),PUexti)為每個所述 不相同的文本在所述文本集合中的出現(xiàn)頻率。
[0019] 進(jìn)一步地,所述提取裝置還包括:記錄單元,用于在提取所述指標(biāo)值大于第一預(yù)設(shè) 閾值的所述文本集合中的文本,得到所述網(wǎng)頁頁面信息之后,記錄所述文本的類別屬性。
[0020] 進(jìn)一步地,所述提取裝置還包括:建立單元,用于根據(jù)第一待提取網(wǎng)頁頁面的 HTML代碼建立第一樹形結(jié)構(gòu),并根據(jù)第二待提取網(wǎng)頁頁面的HTML代碼建立第二樹形結(jié)構(gòu), 其中,所述第一待提取網(wǎng)頁頁面和所述第二待提取頁面為多個所述待提取頁面中的任意兩 個待提取網(wǎng)頁頁面:第四提取單元,用于提取所述第一樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素, 得到第一塊元素,以及提取所述第二樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第二塊元素; 第二計(jì)算單元,用于根據(jù)所述第一塊元素和所述第二塊元素,計(jì)算所述第一待提取網(wǎng)頁頁 面和所述第二待提取網(wǎng)頁頁面的相似度平均值;比較單元,用于比較所述相似度平均值和 第二預(yù)設(shè)閾值的大??;以及處理單元,用于在比較出所述相似度平均值大于所述第二預(yù)設(shè) 閾值的情況下,確定所述第一待提取網(wǎng)頁頁面和所述第二待提取頁面為相同歸屬類別,或 在比較出所述相似度平均值小于或等于所述第二預(yù)設(shè)閾值的情況下,確定所述第一待提取 網(wǎng)頁頁面和所述第二待提取頁面分別為不同的歸屬類別。
[0021] 根據(jù)發(fā)明實(shí)施例,采用獲取多個待提取網(wǎng)頁頁面的HTML代碼;根據(jù)所述HTML代碼 對多個所述待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸屬類別;提取每個所述歸屬類別中的目 標(biāo)塊元素,其中,所述目標(biāo)塊元素為同一所述歸屬類別中的不同所述待提取網(wǎng)頁頁面共有 的塊元素;提取所述目標(biāo)塊元素中的文本內(nèi)容,得到所述目標(biāo)塊元素的文本集合;計(jì)算所 述文本集合的指標(biāo)值,其中,所述指標(biāo)值用于表示所述文本集合中的文本的差異程度;以及 提取所述指標(biāo)值大于第一預(yù)設(shè)閾值的所述文本集合中的文本,得到所述網(wǎng)頁頁面信息。通 過獲取多個待提取網(wǎng)頁頁面的HTML代碼,可以實(shí)現(xiàn)對多個待提取網(wǎng)頁頁面歸屬類別的劃 分,進(jìn)而獲取同一歸屬類別下的不同待提取網(wǎng)頁頁面中共同包含的塊元素,可以實(shí)現(xiàn)對相 同塊元素中文本內(nèi)容的提取,然后可以根據(jù)獲取到的文本內(nèi)容的差異程度與預(yù)設(shè)閾值的比 較結(jié)果,確定該文本內(nèi)容是否為待提取網(wǎng)頁頁面中的需要提取的信息,解決了現(xiàn)有技術(shù)中 網(wǎng)頁信息提取準(zhǔn)確度低問題,進(jìn)而達(dá)到了提高網(wǎng)頁信息提取準(zhǔn)確性的效果。
【專利附圖】
【附圖說明】
[0022] 構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0023] 圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁頁面信息的提取方法的流程圖;以及
[0024] 圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁頁面信息的提取裝置的示意圖。
【具體實(shí)施方式】
[0025] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0026]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用 的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或 描述的那些以外的順序?qū)嵤4送?,術(shù)語"包括"和"具有"以及他們的任何變形,意圖在于 覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限 于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn) 品或設(shè)備固有的其它步驟或單元。
[0027] 實(shí)施例1
[0028] 根據(jù)本發(fā)明實(shí)施例,提供了一種可以用于實(shí)施本申請裝置實(shí)施例的方法實(shí)施例, 需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系 統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處 的順序執(zhí)行所示出或描述的步驟。
[0029] 根據(jù)本發(fā)明實(shí)施例,提供了一種網(wǎng)頁頁面信息的提取方法。圖1是根據(jù)本發(fā)明實(shí) 施例的網(wǎng)頁頁面信息的提取方法的流程圖,如圖1所示,該方法包括如下的步驟S102至步 驟Sl12 :
[0030]S102:獲取多個待提取網(wǎng)頁頁面的超文本標(biāo)記語言HTML代碼。具體地,可以同時 獲取多個待提取網(wǎng)頁頁面的HTML代碼,也可以依次一個一個的獲取每個待提取網(wǎng)頁頁面 的HTML代碼。
[0031]S104:根據(jù)HTML代碼對多個待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸屬類別,也就 是,根據(jù)獲取到的每個待提取網(wǎng)頁頁面的HTML代碼,對多個待提取網(wǎng)頁頁面進(jìn)行分類,將 多個待提取網(wǎng)頁頁面中相似的待提取網(wǎng)頁頁面歸為一個類別。需要說明的是,一個待提取 網(wǎng)頁頁面只能有一個歸屬類別。
[0032]S106:提取每個歸屬類別中的目標(biāo)塊元素,其中,目標(biāo)塊元素為同一歸屬類別中的 不同待提取網(wǎng)頁頁面共有的塊元素。具體地,目標(biāo)塊元素可以為一個,也可以為多個。在本 發(fā)明實(shí)施例中,目標(biāo)塊元素的具體數(shù)量是根據(jù)同一歸屬類別中不同待提取頁面共有的塊元 素的數(shù)量確定的。共有的塊元素是指該塊元素在同一歸屬類別中不同待提取頁面中的標(biāo)簽 名稱、屬性都相同的塊元素,此處的屬性為class屬性或者id屬性。例如:網(wǎng)頁頁面1、網(wǎng) 頁頁面2和網(wǎng)頁頁面3同屬于歸屬類別A,網(wǎng)頁頁面1、網(wǎng)頁頁面2和網(wǎng)頁頁面3中每個網(wǎng) 頁頁面中共同包含的塊元素有3個,分別是div[class= "menu"]、div[id="title" ]和 p[class= "content"],那么歸屬類別A中的目標(biāo)塊元素則為3個。
[0033]S108:提取目標(biāo)塊元素中的文本,得到目標(biāo)塊元素的文本集合。具體地,同一目標(biāo) 塊元素中包含多個文本,多個文本的集合即為該目標(biāo)塊元素的文本集合。如果目標(biāo)塊元素 為多個,那么提取每個目標(biāo)塊元素中的文本,得到每個目標(biāo)塊元素的文本集合。繼續(xù)采用上 述舉例說明,對于目標(biāo)塊元素div[id= "title"],得到的文本集合為{ "標(biāo)題1","標(biāo)題 2","標(biāo)題 3"}。
[0034] S110:計(jì)算文本集合的指標(biāo)值,其中,指標(biāo)值用于表示文本集合中的文本的差異程 度,即,計(jì)算目標(biāo)塊元素中文本差異程度,差異程度越大,說明該目標(biāo)塊元素中的文本中的 內(nèi)容差別越大。
[0035] S112:提取指標(biāo)值大于第一預(yù)設(shè)閾值的文本集合中的文本,得到網(wǎng)頁頁面信息,也 就是只有指標(biāo)值大于第一預(yù)設(shè)值的文本集合中的文本,才是需要在待提取網(wǎng)頁頁面中提取 的信息。具體地,第一預(yù)設(shè)值可以根據(jù)需求設(shè)置。
[0036] 在本發(fā)明實(shí)施例中,通過獲取多個待提取網(wǎng)頁頁面的HTML代碼,可以實(shí)現(xiàn)對多個 待提取網(wǎng)頁頁面歸屬類別的劃分,進(jìn)而獲取同一歸屬類別下的不同待提取網(wǎng)頁頁面中共同 包含的塊元素,可以實(shí)現(xiàn)對相同塊元素中文本內(nèi)容的提取,然后可以根據(jù)獲取到的文本內(nèi) 容的差異程度與預(yù)設(shè)閾值的比較結(jié)果,確定該文本內(nèi)容是否為待提取網(wǎng)頁頁面中的需要提 取的信息,解決了現(xiàn)有技術(shù)中網(wǎng)頁信息提取準(zhǔn)確度低問題,進(jìn)而達(dá)到了提高網(wǎng)頁信息提取 準(zhǔn)確性的效果。
[0037] 需要說明的是,如果目標(biāo)塊元素的數(shù)量為多個,需要分別計(jì)算每個目標(biāo)塊元素的 文本集合的指標(biāo)值,并且將計(jì)算出的每個指標(biāo)值分別與第一預(yù)設(shè)閾值進(jìn)行比較,將指標(biāo)值 大于第一預(yù)設(shè)閾值的文本集合中的文本進(jìn)行提取。
[0038] 具體地,文本集合的指標(biāo)值可以通過步驟1-1至步驟1-4計(jì)算得出,步驟1-1至步 驟1-4具體如下:
[0039] 步驟1-1 :記錄文本集合中的每個不相同的文本的出現(xiàn)次數(shù)。由于文本集合中包 括多個文本,所以多個文本可能存在內(nèi)容相同的文本,在本發(fā)明實(shí)施例中,只統(tǒng)計(jì)相互之間 內(nèi)容不相同的文本在該文本集合中的出現(xiàn)次數(shù)。
[0040] 步驟1-2 :根據(jù)每個不相同的文本的出現(xiàn)次數(shù),確定文本集合中全部文本的總出 現(xiàn)次數(shù),具體地,該文本集合中全部文本的總出現(xiàn)次數(shù)等于所有不相同的文本的出現(xiàn)次數(shù) 之和。
[0041] 步驟1-3 :根據(jù)每個不相同的文本的出現(xiàn)次數(shù)和總出現(xiàn)次數(shù),計(jì)算每個不相同的 文本在文本集合中的出現(xiàn)頻率。例如,在該文本集合中有個與該文本集合中其他文本不同 的文本A,文本A在該文本集合中的出現(xiàn)次數(shù)為3次,該文本集合中全部文本的總出現(xiàn)次數(shù) 為30次,那么對于文本A而言,在上述文本集合中的出現(xiàn)頻率為1/10。
[0042] 步驟1-4 :根據(jù)每個不相同的文本在文本集合中的出現(xiàn)頻率,確定文本集合的指 標(biāo)值。
[0043] 如果目標(biāo)塊元素為多個,那么每個目標(biāo)塊元素的文本集合的指標(biāo)值都可以通過重 復(fù)執(zhí)行步驟1-1至步驟1-4計(jì)算得出。
[0044] 具體地,在本發(fā)明實(shí)施例中,根據(jù)每個不相同的文本在文本集合中的出現(xiàn)頻率,確 定文本集合的指標(biāo)值包括:按照公式& 計(jì)算文本集 /'-I 合的指標(biāo)值,其中,Esrt為文本集合的指標(biāo)值,m為文本集合中包含不相同的文本的個數(shù),p(texti)為每個不相同的文本在文本集合中的出現(xiàn)頻率。在本發(fā)明實(shí)施例中,計(jì)算文本集 合Esrt中將每個不相同的文本的出現(xiàn)頻率與該不相同的文本的出現(xiàn)頻率的對數(shù)相乘,將得 到的所有結(jié)果求和,再取負(fù)數(shù),就是該文本集合的指標(biāo)值。
[0045] 優(yōu)選地,在提取指標(biāo)值大于第一預(yù)設(shè)閾值的文本集合中的文本,得到網(wǎng)頁頁面信 息之后,本發(fā)明實(shí)施例所提供的網(wǎng)頁頁面信息的提取方法還包括記錄文本的類別屬性。具 體地,類別屬性可以是標(biāo)題、內(nèi)容等。本發(fā)明實(shí)施例也就是,記錄提取的文本內(nèi)容是標(biāo)題還 是內(nèi)容等。
[0046]在本發(fā)明實(shí)施例中,通過記錄提取的文本的類別屬性,方便在后續(xù)進(jìn)行大數(shù)據(jù)分 析時,用戶可以快速的篩選出所需的信息,達(dá)到了提高用戶滿意度的效果。例如,用戶想篩 選提取到的網(wǎng)頁信息中,內(nèi)容為標(biāo)題的信息,那么用戶只需選擇類別屬性為標(biāo)題,即可快速 的篩選出符合其要求的網(wǎng)頁信息。
[0047]本發(fā)明實(shí)施例還提供了一種確定待提取頁面的歸屬類別的具體方式,以第一待提 取網(wǎng)頁頁面和第二待提取頁面為多個待提取頁面中的任意兩個待提取網(wǎng)頁頁面為例,來說 明確定第一待提取網(wǎng)頁頁面和第二待提取頁面歸屬類別的方式,具體地,可以通過步驟2-1 至步驟2-5來確定第一待提取網(wǎng)頁頁面和第二待提取頁面的歸屬類別:
[0048] 步驟2-1:根據(jù)第一待提取網(wǎng)頁頁面的HTML代碼建立第一樹形結(jié)構(gòu),并根據(jù)第二 待提取網(wǎng)頁頁面的HTML代碼建立第二樹形結(jié)構(gòu)。
[0049] 步驟2-2:提取第一樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第一塊元素,以及提 取第二樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第二塊元素。具體地,預(yù)設(shè)屬性為class屬 性或者id屬性,本步驟也就是只提取第一待提取頁面的HTML代碼中包含class屬性或者 id屬性的塊元素,并只提取第二待提取頁面的HTML代碼中包含class屬性或者id屬性的 塊元素。
[0050] 步驟2-3:根據(jù)第一塊元素和第二塊元素,計(jì)算第一待提取網(wǎng)頁頁面和第二待提 取網(wǎng)頁頁面的相似度平均值。在本發(fā)明實(shí)施例中,可以按照公式V= 1/2(S1+S2)計(jì)算第一 待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面的相似度平均值,其中,V為相似度平均值,Sl為第 一待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面的第一相似度,S2為第一待提取網(wǎng)頁頁面和第二 m 待提取網(wǎng)頁頁面的第二相似度。具體地,可以按照公式M 計(jì)算第一相似度S1,其 0?。?1 中,Kp為第一待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面中相同的塊元素,ρ依次取1至m,m為 相同塊元素的個數(shù),Vikp為相同塊元素Kp在第一待提取網(wǎng)頁頁面中的出現(xiàn)頻次,Ktlk為第一 待提取網(wǎng)頁頁面中的第一塊元素,Nl為第一待提取網(wǎng)頁頁面中第一塊元素的個數(shù),匕。s為 m Σ 第一塊元素Ktlk在第一待提取網(wǎng)頁頁面中的出現(xiàn)頻次;按照公式= --計(jì)算第二相似 Σ氣 U=I 度S2,其中,V2kp為相同塊元素Kp在第二待提取網(wǎng)頁頁面中的出現(xiàn)頻次,Klk為第二待提取 網(wǎng)頁頁面中的第二塊元素,N2為第二待提取網(wǎng)頁頁面中第二塊元素的個數(shù),匕u為第二塊 元素Klk在第二待提取網(wǎng)頁頁面中的出現(xiàn)頻次。
[0051] 步驟2-4 :比較相似度平均值和第二預(yù)設(shè)閾值的大小。具體地,第二預(yù)設(shè)閾值也可 以根據(jù)需求設(shè)置。
[0052] 步驟2-5 :在比較出相似度平均值大于第二預(yù)設(shè)閾值的情況下,確定第一待提取 網(wǎng)頁頁面和第二待提取頁面為相同歸屬類別,或在比較出相似度平均值小于或等于第二預(yù) 設(shè)閾值的情況下,確定第一待提取網(wǎng)頁頁面和第二待提取頁面分別為不同的歸屬類別,本 步驟也就是,在判斷出相似度平均值大于第二預(yù)設(shè)閾值的情況下,第一待提取網(wǎng)頁頁面和 第二待提取頁面屬于同一歸屬類別;在判斷出相似度平均值小于或等于第二預(yù)設(shè)閾值的情 況下,第一待提取網(wǎng)頁頁面和第二待提取頁面分別屬于不同的歸屬類別。
[0053] 在本發(fā)明實(shí)施例中,可以將多個待提取頁面中的任意兩個網(wǎng)頁頁面分別當(dāng)做第一 待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面,并重復(fù)執(zhí)行步驟2-1至步驟2-5,直至確定出每個 待提取頁面的歸屬類別。需要說明的是,如果網(wǎng)頁頁面A和網(wǎng)頁頁面B屬于同一歸屬類別, 網(wǎng)頁頁面A和網(wǎng)頁頁面D也屬于同一歸屬類別,那么網(wǎng)頁頁面A、網(wǎng)頁頁面B和網(wǎng)頁頁面D 均屬于同一歸屬類別。當(dāng)兩個以上待提取網(wǎng)頁頁面屬于同一歸屬類別后,對于其他需要確 定歸屬類別的待提取網(wǎng)頁頁面,只要將該待提取網(wǎng)頁頁面與上述歸屬類別中的一個待提取 網(wǎng)頁頁面計(jì)算相似度平均值,并將得到的相似度平均值與第二預(yù)設(shè)閾值進(jìn)行比較,即可確 定該待提取網(wǎng)頁頁面是否屬于上述歸屬類別。
[0054] 需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列 的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)?依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知 悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明 所必須的。
[0055] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施 例的方法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多 情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有 技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個存儲 介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī),計(jì) 算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述的方法。
[0056] 實(shí)施例2
[0057] 根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述網(wǎng)頁頁面信息的提取方法的網(wǎng)頁 頁面信息的提取裝置,該提取裝置主要用于執(zhí)行本發(fā)明實(shí)施例上述內(nèi)容所提供的提取方 法,以下對本發(fā)明實(shí)施例所提供的網(wǎng)頁頁面信息的提取裝置做具體介紹:
[0058] 圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁頁面信息的提取裝置的示意圖,如圖2所示,該裝 置主要包括獲取單元10、聚類單元20、第一提取單元30、第二提取單元40、第一計(jì)算單元50 和第三提取單元60,其中:
[0059] 獲取單元10用于獲取多個待提取網(wǎng)頁頁面的超文本標(biāo)記語言HTML代碼。具體 地,可以同時獲取多個待提取網(wǎng)頁頁面的HTML代碼,也可以依次一個一個的獲取每個待提 取網(wǎng)頁頁面的HTML代碼。
[0060] 聚類單元20用于根據(jù)HTML代碼對多個待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸屬 類別,也就是,根據(jù)獲取到的每個待提取網(wǎng)頁頁面的HTML代碼,對多個待提取網(wǎng)頁頁面進(jìn) 行分類,將多個待提取網(wǎng)頁頁面中相似的待提取網(wǎng)頁頁面歸為一個類別。需要說明的是,一 個待提取網(wǎng)頁頁面只能有一個歸屬類別。
[0061] 第一提取單元30用于提取每個歸屬類別中的目標(biāo)塊元素,其中,目標(biāo)塊元素為同 一歸屬類別中的不同待提取網(wǎng)頁頁面共有的塊元素。具體地,目標(biāo)塊元素可以為一個,也可 以為多個。在本發(fā)明實(shí)施例中,目標(biāo)塊元素的具體數(shù)量是根據(jù)同一歸屬類別中不同待提取 頁面共有的塊元素的數(shù)量確定的。共有的塊元素是指該塊元素在同一歸屬類別中不同待提 取頁面中的標(biāo)簽名稱、屬性都相同的塊元素,此處的屬性為class屬性或者id屬性。例如: 網(wǎng)頁頁面1、網(wǎng)頁頁面2和網(wǎng)頁頁面3同屬于歸屬類別A,網(wǎng)頁頁面1、網(wǎng)頁頁面2和網(wǎng)頁頁 面3中每個網(wǎng)頁頁面中共同包含的塊元素有3個,分別是div[class= "menu"]、div[id= "title"]和p[claSS = "content"],那么歸屬類別A中的目標(biāo)塊元素則為3個。
[0062] 第二提取單元40用于提取目標(biāo)塊元素中的文本,得到目標(biāo)塊元素的文本集合。具 體地,同一目標(biāo)塊元素中包含多個文本,多個文本的集合即為該目標(biāo)塊元素的文本集合。如 果目標(biāo)塊元素為多個,那么提取每個目標(biāo)塊元素中的文本,得到每個目標(biāo)塊元素的文本集 合。繼續(xù)采用上述舉例說明,對于目標(biāo)塊元素虹鈄1(1=1^16"],得到的文本集合為{"標(biāo) 題1","標(biāo)題2","標(biāo)題3"}。
[0063] 第一計(jì)算單元50用于計(jì)算文本集合的指標(biāo)值,其中,指標(biāo)值用于表示文本集合中 的文本的差異程度,即,計(jì)算目標(biāo)塊元素中文本差異程度,差異程度越大,說明該目標(biāo)塊元 素中的文本中的內(nèi)容差別越大。
[0064] 第三提取單元60用于提取指標(biāo)值大于第一預(yù)設(shè)閾值的文本集合中的文本,得到 網(wǎng)頁頁面信息,也就是只有指標(biāo)值大于第一預(yù)設(shè)值的文本集合中的文本,才是需要在待提 取網(wǎng)頁頁面中提取的信息。具體地,第一預(yù)設(shè)值可以根據(jù)需求設(shè)置。
[0065] 在本發(fā)明實(shí)施例中,通過獲取多個待提取網(wǎng)頁頁面的HTML代碼,可以實(shí)現(xiàn)對多個 待提取網(wǎng)頁頁面歸屬類別的劃分,進(jìn)而獲取同一歸屬類別下的不同待提取網(wǎng)頁頁面中共同 包含的塊元素,可以實(shí)現(xiàn)對相同塊元素中文本內(nèi)容的提取,然后可以根據(jù)獲取到的文本內(nèi) 容的差異程度與預(yù)設(shè)閾值的比較結(jié)果,確定該文本內(nèi)容是否為待提取網(wǎng)頁頁面中的需要提 取的信息,解決了現(xiàn)有技術(shù)中網(wǎng)頁信息提取準(zhǔn)確度低問題,進(jìn)而達(dá)到了提高網(wǎng)頁信息提取 準(zhǔn)確性的效果。
[0066] 需要說明的是,如果目標(biāo)塊元素的數(shù)量為多個,需要分別計(jì)算每個目標(biāo)塊元素的 文本集合的指標(biāo)值,并且將計(jì)算出的每個指標(biāo)值分別與第一預(yù)設(shè)閾值進(jìn)行比較,將指標(biāo)值 大于第一預(yù)設(shè)閾值的文本集合中的文本進(jìn)行提取。
[0067]具體地,第一計(jì)算單元50包括記錄模塊、第一確定模塊、計(jì)算模塊和第二確定模 塊,其中:
[0068] 記錄模塊用于記錄文本集合中的每個不相同的文本的出現(xiàn)次數(shù)。由于文本集合中 包括多個文本,所以多個文本可能存在內(nèi)容相同的文本,在本發(fā)明實(shí)施例中,只統(tǒng)計(jì)相互之 間內(nèi)容不相同的文本在該文本集合中的出現(xiàn)次數(shù)。
[0069]第一確定模塊用于根據(jù)每個不相同的文本的出現(xiàn)次數(shù),確定文本集合中全部文本 的總出現(xiàn)次數(shù),具體地,該文本集合中全部文本的總出現(xiàn)次數(shù)等于所有不相同的文本的出 現(xiàn)次數(shù)之和。
[0070]計(jì)算模塊用于根據(jù)每個不相同的文本的出現(xiàn)次數(shù)和總出現(xiàn)次數(shù),計(jì)算每個不相同 的文本在文本集合中的出現(xiàn)頻率。例如,在該文本集合中有個與該文本集合中其他文本不 同的文本A,文本A在該文本集合中的出現(xiàn)次數(shù)為3次,該文本集合中全部文本的總出現(xiàn)次 數(shù)為30次,那么對于文本A而言,在上述文本集合中的出現(xiàn)頻率為1/10。
[0071] 第二確定模塊用于根據(jù)每個不相同的文本在文本集合中的出現(xiàn)頻率,確定文本集 合的指標(biāo)值。
[0072] 如果目標(biāo)塊元素為多個,那么每個目標(biāo)塊元素的文本集合的指標(biāo)值都可以通過重 復(fù)調(diào)用記錄模塊、第一確定模塊、計(jì)算模塊和第二確定模塊計(jì)算得出。
[0073] 具體地,第二確定模塊包括計(jì)算子模塊,計(jì)算子模塊用于按照公式 心=一Σ 計(jì)算文本集合的指標(biāo)值,其中,Eset為文本集合的 /=1 指標(biāo)值,m為文本集合中包含不相同的文本的個數(shù),PUexti)為每個不相同的文本在文本集 合中的出現(xiàn)頻率。在本發(fā)明實(shí)施例中,計(jì)算文本集合Esrt中將每個不相同的文本的出現(xiàn)頻 率與該不相同的文本的出現(xiàn)頻率的對數(shù)相乘,將得到的所有結(jié)果求和,再取負(fù)數(shù),就是該文 本集合的指標(biāo)值。
[0074] 優(yōu)選地,本發(fā)明實(shí)施例所提供的網(wǎng)頁頁面信息的提取裝置還包括記錄單元,記錄 單元用于在提取指標(biāo)值大于第一預(yù)設(shè)閾值的文本集合中的文本,得到網(wǎng)頁頁面信息之后, 記錄文本的類別屬性。具體地,類別屬性可以是標(biāo)題、內(nèi)容等。本發(fā)明實(shí)施例也就是,記錄 提取的文本內(nèi)容是標(biāo)題還是內(nèi)容等。
[0075] 在本發(fā)明實(shí)施例中,通過記錄提取的文本的類別屬性,方便在后續(xù)進(jìn)行大數(shù)據(jù)分 析時,用戶可以快速的篩選出所需的信息,達(dá)到了提高用戶滿意度的效果。例如,用戶想篩 選提取到的網(wǎng)頁信息中,內(nèi)容為標(biāo)題的信息,那么用戶只需選擇類別屬性為標(biāo)題,即可快速 的篩選出符合其要求的網(wǎng)頁信息。
[0076] 優(yōu)選地,本發(fā)明實(shí)施例還提供了一種確定待提取頁面的歸屬類別的具體方式,可 以通過網(wǎng)頁頁面信息的提取裝置所包括的建立單元、第四提取單元、第二計(jì)算單元、比較單 元和處理單元來執(zhí)行,其中 :
[0077] 建立單元用于根據(jù)第一待提取網(wǎng)頁頁面的HTML代碼建立第一樹形結(jié)構(gòu),并根據(jù) 第二待提取網(wǎng)頁頁面的HTML代碼建立第二樹形結(jié)構(gòu),其中,第一待提取網(wǎng)頁頁面和第二待 提取頁面為多個待提取頁面中的任意兩個待提取網(wǎng)頁頁面。
[0078] 第四提取單元用于提取第一樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第一塊元 素,以及提取第二樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第二塊元素。具體地,預(yù)設(shè)屬性 為class屬性或者id屬性,本單元也就是只提取第一待提取頁面的HTML代碼中包含class 屬性或者id屬性的塊元素,并只提取第二待提取頁面的HTML代碼中包含class屬性或者 id屬性的塊元素。
[0079] 第二計(jì)算單元用于根據(jù)第一塊元素和第二塊元素,計(jì)算第一待提取網(wǎng)頁頁面和第 二待提取網(wǎng)頁頁面的相似度平均值。在本發(fā)明實(shí)施例中,可以按照公式V= 1/2(S1+S2)計(jì) 算第一待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面的相似度平均值,其中,V為相似度平均值, Sl為第一待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面的第一相似度,S2為第一待提取網(wǎng)頁頁 τη Σ^/> 面和第二待提取網(wǎng)頁頁面的第二相似度。具體地,可以按照公式μ^計(jì)算第一相似 Σ^μ OAr=I 度S1,其中,Kp為第一待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面中相同的塊元素,P依次取1 至m,m為相同塊元素的個數(shù),Vikp為相同塊元素Kp在第一待提取網(wǎng)頁頁面中的出現(xiàn)頻次, Ktlk為第一待提取網(wǎng)頁頁面中的第一塊元素,Nl為第一待提取網(wǎng)頁頁面中第一塊元素的個 m 數(shù),匕M為第一塊元素Ktlk在第一待提取網(wǎng)頁頁面中的出現(xiàn)頻次;按照公式= ^--計(jì) Σ氣 Izt=I 算第二相似度S2,其中,V2kp為相同塊元素Kp在第二待提取網(wǎng)頁頁面中的出現(xiàn)頻次,Klk為第 二待提取網(wǎng)頁頁面中的第二塊元素,N2為第二待提取網(wǎng)頁頁面中第二塊元素的個數(shù),匕,t 為第二塊元素Klk在第二待提取網(wǎng)頁頁面中的出現(xiàn)頻次。
[0080] 比較單元用于比較相似度平均值和第二預(yù)設(shè)閾值的大小。具體地,第二預(yù)設(shè)閾值 也可以根據(jù)需求設(shè)置。
[0081] 處理單元用于在比較出相似度平均值大于第二預(yù)設(shè)閾值的情況下,確定第一待提 取網(wǎng)頁頁面和第二待提取頁面為相同歸屬類別,或在比較出相似度平均值小于或等于第二 預(yù)設(shè)閾值的情況下,確定第一待提取網(wǎng)頁頁面和第二待提取頁面分別為不同的歸屬類別, 本單元也就是,在判斷出相似度平均值大于第二預(yù)設(shè)閾值的情況下,第一待提取網(wǎng)頁頁面 和第二待提取頁面屬于同一歸屬類別;在判斷出相似度平均值小于或等于第二預(yù)設(shè)閾值的 情況下,第一待提取網(wǎng)頁頁面和第二待提取頁面分別屬于不同的歸屬類別。
[0082] 在本發(fā)明實(shí)施例中,可以將多個待提取頁面中的任意兩個網(wǎng)頁頁面分別當(dāng)做第一 待提取網(wǎng)頁頁面和第二待提取網(wǎng)頁頁面,并重復(fù)調(diào)用建立單元、第四提取單元、第二計(jì)算單 元、比較單元和處理單元,直至確定出每個待提取頁面的歸屬類別。需要說明的是,如果網(wǎng) 頁頁面A和網(wǎng)頁頁面B屬于同一歸屬類別,網(wǎng)頁頁面A和網(wǎng)頁頁面D也屬于同一歸屬類別, 那么網(wǎng)頁頁面A、網(wǎng)頁頁面B和網(wǎng)頁頁面D均屬于同一歸屬類別。當(dāng)兩個以上待提取網(wǎng)頁頁 面屬于同一歸屬類別后,對于其他需要確定歸屬類別的待提取網(wǎng)頁頁面,只要將該待提取 網(wǎng)頁頁面與上述歸屬類別中的一個待提取網(wǎng)頁頁面計(jì)算相似度平均值,并將得到的相似度 平均值與第二預(yù)設(shè)閾值進(jìn)行比較,即可確定該待提取網(wǎng)頁頁面是否屬于上述歸屬類別。 [0083] 從以上的描述中,可以看出,本發(fā)明解決了現(xiàn)有技術(shù)中網(wǎng)頁信息提取準(zhǔn)確度低問 題,達(dá)到了提高網(wǎng)頁信息提取準(zhǔn)確性的效果。
[0084] 上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0085] 在本發(fā)明的上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有 詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0086] 在本申請所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的客戶端,可通過其它的方 式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一 種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者 可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之 間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連 接,可以是電性或其它的形式。
[0087]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0088] 另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以 是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0089]所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用 時,可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上 或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式 體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī) 設(shè)備(可為個人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部 或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存 取存儲器(RAM,RandomAccessMemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代 碼的介質(zhì)。
[0090]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1. 一種網(wǎng)頁頁面信息的提取方法,其特征在于,包括: 獲取多個待提取網(wǎng)頁頁面的超文本標(biāo)記語言HTML代碼; 根據(jù)所述HTML代碼對多個所述待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸屬類別; 提取每個所述歸屬類別中的目標(biāo)塊元素,其中,所述目標(biāo)塊元素為同一所述歸屬類別 中的不同所述待提取網(wǎng)頁頁面共有的塊元素; 提取所述目標(biāo)塊元素中的文本,得到所述目標(biāo)塊元素的文本集合; 計(jì)算所述文本集合的指標(biāo)值,其中,所述指標(biāo)值用于表示所述文本集合中的文本的差 異程度;以及 提取所述指標(biāo)值大于第一預(yù)設(shè)閾值的所述文本集合中的文本,得到所述網(wǎng)頁頁面信 肩、。
2. 根據(jù)權(quán)利要求1所述的提取方法,其特征在于,計(jì)算所述文本集合的指標(biāo)值包括: 記錄所述文本集合中的每個不相同的文本的出現(xiàn)次數(shù); 根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù),確定所述文本集合中全部文本的總出現(xiàn)次 數(shù); 根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù)和所述總出現(xiàn)次數(shù),計(jì)算每個所述不相同的文 本在所述文本集合中的出現(xiàn)頻率;以及 根據(jù)每個所述不相同的文本在所述文本集合中的所述出現(xiàn)頻率,確定所述文本集合的 指標(biāo)值。
3. 根據(jù)權(quán)利要求2所述的提取方法,其特征在于,根據(jù)每個所述不相同的文本在所述 文本集合中的所述出現(xiàn)頻率,確定所述文本集合的指標(biāo)值包括:
中,ESrt為所述文本集合的指標(biāo)值,m為所述文本集合中包含所述不相同的文本的個數(shù),pUexti)為每個所述不相同的文本在所述文本集合中的出現(xiàn)頻率。
4. 根據(jù)權(quán)利要求1所述的提取方法,其特征在于,在提取所述指標(biāo)值大于第一預(yù)設(shè)閾 值的所述文本集合中的文本,得到所述網(wǎng)頁頁面信息之后,所述提取方法還包括: 記錄所述文本的類別屬性。
5. 根據(jù)權(quán)利要求1所述的提取方法,其特征在于,通過以下方式確定第一待提取網(wǎng)頁 頁面和第二待提取頁面的歸屬類別,其中,所述第一待提取網(wǎng)頁頁面和所述第二待提取頁 面為多個所述待提取頁面中的任意兩個待提取網(wǎng)頁頁面: 根據(jù)所述第一待提取網(wǎng)頁頁面的HTML代碼建立第一樹形結(jié)構(gòu),并根據(jù)所述第二待提 取網(wǎng)頁頁面的HTML代碼建立第二樹形結(jié)構(gòu); 提取所述第一樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第一塊元素,以及提取所述第 二樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第二塊元素; 根據(jù)所述第一塊元素和所述第二塊元素,計(jì)算所述第一待提取網(wǎng)頁頁面和所述第二待 提取網(wǎng)頁頁面的相似度平均值; 比較所述相似度平均值和第二預(yù)設(shè)閾值的大?。灰约? 在比較出所述相似度平均值大于所述第二預(yù)設(shè)閾值的情況下,確定所述第一待提取網(wǎng) 頁頁面和所述第二待提取頁面為相同歸屬類別,或在比較出所述相似度平均值小于或等于 所述第二預(yù)設(shè)閾值的情況下,確定所述第一待提取網(wǎng)頁頁面和所述第二待提取頁面分別為 不同的歸屬類別。
6. -種網(wǎng)頁頁面信息的提取裝置,其特征在于,包括: 獲取單元,用于獲取多個待提取網(wǎng)頁頁面的超文本標(biāo)記語言HTML代碼; 聚類單元,用于根據(jù)所述HTML代碼對多個所述待提取網(wǎng)頁頁面進(jìn)行聚類,得到多個歸 屬類別; 第一提取單元,用于提取每個所述歸屬類別中的目標(biāo)塊元素,其中,所述目標(biāo)塊元素為 同一所述歸屬類別中的不同所述待提取網(wǎng)頁頁面共有的塊元素; 第二提取單元,用于提取所述目標(biāo)塊元素中的文本,得到所述目標(biāo)塊元素的文本集 合; 第一計(jì)算單元,用于計(jì)算所述文本集合的指標(biāo)值,其中,所述指標(biāo)值用于表示所述文本 集合中的文本的差異程度;以及 第三提取單元,用于提取所述指標(biāo)值大于第一預(yù)設(shè)閾值的所述文本集合中的文本,得 到所述網(wǎng)頁頁面信息。
7. 根據(jù)權(quán)利要求6所述的提取裝置,其特征在于,所述第一計(jì)算單元包括: 記錄模塊,用于記錄所述文本集合中的每個不相同的文本的出現(xiàn)次數(shù); 第一確定模塊,用于根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù),確定所述文本集合中全 部文本的總出現(xiàn)次數(shù); 計(jì)算模塊,用于根據(jù)每個所述不相同的文本的出現(xiàn)次數(shù)和所述總出現(xiàn)次數(shù),計(jì)算每個 所述不相同的文本在所述文本集合中的出現(xiàn)頻率;以及 第二確定模塊,用于根據(jù)每個所述不相同的文本在所述文本集合中的所述出現(xiàn)頻率, 確定所述文本集合的指標(biāo)值。
8. 根據(jù)權(quán)利要求7所述的提取裝置,其特征在于,所述第二確定模塊包括:
合的指標(biāo)值,其中,ESrt為所述文本集合的指標(biāo)值,m為所述文本集合中包含所述不相同的文 本的個數(shù),pUexti)為每個所述不相同的文本在所述文本集合中的出現(xiàn)頻率。
9. 根據(jù)權(quán)利要求6所述的提取裝置,其特征在于,所述提取裝置還包括: 記錄單元,用于在提取所述指標(biāo)值大于第一預(yù)設(shè)閾值的所述文本集合中的文本,得到 所述網(wǎng)頁頁面信息之后,記錄所述文本的類別屬性。
10. 根據(jù)權(quán)利要求6所述的提取裝置,其特征在于,所述提取裝置還包括: 建立單元,用于根據(jù)第一待提取網(wǎng)頁頁面的HTML代碼建立第一樹形結(jié)構(gòu),并根據(jù)第二 待提取網(wǎng)頁頁面的HTML代碼建立第二樹形結(jié)構(gòu),其中,所述第一待提取網(wǎng)頁頁面和所述第 二待提取頁面為多個所述待提取頁面中的任意兩個待提取網(wǎng)頁頁面: 第四提取單元,用于提取所述第一樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第一塊元 素,以及提取所述第二樹形結(jié)構(gòu)中包含預(yù)設(shè)屬性的塊元素,得到第二塊元素; 第二計(jì)算單元,用于根據(jù)所述第一塊元素和所述第二塊元素,計(jì)算所述第一待提取網(wǎng) 頁頁面和所述第二待提取網(wǎng)頁頁面的相似度平均值; 比較單元,用于比較所述相似度平均值和第二預(yù)設(shè)閾值的大?。灰约?處理單元,用于在比較出所述相似度平均值大于所述第二預(yù)設(shè)閾值的情況下,確定所 述第一待提取網(wǎng)頁頁面和所述第二待提取頁面為相同歸屬類別,或在比較出所述相似度平 均值小于或等于所述第二預(yù)設(shè)閾值的情況下,確定所述第一待提取網(wǎng)頁頁面和所述第二待 提取頁面分別為不同的歸屬類別。
【文檔編號】G06F17/30GK104484451SQ201410830367
【公開日】2015年4月1日 申請日期:2014年12月25日 優(yōu)先權(quán)日:2014年12月25日
【發(fā)明者】侯明午 申請人:北京國雙科技有限公司