亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)及方法

文檔序號:6655078閱讀:227來源:國知局
專利名稱:從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明總的來說涉及與信息處理和信息抽取技術(shù),且更具體地,涉及用于從網(wǎng)頁中識別和抽取對象標(biāo)識符的系統(tǒng)及方法。
背景技術(shù)
在當(dāng)前的信息處理技術(shù)領(lǐng)域中,常常需要構(gòu)建對象數(shù)據(jù)庫,這就涉及要為對象生成和對象映射提供帶有層次結(jié)構(gòu)的對象標(biāo)識符,表示對象并建立索引。這里,需要處理的對象通常涉及互聯(lián)網(wǎng)上的網(wǎng)頁。現(xiàn)實(shí)世界中的對象都有其唯一的對象標(biāo)識符(即名字),當(dāng)然,也可以用其它別名或約定俗成的簡稱表示對象標(biāo)識符,比如,不同網(wǎng)頁中同一對象的名字不盡相同的現(xiàn)象普遍存在。而在同一網(wǎng)頁中,對同一對象的表示通常是一致的。為實(shí)現(xiàn)對象數(shù)據(jù)庫的建立以及對象映射,對象應(yīng)當(dāng)具有唯一且一致的·對象標(biāo)識符,這里該對象標(biāo)識符可以是不完整的。對象的名字可以標(biāo)識產(chǎn)品對象,但只用名字來表示對象可能帶來歧義,因?yàn)橛袝r多個產(chǎn)品的名字可能會非常相似,此時就需要一些輔助信息來幫助標(biāo)識產(chǎn)品對象。因此,用來表示產(chǎn)品對象的名字以及這類輔助信息通常被稱為對象標(biāo)識符相關(guān)信息,且該對象標(biāo)識符相關(guān)信息會被包含在網(wǎng)頁中。在“Web page title extraction and its application, Yewei Xue,Yunhua Hu. Information Processing & Management, Vol.43, No. 5. September 2007,PP. 1332-1347”中,公開了一種網(wǎng)頁標(biāo)題抽取及其應(yīng)用的技術(shù)。在上述文獻(xiàn)當(dāng)中,使用了監(jiān)督學(xué)習(xí)方法SVM和CRF從HTML文檔中抽取網(wǎng)頁標(biāo)題,其中,網(wǎng)頁標(biāo)題的抽取采用的特征為基于DOM樹和基于視覺信息的。此外,在“US6910004 B2 Method and computer system for part-of-speechtagging of incomplete sentences,Xerox”中,公開了一種計(jì)算機(jī)實(shí)現(xiàn)的不完整語句的詞性標(biāo)注方法和系統(tǒng)。在上述文獻(xiàn)當(dāng)中,提供了一種使用標(biāo)識符和人工上下文信息來對短語進(jìn)行詞性標(biāo)注的方法,其中的短語為詞語的集合。另外,在 “Namelt !Extraction of product names, Gerhard Friedrich,Kostyantyn Shchekotykhin. Sixth IEEE International Conference on Data Mining-Workshops ICDMT 06”中公開了一種抽取產(chǎn)品名的技術(shù)。在上述文獻(xiàn)當(dāng)中,主要提供了從網(wǎng)頁中獲取產(chǎn)品名的方法,其首先從網(wǎng)頁的“ TITLE ”標(biāo)簽和“ A”標(biāo)簽中的內(nèi)容中提取產(chǎn)品名信息,然后移除兩種噪聲網(wǎng)站相關(guān)噪聲和產(chǎn)品特征相關(guān)噪聲,之后經(jīng)過聚類整合為產(chǎn)
P Ay
ρπ-α ο但是,以上涉及的現(xiàn)有技術(shù)主要具有以下缺點(diǎn)首先,在上述文獻(xiàn)中公開的網(wǎng)頁標(biāo)題或者產(chǎn)品名的抽取方法中,僅采用DOM樹和視覺信息的特征可能不能夠滿足抽取對象標(biāo)識符相關(guān)信息的精度。并且,對于上述抽取出的對象標(biāo)識符相關(guān)信息,還需要進(jìn)行進(jìn)一步的噪聲清除和標(biāo)識符單元標(biāo)注處理來得到對象標(biāo)識符。綜上所述,實(shí)際上網(wǎng)頁中對象標(biāo)識符的抽取所涉及的是對象標(biāo)識符如何定義的問題,以及定義之后,如何識別出對象標(biāo)識符的問題。理想情況下,網(wǎng)頁的標(biāo)題即為其所談?wù)摰膶ο蟮臉?biāo)識符。而實(shí)際情況中,標(biāo)題可能含有部分對象標(biāo)識符相關(guān)信息,需要進(jìn)行噪聲清除和單元標(biāo)注等后續(xù)處理才能得到對象標(biāo)識符。并且,單一網(wǎng)頁提供的對象標(biāo)識符相關(guān)信息不夠全面,需要對來自多網(wǎng)頁的對象標(biāo)識符相關(guān)信息進(jìn)行整合以得到對象標(biāo)識符。因此,針對上述現(xiàn)有技術(shù)中的問題,需要提供一種從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)及方法,能夠提高從網(wǎng)頁中抽取對象標(biāo)識符相關(guān)信息的精度,并且能夠有效地對抽取出的對象標(biāo)識符相關(guān)信息進(jìn)行噪聲清除和單元標(biāo)注等后續(xù)處理,以便得到構(gòu)建對象數(shù)據(jù)庫所需的對象標(biāo)識符。

發(fā)明內(nèi)容
因此,本發(fā)明的目的是解決上述現(xiàn)有技術(shù)中的一個或多個問題和缺點(diǎn)。本發(fā)明的目的是提供了從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)和方法,其能夠基于對象 標(biāo)識符相關(guān)信息中每個單詞的位置信息或內(nèi)容信息或其兩者,對抽取出的對象標(biāo)識符相關(guān)信息進(jìn)行噪聲清除處理,以獲得滿足構(gòu)建對象數(shù)據(jù)庫的需求的標(biāo)識符片段。本發(fā)明的目的還在于提供了從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)和方法,其能夠基于詞頻和互信息的方法將抽取出的標(biāo)識符片段標(biāo)注為4-單元鏈,以滿足構(gòu)建對象數(shù)據(jù)庫的需求。本發(fā)明的目的還在于提供了從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)和方法,其能夠不僅采用了 DOM樹和視覺信息的特征,還通過對內(nèi)容信息的判斷來從網(wǎng)頁中抽取包含對象標(biāo)識符相關(guān)信息的標(biāo)識符塊,從而提高了對象標(biāo)識符相關(guān)信息的抽取精度。根據(jù)本發(fā)明的一個方面,提供了從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng),其中,所述網(wǎng)頁包含表示所述對象標(biāo)識符的各種信息的對象標(biāo)識符相關(guān)信息,所述系統(tǒng)包括標(biāo)識符塊識別模塊,用于從網(wǎng)頁中識別標(biāo)識符塊,所述標(biāo)識符塊是包含所述對象標(biāo)識符相關(guān)信息的一段文本;標(biāo)識符片段抽取模塊,與所述標(biāo)識符塊識別模塊連接,用于根據(jù)所述標(biāo)識符塊識別模塊識別出的標(biāo)識符塊中每個單詞的位置信息和內(nèi)容信息的至少其中之一,來從所述標(biāo)識符塊中移除無用信息,以得到標(biāo)識符片段;以及標(biāo)識符單元標(biāo)注模塊,與所述標(biāo)識符片段抽取模塊連接,用于將所述標(biāo)識符片段抽取模塊抽取出的標(biāo)識符片段標(biāo)注為適于構(gòu)建對象數(shù)據(jù)庫的對象標(biāo)識符。上述系統(tǒng)進(jìn)一步包括缺失單元補(bǔ)充模塊,與所述標(biāo)識符片段抽取模塊和所述標(biāo)識符單元標(biāo)注模塊連接,用于將所述標(biāo)識符片段抽取模塊從多個網(wǎng)頁中抽取的標(biāo)識符片段進(jìn)行整合以形成整合后的標(biāo)識符片段,并將所述整合后的標(biāo)識符片段輸出到所述標(biāo)識符單元標(biāo)注模塊以由所述標(biāo)識符單元標(biāo)注模塊標(biāo)注為適于構(gòu)建對象數(shù)據(jù)庫的對象標(biāo)識符。上述系統(tǒng)進(jìn)一步包括標(biāo)識符匹配模塊,與所述標(biāo)識符單元標(biāo)注模塊連接,用于根據(jù)所述標(biāo)識符單元標(biāo)注模塊標(biāo)注出的對象標(biāo)識符識別出表示同一產(chǎn)品對象的對象標(biāo)識符。在上述系統(tǒng)中,所述標(biāo)識符塊識別模塊包括網(wǎng)頁處理單元,用于處理網(wǎng)頁以得到DOM樹和視覺信息;視覺信息計(jì)算單元,與所述網(wǎng)頁處理單元連接,用于根據(jù)DOM中的每個節(jié)點(diǎn)的視覺信息來計(jì)算所述節(jié)點(diǎn)的權(quán)重;結(jié)構(gòu)信息計(jì)算單元,與所述網(wǎng)頁處理單元連接,用于根據(jù)DOM中的每個節(jié)點(diǎn)的結(jié)構(gòu)信息來計(jì)算所述節(jié)點(diǎn)的權(quán)重;內(nèi)容信息計(jì)算單元,與所述網(wǎng)頁處理單元連接,用于根據(jù)DOM中的每個節(jié)點(diǎn)的內(nèi)容信息來計(jì)算所述節(jié)點(diǎn)的權(quán)重;以及加權(quán)選擇單元,與所述視覺信息計(jì)算單元、所述結(jié)構(gòu)信息計(jì)算單元和所述內(nèi)容信息計(jì)算單元連接,用于根據(jù)由所述視覺信息計(jì)算單元、所述結(jié)構(gòu)信息計(jì)算單元和所述內(nèi)容信息計(jì)算單元對DOM樹中的每個節(jié)點(diǎn)所計(jì)算的權(quán)重,來選擇權(quán)重較高的節(jié)點(diǎn)作為所述標(biāo)識符塊。在上述系統(tǒng)中,所述視覺信息計(jì)算單元用于對于擁有相同橫坐標(biāo)或者相同縱坐標(biāo)的不可能為標(biāo)識符塊的節(jié)點(diǎn),給予較小的權(quán)重;使用二維的高斯函數(shù)評價文本節(jié)點(diǎn)在網(wǎng)頁中的位置H(U,V) = e_J°(M,V) /2σ D(u,V)=各-W0 )2 +(V-V0)2
,
權(quán)利要求
1.一種從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng),其中,所述網(wǎng)頁包含表示所述對象標(biāo)識符的各種信息的對象標(biāo)識符相關(guān)信息,所述系統(tǒng)包括 標(biāo)識符塊識別模塊,用于從網(wǎng)頁中識別標(biāo)識符塊,所述標(biāo)識符塊是包含所述對象標(biāo)識符相關(guān)信息的一段文本; 標(biāo)識符片段抽取模塊,與所述標(biāo)識符塊識別模塊連接,用于根據(jù)所述標(biāo)識符塊識別模塊識別出的標(biāo)識符塊中每個單詞的位置信息和內(nèi)容信息的至少其中之一,來從所述標(biāo)識符塊中移除無用信息,以得到標(biāo)識符片段;以及 標(biāo)識符單元標(biāo)注模塊,與所述標(biāo)識符片段抽取模塊連接,用于將所述標(biāo)識符片段抽取模塊抽取出的標(biāo)識符片段標(biāo)注為適于構(gòu)建對象數(shù)據(jù)庫的對象標(biāo)識符。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),進(jìn)一步包括 缺失單元補(bǔ)充模塊,與所述標(biāo)識符片段抽取模塊和所述標(biāo)識符單元標(biāo)注模塊連接,用于將所述標(biāo)識符片段抽取模塊從多個網(wǎng)頁中抽取出的標(biāo)識符片段進(jìn)行整合以形成整合后的標(biāo)識符片段,并將所述整合后的標(biāo)識符片段輸出到所述標(biāo)識符單元標(biāo)注模塊以由所述標(biāo)識符單元標(biāo)注模塊標(biāo)注為適于構(gòu)建對象數(shù)據(jù)庫的對象標(biāo)識符。
3.根據(jù)權(quán)利要求I所述的系統(tǒng),進(jìn)一步包括 標(biāo)識符匹配模塊,與所述標(biāo)識符單元標(biāo)注模塊連接,用于根據(jù)所述標(biāo)識符單元標(biāo)注模塊標(biāo)注出的對象標(biāo)識符識別出表示同一產(chǎn)品對象的對象標(biāo)識符。
4.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,所述標(biāo)識符塊識別模塊包括 網(wǎng)頁處理單元,用于處理網(wǎng)頁以得到DOM樹和視覺信息; 視覺信息計(jì)算單元,與所述網(wǎng)頁處理單元連接,用于根據(jù)DOM中的每個節(jié)點(diǎn)的視覺信息來計(jì)算所述節(jié)點(diǎn)的權(quán)重; 結(jié)構(gòu)信息計(jì)算單元,與所述網(wǎng)頁處理單元連接,用于根據(jù)DOM中的每個節(jié)點(diǎn)的結(jié)構(gòu)信息來計(jì)算所述節(jié)點(diǎn)的權(quán)重; 內(nèi)容信息計(jì)算單元,與所述網(wǎng)頁處理單元連接,用于根據(jù)DOM中的每個節(jié)點(diǎn)的內(nèi)容信息來計(jì)算所述節(jié)點(diǎn)的權(quán)重;以及 加權(quán)選擇單元,與所述視覺信息計(jì)算單元、所述結(jié)構(gòu)信息計(jì)算單元和所述內(nèi)容信息計(jì)算單元連接,用于根據(jù)由所述視覺信息計(jì)算單元、所述結(jié)構(gòu)信息計(jì)算單元和所述內(nèi)容信息計(jì)算單元對D OM樹中的每個節(jié)點(diǎn)所計(jì)算的權(quán)重,來選擇權(quán)重較高的節(jié)點(diǎn)作為所述標(biāo)識符塊。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,所述內(nèi)容信息計(jì)算單元用于 以如下公式計(jì)算節(jié)點(diǎn)內(nèi)容與“TITLE”標(biāo)簽文本內(nèi)容的相似度, sim (e,etitle) = | {wk | wk e e & wk e etitlJ / (log (| e |)+log (| etitle |)), 其中e表示節(jié)點(diǎn)的內(nèi)容,etitle表示“TITLE”標(biāo)簽的內(nèi)容,w代表節(jié)點(diǎn)中的一個單詞;如果所述網(wǎng)頁是產(chǎn)品規(guī)格說明頁面,則對節(jié)點(diǎn)中的每個單詞使用下列正則表達(dá)式進(jìn)行匹配“(
+ [A-z]+)+
*”, “([A-z] +
+) + [A-z]*,,, “(
+ [_] {0,1} [A-z] + [-] {O, I})+
*,,, “([A-z] + [_] {0,1}
+ [_] {0,1}) + [Α-ζ]*”,其中每個正則表達(dá)式表示電子產(chǎn)品的產(chǎn)品名所具有的普遍規(guī)律;以及 對節(jié)點(diǎn)中具有較高詞頻的單詞賦予較高的權(quán)重。
6.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,所述標(biāo)識符片段抽取模塊用于 判斷所述標(biāo)識符塊中的每個單詞是否出現(xiàn)在句首的大小為5的窗口中,如果是則單詞打分為I,否則打分為O; 判斷所述標(biāo)識符塊中的每個單詞是否可以在通用的字典中找到,如果是則單詞打分為O,否則打分為I ; 如果所述網(wǎng)頁是產(chǎn)品規(guī)格說明頁面,則判斷所述標(biāo)識符塊中的每個單詞是否匹配特定的正則表達(dá)式,如果是則單詞打分為1,否則打分為O,其中所述正則表達(dá)式表示電子產(chǎn)品的產(chǎn)品名所具有的普遍規(guī)律;以及 將所述標(biāo)識符塊中分?jǐn)?shù)超過兩個O分的單詞移除; 其中,所述標(biāo)識符塊中多組沒有被移除單詞分隔開的連續(xù)單詞將組成一系列標(biāo)識符單元,以形成標(biāo)識符片段。
7.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,所述標(biāo)識符單元標(biāo)注模塊用于 如果所述網(wǎng)頁是產(chǎn)品規(guī)格說明頁面,則將所述標(biāo)識符片段標(biāo)注為4-單元鏈,即,{類另U,生產(chǎn)商,產(chǎn)品名,屬性}。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述標(biāo)識符片段由一系列標(biāo)識符單元單元O,單元1,...,單元η組成,且所述標(biāo)識符單元標(biāo)注模塊用于 假設(shè)單元O是生產(chǎn)商單元,計(jì)算單元O和單元I之間的互信息如果互信息為O,則確定生產(chǎn)商單元為單元O,如果互信息為1,則確定生廠商單元為(單元O,單元I); 假設(shè)詞頻最高的單詞屬于產(chǎn)品名單元,計(jì)算單元I和單元k+Ι之間的互信息如果所述互信息小于某個閾值,則確定產(chǎn)品名單元為(單元1,單元2,...,單元k+Ι),其中O < k< 5 ;以及 確定屬性單元為(單元k+2, · · ·,單元η) ο
9.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,當(dāng)所述系統(tǒng)用于處理包含多個對象的對象標(biāo)識符相關(guān)信息的網(wǎng)頁時,進(jìn)一步包括 標(biāo)識符塊分類單元,與所述標(biāo)識符塊識別單元與所述標(biāo)識符片段抽取模塊連接,用于將所述標(biāo)識符塊識別單元識別出的多個對象的標(biāo)識符塊針對每一對象進(jìn)行分類,以用于由所述標(biāo)識符片段抽取模塊從與每一對象對應(yīng)的標(biāo)識符塊中抽取標(biāo)識符片段。
10.一種從網(wǎng)頁中抽取對象標(biāo)識符的方法,包括步驟 從網(wǎng)頁中識別標(biāo)識符塊,其中所述網(wǎng)頁包含表示所述對象標(biāo)識符的各種信息的對象標(biāo)識符相關(guān)信息,且所述標(biāo)識符塊是包含所述對象標(biāo)識符相關(guān)信息的一段文本; 根據(jù)所述識別出的標(biāo)識符塊中每個單詞的位置信息和內(nèi)容信息的至少其中之一,來從所述標(biāo)識符塊中移除無用信息,以得到標(biāo)識符片段;以及 將所述標(biāo)識符片段標(biāo)注為適于構(gòu)建對象數(shù)據(jù)庫的對象標(biāo)識符。
全文摘要
公開了從網(wǎng)頁中抽取對象標(biāo)識符的系統(tǒng)和方法。所述系統(tǒng)包括標(biāo)識符識別模塊,用于從網(wǎng)頁中識別標(biāo)識符塊,所述網(wǎng)頁包含表示對象標(biāo)識符的各種信息的對象標(biāo)識符相關(guān)信息,且標(biāo)識符塊是包含對象標(biāo)識符相關(guān)信息的一段文本;標(biāo)識符片段抽取模塊,與標(biāo)識符識別模塊連接,用于根據(jù)標(biāo)識符識別模塊識別出的標(biāo)識符塊中每個單詞的位置信息和內(nèi)容信息的至少其中之一,來從標(biāo)識符塊中移除無用信息,以得到標(biāo)識符片段;以及標(biāo)識符單元標(biāo)注模塊,與標(biāo)識符片段抽取模塊連接,用于將標(biāo)識符片段抽取模塊抽取出的標(biāo)識符片段標(biāo)注為適于構(gòu)建對象數(shù)據(jù)庫的對象標(biāo)識符。
文檔編號G06F17/30GK102722489SQ20111007836
公開日2012年10月10日 申請日期2011年3月30日 優(yōu)先權(quán)日2011年3月30日
發(fā)明者姜珊珊, 孫軍, 謝宣松, 趙立軍, 鄭繼川 申請人:株式會社理光
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1