亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

從多語言網(wǎng)站構(gòu)建多語言的對象層次結(jié)構(gòu)的方法和系統(tǒng)的制作方法

文檔序號:6576961閱讀:351來源:國知局
專利名稱:從多語言網(wǎng)站構(gòu)建多語言的對象層次結(jié)構(gòu)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般地涉及信息抽取,更具體而言,涉及Web挖掘以及從多語言網(wǎng)站構(gòu)建 多語言的對象層次結(jié)構(gòu)的方法和系統(tǒng)。
背景技術(shù)
當(dāng)前,計算機已經(jīng)成為現(xiàn)代生活必不可少的工具,它可以幫助用戶找到感興趣的 信息,這在當(dāng)今大量信息在Web上不斷積累的因特網(wǎng)時代尤其明顯。雖然計算機在進行諸 如計算、存儲或搜索之類的信息處理時速度很快,但其無法理解信息,這成為智能信息處理 的主要障礙。為了解決這個問題,最近用于智能信息處理的語義相關(guān)研究變得非常流行。例 如,在 T.Berners-Lee 等題為 “The Semantic Web”(Scientific American,2001 年 5 月, 第 28-37 頁)、Nigel Shabolt 等題為“The Semantic Web Revisited,,(IEEE Intelligent Systems 21 (3),第 96-101 頁,2006 年 5 月、6 月)以及 E. Hyvonen (編者)的題為“Semantic Web Kick-Off in Finland-Vision, Technologies, Research, and Applications,,(HIIT Publications, 2002-001, Helsinki Institute for Information Technology (HUT), Helsinki,F(xiàn)inland,第304頁)的論文中都描述了的相關(guān)技術(shù)。它們的主要用途是幫助計 算機理解信息的內(nèi)容和含義?;谀承┧阈g(shù)邏輯,例如描述邏輯和框架邏輯,根據(jù)人工智能 (AI)傳統(tǒng)規(guī)律的知識表示以及現(xiàn)在流行的Web信息處理技術(shù),諸如萬維網(wǎng)聯(lián)盟(W3C)之類 的標(biāo)準(zhǔn)制訂組織正在積極制訂XML (可擴展標(biāo)記語言)、RDF (資源描述框架)和OWL (Web本 體語言)等標(biāo)準(zhǔn)并且正在推廣語義技術(shù)采用的規(guī)則語言,例如Web規(guī)則語言和規(guī)則標(biāo)記語 言。而且,很多研發(fā)商、企業(yè)和相關(guān)從業(yè)者也已經(jīng)開始建立和采用相關(guān)工具集、產(chǎn)品,甚至實 際應(yīng)用來使得基于語義的智能信息利用成為可能。但是,為了使用計算機的強大計算能力 和語義相關(guān)標(biāo)準(zhǔn)向Web用戶提供不同的智能信息利用服務(wù),領(lǐng)域知識在其中扮演非常關(guān)鍵 的角色。因此,領(lǐng)域知識的建立成為一個急需解決的重要問題。同時,由于Web的普及,全世 界被聯(lián)系的更加緊密,怎樣在使用各種不同語言的人們之間建立無縫的、順暢的交流通道, 因此建立的領(lǐng)域知識同樣也需要包含各種語言的版本,并且在這些多語言版本之間建立有 準(zhǔn)確的對應(yīng)關(guān)系。而如何建立存在對應(yīng)關(guān)系的多語言的領(lǐng)域知識,則又是領(lǐng)域知識建立問 題中的一個難題。本體(Ontology)是一種用于形式化表示領(lǐng)域知識的文檔。本體中定義了一個領(lǐng) 域中的概念/對象以及概念/對象之間的關(guān)系。本體中定義的概念/對象之間的關(guān)系包含 各種各樣的關(guān)系,比如“屬于”,“位于”等等。而在實際應(yīng)用中最普遍的概念關(guān)系是“屬于” 或者“是....的子概念”這類包含關(guān)系,比如概念“個人計算機”是概念“計算機”的一個子 概念。只定義有這種包含關(guān)系的輕量級本體稱為層次結(jié)構(gòu)(Hierarchy),層次結(jié)構(gòu)在實際應(yīng) 用中常常體現(xiàn)為分類體系或者目錄結(jié)構(gòu)等等。在已有的論文及專利中,有一些涉及到層次結(jié)構(gòu)的抽取方法,但是絕大多數(shù)都只 是從單語言的數(shù)據(jù)源中抽取單語言的層次結(jié)構(gòu)。而對于多語言的層次結(jié)構(gòu)抽取問題,已有工作不是很多。所謂多語言的層次結(jié)構(gòu)指層次結(jié)構(gòu)中的概念/對象擁有多語言的描述或者定義。下面介紹幾篇現(xiàn)有的多語言層次結(jié)構(gòu)相關(guān)的論文及專利。H. -C. Yang、D. -ff. Chen、C. _H. Lee 在論文"A multilingual hierarchy mapping method based on GHSOM” (發(fā)表于ICICIC,08會議論文集)(下稱“參考文獻1”)中介紹 了一種建立多語言層次結(jié)構(gòu)的方法收集一組多語言的平行文檔(parallel documents,即 同一個文檔有不同的語言版本),并且手工將這些文檔的平行關(guān)系(即哪些文檔實際上是 同一個文檔的不同語言版本)標(biāo)記出來。然后對這個文檔集的每一個單語言子集進行層次 結(jié)構(gòu)抽取,抽取出來的即為多個單語言的層次結(jié)構(gòu)。最后根據(jù)之前標(biāo)注的文檔的平行關(guān)系, 為這些單語言的層次結(jié)構(gòu)之間建立對應(yīng)關(guān)系。J. Daude、L. Padro、G. Rigau 在論文"Mapping Multilingual Hierarchies Using Relaxation Labeling” (發(fā)表于EMNLP/VLC,99會議論文集)(下稱“參考文獻2”)中介紹 了一種對已抽取出來的單語言層次結(jié)構(gòu)之間建立對應(yīng)關(guān)系的方法。他們利用的是一個外部 的多語言詞典,基于語言分析技術(shù)來判斷不同語言的概念/對象名稱之間的對應(yīng)關(guān)系,從 而建立層次結(jié)構(gòu)之間的對應(yīng)關(guān)系。題為"Multilingual terminology extraction system,,的歐洲專禾丨J EP0887748B1 (下稱“參考文獻3”)介紹了一種從多語言文檔中抽取相對應(yīng)的多語言概念術(shù) 語的方法。該方法需要將術(shù)語的某個語言的表示作為輸入,然后將文檔表示成一個詞語組 成的網(wǎng)絡(luò),通過分析多語言文檔對應(yīng)的詞語網(wǎng)絡(luò)之間的相似性關(guān)系,來得到術(shù)語的另外一 種語言的表示。P. Resnik>N. A.的ifei:“The Web as a parallel corpus"(M^i1 Computational Linguistic的2003年第3期)(下稱“參考文獻4”)沒有涉及到層次結(jié)構(gòu)或者知識的抽 取,但他們介紹了一種自動建立多語言文檔之間的平行關(guān)系的方法。他們使用Web上的網(wǎng) 頁作為文檔集合,利用不同網(wǎng)頁的Html結(jié)構(gòu)之間的相似性,來識別出不同語言網(wǎng)頁之間的 平行關(guān)系。在上面提及的相關(guān)解決方案中,參考文獻1的方法需要人工建立文檔之間的平行 關(guān)系,這種方法效率很低,需要花費大量時間和人力,且擴展性很差,對于大規(guī)模多語言層 次結(jié)構(gòu)的建立不具有適用性。參考文獻2的方法將層次結(jié)構(gòu)的抽取與多語言之間的對應(yīng)區(qū) 分為兩個完全獨立的過程,在進行多語言對應(yīng)時缺少抽取時的上下文環(huán)境,僅僅借助外部 的多語言詞典,難以得到較高的準(zhǔn)確率。參考文獻3的方法適用的前提條件是用于抽取概 念術(shù)語的多語言的文檔必須已經(jīng)確定為是同一文檔的多語言版本,并且需要給定至少一個 用某種語言表示的術(shù)語作為驅(qū)動,因此該方法無法適用于當(dāng)多語言文檔還未確定是否存在 平行關(guān)系的場合,以及無法用于抽取新概念術(shù)語,另外,這種方法沒有提及到概念之間關(guān)系 的抽取,無法用于建立層次結(jié)構(gòu)。參考文獻4的方法雖然可以被借鑒來確定用于抽取層次 結(jié)構(gòu)的多語言文檔之間是否具有平行關(guān)系,但該方法只能判斷文檔之間的對應(yīng)關(guān)系,不能 確定文檔內(nèi)部元素之間的對應(yīng)關(guān)系,于是不能直接應(yīng)用于多語言層次結(jié)構(gòu)的抽取與對應(yīng), 因為層次結(jié)構(gòu)中的概念對象很可能是與文檔的某一部分相對應(yīng),而不是與整篇文檔相對 應(yīng)。綜上,現(xiàn)有方法對于多語言層次結(jié)構(gòu)抽取仍然存在不足,集中體現(xiàn)在他們不能實 現(xiàn)抽取過程以及多語言對應(yīng)的完全自動化,不具有足夠的運行效率以及柔性和可擴展性, 尤其當(dāng)面對新的知識領(lǐng)域或者新的語言時,他們大多不能快速響應(yīng),而需要做大量的準(zhǔn)備工作,比如進行文檔標(biāo)注或者建立詞典等。

發(fā)明內(nèi)容
本發(fā)明旨在解決上述多語言層次結(jié)構(gòu)抽取方法中存在的諸多問題。在本發(fā)明中, 提出了一種從多語言網(wǎng)站中全自動地抽取多語言的層次結(jié)構(gòu)的方法及其系統(tǒng)。該方法從網(wǎng) 站中的各個單語言子網(wǎng)站分別抽出單語言的層次結(jié)構(gòu),并自動識別出網(wǎng)站中各個單語言子 網(wǎng)站之間內(nèi)在的平行對應(yīng)關(guān)系,然后利用它們直接導(dǎo)出各個單語言層次結(jié)構(gòu)之間的對應(yīng)關(guān) 系,從而生成一個多語言的層次結(jié)構(gòu)。根據(jù)本發(fā)明第一方面,提供了一種從多語言網(wǎng)站中抽取多語言的對象層次結(jié)構(gòu)的 方法,包括輸入一多語言網(wǎng)站中的網(wǎng)頁;按不同語言將所述網(wǎng)站拆分成多個子網(wǎng)站,每個 子網(wǎng)站中的網(wǎng)頁具有相同語言;抽取對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu),并記錄對 象與相應(yīng)網(wǎng)頁之間的對應(yīng)關(guān)系;確定不同子網(wǎng)站中的不同語言網(wǎng)頁之間的平行關(guān)系;以及 根據(jù)抽取出的每個子網(wǎng)站的單語言對象層次結(jié)構(gòu)、對象與網(wǎng)頁之間的對應(yīng)關(guān)系、以及所確 定的不同語言的網(wǎng)頁之間的平行關(guān)系,來生成對應(yīng)于所述多語言網(wǎng)站的多語言對象層次結(jié) 構(gòu)。根據(jù)本發(fā)明第二方面,提供了一種從多語言網(wǎng)站中抽取多語言的對象層次結(jié)構(gòu)的 系統(tǒng),包括輸入裝置,用于輸入一多語言網(wǎng)站中的網(wǎng)頁;單語言子網(wǎng)站拆分裝置,用于按 不同語言將所述網(wǎng)站拆分成多個子網(wǎng)站,每個子網(wǎng)站中的網(wǎng)頁具有相同語言;單語言對象 層次結(jié)構(gòu)抽取裝置,用于抽取對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu),并記錄對象與相 應(yīng)網(wǎng)頁之間的對應(yīng)關(guān)系;平行關(guān)系確定裝置,用于確定不同子網(wǎng)站中的不同語言網(wǎng)頁之間 的平行關(guān)系;以及多語言對象層次結(jié)構(gòu)生成裝置,用于根據(jù)抽取出的每個子網(wǎng)站的單語言 對象層次結(jié)構(gòu)、對象與網(wǎng)頁之間的對應(yīng)關(guān)系、以及所確定的不同語言的網(wǎng)頁之間的平行關(guān) 系,來生成對應(yīng)于所述多語言網(wǎng)站的多語言對象層次結(jié)構(gòu)。本專利所提出的多語言層次結(jié)構(gòu)抽取方法是一種全自動化的方法,不需要人工標(biāo) 注文檔,并且運行參數(shù)與領(lǐng)域以及語言無關(guān)。相對于已有方法,本發(fā)明大大提高了抽取效率 以及可擴展性。另外,由于本發(fā)明的系統(tǒng)和方法利用了多語言網(wǎng)站內(nèi)在的多語言平行對應(yīng) 關(guān)系,因此使得結(jié)果的準(zhǔn)確性能夠得到保證。從下面結(jié)合附圖的詳細描述中,可以看出本發(fā)明的其他特征和優(yōu)點。注意,本發(fā)明 的范圍并不限于圖中所示的示例或者任何具體的實施例。


結(jié)合附圖,從下面對本發(fā)明實施例的詳細描述,將更好地理解本發(fā)明,附圖中類似 的參考標(biāo)注指示類似的部分,其中圖1是示出根據(jù)本發(fā)明的多語言對象層次結(jié)構(gòu)抽取系統(tǒng)100的結(jié)構(gòu)框圖;圖2是用于說明圖1所示系統(tǒng)100的工作過程的流程圖;圖3是具體示出圖1所示系統(tǒng)100中的平行關(guān)系確定裝置和平行關(guān)系補遺裝置的 內(nèi)部結(jié)構(gòu)示例的框圖;以及圖4是用于舉例說明根據(jù)本發(fā)明的多語言對象層次結(jié)構(gòu)生成過程的示意圖。
具體實施例方式圖1是示出根據(jù)本發(fā)明的多語言對象層次結(jié)構(gòu)抽取系統(tǒng)100的結(jié)構(gòu)框圖。在圖1 中,系統(tǒng)100被示為包括多語言對象層次結(jié)構(gòu)抽取部件和存儲部件。多語言對象層次結(jié)構(gòu) 抽取部件作為處理部件,被用于實現(xiàn)本發(fā)明所提出的多語言對象層次結(jié)構(gòu)的抽取過程。該 部件從多語言網(wǎng)站抽取出對象層次結(jié)構(gòu),該對象層次結(jié)構(gòu)中的對象名稱以及對象相關(guān)文檔 (網(wǎng)頁)可以具有多語言版本。如圖所示,多語言對象層次結(jié)構(gòu)抽取部件例如可以包括輸入 裝置101、網(wǎng)頁塊集合生成裝置102 (可選)、單語言子網(wǎng)站拆分裝置103、單語言對象層次結(jié) 構(gòu)抽取裝置104、平行關(guān)系確定裝置105、平行關(guān)系補遺裝置106 (可選)以及多語言對象層 次結(jié)構(gòu)生成裝置107。存儲部件與處理部分配合使用,以用于存儲各種處理結(jié)果。如圖所示, 存儲部件可以包括多語言網(wǎng)站網(wǎng)頁存儲器108、單語言子網(wǎng)站存儲器109、單語言對象層次 結(jié)構(gòu)存儲器110、多語言子網(wǎng)站平行關(guān)系存儲器111和多語言對象層次結(jié)構(gòu)存儲器112。圖2是用于說明圖1所示系統(tǒng)100的工作過程的流程圖。下面將結(jié)合圖1和圖2 來具體說明本發(fā)明的原理以及工作過程。如圖2所示,該過程200開始于步驟201,在該步驟中,輸入裝置101從多語言網(wǎng)站 網(wǎng)頁存儲器108輸入一多語言網(wǎng)站中的所有網(wǎng)頁。多語言網(wǎng)站網(wǎng)頁存儲器108中存儲有從 因特網(wǎng)抓取的一個或多個多語言網(wǎng)站的所有網(wǎng)頁,并記錄網(wǎng)頁ID、網(wǎng)頁內(nèi)容、網(wǎng)頁鏈接等內(nèi) 容。在步驟202中,網(wǎng)頁塊集合生成裝置102可以對所輸入的每個網(wǎng)頁進行預(yù)處理,以為每 個網(wǎng)頁生成一網(wǎng)頁塊集合。網(wǎng)頁塊具有空間尺寸和位置信息,并形成了網(wǎng)頁塊之間的空間 布局關(guān)系,包括嵌套、相鄰等關(guān)系。優(yōu)選地,網(wǎng)頁內(nèi)部網(wǎng)頁塊之間的平行關(guān)系也可以在抽取 多語言對象層次結(jié)構(gòu)的過程中被用作參考,以進一步提高結(jié)果的準(zhǔn)確性。接下來,在步驟203中,單語言子網(wǎng)站拆分裝置103可以按不同語言將輸入的多語 言網(wǎng)站中的網(wǎng)頁拆分成多個單語言子網(wǎng)站,即為網(wǎng)站中的所有網(wǎng)頁加上語言標(biāo)簽,從而將 不同語言的網(wǎng)頁區(qū)分開來。各個單語言子網(wǎng)站隨后可以被存儲在單語言子網(wǎng)站存儲器109 中。如圖1所示,在單語言子網(wǎng)站存儲器109中,除了存儲如多語言網(wǎng)站網(wǎng)頁存儲器108中 的網(wǎng)頁ID、網(wǎng)頁內(nèi)容、網(wǎng)頁鏈接等內(nèi)容之外,還包括為不同語言網(wǎng)頁加注的語言ID。然后, 在步驟204中,單語言對象層次結(jié)構(gòu)抽取裝置104抽取各個子網(wǎng)站的單語言對象層次結(jié)構(gòu), 并記錄對象與相應(yīng)網(wǎng)頁(或網(wǎng)頁塊)之間對應(yīng)關(guān)系。單語言對象層次結(jié)構(gòu)抽取裝置104的 處理結(jié)果可以被存儲在單語言對象層次結(jié)構(gòu)存儲器110中。在步驟205中,平行關(guān)系確定 裝置105確定不同語言子網(wǎng)站之間的平行關(guān)系,這種平行關(guān)系可以包括網(wǎng)頁之間和/或網(wǎng) 頁塊之間的平行關(guān)系。關(guān)于不同語言子網(wǎng)站之間的平行關(guān)系的確定方法可以有很多種,例 如基于Web目錄結(jié)構(gòu)、基于網(wǎng)頁DOM結(jié)構(gòu)信息、基于網(wǎng)頁塊集合結(jié)構(gòu)拓撲等等。關(guān)于平行關(guān) 系的確定方法,將在下文中具體描述。在平行關(guān)系確定裝置105確定出不同語言子網(wǎng)站之間的平行關(guān)系之后,在步驟 206中,可選地,平行關(guān)系補遺裝置106可以進一步通過分析網(wǎng)頁間的鏈接關(guān)系或已提取出 的單語言層次結(jié)構(gòu)對已確定的平行關(guān)系進行補遺。關(guān)于平行關(guān)系補遺的具體方法,也將在 下文中具體描述。由平行關(guān)系確定裝置105和平行關(guān)系補遺裝置106所確定的不同語言網(wǎng) 頁和/或網(wǎng)頁塊之間的平行關(guān)系可以被存儲在多語言子網(wǎng)站平行關(guān)系存儲器111中。在步驟207中,多語言對象層次結(jié)構(gòu)生成裝置107根據(jù)存儲在單語言對象層次結(jié) 構(gòu)存儲器110中的各個單語言層次結(jié)構(gòu)、對象與相應(yīng)網(wǎng)頁(網(wǎng)頁塊)之間的對應(yīng)關(guān)系以及存儲在多語言子網(wǎng)站平行關(guān)系存儲器ill中的不同語言網(wǎng)頁和/或網(wǎng)頁塊之間的平行關(guān)系 來生成多語言對象層次結(jié)構(gòu),該多語言對象層次結(jié)構(gòu)上的每個對象可以包含不同的語言版本。生成的多語言對象層次結(jié)構(gòu)被存儲到多語言對象層次結(jié)構(gòu)存儲器112中。然后,過程 200結(jié)束。下面將參考圖3來描述平行關(guān)系確定和補遺過程的示例。這里作為實施例給出的 各種平行關(guān)系確定方法以及補遺方法僅僅作為示例提供,而不應(yīng)被視為對本發(fā)明的范圍的 限制。首先關(guān)注平行關(guān)系確定裝置105的內(nèi)部結(jié)構(gòu)。在圖3中,作為示例,平行關(guān)系確定 裝置105被示為包括目錄結(jié)構(gòu)分析單元301、DOM結(jié)構(gòu)分析單元302、網(wǎng)頁塊集合分析單元 303以及第一協(xié)調(diào)單元304。目錄結(jié)構(gòu)分析單元301、DOM結(jié)構(gòu)分析單元302和網(wǎng)頁塊集合 分析單元303被分別用于實現(xiàn)通過網(wǎng)站W(wǎng)eb目錄結(jié)構(gòu)分析、網(wǎng)頁DOM結(jié)構(gòu)分析以及網(wǎng)頁塊 集合結(jié)構(gòu)分析來確定不同語言網(wǎng)頁(網(wǎng)頁塊)之間平行關(guān)系的過程。值得注意的是,無論 網(wǎng)站W(wǎng)eb目錄結(jié)構(gòu)分析、網(wǎng)頁DOM結(jié)構(gòu)分析或者網(wǎng)頁塊集合結(jié)構(gòu)分析都可被單獨用來確定 平行關(guān)系,而不一定如圖3所示出的那樣結(jié)合使用。圖3所示出的三種分析方法結(jié)合使用 的示例僅僅是出于提高結(jié)果準(zhǔn)確性方面的考量,而不應(yīng)被看作對本發(fā)明的范圍的限制。第 一協(xié)調(diào)單元304用于協(xié)調(diào)目錄結(jié)構(gòu)分析單元301、D0M結(jié)構(gòu)分析單元302和網(wǎng)頁塊集合分析 單元303各自確定的平行關(guān)系結(jié)果,以解決三者結(jié)果之間產(chǎn)生的沖突。例如,第一協(xié)調(diào)單元 304可以為每個分析單元分配一個權(quán)重值,并根據(jù)權(quán)重值來決定結(jié)果的取舍。權(quán)重值的確定 可以采用基于訓(xùn)練樣本的機器學(xué)習(xí)方法來獲取。目錄結(jié)構(gòu)分析單元301是通過網(wǎng)站W(wǎng)eb目錄結(jié)構(gòu)分析來確定平行關(guān)系的部件。例 如,目錄結(jié)構(gòu)分析可以通過網(wǎng)頁的URL來推斷網(wǎng)站作者對于多語言網(wǎng)頁之間平行關(guān)系的考 慮。其中URL的模式對于多語言平行關(guān)系的判定具有很高的信息量。比如在Symantec網(wǎng) 立占中,http://www. Symantec, com/norton 與 http://www. Symantec, com/zh/cn/norton 以 及http://www. Symantec, corn/ja/jp/norton就是一組平行的網(wǎng)頁,分別是同一內(nèi)容的英 文、中文以及日文版本,可以觀察到Symantec網(wǎng)站用來標(biāo)識平行關(guān)系的URL模式為http:// www. Symantec, com/(語言)/(地區(qū))/(內(nèi)容)。URL模式可以通過對一個單語言子網(wǎng)站中 所有網(wǎng)頁的URL進行相似性分析,來獲取每個單語言網(wǎng)站中URL的模板,然后通過比較各個 單語言子網(wǎng)站的URL模板來發(fā)現(xiàn)用來標(biāo)識平行關(guān)系的URL模式。除了 Web目錄結(jié)構(gòu)之外,網(wǎng)頁內(nèi)部結(jié)構(gòu)分析也可被用于確定網(wǎng)頁或網(wǎng)頁塊的平行 關(guān)系。例如,DOM結(jié)構(gòu)分析單元302和網(wǎng)頁塊集合分析單元303可以分別通過分析網(wǎng)頁的 DOM結(jié)構(gòu)相似性以及網(wǎng)頁內(nèi)網(wǎng)頁塊集合的相似性來確定具有平行關(guān)系的網(wǎng)頁或網(wǎng)頁塊。首 先,DOM結(jié)構(gòu)分析單元302可以通過分析網(wǎng)頁的DOM結(jié)構(gòu)相似性來確定有平行關(guān)系的網(wǎng)頁。 DOM結(jié)構(gòu)相似性的指標(biāo)可以包括HTML結(jié)點標(biāo)簽序列的相似性和結(jié)點樣式的相似性。另外, 如前所述,網(wǎng)頁塊集合生成裝置102可以為每一個網(wǎng)頁生成一個網(wǎng)頁塊的集合,網(wǎng)頁塊具 有空間尺寸和位置信息,并形成了網(wǎng)頁塊之間的空間布局關(guān)系,包括嵌套、相鄰等關(guān)系。網(wǎng) 頁塊集合分析單元303可以通過分析兩個網(wǎng)頁間的網(wǎng)頁塊集合的相似性,來確定這兩個網(wǎng) 頁是否具有平行關(guān)系。網(wǎng)頁塊集合的相似性的指標(biāo)包括網(wǎng)頁塊拓撲結(jié)構(gòu)(僅考慮抽象的空 間關(guān)系)的相似性和網(wǎng)頁塊空間尺寸和位置信息的相似性。利用網(wǎng)頁塊集合相似性除了可 以獲取網(wǎng)頁之間的平行關(guān)系,還可以將網(wǎng)頁塊之間的平行關(guān)系同時確立下來。
繼續(xù)參考圖3,分別由目錄結(jié)構(gòu)分析單元30UDOM結(jié)構(gòu)分析單元302和網(wǎng)頁塊集合 分析單元303所確定的第一、第二和第三平行關(guān)系結(jié)果可以被提供到第一協(xié)調(diào)單元304以 進行平行關(guān)系結(jié)果的協(xié)調(diào)。例如,如前所述,第一協(xié)調(diào)單元304可以根據(jù)預(yù)先確定的針對不 同分析方法的權(quán)重值來對各個平行關(guān)系結(jié)果進行取舍。協(xié)調(diào)后的平行關(guān)系結(jié)果可以作為最 終結(jié)果被直接提供到多語言對象層次結(jié)構(gòu)生成裝置107以用于多語言對象層次結(jié)構(gòu)的生 成,或者也可以作為中間結(jié)果被提供到平行關(guān)系補遺裝置106以對已經(jīng)確定的平行關(guān)系進行補遺。所謂補遺是指通過鏈接結(jié)構(gòu)分析或子網(wǎng)站單語言層次結(jié)構(gòu)分析等手段對已確定的 平行關(guān)系進行補充,以避免遺漏掉可能的具有平行關(guān)系的網(wǎng)頁。在圖3中,作為示例,平行關(guān)系補遺裝置106可以包括鏈接結(jié)構(gòu)補遺單元305、單語 言層次結(jié)構(gòu)補遺單元306和第二協(xié)調(diào)單元307。類似于平行關(guān)系確定裝置105,圖3中給出 的配置也僅僅是作為示例提供,而不應(yīng)被視為對本發(fā)明的范圍的限制。同樣地,鏈接結(jié)構(gòu)補 遺單元305和單語言層次結(jié)構(gòu)補遺單元306可以單獨適用,也可以結(jié)合適用。第二協(xié)調(diào)單 元307可以根據(jù)預(yù)先確定的針對不同補遺方法的權(quán)重在多個補遺結(jié)果中進行協(xié)調(diào),以確定 最終經(jīng)補遺后的平行關(guān)系。顯而易見,在平行關(guān)系補遺階段所適用的權(quán)重與在平行關(guān)系確 定階段所適用的權(quán)重之間相互獨立。鏈接結(jié)構(gòu)補遺單元305可以通過分析網(wǎng)頁之間的鏈接關(guān)系來獲取單語言子網(wǎng)站 內(nèi)的網(wǎng)頁之間的結(jié)構(gòu)信息,然后通過比較不同單語言子網(wǎng)站的網(wǎng)頁間結(jié)構(gòu)之間的相似性, 來判定網(wǎng)頁之間的平行性。例如,可以選用導(dǎo)航路徑(Navigation Path)來代表網(wǎng)頁之間 的結(jié)構(gòu)信息,在各個單語言子網(wǎng)站完成導(dǎo)航路徑的生成后,通過比較不同單語言子網(wǎng)站的 導(dǎo)航路徑的相似性來判斷具有平行關(guān)系的網(wǎng)頁。例如,平行性判定規(guī)則可以確定為對于 子網(wǎng)站1中網(wǎng)頁p,如果在與ρ相關(guān)的所有導(dǎo)航路徑中,沿路徑指向ρ的網(wǎng)頁為P1,...,Pffl, 由P沿路徑指向的網(wǎng)頁為Cl,...,cn;對于子網(wǎng)站2中網(wǎng)頁ρ',如果在與ρ'相關(guān)的所有 導(dǎo)航路徑中,沿路徑指向P'的網(wǎng)頁為P/ ,...,Pk',由P沿路徑指向的網(wǎng)頁為(V,..., cr';如果 m == k,且(Pi,Pi' ),i = 1,. . .,m 均為平行網(wǎng)頁,且對于{Ci},i = 1,. . .,n 和lc/ },j = 1,. . .,r兩個集合之間的平行網(wǎng)頁對總數(shù)q如果大于某個設(shè)定的閾值t (t 與η和r的最小值相關(guān)),那么(ρ,ρ')也被判定為一對平行網(wǎng)頁。另外,單語言層次結(jié)構(gòu)補遺單元306還可以利用單語言對象層次結(jié)構(gòu)抽取裝置 104已經(jīng)從各個單語言子網(wǎng)站抽取出來的單語言層次結(jié)構(gòu)來判定網(wǎng)頁或者網(wǎng)頁塊之間的平 行關(guān)系。例如,假設(shè)對于語言1的網(wǎng)頁或網(wǎng)頁塊P對應(yīng)層次結(jié)構(gòu)中的對象o,o的父親對象對 應(yīng)的網(wǎng)頁或網(wǎng)頁塊為P1,. . .,Pm,它的兒子對象對應(yīng)的網(wǎng)頁或網(wǎng)頁塊為C1,. . .,cn ;對于語言 2的網(wǎng)頁或網(wǎng)頁塊ρ'對應(yīng)層次結(jié)構(gòu)中的對象ο' , ο'的父親對象為p/ , . . . , Pk',它的 兒子對象為c/ ,...,Cr';如果ρ與ρ'同為網(wǎng)頁或者同為網(wǎng)頁塊,以及m==k,且(Pi, Pi' ),i = 1,...,m 均為平行關(guān)系對,且對于{Ci},i = l,...,n和{c/ },j = l,...,r 兩個集合之間的平行關(guān)系對總數(shù)q如果大于某個設(shè)定的閾值t (t與η和r的最小值相關(guān)), 那么可以將(P,P')也視為一對平行關(guān)系對。當(dāng)單語言子網(wǎng)站之間的平行關(guān)系已經(jīng)確立之后,多語言對象層次結(jié)構(gòu)生成裝置 107就可以直接通過參考存儲在單語言對象層次結(jié)構(gòu)存儲器110中的單語言層次結(jié)構(gòu)中對 象與網(wǎng)頁或網(wǎng)頁塊的對應(yīng)關(guān)系,來得到單語言層次結(jié)構(gòu)之間的平行關(guān)系,從而最終得到一 個多語言的對象層次結(jié)構(gòu)。圖4展示了這個過程的一個示例。如圖4所示,通過參考中、英文子網(wǎng)站之間的平行關(guān)系、它們各自對應(yīng)的單語言層次結(jié)構(gòu)、以及對象與相應(yīng)網(wǎng)頁(網(wǎng)頁塊)A和B之間的對應(yīng)關(guān)系,可以得到具有多語言(例如中文+英文)版本的對象層次結(jié)構(gòu)。以上參考附圖詳細描述了根據(jù)本發(fā)明的多語言層次結(jié)構(gòu)抽取方法和系統(tǒng)的具體 實施例。利用本發(fā)明所提供的方法,不需要對文檔進行人工標(biāo)注,并且運行參數(shù)與領(lǐng)域以及 語言無關(guān)。因此,相對于已有方法,本發(fā)明可以大大提高抽取效率以及可擴展性。另外,由 于本發(fā)明的系統(tǒng)和方法利用了多語言網(wǎng)站內(nèi)在的多語言平行對應(yīng)關(guān)系,因此使得結(jié)果的準(zhǔn) 確性也能夠得到保證。雖然上面雖然已經(jīng)描述了根據(jù)本發(fā)明的具體實施例,但是,本發(fā)明并不限于圖中 示出的特定配置和處理。另外,為了簡明起見,這里省略對已知方法技術(shù)的詳細描述。在上 述實施例中,描述和示出了若干具體的步驟作為示例。但是,本發(fā)明的方法過程并不限于所 描述和示出的具體步驟,本領(lǐng)域的技術(shù)人員可以在領(lǐng)會本發(fā)明的精神之后,作出各種改變、 修改和添加,或者改變步驟之間的順序。本發(fā)明的元素可以實現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的 系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實現(xiàn)時,本發(fā)明的元素是被用于執(zhí)行所需 任務(wù)的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質(zhì)中,或者通過載波中攜 帶的數(shù)據(jù)信號在傳輸介質(zhì)或者通信鏈路上傳送?!皺C器可讀介質(zhì)”可以包括能夠存儲或傳輸 信息的任何介質(zhì)。機器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲器設(shè)備、ROM、閃存、可擦 除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由 諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計算機網(wǎng)絡(luò)被下載。本發(fā)明可以以其他的具體形式實現(xiàn),而不脫離其精神和本質(zhì)特征。例如,特定實施 例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此,當(dāng)前的 實施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非 上述描述定義,并且,落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在 本發(fā)明的范圍之中。
權(quán)利要求
一種從多語言網(wǎng)站中抽取多語言的對象層次結(jié)構(gòu)的方法,包括輸入一多語言網(wǎng)站中的網(wǎng)頁;按不同語言將所述網(wǎng)站拆分成多個子網(wǎng)站,每個子網(wǎng)站中的網(wǎng)頁具有相同語言;抽取對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu),并記錄對象與相應(yīng)網(wǎng)頁之間的對應(yīng)關(guān)系;確定不同子網(wǎng)站中的不同語言網(wǎng)頁之間的平行關(guān)系;以及根據(jù)抽取出的每個子網(wǎng)站的單語言對象層次結(jié)構(gòu)、對象與網(wǎng)頁之間的對應(yīng)關(guān)系、以及所確定的不同語言的網(wǎng)頁之間的平行關(guān)系,來生成對應(yīng)于所述多語言網(wǎng)站的多語言對象層次結(jié)構(gòu)。
2.如權(quán)利要求1所述的方法,還包括 為每個網(wǎng)頁生成一網(wǎng)頁塊集合。
3.如權(quán)利要求2所述的方法,還包括記錄對象與相應(yīng)網(wǎng)頁塊之間的對應(yīng)關(guān)系;以及 確定不同語言網(wǎng)頁中的網(wǎng)頁塊之間的平行關(guān)系,其中,所述網(wǎng)頁塊之間的平行關(guān)系以及所述對象與相應(yīng)網(wǎng)頁塊之間的對應(yīng)關(guān)系在生成 所述多語言對象層次結(jié)構(gòu)的過程中也被用作參考。
4.如權(quán)利要求1所述的方法,其中所述不同語言網(wǎng)頁之間的平行關(guān)系是根據(jù)所述網(wǎng)站 的Web目錄結(jié)構(gòu)來確定的。
5.如權(quán)利要求1所述的方法,其中所述不同語言網(wǎng)頁之間的平行關(guān)系是通過比較不同 語言網(wǎng)頁的DOM結(jié)構(gòu)的相似性來確定的。
6.如權(quán)利要求2所述的方法,其中所述不同語言網(wǎng)頁之間的平行關(guān)系是通過比較不同 語言網(wǎng)頁的網(wǎng)頁塊集合的相似性來確定的。
7.如權(quán)利要求2所述的方法,其中所述確定不同語言網(wǎng)頁之間的平行關(guān)系的步驟包括根據(jù)所述網(wǎng)站的Web目錄結(jié)構(gòu)來確定第一平行關(guān)系結(jié)果; 根據(jù)不同語言網(wǎng)頁的DOM結(jié)構(gòu)的相似性來確定第二平行關(guān)系結(jié)果; 根據(jù)不同語言網(wǎng)頁的網(wǎng)頁塊集合的相似性來確定第三平行關(guān)系結(jié)果;以及 根據(jù)預(yù)先確定的對應(yīng)于不同分析方法的權(quán)重值在所述第一、第二和第三平行關(guān)系結(jié)果 之間進行協(xié)調(diào),以綜合確定不同語言網(wǎng)頁之間的平行關(guān)系。
8.如權(quán)利要求4-7中的任意一個所述的方法,還包括通過分析網(wǎng)頁之間的鏈接結(jié)構(gòu),對已確定的不同語言網(wǎng)頁之間的平行關(guān)系進行補遺。
9.如權(quán)利要求4-7中的任意一個所述的方法,還包括通過分析抽取出的所述對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu),對已確定的不同語 言網(wǎng)頁之間的平行關(guān)系進行補遺。
10.如權(quán)利要求4-7中的任意一個所述的方法,還包括通過分析網(wǎng)頁之間的鏈接結(jié)構(gòu),對已確定的不同語言網(wǎng)頁之間的平行關(guān)系進行補遺, 以得到第一補遺后平行關(guān)系結(jié)果;通過分析抽取出的所述對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu),對已確定的不同語 言網(wǎng)頁之間的平行關(guān)系進行補遺,以得到第二補遺后平行關(guān)系結(jié)果;根據(jù)預(yù)先確定的對應(yīng)于不同補遺方法的權(quán)重值在所述第一和第二補遺后平行關(guān)系結(jié) 果之間進行協(xié)調(diào),以最終確定不同語言網(wǎng)頁之間的平行關(guān)系。
11.一種從多語言網(wǎng)站中抽取多語言的對象層次結(jié)構(gòu)的系統(tǒng),包括輸入裝置,用于輸入一多語言網(wǎng)站中的網(wǎng)頁;單語言子網(wǎng)站拆分裝置,用于按不同語言將所述網(wǎng)站拆分成多個子網(wǎng)站,每個子網(wǎng)站 中的網(wǎng)頁具有相同語言;單語言對象層次結(jié)構(gòu)抽取裝置,用于抽取對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu), 并記錄對象與相應(yīng)網(wǎng)頁之間的對應(yīng)關(guān)系;平行關(guān)系確定裝置,用于確定不同子網(wǎng)站中的不同語言網(wǎng)頁之間的平行關(guān)系;以及多語言對象層次結(jié)構(gòu)生成裝置,用于根據(jù)抽取出的每個子網(wǎng)站的單語言對象層次結(jié) 構(gòu)、對象與網(wǎng)頁之間的對應(yīng)關(guān)系、以及所確定的不同語言的網(wǎng)頁之間的平行關(guān)系,來生成對 應(yīng)于所述多語言網(wǎng)站的多語言對象層次結(jié)構(gòu)。
12.如權(quán)利要求11所述的系統(tǒng),還包括網(wǎng)頁塊集合生成裝置,用于為每個網(wǎng)頁生成一網(wǎng)頁塊集合。
13.如權(quán)利要求12所述的系統(tǒng),其中所述單語言對象層次結(jié)構(gòu)抽取裝置還記錄對象與 相應(yīng)網(wǎng)頁塊之間的對應(yīng)關(guān)系,所述平行關(guān)系確定裝置還確定不同語言網(wǎng)頁中的網(wǎng)頁塊之間 的平行關(guān)系,并且所述網(wǎng)頁塊之間的平行關(guān)系以及所述對象與相應(yīng)網(wǎng)頁塊之間的對應(yīng)關(guān)系 也被提供到所述多語言對象層次結(jié)構(gòu)生成裝置,以在生成所述多語言對象層次結(jié)構(gòu)的過程 中被用作參考。
14.如權(quán)利要求11所述的系統(tǒng),其中所述網(wǎng)頁平行關(guān)系確定裝置包含目錄結(jié)構(gòu)分析單元,用于分析所述網(wǎng)站的Web目錄結(jié)構(gòu),以確定所述不同語言網(wǎng)頁之 間的平行關(guān)系。
15.如權(quán)利要求11所述的系統(tǒng),其中所述網(wǎng)頁平行關(guān)系確定裝置包含DOM結(jié)構(gòu)分析單元,用于比較不同語言網(wǎng)頁的DOM結(jié)構(gòu)的相似性,以確定所述不同語言 網(wǎng)頁之間的平行關(guān)系。
16.如權(quán)利要求12所述的系統(tǒng),其中所述網(wǎng)頁平行關(guān)系確定裝置包含網(wǎng)頁塊集合分析單元,用于比較不同語言網(wǎng)頁的網(wǎng)頁塊集合的相似性,以確定所述不 同語言網(wǎng)頁之間的平行關(guān)系。
17.如權(quán)利要求12所述的系統(tǒng),其中所述網(wǎng)頁平行關(guān)系確定裝置包含目錄結(jié)構(gòu)分析單元,用于分析所述網(wǎng)站的Web目錄結(jié)構(gòu)來確定第一平行關(guān)系結(jié)果;DOM結(jié)構(gòu)分析單元,用于比較不同語言網(wǎng)頁的DOM結(jié)構(gòu)的相似性來確定第二平行關(guān)系 結(jié)果;網(wǎng)頁塊集合分析單元,用于比較不同語言網(wǎng)頁的網(wǎng)頁塊集合的相似性來確定第三平行 關(guān)系結(jié)果;以及第一協(xié)調(diào)單元,用于根據(jù)預(yù)先確定的分別對應(yīng)于所述目錄結(jié)構(gòu)分析單元、所述DOM結(jié) 構(gòu)分析單元和所述網(wǎng)頁塊集合分析單元的權(quán)重值在所述第一、第二和第三平行關(guān)系結(jié)果之 間進行協(xié)調(diào),以綜合確定不同語言網(wǎng)頁之間的平行關(guān)系。
18.如權(quán)利要求14-17中的任意一個所述的系統(tǒng),還包括平行關(guān)系補遺裝置,用于對已確定的不同語言網(wǎng)頁之間的平行關(guān)系進行補遺。
19.如權(quán)利要求18所述的系統(tǒng),其中所述平行關(guān)系補遺裝置包括鏈接結(jié)構(gòu)補遺單元,用于通過分析網(wǎng)頁之間的鏈接結(jié)構(gòu)對已確定的不同語言網(wǎng)頁之間 的平行關(guān)系進行補遺。
20.如權(quán)利要求18所述的系統(tǒng),其中所述平行關(guān)系補遺裝置包括單語言層次結(jié)構(gòu)補遺單元,用于通過分析抽取出的對應(yīng)于每個子網(wǎng)站的單語言對象層 次結(jié)構(gòu)對已確定的不同語言網(wǎng)頁之間的平行關(guān)系進行補遺。
21.如權(quán)利要求18所述的系統(tǒng),其中所述平行關(guān)系補遺裝置包括鏈接結(jié)構(gòu)補遺單元,用于通過分析網(wǎng)頁之間的鏈接結(jié)構(gòu)對已確定的不同語言網(wǎng)頁之間 的平行關(guān)系進行補遺,以得到第一補遺后平行關(guān)系結(jié)果;單語言層次結(jié)構(gòu)補遺單元,用于通過分析抽取出的對應(yīng)于每個子網(wǎng)站的單語言對象層 次結(jié)構(gòu)對已確定的不同語言網(wǎng)頁之間的平行關(guān)系進行補遺,以得到第二補遺后平行關(guān)系結(jié) 果;以及第二協(xié)調(diào)單元,用于根據(jù)預(yù)先確定的分別對應(yīng)于所述鏈接結(jié)構(gòu)補遺單元和所述單語言 層次結(jié)構(gòu)補遺單元的權(quán)重值在所述第一和第二補遺后平行關(guān)系結(jié)果之間進行協(xié)調(diào),以最終 確定不同語言網(wǎng)頁之間的平行關(guān)系。
全文摘要
本發(fā)明提出了從多語言網(wǎng)站構(gòu)建多語言的對象層次結(jié)構(gòu)的方法和系統(tǒng)。本發(fā)明的方法包括輸入一多語言網(wǎng)站中的所有網(wǎng)頁;按不同語言將網(wǎng)站拆分成多個子網(wǎng)站,每個子網(wǎng)站中的網(wǎng)頁具有相同語言;抽取對應(yīng)于每個子網(wǎng)站的單語言對象層次結(jié)構(gòu),并記錄對象與相應(yīng)網(wǎng)頁之間的對應(yīng)關(guān)系;確定不同子網(wǎng)站中的不同語言網(wǎng)頁之間的平行關(guān)系;以及根據(jù)抽取出的每個子網(wǎng)站的單語言對象層次結(jié)構(gòu)、對象與網(wǎng)頁之間的對應(yīng)關(guān)系、以及所確定的不同語言的網(wǎng)頁之間的平行關(guān)系,來生成對應(yīng)于該多語言網(wǎng)站的多語言對象層次結(jié)構(gòu)。相對于現(xiàn)有技術(shù),本發(fā)明可以大大提高多語言層次結(jié)構(gòu)抽取效率、結(jié)果準(zhǔn)確性以及可擴展性。
文檔編號G06F17/30GK101840402SQ20091011901
公開日2010年9月22日 申請日期2009年3月18日 優(yōu)先權(quán)日2009年3月18日
發(fā)明者李建強, 趙彧 申請人:日電(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1