亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文檔處理方法和系統(tǒng)的制作方法

文檔序號:6582396閱讀:232來源:國知局
專利名稱:文檔處理方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及文檔處理技術,更具體地,涉及在企業(yè)搜索領域擴展作為搜索數(shù)據(jù)源 的文檔集的方法和系統(tǒng)。
背景技術
今天的企業(yè)擁有越來越多的、各式各樣的電子文件和數(shù)據(jù)信息,如何讓這些信息 成為企業(yè)業(yè)務發(fā)展甚至是戰(zhàn)略決策的好幫手,是人們?nèi)找骊P注的問題。而企業(yè)搜索技術就 提供了一種有效的方式,來幫助企業(yè)處理這些日益增長的數(shù)據(jù)信息。然而,并非所有的數(shù)據(jù) 都適合作為企業(yè)搜索中的搜索數(shù)據(jù)源。傳統(tǒng)的基于通用搜索引擎的搜索所依據(jù)的信息源是 海量信息源,搜索結(jié)果也是海量的數(shù)據(jù)信息,大量搜索結(jié)果可能不是用戶想要的內(nèi)容,企業(yè) 搜索用戶很難從這樣海量的數(shù)據(jù)信息中去除噪音而得到其想要的信息?;谶@樣的背景, 在企業(yè)搜索領域,為了特定的業(yè)務需求(例如,做某個行業(yè)的市場分析,或,選定投資的企 業(yè)),由于受到資源的限制,不可能把整個互聯(lián)網(wǎng)的數(shù)據(jù)都收集下來做搜索,而是要在業(yè)務 需求的范圍內(nèi),盡可能多的收集相關的信息資料。另一方面,隨著網(wǎng)絡上文檔的飛速增長, 企業(yè)搜索的數(shù)據(jù)源也需要隨之不斷地更新和擴展,因此,如何有效的自動擴展企業(yè)搜索服 務的搜索數(shù)據(jù)源,并且?guī)椭髽I(yè)在海量網(wǎng)絡數(shù)據(jù)中收集對業(yè)務有用的信息,去除不必要的 “噪音”信息以提高數(shù)據(jù)資源利用率,并節(jié)省搜索數(shù)據(jù)源的存儲資源,是企業(yè)搜索技術領域 的重要挑戰(zhàn)之一?,F(xiàn)有技術中存在如下解決上述問題的方法由企業(yè)搜索服務的用戶將其獲得的比 較有價值的文檔向企業(yè)搜索服務系統(tǒng)推薦,存儲在企業(yè)搜索服務系統(tǒng)的信息存儲裝置中, 成為公共的企業(yè)搜索數(shù)據(jù)源;或者由企業(yè)搜索服務的系統(tǒng)管理員隨時關注網(wǎng)絡信息的變化 并且將有用的信息添加至企業(yè)搜索數(shù)據(jù)源中。然而上述這兩種擴展搜索數(shù)據(jù)源的方式不能 依據(jù)企業(yè)搜索數(shù)據(jù)源中已有的文檔自動實現(xiàn)擴展,而是完全依賴于企業(yè)搜索服務的用戶以 及系統(tǒng)管理員的行為,費時費力且擴展數(shù)據(jù)源的效率很低。

發(fā)明內(nèi)容
考慮到上述問題,希望提供能夠自動進行文檔擴展的技術方案,從而在無需大量 人工勞動的前提下保持文檔的不斷擴展,同時能夠保持文檔擴展的精度和準確度。與傳統(tǒng) 的搜索引擎不同(傳統(tǒng)的搜索引擎依賴于網(wǎng)頁之間的超級鏈接進行數(shù)據(jù)的擴展),一般來 講,企業(yè)搜索中,企業(yè)關心的信息具有具體的實體以及與之相關的主題。因此,這里提出的 技術方案,主要利用文章內(nèi)容的關注實體和主題的分析,進一步挖掘企業(yè)用戶對信息的需 求,從而做到文檔的自動擴展?;谏鲜鰡栴}和目的,本發(fā)明提供能夠自動進行文檔擴展的文檔處理方法及系 統(tǒng)。根據(jù)本發(fā)明的第一方面,提供一種文檔處理方法,包括對給定的種子文檔集中的 每篇種子文檔執(zhí)行下列操作以生成擴展文檔集識別該種子文檔的一個或多個實體詞,所
5述實體詞是表示該種子文檔所關注的實體的詞;依據(jù)所識別的每個實體詞,識別該種子文 檔的一個或多個與所依據(jù)的實體詞相關的主題詞;將所識別的每個主題詞,以及識別所述 每個主題詞時所依據(jù)的實體詞組成實體詞_主題詞對;以及將每個所述實體詞_主題詞對 中的實體詞和主題詞同時作為關鍵詞,通過網(wǎng)絡獲得一篇或多篇擴展文檔,并將所述擴展 文檔加入所述擴展文檔集,所述擴展文檔既包含所述每個實體詞_主題詞對中的實體詞, 也包含所述每個實體詞_主題詞對中的主題詞。根據(jù)本發(fā)明的第二方面,提供一種文檔處理方法,包括接收給定的一個或多個實 體詞-主題詞對,每個所述給定的實體詞-主題詞對由一個實體詞和一個主題詞組成,所述 實體詞_主題詞對中的所有實體詞組成實體詞集合,并且每個實體詞所在的實體詞_主題 詞對中的所有主題詞組成對應于該實體詞的主題詞集合;以及對給定的候選文檔集中的每 篇候選文檔執(zhí)行下列操作以生成過濾文檔集識別該候選文檔的一個或多個實體詞,所述 實體詞是表示該文檔所關注的實體的詞;依據(jù)所識別的每個實體詞,識別該候選文檔的一 個或多個與所依據(jù)的實體詞相關的主題詞;利用所述給定的實體詞-主題詞對中的實體詞 和主題詞以及該候選文檔被識別的實體詞和主題詞,判斷是否將該候選文檔加入過濾文檔 集,響應于判斷結(jié)果為是,將該候選文檔加入過濾文檔集。根據(jù)本發(fā)明的第三方面,提供一種文檔處理系統(tǒng),包括應用于給定的種子文檔集 中的每篇種子文檔的下列裝置以生成擴展文檔集實體詞識別裝置,用于識別該種子文檔 的一個或多個實體詞,所述實體詞是表示該文檔所關注的實體的詞;主題詞識別裝置,用 于依據(jù)所識別的每個實體詞,識別該種子文檔的一個或多個與所依據(jù)的實體詞相關的主題 詞;配對裝置,用于將所識別的每個主題詞,以及識別所述每個主題詞時所依據(jù)的實體詞組 成實體詞_主題詞對;以及文檔擴展裝置,將每個所述實體詞_主題詞對中的實體詞和主題 詞同時作為關鍵詞,通過網(wǎng)絡獲得既包含所述每個實體詞-主題詞對中的實體詞,也包含 所述每個實體詞_主題詞對中的主題詞的一篇或多篇擴展文檔,將所述擴展文檔加入所述 擴展文檔集。根據(jù)本發(fā)明的第四方面,提供一種文檔處理系統(tǒng),接收裝置,用于接收給定的一個 或多個實體詞_主題詞對,每個所述給定的實體詞_主題詞對由一個實體詞和一個主題詞 組成,所述實體詞_主題詞對中的所有實體詞組成實體詞集合,并且每個實體詞所在的實 體詞_主題詞對中的所有主題詞組成對應于該實體詞的主題詞集合;以及應用于給定的候 選文檔集中的每篇候選文檔的下列裝置以生成過濾文檔集實體詞識別裝置,用于識別該 候選文檔的一個或多個實體詞,所述實體詞是表示該文檔所關注的實體的詞;主題詞識別 裝置,用于依據(jù)所識別的每個實體詞,識別該候選文檔的一個或多個與所依據(jù)的實體詞相 關的主題詞;判斷裝置,利用所述給定的實體詞-主題詞對中的實體詞和主題詞以及該候 選文檔被識別的實體詞和主題詞,判斷是否將該候選文檔加入過濾文檔集,并且響應于判 斷結(jié)果為是,將該候選文檔加入過濾文檔集。利用本發(fā)明的方法和系統(tǒng),可以自動地實現(xiàn)對已有文檔的擴展或過濾,而無需耗 費大量的人力成本;而且這種擴展或過濾是以對已有文檔進行實體詞-主題詞分析為基礎 的,提高了文檔擴展或過濾的依據(jù)性、準確性。


圖1是示出了根據(jù)本發(fā)明的文檔處理方法的流程圖;圖2是示出了利用焦點實體詞識別技術FNER識別文檔的實體詞的方法的流程圖;圖3是示出了利用焦點主題詞識別技術FTD識別文檔的主題詞的方法的流程圖;圖4是根據(jù)本發(fā)明一實施例的基于通用搜索引擎的網(wǎng)絡爬蟲(WebCrawler)架構(gòu) 圖;圖5A至圖5G是對中文文檔進行識別實體詞和主題詞操作各階段過程的示意圖;圖6A至圖6F是對英文文檔進行識別實體詞和主題詞操作各階段過程的示意圖;圖7是以圖1所示的文檔處理方法為基礎的、包含了對處理后的文檔的過濾步驟 的流程圖;圖7A是利用給定的實體詞_主題詞對過濾給定的候選文檔集的文檔處理方法的 流程圖;圖8是示出了根據(jù)本發(fā)明一實施例的過濾擴展文檔集的方法的流程圖;圖8A是根據(jù)圖7A所示的流程圖中的過濾步驟的詳細流程圖;圖9是示出了根據(jù)圖1所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖;圖10是示出了根據(jù)圖7和圖8所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖;圖11是示出了根據(jù)圖7A和圖8A所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖;圖12是示出了根據(jù)本發(fā)明的方法的企業(yè)搜索服務系統(tǒng)的一種實現(xiàn)的結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合

本發(fā)明的具體實施方式
。圖1是示出了根據(jù)本發(fā)明的文檔處理方法的流程圖。圖1所示的方法從步驟101 開始。對于種子文檔集中的每篇種子文檔,執(zhí)行步驟101-104的操作。在步驟101中,識別 該種子文檔的實體詞。種子文檔集是包含了至少一篇種子文檔的文檔集合,種子文檔是指 確定需要對其進行擴展操作的文檔。也就是說,種子文檔集中包含的所有文檔都需要進行 步驟101-104的操作。種子文檔集中的種子文檔可以在物理上存儲于同一存儲裝置中,也 可以存儲于不同的存儲裝置中。如果某文檔雖然與種子文檔在物理上存儲于同一存儲裝置 中,或者通過某種共同的方式而獲得(如均由企業(yè)搜索服務的用戶推薦),但是只要該文檔 不需要進行步驟101-104所示的擴展操作,那么該文檔就不是種子文檔,從而不包含在種 子文檔集中。種子文檔集包含的種子文檔可以由企業(yè)搜索服務的用戶推薦,例如用戶在本 地或通過網(wǎng)絡從遠程服務器讀取到其認為有價值的文檔后,可以將該文檔向企業(yè)搜索服務 器推薦,從而保存在種子文檔集中。本領域技術人員可以了解,用戶推薦只是生成種子文檔 集的一種方式,還可以采用其它方式生成種子文檔集,例如自動從其它數(shù)據(jù)庫導入等。實體 詞是文檔中所包含的詞,是指一篇文章內(nèi)容上談論的焦點的一個或多個命名實體。對每篇 文檔可以識別出一個或多個實體詞??梢岳媒裹c實體詞識別技術(FNER)來識別文檔中 的實體詞,利用FNER技術識別實體詞的方法具體在圖2中示出并加以說明。響應于在步驟 101中識別出該種子文檔的實體詞,在步驟102中依據(jù)所識別出的實體詞,識別該種子文檔 的主題詞。主題詞是指不同于實體詞的,表示一篇文章中與所識別的實體詞相關的重要的 主題的詞,并且具有某些詞性特征(大多是名詞或動詞)。與實體詞一樣,主題詞也是文檔
7中的詞。需要強調(diào)的是,主題詞是與實體詞相聯(lián)系的,也就是說,要依據(jù)對某篇文檔所識別 出的實體詞來識別主題詞。盡管識別主題詞的過程中需要引入多種參數(shù),但是某篇文檔中 除所識別出的實體詞外的其它詞與實體詞的聯(lián)系是識別主題詞過程中的重要且不可或缺 的參數(shù)??梢酝ㄟ^焦點主題詞識別技術(FTD)來識別文檔的主題詞,利用FTD技術識別主 題詞的方法具體在圖3中示出并加以說明,本領域技術人員可以從圖3所示的FTD流程圖 以及對應的文字說明中了解到在識別主題詞的過程中如何引入與實體詞相關的參數(shù),以體 現(xiàn)所識別的主題詞與實體詞的關聯(lián)。還需要指出的是,依據(jù)同一個所識別出的實體詞,可能 識別出一個或多個主題詞,這是因為在某篇文檔中,可能存在與這篇文檔的某個實體詞相 關的多個主題詞。還要強調(diào),主題詞是與實體詞對應的,具體而言,對于同一篇文檔可能識 別出多個實體詞,然后分別依據(jù)每個所識別出的實體詞在這篇文檔中識別主題詞。通過步驟101和102已經(jīng)識別出了種子文檔集中的各個文檔的實體詞和主題詞, 在步驟103中將所識別的每個主題詞,以及識別所述每個主題詞時所依據(jù)的實體詞組成實 體詞_主題詞對。尤其要注意步驟103組成實體詞-主題詞對的方式,由于種子文檔集中 可能包含多篇文檔,每篇文檔又可能被識別出多個實體詞以及多個主題詞,并不是將種子 文檔集中的文檔被識別出的所有實體詞和主題詞自由組對,而是將每個所識別出的主題詞 與識別出該主題詞時所依據(jù)的那個實體詞組成實體詞_主題詞對。通過表1舉例說明如下 (文檔1、文檔2和文檔3都是種子文檔集中的種子文檔)表 1
文檔編號文檔1文檔2文檔3實體詞AlA2A3A4A5Al主題詞BlBlB2B3B4B5B2B5通過表1可以看出,在步驟101中對文檔1識別出3個實體詞分別是A1、A2和A3。 依據(jù)實體詞Al,在步驟102中識別出對應于Al的主題詞Bl ;依據(jù)實體詞A2,在步驟102中 識別出對應于A2的主題詞Bl ;依據(jù)實體詞A3,在步驟102中識別出對應于A3的2個主題 詞B2和B3。同樣地,對文檔2和文檔3也識別出實體詞和主題詞。那么在步驟103中對上 述所識別出的實體詞和主題詞可以組成的實體詞_主題詞對即為以下8組A1-B1、A2-B1、 A3-B2、A3-B3、A4-B4、A5-B5、A1-B2和A1-B5,而不能組成A4-B5這樣的實體詞-主題詞對, 因為主題詞B5是依據(jù)實體詞A5識別出的,而并非依據(jù)實體詞A4識別出的。通過表1還可 以看出,同一篇文檔可以被識別出多個實體詞(例如文檔2被識別出實體詞A4和B5),依據(jù) 同一個實體詞可以識別出多個主題詞(例如在文檔3中依據(jù)實體詞Al識別出B2和B5兩 個主題詞),不同的文檔可以被識別出相同的實體詞(例如文檔3和文檔1都被識別出實體 詞 Al)。在步驟104中將組好的每一實體詞-主題詞對中的實體詞和主題詞同時作為關鍵 詞,通過網(wǎng)絡搜索獲取一篇或多篇擴展文檔,從而由種子文檔集生成擴展文檔集,所述擴展 文檔集是指由一篇或者多篇擴展文檔組成的集合。以表1中可以組成的主題詞對Al-Bl為 例,將Al-Bl作為關鍵詞通過網(wǎng)絡搜索下載新的文檔(Al和Bl在搜索的過程中是“與”的 關系而并非“或”的關系),所下載的新的文檔是既包含Al也包含Bl的文檔,所下載的新的文檔即構(gòu)成擴展文檔集。需要指出的是,可以利用多種方式實現(xiàn)自動通過網(wǎng)絡搜索下載新 的文檔的過程,例如可以通過基于網(wǎng)絡爬蟲(Web Crawler)技術的通用搜索引擎架構(gòu)來下 載新的文檔,圖4示出了一個基于通用搜索引擎的Web Crawler架構(gòu)圖。綜上所述,通過圖1中的步驟101-104可以實現(xiàn)將種子文檔集擴展為種子文檔集 加擴展文檔集,在企業(yè)搜索服務領域即實現(xiàn)了自動擴展原始搜索數(shù)據(jù)源文檔的技術效果。圖2是示出了利用FNER技術識別文檔的實體詞的方法的流程圖。對于一篇特定 的文檔,在步驟201中進行自動分詞處理,也就是將文檔中包含的單詞一個一個地區(qū)分開。 可以采取最大匹配法(MM法)、逆向最大匹配法(0ΜΜ法)、逐詞遍歷匹配法和設立切分標志 法等方法來進行自動分詞處理。自動分詞處理結(jié)束之后在步驟202中進行自動詞性標注 (POS Tagging),所謂詞性,是指對詞分為名詞、動詞、介詞、形容詞等類別。自動詞性標注 (POS Tagging)可以通過基于概率統(tǒng)計和基于規(guī)則來實現(xiàn)通過計算機自動地給文檔中的詞 標注詞性,具體可以采用CLAWS、VOLSUNGA等本領域常用的方法進行自動詞性標注。自動詞 性標注處理后的結(jié)果例如可以是將名詞標注為η、將動詞標注為ν、將形容詞標注為a、將數(shù) 字標注為m等。在步驟203中識別候選實體詞。首先要強調(diào)的是,所謂實體詞,指的是表示 人名、地名或者組織名的詞,實體詞一定是名詞,也就是一定是在步驟202中被標注為名詞 (η)的詞。識別候選實體詞的技術基本上是對文章中的每個詞抽取特征,例如,這個詞的前 后兩個詞,前后詞的詞性,這個詞是否出現(xiàn)在語義詞典中的(人名的稱謂,地名、組織名的 前綴和后綴等)。然后根據(jù)實體識別的統(tǒng)計模型進行分類判定,超過某個閾值的就判斷為候 選實體詞,這樣就把候選實體詞與普通的名詞區(qū)別開了。在獲得候選實體詞的基礎上,在步 驟204中對每個候選實體詞抽出一系列的特征,將每個候選實體詞被抽出的一些列特征的 特征值構(gòu)成特征向量。例如e是在某篇文檔中被識別出的一個候選實體詞,對e這個實體 詞抽取m個特征,則候選實體詞e的特征向量即可表示為X= Ix1, x2,···, xffl}0關于所抽 出的關于候選實體詞的特征可以是例如該候選實體詞在文章中出現(xiàn)頻率、是否在標題中出 現(xiàn)、其左邊和右邊的詞是否是其它的候選實體詞、該候選實體詞在該文檔中的分布等等。在 步驟205中設定閾值并且對特征向量中的每個特征值設定權重。需要指出的是,通常使用 機器學習的方式在步驟205中設定閾值并為每個特征值設定權重。一般地來講,機器學習 算法的過程是這樣的首先,手工準備一些標注好的訓練樣本集合(例如,每個類別里面包 含一定數(shù)量的屬于該類的例子),然后,按照特定的方法進行特征抽取,由于分類的場景和 數(shù)據(jù)不一樣,所以抽取的分類特征也各不相同,最后,機器學習算法讀取每個訓練樣本的特 征,通過一定的學習準則(例如,正樣本與負樣本空間分割距離最大,或者,分類的誤差最 小,等)得出分類模型,也就是每個特征的權重,即該特征對于分類的貢獻程度,訓練過程 結(jié)束。在線分類時,與訓練過程類似,對未知類別的樣本抽取特征,然后,應用訓練階段得到 的分類模型,計算該樣本與每個類別的相似程度,根據(jù)一個預先設定的閾值進行最后分類 的判斷。目前廣泛應用的機器學習算法有多種,例如,樸素貝頁斯算法(Naive-Bayes),決策 樹算法(Decision Tree),支持向量機算法(Support Vector Machines),等等。其中,支持 向量機算法是目前公認的最好的分類算法,能夠達到最優(yōu)的分類準確率。在步驟206中,利 用下列公式計算每個候選實體詞的分數(shù)Score(X)
mscore (χ)=辦+ 乙(%*6)
9
其中,b表示在步驟205中設定的閾值,Wj表示特征Xj所占的權重,Wj可以為正 值,也可以為負值,當%為負值時表示對具有特征\的候選實體詞被選為實體詞具有負作 用。在步驟206中依據(jù)上述公式算得候選實體詞的分數(shù)之后,在步驟207中將所算得的分 數(shù)與在步驟205中設定的閾值比較,如果score (χ)的值大于0,則將該候選實體詞識別為實 體詞,如果Score(X)值小于0,則不將該候選實體詞識別為實體詞。至此,對每一個在步驟 203中識別的候選實體詞都進行相同的處理和判斷,過濾識別出該文檔的實體詞。圖3是示出了利用焦點主題識別(FTD)技術,依據(jù)所識別的實體詞來識別文檔的 主題詞的方法的流程圖。在步驟301中,對被識別了實體詞的文檔進行自動分詞和自動標 注詞性處理。需要注意,圖3為了示意完整的FTD流程而加入了步驟301,實際上步驟301 在圖2所示的FNER流程中已經(jīng)實施過,所以無須在FTD流程中再次實施,完全可以直接利 用FNER流程中自動分詞和自動詞性標注的處理結(jié)果。在步驟302中,過濾文檔中的停用詞、 實體詞和候選實體詞。這里要過濾的實體詞即為在圖2所示的FNER流程中所識別出的實 體詞,而停用詞是指不可能成為主題詞的一些詞,例如形容詞(美麗的、卓越的)、副詞(的、 地)等。優(yōu)選地,主題詞是名詞。次優(yōu)地,主題詞也可以是動詞??梢岳米詣釉~性標注的 結(jié)果來實現(xiàn)步驟302的過濾。在步驟303中,計算過濾后的文檔中的每個剩余詞與實體詞 的距離。剩余詞是指經(jīng)過濾后,該文檔剩下的詞。剩余詞與實體詞的距離是指,剩余詞與實 體詞之間所間隔的詞數(shù),這里計算所間隔的詞數(shù)時也要將被過濾掉的實體詞、候選實體詞 和停用詞計算在內(nèi)。這樣做的依據(jù)是,通常主題詞與實體詞間的平均距離要比非主題詞與 實體詞間的平均距離小。在步驟304中,計算過濾后的文檔中的每個剩余詞與實體詞在同 一句話中出現(xiàn)的頻率。本領域技術人員可以了解,步驟303和步驟304集中體現(xiàn)了主題詞 是與實體詞相關的,也就是依據(jù)特定的被識別出的實體詞來識別主題詞。尤其需要指出的 是,步驟303和步驟304只是體現(xiàn)主題詞與實體詞的關系的兩個示例性參數(shù),能夠體現(xiàn)主題 詞與實體詞的關系的參數(shù)還可以包括很多種,例如實體詞與主題詞在同一段落里同時出現(xiàn) 的頻率、實體詞與主題詞在指定的距離范圍內(nèi)出現(xiàn)的頻率、實體詞與主題詞在文檔的子標 題和子標題下屬的內(nèi)容中同時出現(xiàn)的頻率等。所謂實體詞與主題詞在指定的距離范圍內(nèi)出 現(xiàn)的頻率,是指與實體詞相隔某特定距離(如3個詞)出現(xiàn)主題詞的次數(shù),也就是說,如果 一個詞在與所識別的主題詞相隔3個詞之內(nèi)出現(xiàn),不論是相隔2個詞還是相隔1個詞,都可 就該特征值獲得相同的權重和分值(特定距離內(nèi)不再區(qū)分)。而所謂實體詞與主題詞在文 檔的子標題和子標題下屬的內(nèi)容中同時出現(xiàn)的頻率是指,在某些網(wǎng)絡文檔中,除了主標題 以外,還存在多個子標題,并且每個子標題下都附帶有一段關于該子標題的內(nèi)容,因此在文 檔的子標題和子標題下屬的內(nèi)容中同時出現(xiàn)實體詞和主題詞的頻率也能夠體現(xiàn)實體詞和 主題詞的關系。綜上所述,可以由多種參數(shù)(特征值)來體現(xiàn)實體詞和主題詞的關系,體現(xiàn) 依據(jù)所識別的實體詞來識別主題詞的“依據(jù)關系”。除了上面列舉的多種參數(shù)(特征值外), 無論本領域技術人員利用何種參數(shù),只要該參數(shù)能夠體現(xiàn)實體詞和主題詞的關聯(lián),也就是 依據(jù)所識別的實體詞來識別主題詞,都落入本發(fā)明的保護范圍。在步驟305中,對每個剩余詞抽取其特征值,構(gòu)成其特征向量。步驟305中抽取的 特征包括在步驟303和304中算得的距離和頻率,還包括剩余詞與實體詞無關的其它一些 特征,例如剩余詞在該篇文檔中出現(xiàn)的頻率、剩余詞的長度、具有同一被識別出的實體詞的 文檔集合中包括該剩余詞的文檔的篇數(shù)等。在步驟306中,設定識別主題詞的閾值,并且設定特征向量中的每個特征的權重值。同在步驟205中設定識別實體詞的閾值并且對特征向 量中的每個特征值設定權重的步驟相同,步驟306也通過機器學習的方式設定識別主題詞 的閾值以及特征向量中的每個特征的權重值。在步驟307中,對每一個剩余詞,根據(jù)所設定 的權重值和特征向量Y= Iy1, y2,…,yj計算分數(shù)。計算公式為其中,c表示在步驟306中設定的閾值,wj表示特征yj所占的權重值,wj可以為 正值,也可以為負值,當wj為負值時表示對具有特征yj的剩余詞被選為主題詞具有負作 用。在步驟307中依據(jù)上述公式算得剩余詞的分數(shù)之后,在步驟308中將所算得的分數(shù)與 在步驟306中設定的閾值比較,如果score (y)的值大于0,則將該剩余詞識別為主題詞,如 果score (y)值小于0,則不將該剩余詞識別為主題詞。至此,對每一個剩余詞都進行相同的 處理和判斷,過濾識別出該文檔的對應于先前被識別出的實體詞的主題詞。下面給出一個對某篇具體的中文文檔識別其實體詞,并依據(jù)所識別的實體詞識別 其主題詞的實例1.利用FNER技術實現(xiàn)實體詞識別步驟1自動分詞及自動詞性標注假設某給定的中文文檔如圖5A所示。用程序?qū)υ撐臋n分詞后效果如圖5B所示, 利用程序進行自動詞性標注后效果如圖5C所示,其中/n表示名詞/V表示動詞/a表示形 容詞/m表示數(shù)字。步驟2識別候選實體詞如圖5D所示,抽取的候選實體詞包括公司名“建華”(根據(jù)周圍的數(shù)碼、公司等判 定)、地點名“中山”(通過邊上的南遷判定)和人名“張三”(通過邊上的總經(jīng)理判定),這 些候選實體詞在圖5D中由黑體表示。步驟3對于每個候選實體詞,抽出一系列的特征,例如,該候選實體詞在文章中出 現(xiàn)的頻率,是否在標題中出現(xiàn),其左邊和右邊的詞是否是候選實體詞,候選實體詞在文章中 的分布,等等。比如簡單來說,如果只考慮頻率信息的特征統(tǒng)計如下建華標題出現(xiàn)1次正文出現(xiàn)4次中山正文出現(xiàn)1次張三正文出現(xiàn)1次步驟4根據(jù)步驟3中識別的候選實體詞,對每個候選實體詞的特征向量X = Ix1, χ 2,…,xj應用FNER分類模型(機器學習得到),從而得到一個估計分值(概率),大于 設定的閾值,則判定為實體詞(focusedentity)。利用下列公式計算每個候選實體詞的分數(shù)score (χ)
mscore (χ) = b + ^w^x·^
j=i圖5E的表中示出了利用上述公式計算實體詞的過程和結(jié)果。其中,圖5E的表中 的閾值0.5相當于公式中的b的相反數(shù),即-b。因此,上例中得到的實體詞為建華。2.依據(jù)所識別的實體詞“建華”來識別主題詞的具體過程。
步驟1根據(jù)每一個識別得到實體詞,需要對該文檔進行分詞和詞性標注。經(jīng)自動 分詞和自動詞性標注處理后的文檔如圖5C所示。需要指出的是,在識別實體詞時已經(jīng)進行 了自動分詞處理和詞性標注處理,因此通常在識別主題詞時無需再次進行自動分詞和詞性 標注處理。步驟2選擇關注的詞性類別(通常為名詞)并過濾文檔中的停用詞(比如的。,) 以及所識別出的實體詞。上述文檔經(jīng)過過濾處理后結(jié)果如圖5F所示(斜體并添加下劃線 標記的為被過濾的實體詞)。需要指出的是,“張三”和“中山”兩個候選實體詞已經(jīng)被過濾 掉而未在圖5F中示出,“建華”實際上也被過濾掉,但是由于在識別主題詞時要依據(jù)所識別 的實體詞“建華”,因此在圖5F中將“建華”以斜體并添加下劃線的方式表示。步驟3通過考慮該文檔的剩余詞(即該文檔被過濾掉所有的候選實體詞之后剩下 的詞)離開所識別的實體詞的距離、剩余詞與所識別的實體詞在同一句話中出現(xiàn)的頻率、 剩余詞在文檔中出現(xiàn)的次數(shù)等參數(shù)來應用FTD主題詞識別技術(通過機器學習得到),并輸 出主題詞。比如該中文文檔中的詞的頻率較高的為數(shù)碼標題1次,正文6次公司正文3次產(chǎn)業(yè)標題1次正文1次科技正文2次對每一個剩余詞,根據(jù)所設定的權重值和特征向量Y= {yi;y2,…,ym}計算分數(shù)。 計算公式為
/ 、 01score (y) = c +^Cwj ^j)
.j.=L圖5G的表中示出了通過上述公式計算主題詞的過程和結(jié)果。其中,圖5G的表中 的閾值0.5相當于公式中的c的相反數(shù),即-C。因此,上例中得到的主題詞為“數(shù)碼”。那 么,實體詞_主題詞對即為“建華_數(shù)碼”。注文檔1中的詞“月”、“日”、“年”等通常會應為長度太短而得到較低的分數(shù)(太 短的詞表達的意思通常有限)。下面給出一個對某篇具體的英文文檔識別其實體詞,并依據(jù)所識別的實體詞識別 其主題詞的實例1.利用FNER技術實現(xiàn)實體詞識別步驟1自動詞性標注假設某給定的英文文檔如圖6A所示。利用程序進行自動詞性標注后效果如圖6B 所示,其中/n表示名詞/V表示動詞/a表示形容詞/m表示數(shù)字。需要指出的是,對于英文 文檔而言,無需進行自動分詞。步驟2識別候選實體詞如圖6C所示,抽取的候選實體詞包括公司名“ JIANHUA” (根據(jù)周圍TV等判定)、 地點名“Beijing”和“China” (通過邊上的in、of等判定),這些候選實體詞在圖6C中由
黑體表示。步驟3對于每個候選實體詞,抽出一系列的特征,例如,該候選實體詞在文章中出
12現(xiàn)的頻率,是否在標題中出現(xiàn),其左邊和右邊的詞是否是候選實體詞,候選實體詞在文章中 的分布,等等。比如簡單來說,如果只考慮頻率信息的特征統(tǒng)計如下JIANHUA標題出現(xiàn)1次正文出現(xiàn)2次China正文出現(xiàn)2次Beijing正文出現(xiàn)1次步驟4根據(jù)步驟3中識別的候選實體詞,對每個候選實體詞的特征向量X = Ix1, X2, -,XfflI應用FNER分類模型(機器學習得到),從而得到一個估計分值(概率),大于設 定的閾值,則判定為實體詞(focusedentity)。利用下列公式計算每個候選實體詞的分數(shù)score (χ)
mscore (χ) = b + Y^iw^x^
j=i圖6D的表中示出了利用上述公式計算實體詞的過程和結(jié)果。其中,圖6D的表中 的閾值0. 5相當于公式中的b的相反數(shù),即-b。因此,上例中得到的實體詞為JIANHUA2.依據(jù)所識別的實體詞“JIANHUA”來識別主題詞的具體過程。步驟1根據(jù)每一個識別得到實體詞,需要對該英文文檔進行詞性標注(不需要進 行自動分詞)。經(jīng)詞性標注處理后的文檔如圖6B所示。需要指出的是,在識別實體詞時已 經(jīng)進行了詞性標注處理,因此通常在識別主題詞時無需再次進行詞性標注處理。步驟2選擇關注的詞性類別(通常為名詞)并過濾文檔中的停用詞(比如of)以 及候選實體詞。上述文檔經(jīng)過過濾處理后結(jié)果如圖6E所示(斜體并添加下劃線標記的為 被過濾的實體詞)。需要指出的是,China和Beijing兩個候選實體詞已經(jīng)被過濾掉而未在 圖6E中示出,JIANHUA實際上也被過濾掉,但是由于在識別主題詞時要依據(jù)所識別的實體 詞JIANHUA,因此在圖6E中將JIANHUA以斜體并添加下劃線的方式表示。步驟3通過考慮該文檔的剩余詞(即該文檔被過濾掉所有的候選實體詞之后剩下 的詞)離開所識別的實體詞的距離、剩余詞與所識別的實體詞在同一句話中出現(xiàn)的頻率、 剩余詞在文檔中出現(xiàn)的次數(shù)等參數(shù)來應用FTD主題詞識別技術(通過機器學習得到),并輸 出主題詞。比如該英文文檔中的詞的頻率較高的為Home標題1次正文3次Appliance標題1次正文3次TV標題1次,正文2次Outlet標題1次正文1次Exhibition 正文 1 次對每一個剩余詞,根據(jù)所設定的權重值和特征向量Y= {yi;y2,…,ym}計算分數(shù)。 計算公式為
/ \ mscore (y) = c + ^C^*^)
j=!圖6F的表中示出了通過上述公式計算主題詞的過程和結(jié)果。其中,圖6F的表中 的閾值0.5相當于公式中的c的相反數(shù),即-C。因此,上例中得到的主題詞為“TV”。那么,該英文文檔被識別出的實體詞_主題詞對即為“JIANHUA-TV”。通過上面給出的對中文文檔和英文文檔識別實體詞,并依據(jù)實體詞識別主題詞的 示例可以看出,無論文檔是何種語言,均可以通過本發(fā)明的方法和系統(tǒng)對其進行識別實體 詞和主題詞的操作。圖7示出了以圖1所示的文檔處理方法為基礎的、包含了對處理后的文檔的過濾 步驟的流程圖。圖7與圖1的區(qū)別在于增加了步驟701和步驟706。在步驟701中,接收 被企業(yè)搜索服務的用戶推薦的種子文檔,以生成種子文檔集。在企業(yè)搜索服務環(huán)境下,用戶 通過某種途徑獲得了一篇其認為比較有價值、可能會對其它用戶的搜索有幫助的文檔,就 可以將這篇文檔推薦至企業(yè)搜索服務的數(shù)據(jù)源存儲中心,成為種子文檔,所有由用戶推薦 的種子文檔即構(gòu)成種子文檔集。執(zhí)行推薦操作的具體方式優(yōu)選地可以是用戶通過點擊企業(yè) 搜索系統(tǒng)中的“推薦”按鈕,而導入其認為有價值的文檔并將該文檔發(fā)布在企業(yè)搜索系統(tǒng)的 搜索數(shù)據(jù)源中(種子文檔集)。步驟702-705分別為圖1中的步驟101-104,該4個步驟的 詳細內(nèi)容已在上文中介紹,在此不再詳述。接下來,在步驟706中對擴展得到的擴展文檔集 進行過濾,這相當于對擴展文檔集進行精簡,刪除一些價值不大的文檔。這樣做的原因是, 在步驟705中,會將所有包含被用于進行網(wǎng)絡搜索的關鍵詞——即實體詞_主題詞對的文 檔從網(wǎng)絡上下載下來,以形成擴展文檔集。而事實上很多這樣的新的文檔雖然包括了實體 詞——主題詞對這樣的關鍵詞,但是文檔本身所關注的實體和主題與企業(yè)搜索服務的用戶 所關注的實體和主題相差甚遠,也就是說,僅通過步驟705而形成的擴展文檔集會包含很 多“噪音”(沒有價值或者不被用戶感興趣的文檔),這是由于通用的互聯(lián)網(wǎng)搜索引擎本身 搜索結(jié)果準確度有限,通常的搜索引擎是基于關鍵詞的搜索,所以,返回的搜索結(jié)果雖然包 括搜索的關鍵詞,但不一定是就是文章的主題。因此需要用之前從網(wǎng)絡上搜索并下載這些 新的文檔的關鍵詞——即實體詞-主題詞對,對擴展文檔集進行過濾形成過濾文檔集,以去 除擴展文檔集中的“噪音”,從而提高擴展種子文檔集的精度和準確度。應當了解,對擴展文 檔集進行過濾的步驟706不是必需的,因為可以根據(jù)不同的對文檔擴展精度的需求而決定 是否需要去除擴展文檔集中可能包含的“噪音”。通過圖7所示的方法,既可以從網(wǎng)絡上自 動下載新的文檔,從而實現(xiàn)對文檔的擴展,又可以對下載的新的文檔進行過濾,從而保證了 文檔擴展的精度和準確度,不會過度地消耗存儲資源。需要指出的是,雖然在圖7中,過濾文檔的步驟是針對在圖1中步驟104生成的擴 展文檔集的文檔進行的,而且過濾所用的實體詞_主題詞對是在圖1所示的步驟103中生 成的實體詞-主題詞對,但是本領域技術人員可以理解,“過濾”所針對的對象可以是任意 的文檔,可以人為地給定一個范圍很大的文檔集(如限定某存儲裝置中存儲的所有文檔均 是需要被過濾的文檔),也可以通過網(wǎng)絡(如因特網(wǎng)、以太網(wǎng)、企業(yè)內(nèi)部局域網(wǎng)、城域網(wǎng)、無 線通信網(wǎng)絡)等以一定的限定條件(如關鍵詞)或者沒有任何限定條件地獲取大量的文 檔,將這些文檔組成的文檔集作為要被過濾的候選文檔集,也可能是,企業(yè)搜索的用戶向企 業(yè)搜索系統(tǒng)推薦了過多的文檔,為了去除一些價值不大的推薦文檔,不是如圖7所示的流 程那樣對這些推薦的文檔進行擴展,而是利用給定的實體詞_主題詞對過濾這些推薦的文 檔。需要強調(diào)的是,候選文檔集是由一篇或多篇候選文檔組成的文檔集合,其中每篇候選 文檔都需要進行過濾操作。作為一種優(yōu)選的實施方式,這樣的候選文檔集可以來自于按照 圖1所示的步驟在步驟104中生成的擴展文檔集,也就是說,擴展文檔集中的擴展文檔的一部分或者全部是需要進行過濾的候選文檔,也就是說,圖7A所示的候選文檔集是圖1所示 的擴展文檔集的子集,或者候選文檔集與擴展文檔集具有交集。如果某文檔不需要進行過 濾,那么該文檔就不是候選文檔,從而不包含在候選文檔集中,無論該文檔是否處于圖1所 示的步驟104中生成的擴展文檔集中,也無論該文檔是否與其它候選文檔在物理上存儲在 同一存儲裝置中,或者是否以相同的方式獲得。圖7所示的步驟701-705在圖7A中不是必 需的步驟,因為作為過濾依據(jù)的“實體詞_主題詞對”也可以是采用種種方式給定的(如手 動輸入給定、通過網(wǎng)絡遠程給定、以一定規(guī)則對任意文檔選取關鍵詞給定)實體詞_主題 詞對,而不是在圖1所示的步驟103中通過識別種子文檔的實體詞和主題詞所組成的實體 詞-主題詞對。本領域技術人員可以直接利用給定的實體詞-主題詞對,對任意候選文檔集 (無論該任意文檔集的來源如何)進行過濾,簡而言之,圖7所示的流程圖還可以是圖7A 步驟701A——給定實體詞-主題詞對;步驟702A——給定候選文檔集;步驟703A——利用 所述給定的實體詞_主題詞對中的實體詞和主題詞過濾所述候選文檔集,以生成過濾文檔 集。圖7A和圖7的聯(lián)系在于,步驟701A中給定的實體詞-主題詞對可以來自于圖7的步 驟704中組成的實體詞-主題詞對,且步驟702A中給定的候選文檔可以是圖7的步驟701 中的種子文檔。在步驟701A接收的全部實體詞-主題詞對中的所有實體詞可以組成實體 詞集合,而對于這個實體詞集合中的每個實體詞,又可以將該實體詞所對應的所有主題詞 組成對應于該實體詞的主題詞集合,這里的“對應”是指通過實體詞_主題詞對表現(xiàn)出的對 應關系。圖8示出了根據(jù)本發(fā)明一實施例的過濾擴展文檔集的方法的流程圖。對擴展文檔 集中的每一篇擴展文檔執(zhí)行步驟801-806,也就是通過對每一篇擴展文檔的過濾實現(xiàn)對整 個擴展文檔集的過濾。首先在步驟801中識別該擴展文檔的實體詞,然后在步驟802中依 據(jù)所識別的實體詞,識別該擴展文檔的與所依據(jù)的實體詞相關的主題詞。步驟801和802 識別擴展文檔集中的擴展文檔的實體詞和主題詞的方式與識別種子文檔集中的種子文檔 的實體詞和主題詞的方式相同,具體內(nèi)容參見圖2和圖3以及相應的文字部分,在此不再詳 述。識別出該擴展文檔的實體詞和主題詞后,在步驟803中將識別出的該擴展文檔的實體 詞與種子文檔集中的實體詞集合中的實體詞進行比較,判斷種子文檔集中的實體詞集合中 是否存在某實體詞與在步驟801中識別出的擴展文檔的實體詞相同,如果存在,則進行后 續(xù)判斷步驟804 ;如果所有的種子文檔集中的實體詞集合中的實體詞均與在步驟801中識 別出的擴展文檔的實體詞不同,則在步驟806中確定該擴展文檔集中的文檔為需要被去除 的“噪音”,從而不將該文檔加入過濾文檔集。所謂種子文檔集中的實體詞集合是指對種子 文檔集中的每篇種子文檔執(zhí)行步驟圖1所示的101-104操作后所識別的全部實體詞的集 合。需要指出的是,步驟802和803并沒有絕對的執(zhí)行上的先后順序,既可以先識別出擴展 文檔的實體詞和主題詞后再進行步驟803的判斷,也可以識別出擴展文檔的實體詞之后就 直接進行步驟803的判斷,判斷結(jié)束后再應需要進行步驟802識別主題詞。在步驟804中,進一步判斷該擴展文檔依據(jù)該實體詞所識別出的主題詞是否與依 據(jù)所述種子文檔集的實體詞集合中的所述某相同的實體詞而識別出的某主題詞相同,如果 存在這樣的種子文檔集中的某主題詞,則進行至步驟805,將該擴展文檔加入過濾文檔集, 否則進行至步驟806,確定該擴展文檔為需要被過濾的“噪音”,從而不將該擴展文檔加入過 濾文檔集。綜上所述,通過圖8所示的過濾擴展文檔集的方法,可以實現(xiàn)去除擴展文檔集中
15的“噪音”擴展文檔的目的,從而提高擴展種子文檔集的精度。顯而易見,在企業(yè)搜索服務 環(huán)境下,種子文檔集和過濾文檔集是企業(yè)搜索服務數(shù)據(jù)源中的文檔集,可以供企業(yè)搜索用 戶檢索,而擴展文檔集由于其中存在“噪音”,因此不是企業(yè)搜索服務數(shù)據(jù)源中的文檔集。當 然,在不需要對擴展文檔集中的噪音進行過濾,也就是對擴展文檔的精度要求不高的情況 下,由于不存在過濾文檔集,因此種子文檔集和擴展文檔集是企業(yè)搜索服務數(shù)據(jù)源中的文 檔集。需要指出的是,盡管圖8示出的是對圖1所示的步驟104生成的擴展文檔集進 行過濾的詳細步驟,但是顯而易見,圖8所示的步驟同樣適用與在圖7A所示的給定實體 詞_主題詞的情況下,對候選文檔集進行過濾的過程,只要將圖8各步驟中的“擴展文檔”替 換為“候選文檔”,將“種子文檔集的實體詞集合”替換為“給定的實體詞_主題詞對的實體 詞集合”即可,具體參見圖8A所示。圖9示出了根據(jù)本發(fā)明的文檔處理系統(tǒng)的結(jié)構(gòu)圖。該系統(tǒng)在圖9中總體上由900 表示。具體地,圖9所示的系統(tǒng)被配置為對種子文檔集中的每篇種子文檔執(zhí)行下列操作以 生成擴展文檔集。系統(tǒng)900包括實體詞識別裝置901、主題詞識別裝置902、配對裝置903和 文檔擴展裝置904。實體詞識別裝置901識別該種子文檔的實體詞。主題詞識別裝置902 耦合于實體詞識別裝置901,依據(jù)所識別的實體詞識別該種子文檔的主題詞。配對裝置903 將實體詞識別裝置901識別出的實體詞,以及主題詞識別裝置902依據(jù)該實體詞識別出的 主題詞組成實體詞_主題詞對。文檔擴展裝置904將配對裝置903配成的實體詞-主題詞 對中的實體詞和主題詞同時作為關鍵詞,利用網(wǎng)絡搜索下載新的文檔,以形成由所述擴展 文檔組成的擴展文檔集。需要指出的是,圖9所示的系統(tǒng)中的裝置901-904分別對應于圖 1所示的方法中的步驟101-104,因此具體的實現(xiàn)過程在此不做詳述。本領域技術人員可以 了解,利用圖9所示的系統(tǒng)可以對種子文檔集進行自動擴展,形成擴展文檔集。在企業(yè)搜索 服務環(huán)境下,就是將搜索數(shù)據(jù)源的內(nèi)容從原先的種子文檔集自動擴展到種子文檔集和擴展 文檔集的總和。圖10示出了根據(jù)本發(fā)明的優(yōu)選實施例的文檔處理系統(tǒng)的結(jié)構(gòu)圖。該系統(tǒng)在圖10 中總體上由1000表示。具體地,圖10所示的系統(tǒng)包括文檔接收裝置1001、實體詞識別裝置 1002、主題詞識別裝置1003、配對裝置1004、文檔擴展裝置1005和文檔過濾裝置1006。與 圖7所示的系統(tǒng)相比,圖10所示的系統(tǒng)增加了文檔接收裝置1001和文檔過濾裝置1006。 文檔接收裝置1001接收被推薦的文檔,以形成種子文檔集,文檔過濾裝置1006對由文檔擴 展1005得到的擴展文檔集中的文檔進行過濾,形成過濾文檔集,從而去除擴展文檔集中的 “噪音”,提高擴展種子文檔集的精度。需要指出的是,圖10所示的系統(tǒng)中的裝置1001-1006 分別對應于圖7所示的方法中的步驟701-706,而文檔過濾裝置1006又可進一步被配置為 實現(xiàn)圖8所示的方法中的步驟801-806。圖11示出了根據(jù)圖7A和圖8A所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖。圖 11所示的系統(tǒng)在總體上由1100表示,具體地,系統(tǒng)1100包括接收裝置1101、實體詞識別裝 置1102、主題詞識別裝置1103和判斷裝置1104。接收裝置1101對應于圖7A所示的步驟 701A,用于接收給定的實體詞-主題詞對。實體詞識別裝置1102對應于圖8A所示的步驟 801A,用于識別給定的候選文檔集中的每篇候選文檔的實體詞。主題詞識別裝置1103對應 于圖8A所示的步驟802A,用于依據(jù)所識別的實體詞識別該候選文檔與所依據(jù)的實體詞相關的主題詞。判斷裝置1104對應于圖8A所示的步驟803A-805A,用于判斷是否將該候選文 檔加入過濾文檔集。圖12示出了根據(jù)本發(fā)明的方法的企業(yè)搜索服務系統(tǒng)的一種實現(xiàn)的結(jié)構(gòu)圖。下面 對圖12中所標注的各個箭頭進行詳細說明。箭頭1表示企業(yè)搜索服務用戶通過網(wǎng)絡信息 及服務,而并非通過企業(yè)搜索服務系統(tǒng)本身去獲取其感興趣的文檔。圖12所示的網(wǎng)絡信 息及服務與企業(yè)搜索服務用戶之間的連接可以使用常規(guī)的網(wǎng)絡連接,例如令牌環(huán)、以太網(wǎng)、 WiFi或其它的常規(guī)通信標準。此外,所述的網(wǎng)絡可以包括任何類型網(wǎng)絡,包括因特網(wǎng)、廣域 網(wǎng)(WAN)、局域網(wǎng)(LAN)、虛擬專用網(wǎng)(VPN)等。如果客戶機通過因特網(wǎng)與服務器通信,則可 以通過傳統(tǒng)的基于TCP/IP套接字的協(xié)議提供連接,并且客戶機將利用因特網(wǎng)服務提供商 建立與服務器的連接。箭頭2、3表示企業(yè)搜索服務用戶將其通過網(wǎng)絡信息及服務獲得的有 價值的文檔經(jīng)由信息推薦模塊向企業(yè)搜索服務系統(tǒng)的信息存儲裝置推薦。信息存儲裝置是 用于存儲企業(yè)搜索服務的搜索數(shù)據(jù)源的存儲裝置。箭頭4表示信息智能擴展模塊接收信息 存儲裝置中存儲的由用戶推薦的文檔,對這些文檔進行擴展操作。信息智能擴展模塊包括 自然語言處理模塊,可以進行FNER實體詞識別和FTD主題詞識別。箭頭5表示信息智能擴 展模塊將識別出的實體詞和主題詞組成對后發(fā)送至信息定時下載模塊,由信息定時下載模 塊按照預定的時間間隔如箭頭6所示向網(wǎng)絡信息及服務提交搜索、下載的請求并下載擴展 的新文檔。箭頭7表示信息定時下載模塊將下載下來的新文檔發(fā)送至信息智能擴展模塊, 由信息智能擴展模塊對這些新文檔進行過濾,去除其中的“噪音”,然后信息智能擴展模塊 將過濾后剩余的新文檔發(fā)送至信息存儲裝置,這些新文檔即與之前用戶推薦的文檔一起成 為企業(yè)搜索服務的搜索數(shù)據(jù)源。過濾,如箭頭9所示,企業(yè)搜索服務用戶可以通過信息檢索 模塊來從信息存儲裝置中存儲的被擴展后的搜索數(shù)據(jù)源中檢索想要的文檔。從圖11所示 的系統(tǒng)可以看出,通過引入信息智能擴展模塊和信息定時下載模塊,既可以定時從網(wǎng)絡上 自動下載新的文檔,從而實現(xiàn)對文檔的擴展,又可以對下載的新的文檔進行過濾,從而保證 了文檔擴展的精度和準確度,不會過度地消耗企業(yè)搜索服務系統(tǒng)的信息存儲裝置的存儲資 源。通過以上對具體實施例的描述,本領域技術人員可以理解,上述的系統(tǒng)、裝置和方 法可以使用計算機可執(zhí)行指令和/或包含在處理器控制代碼中來實現(xiàn),例如在諸如磁盤、 CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲器(固件)的可編程的存儲器或者諸如光學或電 子信號載體的數(shù)據(jù)載體上提供了這樣的代碼。本實施例的裝置、服務器及其單元可以由諸 如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導體、或者諸如現(xiàn)場可編程門 陣列、可編程邏輯設備等的可編程硬件設備的硬件電路實現(xiàn),也可以用由各種類型的處理 器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和軟件的結(jié)合實現(xiàn)。雖然以上結(jié)合具體實施例,對本發(fā)明的利用遠程應用處理本地文件的系統(tǒng)及方法 進行了詳細描述,但本發(fā)明并不限于此。本領域普通技術人員能夠在說明書教導之下對本 發(fā)明進行多種變換、替換和修改而不偏離本發(fā)明的精神和范圍。應該理解,所有這樣的變 化、替換、修改仍然落入本發(fā)明的保護范圍之內(nèi)。本發(fā)明的保護范圍由所附權利要求來限定。
權利要求
一種對種子文檔集中的種子文檔進行擴展的方法,其中所述種子文檔集包括至少一篇種子文檔,所述方法包括識別所述種子文檔的一個或多個實體詞,所述實體詞是表示所述種子文檔所關注的實體的詞;依據(jù)所識別的每個實體詞,識別該實體詞所在的種子文檔的一個或多個與所依據(jù)的該實體詞相關的主題詞;將所識別的每個主題詞,以及識別所述每個主題詞時所依據(jù)的實體詞組成實體詞 主題詞對;以及將每個所述實體詞 主題詞對中的實體詞和主題詞同時作為關鍵詞,通過網(wǎng)絡獲得一篇或多篇擴展文檔,所述擴展文檔既包含所述每個實體詞 主題詞對中的實體詞,也包含所述每個實體詞 主題詞對中的主題詞。
2.如權利要求1所述的方法,其中依據(jù)所識別的每個實體詞,識別該實體詞所在的種 子文檔的一個或多個與所依據(jù)的該實體詞相關的主題詞,包括依據(jù)該種子文檔所包含的除 了所述一個或多個實體詞之外的其它詞與所依據(jù)的實體詞之間的距離,識別該實體詞所在 的種子文檔的一個或多個與所依據(jù)的該實體詞相關的主題詞。
3.如權利要求1所述的方法,其中依據(jù)所識別的每個實體詞,識別該實體詞所在的種 子文檔的一個或多個與所依據(jù)的該實體詞相關的主題詞,包括依據(jù)該種子文檔所包含的除 了所述一個或多個實體詞之外的其它詞與所依據(jù)的實體詞同時在該種子文檔中的同一句 話中出現(xiàn)的頻率,識別該實體詞所在的種子文檔的一個或多個與所依據(jù)的該實體詞相關的 主題詞。
4.如權利要求1所述的方法,還包括接收被推薦的種子文檔,以形成所述種子文檔集。
5.如權利要求1-4任一所述的方法,其中利用焦點實體詞識別技術FNER來識別所述種 子文檔的一個或多個實體詞。
6.如權利要求1-5任一所述的方法,其中利用焦點主題詞識別技術FTD來識別所述種 子文檔的一個或多個主題詞。
7.一種對候選文檔集中的候選文檔進行過濾的方法,所述候選文檔集包括至少一篇候 選文檔,所述方法包括接收給定的一個或多個實體詞_主題詞對,每個所述給定的實體詞_主題詞對由一個 實體詞和一個主題詞組成,所述實體詞-主題詞對中的所有實體詞組成實體詞集合,并且 每個實體詞所在的實體詞_主題詞對中的所有主題詞組成對應于該實體詞的主題詞集合; 以及識別所述候選文檔的一個或多個實體詞,所述實體詞是表示所述候選文檔所關注的實 體的詞;依據(jù)所識別的每個實體詞,識別該實體詞所在的候選文檔的一個或多個與所依據(jù)的該 實體詞相關的主題詞;利用所述給定的實體詞-主題詞對中的實體詞和主題詞以及所述候選文檔被識別的 實體詞和主題詞,判斷是否將所述候選文檔加入過濾文檔集,響應于判斷結(jié)果為是,將所述 候選文檔加入過濾文檔集。
8.如權利要求7所述的方法,其中依據(jù)所識別的每個實體詞,識別所述候選文檔的一個或多個與所依據(jù)的實體詞相關的主題詞,包括依據(jù)該候選文檔所包含的除了所述一個或 多個實體詞之外的其它詞與所依據(jù)的實體詞之間的距離,識別該候選文檔的一個或多個與 所依據(jù)的實體詞相關的主題詞。
9.如權利要求7所述的方法,其中依據(jù)所識別的每個實體詞,識別所述候選文檔的一 個或多個與所依據(jù)的實體詞相關的主題詞,包括依據(jù)所述候選文檔所包含的除了所述一個 或多個實體詞之外的其它詞與所依據(jù)的實體詞同時在所述候選文檔中的同一句話中出現(xiàn) 的頻率,識別所述候選文檔的一個或多個與所依據(jù)的實體詞相關的主題詞。
10.如權利要求7-9任一所述的方法,其中利用所述給定的實體詞-主題詞對中的實體 詞和主題詞、以及所述候選文檔被識別的實體詞和主題詞,判斷是否將所述候選文檔加入 過濾文檔集進一步包括對所述候選文檔執(zhí)行下列操作響應于所述候選文檔的實體詞與所述實體詞集合中的任一實體詞均不同,判斷不將所 述候選文檔加入所述過濾文檔集。
11.如權利要求7-9任一所述的方法,其中利用所述給定的實體詞-主題詞對中的實體 詞和主題詞、以及所述候選文檔被識別的實體詞和主題詞,判斷是否將所述候選文檔加入 過濾文檔集進一步包括對所述候選文檔執(zhí)行下列操作響應于所述候選文檔的實體詞與所述實體詞集合中的某實體詞相同,且依據(jù)所述候選 文檔的實體詞而識別出的所述候選文檔的主題詞與對應于所述實體詞集合中的某實體詞 的主題詞集合中的任一主題詞均不同,判斷不將所述候選文檔加入所述過濾文檔集。
12.如權利要求7-9任一所述的方法,其中利用所述給定的實體詞-主題詞對中的實體 詞和主題詞、以及所述候選文檔被識別的實體詞和主題詞,判斷是否將所述候選文檔加入 過濾文檔集進一步包括對所述候選文檔執(zhí)行下列操作響應于所述候選文檔的實體詞與所述給定的實體詞_主題詞對的實體詞集合中的某 實體詞相同,且依據(jù)所述候選文檔的實體詞而識別出的所述候選文檔的主題詞與對應于所 述實體詞集合中的某實體詞的主題詞集合中的某主題詞相同,判斷將所述候選文檔加入所 述過濾文檔集。
13.如權利要求7-12任一所述的方法,其中利用焦點實體詞識別技術FNER來識別所述 候選文檔的一個或多個實體詞。
14.如權利要求7-13任一所述的方法,其中利用焦點主題詞識別技術FTD來識別所述 候選文檔的一個或多個主題詞。
15.如權利要求7-14任一所述的方法,所述候選文檔集包括權利要求1-6中任一所述 的擴展文檔的至少一部分。
16.如權利要求7-15任一所述的方法,所述給定的實體詞-主題詞對是權利要求1-6 中任一對所述種子文檔集中的所有種子文檔識別出的實體詞_主題詞對。
17.—種對種子文檔集中的種子文檔進行擴展的系統(tǒng),所述種子文檔集包括至少一篇 種子文檔,所述系統(tǒng)包括實體詞識別裝置,用于識別所述種子文檔的一個或多個實體詞,所述實體詞是表示該 文檔所關注的實體的詞;主題詞識別裝置,用于依據(jù)所識別的每個實體詞,識別該實體詞所在的種子文檔的一 個或多個與所依據(jù)的該實體詞相關的主題詞;配對裝置,用于將所識別的每個主題詞,以及識別所述每個主題詞時所依據(jù)的實體詞 組成實體詞-主題詞對;以及文檔擴展裝置,將每個所述實體詞_主題詞對中的實體詞和主題詞同時作為關鍵詞, 通過網(wǎng)絡獲得一篇或多篇擴展文檔,所述擴展文檔既包含所述每個實體詞-主題詞對中的 實體詞,也包含所述每個實體詞-主題詞對中的主題詞。
18.如權利要求17所述的系統(tǒng),其中主題詞識別裝置被配置為利用焦點主題詞識別技 術FTD來識別所述種子文檔的一個或多個主題詞。
19.如權利要求17-18任一所述的系統(tǒng)還包括被配置為執(zhí)行權利要求2-5任一所述的 方法的裝置。
20.一種對候選文檔集中的候選文檔進行過濾的系統(tǒng),所述候選文檔集包括至少一篇 候選文檔,所述系統(tǒng)包括接收裝置,用于接收給定的一個或多個實體詞_主題詞對,每個所述給定的實體詞_主 題詞對由一個實體詞和一個主題詞組成,所述實體詞-主題詞對中的所有實體詞組成實體 詞集合,并且每個實體詞所在的實體詞-主題詞對中的所有主題詞組成對應于該實體詞的 主題詞集合;以及實體詞識別裝置,用于識別所述候選文檔的一個或多個實體詞,所述實體詞是表示該 文檔所關注的實體的詞;主題詞識別裝置,用于依據(jù)所識別的每個實體詞,識別該實體詞所在的候選文檔的一 個或多個與所依據(jù)的該實體詞相關的主題詞;判斷裝置,利用所述給定的實體詞_主題詞對中的實體詞和主題詞以及所述候選文檔 被識別的實體詞和主題詞,判斷是否將所述候選文檔加入過濾文檔集,并且響應于判斷結(jié) 果為是,將所述候選文檔加入過濾文檔集。
21.如權利要求20所述的系統(tǒng),所述候選文檔集包括權利要求1-6中任一所述的擴展 文檔的至少一部分。
22.如權利要求20所述的系統(tǒng),所述給定的實體詞-主題詞對是對權利要求1-6中任 一所述的種子文檔集中的所有種子文檔識別出的實體詞_主題詞對。
23.如權利要求20-22任一所述的系統(tǒng),還包括被配置為執(zhí)行權利要求8-16任一所述 的方法的裝置。
全文摘要
本發(fā)明涉及文檔處理技術,更具體地,涉及在企業(yè)搜索領域擴展作為搜索數(shù)據(jù)源的文檔集的方法和系統(tǒng)。本發(fā)明提供一種對種子文檔集中的種子文檔進行擴展的方法,其中所述種子文檔集包括至少一篇種子文檔,所述方法包括識別所述種子文檔的一個或多個實體詞,所述實體詞是表示所述種子文檔所關注的實體的詞;依據(jù)所識別的每個實體詞,識別該實體詞所在的種子文檔的一個或多個與所依據(jù)的該實體詞相關的主題詞;將所識別的每個主題詞以及識別所述每個主題詞時所依據(jù)的實體詞組成實體詞-主題詞對;將每個所述實體詞-主題詞對中的實體詞和主題詞同時作為關鍵詞,通過網(wǎng)絡獲得一篇或多篇擴展文檔。
文檔編號G06F17/30GK101901235SQ200910203108
公開日2010年12月1日 申請日期2009年5月27日 優(yōu)先權日2009年5月27日
發(fā)明者包勝華, 崔潔, 張俐, 蘇中, 蘇輝 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1