專利名稱:知識查詢裝置和方法
技術領域:
本發(fā)明涉及云計算技術領域,特別地,涉及一種知識查詢裝置和方法。
背景技術:
互聯(lián)網上的數據量大、分布存儲、異構和非結構化使得Web數據挖掘的搜索空間增大,維數高,發(fā)現(xiàn)知識的盲目性變高。如果借助數據的語義信息則能夠進行有效地數據篩選、降低維數、并提高數據質量。傳統(tǒng)的數據挖掘方法基于命題邏輯和單表結構,描述能力弱,無法處理資源描述框架(Resource Description Framework, RDF)三元組表示的Web資源?;跉w納邏輯程序設計anductive Logic Programming, I LP)的方法在近些年得到廣泛研究和應用,一方面能夠有效處理多關系數據結構,另一方面在挖掘過程中還可以充分利用本體描述的領域知識,發(fā)揮語義計算的潛能。無論是基于命題邏輯的方法還是基于歸納邏輯程序設計的ILP方法,在面臨海量 Web數據挖掘時,都要解決樣本量或子句空間過大、單機存儲容量受限的問題,云計算技術提供的海量數據分布式存儲和MapReduce (是Google提出的一個軟件架構,用于大規(guī)模數據集的并行運算)并行計算能力恰好提供了有益的補充。圖1是現(xiàn)有技術中云計算服務分類示意圖。如圖1所示,云計算技術按照服務層次可以分為基礎設施即服務(IaaS, Infrastructure as a Service)、平臺即服務(PaaS,Platform as aservice)和軟件即服務(SaaS,Software as a service)。&iaS應用普及后,一方面在云端積累大量托管數據,這些數據得不到有效挖掘利用;另一方面,由于MaS應用面向專業(yè)市場和特定領域,在MaS 應用之間彼此形成信息孤島,無法保證語義一致性,無法實現(xiàn)有效地信息共享。此外,目前還不能對MaS應用和互聯(lián)網應用數據進行有效地挖掘和利用,因而無法為用戶提供語義查詢和知識服務。
發(fā)明內容
本發(fā)明要解決的一個技術問題是提供一種知識查詢裝置和方法,能夠有效挖掘 SaaS應用和互聯(lián)網應用,從而為用戶提供語義查詢和知識服務。根據本發(fā)明的一方面,提出了一種知識查詢裝置,包括領域知識庫、數據抽取預處理模塊、并行數據挖掘模塊、查詢引擎模塊以及存儲計算模塊,存儲計算模塊包括多個并行的存儲計算節(jié)點,其中,領域知識庫,用于存儲以本體描述的多個概念、多個概念之間的關聯(lián)關系以及指向RDF描述數據的索引結構;數據抽取預處理模塊,分別與領域知識庫和存儲計算模塊相連,用于將從數據源中抽取的Web頁面緩存到多個并行的存儲計算節(jié)點中, 對Web頁面進行聚類分析,對聚類分析出的結果進行RDF描述,以及將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構;每個存儲計算節(jié)點,用于對數據抽取預處理模塊緩存的Web頁面進行局部挖掘,以學習出局部規(guī)則;并行數據挖掘模塊,分別與領域知識庫和存儲計算模塊相連,用于從領域知識庫中讀取索引結構,根據索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點,從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,利用全局規(guī)則更新領域知識庫;查詢引擎模塊,分別與領域知識庫和存儲計算模塊相連,用于接收概念查詢和知識實例查詢請求,在領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的RDF 描述數據進行查詢。根據本發(fā)明裝置的一個實施例,該裝置還包括語義推理模塊,分別與查詢引擎模塊和領域知識庫相連,用于在領域知識庫中查詢不到待查詢概念的情況下對待查詢概念進行推理,以在領域知識庫中找到與待查詢概念語義距離最近的概念。根據本發(fā)明裝置的另一實施例,查詢引擎模塊包括概念查找單元,用于從領域知識庫中查找與待查詢知識實例對應的概念和子概念;節(jié)點查找單元,與概念查找單元相連, 用于根據索引結構查詢與概念和子概念對應的RDF描述數據所在的存儲計算節(jié)點;查詢請求單元,與節(jié)點查找單元相連,用于向查詢出的存儲計算節(jié)點發(fā)出并行查詢請求,并接收查詢出的存儲計算節(jié)點返回的RDF描述數據。根據本發(fā)明裝置的又一實施例,數據源包括MaS應用和互聯(lián)網應用中的至少一種。根據本發(fā)明裝置的再一實施例,全局規(guī)則包括關聯(lián)關系和分類規(guī)則中的至少一種。根據本發(fā)明的另一方面,還提出了一種知識查詢方法,包括從數據源中抽取Web 頁面,并緩存到多個并行的存儲計算節(jié)點中;對Web頁面進行聚類分析,并對聚類分析出的結果進行RDF描述;將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構;從領域知識庫中讀取索引結構,并根據索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點;從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,利用全局規(guī)則更新領域知識庫;接收概念查詢和知識實例查詢請求; 在領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的RDF描述數據進行查詢。根據本發(fā)明方法的一個實施例,該方法還包括利用可視化建模工具構建領域知識庫。根據本發(fā)明方法的另一實施例,將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構的步驟包括判斷領域知識庫中是否存在RDF描述數據抽象出的概念;如果領域知識庫中不存在RDF描述數據抽象出的概念,則將抽象出的概念添加到領域知識庫中,通過分析建立抽象出的概念與領域知識庫中已有概念的關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構;如果領域知識庫中存在RDF描述數據抽象出的概念,則利用抽象出的概念對RDF描述數據進行標注,以建立指向RDF描述數據的索引結構。根據本發(fā)明方法的又一實施例,根據待查詢知識實例對各存儲計算節(jié)點上的RDF 描述數據進行查詢的步驟包括從領域知識庫中查找與待查詢知識實例對應的概念和子概念;根據索引結構查詢與概念和子概念對應的RDF描述數據所在的存儲計算節(jié)點;向查詢出的存儲計算節(jié)點發(fā)出并行查詢請求,并接收查詢出的存儲計算節(jié)點返回的RDF描述數據。根據本發(fā)明方法的再一實施例,數據源包括MaS應用和互聯(lián)網應用中的至少一種。根據本發(fā)明方法的再一實施例,全局規(guī)則包括關聯(lián)關系和分類規(guī)則中的至少一種。本發(fā)明提供的知識查詢裝置和方法,在云計算服務分類層次中提出KaaS概念,將從數據源中分析出的概念和挖掘出的全局規(guī)則更新到領域知識庫中,以方便地為客戶端提供語義查詢和知識服務。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分。在附圖中圖1是現(xiàn)有技術中云計算服務分類示意圖。圖2是本發(fā)明云計算服務層次分類示意圖。圖3是本發(fā)明裝置的一個實施例的結構示意圖。圖4是本發(fā)明的二級索引結構示意圖。圖5是本發(fā)明裝置的另一實施例的結構示意圖。圖6是本發(fā)明裝置的又一實施例的結構示意圖。圖7是本發(fā)明方法的一個實施例的流程示意圖。圖8是本發(fā)明方法的另一實施例的流程示意圖。圖9是本發(fā)明實施例中網關產品本體模型的示意圖。圖10是本發(fā)明實施例中領域知識庫更新后的網關概念關系示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述,其中說明本發(fā)明的示例性實施例。本發(fā)明的示例性實施例及其說明用于解釋本發(fā)明,但并不構成對本發(fā)明的不當限定。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應用或使用的任何限制。圖2是本發(fā)明云計算服務層次分類示意圖。如圖2所示,為了解決現(xiàn)有技術中的問題,本發(fā)明首先提出在現(xiàn)有的云計算服務層次分類上增加知識即服務層(Knowledge as必ervice,KaaS),以完善云計算服務分類體系。本發(fā)明的目的是通過語義Web挖掘與云計算技術的結合提出一種以本體論為基礎、以云計算MapReduce框架為并行計算模型的知識服務系統(tǒng)和方法。圖3是本發(fā)明裝置的一個實施例的結構示意圖。如圖3所示,該實施例的裝置10可以包括領域知識庫11、數據抽取預處理模塊 12、并行數據挖掘模塊13、查詢引擎模塊14以及存儲計算模塊15,存儲計算模塊15包括多個并行的存儲計算節(jié)點1511,其中,領域知識庫11,用于存儲以本體描述的多個概念、多個概念之間的關聯(lián)關系以及指向RDF描述數據的索引結構,在一個實例中,索引結構如圖4所示;數據抽取預處理模塊12,分別與領域知識庫11和存儲計算模塊15相連,用于將從數據源中抽取的Web頁面緩存到多個并行的存儲計算節(jié)點1511中,對Web頁面進行聚類分析,對聚類分析出的結果進行RDF描述,以及將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構,其中,數據源可以包括MaS應用和互聯(lián)網應用中的至少一種;每個存儲計算節(jié)點1511,用于對數據抽取預處理模塊12緩存的Web頁面進行局部挖掘,以學習出局部規(guī)則,例如,可以啟動節(jié)點ILP算法進行局部挖掘,本節(jié)點學習出的局部規(guī)則作為候選規(guī)則;并行數據挖掘模塊13,分別與領域知識庫11和存儲計算模塊15相連,用于從領域知識庫中讀取索引結構,根據索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點,從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,利用全局規(guī)則更新領域知識庫,其中,全局規(guī)則可以包括關聯(lián)關系和分類規(guī)則中的至少一種;查詢引擎模塊14,分別與領域知識庫11和存儲計算模塊15相連,用于接收概念查詢和知識實例查詢請求,在領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的RDF描述數據進行查詢。該實施例在云計算服務分類層次中提出KaaS概念,將從數據源中分析出的概念和挖掘出的全局規(guī)則更新到領域知識庫中,以方便地為客戶端提供語義查詢和知識服務。圖5是本發(fā)明裝置的另一實施例的結構示意圖。如圖5所示,與圖3中的實施例相比,該實施例的裝置20還可以包括語義推理模塊21,分別與查詢引擎模塊14和領域知識庫11相連,用于在領域知識庫中查詢不到待查詢概念的情況下對待查詢概念進行推理,以在領域知識庫中找到與待查詢概念語義距離最近的概念。圖6是本發(fā)明裝置的又一實施例的結構示意圖。如圖6所示,與圖3中的實施例相比,該實施例的裝置30中的查詢引擎模塊31可以包括概念查找單元311,用于從領域知識庫中查找與待查詢知識實例對應的概念和子概念;節(jié)點查找單元312,與概念查找單元311相連,用于根據索引結構查詢與概念和子概念對應的RDF描述數據所在的存儲計算節(jié)點;查詢請求單元313,與節(jié)點查找單元312相連,用于向查詢出的存儲計算節(jié)點發(fā)出并行查詢請求,并接收查詢出的存儲計算節(jié)點返回的RDF描述數據。圖7是本發(fā)明方法的一個實施例的流程示意圖。如圖7所示,該實施例可以包括以下步驟S102,從數據源中抽取Web頁面,并緩存到多個并行的存儲計算節(jié)點中,其中,數據源可以包括MaS應用和互聯(lián)網應用中的至少一種,并且數據源的個數可以是一個或多
例如,可以利用關鍵字從MaS應用和/或互聯(lián)網應用中抽取數據,并將抽取出的數據存儲到各個計算節(jié)點中,其中,存儲數據時對計算節(jié)點的選取可以綜合考慮各個計算節(jié)點的負荷和運算處理能力。S104,對Web頁面進行聚類分析,并對聚類分析出的結果進行RDF描述,其中,聚類分析的目的是對Web頁面數據進行粗劃分,以提高挖掘的效率,進行聚類分析后形成的RDF 描述數據代表抽象出的概念和概念的內涵;舉例說明,輸入一組關鍵字(該組關鍵字可以是抽取數據的關鍵字)和Web頁面數據,然后采用諸如SVM(Support Vector Machines)等方法進行聚類分析,將Web頁面數據劃分成不同的粗類,再對每個粗類進行RDF描述。Sioedf RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構;具體地,可以判斷領域知識庫中是否存在RDF描述數據抽象出的概念,例如,可以通過關鍵詞或概念相似度比對的方式將抽象出的概念與領域知識庫中的相關概念進行比對;如果領域知識庫中不存在RDF描述數據抽象出的概念,則將抽象出的概念添加到領域知識庫中,通過分析抽象出的概念的內涵建立抽象出的概念與領域知識庫中已有概念的關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構;如果領域知識庫中存在RDF描述數據抽象出的概念,則利用抽象出的概念對RDF描述數據進行標注,以建立指向 RDF描述數據的索引結構。S108,從領域知識庫中讀取索引結構,并根據索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點。S110,每個任務所在的存儲計算節(jié)點可以利用ILP算法對數據源進行規(guī)則挖掘, 并行數據挖掘模塊從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,在生成全局規(guī)則的過程中,可以對各個局部規(guī)則進行組合和/ 或剔除局部規(guī)則中不合理的規(guī)則,再利用全局規(guī)則更新領域知識庫,其中,全局規(guī)則可以包括關聯(lián)關系和分類規(guī)則中的至少一種;舉例說明,在S104中進行聚類分析后,可能會存在同一概念的多個RDF描述,并且這些描述分布在不同的計算節(jié)點上,在本步驟中需要對這些分布在不同計算節(jié)點上的RDF 描述數據分別進行挖掘,得到每個計算節(jié)點的局部規(guī)則,然后再并行挖掘不同計算節(jié)點的局部規(guī)則以得到最終的全局規(guī)則。以網關為例,在領域知識庫中最初定義了網關,但是沒有語音網關這個子概念的定義,可以通過聚類分析后得到語音網關這個子概念,通過并行挖掘后得到這個子概念的分類規(guī)則(例如,這個子概念的屬性信息),語音網關是與語音網關相關的這一類數據的標簽。Sl 12,接收概念查詢和知識實例查詢請求。S114,在領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的RDF描述數據進行查詢;具體地,可以從領域知識庫中查找與待查詢知識實例對應的概念和子概念;根據索引結構查詢與概念和子概念對應的RDF描述數據所在的存儲計算節(jié)點;向查詢出的存儲計算節(jié)點發(fā)出并行查詢請求,并接收查詢出的存儲計算節(jié)點返回的RDF描述數據;舉例說明,如果所查詢的為知識實例,則需要執(zhí)行查詢重寫,S卩,依據領域知識庫中的索引結構將對知識實例的查詢重寫為對相應存儲計算節(jié)點上RDF描述數據的分布式查詢。該實施例通過ILP算法進行規(guī)則的挖掘可以有效地利用語義信息和背景知識。同時,利用云平臺的海量存儲能力和分布式計算能力增強了 Web挖掘的效率,在并行挖掘過程中利用語義標注的索引信息能夠方便地將任務分布到多個存儲計算節(jié)點,提高了任務執(zhí)行的效率。圖8是本發(fā)明方法的另一實施例的流程示意圖。如圖8所示,該實施例可以包括以下步驟S202,利用可視化建模工具構建領域知識庫;S204,從數據源中抽取Web頁面,并緩存到多個并行的存儲計算節(jié)點中;S206,對Web頁面進行聚類分析,并對聚類分析出的結果進行RDF描述;S208,將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在領域知識庫中建立指向RDF描述數據的索引結構;S210,從領域知識庫中讀取索引結構,并根據索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點;S212,從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,利用全局規(guī)則更新領域知識庫;S214,接收概念查詢和知識實例查詢請求;S216,在領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的RDF描述數據進行查詢。在本發(fā)明方法的又一實施例中,以概念“網關”為例進行說明。網關經常在家庭或者小型企業(yè)網絡中使用,用于連接局域網和Internet,是把一種協(xié)議轉換成另一種協(xié)議的設備。在領域知識庫中構建的網關產品初始本體如圖9所示,按照圖9對網關的定義可以將網關抽象成包含用戶端口、網絡端口等,用于完成協(xié)議轉換的設備。經過資源搜集和聚類分析,結合領域知識庫中的網關概念,得到與網關本體語義相關的RDF描述數據(部分)如下<rdf:RDF><rdf !Description about =,,concept_l,,><k:tag>gw</k:tag><k:hasUports><rdf :Bag><rdf: Ii rdf: resource =,,ethernet,,/><rdf:li rdf:resource =,,fxs,,/></rdf :Bag></k:hasUports><k:hasNports><rdf :Bag>
<rdfIi rdfresource =,ethernet,,/〉
</rdf:Bag>
</k:hasNports>
<k:hasProtocols>
〈rdf:Bag>
〈rdf:Ii rdfresource =tcp/ip,,/>
〈rdf:Ii rdfresource =http"/>
〈rdf:Ii rdfresource =nat”/>
〈rdf:Ii rdfresource =sip,,/>
〈rdf:Ii rdfresource =h323”/>
</rdf:Bag>
</k:hasProtocols>
〈/rdf: Description〉
<rdf!Description about ==,,concept_2,,>
<k:tag>gw</k:tag>
<k:hasUports>
〈rdf:Bag>
〈rdf: Ii rdf: resource =,,ethernet,,/>
</rdf:Bag>
</k:hasUports>
<k:hasNports>
〈rdf:Bag>
〈rdf:Ii rdfresource =’,ethernet,,/〉
</rdf:Bag>
</k:hasNports>
<k:hasProtocols>
〈rdf:Bag>
〈rdf:Ii rdfresource =” tcp/ip,,/>
〈rdf:Ii rdfresource =” http,,/>
〈rdf:Ii rdfresource =” https”/>
〈rdf: lirdf: resource =,,nat”/>
〈rdf:Ii rdfresource =,,ipsec,,/>
</rdf:Bag>
</k:hasProtocols>
〈/rdf: Description〉
在上述RDF描述數據中,conc印t—1和conc印t—2表示聚類分析后得到的RDF描述數據,gw表示語義標記,聲明這兩個概念在語義上與網關本體最接近(具備用戶端口和
網絡端口,并且實現(xiàn)一定的協(xié)議轉換功能),接下來利用ILP方法可以從RDF描述數據中學習出COiK^pt_l和COn(^p_2的分類規(guī)則(即,找出這個兩個概念的不同點)
class(X,concept_l) :hasUports(X, fxs)class(X,concept_l) :hasProtocols(X, sip)class(X,concept_l) :hasProtocols(X, h323)class(X,concept_2) :hasProtocols(X,https)class(X,concept_2) :hasProtocols (X,ipsec)上述規(guī)則表明,COiK^pt_l代表的產品集合都有共同的特征,即,帶語音接口 fxs、 支持VOip標準協(xié)議(例如,sip、h322),是語音網關的顯著特征;COn(^pt_2代表的產品集合都支持https協(xié)議和ipsec協(xié)議,是安全網關必備的特征。concept, 1和coiK^pt_2將作為新的概念補充到領域知識庫中,并補充上述ILP方法挖掘的分類規(guī)則,同時與網關概念建立is-a(是)關系。由于在云計算環(huán)境中,RDF描述數據分布在各個云存儲計算節(jié)點,需要在領域知識庫中建立全局的索引結構,以便于進行分布式并行挖掘和分布式并行查詢。該索引結構可以為兩級索引,如圖4所示,一級索引用于查找領域知識庫中概念的定義,字段包括概念名、云計算節(jié)點ID、存放概念RDF描述的數據文件全路徑名和RDF文件中概念的資源標識URI ;二級索引用于查找概念的實例,字段包括概念名、以Web文件URI 表示的概念實例。兩級索引均以概念名作為關鍵字。在本例中,概念名為concept」和 COn(^pt_2,這兩個概念分別代表了語音網關產品和安全網關產品。在并行挖掘階段,容易從索引結構中計算出MapReduce的任務個數,并啟動相關節(jié)點的ILP學習算法,得出滿足于局部最優(yōu)的分類規(guī)則,即,區(qū)別于同一節(jié)點上的其它概念的特征描述,并行數據挖掘模塊收集和比對所有來自計算節(jié)點的分類規(guī)則(即,候選規(guī)則),如果某個規(guī)則不是全局最優(yōu),即,可以蘊含出全局中某個負例,則需要進一步學習以得到全局的最優(yōu)規(guī)則。對于本例而言,假設本例中的兩個概念的RDF描述存儲在不同的計算節(jié)點,分別啟動ILP算法后,由于兩個節(jié)點各自只有一個概念,本地ILP算法直接結束, 所有的RDF描述將作為候選規(guī)則由并行數據挖掘模塊收集,并進行全局學習得到上述關于 concept_l和concept_2的網關分類規(guī)則。在本例中,挖掘出規(guī)則并更新領域知識庫后得到的網關概念關系如圖10所示,網關概念可以包括語音網關和安全網關兩個子概念。對領域知識庫中領域知識的查詢流程可以包括客戶端提交網關概念查詢請求, 查詢引擎模塊從領域知識庫中得到語音網關和安全網關兩個子概念,并根據索引結構,得到兩個概念的RDF描述數據所在的存儲計算節(jié)點,并將對網關概念的知識查詢轉換成對語音網關和安全網關的RDF描述數據查詢請求,這個查詢重寫同樣采用MapReduce并行架構, 存儲計算節(jié)點啟動后,將查詢RDF描述數據并返回給查詢引擎模塊,查詢引擎模塊匯總查詢結果后返回給客戶端。該實施例由于在領域知識庫中引入了索引結構,可以快速得到MapReduce任務個數和每個任務所在的計算節(jié)點,并且由于基于MapReduce架構實現(xiàn)ILP方法的挖掘過程和領域知識庫的知識查詢過程的分布式并行執(zhí)行,所以顯著提高了挖掘和查詢的執(zhí)行效率。雖然已經通過示例對本發(fā)明的一些特定實施例進行了詳細說明,但是本領域的技術人員應該理解,以上示例僅是為了進行說明,而不是為了限制本發(fā)明的范圍。本領域的技術人員應該理解,可在不脫離本發(fā)明的范圍和精神的情況下,對以上實施例進行修改。本發(fā)明的范圍由所附權利要求來限定。
權利要求
1.一種知識查詢裝置,其特征在于,包括領域知識庫、數據抽取預處理模塊、并行數據挖掘模塊、查詢引擎模塊以及存儲計算模塊,所述存儲計算模塊包括多個并行的存儲計算節(jié)點,其中,所述領域知識庫,用于存儲以本體描述的多個概念、所述多個概念之間的關聯(lián)關系以及指向RDF描述數據的索引結構;所述數據抽取預處理模塊,分別與所述領域知識庫和所述存儲計算模塊相連,用于將從數據源中抽取的Web頁面緩存到所述多個并行的存儲計算節(jié)點中,對所述Web頁面進行聚類分析,對聚類分析出的結果進行RDF描述,以及將RDF描述數據抽象出的概念添加到所述領域知識庫中、和/或與所述領域知識庫中的概念建立關聯(lián)關系,并在所述領域知識庫中建立指向所述RDF描述數據的索引結構;每個存儲計算節(jié)點,用于對所述數據抽取預處理模塊緩存的Web頁面進行局部挖掘, 以學習出局部規(guī)則;所述并行數據挖掘模塊,分別與所述領域知識庫和所述存儲計算模塊相連,用于從所述領域知識庫中讀取索引結構,根據所述索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點,從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,利用所述全局規(guī)則更新所述領域知識庫;所述查詢引擎模塊,分別與所述領域知識庫和所述存儲計算模塊相連,用于接收概念查詢和知識實例查詢請求,在所述領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的RDF描述數據進行查詢。
2.根據權利要求1所述的裝置,其特征在于,所述裝置還包括語義推理模塊,分別與所述查詢引擎模塊和所述領域知識庫相連,用于在所述領域知識庫中查詢不到待查詢概念的情況下對所述待查詢概念進行推理,以在所述領域知識庫中找到與所述待查詢概念語義距離最近的概念。
3.根據權利要求1所述的裝置,其特征在于,所述查詢引擎模塊包括概念查找單元,用于從所述領域知識庫中查找與所述待查詢知識實例對應的概念和子概念;節(jié)點查找單元,與所述概念查找單元相連,用于根據所述索引結構查詢與所述概念和子概念對應的RDF描述數據所在的存儲計算節(jié)點;查詢請求單元,與所述節(jié)點查找單元相連,用于向查詢出的存儲計算節(jié)點發(fā)出并行查詢請求,并接收所述查詢出的存儲計算節(jié)點返回的RDF描述數據。
4.根據權利要求1所述的裝置,其特征在于,所述數據源包括MaS應用和互聯(lián)網應用中的至少一種。
5.根據權利要求1所述的裝置,其特征在于,所述全局規(guī)則包括關聯(lián)關系和分類規(guī)則中的至少一種。
6.一種知識查詢方法,其特征在于,包括從數據源中抽取Web頁面,并緩存到多個并行的存儲計算節(jié)點中;對所述Web頁面進行聚類分析,并對聚類分析出的結果進行RDF描述;將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與所述領域知識庫中的概念建立關聯(lián)關系,并在所述領域知識庫中建立指向所述RDF描述數據的索引結構;從所述領域知識庫中讀取索引結構,并根據所述索引結構計算Map并行處理的任務數和每個任務所在的存儲計算節(jié)點;從每個任務所在的存儲計算節(jié)點收集挖掘出的局部規(guī)則,并根據所收集的局部規(guī)則生成全局規(guī)則,利用所述全局規(guī)則更新所述領域知識庫; 接收概念查詢和知識實例查詢請求;在所述領域知識庫中進行概念查詢,以及根據待查詢知識實例對各存儲計算節(jié)點上的 RDF描述數據進行查詢。
7.根據權利要求6所述的方法,其特征在于,所述方法還包括 利用可視化建模工具構建所述領域知識庫。
8.根據權利要求6所述的方法,其特征在于,所述將RDF描述數據抽象出的概念添加到領域知識庫中、和/或與領域知識庫中的概念建立關聯(lián)關系,并在所述領域知識庫中建立指向所述RDF描述數據的索引結構的步驟包括判斷所述領域知識庫中是否存在RDF描述數據抽象出的概念; 如果所述領域知識庫中不存在所述RDF描述數據抽象出的概念,則將所述抽象出的概念添加到所述領域知識庫中,通過分析建立所述抽象出的概念與所述領域知識庫中已有概念的關聯(lián)關系,并在所述領域知識庫中建立指向所述RDF描述數據的索引結構;如果所述領域知識庫中存在所述RDF描述數據抽象出的概念,則利用所述抽象出的概念對所述RDF描述數據進行標注,以建立指向所述RDF描述數據的索引結構。
9.根據權利要求6所述的方法,其特征在于,所述根據待查詢知識實例對各存儲計算節(jié)點上的RDF描述數據進行查詢的步驟包括從所述領域知識庫中查找與所述待查詢知識實例對應的概念和子概念; 根據所述索引結構查詢與所述概念和子概念對應的RDF描述數據所在的存儲計算節(jié)向查詢出的存儲計算節(jié)點發(fā)出并行查詢請求,并接收查詢出的存儲計算節(jié)點返回的 RDF描述數據。
10.根據權利要求6所述的方法,其特征在于,所述數據源包括MaS應用和互聯(lián)網應用中的至少一種。
11.根據權利要求6所述的方法,其特征在于,所述全局規(guī)則包括關聯(lián)關系和分類規(guī)則中的至少一種。
全文摘要
本發(fā)明公開了一種知識查詢裝置和方法。其中,該裝置包括領域知識庫、數據抽取預處理模塊、并行數據挖掘模塊、查詢引擎模塊以及存儲計算模塊,存儲計算模塊包括多個并行的存儲計算節(jié)點,其中,數據抽取預處理模塊分別與領域知識庫和存儲計算模塊相連,并行數據挖掘模塊分別與領域知識庫和存儲計算模塊相連,查詢引擎模塊分別與領域知識庫和存儲計算模塊相連。本發(fā)明在云計算服務分類層次中提出KaaS概念,將從數據源中分析出的概念和挖掘出的全局規(guī)則更新到領域知識庫中,以方便地為客戶端提供語義查詢和知識服務。
文檔編號G06F17/30GK102567314SQ20101057762
公開日2012年7月11日 申請日期2010年12月7日 優(yōu)先權日2010年12月7日
發(fā)明者馮曉冬, 劉國萍, 廣小明, 楊明川, 蔡永順, 賈海燕, 趙鵬, 雷葆華, 顧茜, 饒少陽 申請人:中國電信股份有限公司