本發(fā)明涉及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
:,尤其涉及一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法及系統(tǒng)。
背景技術(shù):
::據(jù)ibm公司的分析,人類文明有90%的數(shù)據(jù)是在過去兩年內(nèi)產(chǎn)生的,到2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。而我國截至2015年12月,已經(jīng)擁有6.88億的互聯(lián)網(wǎng)用戶,13.06億的手機(jī)用戶,每天可產(chǎn)生海量的數(shù)據(jù)。大數(shù)據(jù)無論在大型企業(yè),還是政府部門都發(fā)揮著相當(dāng)?shù)淖饔谩?015年8月國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號),明確強(qiáng)調(diào)“數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)正日益對全球生產(chǎn)、流通、分配、消費(fèi)活動以及經(jīng)濟(jì)運(yùn)行機(jī)制、社會生活方式和國家治理能力產(chǎn)生重要影響”。該文件同時指出大數(shù)據(jù)的特點(diǎn)為“數(shù)量巨大、來源分散、格式多樣”,要求通過“采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值”。在體量巨大之外,大數(shù)據(jù)的明顯特征是“碎片化”。具體來說是同一個數(shù)據(jù)可能碎片化存儲或者來源于不同的數(shù)據(jù)源,相互獨(dú)立;同一對象的不同側(cè)面和不同維度的數(shù)據(jù)碎片化存儲于不同的地方,互不關(guān)聯(lián);同一側(cè)面和維度的數(shù)據(jù)可能采用不同的結(jié)構(gòu)和模式進(jìn)行組織和表示,互不相同。總結(jié)而言,大數(shù)據(jù)的碎片化形成了多源、割裂、異構(gòu)的數(shù)據(jù)形態(tài)。因此,如何將多源、割裂、異構(gòu)的數(shù)據(jù)融合是一個值得研究的問題。而在現(xiàn)有的系統(tǒng)中,對結(jié)構(gòu)化數(shù)據(jù)的描述都具有獨(dú)特性的。在多源的情況下,相同的信息在不同的系統(tǒng)具有不同的描述方式及不同的表達(dá)結(jié)構(gòu)。因此,現(xiàn)有的數(shù)據(jù)融合及實(shí)體識別的方法都是基于特定結(jié)構(gòu)的數(shù)據(jù),一旦用于不同結(jié)構(gòu)的數(shù)據(jù),算法效果將大大降低。所以,在數(shù)據(jù)融合的過程中,不同的描述方式嚴(yán)重影響數(shù)據(jù)融合的質(zhì)量及增加了數(shù)據(jù)融合的成本?,F(xiàn)有的技術(shù)主要采用基于模式集成方式,即通過模式轉(zhuǎn)換實(shí)現(xiàn)不同數(shù)據(jù)庫之間的轉(zhuǎn)換,只能描述數(shù)據(jù)模型的結(jié)構(gòu)信息,缺少了語義信息。同時根據(jù)1所說,現(xiàn)有的數(shù)據(jù)融合及實(shí)體識別的方法都是基于特定結(jié)構(gòu)的數(shù)據(jù)。而yodsawalaichodpathumwan提出的一種獨(dú)立表達(dá)方式的轉(zhuǎn)換方法只針對于特定的兩個能轉(zhuǎn)換的數(shù)據(jù)庫。但在現(xiàn)實(shí)的情況中,并不是所有的數(shù)據(jù)庫的圖結(jié)構(gòu)都可以相互轉(zhuǎn)換的。技術(shù)實(shí)現(xiàn)要素:為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種能提高信息完整度的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法及系統(tǒng)。本發(fā)明所采取的技術(shù)方案是:一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法,包括以下步驟:將多個數(shù)據(jù)源映射到對應(yīng)的局部映射圖;將各局部映射圖組成總映射圖。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法的進(jìn)一步改進(jìn),所述的將多個數(shù)據(jù)源映射到對應(yīng)的局部關(guān)系圖,這一步驟具體包括:將數(shù)據(jù)源的各數(shù)據(jù)表分別映射到對應(yīng)的局部映射圖中對應(yīng)的節(jié)點(diǎn);將數(shù)據(jù)源中各數(shù)據(jù)表的外鍵引用關(guān)系分別映射到對應(yīng)的局部映射圖中對應(yīng)的邊。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法的進(jìn)一步改進(jìn),所述的節(jié)點(diǎn)包括結(jié)構(gòu)信息和語義信息。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法的進(jìn)一步改進(jìn),所述結(jié)構(gòu)信息包括表結(jié)構(gòu)、字段、字段類型和具體值。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法的進(jìn)一步改進(jìn),所述語義信息包括數(shù)據(jù)表名、屬性名稱、具體屬性和約束條件。本發(fā)明所采用的另一技術(shù)方案是:一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng),包括:局部映射單元,用于將多個數(shù)據(jù)源映射到對應(yīng)的局部映射圖;映射組成單元,用于將各局部映射圖組成總映射圖。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng)的進(jìn)一步改進(jìn),所述的局部映射單元具體包括:節(jié)點(diǎn)映射單元,用于將數(shù)據(jù)源的各數(shù)據(jù)表分別映射到對應(yīng)的局部映射圖中對應(yīng)的節(jié)點(diǎn);邊映射單元,用于將數(shù)據(jù)源中各數(shù)據(jù)表的外鍵引用關(guān)系分別映射到對應(yīng)的局部映射圖中對應(yīng)的邊。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng)的進(jìn)一步改進(jìn),所述的節(jié)點(diǎn)包括結(jié)構(gòu)信息和語義信息。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng)的進(jìn)一步改進(jìn),所述結(jié)構(gòu)信息包括表結(jié)構(gòu)、字段、字段類型和具體值。作為所述的一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng)的進(jìn)一步改進(jìn),所述語義信息包括數(shù)據(jù)表名、屬性名稱、具體屬性和約束條件。本發(fā)明的有益效果是:本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法及系統(tǒng)通過將多源割裂異構(gòu)的數(shù)據(jù)通過轉(zhuǎn)化為圖模型進(jìn)行統(tǒng)一的描述,使得相同的信息具有相同的表達(dá)結(jié)構(gòu)。而且在圖模型中添加了語義信息,使得圖模型對數(shù)據(jù)庫的信息表達(dá)更加完整,有效提高描述的準(zhǔn)確性。附圖說明下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式作進(jìn)一步說明:圖1是本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法的步驟流程圖;圖2是本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法中局部映射的步驟流程圖;圖3是本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng)的模塊方框圖;圖4是本發(fā)明實(shí)施例的圖模型轉(zhuǎn)化圖。具體實(shí)施方式參考圖1,本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法,包括以下步驟:將多個數(shù)據(jù)源映射到對應(yīng)的局部映射圖;將各局部映射圖組成總映射圖。參考圖2,進(jìn)一步作為優(yōu)選的實(shí)施方式,所述的將多個數(shù)據(jù)源映射到對應(yīng)的局部關(guān)系圖,這一步驟具體包括:將數(shù)據(jù)源的各數(shù)據(jù)表分別映射到對應(yīng)的局部映射圖中對應(yīng)的節(jié)點(diǎn);將數(shù)據(jù)源中各數(shù)據(jù)表的外鍵引用關(guān)系分別映射到對應(yīng)的局部映射圖中對應(yīng)的邊。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述的節(jié)點(diǎn)包括結(jié)構(gòu)信息和語義信息。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述結(jié)構(gòu)信息包括表結(jié)構(gòu)、字段、字段類型和具體值。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述語義信息包括數(shù)據(jù)表名、屬性名稱、具體屬性和約束條件。參考圖3,本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化系統(tǒng),包括:局部映射單元,用于將多個數(shù)據(jù)源映射到對應(yīng)的局部映射圖;映射組成單元,用于將各局部映射圖組成總映射圖。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述的局部映射單元具體包括:節(jié)點(diǎn)映射單元,用于將數(shù)據(jù)源的各數(shù)據(jù)表分別映射到對應(yīng)的局部映射圖中對應(yīng)的節(jié)點(diǎn);邊映射單元,用于將數(shù)據(jù)源中各數(shù)據(jù)表的外鍵引用關(guān)系分別映射到對應(yīng)的局部映射圖中對應(yīng)的邊。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述的節(jié)點(diǎn)包括結(jié)構(gòu)信息和語義信息。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述結(jié)構(gòu)信息包括表結(jié)構(gòu)、字段、字段類型和具體值。進(jìn)一步作為優(yōu)選的實(shí)施方式,所述語義信息包括數(shù)據(jù)表名、屬性名稱、具體屬性和約束條件。本發(fā)明實(shí)施例中,采用有向圖描述數(shù)據(jù)庫具體如下:g=〈v,e〉:有向無環(huán)圖(dag),表示數(shù)據(jù)庫的關(guān)系圖,其中vi:圖中的一個節(jié)點(diǎn),對應(yīng)數(shù)據(jù)庫中的一個表i。v={v1,v2,···,vk|1≤k≤n}:圖中的點(diǎn)集,表示數(shù)據(jù)庫中所有表的集合。e=(vi,vj):圖中的一條有向邊,表示數(shù)據(jù)庫中表ti外鍵引用表tj。其中ti:表示數(shù)據(jù)庫中的一個表,t:表示數(shù)據(jù)庫中表的集合。e={(vi,vj)|1≤i,j≤n,i≠j}:圖中的邊集,表示數(shù)據(jù)庫中所有外鍵引用關(guān)系以及邏輯依賴關(guān)系的集合。當(dāng)在存在多個數(shù)據(jù)源的情況時,每個數(shù)據(jù)源映射到一個圖。多個圖組成一個更大的圖,描述多個數(shù)據(jù)源的整體情況,每個小圖描述一個單一數(shù)據(jù)源的情況。本實(shí)施例是可在不需要理解數(shù)據(jù)庫的語義信息及其業(yè)務(wù)邏輯的情況下將數(shù)據(jù)庫轉(zhuǎn)為圖模型,極大降低了轉(zhuǎn)換成本。完成了數(shù)據(jù)源的圖建模后,擬將數(shù)據(jù)融合過程相關(guān)的計算和操作映射到圖上進(jìn)行處理,包括數(shù)據(jù)匯聚、實(shí)體識別、實(shí)體消歧、關(guān)系發(fā)現(xiàn)、實(shí)體擴(kuò)展等操作。因此,建立圖模型時需定義實(shí)體與圖之間的映射關(guān)系。實(shí)體是對物理或抽象存在的事物的一個描述。因此,對事物的不同方面的描述應(yīng)該是能夠唯一地關(guān)聯(lián)和綁定在一起,形成對實(shí)體的相對更加全面的刻畫。實(shí)體的映射圖是一個中心連通圖,即該圖中存在一個中心節(jié)點(diǎn),對圖中任何一個點(diǎn),都存在一條從該點(diǎn)到中心節(jié)點(diǎn)的路徑。中心連通圖數(shù)學(xué)化描述如下:對于一個圖g=<v,e>,g是一個中心連通圖當(dāng)且僅當(dāng)?v_0∈v,對?v∈v,至少存在一條從v到v_0的路徑。基于此,一個圖中的每一個中心連通子圖可能都對應(yīng)一個實(shí)體。在此描述方式下,本發(fā)明假設(shè)已知中心連通子圖是一個實(shí)體,具有實(shí)體的結(jié)構(gòu)信息及其語義信息。描述模型當(dāng)中,節(jié)點(diǎn)包括表結(jié)構(gòu)信息及語義信息,以數(shù)據(jù)表的外鍵關(guān)系為邊與以數(shù)據(jù)庫表結(jié)構(gòu)及語義信息為節(jié)點(diǎn)構(gòu)建圖描述模型。將圖中所有中心連通子圖提取出來,進(jìn)行相似性比較。參考圖4,本發(fā)明實(shí)施例中,將需要比較的實(shí)體轉(zhuǎn)化為通過中心連通子圖進(jìn)行描述,將數(shù)據(jù)庫中表的結(jié)構(gòu)及語義信息都包含到節(jié)點(diǎn)中,具體的節(jié)點(diǎn)描述如下:節(jié)點(diǎn)包括表結(jié)構(gòu)部分及語義部分:1、結(jié)構(gòu)信息:結(jié)構(gòu)部分主要是節(jié)點(diǎn)包含對應(yīng)數(shù)據(jù)表的所有信息,包括表結(jié)構(gòu)、字段、字段類型、具體值等信息。2、語義信息:將節(jié)點(diǎn)對應(yīng)的數(shù)據(jù)表及其屬性進(jìn)行規(guī)范化定義,將其語義信息包含到節(jié)點(diǎn)當(dāng)中。數(shù)據(jù)項(xiàng)是指數(shù)據(jù)表中的一個屬性,數(shù)據(jù)項(xiàng)的語義與它所屬的數(shù)據(jù)表的語義環(huán)境相關(guān),數(shù)據(jù)項(xiàng)的語義信息存在語義及應(yīng)用場景的特定條件約束。一個數(shù)據(jù)項(xiàng)(屬性)si的語義可表示為一個四元關(guān)系組:si=<table,name,iskey,constraint>,其中table是屬性所在的數(shù)據(jù)表名,name是屬性名稱,iskey表示是否為主鍵,constraint是屬性的約束條件。一個數(shù)據(jù)表st的語義可表示為一個三元關(guān)系組:st=<tablename,context,dataitems>,tablename是數(shù)據(jù)表的名稱,context是數(shù)據(jù)表所在的應(yīng)用語境,dataitems是數(shù)據(jù)表所有數(shù)據(jù)項(xiàng)(屬性)的集合,存在一定的隱含約束條件。以數(shù)據(jù)表的外鍵關(guān)系為邊與上述定義的節(jié)點(diǎn)構(gòu)建圖模型,描述一個數(shù)據(jù)源的數(shù)據(jù)庫。多個數(shù)據(jù)源的數(shù)據(jù)庫統(tǒng)一以上述圖模型的方式描述,從而形成統(tǒng)一的表達(dá)方式,可用于實(shí)體識別及相似性查詢,極大降低了數(shù)據(jù)融合的成本。從上述內(nèi)容可知,本發(fā)明一種多源異構(gòu)割裂結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化方法及系統(tǒng)通過將多源割裂異構(gòu)的數(shù)據(jù)通過轉(zhuǎn)化為圖模型進(jìn)行統(tǒng)一的描述,使得相同的信息具有相同的表達(dá)結(jié)構(gòu)。而且在圖模型中添加了語義信息,使得圖模型對數(shù)據(jù)庫的信息表達(dá)更加完整,有效提高描述的準(zhǔn)確性。以上是對本發(fā)明的較佳實(shí)施進(jìn)行了具體說明,但本發(fā)明創(chuàng)造并不限于所述實(shí)施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權(quán)利要求所限定的范圍內(nèi)。當(dāng)前第1頁12當(dāng)前第1頁12