亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置與流程

文檔序號:11155611閱讀:598來源:國知局
一種非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置與制造工藝

本發(fā)明屬于數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其是涉及一種非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置。



背景技術(shù):

結(jié)構(gòu)化數(shù)據(jù)庫,又稱關(guān)系型數(shù)據(jù)庫,是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫。關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部分組成。關(guān)系數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)化數(shù)據(jù)的嚴格約束,如:字段類型、字段長度、精度、默認值等。是當前數(shù)據(jù)存儲與管理應(yīng)用的主流技術(shù)。

結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù)。相對于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等等。

隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)近些年來增長速度驚人,且以44倍的速度迅猛增長,而這些非結(jié)構(gòu)化數(shù)據(jù)又不適合存儲在關(guān)系型數(shù)據(jù)庫中,應(yīng)運產(chǎn)生了非結(jié)構(gòu)化數(shù)據(jù)庫,非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度不等,并且每個字段的記錄又可以由可重復或不可重復的子字段構(gòu)成的數(shù)據(jù)庫。正是這種特性,成就了非結(jié)構(gòu)數(shù)據(jù)庫在非結(jié)構(gòu)化數(shù)據(jù)讀取方面的高效,但因為其自身設(shè)計特點,非結(jié)構(gòu)數(shù)據(jù)庫在回答一些結(jié)構(gòu)化方面的問題時變得非常低效,如:數(shù)據(jù)庫中是否有某某數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)庫往往需要遍歷整庫數(shù)據(jù),才能回答類似問題,完全沒有結(jié)構(gòu)化數(shù)據(jù)依靠元數(shù)據(jù)及結(jié)構(gòu)化查詢語言SQL來的高效。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供了一種非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置,以解決非結(jié)構(gòu)化數(shù)據(jù)無法在關(guān)系型數(shù)據(jù)庫中應(yīng)用的技術(shù)問題。

一方面,本發(fā)明實施例提供了一種非結(jié)構(gòu)化數(shù)據(jù)的存儲方法,包括:

獲取非結(jié)構(gòu)化數(shù)據(jù)文件,并分解所述文件;

根據(jù)所述分解結(jié)果獲取所述文件中的結(jié)構(gòu)化信息,根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù)。

進一步的,在根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù)之前,還包括:

對所述結(jié)構(gòu)化信息進行清洗。

進一步的,所述根據(jù)所述分解結(jié)果獲取所述文件中的結(jié)構(gòu)化信息,包括:

根據(jù)所述分解結(jié)果獲取所述文件中的多個不同類型的結(jié)構(gòu)化信息;

所述根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù),包括:

按照所述類型將所述非結(jié)構(gòu)化數(shù)據(jù)存儲在多張系統(tǒng)表中。

一方面,本發(fā)明實施例提供了一種非結(jié)構(gòu)化數(shù)據(jù)的查詢方法,包括:

采用標準查詢語言在系統(tǒng)表中進行查找;

根據(jù)所述查找得到的結(jié)構(gòu)化數(shù)據(jù)確定非結(jié)構(gòu)化數(shù)據(jù)。

進一步的,所述根據(jù)所述查找得到的結(jié)構(gòu)化數(shù)據(jù)確定非結(jié)構(gòu)化數(shù)據(jù),包括:

根據(jù)所述結(jié)構(gòu)化數(shù)據(jù)確定非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況;

根據(jù)非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況進行重組,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的重現(xiàn)。

一方面,本發(fā)明實施例提供了一種非結(jié)構(gòu)化數(shù)據(jù)的存儲裝置,包括:

分解單元,用于獲取非結(jié)構(gòu)化數(shù)據(jù)文件,并分解所述文件;

存儲單元,用于根據(jù)所述分解結(jié)果獲取所述文件中的結(jié)構(gòu)化信息,根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù)。

進一步的,所述裝置還包括:

清洗單元,用于對所述結(jié)構(gòu)化信息進行清洗。

更進一步的,所述存儲單元用于:

根據(jù)所述分解結(jié)果獲取所述文件中的多個不同類型的結(jié)構(gòu)化信息;

按照所述類型將所述非結(jié)構(gòu)化數(shù)據(jù)存儲在多張系統(tǒng)表中。

另一方面,本發(fā)明實施例提供了一種非結(jié)構(gòu)化數(shù)據(jù)的查詢裝置,包括:

查找單元,用于采用標準查詢語言在系統(tǒng)表中進行查找;

確定單元,用于根據(jù)所述查找得到的結(jié)構(gòu)化信息確定非結(jié)構(gòu)化數(shù)據(jù)。

進一步的,所述確定單元用于:

根據(jù)所述結(jié)構(gòu)化信息確定非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況;

根據(jù)非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況進行重組,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的重現(xiàn)。

本發(fā)明實施例提供的非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置,通過對非結(jié)構(gòu)化數(shù)據(jù)進行處理,使之分解為包括多個結(jié)構(gòu)化信息。并根據(jù)結(jié)構(gòu)化信息進行存儲,并可通過結(jié)構(gòu)化信息進行查詢。有效的解決了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的一體化存儲與管理,有效的保障了數(shù)據(jù)的完整性,極大的方便了關(guān)系型數(shù)據(jù)庫的備份與遷移。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實施例一提供的非結(jié)構(gòu)化數(shù)據(jù)的存儲方法的流程示意圖;

圖2是本發(fā)明實施例二提供的非結(jié)構(gòu)化數(shù)據(jù)的查詢方法的流程示意圖;

圖3是本發(fā)明實施例三提供的非結(jié)構(gòu)化數(shù)據(jù)的存儲裝置的結(jié)構(gòu)示意圖;

圖4是本發(fā)明實施例四提供的非結(jié)構(gòu)化數(shù)據(jù)的查詢裝置的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

實施例一

圖1是本發(fā)明實施例一提供的非結(jié)構(gòu)化數(shù)據(jù)的存儲方法的流程示意圖;本方法可適用于將非結(jié)構(gòu)化數(shù)據(jù)存儲至結(jié)構(gòu)化數(shù)據(jù)庫的情況,該方法可以由非結(jié)構(gòu)化數(shù)據(jù)的存儲裝置來執(zhí)行,該裝置可由軟件/硬件方式實現(xiàn),并可集成于用于數(shù)據(jù)庫中。

參見圖1,所述非結(jié)構(gòu)化數(shù)據(jù)的存儲方法,包括:

S110,獲取非結(jié)構(gòu)化數(shù)據(jù)文件,并分解所述文件。

相對于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等等。

對需要存儲在結(jié)構(gòu)化數(shù)據(jù)庫中的非結(jié)構(gòu)化數(shù)據(jù)文件,可以根據(jù)其文件類型對文件進行分解。以形成包括對應(yīng)的實體數(shù)據(jù)和至少一個的結(jié)構(gòu)化信息。具體的,例如,對于HTML文件,可提取的結(jié)構(gòu)化信息包括:文件類型代碼和文件文本內(nèi)容編碼等。

S120,根據(jù)所述分解結(jié)果獲取所述文件中的結(jié)構(gòu)化信息,根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù)。

根據(jù)步驟S110的分解結(jié)果,獲取非結(jié)構(gòu)化數(shù)據(jù)文件中的結(jié)構(gòu)信息。具體的,根據(jù)所述分解結(jié)果獲取所述文件中的多個不同類型的結(jié)構(gòu)化信息。由于分解結(jié)果中通常包括不止一個結(jié)構(gòu)信息,相應(yīng)的,按照所述類型將所述非結(jié)構(gòu)化數(shù)據(jù)存儲在多張系統(tǒng)表中。所述系統(tǒng)表用于存儲元數(shù)據(jù),能夠用結(jié)構(gòu)化信息描述非結(jié)構(gòu)化數(shù)據(jù)文件。根據(jù)所述結(jié)構(gòu)化信息將所述非結(jié)構(gòu)化數(shù)據(jù)以二維表方式進行存儲。

本實施例通過對非結(jié)構(gòu)化數(shù)據(jù)進行處理,使之分解為包括多個結(jié)構(gòu)化信息。并根據(jù)結(jié)構(gòu)化信息進行存儲,并可通過結(jié)構(gòu)化信息進行查詢。有效的解決了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的一體化存儲與管理。

在本實施例的一個優(yōu)選實施方式中,在根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù)之前,可增加如下步驟:對所述結(jié)構(gòu)化信息進行清洗。數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。通過對結(jié)構(gòu)化信息進行清洗,可以對分解的結(jié)構(gòu)化信息進行糾錯,避免將錯誤信息存入結(jié)構(gòu)化數(shù)據(jù)庫中,有效的保障了數(shù)據(jù)的完整性。

實施例二

圖2是本發(fā)明實施例二提供的非結(jié)構(gòu)化數(shù)據(jù)的查詢方法的流程示意圖;本方法可適用于在結(jié)構(gòu)化數(shù)據(jù)庫查詢非結(jié)構(gòu)化數(shù)據(jù)的情況,該方法可以由非結(jié)構(gòu)化數(shù)據(jù)的查詢裝置來執(zhí)行,該裝置可由軟件/硬件方式實現(xiàn),并可集成于用于數(shù)據(jù)庫中。

參見圖2,所述非結(jié)構(gòu)化數(shù)據(jù)的查詢方法,包括:

S210,采用標準查詢語言在系統(tǒng)表中進行查找。

示例性的,可以提供一個相應(yīng)的應(yīng)用API接口,用戶可以通過該接口進行查詢。由于采用的是結(jié)構(gòu)化數(shù)據(jù)庫存儲數(shù)據(jù),因此,可以采用保準查詢語言SQL來執(zhí)行查詢操作,并使用SQL語言在結(jié)構(gòu)化數(shù)據(jù)庫中查找。

S220,根據(jù)所述查找得到的結(jié)構(gòu)化信息確定非結(jié)構(gòu)化數(shù)據(jù)。

示例性的,可以采用如下方式:根據(jù)所述結(jié)構(gòu)化數(shù)據(jù)確定非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況;根據(jù)非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況進行重組,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的重現(xiàn)。由于各種結(jié)構(gòu)化數(shù)據(jù)存儲在不同的數(shù)據(jù)表中,根據(jù)系統(tǒng)表確定結(jié)構(gòu)化信息,并通過結(jié)構(gòu)化信息查找對應(yīng)的非結(jié)構(gòu)數(shù)據(jù)的實體數(shù)據(jù),通過實體數(shù)據(jù)與所有的結(jié)構(gòu)化信息的重組,確定非結(jié)構(gòu)化數(shù)據(jù),并將非結(jié)構(gòu)化數(shù)據(jù)作為查詢結(jié)果返回。

本實施例通過根據(jù)查找得到的結(jié)構(gòu)化信息確定非結(jié)構(gòu)化數(shù)據(jù),可實現(xiàn)在關(guān)系型數(shù)據(jù)庫中對非結(jié)構(gòu)化數(shù)據(jù)的快速組裝與重現(xiàn),此外,使用標準數(shù)據(jù)查詢語言(SQL)進行數(shù)據(jù)高效檢索與查詢,無需進行全庫遍歷,極大提高了非結(jié)構(gòu)化數(shù)據(jù)檢索效率。

實施例三

圖3是本發(fā)明實施例三提供的非結(jié)構(gòu)化數(shù)據(jù)的存儲裝置的結(jié)構(gòu)示意圖,如圖3所示,所述裝置包括:

分解單元310,用于獲取非結(jié)構(gòu)化數(shù)據(jù)文件,并分解所述文件;

存儲單元320,用于根據(jù)所述分解結(jié)果獲取所述文件中的結(jié)構(gòu)化信息,根據(jù)所述結(jié)構(gòu)化信息存儲所述非結(jié)構(gòu)化數(shù)據(jù)。

本實施例提供的非結(jié)構(gòu)化數(shù)據(jù)存儲裝置,通過對非結(jié)構(gòu)化數(shù)據(jù)進行處理,使之分解為包括多個結(jié)構(gòu)化信息。并根據(jù)結(jié)構(gòu)化信息進行存儲,并可通過結(jié)構(gòu)化信息進行查詢。有效的解決了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的一體化存儲與管理,有效的保障了數(shù)據(jù)的完整性,極大的方便了關(guān)系型數(shù)據(jù)庫的備份與遷移。

在上述各實施例的基礎(chǔ)上,所述裝置還包括:

清洗單元,用于對所述結(jié)構(gòu)化信息進行清洗。

在上述各實施例的基礎(chǔ)上,所述述存儲單元用于:

根據(jù)所述分解結(jié)果獲取所述文件中的多個不同類型的結(jié)構(gòu)化信息;

按照所述類型將所述非結(jié)構(gòu)化數(shù)據(jù)存儲在多張系統(tǒng)表中。

實施例四

圖4是本發(fā)明實施例是提供的非結(jié)構(gòu)化數(shù)據(jù)的查詢裝置的結(jié)構(gòu)示意圖,如圖4所示,所述裝置包括:

查找單元410,用于采用標準查詢語言在系統(tǒng)表中進行查找;

確定單元420,用于根據(jù)所述查找得到的結(jié)構(gòu)化信息確定非結(jié)構(gòu)化數(shù)據(jù)。

本實施例提供的非結(jié)構(gòu)化數(shù)據(jù)的查詢裝置,可實現(xiàn)在關(guān)系型數(shù)據(jù)庫中對非結(jié)構(gòu)化數(shù)據(jù)的快速組裝與重現(xiàn),此外,使用標準數(shù)據(jù)查詢語言(SQL)進行數(shù)據(jù)高效檢索與查詢,無需進行全庫遍歷,極大提高了非結(jié)構(gòu)化數(shù)據(jù)檢索效率。

在上述各實施例的基礎(chǔ)上,所述確定單元用于:

根據(jù)所述結(jié)構(gòu)化信息確定非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況;

根據(jù)非結(jié)構(gòu)化數(shù)據(jù)分解與存儲情況進行重組,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的重現(xiàn)。

本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1