一種實現(xiàn)實時增量同步數(shù)據(jù)的方法及裝置的制造方法

文檔序號：9489429閱讀：1955來源：國知局

一種實現(xiàn)實時增量同步數(shù)據(jù)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域，尤指一種實現(xiàn)實時增量同步數(shù)據(jù)的方法及裝置。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的快速發(fā)展，產(chǎn)生了體積激增的大量數(shù)據(jù)，海量數(shù)據(jù)的出現(xiàn)和數(shù)據(jù)結(jié)構(gòu)的改變，給各行各業(yè)在管理和分析處理中帶來了巨大的挑戰(zhàn)。傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫數(shù)據(jù) 的處理方法已經(jīng)無法有效的存儲和分析處理日益增長的各種業(yè)務數(shù)據(jù)。為此，許多行業(yè)開始采用分布式系統(tǒng)基礎架構(gòu)（Hadoop)來對數(shù)據(jù)進行分析處理。目前主流的將關(guān)系型數(shù)據(jù) 庫數(shù)據(jù)同步到Hadoop平臺的方法主要通過Sqoop來實現(xiàn)數(shù)據(jù)的一次性全量導入。Sqoop是一種存在于關(guān)系型數(shù)據(jù)庫和分布式文件系統(tǒng)（HDFS)間的高效傳輸數(shù)據(jù)工具，其可以將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導入到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導進關(guān)系型數(shù)據(jù) 庫中。
[0003] 當關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)發(fā)生變化時，若要實現(xiàn)將關(guān)系型數(shù)據(jù)庫中的更新數(shù)據(jù)導入 Hadoop中，則需要定時對關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)進行全量導入。其中全量導入的含義為將關(guān)系型數(shù)據(jù)庫中實時存在的全部數(shù)據(jù)導入Hadoop中。這樣不僅加重了Hadoop分布式系統(tǒng) 的負擔，并且耗時嚴重。而目前還沒有一種方法可以實現(xiàn)數(shù)據(jù)由關(guān)系型數(shù)據(jù)庫到Hadoop的實時增量更新同步，即只同步關(guān)系型數(shù)據(jù)庫中的變更數(shù)據(jù)至Hadoop中。

【發(fā)明內(nèi)容】

[0004] 為解決上述問題，本發(fā)明提供了一種實現(xiàn)實時增量同步數(shù)據(jù)的方法及裝置，能夠實現(xiàn)數(shù)據(jù)由關(guān)系型數(shù)據(jù)庫到Hadoop的實時增量更新同步，同時有效減輕Hadoop平臺的負擔，增強用戶體驗。
[0005] 為了達到上述發(fā)明目的，本發(fā)明公開了一種實現(xiàn)實時增量同步數(shù)據(jù)的方法，應用于關(guān)系型數(shù)據(jù)庫到分布式系統(tǒng)架構(gòu)的數(shù)據(jù)導入，包括：
[0006] 根據(jù)關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)信息，在面向列的開源數(shù)據(jù)庫HBase中生成與上述關(guān) 系型數(shù)據(jù)庫相對應的映射關(guān)系文件；
[0007] 實時獲取上述關(guān)系型數(shù)據(jù)庫的操作日志；
[0008] 根據(jù)獲得的操作日志，獲取上述關(guān)系型數(shù)據(jù)庫的變更數(shù)據(jù)，根據(jù)建立的上述映射關(guān)系文件，將獲得的變更數(shù)據(jù)更新至Hadoop的HBase中。
[0009] 進一步地，預先配置上述關(guān)系型數(shù)據(jù)庫的身份標識和起始位點；上述實時獲取關(guān) 系型數(shù)據(jù)庫的操作日志包括：
[0010] 根據(jù)上述身份標識和起始位點，從起始位點開始獲取上述身份標識對應的關(guān)系型數(shù)據(jù)庫的操作日志。
[0011] 進一步地，上述獲取上述關(guān)系型數(shù)據(jù)庫的操作日志包括：
[0012] 接收上述身份標識對應的關(guān)系型數(shù)據(jù)庫的操作日志的變更數(shù)據(jù)，并將接收到的變更數(shù)據(jù)按順序存儲在一個消息隊列中；或者，
[0013] 當未接收到獲取變更數(shù)據(jù)請求以及消息隊列中的變更數(shù)據(jù)超過閾值時，則將上述消息隊列中的變更數(shù)據(jù)按順序存儲到對應目錄文件中。
[0014] 進一步地，在上述實時獲取關(guān)系型數(shù)據(jù)庫的操作日志之后，上述方法還包括：
[0015] 更新上述關(guān)系型數(shù)據(jù)庫的起始位點；
[0016] 根據(jù)更新后的起始位點，獲取上述關(guān)系型數(shù)據(jù)庫的下一個操作日志。
[0017] 進一步地，上述方法還包括：將獲得的上述變更數(shù)據(jù)保存在本地文件中，并記錄下更新歷史。
[0018] 本發(fā)明還公開了一種實現(xiàn)實時增量同步數(shù)據(jù)的裝置，應用于關(guān)系型數(shù)據(jù)庫到分布式系統(tǒng)架構(gòu)的數(shù)據(jù)導入，包括：建表模塊、日志獲取模塊、多個日志解析客戶端模塊和數(shù)據(jù) 更新模塊，其中：
[0019] 建表模塊，用于根據(jù)關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)信息，在分布式的、面向列的開源數(shù)據(jù) 庫HBase中生成與上述關(guān)系型數(shù)據(jù)庫相對應的映射關(guān)系文件；
[0020] 日志獲取模塊，用于實時獲取上述關(guān)系型數(shù)據(jù)庫的操作日志；
[0021] 每個日志解析客戶端模塊，分別與上述日志獲取模塊相連，用于接收上述日志解析模塊發(fā)送的操作日志及變更數(shù)據(jù)，并將獲得的變更數(shù)據(jù)發(fā)送給數(shù)據(jù)更新模塊；
[0022] 數(shù)據(jù)更新模塊，用于實時的接收上述每個日志解析客戶端模塊發(fā)送的變更數(shù)據(jù)，并根據(jù)上述建表模塊建立的上述映射關(guān)系文件，將獲得的變更數(shù)據(jù)更新至Hadoop的HBase 中。
[0023] 進一步地，上述日志獲取模塊具體用于：
[0024] 預先配置上述關(guān)系型數(shù)據(jù)庫唯一的身份標識和起始位點；
[0025] 根據(jù)上述身份標識和起始位點，從起始位點開始獲取上述身份標識相對應的關(guān)系型數(shù)據(jù)庫的操作日志。
[0026] 進一步地，上述日志獲取模塊還用于：
[0027] 接收上述身份標識對應的關(guān)系型數(shù)據(jù)庫的操作日志的數(shù)據(jù)，并將接收到的數(shù)據(jù)按順序存儲在一個消息隊列中，供相對應的上述日志解析客戶端模塊請求獲??；或者，
[0028] 若上述日志解析客戶端模塊未請求獲取上述數(shù)據(jù)，當消息隊列中的數(shù)據(jù)超過閾值時，則將上述消息隊列中的數(shù)據(jù)按順序存儲到對應目錄文件中。
[0029] 進一步地，上述日志獲取模塊還用于：
[0030] 更新上述關(guān)系型數(shù)據(jù)庫的起始位點；
[0031] 根據(jù)更新后的起始位點，獲取上述關(guān)系型數(shù)據(jù)庫的下一個操作日志。
[0032] 進一步地，上述日志解析客戶端模塊還用于：當上述數(shù)據(jù)更新模塊未啟動時，將接收到的上述變更數(shù)據(jù)存儲在本地文件中。
[0033] 進一步地，將獲得的上述變更數(shù)據(jù)保存在本地文件中，并記錄下更新歷史。
[0034] 本申請技術(shù)方案提供的實現(xiàn)實時增量同步數(shù)據(jù)的方法，應用于關(guān)系型數(shù)據(jù)庫到分布式系統(tǒng)架構(gòu)的數(shù)據(jù)導入，包括：根據(jù)關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)信息，在分布式的、面向列的開源數(shù)據(jù)庫HBase中生成與所述關(guān)系型數(shù)據(jù)庫相對應的映射關(guān)系文件；實時獲取所述關(guān)系型數(shù)據(jù)庫的操作日志；根據(jù)獲得的操作日志，獲取所述關(guān)系型數(shù)據(jù)庫的變更數(shù)據(jù)，根據(jù)建立的所述映射關(guān)系文件，將獲得的變更數(shù)據(jù)更新至Hadoop的HBase中。本申請的技術(shù)方案實現(xiàn)了數(shù)據(jù)由關(guān)系型數(shù)據(jù)庫到Hadoop的實時增量更新同步，同時有效減輕了Hadoop平臺的負擔，增強用戶體驗。
【附圖說明】
[0035] 此處所說明的附圖用來提供對本發(fā)明的進一步理解，構(gòu)成本申請的一部分，本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當限定。在附圖中：
[0036] 圖1為本發(fā)明實現(xiàn)實時增量同步數(shù)據(jù)的方法流程圖；
[0037] 圖2為本發(fā)明實現(xiàn)實時增量同步數(shù)據(jù)的裝置的組成結(jié)構(gòu)示意圖；
【具體實施方式】
[0038] 下面結(jié)合附圖及具體實施例對本發(fā)明進行詳細說明。
[0039] 圖1為本發(fā)明實現(xiàn)實時增量同步數(shù)據(jù)的方法流程圖，應用于關(guān)系型數(shù)據(jù)庫到分布式系統(tǒng)架構(gòu)（Hadoop)的數(shù)據(jù)導入，如圖1所示，包括以下步驟：
[0040] 步驟101，根據(jù)關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)信息，在分布式的、面向列的開源數(shù)據(jù)庫 (HBase)中生成與該關(guān)系型數(shù)據(jù)庫相對應的映射關(guān)系文件。
[0041] 需要說明的是，在本步驟中，還可以在數(shù)據(jù)倉庫工具（Hive)和HBase中生成與關(guān) 系型數(shù)據(jù)庫相對應的關(guān)聯(lián)表。該關(guān)聯(lián)表是指在Hive和HBase中創(chuàng)建的與關(guān)系型數(shù)據(jù)庫中表結(jié)構(gòu)一致的數(shù)據(jù)表。在歷史數(shù)據(jù)導入到Hadoop平臺后，關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)表的更新會被更新到Hive和HBase中的對應表中。HBase用于數(shù)據(jù)存儲，Hive提供查詢功能。該關(guān)聯(lián) 表可通過Hive腳本創(chuàng)建。
[0042] 本步驟中關(guān)于如何生成映射關(guān)系文件的方法是本領(lǐng)域技術(shù)人員所熟知的，即通過程序從關(guān)系型數(shù)據(jù)庫即可以得到的，或者說是在連接到關(guān)系型數(shù)據(jù)庫后，通過相應的接口執(zhí)行某些SQL語句即可得到。具體為：在得到關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)信息后，自定義Hadoop 平臺中HBase的對應列名（如可簡單的通過A-Z的順序依次來對應關(guān)系型數(shù)據(jù)庫中的各個列名）。在Hive中，表結(jié)構(gòu)的各個列名與關(guān)系型數(shù)據(jù)庫中表結(jié)構(gòu)的列名是相同的，此處自定義的列名是對應到HBase中的列名。
[0043] 所以，如果關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)表中的主鍵為組合鍵，則對組合鍵按照一定的規(guī) 則進行拼接處理，作為HBase的行主鍵。此處的規(guī)則可根據(jù)數(shù)據(jù)的特定及處理需求需進行自定義，只要保證每條記錄按照該規(guī)則拼接出來的字段唯一即可。例如，可直接以下劃線連接的方式將組合主鍵中的字段進行拼接。
[0044] 步驟102,實時獲取所述關(guān)系型數(shù)據(jù)庫的操作日志。
[0045] 首先，預先配置該關(guān)系型數(shù)據(jù)庫唯一的身份標識和起始位點。
[0046] 本步驟中，除了為關(guān)系型數(shù)據(jù)庫配置唯一身份標識和起始位點之外，還可以配置其他必要信息，如關(guān)系型數(shù)據(jù)庫所在主機的IP地址，服務端口號，數(shù)據(jù)庫用戶名和密碼等。[0047] 其次，實時獲取關(guān)系型數(shù)據(jù)庫的操作日志具體包括：
[0048] 根據(jù)身份標識和起始位點，從起始位點開始獲取所述身份標識對應的關(guān)系型數(shù)據(jù) 庫的操作日志。
[0049] 最后，在實時獲取所述關(guān)系型數(shù)據(jù)庫的操作日志之后，更新所述關(guān)系型數(shù)據(jù)庫的起始位點；并根據(jù)更新后的起始位點，獲取該關(guān)系型數(shù)據(jù)庫的下一個操作日志。
[0050] 需要說明的是，起始位點是保存在內(nèi)存中的一個變量，在每次成功獲取到操作日志后，便可由程序直接修改該變量的值，即更新該起始位點，同時將該值由程序?qū)懭氲脚渲?文件中。保存至文件中是為了防止在程序異常終止后而丟失當前的起始位點。這樣，下次程序啟動時可通過該文件

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊威;白軍偉;王嘯風;馮是聰;吳明輝;
技術(shù)所有人：北京明略軟件系統(tǒng)有限公司;
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)庫系統(tǒng)的查詢方法、服務器和能耗測試系統(tǒng)的制作方法
上一篇：音頻推薦裝置及其播放方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

java實現(xiàn)數(shù)據(jù)增量同步相關(guān)技術(shù)

kettle數(shù)據(jù)庫增量同步相關(guān)技術(shù)

mysql數(shù)據(jù)庫增量同步相關(guān)技術(shù)

數(shù)據(jù)庫增量同步相關(guān)技術(shù)

增量數(shù)據(jù)同步接口設計相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種實現(xiàn)實時增量同步數(shù)據(jù)的方法及裝置的制造方法