亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)處理的方法及系統(tǒng)與流程

文檔序號:11950287閱讀:317來源:國知局
數(shù)據(jù)處理的方法及系統(tǒng)與流程

本申請涉及大數(shù)據(jù)技術領域,尤其涉及一種數(shù)據(jù)處理的方法及系統(tǒng)。



背景技術:

隨著計算機技術的發(fā)展,計算機需要處理的數(shù)據(jù)量也越來越大,單臺計算機已經(jīng)不能處理一些大規(guī)模的數(shù)據(jù),因此發(fā)展出將多臺計算機聯(lián)合起來構成計算機群以并行處理大規(guī)模數(shù)據(jù)的技術。

Hadoop分布式集群系統(tǒng)架構即是這樣的系統(tǒng)架構。Hadoop系統(tǒng)可以使用大量廉價的計算機構成計算機集群,通過該集群取代昂貴的高運算速度的計算機進行高速運算和存儲。Hadoop系統(tǒng)主要包括分布式文件系統(tǒng)和映射(Map)歸約(Reduce)系統(tǒng)。其中,分布式文件系統(tǒng)進行數(shù)據(jù)管理和數(shù)據(jù)存儲。映射歸約系統(tǒng)實現(xiàn)對分布式文件系統(tǒng)輸入的數(shù)據(jù)進行運算處理,主要包括:將待處理數(shù)據(jù)集分解為多個數(shù)據(jù)塊;分別對每個數(shù)據(jù)塊中的每個原始鍵值對數(shù)據(jù)執(zhí)行Map處理,得到與每個原始鍵值對數(shù)據(jù)對應的中間結果鍵值對數(shù)據(jù);在得到與所有原始鍵值對數(shù)據(jù)對應的中間結果鍵值對數(shù)據(jù)后,再對所有中間結果鍵值對數(shù)據(jù)進行相應的歸約(Reduce)處理,得到相應的最終結果鍵值對數(shù)據(jù)。

通過上述處理方式,可以將一個大的任務拆成較大數(shù)量的小任務并由處于分布式系統(tǒng)中的較大數(shù)量的計算機(也稱為任務執(zhí)行者)來執(zhí)行。這樣可以完成對海量數(shù)據(jù)的快速處理。這種處理方式仍然沒有減少總的計算資源,而是將需要的大量計算資源分配給了大量的計算機,從而可以大大壓縮需要的處理時間。對于對時間敏感度不高的離線場景來說,這種處理方式較為適合。對于在線業(yè)務場景,例如即時通訊場景,一般要求在短時間內(nèi)完成海量數(shù)據(jù)處理并輸出結果,因此對時間較為敏感。

在實現(xiàn)本申請過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術中至少存在如下問題:

對時間較為敏感的在線業(yè)務場景中,仍然是占用大量計算機資源對海量數(shù)據(jù)完成處理,即處理的數(shù)據(jù)量仍然是巨大的。因此,Hadoop系統(tǒng)處理數(shù)據(jù)過程消耗的時間冗長,造成業(yè)務系統(tǒng)調(diào)用Hadoop系統(tǒng)對數(shù)據(jù)處理結果的等待時間長,執(zhí)行效率低,不能滿足具體的業(yè)務順暢的訴求,進而導致用戶體驗差。

因此,發(fā)明人在對現(xiàn)有的數(shù)據(jù)處理的方法進行研究的基礎上,提供一種執(zhí)行效率高、用戶體驗好的數(shù)據(jù)處理的方法及系統(tǒng)。



技術實現(xiàn)要素:

本申請實施例提供一種執(zhí)行效率高、用戶體驗好的數(shù)據(jù)處理的方法,具體的,一種數(shù)據(jù)處理的方法,包括以下步驟:

根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對;

對熱點鍵值對執(zhí)行映射處理,得到與熱點鍵值對對應的中間結果鍵值對;

對中間結果鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征數(shù)值的鍵值。

本申請實施例還提供一種數(shù)據(jù)處理的方法,包括以下步驟:

對待處理的鍵值對執(zhí)行映射處理,得到與待處理的鍵值對對應的中間結果鍵值對;

根據(jù)篩選規(guī)則,從中間結果鍵值對中選擇部分作為熱點鍵值對;

對熱點鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征屬性內(nèi)容的鍵值。

本申請實施例還提供一種數(shù)據(jù)處理的系統(tǒng),包括:

篩選模塊,用于根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對;

映射模塊,用于對熱點鍵值對執(zhí)行映射處理,得到與熱點鍵值對對應的中 間結果鍵值對;

歸約模塊,用于對中間結果鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征數(shù)值的鍵值。

本申請實施例還提供一種數(shù)據(jù)處理的系統(tǒng),包括:

映射模塊,用于對待處理的鍵值對執(zhí)行映射處理,得到與待處理的鍵值對對應的中間結果鍵值對;

篩選模塊,用于根據(jù)篩選規(guī)則,從中間結果鍵值對中選擇部分作為熱點鍵值對;

歸約模塊,用于對熱點鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征屬性內(nèi)容的鍵值。

本申請實施例提供的數(shù)據(jù)處理的方法和系統(tǒng),至少具有如下有益效果:

數(shù)據(jù)處理系統(tǒng)將熱點鍵值對預先處理以便業(yè)務系統(tǒng)調(diào)用,而非熱點鍵值對在業(yè)務系統(tǒng)調(diào)用時才進行處理,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:

圖1為本申請實施例提供的數(shù)據(jù)處理的方法的流程圖。

圖2為本申請實施例提供的從映射鍵值對中選擇部分作為熱點鍵值對的流程圖。

圖3為本申請實施例提供的數(shù)據(jù)處理的系統(tǒng)的結構示意圖。

具體實施方式

為了解決現(xiàn)有的數(shù)據(jù)處理的方法的數(shù)據(jù)處理時間長、執(zhí)行效率低,不能滿足具體的業(yè)務順暢的訴求,進而導致用戶體驗差的技術問題,本申請實施例提供了一種數(shù)據(jù)處理的方法及其對應系統(tǒng)。在該方法及其對應的系統(tǒng)中,數(shù)據(jù)處理系統(tǒng)將熱點鍵值對預先處理以便業(yè)務系統(tǒng)調(diào)用,而非熱點鍵值對在業(yè)務系統(tǒng)調(diào)用時才進行處理,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

為使本申請的目的、技術方案和優(yōu)點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。

Hadoop系統(tǒng)可以包括:

客戶端JobClient,用于提交Map-Reduce工作;

工作調(diào)度器JobTracker,其為一個Java進程,用于協(xié)調(diào)整個工作的運行;

任務調(diào)度器TaskTracker,其為一個Java進程,運行此工作的任務;

分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),用于在各個進程間共享工作相關的文件。

Hadoop系統(tǒng)的工作流程可以包括:

一、任務提交。

客戶端向工作調(diào)度器請求一個新的工作代碼,創(chuàng)建一個新的工作實例,調(diào)用submitJob函數(shù)。

二、任務初始化。

當工作調(diào)度器收到submitJob函數(shù)調(diào)用的時候,獲取并初始化任務。工作 調(diào)度器創(chuàng)建任務,并分配任務代碼。

三、任務分配。

工作調(diào)度器給任務調(diào)度器分配任務。

四、任務執(zhí)行。

任務調(diào)度器被分配了一個任務后,開始運行此任務。映射過程中,任務調(diào)度器調(diào)用map函數(shù)處理任務,也即處理原始鍵值對生成中間結果鍵值對,并將中間結果鍵值對按照鍵值的順序輸出。然后,任務調(diào)度器調(diào)用reduce函數(shù)處理中間結果鍵值對生成最終結果鍵值對。

五、任務結束

工作調(diào)度器獲得任務調(diào)度器的所有任務運行成功的報告后,結束工作。

圖1為本申請實施例提供的數(shù)據(jù)處理的方法的流程圖,具體包括以下步驟:

S100:根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對。

數(shù)據(jù)體現(xiàn)為描述數(shù)據(jù)性質(zhì)的屬性及數(shù)值,也就是通常講的鍵值對。鍵值對包括表征屬性的鍵值和表征屬性內(nèi)容的鍵值。屬性內(nèi)容包括但不限于列表list、哈希表hash map、字符串、數(shù)值、布爾值、有序列表array、null值等。例如,{“姓名”:“王小二”}表示人物的“姓名”為“王小二”的數(shù)據(jù)。

在一個具體實施例中,根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對,具體包括:可以隨機選擇若干待處理的鍵值對作為熱點鍵值對。實際上,判斷待處理的鍵值對是否是熱點鍵值對是一個復雜的過程,尤其是待處理鍵值對的數(shù)量級在百萬,甚至上億的情形下。在本申請實施例中,數(shù)據(jù)處理系統(tǒng)隨機選擇若干待處理鍵值對作為熱點鍵值對,從而可以簡化待處理鍵值對是否是熱點鍵值對的判斷過程,提高使用該方法的數(shù)據(jù)處理效率。

將熱點鍵值對預先處理供業(yè)務系統(tǒng)調(diào)用,而非熱點鍵值對在業(yè)務系統(tǒng)調(diào)用時才進行處理,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果 的等待時間,業(yè)務處理順暢,進而用戶體驗好。

在又一個具體實施例中,請參照圖2,根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對,具體包括:

S101:隨機選擇第一數(shù)量的待處理的鍵值對作為待選鍵值對;

S102:統(tǒng)計待選鍵值對中每一鍵值對被調(diào)用的頻度;

S103:按照頻度排列待選鍵值對;

S104:從待選鍵值對中選擇第二數(shù)量的、調(diào)用的頻度位于前列的鍵值對作為熱點鍵值對;

其中,第一數(shù)量大于第二數(shù)量。

在本申請實施例中,首先,數(shù)據(jù)處理系統(tǒng)隨機選擇第一數(shù)量的映射鍵值對作為待選鍵值對。第一數(shù)量通常與具體的業(yè)務相對應。該第一數(shù)量的數(shù)值可以是根據(jù)歷史經(jīng)驗設定的固定值,也可以是計算機動態(tài)調(diào)整變化生成的數(shù)值。

然后,數(shù)據(jù)處理系統(tǒng)統(tǒng)計待選鍵值對中每一鍵值對被調(diào)用的頻度,按照頻度排列待選鍵值對。在具體的業(yè)務活動中,往往需要調(diào)取一定數(shù)量的鍵值對來對業(yè)務系統(tǒng)進行支持。此時,數(shù)據(jù)處理系統(tǒng)對每一鍵值對被調(diào)用的頻度——一段時間內(nèi)被調(diào)用的次數(shù)——進行追蹤記錄。進一步的,數(shù)據(jù)處理系統(tǒng)還可以按照被調(diào)用的頻度從大到小排列鍵值對。

接著,數(shù)據(jù)處理系統(tǒng)從待選鍵值對中選擇第二數(shù)量的、調(diào)用的頻度位于前列的鍵值對作為熱點鍵值對。其中,第一數(shù)量大于第二數(shù)量。同樣,該第二數(shù)量的數(shù)值可以是根據(jù)歷史經(jīng)驗設定的固定值,也可以是數(shù)據(jù)處理系統(tǒng)動態(tài)調(diào)整變化生成的數(shù)值。選擇出來的熱點鍵值對相對于其他的待選鍵值對被調(diào)用的頻度大。數(shù)據(jù)處理系統(tǒng)預先將熱點鍵值對處理,而不是對其他的待選鍵值對進行預先處理。預先處理過的鍵值對被調(diào)用的概率大于其他鍵值對被調(diào)用的概率。從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

進一步的,在本申請實施例中,從映射鍵值對中選擇部分作為熱點鍵值對,還包括:

在隨機選擇第一數(shù)量的待處理的鍵值對作為待選鍵值對的步驟之前,設定待選鍵值對的業(yè)務類別條件集;

選擇符合業(yè)務類別條件集的待處理的鍵值對。

在本申請實施例中,業(yè)務類別條件集可以根據(jù)歷史經(jīng)驗設定的固定,也可以動態(tài)調(diào)整變化生成。實際上,一種業(yè)務活動的業(yè)務系統(tǒng)調(diào)用的鍵值對往往帶有一些特有的性質(zhì)以區(qū)別于其他業(yè)務活動。例如,推送信息的業(yè)務系統(tǒng)調(diào)用的鍵值對,相較于支付的業(yè)務系統(tǒng)調(diào)用的鍵值對,有其特有的性質(zhì)。推送信息的業(yè)務系統(tǒng),可以與表示接收者年齡的鍵值對相關。例如,婚慶商品的推送信息對于年齡在16歲以下的接收者通常屬于垃圾信息。推送信息的業(yè)務系統(tǒng)的業(yè)務類別條件集包含表示年齡的鍵值對時,可以取得較好的推送效果。

因此,設定待處理的鍵值對的業(yè)務類別條件集,數(shù)據(jù)處理系統(tǒng)經(jīng)過業(yè)務類別條件集的判斷可以過濾掉大量的待處理的鍵值對,提高熱點鍵值對的選擇精確度,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

在本申請的又一個具體實施例中,根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對,具體包括:

設定熱點鍵值對的調(diào)用頻度閾值;

當鍵值對被調(diào)用的頻度大于調(diào)用頻度閾值時,將該鍵值對設置為熱點鍵值對。

在本申請實施例中,設定鍵值對的調(diào)用頻度閾值,當鍵值對的被調(diào)用的頻度大于調(diào)用頻度閾值時,數(shù)據(jù)處理系統(tǒng)將該鍵值對設置為熱點鍵值對。數(shù)據(jù)處理系統(tǒng)預先將熱點鍵值對處理,而不是對其他的鍵值對進行預先處理。預先處理過的鍵值對被調(diào)用的概率大于其他鍵值對被調(diào)用的概率。從而,減少了為業(yè) 務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

S200:對熱點鍵值對執(zhí)行映射處理,得到與熱點鍵值對對應的中間結果鍵值對。

在本申請?zhí)峁┑囊粋€實施例中,客戶端JobClient向工作調(diào)度器提交Map-Reduce工作,創(chuàng)建一個新的工作實例,調(diào)用submitJob函數(shù)。當工作調(diào)度器收到submitJob函數(shù)調(diào)用的時候,獲取并初始化任務。工作調(diào)度器創(chuàng)建一個任務,并分配一個任務代碼。工作調(diào)度器給任務調(diào)度器分配任務。任務調(diào)度器被分配了一個任務后,開始運行此任務。映射過程中,任務調(diào)度器調(diào)用map函數(shù)處理任務,也即處理原始鍵值對生成中間結果鍵值對,并將中間結果鍵值對按照鍵值的順序輸出。

S300:對中間結果鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對。

在本步驟中,任務調(diào)度器調(diào)用reduce函數(shù)處理中間結果鍵值對生成最終結果鍵值對。工作調(diào)度器獲得任務調(diào)度器的所有任務運行成功的報告后,將最終結果鍵值對存入分布式文件系統(tǒng),并結束工作。

在本申請實施例中,數(shù)據(jù)處理系統(tǒng)將熱點鍵值對預先處理以便業(yè)務系統(tǒng)調(diào)用,而非熱點鍵值對在業(yè)務系統(tǒng)調(diào)用時才進行處理,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

在本申請?zhí)峁┑囊粋€實施例中,方法還包括:

使用機器學習模型,優(yōu)化對篩選規(guī)則。

機器學習模型,涉及人工智能。在本申請實施例中,使用機器學習模型對篩選規(guī)則進行優(yōu)化。數(shù)據(jù)處理系統(tǒng)運行一段時間后,熱點鍵值對和非熱點鍵值對判斷的準確性可以顯著提高。從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù) 處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

使用何種機器學習模型,根據(jù)具體的業(yè)務系統(tǒng)來進行選擇,下面簡單介紹一種機器學習模型對篩選規(guī)則的優(yōu)化。

具體的,使用機器學習模型中的聚類算法,統(tǒng)計鍵值對被調(diào)用的頻度隨單一屬性的分布狀況;

根據(jù)鍵值對被調(diào)用的頻度隨單一屬性的分布狀況,選擇鍵值對被調(diào)用的頻度不小于預設頻度閾值的屬性內(nèi)容的鍵值的區(qū)間;

設定所述屬性內(nèi)容的鍵值的區(qū)間為篩選規(guī)則的規(guī)則條件。

仍以上面的推送信息的業(yè)務系統(tǒng)為例來說明。假設,業(yè)務系統(tǒng)統(tǒng)計出推送信息的業(yè)務超出某一預設比例,例如50%,調(diào)用表示接收者年齡的鍵值對。機器學習模型通過K-means聚類算法對篩選規(guī)則進行優(yōu)化。

假設要把樣本集(表示接收者年齡的鍵值對及其被調(diào)用的頻度)分為m個類別(頻度段),算法描述如下:

(1)適當選擇m個類別(頻度段)的初始中心(頻度);

(2)在第k次迭代中,對任意一個樣本(表示接收者年齡的鍵值對及其被調(diào)用的頻度),求其到m個中心的距離(頻度差),將該樣本(表示接收者年齡的鍵值對及其被調(diào)用的頻度)歸到距離最短的中心所在的類別(頻度段);

(3)利用均值方法更新該類別(頻度段)的中心值(頻度);

(4)對于所有的m個中心值(頻度),如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結束,否則繼續(xù)迭代;

(5)針對m個類別(頻度段)中的每一個類別(頻度段)適當選擇n個類別(年齡段)的初始中心(年齡);

(6)在第k次迭代中,對任意一個樣本(表示接收者年齡的鍵值對及其被調(diào)用的頻度),求其到n個中心的距離(年齡差),將該樣本(表示接收者年齡的鍵值對及其被調(diào)用的頻度)歸到距離最短的中心所在的類別(年齡段);

(7)利用均值方法更新該類別(年齡段)的中心值(年齡);

(8)對于所有的n個中心值(年齡),如果利用(6)(7)的迭代法更新后,值保持不變,則迭代結束,否則繼續(xù)迭代。

通過該算法,可以計算出調(diào)用的頻度大的待處理的鍵值對隨年齡的聚類規(guī)律。將接收者年齡位于某個類別(年齡段)作為篩選規(guī)則的規(guī)則條件,例如,將表示接收者年齡位于12-18歲作為待處理的鍵值對是熱點鍵值對的規(guī)則條件。業(yè)務系統(tǒng)通過機器學習模型對篩選規(guī)則優(yōu)化后,則根據(jù)優(yōu)化后的篩選規(guī)則,將熱點鍵值對從待處理的鍵值對中篩選出。

在本申請?zhí)峁┑膶嵤├?,?guī)則優(yōu)化模塊,還用于:

當一個屬性的鍵值對和另一屬性的鍵值對被具有同一業(yè)務代碼的業(yè)務系統(tǒng)調(diào)用時,將這兩個屬性的鍵值對的屬性內(nèi)容的鍵值的區(qū)間的并集設定為篩選規(guī)則的規(guī)則條件。

假設,機器學習模型完成接收者年齡這一維度對篩選規(guī)則的優(yōu)化后,還完成了接收者職業(yè)這一維度對篩選規(guī)則的優(yōu)化。

數(shù)據(jù)處理系統(tǒng)計算出接收者處于某一年齡段的待處理的鍵值對和接收者屬于某一職業(yè)的待處理的鍵值對,與推送信息高度相關。例如,某待處理的鍵值對表示接收者處于20-30年齡段,某待處理的鍵值對表示接收者處于計算機行業(yè),業(yè)務系統(tǒng)推送信息時,對同時具有這兩個維度特征的接收者能獲得良好的業(yè)務推廣效果。則,機器學習模型將表示接收者處于20-30年齡段的待處理的鍵值對,和表示接收者處于計算機行業(yè)的待處理的鍵值對進行關聯(lián)形成熱點鍵值對數(shù)據(jù)組。

數(shù)據(jù)處理系統(tǒng)通過機器學習模型進一步對熱點鍵值對數(shù)據(jù)組被調(diào)用的頻度進行排序,將熱點鍵值對數(shù)據(jù)組區(qū)分為熱點數(shù)據(jù)組和非熱點數(shù)據(jù)組。熱點數(shù)據(jù)組的一種動態(tài)調(diào)整模式為:設定熱點數(shù)據(jù)組的調(diào)用的頻度閾值,當數(shù)據(jù)組中鍵值對被調(diào)用的頻度大于頻度閾值時,將該數(shù)據(jù)組設定為熱點數(shù)據(jù)組。

在本申請實施例中,設定數(shù)據(jù)組處理優(yōu)先級值。該優(yōu)先級值由待處理的鍵 值對的加權和值算得。根據(jù)該優(yōu)先級值,動態(tài)調(diào)整數(shù)據(jù)組的處理優(yōu)先級。當數(shù)據(jù)組中某一鍵值對被調(diào)用一次,數(shù)據(jù)組的優(yōu)先級值增加一個單位。當某一數(shù)據(jù)組的優(yōu)先級值超過其前一個數(shù)據(jù)組的優(yōu)先級值時,數(shù)據(jù)處理系統(tǒng)將該數(shù)據(jù)組前置一位。經(jīng)過機器學習模型對篩選規(guī)則的優(yōu)化,數(shù)據(jù)處理系統(tǒng)從待處理的鍵值對中選擇出的熱點鍵值對是被調(diào)用頻度位于前列的映射鍵值對,其中由鍵值對關聯(lián)形成的熱點數(shù)據(jù)組是被調(diào)用頻度位于前列的數(shù)據(jù)組,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

在本申請?zhí)峁┑囊粋€實施例中,方法還包括:

當非熱點鍵值對被調(diào)用時,使用歸約函數(shù)處理非熱點鍵值對生成供調(diào)用的數(shù)據(jù)。

在本申請實施例中,熱點鍵值對由數(shù)據(jù)處理系統(tǒng)使用歸約函數(shù)預先處理生成供業(yè)務系統(tǒng)調(diào)用的數(shù)據(jù);非熱點鍵值對在被業(yè)務系統(tǒng)調(diào)用時,由數(shù)據(jù)處理系統(tǒng)使用歸約函數(shù)即時處理,生成供業(yè)務系統(tǒng)調(diào)用的數(shù)據(jù)。從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

在本申請實施例的一種替代方式中,數(shù)據(jù)處理的方法,包括以下步驟:

對待處理的鍵值對執(zhí)行映射處理,得到與待處理的鍵值對對應的中間結果鍵值對;

根據(jù)篩選規(guī)則,從中間結果鍵值對中選擇部分作為熱點鍵值對;

對熱點鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征屬性內(nèi)容的鍵值。

需要指出的是,與前面提供的具體實施例的差別在于:選擇部分作為熱點鍵值對的步驟,設置于映射處理步驟之后。在本申請實施例中,降低了歸約處 理的鍵值對的數(shù)據(jù)量,可以在一定程度上解決數(shù)據(jù)量巨大的問題,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

以上是本申請實施例提供的數(shù)據(jù)處理的方法,基于同樣的思路,請參照圖3,本申請還提供一種數(shù)據(jù)處理的系統(tǒng)1,包括:

篩選模塊10,用于根據(jù)篩選規(guī)則,從待處理的鍵值對中選擇部分作為熱點鍵值對;

映射模塊20,用于對熱點鍵值對執(zhí)行映射處理,得到與熱點鍵值對對應的中間結果鍵值對;

歸約模塊30,用于對中間結果鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征數(shù)值的鍵值。

進一步的,篩選模塊10,用于從待處理的鍵值對中選擇部分作為熱點鍵值對,具體用于:

隨機選擇若干待處理的鍵值對作為熱點鍵值對。

進一步的,篩選模塊10,用于從待處理的鍵值對中選擇部分作為熱點鍵值對,具體用于:

隨機選擇第一數(shù)量的待處理的鍵值對作為待選鍵值對;

統(tǒng)計待選鍵值對中每一鍵值對被調(diào)用的頻度;

按照頻度排列待選鍵值對;

從待選鍵值對中選擇第二數(shù)量的、調(diào)用的頻度位于前列的鍵值對作為熱點鍵值對;

其中,第一數(shù)量大于第二數(shù)量。

進一步的,篩選模塊10,用于從映射鍵值對中選擇部分作為熱點鍵值對,具體還用于:

在隨機選擇第一數(shù)量的待處理的鍵值對作為待選鍵值對的步驟之前,設定待選鍵值對的業(yè)務類別條件集;

選擇符合業(yè)務類別條件集的待處理的鍵值對。

進一步的,篩選模塊10,用于從待處理的鍵值對中選擇部分作為熱點鍵值對,具體用于:

設定熱點鍵值對的調(diào)用頻度閾值;

當鍵值對被調(diào)用的頻度大于調(diào)用頻度閾值時,將該鍵值對設置為熱點鍵值對。

進一步的,系統(tǒng)還包括規(guī)則優(yōu)化模塊40,用于:

使用機器學習模型,優(yōu)化對篩選規(guī)則。

進一步的,映射模塊20,用于:

當非熱點鍵值對被調(diào)用時,對非熱點鍵值對執(zhí)行映射處理,得到與非熱點鍵值對對應的中間結果鍵值對。

進一步的,一種數(shù)據(jù)處理的系統(tǒng)1,包括:

映射模塊20,用于對待處理的鍵值對執(zhí)行映射處理,得到與待處理的鍵值對對應的中間結果鍵值對;

篩選模塊10,用于根據(jù)篩選規(guī)則,從中間結果鍵值對中選擇部分作為熱點鍵值對;

歸約模塊30,用于對熱點鍵值對執(zhí)行歸約處理,生成供調(diào)用的最終結果鍵值對;

其中,鍵值對包括表征屬性的鍵值和表征屬性內(nèi)容的鍵值。

在本申請實施例中,數(shù)據(jù)處理系統(tǒng)將熱點鍵值對預先處理以便業(yè)務系統(tǒng)調(diào)用,而非熱點鍵值對在業(yè)務系統(tǒng)調(diào)用時才進行處理,從而,減少了為業(yè)務系統(tǒng)提供后臺服務的數(shù)據(jù)處理系統(tǒng)需要即時處理的數(shù)據(jù)量,提高數(shù)據(jù)處理執(zhí)行效率,減少了業(yè)務系統(tǒng)獲得數(shù)據(jù)處理結果的等待時間,業(yè)務處理順暢,進而用戶體驗好。

本領域內(nèi)的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)值處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)值處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)值處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)值處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡接口和內(nèi)存。

內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機可讀介質(zhì)的示例。

計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任 何方法或技術來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)值結構、程序的模塊或其他數(shù)值。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)值信號和載波。

還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。

本領域技術人員應明白,本申請的實施例可提供為方法、系統(tǒng)或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

以上所述僅為本申請的實施例而已,并不用于限制本申請。對于本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求范圍之內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1