數據處理方法和裝置與流程

文檔序號：11063514閱讀：820來源：國知局

本發(fā)明涉及互聯(lián)網領域，具體而言，涉及一種數據處理方法和裝置。
背景技術：
：隨著互聯(lián)網發(fā)展的加速，網絡行為已經成為研究消費者的重要途徑。目前用戶網絡訪問行為數據的來源主要有：1)網絡用戶行為樣本監(jiān)測數據；2)網絡服務商數據；3)網站服務器日志數據；4)第三方服務商通過頁面標簽技術獲取的數據；5)其他方式。來源1)和2)是其中非常重要的兩種方式，這些數據具有以下特點：1)能較為完整的體現(xiàn)網民的互聯(lián)網訪問路徑，對全面了解當前網民的特點更加有價值；2)以家庭為單位獲取數據；3)方便結合問卷調查等主觀方式，能與多種數據源結合分析。但這樣的數據源想要產生更高的數據價值，最重要的就是需要把以家庭為單位的數據進一步分離到每個人?，F(xiàn)有技術描述了一種實現(xiàn)互聯(lián)網用戶訪問情況統(tǒng)計分析的方法，該方案通過提取及記錄每一來訪用戶對象所代表的用戶機的信息，根據用戶級的信息的相似度合并用戶對象。通過學習過程記錄不同的Cookie所代表的用戶機的信息以及對Cookie所發(fā)生的瀏覽行為，對用戶相似程度進行判斷，將有可能是同一個用戶產生的Cookie進行合并，并基于合并后Cookie的瀏覽行為記錄統(tǒng)計分析訪問頻次和瀏覽行為習慣。由此，根據現(xiàn)有技術描述的基于用戶機信息和瀏覽行為的相關度合并Cookie的方案可以確定，現(xiàn)有技術至少存在如下幾個缺陷：1)適用數據源有限；2)分離精度有限；3)系統(tǒng)性誤差會越來越大，沒有修改的機會。針對現(xiàn)有技術中僅能得到同一網絡的網絡訪問行為數據，網絡訪問行為數據識別精度不高的問題，目前尚未提出有效的解決方案。技術實現(xiàn)要素：本發(fā)明實施例提供了一種數據處理方法和裝置，以至少解決現(xiàn)有技術中僅能得到同一網絡的網絡訪問行為數據，網絡訪問行為數據識別精度不高的技術問題。根據本發(fā)明實施例的一個方面，提供了一種數據處理方法，包括：獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，其中，網絡訪問識別模型至少包含用戶在預設時間段內通過同一網絡進行頁面訪問之后，所確定的網絡訪問識別因素；接收同樣使用同一網絡的當前用戶的網絡訪問行為數據；使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。根據本發(fā)明實施例的另一方面，還提供了一種數據處理裝置，包括：獲取模塊，用于獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，其中，網絡訪問識別模型至少包含用戶在預設時間段內通過同一網絡進行頁面訪問之后，所確定的網絡訪問識別因素；接收模塊，用于接收同樣使用同一網絡的當前用戶的網絡訪問行為數據；確定模塊，用于使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。在本發(fā)明實施例中，通過獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，并接收同樣使用同一網絡的當前用戶的網絡訪問行為數據，使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。因此，上述方案可以實現(xiàn)識別不同用戶的網絡訪問行為數據的目的，由于用戶屬于使用同一網絡的用戶群，進一步還可以實現(xiàn)將以用戶群為單位的網絡訪問行為數據分離到用戶群中每個用戶的目的，從而解決現(xiàn)有技術中僅能得到同一網絡的網絡訪問行為數據，網絡訪問行為數據識別精度不高的技術問題。由此可知，本申請實施例提供的方案可以把以家庭為單位的數據進一步分離到個人，提高網絡訪問行為數據的識別精度，具有更高的數據價值。附圖說明此處所說明的附圖用來提供對本發(fā)明的進一步理解，構成本申請的一部分，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構成對本發(fā)明的不當限定。在附圖中：圖1是根據本發(fā)明實施例的一種數據處理方法的流程圖；圖2是根據本發(fā)明實施例的一種可選的數據處理方法的流程圖；圖3是根據本發(fā)明實施例的一種數據處理裝置的示意圖；圖4是根據本發(fā)明實施例的一種可選的數據處理裝置的示意圖；圖5是根據本發(fā)明實施例的一種可選的數據處理裝置的示意圖；圖6是根據本發(fā)明實施例的一種可選的數據處理裝置的示意圖；圖7是根據本發(fā)明實施例的一種可選的數據處理裝置的示意圖；圖8是根據本發(fā)明實施例的一種可選的數據處理示意圖；以及圖9是根據本發(fā)明實施例的一種可選的數據處理示意圖。具體實施方式為了使本
技術領域：
的人員更好地理解本發(fā)明方案，下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分的實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都應當屬于本發(fā)明保護的范圍。需要說明的是，本發(fā)明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象，而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換，以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外，術語“包括”和“具有”以及他們的任何變形，意圖在于覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統(tǒng)、產品或設備不必限于清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。下面對本發(fā)明實施例進行描述的過程中出現(xiàn)的部分名詞或術語適用于如下解釋：網絡用戶行為樣本監(jiān)測：主要是指選取一定的樣本，對其網絡訪問行為進行持續(xù)性的數據采集，可依托路由器等硬件設備或上網設備中的監(jiān)測客戶端完成，基于這樣一定規(guī)模的樣本即可完成對龐大網民群體行為進行監(jiān)測和分析。網絡服務商：是指ISP(InternetServiceProvider的縮寫)，字面意思是網絡服務提供者。網絡服務商的類型包括物理網絡運營者NP、接入服務者IAP、Web服務器等。實施例1根據本發(fā)明實施例，提供了一種數據處理方法實施例，需要說明的是，在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。圖1是根據本發(fā)明實施例的一種數據處理方法的流程圖，如圖1所示，該方法包括如下步驟：步驟S102，獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，其中，網絡訪問識別模型至少包含用戶在預設時間段內通過同一網絡進行頁面訪問之后，所確定的網絡訪問識別因素。具體地，上述步驟中的網絡訪問識別模型表明用戶進行頁面訪問的訪問習慣，例如用戶經常訪問的網頁的類型，訪問該類型網頁的時長和頻率等信息。在一種可選的方案中，從一個家庭路由器中提取得到該家庭中所有用戶的網絡訪問行為數據，對該網絡訪問行為數據進行分析，確定每個用戶的網絡訪問識別模型。步驟S104，接收同樣使用同一網絡的當前用戶的網絡訪問行為數據。具體地，上述步驟中的網絡訪問行為數據可以是用戶進行頁面訪問生成的數據，上述數據可以保存在路由器或者網絡服務商服務器中。當前用戶可以是使用同一網絡的用戶群中任意一個用戶，也可以是非用戶群中的任意一個用戶，例如用戶群是一個家庭中的三個成員A、B和C，當前用戶是客人D。此處需要說明的是，本申請上述步驟S102和S104的執(zhí)行順序可以相互交換，即在本發(fā)明可以提供的另外一種場景中，可以在獲取到當前用戶使用當前網絡進行網絡訪問之后，再依據不同網絡數據確定已經存儲的用戶群中每個用戶的網絡訪問識別模型，其中，用戶群中的每個用戶所使用的網絡與上述當前用戶所使用的網絡相同。本發(fā)明可選的其他實施例在此不做贅述。步驟S106，使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。具體地，使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，得到用戶群中每個用戶和該當前用戶的匹配度，該當前用戶可以是用戶群中匹配度最高的用戶。在一種可選的方案中，獲取使用同一個路由器的家庭中三個成員A、B和C的網絡訪問識別模型，接收使用同一個路由器的用戶D的網絡訪問行為數據，分別使用A、B和C三個網絡訪問識別模型對當前用戶的網絡訪問行為數據進行分析，確定A與當前用戶匹配度為20％，確定B與當前用戶匹配度為75％，確定C與當前用戶匹配度為48％，其中，匹配度最高的用戶為B，因此可以確定當前用戶為用戶B，即當前的網絡訪問行為數據是用戶B訪問頁面產生的數據。本申請上述實施例中，通過獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，并接收同樣使用同一網絡的當前用戶的網絡訪問行為數據，使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。因此，上述方案可以實現(xiàn)識別不同用戶的網絡訪問行為數據的目的，由于用戶屬于使用同一網絡的用戶群，進一步還可以實現(xiàn)將以用戶群為單位的網絡訪問行為數據分離到用戶群中每個用戶的目的，從而解決現(xiàn)有技術中僅能得到同一網絡的網絡訪問行為數據，網絡訪問行為數據識別精度不高的技術問題。由此可知，本申請實施例提供的方案可以把以家庭為單位的數據進一步分離到個人，提高網絡訪問行為數據的識別精度，具有更高的數據價值?？蛇x地，本申請上述實施例中，用戶訪問頁面所確定的網絡訪問識別因素包括如下任意一個或多個參數：訪問頁面的訪問次數、訪問時長、跳出率、訪問頻率和訪問深度。具體地，上述方案中訪問頁面的訪問次數可以是用戶在特定時間段內訪問特定網站的訪問次數，該特定時間可以是一天或者一周。訪問時長可以是用戶每次訪問特定網站的時間，例如每次訪問視頻網站的時間為2個小時。跳出率可以是用戶訪問網站只訪問一個頁面就離開的概率。訪問頻率可是用戶訪問特定頁面之間間隔的時間，例如每隔一天訪問一次視頻網站。訪問深度可以是用戶訪問特定網站連續(xù)的頁面?zhèn)€數，例如用戶訪問視頻網站連續(xù)的頁面?zhèn)€數為10。通過上述方案，由于不同用戶訪問頁面確定的網絡訪問識別因素不同，因此可以通過生成包含網絡訪問識別因素的識別模型，對網絡訪問行為數據進行分析，實現(xiàn)識別不同用戶的網絡訪問行為數據的目的?？蛇x地，本申請上述實施例中，步驟S102獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型包括如下步驟：步驟S1022，獲取預設時間段內使用同一網絡的每個用戶的網絡訪問行為數據。具體地，上述步驟中預設時間段可以是接收到當前用戶的網絡訪問行為數據之前用戶設定的時間段，可以將預設時間段內使用同一網絡的每個用戶的網絡訪問行為數據作為樣本數據，得到每個用戶的網絡訪問識別模型。步驟S1024，根據預設時間段內的每個用戶的網絡訪問行為數據，確定用戶群中每個用戶的網絡訪問識別因素和相應的權重。具體地，上述步驟中的權重可以根據每個用戶的訪問習慣得到，不同用戶相同的網絡訪問識別因素相應的權重不同，相同用戶不同的網絡訪問識別因素相應的權重不同。上述步驟中的網絡訪問識別因素可以是訪問頻率、訪問時長和訪問深度。但不限于此，包括其他參數的網絡訪問識別因素也可以實現(xiàn)本實施例的目的。在一種可選的方案中，可以根據每個用戶的網絡訪問行為數據之間的相似度，確定每個用戶訪問頁面的頁面類型，例如，用戶A訪問頁面的頁面類型為體育類和新聞類，用戶B訪問頁面的頁面類型為購物類和視頻類，用戶C訪問頁面的頁面類型為網頁游戲類。在對每個用戶訪問頁面的頁面類型進行分類之后，確定每個用戶在每種頁面類型中的網絡訪問識別因素和相應的權重，例如，視頻類的網絡訪問識別因素是訪問時長和訪問頻率，用戶A的網絡訪問識別因素相應的權重最低，用戶B的網絡訪問識別因素相應的權重最高。步驟S1026，根據每個用戶的網絡訪問識別因素xi和相應的權重ki，按照公式y(tǒng)i＝k1x1+k2x2+…+knxn生成每個用戶的網絡訪問識別模型yi，其中，i為自然數。具體地，上述步驟中n可以是網路訪問識別因素包含的參數個數，例如，網絡訪問識別因素是訪問頻率、訪問時長和訪問深度，那么n為3。通過上述步驟S1022至步驟S1026，通過獲取預設時間段內的每個用戶的網絡訪問行為數據，確定用戶群中每個用戶的網絡訪問識別因素和相應的權重，按照公式生成每個用戶的網絡訪問識別模型，從而實現(xiàn)獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型的目的?？蛇x地，本申請上述實施例中，步驟S106使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶包括如下步驟：步驟S1062，從當前用戶的網絡訪問行為數據中，提取得到當前用戶進行頁面訪問后的網絡訪問識別因素。在一種可選的方案中，從當前用戶的網絡訪問行為數據中，提取用戶訪問頁面的頁面類型，例如當前用戶訪問頁面的頁面類型為視頻類，那么當前用戶的網絡訪問識別因素是訪問時長和訪問頻率。步驟S1064，使用每個用戶的網絡訪問識別模型yi對當前用戶的網絡訪問識別因素進行處理，計算得到當前用戶對應任意一個用戶的網絡訪問識別模型yi的預測結果值。具體地，上述步驟中預測結果值可以是當前用戶為該任意一個用戶的預測概率值。在一種可選的方案中，將當前用戶的網絡訪問識別因素代入每個用戶的網絡訪問識別模型yi，求出當前用戶對應任意一個用戶的網絡訪問識別模型yi的預測結果值，例如，當前用戶的網絡訪問識別因素是訪問時長和訪問頻率，代入頁面類型為視頻類的每個用戶的網絡訪問識別模型，計算得到當前用戶對應用戶A的預測結果值為25％，當前用戶對應用戶B的預測結果值為80％，當前用戶對應用戶C的預測結果值為65％。步驟S1066，將預測結果值最高的用戶確定為與當前用戶匹配度最高的用戶。在一種可選的方案中，通過比較當前用戶對應任意一個用戶的網絡訪問識別模型yi的預測結果值，將預測結果值最高的用戶確定為與當前用戶匹配度最高的用戶，例如，當前用戶對應用戶B的預測結果值為80％最高，因此確定用戶B為與當前用戶匹配度最高的用戶。通過上述步驟S1062至步驟S1066，提取當前用戶的網絡訪問識別因素，計算當前用戶對應任意一個用戶的預測結果值，確定預測結果值最高的用戶為與當前用戶匹配度最高的用戶，從而實現(xiàn)穩(wěn)定且高效識別用戶的網絡訪問行為數據的目的?？蛇x地，本申請上述實施例中，使用回歸算法確定每個用戶的網絡訪問識別因素xi所對應的權重ki。具體地，上述回歸算法可以是邏輯回歸算法，但不限于此，其他的回歸算法也可以實現(xiàn)本實施例的目的。也可以使用數據分析或數據挖掘軟件實現(xiàn)本實施例的目的，例如SPSS、Stat、SAS、R、rapidminer以及Python等。在一種可選的方案中，根據每個用戶網絡訪問行為數據，使用邏輯回歸算法得到所有網絡訪問識別因素的權重值，進一步確定每個用戶及其網絡訪問行為之間的關系，從而建立一個相關性較好的回歸方程(即網絡訪問識別模型)，用于預測接收到的當前用戶的網絡訪問行為數據所對應的用戶群中的用戶?？蛇x地，邏輯回歸算法通過觀測樣本的極大似然估計值來選擇參數，具體步驟如下：第一步，在rapidminer系統(tǒng)中，導入需要分析的每個用戶的網絡訪問行為數據作為樣本數據。第二步，根據導入的樣本數據，建立邏輯回歸模型，輸出各因素權重值的結果示例如表1所示：表1因素Attribute權重值Weight訪問頁面的訪問次數x1k1訪問時長x2k2跳出率x3k3訪問頻率x4k4訪問深度x5k5通過上述方案，使用回歸算法可以得到更精確的網絡訪問識別因素所對應的權重。可選地，本申請上述實施例中，在步驟S1066將預測結果值最高的用戶確定為與當前用戶匹配度最高的用戶之后，上述方法還包括如下步驟：步驟S110，判斷任意一個用戶的預測結果值是否小于預設閾值。具體地，上述步驟中任意一個用戶的預測結果值可以是與當前用戶匹配度最高的用戶的預測結果值，預設閾值可以是70％，但不僅限于此，其他的預設閾值也可以滿足本實施例的目的。在一種可選的方案中，用戶A的預測結果值為25％，用戶B的預測結果值為80％，用戶C的預測結果值為65％，確定與當前用戶匹配度最高的用戶為用戶B，由于80％大于70％，因此判斷用戶B的預測結果值大于預設閾值。步驟S112，在預測結果值小于預設閾值的情況下，修正預測結果值小于預設閾值的用戶的網絡訪問識別模型，直至預測結果值大于等于預設閾值。在一種可選的方案中，用戶A的預測結果值為25％，用戶B的預測結果值為65％，用戶C的預測結果值為45％，確定與當前用戶匹配度最高的用戶為用戶B，由于65％小于70％，判斷用戶B的預測結果值大于預設閾值，修正用戶B的網絡訪問識別模型，直至用戶B的預測結果值大于等于預設閾值。通過上述步驟S110至步驟S112，通過判斷任意一個用戶的預測結果值是否小于預設閾值，并在預測結果值小于預設閾值的情況下，修正預測結果值小于預設閾值的用戶的網絡訪問識別模型，直至預測結果值大于等于預設閾值。因此，上述方案通過持續(xù)修正每個用戶的網絡訪問識別模型，避免了小概率事件對網絡訪問識別模型的影響，保證較高的識別精度?？蛇x地，本申請上述實施例中，步驟S112中修正預測結果值小于預設閾值的用戶的網絡訪問識別模型包括如下步驟：步驟S1122，根據當前用戶的網絡訪問行為數據，修正預設時間段內所確定的網絡訪問識別因素和相應的權重，得到修正后的每個用戶的網絡訪問識別模型。在一種可選的方案中，在用戶B的預測結果值小于預設閾值的情況下，僅僅根據當前用戶的網絡訪問行為數據，修正預設時間段內確定的用戶B的網絡訪問識別因素所對應的權重，進一步得到修正后的用戶B的網絡訪問識別模型。通過上述步驟S1122，根據當前用戶的網絡訪問行為數據，修正預設時間段內所確定的網絡訪問識別因素和相應的權重，得到修正后的每個用戶的網絡訪問識別模型，從而實現(xiàn)修正預測結果值小于預設閾值的用戶的網絡訪問識別模型的目的?？蛇x地，本申請上述實施例中，步驟S112中修正預測結果值小于預設閾值的用戶的網絡訪問識別模型包括如下步驟：步驟S1124，以當前用戶進行頁面訪問的時間為基準，根據每個用戶的網絡訪問行為數據和當前用戶的網絡訪問行為數據，確定修正后預設時間段內的網絡訪問識別因素和相應的權重，生成修正后的每個用戶的網絡訪問識別模型。在一種可選的方案中，在用戶B的預測結果值小于預設閾值的情況下，將當前用戶的網絡訪問行為數據加入到每個用戶的網絡訪問行為數據中，得到新的樣本數據，根據新的樣本數據確定新的預設時間段內用戶B的網絡訪問識別因素和相應的權重，進一步得到修正后的用戶B的網絡訪問識別模型。通過上述步驟S1124，以當前用戶進行頁面訪問的時間為基準，根據每個用戶的網絡訪問行為數據和當前用戶的網絡訪問行為數據，確定修正后預設時間段內的網絡訪問識別因素和相應的權重，生成修正后的每個用戶的網絡訪問識別模型，從而實現(xiàn)修正預測結果值小于預設閾值的用戶的網絡訪問識別模型的目的。圖2是根據本發(fā)明實施例的一種可選的數據處理方法的流程圖，如圖2所示，一種可選的應用場景的詳細步驟為：S21:包含關鍵字段的數據源輸入。具體地，從路由器中獲取特定數量的家庭用戶的網絡訪問行為數據，上述關鍵字段包括訪問頁面和如下任意一個或多個參數：訪問頁面的訪問次數、訪問時長、跳出率、訪問頻率和訪問深度。S22：區(qū)分屬于不同家庭及家庭內的多個設備的數據。具體地，可以根據路由器的IP地址對特定數量的家庭用戶的網絡訪問行為數據進行區(qū)分，得到屬于同一個家庭內的多個設備的網絡訪問行為數據。S23：建立家庭中每個用戶的網絡訪問識別模型。具體地，提取一段樣本數據針對智能手機數據，每一部手機可視為一個獨立的用戶，據此可以猜測家庭成員數；針對平板電腦數據，依據與智能手機數據的相似度，可合并到手機用戶上，無法匹配的數據可默認為一個用戶，通常是家庭中的少年兒童；針對PC數據，依據與平板電腦和智能手機數據的相似度，分離歸并到各用戶；根據樣本數據找到區(qū)分用戶的網絡訪問識別因素及其權重，建立每個用戶的網絡訪問識別模型。S24：使用網絡訪問識別模型對后續(xù)采集數據進行預測。具體地，該步驟的實現(xiàn)方式與上述實施例中步驟S106的實現(xiàn)方式相同，使用每個用戶的網絡訪問識別模型對當前用戶的網絡訪問行為數據進行分析，計算當前用戶對應任意一個用戶的網絡訪問識別模型的預測結果值，將預測結果值最高的用戶確定為與當前用戶匹配度最高的用戶。S25：判斷預測概率是否小于一定的閾值。具體地，該步驟的實現(xiàn)方式與上述實施例中步驟S110的實現(xiàn)方式相似。在預測概率小于一定的閾值的情況下，進入步驟S26。在預測概率大于等于一定的閾值的情況下，進入步驟S27。S26：修正模型。具體地，該步驟的實現(xiàn)方式與上述實施例中步驟S112的實現(xiàn)方式相似，在此不作贅述。S27：結束。具體地，在預測概率大于等于一定的閾值的情況下，完成識別用戶的網絡訪問行為數據。實施例2根據本發(fā)明實施例，提供了一種數據處理裝置實施例。圖3是根據本發(fā)明實施例的一種數據處理裝置的示意圖，如圖3所示，該裝置包括：獲取模塊31、接收模塊33和確定模塊35，其中，獲取模塊31，用于獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，其中，網絡訪問識別模型至少包含用戶在預設時間段內通過同一網絡進行頁面訪問之后，所確定的網絡訪問識別因素。具體地，上述獲取模塊31中的網絡訪問識別模型表明用戶進行頁面訪問的訪問習慣，例如用戶經常訪問的網頁的類型，訪問該類型網頁的時長和頻率等信息。在一種可選的方案中，獲取模塊31從一個家庭路由器中提取得到該家庭中所有用戶的網絡訪問行為數據，對該網絡訪問行為數據進行分析，確定每個用戶的網絡訪問識別模型。接收模塊33，用于接收同樣使用同一網絡的當前用戶的網絡訪問行為數據。具體地，上述接收模塊33中的網絡訪問行為數據可以是用戶進行頁面訪問生成的數據，上述數據可以保存在路由器或者網絡服務商服務器中。當前用戶可以是使用同一網絡的用戶群中任意一個用戶，也可以是非用戶群中的任意一個用戶，例如用戶群是一個家庭中的三個成員A、B和C，當前用戶是客人D。確定模塊35，用于使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。具體地，確定模塊35使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，得到用戶群中每個用戶和該當前用戶的匹配度，該當前用戶可以是用戶群中匹配度最高的用戶。在一種可選的方案中，獲取模塊31獲取使用同一個路由器的家庭中三個成員A、B和C的網絡訪問識別模型，接收模塊33接收使用同一個路由器的用戶D的網絡訪問行為數據，確定模塊35分別使用A、B和C三個網絡訪問識別模型對當前用戶的網絡訪問行為數據進行分析，確定A與當前用戶匹配度為20％，確定B與當前用戶匹配度為75％，確定C與當前用戶匹配度為48％，其中，匹配度最高的用戶為B，因此可以確定當前用戶為用戶B，即當前的網絡訪問行為數據是用戶B訪問頁面產生的數據。本申請上述實施例中，通過獲取模塊獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，并通過接收模塊接收同樣使用同一網絡的當前用戶的網絡訪問行為數據，確定模塊使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。因此，上述方案可以實現(xiàn)識別不同用戶的網絡訪問行為數據的目的，由于用戶屬于使用同一網絡的用戶群，進一步還可以實現(xiàn)將以用戶群為單位的網絡訪問行為數據分離到用戶群中每個用戶的目的，從而解決現(xiàn)有技術中僅能得到同一網絡的網絡訪問行為數據，網絡訪問行為數據識別精度不高的技術問題。由此可知，本申請實施例提供的方案可以把以家庭為單位的數據進一步分離到個人，提高網絡訪問行為數據的識別精度，具有更高的數據價值?？蛇x地，本申請上述實施例中，用戶訪問頁面所確定的網絡訪問識別因素包括如下任意一個或多個參數：訪問頁面的訪問次數、訪問時長、跳出率、訪問頻率和訪問深度。具體地，上述方案中訪問頁面的訪問次數可以是用戶在特定時間段內訪問特定網站的訪問次數，該特定時間可以是一天或者一周。訪問時長可以是用戶每次訪問特定網站的時間，例如每次訪問視頻網站的時間為2個小時。跳出率可以是用戶訪問網站只訪問一個頁面就離開的概率。訪問頻率可是用戶訪問特定頁面之間間隔的時間，例如每隔一天訪問一次視頻網站。訪問深度可以是用戶訪問特定網站連續(xù)的頁面?zhèn)€數，例如用戶訪問視頻網站連續(xù)的頁面?zhèn)€數為10。通過上述方案，由于不同用戶訪問頁面確定的網絡訪問識別因素不同，因此可以通過生成包含網絡訪問識別因素的識別模型，對網絡訪問行為數據進行分析，實現(xiàn)識別不同用戶的網絡訪問行為數據的目的?？蛇x地，如圖4所示，本申請上述實施例中，上述獲取模塊31包括：獲取子模塊311，用于獲取預設時間段內使用同一網絡的每個用戶的網絡訪問行為數據。具體地，上述獲取子模塊311中預設時間段可以是接收到當前用戶的網絡訪問行為數據之前用戶設定的時間段，可以將預設時間段內使用同一網絡的每個用戶的網絡訪問行為數據作為樣本數據，得到每個用戶的網絡訪問識別模型。第一確定子模塊313，用于根據預設時間段內的每個用戶的網絡訪問行為數據，確定用戶群中每個用戶的網絡訪問識別因素和相應的權重。具體地，上述第一確定子模塊313中的權重可以根據每個用戶的訪問習慣得到，不同用戶相同的網絡訪問識別因素相應的權重不同，相同用戶不同的網絡訪問識別因素相應的權重不同。網絡訪問識別因素可以是訪問頻率、訪問時長和訪問深度。但不限于此，包括其他參數的網絡訪問識別因素也可以實現(xiàn)本實施例的目的。在一種可選的方案中，第一確定子模塊可以根據每個用戶的網絡訪問行為數據之間的相似度，確定每個用戶訪問頁面的頁面類型，例如，用戶A訪問頁面的頁面類型為體育類和新聞類，用戶B訪問頁面的頁面類型為購物類和視頻類，用戶C訪問頁面的頁面類型為網頁游戲類。在對每個用戶訪問頁面的頁面類型進行分類之后，確定每個用戶在每種頁面類型中的網絡訪問識別因素和相應的權重，例如，視頻類的網絡訪問識別因素是訪問時長和訪問頻率，用戶A的網絡訪問識別因素相應的權重最低，用戶B的網絡訪問識別因素相應的權重最高。生成子模塊315，用于根據每個用戶的網絡訪問識別因素xi和相應的權重xi，按照公式y(tǒng)i＝k1x1+k2x2+…+knxn生成每個用戶的網絡訪問識別模型yi，其中，i為自然數。具體地，上述生成子模塊315中n可以是網路訪問識別因素包含的參數個數，例如，網絡訪問識別因素是訪問頻率、訪問時長和訪問深度，那么n為3。通過上述方案，通過獲取子模塊獲取預設時間段內的每個用戶的網絡訪問行為數據，獲取子模塊確定用戶群中每個用戶的網絡訪問識別因素和相應的權重，生成子模塊按照公式生成每個用戶的網絡訪問識別模型，從而實現(xiàn)獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型的目的?？蛇x地，如圖5所示，本申請上述實施例中，上述確定模塊35包括：提取子模塊351，用于從當前用戶的網絡訪問行為數據中，提取得到當前用戶進行頁面訪問后的網絡訪問識別因素。在一種可選的方案中，提取子模塊從當前用戶的網絡訪問行為數據中，提取用戶訪問頁面的頁面類型，例如當前用戶訪問頁面的頁面類型為視頻類，那么當前用戶的網絡訪問識別因素是訪問時長和訪問頻率。計算子模塊353，用于使用每個用戶的網絡訪問識別模型yi對當前用戶的網絡訪問識別因素進行處理，計算得到當前用戶對應任意一個用戶的網絡訪問識別模型yi的預測結果值。具體地，上述計算子模塊353中預測結果值可以是當前用戶為該任意一個用戶的預測概率值。在一種可選的方案中，計算子模塊將當前用戶的網絡訪問識別因素代入每個用戶的網絡訪問識別模型yi，求出當前用戶對應任意一個用戶的網絡訪問識別模型yi的預測結果值，例如，當前用戶的網絡訪問識別因素是訪問時長和訪問頻率，代入頁面類型為視頻類的每個用戶的網絡訪問識別模型，計算得到當前用戶對應用戶A的預測結果值為25％，當前用戶對應用戶B的預測結果值為80％，當前用戶對應用戶C的預測結果值為65％。第二確定子模塊355，將預測結果值最高的用戶確定為與當前用戶匹配度最高的用戶。在一種可選的方案中，第二確定子模塊通過比較當前用戶對應任意一個用戶的網絡訪問識別模型yi的預測結果值，將預測結果值最高的用戶確定為與當前用戶匹配度最高的用戶，例如，當前用戶對應用戶B的預測結果值為80％最高，因此確定用戶B為與當前用戶匹配度最高的用戶。通過上述方案，提取子模塊提取當前用戶的網絡訪問識別因素，計算子模塊計算當前用戶對應任意一個用戶的預測結果值，第二確定子模塊確定預測結果值最高的用戶為與當前用戶匹配度最高的用戶，從而實現(xiàn)穩(wěn)定且高效數據處理目的?？蛇x地，如圖6所示，本申請上述實施例中，上述裝置還包括：處理模塊37，用于使用回歸算法確定每個用戶的網絡訪問識別因素xi所對應的權重ki。具體地，上述回歸算法可以是邏輯回歸算法，但不限于此，其他的回歸算法也可以實現(xiàn)本實施例的目的。也可以使用數據分析或數據挖掘軟件實現(xiàn)本實施例的目的，例如SPSS、Stat、SAS、R、rapidminer和Python等。在一種可選的方案中，根據每個用戶網絡訪問行為數據，使用邏輯回歸算法得到所有網絡訪問識別因素的權重值，進一步確定每個用戶及其網絡訪問行為之間的關系，從而建立一個相關性較好的回歸方程(即網絡訪問識別模型)，用于預測接收到的當前用戶的網絡訪問行為數據所對應的用戶群中的用戶。可選地，邏輯回歸算法通過觀測樣本的極大似然估計值來選擇參數，具體步驟如下：第一步，在rapidminer系統(tǒng)中，導入需要分析的每個用戶的網絡訪問行為數據作為樣本數據。第二步，根據導入的樣本數據，建立邏輯回歸模型，輸出各因素權重值的結果示例如表1所示。通過上述方案，處理模塊使用回歸算法可以得到更精確的網絡訪問識別因素所對應的權重?？蛇x地，如圖7所示，本申請上述實施例中，上述裝置還包括：判斷模塊32，用于判斷任意一個用戶的預測結果值是否小于預設閾值。具體地，上述判斷模塊32中任意一個用戶的預測結果值可以是與當前用戶匹配度最高的用戶的預測結果值，預設閾值可以是70％，但不僅限于此，其他的預設閾值也可以滿足本實施例的目的。在一種可選的方案中，用戶A的預測結果值為25％，用戶B的預測結果值為80％，用戶C的預測結果值為65％，第二確定子模塊確定與當前用戶匹配度最高的用戶為用戶B，由于80％大于70％，因此判斷模塊判斷用戶B的預測結果值大于預設閾值。修正模塊34，用于在預測結果值小于預設閾值的情況下，修正預測結果值小于預設閾值的用戶的網絡訪問識別模型，直至預測結果值大于等于預設閾值。在一種可選的方案中，用戶A的預測結果值為25％，用戶B的預測結果值為65％，用戶C的預測結果值為45％，第二確定子模塊確定與當前用戶匹配度最高的用戶為用戶B，由于65％小于70％，判斷模塊判斷用戶B的預測結果值大于預設閾值，修正模塊修正用戶B的網絡訪問識別模型，直至用戶B的預測結果值大于等于預設閾值。通過上述方案，通過判斷模塊判斷任意一個用戶的預測結果值是否小于預設閾值，并在預測結果值小于預設閾值的情況下，修正模塊修正預測結果值小于預設閾值的用戶的網絡訪問識別模型，直至預測結果值大于等于預設閾值。因此，上述方案通過持續(xù)修正每個用戶的網絡訪問識別模型，避免了小概率事件對網絡訪問識別模型的影響，保證較高的識別精度。可選地，如圖8所示，在一種可選的實施例中，上述修正模塊34包括：第一修正子模塊341，用于根據當前用戶的網絡訪問行為數據，修正預設時間段內確定的網絡訪問識別因素和相應的權重，得到修正后的每個用戶的網絡訪問識別模型。在一種可選的方案中，在用戶B的預測結果值小于預設閾值的情況下，第一修正子模塊僅僅根據當前用戶的網絡訪問行為數據，修正預設時間段內確定的用戶B的網絡訪問識別因素所對應的權重，進一步得到修正后的用戶B的網絡訪問識別模型。通過上述方案，第一修正子模塊根據當前用戶的網絡訪問行為數據，修正預設時間段內所確定的網絡訪問識別因素和相應的權重，得到修正后的每個用戶的網絡訪問識別模型，從而實現(xiàn)修正預測結果值小于預設閾值的用戶的網絡訪問識別模型的目的。可選地，如圖9所示，在另一種可選的實施例中，上述修正模塊34包括：第二修正子模塊343，用于以當前用戶進行頁面訪問的時間為基準，根據每個用戶的網絡訪問行為數據和當前用戶的網絡訪問行為數據，確定修正后預設時間段內的網絡訪問識別因素和相應的權重，生成修正后的每個用戶的網絡訪問識別模型。在一種可選的方案中，在用戶B的預測結果值小于預設閾值的情況下，第二修正子模塊將當前用戶的網絡訪問行為數據加入到每個用戶的網絡訪問行為數據中，得到新的樣本數據，根據新的樣本數據確定新的預設時間段內用戶B的網絡訪問識別因素和相應的權重，進一步得到修正后的用戶B的網絡訪問識別模型。通過上述方案，第二修正子模塊以當前用戶進行頁面訪問的時間為基準，根據每個用戶的網絡訪問行為數據和當前用戶的網絡訪問行為數據，確定修正后預設時間段內的網絡訪問識別因素和相應的權重，生成修正后的每個用戶的網絡訪問識別模型，從而實現(xiàn)修正預測結果值小于預設閾值的用戶的網絡訪問識別模型的目的。所述法律裁判文書的解析裝置包括處理器和存儲器，上述獲取模塊、接收模塊、確定模塊、處理模塊、判斷模塊、修正模塊等均作為程序單元存儲在存儲器中，由處理器執(zhí)行存儲在存儲器中的上述程序單元。上述第一預設規(guī)則、第二預設規(guī)則都可以存儲在存儲器中。處理器中包含內核，由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上，通過調整內核參數解析文本內容。存儲器可能包括計算機可讀介質中的非永久性存儲器，隨機存取存儲器(RAM)和/或非易失性內存等形式，如只讀存儲器(ROM)或閃存(flashRAM)，存儲器包括至少一個存儲芯片。本申請還提供了一種計算機程序產品的實施例，當在數據處理設備上執(zhí)行時，適于執(zhí)行初始化有如下方法步驟的程序代碼：獲取使用同一網絡的用戶群中每個用戶的網絡訪問識別模型，其中，網絡訪問識別模型至少包含用戶在預設時間段內通過同一網絡進行頁面訪問之后，所確定的網絡訪問識別因素；接收同樣使用同一網絡的當前用戶的網絡訪問行為數據；使用每個用戶的網絡訪問識別模型分別對當前用戶的網絡訪問行為數據進行分析，確定用戶群中與當前用戶的匹配度最高的用戶。上述本發(fā)明實施例序號僅僅為了描述，不代表實施例的優(yōu)劣。在本發(fā)明的上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。在本申請所提供的幾個實施例中，應該理解到，所揭露的技術內容，可通過其它的方式實現(xiàn)。其中，以上所描述的裝置實施例僅僅是示意性的，例如所述單元的劃分，可以為一種邏輯功能劃分，實際實現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，單元或模塊的間接耦合或通信連接，可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個單元上?？梢愿鶕嶋H的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn)，也可以采用軟件功能單元的形式實現(xiàn)。所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產品銷售或使用時，可以存儲在一個計算機可讀取存儲介質中?；谶@樣的理解，本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現(xiàn)出來，該計算機軟件產品存儲在一個存儲介質中，包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括：U盤、只讀存儲器(ROM，Read-OnlyMemory)、隨機存取存儲器(RAM，RandomAccessMemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。以上所述僅是本發(fā)明的優(yōu)選實施方式，應當指出，對于本
技術領域：
的普通技術人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視為本發(fā)明的保護范圍。當前第1頁1 2 3

完整全部詳細技術資料下載

當前第1頁1 2 3