一種基于XML進(jìn)行web訪問模式挖掘的系統(tǒng)及方法與流程

文檔序號(hào)：11514969閱讀：200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及web數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體地說是一種基于xml進(jìn)行web訪問模式挖掘的系統(tǒng)及方法。

背景技術(shù)：

www技術(shù)蓬勃發(fā)展，由于web站點(diǎn)的規(guī)模和復(fù)雜度的增加，網(wǎng)站的一些主要工作，如web站點(diǎn)設(shè)計(jì)、web服務(wù)設(shè)計(jì)、電子商務(wù)等工作變得越加復(fù)雜和繁重。web數(shù)據(jù)挖掘可以幫助分析人員從用戶與網(wǎng)站的會(huì)話過程產(chǎn)生的大量多種多樣的信息中挖掘出對(duì)企業(yè)和網(wǎng)站設(shè)計(jì)人員有用的知識(shí)。將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)應(yīng)用于商務(wù)站點(diǎn)數(shù)據(jù)處理工作，并提供一種高效的web挖掘解決方案，是當(dāng)今國際數(shù)據(jù)挖掘領(lǐng)域關(guān)注的熱門課題。

數(shù)據(jù)源在web訪問模式發(fā)現(xiàn)的過程中非常重要，它直接影響著后面的工作如模式挖掘和模式評(píng)估。以往的web挖掘數(shù)據(jù)來源雖然廣泛，但作為用戶訪問模式挖掘的基礎(chǔ)仍存在片面性和孤立性，且仍不夠充分；它們之間不能實(shí)現(xiàn)有效的結(jié)合，忽視了網(wǎng)站的需求，給數(shù)據(jù)分析人員帶來了很多困擾。

在現(xiàn)實(shí)中，用戶經(jīng)常通過代理服務(wù)器訪問網(wǎng)站，服務(wù)器日志記錄了代理服務(wù)器端agentid，而忽略了用戶的真實(shí)id。這樣利用服務(wù)器訪問日志進(jìn)行數(shù)據(jù)挖掘時(shí)，就可能存在單ip一多用戶、多ip一單用戶、多ip一單會(huì)話(用戶與網(wǎng)站會(huì)話中途亦可能更換代理)等情況。目前的web分析工具僅能提供用戶訪問網(wǎng)站web頁的統(tǒng)計(jì)次數(shù)，對(duì)于大量的訪問日志，正確分析識(shí)別用戶和真實(shí)會(huì)話則無能為力，數(shù)據(jù)源的可信度降低。

目前許多商業(yè)網(wǎng)站的銷售活動(dòng)，僅僅限于已注冊(cè)的消費(fèi)群體；對(duì)于尚未注冊(cè)，僅抱著瀏覽態(tài)度的匿名登錄用戶，有些網(wǎng)頁或是不可見，或者干脆將其拒之門外。由于訪問日志記錄信息的局限性和缺少必要的用戶登記信息，這些訪問者的訪問記錄在進(jìn)行數(shù)據(jù)過濾時(shí)往往顯得多余。實(shí)際上，這些訪問者的信息對(duì)于發(fā)現(xiàn)潛在用戶群體是十分必要的。

web訪問日志記錄的只局限于用戶訪問瀏覽到的網(wǎng)頁，而用戶與網(wǎng)站會(huì)話的最終結(jié)果則記錄在數(shù)據(jù)庫文件中。用戶對(duì)網(wǎng)頁的操作，例如某用戶對(duì)特定商品的查詢、購買等操作并沒有記錄下來。而這些數(shù)據(jù)對(duì)于發(fā)現(xiàn)用戶的購買心理和行為模式等十分關(guān)鍵。

技術(shù)實(shí)現(xiàn)要素：

為克服上述現(xiàn)有技術(shù)存在的不足，本發(fā)明的目的在于提供一種模式挖掘精確度高、數(shù)據(jù)格式良好的基于xml進(jìn)行web訪問模式挖掘的系統(tǒng)及方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：一種基于xml進(jìn)行web訪問模式挖掘的系統(tǒng)，其特征是：包括依次連接的數(shù)據(jù)采集模塊、挖掘預(yù)處理模塊、模式挖掘模塊和挖掘結(jié)果后處理模塊；數(shù)據(jù)采集模塊用于記錄用戶進(jìn)行web訪問的數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件，挖掘預(yù)處理模塊用于對(duì)xml文件進(jìn)行預(yù)處理并形成xml文檔數(shù)據(jù)庫，模式挖掘模塊通過模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫，挖掘結(jié)果后處理模塊用于對(duì)模式庫進(jìn)行分析并顯示分析結(jié)果。

進(jìn)一步地，數(shù)據(jù)采集模塊包括應(yīng)用程序，所述應(yīng)用程序用于讀取用戶的注冊(cè)信息并獲取用戶進(jìn)行web訪問的數(shù)據(jù)。

進(jìn)一步地，挖掘預(yù)處理模塊對(duì)xml文件的預(yù)處理包括數(shù)據(jù)過濾處理、用戶識(shí)別處理、會(huì)話識(shí)別處理和路徑補(bǔ)充分析處理。

進(jìn)一步地，數(shù)據(jù)過濾處理利用文檔解析器對(duì)xml文件進(jìn)行解析、壓縮、合并及抽取操作，獲得xml樹；

用戶識(shí)別處理通過用戶的登陸信息來區(qū)分用戶；

會(huì)話識(shí)別處理根據(jù)用戶id和訪問時(shí)間對(duì)xml文件進(jìn)行排序；

路徑補(bǔ)充分析處理對(duì)xml文件中不完整的url路徑進(jìn)行補(bǔ)充。

進(jìn)一步地，會(huì)話識(shí)別處理將注冊(cè)用戶和匿名用戶的web訪問信息分別保存在xml文檔數(shù)據(jù)庫中。

進(jìn)一步地，模式挖掘模塊采用的模式挖掘算法為fp-樹頻集算法。

一種基于xml進(jìn)行web訪問模式挖掘的方法，其特征是：包括步驟，

s1，在用戶訪問web服務(wù)器期間，記錄用戶的訪問數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件；

s2，通過對(duì)xml文件的預(yù)處理形成xml文檔數(shù)據(jù)庫，

s3，利用模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫，

s4，對(duì)模式庫進(jìn)行分析和模式評(píng)估。

進(jìn)一步地，對(duì)xml文件的預(yù)處理包括

數(shù)據(jù)過濾處理，利用文檔解析器對(duì)xml文件進(jìn)行解析、壓縮、合并及抽取操作，獲得xml樹；

用戶識(shí)別處理，用戶識(shí)別處理通過用戶的登陸信息來區(qū)分用戶；

會(huì)話識(shí)別處理，根據(jù)用戶id和訪問時(shí)間對(duì)xml文件進(jìn)行排序；

路徑補(bǔ)充分析處理，對(duì)xml文件中不完整的url路徑進(jìn)行補(bǔ)充。

進(jìn)一步地，利用的模式挖掘算法為fp-樹頻集算法，采用fp-樹頻集算法生成模式庫的步驟為，

s31,根據(jù)apriori算法，掃描數(shù)據(jù)庫一次生成1一頻繁集及支持度計(jì)數(shù)，并按支持度計(jì)數(shù)降序排列，放入l表中；

s32，創(chuàng)建根節(jié)點(diǎn)，并標(biāo)識(shí)為“null”，掃描數(shù)據(jù)庫一次，當(dāng)?shù)玫綌?shù)據(jù)庫的一個(gè)項(xiàng)目集時(shí)，就把其中的元素按l表的次序排列，然后遞歸調(diào)用fp-growth來實(shí)現(xiàn)fp-樹的增長；

s33，為fp-樹的每個(gè)節(jié)點(diǎn)生成條件模式庫；

s34，用條件模式庫構(gòu)造對(duì)應(yīng)的條件fp-樹；

s35，遞歸構(gòu)造條件fp-樹，增長條件fp-樹包含的頻繁集；

s36，如果條件fp-樹只包含一個(gè)路徑，則直接生成條件fp-樹包含的頻繁集。

本發(fā)明的有益效果是：

數(shù)據(jù)采集部分利用asp技術(shù)在應(yīng)用層獲取用戶會(huì)話信息，并記錄于xml格式的會(huì)話文檔中，提供了數(shù)據(jù)完備，數(shù)據(jù)格式良好，準(zhǔn)確度高的數(shù)據(jù)源，并為后階段的挖掘工作做了充足的準(zhǔn)備；

在服務(wù)器端收集到的xml文檔均是以會(huì)話格式記錄的，所以在數(shù)據(jù)預(yù)處理階段，很容易根據(jù)用戶id和時(shí)間戳timeout進(jìn)行用戶識(shí)別和會(huì)話識(shí)別，解決了以往的web訪問模式挖掘遇到的用戶會(huì)話識(shí)別不準(zhǔn)確的難題；

本發(fā)明按照xml屬性結(jié)構(gòu)，將用戶訪問網(wǎng)站過程中的動(dòng)作都定義為簡單事件，在模式挖掘時(shí)，僅需掃描一遍數(shù)據(jù)庫，便可以生成單維關(guān)聯(lián)項(xiàng)，挖掘效率得到很大的提高；

在進(jìn)行會(huì)話識(shí)別時(shí)，對(duì)注冊(cè)用戶和匿名用戶分別設(shè)置了保存方式，使匿名用戶進(jìn)行web訪問的相關(guān)數(shù)據(jù)也記錄下來，這些也能作為后期數(shù)據(jù)挖掘的依據(jù)，為設(shè)計(jì)者提供模式參考，具有潛在的經(jīng)濟(jì)效益。

附圖說明

圖1是本發(fā)明所述系統(tǒng)的結(jié)構(gòu)示意圖；

圖2是本發(fā)明所述方法的流程示意圖。

具體實(shí)施方式

為能清楚說明本方案的技術(shù)特點(diǎn)，下面通過具體實(shí)施方式，并結(jié)合其附圖，對(duì)本發(fā)明進(jìn)行詳細(xì)闡述。下文的公開提供了許多不同的實(shí)施例或例子用來實(shí)現(xiàn)本發(fā)明的不同結(jié)構(gòu)。為了簡化本發(fā)明的公開，下文中對(duì)特定例子的部件和設(shè)置進(jìn)行描述。此外，本發(fā)明可以在不同例子中重復(fù)參考數(shù)字和/或字母。這種重復(fù)是為了簡化和清楚的目的，其本身不指示所討論各種實(shí)施例和/或設(shè)置之間的關(guān)系。應(yīng)當(dāng)注意，在附圖中所圖示的部件不一定按比例繪制。本發(fā)明省略了對(duì)公知組件和處理技術(shù)及工藝的描述以避免不必要地限制本發(fā)明。

如圖1所示，本發(fā)明公開了一種基于xml進(jìn)行web訪問模式挖掘的系統(tǒng)，系統(tǒng)包括依次連接的數(shù)據(jù)采集模塊、挖掘預(yù)處理模塊、模式挖掘模塊和挖掘結(jié)果后處理模塊。

數(shù)據(jù)采集模塊用于記錄用戶進(jìn)行web訪問的數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件：

在www中，web服務(wù)過程包括:

(1)客戶端向服務(wù)器端(webserver)發(fā)出請(qǐng)求，根據(jù)http協(xié)議，這個(gè)請(qǐng)求中包含了客戶端的ip地址，瀏覽器的類型，請(qǐng)求url等一系列信息；

(2)服務(wù)器端(webserver)收到請(qǐng)求后，根據(jù)請(qǐng)求將客戶端要求的信息內(nèi)容返回到客戶端，如果出現(xiàn)錯(cuò)誤，則返回錯(cuò)誤代碼；

(3)服務(wù)器將訪問信息記錄到日志文件中。

這些與用戶密切相關(guān)的數(shù)據(jù)全部以xml文件的形式封裝并保存在數(shù)據(jù)庫中。目前各種大型商用數(shù)據(jù)庫系統(tǒng)對(duì)xml都提供了完善的支持，這種封裝形式將極大的有利于數(shù)據(jù)導(dǎo)入、交換等操作。而且xml樹型結(jié)構(gòu)的數(shù)據(jù)，為一些常用的數(shù)據(jù)挖掘算法提供了便利。

本發(fā)明采用sqlserver2014(sqlserver系列軟件是microsoft公司推出的關(guān)系型數(shù)據(jù)庫管理系統(tǒng))對(duì)asp.net(asp即activeserverpages，是microsoft公司開發(fā)的服務(wù)器端腳本環(huán)境，可用來創(chuàng)建動(dòng)態(tài)交互式網(wǎng)頁并建立強(qiáng)大的web應(yīng)用程序。)框架提供支持，在asp.net環(huán)境下設(shè)計(jì)的應(yīng)用程序(日志記錄器)可以調(diào)用構(gòu)建asp.net平臺(tái)上的第三方服務(wù)。web服務(wù)技術(shù)允許應(yīng)用程序通過調(diào)用站點(diǎn)發(fā)布的商業(yè)服務(wù)接口對(duì)站點(diǎn)的數(shù)據(jù)庫和訪問日志進(jìn)行操作，包括對(duì)數(shù)據(jù)庫中用戶注冊(cè)登記信息的只讀訪問，查詢處理和檢索；以及訪問日志的的只讀操作。本發(fā)明所收集的日志包括：

(1)用戶注冊(cè)信息：利用商務(wù)站點(diǎn)發(fā)布的商業(yè)服務(wù)接口，通過應(yīng)用程序讀取站點(diǎn)數(shù)據(jù)庫中的用戶注冊(cè)信息；

(2)訪問日志：使用應(yīng)用程序，來獲取用戶在登錄網(wǎng)站期間的一切訪問行為；

(3)站點(diǎn)結(jié)構(gòu)設(shè)計(jì)：采用第三方網(wǎng)絡(luò)爬蟲工具，自動(dòng)提取所有網(wǎng)頁url并記錄，便于為后期數(shù)據(jù)挖掘分析提供參考。

挖掘預(yù)處理模塊用于對(duì)xml文件進(jìn)行預(yù)處理并形成xml文檔數(shù)據(jù)庫，對(duì)xml文件的預(yù)處理包括數(shù)據(jù)過濾處理、用戶識(shí)別處理、會(huì)話識(shí)別處理和路徑補(bǔ)充分析處理。

數(shù)據(jù)過濾：首先將收集到的xml文檔利用解析器dom進(jìn)行解析、壓縮、合并及抽取操作，之后得到一個(gè)精簡、抽象的xml樹。這樣就得到了一個(gè)集用戶瀏覽路徑與瀏覽行為于一體的綜合數(shù)據(jù)源。

用戶識(shí)別：利用用戶登陸信息(登陸id)來區(qū)分用戶。

會(huì)話識(shí)別：是把該用戶的連續(xù)訪問看成是同一個(gè)時(shí)域(session)。并對(duì)xml文件根據(jù)用戶id(userid)和訪問時(shí)間(accesstime)進(jìn)行排序。

會(huì)話識(shí)別會(huì)對(duì)會(huì)話格式進(jìn)行識(shí)別，會(huì)話格式中對(duì)用戶類設(shè)置了userid屬性，當(dāng)用戶為網(wǎng)站注冊(cè)用戶時(shí)，用戶將保存在userid里，用戶對(duì)于商品的發(fā)生交易等數(shù)據(jù)也將保存在與這個(gè)userid相關(guān)的數(shù)據(jù)里；對(duì)于非注冊(cè)(匿名)用戶，對(duì)于相關(guān)網(wǎng)頁的查詢，商品的瀏覽、查詢這些信息也將保存起來，把userid設(shè)置成null，表示并不與具體用戶關(guān)聯(lián)，這些數(shù)據(jù)也能作為后期數(shù)據(jù)挖掘的依據(jù)。

當(dāng)是網(wǎng)站的注冊(cè)用戶時(shí)，以會(huì)話為基礎(chǔ)的用戶訪問數(shù)據(jù)記錄可以很好地將用戶在瀏覽網(wǎng)站時(shí)進(jìn)行的操作封裝在基于同一session的數(shù)據(jù)中，這樣的數(shù)據(jù)能使后期數(shù)據(jù)識(shí)別更加準(zhǔn)確，數(shù)據(jù)源可信度得到了提高。

路徑補(bǔ)充分析：結(jié)合站點(diǎn)結(jié)構(gòu)設(shè)計(jì)，對(duì)xml文檔中不完全的url路徑進(jìn)行補(bǔ)充完善。

模式挖掘模塊通過模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫，采用的模式挖掘算法為fp-樹頻集算法。形成的xml文檔數(shù)據(jù)庫包含數(shù)據(jù)查詢統(tǒng)計(jì)功能，在利用模式挖掘算法進(jìn)行模式庫生成的過程中頻繁訪問模式挖掘形成模式庫。

挖掘結(jié)果后處理模塊用于對(duì)模式庫進(jìn)行分析并顯示分析結(jié)果。

用戶訪問模式挖掘的后續(xù)工作是對(duì)模式庫進(jìn)行評(píng)估、可視化和應(yīng)用。采取sql查詢(結(jié)構(gòu)化查詢語言structuredquerylanguage)，專家參與的模式評(píng)價(jià)。

挖掘出的所有模式都認(rèn)為是未確定的模式，通過專家評(píng)價(jià)，將挖掘出的模式劃分為確定模式和無用模式，并分別存入確定模式集合和無用模式集合。然后對(duì)未確定模式集合中的下一個(gè)模式進(jìn)行評(píng)價(jià)，如此循環(huán)，直到滿足輸入的“終止評(píng)價(jià)條件”，則終止評(píng)價(jià)過程。

經(jīng)過模式分析所得到的有價(jià)值的模式，根據(jù)用戶的需要，采用可視化的技術(shù)以圖形界面的方式展示給用戶，以便用戶采取進(jìn)一步行動(dòng)，根據(jù)獲得的模式進(jìn)行站點(diǎn)結(jié)構(gòu)改造。

如圖2所示，本發(fā)明還公開了一種基于xml進(jìn)行web訪問模式挖掘的方法，包括步驟，

s1，在用戶訪問web服務(wù)器期間，記錄用戶的訪問數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件；

s2，通過對(duì)xml文件的預(yù)處理形成xml文檔數(shù)據(jù)庫，

s3，利用模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫，

s4，對(duì)模式庫進(jìn)行分析和模式評(píng)估。

本方法在用戶訪問網(wǎng)站期間，web服務(wù)器端自動(dòng)生成一個(gè)xml文件(session.xml)，用來記錄用戶的訪問行為。用戶訪問站點(diǎn)，關(guān)鍵的事件包括:登錄login、瀏覽navigate、離開depart、搜索search,以及一些訪問行為如購買buy、放棄abandon、選中choose、刪除delete等。

步驟s2中對(duì)xml文件的預(yù)處理包括

數(shù)據(jù)過濾處理，利用文檔解析器對(duì)xml文件進(jìn)行解析、壓縮、合并及抽取操作，獲得xml樹；

用戶識(shí)別處理，用戶識(shí)別處理通過用戶的登陸信息來區(qū)分用戶；

會(huì)話識(shí)別處理，根據(jù)用戶id和訪問時(shí)間對(duì)xml文件進(jìn)行排序；

路徑補(bǔ)充分析處理，對(duì)xml文件中不完整的url路徑進(jìn)行補(bǔ)充。

步驟s3中采用的模式挖掘算法為fp-樹頻集算法。利用fp-樹頻集算法實(shí)現(xiàn)模式挖掘的步驟為，

s31，根據(jù)apriori算法，掃描數(shù)據(jù)庫一次生成1一頻繁集及支持度計(jì)數(shù)，并按支持度計(jì)數(shù)降序排列，放入l表中；

s33，為fp-樹的每個(gè)節(jié)點(diǎn)生成條件模式庫；

s34，用條件模式庫構(gòu)造對(duì)應(yīng)的條件fp-樹；

s35，遞歸構(gòu)造條件fp-樹，增長條件fp-樹包含的頻繁集；

s36，如果條件fp-樹只包含一個(gè)路徑，則直接生成條件fp-樹包含的頻繁集。

通過以上模式挖掘，形成模式庫。

傳統(tǒng)的單純使用apriori算法時(shí)，需要多次掃描xml文檔數(shù)據(jù)庫，需要很大的i/o負(fù)載，并可能產(chǎn)生龐大的候選集，對(duì)時(shí)間和空間都是一種挑戰(zhàn)。本發(fā)明按照xml文件的屬性，在數(shù)據(jù)預(yù)處理過程中生成的會(huì)話集中的項(xiàng)目全部是簡單事件序列，所以本發(fā)明采用fp-樹頻集算法，產(chǎn)生的數(shù)據(jù)集可以得到很好的應(yīng)用。fp-樹頻集算法是一種產(chǎn)生頻繁項(xiàng)目集的關(guān)聯(lián)規(guī)則算法，算法本身是單維的，在模式挖掘時(shí)，僅需掃描一遍數(shù)據(jù)庫，便可以生成單維關(guān)聯(lián)項(xiàng)，挖掘效率得到很大的提高。

以上所述只是本發(fā)明的優(yōu)選實(shí)施方式，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也被視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王永強(qiáng)
技術(shù)所有人：鄭州云海信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

web數(shù)據(jù)挖掘相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于XML進(jìn)行web訪問模式挖掘的系統(tǒng)及方法與流程