亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于XML進(jìn)行web訪問模式挖掘的系統(tǒng)及方法與流程

文檔序號(hào):11514969閱讀:200來源:國知局
一種基于XML進(jìn)行web訪問模式挖掘的系統(tǒng)及方法與流程

本發(fā)明涉及web數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體地說是一種基于xml進(jìn)行web訪問模式挖掘的系統(tǒng)及方法。



背景技術(shù):

www技術(shù)蓬勃發(fā)展,由于web站點(diǎn)的規(guī)模和復(fù)雜度的增加,網(wǎng)站的一些主要工作,如web站點(diǎn)設(shè)計(jì)、web服務(wù)設(shè)計(jì)、電子商務(wù)等工作變得越加復(fù)雜和繁重。web數(shù)據(jù)挖掘可以幫助分析人員從用戶與網(wǎng)站的會(huì)話過程產(chǎn)生的大量多種多樣的信息中挖掘出對(duì)企業(yè)和網(wǎng)站設(shè)計(jì)人員有用的知識(shí)。將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)應(yīng)用于商務(wù)站點(diǎn)數(shù)據(jù)處理工作,并提供一種高效的web挖掘解決方案,是當(dāng)今國際數(shù)據(jù)挖掘領(lǐng)域關(guān)注的熱門課題。

數(shù)據(jù)源在web訪問模式發(fā)現(xiàn)的過程中非常重要,它直接影響著后面的工作如模式挖掘和模式評(píng)估。以往的web挖掘數(shù)據(jù)來源雖然廣泛,但作為用戶訪問模式挖掘的基礎(chǔ)仍存在片面性和孤立性,且仍不夠充分;它們之間不能實(shí)現(xiàn)有效的結(jié)合,忽視了網(wǎng)站的需求,給數(shù)據(jù)分析人員帶來了很多困擾。

在現(xiàn)實(shí)中,用戶經(jīng)常通過代理服務(wù)器訪問網(wǎng)站,服務(wù)器日志記錄了代理服務(wù)器端agentid,而忽略了用戶的真實(shí)id。這樣利用服務(wù)器訪問日志進(jìn)行數(shù)據(jù)挖掘時(shí),就可能存在單ip一多用戶、多ip一單用戶、多ip一單會(huì)話(用戶與網(wǎng)站會(huì)話中途亦可能更換代理)等情況。目前的web分析工具僅能提供用戶訪問網(wǎng)站web頁的統(tǒng)計(jì)次數(shù),對(duì)于大量的訪問日志,正確分析識(shí)別用戶和真實(shí)會(huì)話則無能為力,數(shù)據(jù)源的可信度降低。

目前許多商業(yè)網(wǎng)站的銷售活動(dòng),僅僅限于已注冊(cè)的消費(fèi)群體;對(duì)于尚未注冊(cè),僅抱著瀏覽態(tài)度的匿名登錄用戶,有些網(wǎng)頁或是不可見,或者干脆將其拒之門外。由于訪問日志記錄信息的局限性和缺少必要的用戶登記信息,這些訪問者的訪問記錄在進(jìn)行數(shù)據(jù)過濾時(shí)往往顯得多余。實(shí)際上,這些訪問者的信息對(duì)于發(fā)現(xiàn)潛在用戶群體是十分必要的。

web訪問日志記錄的只局限于用戶訪問瀏覽到的網(wǎng)頁,而用戶與網(wǎng)站會(huì)話的最終結(jié)果則記錄在數(shù)據(jù)庫文件中。用戶對(duì)網(wǎng)頁的操作,例如某用戶對(duì)特定商品的查詢、購買等操作并沒有記錄下來。而這些數(shù)據(jù)對(duì)于發(fā)現(xiàn)用戶的購買心理和行為模式等十分關(guān)鍵。



技術(shù)實(shí)現(xiàn)要素:

為克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種模式挖掘精確度高、數(shù)據(jù)格式良好的基于xml進(jìn)行web訪問模式挖掘的系統(tǒng)及方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于xml進(jìn)行web訪問模式挖掘的系統(tǒng),其特征是:包括依次連接的數(shù)據(jù)采集模塊、挖掘預(yù)處理模塊、模式挖掘模塊和挖掘結(jié)果后處理模塊;數(shù)據(jù)采集模塊用于記錄用戶進(jìn)行web訪問的數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件,挖掘預(yù)處理模塊用于對(duì)xml文件進(jìn)行預(yù)處理并形成xml文檔數(shù)據(jù)庫,模式挖掘模塊通過模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫,挖掘結(jié)果后處理模塊用于對(duì)模式庫進(jìn)行分析并顯示分析結(jié)果。

進(jìn)一步地,數(shù)據(jù)采集模塊包括應(yīng)用程序,所述應(yīng)用程序用于讀取用戶的注冊(cè)信息并獲取用戶進(jìn)行web訪問的數(shù)據(jù)。

進(jìn)一步地,挖掘預(yù)處理模塊對(duì)xml文件的預(yù)處理包括數(shù)據(jù)過濾處理、用戶識(shí)別處理、會(huì)話識(shí)別處理和路徑補(bǔ)充分析處理。

進(jìn)一步地,數(shù)據(jù)過濾處理利用文檔解析器對(duì)xml文件進(jìn)行解析、壓縮、合并及抽取操作,獲得xml樹;

用戶識(shí)別處理通過用戶的登陸信息來區(qū)分用戶;

會(huì)話識(shí)別處理根據(jù)用戶id和訪問時(shí)間對(duì)xml文件進(jìn)行排序;

路徑補(bǔ)充分析處理對(duì)xml文件中不完整的url路徑進(jìn)行補(bǔ)充。

進(jìn)一步地,會(huì)話識(shí)別處理將注冊(cè)用戶和匿名用戶的web訪問信息分別保存在xml文檔數(shù)據(jù)庫中。

進(jìn)一步地,模式挖掘模塊采用的模式挖掘算法為fp-樹頻集算法。

一種基于xml進(jìn)行web訪問模式挖掘的方法,其特征是:包括步驟,

s1,在用戶訪問web服務(wù)器期間,記錄用戶的訪問數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件;

s2,通過對(duì)xml文件的預(yù)處理形成xml文檔數(shù)據(jù)庫,

s3,利用模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫,

s4,對(duì)模式庫進(jìn)行分析和模式評(píng)估。

進(jìn)一步地,對(duì)xml文件的預(yù)處理包括

數(shù)據(jù)過濾處理,利用文檔解析器對(duì)xml文件進(jìn)行解析、壓縮、合并及抽取操作,獲得xml樹;

用戶識(shí)別處理,用戶識(shí)別處理通過用戶的登陸信息來區(qū)分用戶;

會(huì)話識(shí)別處理,根據(jù)用戶id和訪問時(shí)間對(duì)xml文件進(jìn)行排序;

路徑補(bǔ)充分析處理,對(duì)xml文件中不完整的url路徑進(jìn)行補(bǔ)充。

進(jìn)一步地,利用的模式挖掘算法為fp-樹頻集算法,采用fp-樹頻集算法生成模式庫的步驟為,

s31,根據(jù)apriori算法,掃描數(shù)據(jù)庫一次生成1一頻繁集及支持度計(jì)數(shù),并按支持度計(jì)數(shù)降序排列,放入l表中;

s32,創(chuàng)建根節(jié)點(diǎn),并標(biāo)識(shí)為“null”,掃描數(shù)據(jù)庫一次,當(dāng)?shù)玫綌?shù)據(jù)庫的一個(gè)項(xiàng)目集時(shí),就把其中的元素按l表的次序排列,然后遞歸調(diào)用fp-growth來實(shí)現(xiàn)fp-樹的增長;

s33,為fp-樹的每個(gè)節(jié)點(diǎn)生成條件模式庫;

s34,用條件模式庫構(gòu)造對(duì)應(yīng)的條件fp-樹;

s35,遞歸構(gòu)造條件fp-樹,增長條件fp-樹包含的頻繁集;

s36,如果條件fp-樹只包含一個(gè)路徑,則直接生成條件fp-樹包含的頻繁集。

本發(fā)明的有益效果是:

數(shù)據(jù)采集部分利用asp技術(shù)在應(yīng)用層獲取用戶會(huì)話信息,并記錄于xml格式的會(huì)話文檔中,提供了數(shù)據(jù)完備,數(shù)據(jù)格式良好,準(zhǔn)確度高的數(shù)據(jù)源,并為后階段的挖掘工作做了充足的準(zhǔn)備;

在服務(wù)器端收集到的xml文檔均是以會(huì)話格式記錄的,所以在數(shù)據(jù)預(yù)處理階段,很容易根據(jù)用戶id和時(shí)間戳timeout進(jìn)行用戶識(shí)別和會(huì)話識(shí)別,解決了以往的web訪問模式挖掘遇到的用戶會(huì)話識(shí)別不準(zhǔn)確的難題;

本發(fā)明按照xml屬性結(jié)構(gòu),將用戶訪問網(wǎng)站過程中的動(dòng)作都定義為簡單事件,在模式挖掘時(shí),僅需掃描一遍數(shù)據(jù)庫,便可以生成單維關(guān)聯(lián)項(xiàng),挖掘效率得到很大的提高;

在進(jìn)行會(huì)話識(shí)別時(shí),對(duì)注冊(cè)用戶和匿名用戶分別設(shè)置了保存方式,使匿名用戶進(jìn)行web訪問的相關(guān)數(shù)據(jù)也記錄下來,這些也能作為后期數(shù)據(jù)挖掘的依據(jù),為設(shè)計(jì)者提供模式參考,具有潛在的經(jīng)濟(jì)效益。

附圖說明

圖1是本發(fā)明所述系統(tǒng)的結(jié)構(gòu)示意圖;

圖2是本發(fā)明所述方法的流程示意圖。

具體實(shí)施方式

為能清楚說明本方案的技術(shù)特點(diǎn),下面通過具體實(shí)施方式,并結(jié)合其附圖,對(duì)本發(fā)明進(jìn)行詳細(xì)闡述。下文的公開提供了許多不同的實(shí)施例或例子用來實(shí)現(xiàn)本發(fā)明的不同結(jié)構(gòu)。為了簡化本發(fā)明的公開,下文中對(duì)特定例子的部件和設(shè)置進(jìn)行描述。此外,本發(fā)明可以在不同例子中重復(fù)參考數(shù)字和/或字母。這種重復(fù)是為了簡化和清楚的目的,其本身不指示所討論各種實(shí)施例和/或設(shè)置之間的關(guān)系。應(yīng)當(dāng)注意,在附圖中所圖示的部件不一定按比例繪制。本發(fā)明省略了對(duì)公知組件和處理技術(shù)及工藝的描述以避免不必要地限制本發(fā)明。

如圖1所示,本發(fā)明公開了一種基于xml進(jìn)行web訪問模式挖掘的系統(tǒng),系統(tǒng)包括依次連接的數(shù)據(jù)采集模塊、挖掘預(yù)處理模塊、模式挖掘模塊和挖掘結(jié)果后處理模塊。

數(shù)據(jù)采集模塊用于記錄用戶進(jìn)行web訪問的數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件:

在www中,web服務(wù)過程包括:

(1)客戶端向服務(wù)器端(webserver)發(fā)出請(qǐng)求,根據(jù)http協(xié)議,這個(gè)請(qǐng)求中包含了客戶端的ip地址,瀏覽器的類型,請(qǐng)求url等一系列信息;

(2)服務(wù)器端(webserver)收到請(qǐng)求后,根據(jù)請(qǐng)求將客戶端要求的信息內(nèi)容返回到客戶端,如果出現(xiàn)錯(cuò)誤,則返回錯(cuò)誤代碼;

(3)服務(wù)器將訪問信息記錄到日志文件中。

這些與用戶密切相關(guān)的數(shù)據(jù)全部以xml文件的形式封裝并保存在數(shù)據(jù)庫中。目前各種大型商用數(shù)據(jù)庫系統(tǒng)對(duì)xml都提供了完善的支持,這種封裝形式將極大的有利于數(shù)據(jù)導(dǎo)入、交換等操作。而且xml樹型結(jié)構(gòu)的數(shù)據(jù),為一些常用的數(shù)據(jù)挖掘算法提供了便利。

本發(fā)明采用sqlserver2014(sqlserver系列軟件是microsoft公司推出的關(guān)系型數(shù)據(jù)庫管理系統(tǒng))對(duì)asp.net(asp即activeserverpages,是microsoft公司開發(fā)的服務(wù)器端腳本環(huán)境,可用來創(chuàng)建動(dòng)態(tài)交互式網(wǎng)頁并建立強(qiáng)大的web應(yīng)用程序。)框架提供支持,在asp.net環(huán)境下設(shè)計(jì)的應(yīng)用程序(日志記錄器)可以調(diào)用構(gòu)建asp.net平臺(tái)上的第三方服務(wù)。web服務(wù)技術(shù)允許應(yīng)用程序通過調(diào)用站點(diǎn)發(fā)布的商業(yè)服務(wù)接口對(duì)站點(diǎn)的數(shù)據(jù)庫和訪問日志進(jìn)行操作,包括對(duì)數(shù)據(jù)庫中用戶注冊(cè)登記信息的只讀訪問,查詢處理和檢索;以及訪問日志的的只讀操作。本發(fā)明所收集的日志包括:

(1)用戶注冊(cè)信息:利用商務(wù)站點(diǎn)發(fā)布的商業(yè)服務(wù)接口,通過應(yīng)用程序讀取站點(diǎn)數(shù)據(jù)庫中的用戶注冊(cè)信息;

(2)訪問日志:使用應(yīng)用程序,來獲取用戶在登錄網(wǎng)站期間的一切訪問行為;

(3)站點(diǎn)結(jié)構(gòu)設(shè)計(jì):采用第三方網(wǎng)絡(luò)爬蟲工具,自動(dòng)提取所有網(wǎng)頁url并記錄,便于為后期數(shù)據(jù)挖掘分析提供參考。

挖掘預(yù)處理模塊用于對(duì)xml文件進(jìn)行預(yù)處理并形成xml文檔數(shù)據(jù)庫,對(duì)xml文件的預(yù)處理包括數(shù)據(jù)過濾處理、用戶識(shí)別處理、會(huì)話識(shí)別處理和路徑補(bǔ)充分析處理。

數(shù)據(jù)過濾:首先將收集到的xml文檔利用解析器dom進(jìn)行解析、壓縮、合并及抽取操作,之后得到一個(gè)精簡、抽象的xml樹。這樣就得到了一個(gè)集用戶瀏覽路徑與瀏覽行為于一體的綜合數(shù)據(jù)源。

用戶識(shí)別:利用用戶登陸信息(登陸id)來區(qū)分用戶。

會(huì)話識(shí)別:是把該用戶的連續(xù)訪問看成是同一個(gè)時(shí)域(session)。并對(duì)xml文件根據(jù)用戶id(userid)和訪問時(shí)間(accesstime)進(jìn)行排序。

會(huì)話識(shí)別會(huì)對(duì)會(huì)話格式進(jìn)行識(shí)別,會(huì)話格式中對(duì)用戶類設(shè)置了userid屬性,當(dāng)用戶為網(wǎng)站注冊(cè)用戶時(shí),用戶將保存在userid里,用戶對(duì)于商品的發(fā)生交易等數(shù)據(jù)也將保存在與這個(gè)userid相關(guān)的數(shù)據(jù)里;對(duì)于非注冊(cè)(匿名)用戶,對(duì)于相關(guān)網(wǎng)頁的查詢,商品的瀏覽、查詢這些信息也將保存起來,把userid設(shè)置成null,表示并不與具體用戶關(guān)聯(lián),這些數(shù)據(jù)也能作為后期數(shù)據(jù)挖掘的依據(jù)。

當(dāng)是網(wǎng)站的注冊(cè)用戶時(shí),以會(huì)話為基礎(chǔ)的用戶訪問數(shù)據(jù)記錄可以很好地將用戶在瀏覽網(wǎng)站時(shí)進(jìn)行的操作封裝在基于同一session的數(shù)據(jù)中,這樣的數(shù)據(jù)能使后期數(shù)據(jù)識(shí)別更加準(zhǔn)確,數(shù)據(jù)源可信度得到了提高。

路徑補(bǔ)充分析:結(jié)合站點(diǎn)結(jié)構(gòu)設(shè)計(jì),對(duì)xml文檔中不完全的url路徑進(jìn)行補(bǔ)充完善。

模式挖掘模塊通過模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫,采用的模式挖掘算法為fp-樹頻集算法。形成的xml文檔數(shù)據(jù)庫包含數(shù)據(jù)查詢統(tǒng)計(jì)功能,在利用模式挖掘算法進(jìn)行模式庫生成的過程中頻繁訪問模式挖掘形成模式庫。

挖掘結(jié)果后處理模塊用于對(duì)模式庫進(jìn)行分析并顯示分析結(jié)果。

用戶訪問模式挖掘的后續(xù)工作是對(duì)模式庫進(jìn)行評(píng)估、可視化和應(yīng)用。采取sql查詢(結(jié)構(gòu)化查詢語言structuredquerylanguage),專家參與的模式評(píng)價(jià)。

挖掘出的所有模式都認(rèn)為是未確定的模式,通過專家評(píng)價(jià),將挖掘出的模式劃分為確定模式和無用模式,并分別存入確定模式集合和無用模式集合。然后對(duì)未確定模式集合中的下一個(gè)模式進(jìn)行評(píng)價(jià),如此循環(huán),直到滿足輸入的“終止評(píng)價(jià)條件”,則終止評(píng)價(jià)過程。

經(jīng)過模式分析所得到的有價(jià)值的模式,根據(jù)用戶的需要,采用可視化的技術(shù)以圖形界面的方式展示給用戶,以便用戶采取進(jìn)一步行動(dòng),根據(jù)獲得的模式進(jìn)行站點(diǎn)結(jié)構(gòu)改造。

如圖2所示,本發(fā)明還公開了一種基于xml進(jìn)行web訪問模式挖掘的方法,包括步驟,

s1,在用戶訪問web服務(wù)器期間,記錄用戶的訪問數(shù)據(jù)并將訪問數(shù)據(jù)生成xml文件;

s2,通過對(duì)xml文件的預(yù)處理形成xml文檔數(shù)據(jù)庫,

s3,利用模式挖掘算法對(duì)xml文檔數(shù)據(jù)庫進(jìn)行模式挖掘形成模式庫,

s4,對(duì)模式庫進(jìn)行分析和模式評(píng)估。

本方法在用戶訪問網(wǎng)站期間,web服務(wù)器端自動(dòng)生成一個(gè)xml文件(session.xml),用來記錄用戶的訪問行為。用戶訪問站點(diǎn),關(guān)鍵的事件包括:登錄login、瀏覽navigate、離開depart、搜索search,以及一些訪問行為如購買buy、放棄abandon、選中choose、刪除delete等。

步驟s2中對(duì)xml文件的預(yù)處理包括

數(shù)據(jù)過濾處理,利用文檔解析器對(duì)xml文件進(jìn)行解析、壓縮、合并及抽取操作,獲得xml樹;

用戶識(shí)別處理,用戶識(shí)別處理通過用戶的登陸信息來區(qū)分用戶;

會(huì)話識(shí)別處理,根據(jù)用戶id和訪問時(shí)間對(duì)xml文件進(jìn)行排序;

路徑補(bǔ)充分析處理,對(duì)xml文件中不完整的url路徑進(jìn)行補(bǔ)充。

步驟s3中采用的模式挖掘算法為fp-樹頻集算法。利用fp-樹頻集算法實(shí)現(xiàn)模式挖掘的步驟為,

s31,根據(jù)apriori算法,掃描數(shù)據(jù)庫一次生成1一頻繁集及支持度計(jì)數(shù),并按支持度計(jì)數(shù)降序排列,放入l表中;

s32,創(chuàng)建根節(jié)點(diǎn),并標(biāo)識(shí)為“null”,掃描數(shù)據(jù)庫一次,當(dāng)?shù)玫綌?shù)據(jù)庫的一個(gè)項(xiàng)目集時(shí),就把其中的元素按l表的次序排列,然后遞歸調(diào)用fp-growth來實(shí)現(xiàn)fp-樹的增長;

s33,為fp-樹的每個(gè)節(jié)點(diǎn)生成條件模式庫;

s34,用條件模式庫構(gòu)造對(duì)應(yīng)的條件fp-樹;

s35,遞歸構(gòu)造條件fp-樹,增長條件fp-樹包含的頻繁集;

s36,如果條件fp-樹只包含一個(gè)路徑,則直接生成條件fp-樹包含的頻繁集。

通過以上模式挖掘,形成模式庫。

傳統(tǒng)的單純使用apriori算法時(shí),需要多次掃描xml文檔數(shù)據(jù)庫,需要很大的i/o負(fù)載,并可能產(chǎn)生龐大的候選集,對(duì)時(shí)間和空間都是一種挑戰(zhàn)。本發(fā)明按照xml文件的屬性,在數(shù)據(jù)預(yù)處理過程中生成的會(huì)話集中的項(xiàng)目全部是簡單事件序列,所以本發(fā)明采用fp-樹頻集算法,產(chǎn)生的數(shù)據(jù)集可以得到很好的應(yīng)用。fp-樹頻集算法是一種產(chǎn)生頻繁項(xiàng)目集的關(guān)聯(lián)規(guī)則算法,算法本身是單維的,在模式挖掘時(shí),僅需掃描一遍數(shù)據(jù)庫,便可以生成單維關(guān)聯(lián)項(xiàng),挖掘效率得到很大的提高。

以上所述只是本發(fā)明的優(yōu)選實(shí)施方式,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也被視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1