本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)分析領(lǐng)域,具體涉及一種用于URL分類的網(wǎng)頁推薦系統(tǒng)及網(wǎng)頁推薦方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在已經(jīng)步入了智能化的時(shí)代,如何提高用戶對(duì)互聯(lián)網(wǎng)的滿意度是當(dāng)代互聯(lián)網(wǎng)的主要趨勢(shì)。如何提供一種個(gè)性化推薦服務(wù),不僅可以使用戶快速、準(zhǔn)確的找到自己需要的內(nèi)容,從而讓用戶倍感體貼和關(guān)注,以致增加了對(duì)互聯(lián)網(wǎng)的依賴度,對(duì)于企業(yè)來講,也能使期在互聯(lián)網(wǎng)市場(chǎng)中更加具有優(yōu)勢(shì)。但是隨著數(shù)據(jù)量的增加,常規(guī)的用人工來處理數(shù)據(jù)會(huì)大量耗費(fèi)人力和時(shí)間,同時(shí)相應(yīng)的成本也會(huì)隨之增高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于為了解決現(xiàn)有技術(shù)中網(wǎng)站分類計(jì)算量大、可靠度、精確度低、效率低,有時(shí)甚至?xí)霈F(xiàn)錯(cuò)誤分類的問題,等問題的出現(xiàn);提供一種用于URL分類的網(wǎng)頁推薦系統(tǒng)及網(wǎng)頁推薦方法。
為了達(dá)到上述目的,本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
一種用于URL分類的網(wǎng)頁推薦方法,所述網(wǎng)頁推薦方法包含:
遍歷URL(Uniform Resource Locator,統(tǒng)一資源定位符)信息,批量獲取多個(gè)URL信息及對(duì)應(yīng)的網(wǎng)頁內(nèi)容,并對(duì)于每個(gè)所述URL信息生成對(duì)應(yīng)的待處理網(wǎng)頁信息;
對(duì)每個(gè)所述待處理網(wǎng)頁信息進(jìn)行過濾操作,生成對(duì)應(yīng)的保留分詞表;每個(gè)所述保留分詞表包含對(duì)應(yīng)的所述待處理網(wǎng)頁信息所有要求保留的詞語;
將所有的所述URL信息與對(duì)應(yīng)的所有所述保留分詞表進(jìn)行計(jì)算,生成帶有權(quán)重的空間向量表、URL分類表;所述帶有權(quán)重的空間向量表包含每個(gè)所述URL信息對(duì)應(yīng)的每個(gè)所述要求保留的詞語帶有權(quán)重的空間向量的集合;所述URL分類表包含將所述帶有權(quán)重的空間向量表中每個(gè)所述URL信息的所有所述帶有權(quán)重的空間向量進(jìn)行計(jì)算獲得對(duì)應(yīng)所述URL信息的分類信息的集合;
當(dāng)輸入一個(gè)URL信息時(shí),根據(jù)所述URL分類表與所述URL信息對(duì)應(yīng)的所有所述帶有權(quán)重的空間向量進(jìn)行計(jì)算后獲取相似內(nèi)容類別的多個(gè)推薦的URL信息,輸出所有所述推薦的URL信息。
較佳地,在遍歷URL信息批量獲取多個(gè)URL信息及對(duì)應(yīng)的網(wǎng)頁內(nèi)容,并對(duì)于每個(gè)所述URL信息生成對(duì)應(yīng)的待處理網(wǎng)頁信息的步驟中包含:
批量存儲(chǔ)獲取的多個(gè)URL信息及每個(gè)所述URL信息對(duì)應(yīng)的網(wǎng)頁內(nèi)容;
將每個(gè)所述網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,刪除非法字符,并搜索對(duì)應(yīng)的所有HTML標(biāo)簽,生成對(duì)應(yīng)的所述待處理網(wǎng)頁信息。
較佳地,當(dāng)要求推薦的網(wǎng)頁具有特定語言要求時(shí),在對(duì)每個(gè)所述網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理過程中,刪除非特定語言的字符。
較佳地,在對(duì)每個(gè)所述待處理網(wǎng)頁信息進(jìn)行過濾操作,生成對(duì)應(yīng)的保留分詞表的步驟中,包含如下步驟:
建立基本語言詞庫,根據(jù)所述基本語言詞庫對(duì)每個(gè)所述待處理網(wǎng)頁信息進(jìn)行詞語拆分,形成詞語隊(duì)列,并將所述詞語隊(duì)列中的語氣詞、助詞、無特殊含義的名詞過濾刪除后,生成對(duì)應(yīng)的網(wǎng)頁對(duì)應(yīng)分詞表;
統(tǒng)計(jì)每個(gè)所述網(wǎng)頁對(duì)應(yīng)分詞表內(nèi)每一個(gè)詞語出現(xiàn)的頻率,將頻率低于設(shè)定的頻率的所有詞語刪除,生成對(duì)應(yīng)的所述保留分詞表。
較佳地,所述基本語言詞庫包含要求保留的語言涉及的所有詞語。
較佳地,在將所有的所述URL信息與對(duì)應(yīng)的所有所述保留分詞表進(jìn)行計(jì)算,生成帶有權(quán)重的空間向量表、URL分類表的步驟中包含:
將所有的所述URL信息作為橫坐標(biāo),每個(gè)所述URL信息對(duì)應(yīng)的所述保留分詞表中每個(gè)詞語作為縱坐標(biāo),形成URL-詞語坐標(biāo)系,則為每個(gè)所述詞語創(chuàng)建一個(gè)獨(dú)有的空間向量;
使用權(quán)重計(jì)算法計(jì)算每個(gè)所述詞語在其保留分詞表中的權(quán)重值,并將該權(quán)重值賦值給對(duì)應(yīng)所述空間向量,形成所述帶有權(quán)重的空間向量;將所述URL-詞語坐標(biāo)系中所有所述帶有權(quán)重的空間向量形成所述帶有權(quán)重的空間向量表;
將每個(gè)所述URL信息對(duì)應(yīng)的每個(gè)所述帶有權(quán)重的空間向量使用最近鄰算法為對(duì)應(yīng)所述URL信息進(jìn)行分類,形成對(duì)應(yīng)所述URL信息的分類信息,集合所有的所述URL信息的分類信息形成所述URL分類表。
較佳地,當(dāng)輸入一個(gè)URL信息時(shí),根據(jù)所述URL分類表與所述URL信息對(duì)應(yīng)的所有所述帶有權(quán)重的空間向量進(jìn)行計(jì)算后獲取相似內(nèi)容類別的多個(gè)推薦的URL信息,輸出所有推薦的URL信息的步驟中包含:
當(dāng)輸入的所述URL信息為一個(gè)新的URL信息時(shí),獲取所述新的URL信息對(duì)應(yīng)的網(wǎng)頁內(nèi)容,進(jìn)行預(yù)處理后生成對(duì)應(yīng)的所述待處理網(wǎng)頁信息;
將所述待處理網(wǎng)頁信息進(jìn)行過濾操作,形成對(duì)應(yīng)的所述保留分詞表;
將所述新的URL信息與對(duì)應(yīng)的所述保留分詞表進(jìn)行計(jì)算獲取對(duì)應(yīng)的所述保留分詞表中每個(gè)詞語的帶有權(quán)重的空間向量、所述新的URL信息的分類信息;更新所述帶有權(quán)重的空間向量表、所述URL分類表;
將所述新的URL信息在所述URL分類表的分類信息與所述新的URL信息對(duì)應(yīng)的每個(gè)空間向量的權(quán)重值使用預(yù)先距離相似性的協(xié)同過濾算法進(jìn)行相似內(nèi)容類別的推薦,獲取所述新的URL信息的所有推薦的URL信息。
較佳地,當(dāng)輸入一個(gè)URL信息時(shí),根據(jù)所述URL分類表與所述URL信息對(duì)應(yīng)的所有所述帶有權(quán)重的空間向量進(jìn)行計(jì)算后獲取相似內(nèi)容類別的多個(gè)推薦的URL信息,輸出所有推薦的URL信息的步驟中包含:
當(dāng)所述輸入的URL信息為一個(gè)已存在于所述帶有權(quán)重的空間向量表、所述URL分類表的URL信息時(shí),將所述輸入的URL信息在所述URL分類表的分類信息與所述URL信息對(duì)應(yīng)的每個(gè)空間向量的權(quán)重值使用預(yù)先距離相似性的協(xié)同過濾算法進(jìn)行相似內(nèi)容類別的推薦,獲取所述URL信息的所有推薦的URL信息。
一種用于URL分類的網(wǎng)頁推薦系統(tǒng),所述網(wǎng)頁推薦系統(tǒng)包含:
用戶交互模塊,用于輸入要求的URL信息,并輸出所述要求的URL信息對(duì)應(yīng)的所有推薦的URL信息;
正向模塊,與所述用戶交互模塊連接;所述正向模塊遍歷URL信息批量獲取每個(gè)URL信息及對(duì)應(yīng)的網(wǎng)頁內(nèi)容生成待處理網(wǎng)頁信息,并能夠抓取所述要求的URL信息對(duì)應(yīng)的所有推薦的URL信息,發(fā)送至所述用戶交互模塊;
逆向模塊,與所述正向模塊連接;所述逆向模塊對(duì)每個(gè)所述待處理網(wǎng)頁信息進(jìn)行過濾操作,生成對(duì)應(yīng)的保留分詞表;并能夠?qū)⑺械乃鯱RL信息與對(duì)應(yīng)的所有所述保留分詞表進(jìn)行計(jì)算,生成帶有權(quán)重的空間向量表、URL分類表;當(dāng)輸入一個(gè)URL信息時(shí),所述逆向模塊根據(jù)所述URL分類表與所述URL信息對(duì)應(yīng)的所有帶有權(quán)重的詞語空間向量進(jìn)行計(jì)算后獲取相似內(nèi)容類別的多個(gè)推薦URL信息,并發(fā)送抓取指令至所述正向模塊。
在符合本領(lǐng)域常識(shí)的基礎(chǔ)上,上述各優(yōu)選條件,可任意組合,即得本發(fā)明各較佳實(shí)例。
本發(fā)明的積極進(jìn)步效果在于:
本發(fā)明公開的用于URL分類的網(wǎng)頁推薦系統(tǒng)及網(wǎng)頁推薦方法,本發(fā)明能夠采用基本語言詞庫進(jìn)行數(shù)據(jù)篩選過濾,提升了算法執(zhí)行效率,采用權(quán)重計(jì)算方法獲取帶有權(quán)重的空間向量,采用分類算法獲取URL分類信息,最后采用協(xié)同過濾算法實(shí)現(xiàn)相似內(nèi)容URL的推薦。本發(fā)明能夠以URL信息為基礎(chǔ),來快速有效的組織和分析海量的網(wǎng)站信息,幫助網(wǎng)站用戶方便地獲取其需要的信息和知識(shí),實(shí)現(xiàn)服務(wù)提供商根據(jù)用戶提供的網(wǎng)站信息來進(jìn)行有效的歸類并向用戶提供并推薦更具個(gè)性化的服務(wù)。本發(fā)明提升了對(duì)網(wǎng)站分類操作時(shí)文本的可用度與精確度。有效的解決了網(wǎng)站上可能的垃圾廣告信息造成的錯(cuò)誤歸類,降低了數(shù)據(jù)計(jì)算量,提高了計(jì)算效率以及準(zhǔn)確性。
附圖說明
圖1為本發(fā)明用于URL分類的網(wǎng)頁推薦系統(tǒng)的整體結(jié)構(gòu)示意圖。
圖2為本發(fā)明用于URL分類的網(wǎng)頁推薦方法的整體流程示意圖。
具體實(shí)施方式
下面通過實(shí)施例的方式進(jìn)一步說明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
如圖1所示,一種用于URL分類的網(wǎng)頁推薦系統(tǒng),網(wǎng)頁推薦系統(tǒng)包含:用戶交互模塊1、正向模塊2及逆向模塊3。其中,用戶交互模塊1、正向模塊2及逆向模塊3依次連接。
本發(fā)明中,用戶交互模塊1用于輸入要求的URL信息,并輸出要求的URL信息對(duì)應(yīng)的所有推薦的URL信息。
正向模塊2用于信息的收集和抓取。具體包括:遍歷URL信息批量獲取每個(gè)URL信息及對(duì)應(yīng)的網(wǎng)頁內(nèi)容生成待處理網(wǎng)頁信息,并能夠抓取要求的URL信息對(duì)應(yīng)的所有推薦的URL信息,發(fā)送至用戶交互模塊1。
本實(shí)施例中,正向模塊2利用現(xiàn)有技術(shù)中各大導(dǎo)航網(wǎng)站作為基礎(chǔ)來進(jìn)行信息的爬取,從而獲取各大導(dǎo)航網(wǎng)站下的各個(gè)子目錄的URL信息作為數(shù)據(jù)源,從而收集各個(gè)網(wǎng)站的信息。
逆向模塊3用于信息的處理,例如網(wǎng)頁內(nèi)容去噪、網(wǎng)頁分詞處理、網(wǎng)頁向量表示、網(wǎng)頁分類處理以及網(wǎng)頁推薦處理等。具體包括:對(duì)每個(gè)待處理網(wǎng)頁信息進(jìn)行過濾操作,生成對(duì)應(yīng)的保留分詞表;并能夠?qū)⑺械腢RL信息與對(duì)應(yīng)的所有保留分詞表進(jìn)行計(jì)算,生成帶有權(quán)重的空間向量表、URL分類表;當(dāng)輸入一個(gè)URL信息時(shí),逆向模塊3根據(jù)URL分類表與URL信息對(duì)應(yīng)的所有帶有權(quán)重的空間向量進(jìn)行計(jì)算后獲取相似內(nèi)容類別的多個(gè)推薦URL信息,并發(fā)送抓取指令至正向模塊2。
如圖2所示,一種用于URL分類的網(wǎng)頁推薦方法,網(wǎng)頁推薦方法包含:
S1,遍歷URL信息,批量獲取多個(gè)URL信息及對(duì)應(yīng)的網(wǎng)頁內(nèi)容,并對(duì)于每個(gè)URL信息生成對(duì)應(yīng)的待處理網(wǎng)頁信息。在步驟S1中具體包含:
S1.1,正向模塊2批量存儲(chǔ)獲取的每個(gè)URL信息及對(duì)應(yīng)的網(wǎng)頁內(nèi)容。
S1.2,逆向模塊3將每個(gè)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,刪除非法字符,并搜索對(duì)應(yīng)的所有HTML標(biāo)簽,生成對(duì)應(yīng)的待處理網(wǎng)頁信息。
本實(shí)施例中,正向模塊2利用現(xiàn)有技術(shù)中各大導(dǎo)航網(wǎng)站作為基礎(chǔ)來進(jìn)行信息的爬取,從而獲取各大導(dǎo)航網(wǎng)站下的各個(gè)子目錄的URL信息以及對(duì)應(yīng)的網(wǎng)頁內(nèi)容。
當(dāng)要求推薦的網(wǎng)頁具有特定語言要求時(shí),在對(duì)每個(gè)網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理過程中,刪除非特定語言的字符。
例如,當(dāng)推薦的網(wǎng)頁均要求為中文網(wǎng)頁時(shí),刪除非中文字符。當(dāng)推薦的網(wǎng)頁均要求為英文網(wǎng)頁時(shí),刪除非英文字符。當(dāng)推薦的網(wǎng)頁要求為中文或英文網(wǎng)頁時(shí),刪除非英文、非中文的字符。
S2,對(duì)每個(gè)待處理網(wǎng)頁信息進(jìn)行過濾操作,生成對(duì)應(yīng)的保留分詞表;每個(gè)保留分詞表包含對(duì)應(yīng)的待處理網(wǎng)頁信息所有要求保留的詞語。在步驟S2中具體包含:
S2.1,逆向模塊3建立基本語言詞庫,逆向模塊3根據(jù)基本語言詞庫對(duì)每個(gè)待處理網(wǎng)頁信息進(jìn)行詞語拆分,形成詞語隊(duì)列,并將詞語隊(duì)列中的語氣詞、助詞、無特殊含義的名詞過濾刪除后,生成對(duì)應(yīng)的網(wǎng)頁對(duì)應(yīng)分詞表。
本發(fā)明中,逆向模塊3建立基本語言詞庫類似現(xiàn)有技術(shù)中的語言字典,基本語言詞庫包含要求保留的語言涉及的所有詞語。逆向模塊3以基本語言詞庫為標(biāo)準(zhǔn),刪除上述標(biāo)準(zhǔn)中的語氣詞、助詞、無特殊含義的名詞;從而形成對(duì)應(yīng)的網(wǎng)頁對(duì)應(yīng)分詞表。
S2.2,逆向模塊3統(tǒng)計(jì)每個(gè)網(wǎng)頁對(duì)應(yīng)分詞表內(nèi)每一個(gè)詞語出現(xiàn)的頻率,將頻率低于設(shè)定的頻率的所有詞語刪除,生成對(duì)應(yīng)的保留分詞表。
本發(fā)明中設(shè)定的頻率可是用戶根據(jù)實(shí)際要求選擇一個(gè)詞語篩選標(biāo)準(zhǔn)。例如,要求保留每個(gè)網(wǎng)頁對(duì)應(yīng)分詞表內(nèi)詞語出現(xiàn)的頻率排名前10或前20的詞語,刪除其他詞語。
通過上述設(shè)定的頻率,本發(fā)明能夠降低后續(xù)的生成空間向量的數(shù)量,提高分類效率,降低復(fù)雜度。
S3,將所有的URL信息與對(duì)應(yīng)的所有保留分詞表進(jìn)行計(jì)算,生成帶有權(quán)重的空間向量表、URL分類表;帶有權(quán)重的空間向量表包含每個(gè)URL信息對(duì)應(yīng)的每個(gè)要求保留的詞語帶有權(quán)重的空間向量;URL分類表包含將帶有權(quán)重的空間向量表中每個(gè)URL信息對(duì)應(yīng)的所有空間向量進(jìn)行計(jì)算獲得對(duì)應(yīng)URL信息的分類信息。在步驟S3中包含:
S3.1,逆向模塊3將所有的URL信息作為橫坐標(biāo),每個(gè)URL信息對(duì)應(yīng)的保留分詞表中每個(gè)詞語作為縱坐標(biāo),形成URL-詞語坐標(biāo)系,從而為每個(gè)詞語創(chuàng)建一個(gè)獨(dú)有的空間向量。
本實(shí)施例中,由于每個(gè)URL信息對(duì)應(yīng)的保留分詞表僅包含10個(gè)或20個(gè)詞語,則每個(gè)URL信息對(duì)應(yīng)形成的帶有權(quán)重的空間向量?jī)H有10個(gè)或20個(gè),使得后續(xù)生成URL分類表的計(jì)算量遠(yuǎn)遠(yuǎn)小于現(xiàn)有技術(shù)中對(duì)于URL信息的網(wǎng)頁信息中的每個(gè)詞語進(jìn)行計(jì)算的計(jì)算量。
S3.2,逆向模塊3使用權(quán)重計(jì)算法計(jì)算每個(gè)詞語在其保留分詞表中的權(quán)重值,并將該權(quán)重值賦值給對(duì)應(yīng)空間向量,形成帶有權(quán)重的空間向量;將URL-詞語坐標(biāo)系中所有帶有權(quán)重的空間向量形成帶有權(quán)重的空間向量表。
本實(shí)施例中,逆向模塊3使用TFIDF權(quán)重計(jì)算法進(jìn)行每個(gè)詞語在其保留分詞表中的權(quán)重值計(jì)算。
S3.3,逆向模塊3將每個(gè)URL信息對(duì)應(yīng)的每個(gè)帶有權(quán)重的空間向量使用最近鄰算法為對(duì)應(yīng)URL信息進(jìn)行分類,生成對(duì)應(yīng)URL信息的分類信息,集合所有的URL信息的分類信息形成URL分類表。
本實(shí)施例中,逆向模塊3使用K最近鄰算法將每個(gè)URL信息對(duì)應(yīng)的每個(gè)賦值的詞語空間向量進(jìn)行計(jì)算,最終實(shí)現(xiàn)對(duì)應(yīng)URL信息進(jìn)行分類。
S4,當(dāng)輸入一個(gè)URL信息時(shí),根據(jù)URL分類表與URL信息對(duì)應(yīng)的所有帶有權(quán)重的空間向量進(jìn)行計(jì)算后獲取相似內(nèi)容類別的多個(gè)推薦的URL信息,輸出所有推薦的URL信息。
在步驟S4包含:
S4.1.1,當(dāng)用戶交互模塊1輸入的URL信息為一個(gè)新的URL信息時(shí),正向模塊2獲取新的URL信息對(duì)應(yīng)的網(wǎng)頁內(nèi)容,逆向模塊3進(jìn)行預(yù)處理后生成對(duì)應(yīng)的待處理網(wǎng)頁信息。本步驟的具體操作原理與步驟S1.1,S1.2相同。
S4.1.2,逆向模塊3將待處理網(wǎng)頁信息進(jìn)行過濾操作,形成對(duì)應(yīng)的保留分詞表。本步驟的具體操作原理與步驟S2相同。
S4.1.3,逆向模塊3將新的URL信息與對(duì)應(yīng)的保留分詞表進(jìn)行計(jì)算獲取對(duì)應(yīng)的保留分詞表中每個(gè)詞語的帶有權(quán)重的空間向量、新的URL信息的分類信息;更新帶有權(quán)重的空間向量表、URL分類表。
本步驟中,逆向模塊3將新的URL信息與對(duì)應(yīng)的保留分詞表進(jìn)行計(jì)算獲取對(duì)應(yīng)的保留分詞表中每個(gè)詞語的帶有權(quán)重的空間向量,從而更新帶有權(quán)重的空間向量表。
逆向模塊3將新的URL信息對(duì)應(yīng)的每個(gè)帶有權(quán)重的空間向量使用最近鄰算法為對(duì)應(yīng)URL信息進(jìn)行分類,形成對(duì)應(yīng)URL信息的分類信息,從而更新URL分類表。
S4.1.4,逆向模塊3將新的URL信息在URL分類表的分類信息與新的URL信息對(duì)應(yīng)的每個(gè)空間向量的權(quán)重值使用預(yù)先距離相似性的協(xié)同過濾算法進(jìn)行相似內(nèi)容類別的推薦,逆向模塊3發(fā)送抓取推薦的URL信息命令至正向模塊2,正向模塊2獲取新的URL信息的所有推薦的URL信息,并發(fā)送至用戶交互模塊1進(jìn)行輸出顯示。
在步驟S4還包含:
S4.2.1,當(dāng)用戶交互模塊1輸入的URL信息為一個(gè)已存在于帶有權(quán)重的空間向量表、URL分類表的URL信息時(shí),逆向模塊3將輸入的URL信息在URL分類表的分類信息與URL信息對(duì)應(yīng)的每個(gè)空間向量的權(quán)重值使用預(yù)先距離相似性的協(xié)同過濾算法進(jìn)行相似內(nèi)容類別的推薦,逆向模塊3發(fā)送抓取推薦的URL信息命令至正向模塊2,正向模塊2獲取URL信息的所有推薦的URL信息,并發(fā)送至用戶交互模塊1進(jìn)行輸出顯示。
雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。