亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

網(wǎng)頁的處理方法及裝置的制造方法

文檔序號:9432553閱讀:587來源:國知局
網(wǎng)頁的處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)頁的處理方法及裝置。
【背景技術(shù)】
[0002] 相關(guān)技術(shù)中的中間件定制平臺通常需要將個(gè)人計(jì)算機(jī)(PC)頁面進(jìn)行轉(zhuǎn)碼,然而 在不同網(wǎng)頁之間如果具備較高的相似度的情況下,郝么就可W采用一套編碼規(guī)則進(jìn)行轉(zhuǎn) 碼,而不需要分別針對每一種網(wǎng)頁各定制一套轉(zhuǎn)碼規(guī)則。但是,如何識別不同網(wǎng)頁之間的相 似度是亟待解決的技術(shù)問題。如果能夠解決上述問題,郝么在轉(zhuǎn)碼實(shí)現(xiàn)過程中將會(huì)有效地 提高覆蓋率、工作效率W及有效地降低后期的維護(hù)成本。目前,通過采用的解決方案主要分 為W下兩種方式:
[0003] 方式一、需要采用人工查詢的方式在不同的頁面之間挑選出共有的關(guān)鍵字,然后 再進(jìn)一步判斷頁面是否包含對應(yīng)的關(guān)鍵字從而認(rèn)定兩個(gè)頁面是否相似,此種方式的缺陷在 于:由于需要依賴人工操作,因此誤差較大,準(zhǔn)確率較低。
[0004] 方式二、通過采用分詞的方法判斷兩個(gè)頁面是否相似,但是,此種方式的缺陷在 于對于"結(jié)構(gòu)型"網(wǎng)頁(即包含大量鏈接的頁面)而言,其基本沒有正文內(nèi)容,因此無法通 過采用分詞的方法來確定不同頁面的相似度。
[0005] 綜上所述,相關(guān)技術(shù)中缺乏一種辨別不同"結(jié)構(gòu)型"網(wǎng)頁之間的相似度的技術(shù)方 案。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供了一種網(wǎng)頁的處理方法及裝置,W至少解決相關(guān)技術(shù)中缺乏一種辨別 不同"結(jié)構(gòu)型"網(wǎng)頁之間的相似度的技術(shù)方案的問題。
[0007] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁的處理方法。
[0008] 根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁的處理方法包括:獲取第一網(wǎng)頁文件和第二網(wǎng)頁文件; 將第一網(wǎng)頁文件轉(zhuǎn)換并編碼成第一字符串W及將第二網(wǎng)頁文件轉(zhuǎn)換并編碼成第二字符串; 計(jì)算第一字符串與第二字符串的編輯距離,其中,在計(jì)算編輯距離的過程中包括:字符交 換操作,字符交換操作是在第一字符串中兩個(gè)相鄰字符與第二字符串中兩個(gè)相鄰字符的內(nèi) 容相同但字符的排列順序相反的情況下,將其中一個(gè)字符串的相關(guān)兩個(gè)相鄰字符的位置互 換,W使第一字符串中相關(guān)的兩個(gè)相鄰字符與第二字符串中相關(guān)的兩個(gè)相鄰字符完全相 同;根據(jù)編輯距離獲取第一網(wǎng)頁文件與第二網(wǎng)頁文件的相似度。
[0009] 優(yōu)選地,計(jì)算第一字符串與第二字符串的編輯距離包括:在第一字符串和第二字 符串中選取任意一個(gè)字符串作為參考字符串;將未被選作參考字符串的另一個(gè)字符串與 參考字符串進(jìn)行比對,確定將另一個(gè)字符串變換成與參考字符串完全一致需要執(zhí)行N步操 作,其中,N為正整數(shù);計(jì)算N步操作中與每步操作對應(yīng)的編輯距離的總和,得到第一字符串 與第二字符串的編輯距離;其中,第M步操作為字符交換操作且第1至M-1步操作不包括字 符交換操作,與第M步操作對應(yīng)的編輯距離為前M-1步操作的編輯距離總和加1,M為正整 數(shù)且KM《N。
[0010] 優(yōu)選地,按照W下公式計(jì)算與每步操作對應(yīng)的編輯距離;dist(i,j) ==min{dis j)+l,dist(i, dist(i-l,j-l)+f(i,j),dist(i-2,j-2)+l};其中,min函數(shù)為 求取最小值函數(shù),i為第一字符串的長度,i為正整數(shù)且i大于1,j為第二字符串的長度,j為正整數(shù)且j大于l,dist(i,j)為長度為i的所述第一字符串與長度為j的所述第一字 符串的編輯距離,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ;并且當(dāng)?shù)谝蛔址牡?i個(gè)字符與第二字符串的第j個(gè)字符不同時(shí),f(i,j) = 1,當(dāng)?shù)谝蛔址牡趇個(gè)字符與第 二字符串的第j個(gè)字符相同時(shí),f(i,j) = 0。
[0011] 優(yōu)選地,根據(jù)編輯距離獲取相似度包括;計(jì)算第一字符串的長度和第二字符串的 長度的平均值;計(jì)算平均值與編輯距離的差值;采用差值與平均值相除,求取相似度。
[0012] 優(yōu)選地,將第一網(wǎng)頁文件轉(zhuǎn)換并編碼成第一字符串W及將第二網(wǎng)頁文件轉(zhuǎn)換并編 碼成第二字符串包括:分別刪除第一網(wǎng)頁文件和第二網(wǎng)頁文件的空白字符,并將第一網(wǎng)頁 文件轉(zhuǎn)換為第H字符串W及將第二網(wǎng)頁文件轉(zhuǎn)換為第四字符串;按照預(yù)設(shè)編碼格式將第H 字符串編碼成第一字符串W及將第四字符串編碼成第二字符串。
[0013] 優(yōu)選地,在根據(jù)編輯距離獲取第一網(wǎng)頁文件與第二網(wǎng)頁文件的相似度之后,還包 括;當(dāng)相似度大于或者等于預(yù)設(shè)闊值時(shí),選擇相同的轉(zhuǎn)碼規(guī)則對第一網(wǎng)頁文件與第二網(wǎng)頁 文件進(jìn)行頁面轉(zhuǎn)碼。
[0014] 根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁的處理裝置。
[0015] 根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁的處理裝置包括;第一獲取模塊,用于獲取第一網(wǎng)頁文 件和第二網(wǎng)頁文件;編碼轉(zhuǎn)換模塊,用于將第一網(wǎng)頁文件轉(zhuǎn)換并編碼成第一字符串W及將 第二網(wǎng)頁文件轉(zhuǎn)換并編碼成第二字符串;計(jì)算模塊,用于計(jì)算第一字符串與第二字符串的 編輯距離,其中,在計(jì)算編輯距離的過程中包括;字符交換操作,字符交換操作是在查找到 第一字符串中兩個(gè)相鄰字符與第二字符串中兩個(gè)相鄰字符的內(nèi)容相同但字符的排列順序 相反的情況下,將其中一個(gè)字符串的相關(guān)兩個(gè)相鄰字符的位置互換,W使第一字符串中相 關(guān)的兩個(gè)相鄰字符與第二字符串中相關(guān)的兩個(gè)相鄰字符完全相同;第二獲取模塊,用于根 據(jù)編輯距離獲取第一網(wǎng)頁文件與第二網(wǎng)頁文件的相似度。
[0016] 優(yōu)選地,計(jì)算模塊包括:選取單元,用于在第一字符串和第二字符串中選取任意一 個(gè)字符串作為參考字符串;比對單元,用于將未被選作參考字符串的另一個(gè)字符串與參考 字符串進(jìn)行比對,確定將另一個(gè)字符串變換成與參考字符串完全一致需要執(zhí)行N步操作, 其中,N為正整數(shù);計(jì)算單元,用于計(jì)算N步操作中分別與每步操作對應(yīng)的編輯距離的總和, 得到第一字符串與第二字符串的編輯距離,其中,第M步操作為字符交換操作且第1至M-1 步操不包括字符交換操作,與第M步操作對應(yīng)的編輯距離為前M-1步操作的編輯距離總和 加1,M為正整數(shù)且KM《N。
[0017] 優(yōu)選地,計(jì)算模塊,用于按照W下公式計(jì)算與每步操作對應(yīng)的編輯距離: dist(i,j) = =min(dist(i_l,j)+1,dist(i,j_l)+1,dist(i_l,j_l)+f(i,j),dist(i_2, j-2)+l};其中,min函數(shù)為求取最小值函數(shù),i為第一字符串的長度,i為正整數(shù)且i大于1, j為第二字符串的長度,j為正整數(shù)且j大于1,dist(i,j)為長度為i的所述第一字符串與 長度為j的所述第一字符串的編輯距離,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ; 并且當(dāng)?shù)谝蛔址牡趇個(gè)字符與第二字符串的第j個(gè)字符不同時(shí),f(i,j) = 1,當(dāng)?shù)谝蛔?符串的第i個(gè)字符與第二字符串的第j個(gè)字符相同時(shí),f(i,j) = 0。
[0018] 優(yōu)選地,第二獲取模塊包括;第一計(jì)算單元,用于計(jì)算第一字符串的長度和第二字 符串的長度的平均值;第二計(jì)算單元,用于計(jì)算平均值與編輯距離的差值;第H計(jì)算單元, 用于采用差值與平均值相除,求取相似度。
[0019] 優(yōu)選地,編碼轉(zhuǎn)換模塊包括:轉(zhuǎn)換單元,用于分別刪除第一網(wǎng)頁文件和第二網(wǎng)頁文 件的空白字符,并將第一網(wǎng)頁文件轉(zhuǎn)換為第H字符串W及將第二網(wǎng)頁文件轉(zhuǎn)換為第四字符 串;編碼單元,用于按照預(yù)設(shè)編碼格式將第H字符串編碼成第一字符串W及將第四字符串 編碼成第二字符串。
[0020] 通過本發(fā)明實(shí)施例,獲取第一網(wǎng)頁文件和第二網(wǎng)頁文件;將第一網(wǎng)頁文件轉(zhuǎn)換并 編碼成第一字符串W及將第二網(wǎng)頁文件轉(zhuǎn)換并編碼成第二字符串;計(jì)算第一字符串與第二 字符串的編輯距離,其中,在計(jì)算編輯距離的過程中包括:字符交換操作,字符交換操作是 在第一字符串中兩個(gè)相鄰字符與第二字符串中兩個(gè)相鄰字符的內(nèi)容相同但字符的排列順 序相反的情況下,將其中一個(gè)字符串的相關(guān)兩個(gè)相鄰字符的位置互換,W使第一字符串中 相關(guān)的兩個(gè)相鄰字符與第二字符串中相關(guān)的兩個(gè)相鄰字符完全相同;根據(jù)編輯距離獲取第 一網(wǎng)頁文件與第二網(wǎng)頁文件的相似度,解決了相關(guān)技術(shù)中缺乏一種辨別不同"結(jié)構(gòu)型"網(wǎng)頁 之間的相似度的技術(shù)方案的問題,進(jìn)而無需人工參與,比較于相關(guān)技術(shù)中所采用的人工分 辨方式,其識別效率和識別準(zhǔn)確率均明顯提高;比較與相關(guān)技術(shù)中的分詞方式,不僅能夠提 高識別效率,而且還可W識別出分詞方式無法辨別的結(jié)構(gòu)型相似網(wǎng)頁。
【附圖說明】
[0021] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0022] 圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁的處理方法的流程圖;
[0023] 圖2是根據(jù)本發(fā)明優(yōu)選實(shí)施例的網(wǎng)頁的處理方法的流程圖;
[0024] 圖3是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁的處理裝置的結(jié)構(gòu)框圖;
[00巧]圖4是根據(jù)本發(fā)明優(yōu)選實(shí)施例的網(wǎng)頁的處理裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0026] 下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的 情況下,本申請中的實(shí)施例及實(shí)施例中的特征可W相互組合。
[0027] 圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁的處理方法的流程圖。如圖1所示,該方法可W 包括W下處理步驟:
[0028] 步驟S102 ;獲取第一網(wǎng)頁文件和第二網(wǎng)頁文件;
[0029] 步驟S104 ;將第一網(wǎng)頁文件轉(zhuǎn)換并編碼成第一字符串W及將第二網(wǎng)頁文件轉(zhuǎn)換 并編碼成第二字符串;
[0030] 步驟S106;計(jì)算第一字符串與第二字符串的編輯距離,其中,在計(jì)算編輯距離的 過程中包括:字符交換操作,字符交換操作是在第一字符串中兩個(gè)相鄰字符與第二字符串 中兩個(gè)相鄰字符的內(nèi)容相同但字符的排列順序相反的情況下,將其中一個(gè)字符串的相關(guān)兩 個(gè)相鄰字符的位置互換,W使第一字符串中相關(guān)的兩個(gè)相鄰字符與第二字符串中相關(guān)的兩 個(gè)相鄰字符完全相同;
[0031] 例如;第
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1