專利名稱:網(wǎng)頁(yè)視覺(jué)質(zhì)量的自動(dòng)評(píng)價(jià)方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法及其系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)網(wǎng)頁(yè)不僅包含了人們所需要的各種信息,同時(shí)還是互聯(lián)網(wǎng)的用戶接口 (User Interface, UI)。隨著互聯(lián)網(wǎng)在人們生活中扮演著越來(lái)越重要的作用,設(shè)計(jì)更具有 視覺(jué)吸引力的網(wǎng)頁(yè)已經(jīng)成為不容忽視的需求。很多領(lǐng)域的學(xué)者已經(jīng)開(kāi)始研究網(wǎng)頁(yè)的美感度 (也即網(wǎng)頁(yè)視覺(jué)質(zhì)量)對(duì)用戶訪問(wèn)的影響。已有研究指出,視覺(jué)質(zhì)量高的網(wǎng)頁(yè)能夠增強(qiáng)用 戶在使用基于網(wǎng)頁(yè)的程序時(shí)候的體驗(yàn)。心理學(xué)實(shí)驗(yàn)也證明了視覺(jué)質(zhì)量高的網(wǎng)頁(yè)能夠增加網(wǎng) 頁(yè)的可用性與訪問(wèn)性。因此在人機(jī)交互(Human Computerlnteraction,HCI)和網(wǎng)頁(yè)設(shè)計(jì)領(lǐng) 域,在網(wǎng)頁(yè)視覺(jué)質(zhì)量評(píng)價(jià)上已有很多的工作。但是由于這些領(lǐng)域的研究人員通常在恥b信 息處理、視覺(jué)信息處理、模型學(xué)習(xí)方面比較欠缺,所設(shè)計(jì)的評(píng)價(jià)模型不適用于對(duì)大規(guī)模網(wǎng)頁(yè) 的自動(dòng)評(píng)價(jià)。
發(fā)明內(nèi)容
( — )要解決的技術(shù)問(wèn)題 有鑒于此,本發(fā)明的主要目的是提供一種自動(dòng)的網(wǎng)頁(yè)視覺(jué)質(zhì)量評(píng)價(jià)方法及系統(tǒng)。
( 二 )技術(shù)方案 為達(dá)到上述目的,本發(fā)明提供了一種網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,該方 法包括 步驟1 :首先收集盡可能多的網(wǎng)頁(yè)樣本,利用人工來(lái)把每個(gè)樣本標(biāo)記為視覺(jué)質(zhì)量 高的網(wǎng)頁(yè)或者視覺(jué)質(zhì)量低的網(wǎng)頁(yè),人工標(biāo)記為視覺(jué)質(zhì)量高的樣本組成正類(lèi)樣本集,人工標(biāo) 記為視覺(jué)質(zhì)量低的樣本組成負(fù)類(lèi)樣本集,兩個(gè)集合構(gòu)成了訓(xùn)練集;收集的網(wǎng)頁(yè)及其標(biāo)記,構(gòu) 成了訓(xùn)練集; 步驟2 :利用網(wǎng)頁(yè)分割算法來(lái)對(duì)每幅網(wǎng)頁(yè)進(jìn)行分割并提取網(wǎng)頁(yè)布局塊和文本塊;
步驟3 :將每一幅網(wǎng)頁(yè)轉(zhuǎn)換成一副圖像,提取每幅網(wǎng)頁(yè)四個(gè)方面的特征布局視覺(jué) 特征、文本視覺(jué)特征、傳統(tǒng)視覺(jué)特征以及視覺(jué)復(fù)雜度特征; 步驟4:利用得到的每幅網(wǎng)頁(yè)的特征對(duì)支持向量機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器 參數(shù),并對(duì)新網(wǎng)頁(yè)樣本進(jìn)行評(píng)價(jià),判定其是否為高于質(zhì)量閾值的網(wǎng)頁(yè)。 其中,所述建立訓(xùn)練集收集網(wǎng)頁(yè)樣本是收集盡可能多的網(wǎng)頁(yè)樣本,并多個(gè)用戶對(duì) 每個(gè)樣本進(jìn)行視覺(jué)質(zhì)量評(píng)判,獲得每個(gè)樣本的多個(gè)視覺(jué)質(zhì)量評(píng)判結(jié)果并對(duì)多個(gè)視覺(jué)質(zhì)量評(píng) 判結(jié)果進(jìn)行平均計(jì)算,計(jì)算得到的平均值高于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)樣本標(biāo)記為正類(lèi)樣本, 低于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)樣本標(biāo)記為負(fù)類(lèi)樣本。
其中,所述的網(wǎng)頁(yè)分割方法包括基于視覺(jué)的網(wǎng)頁(yè)分割算法、基于DOM樹(shù)的網(wǎng)頁(yè)分
割算法。
其中,提取網(wǎng)頁(yè)的布局塊與文本塊是利用網(wǎng)頁(yè)分割算法來(lái)把網(wǎng)頁(yè)劃分成多個(gè)矩形塊,這些矩形塊稱為布局塊;包含文本字符個(gè)數(shù)超過(guò)閾值的布局塊作為網(wǎng)頁(yè)的文本塊。
其中,所述的布局視覺(jué)特征包括網(wǎng)頁(yè)的整體長(zhǎng)寬比、網(wǎng)頁(yè)的整體長(zhǎng)寬和、提取的布局塊的個(gè)數(shù)。 其中,所述的文本視覺(jué)特征包括網(wǎng)頁(yè)中文本塊的個(gè)數(shù)、網(wǎng)頁(yè)文本塊占總體網(wǎng)頁(yè)的面積比、網(wǎng)頁(yè)文字字符與網(wǎng)頁(yè)文本塊面積的比例。 其中,所述的傳統(tǒng)視覺(jué)特征包括網(wǎng)頁(yè)的色調(diào)表示為Hue (Page),網(wǎng)頁(yè)的飽和度表示為Saturation(Page),網(wǎng)頁(yè)的明亮度表示為Brightness (Page)和網(wǎng)頁(yè)的彩色度表示為Colorfulness,傳統(tǒng)視覺(jué)特征的計(jì)算首先需要把一副網(wǎng)頁(yè)首先轉(zhuǎn)化為一副圖形,并分別用顏色空間HSV和顏色空間RGB進(jìn)行表示,然后采用以下公式 /^(Pflge) = J] S //(/,力/ (TV. M)
'.=i y=iSa加加'o'《Page) = Z Z鄧,J.) / (_/V - ) ^/g似"e^(i^ge) = Z Z 7(,, /) / (A^'
' =1 j.=l Colorfulness = a rgyb+0. 3 P rgyb 其中,i和j是指圖像像素的在水平方向和垂直方向上的位置,N和M分別為網(wǎng)頁(yè)對(duì)應(yīng)圖像的高和寬;H(i,j)為位于圖像(i,j)的像素點(diǎn)在顏色空間HSV的H值;S(i,j)為位于圖像(i,j)的像素點(diǎn)在顏色空間HSV的S值;V(i,j)為位于圖像(i,j)的像素點(diǎn)在顏色空間HSV的V值;彩色度計(jì)算公式中的a,b和Prgyb分別表示方差彩色因子和平均彩色因子,其計(jì)算公式為 a,"[。rg]2+ ]2 = "]2+[ ]2 rg(i, j) = R(i, j)-G(i, j) yb(i,j) = 0.5(R(i,j)+G(i,j))-B(i,j)其中。禾P y分別表示所有圖像像素點(diǎn)的rg和yb值的方差和均值;R(i, j) , G(i, j),和B(i, j),表示圖像(i, j)的像素點(diǎn)在顏色空間RGB的R,G和B值。 其中,所述的視覺(jué)復(fù)雜度特征是指網(wǎng)頁(yè)轉(zhuǎn)化為圖像后的圖像存儲(chǔ)空間大小。
其中,采用支持向量機(jī)分類(lèi)算法對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi),判定其是否高于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)。 為達(dá)到上述目的,本發(fā)明提供了一種自動(dòng)的網(wǎng)頁(yè)視覺(jué)質(zhì)量評(píng)價(jià)系統(tǒng),該系統(tǒng)包括 網(wǎng)頁(yè)預(yù)處理模塊,用于對(duì)網(wǎng)頁(yè)進(jìn)行分割,并把網(wǎng)頁(yè)轉(zhuǎn)化為一副圖像;
網(wǎng)頁(yè)結(jié)構(gòu)分析模塊與網(wǎng)頁(yè)預(yù)處理模塊連接,用于提取網(wǎng)頁(yè)的布局塊以及文本塊;
網(wǎng)頁(yè)布局視覺(jué)特征提取模塊與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊連接,接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊提取的網(wǎng)頁(yè)布局塊,用于提取反應(yīng)網(wǎng)頁(yè)布局的視覺(jué)特征;
5
網(wǎng)頁(yè)文本視覺(jué)特征提取模塊與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊連接,接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊提取的網(wǎng)頁(yè)文本塊,用于提取反應(yīng)網(wǎng)頁(yè)文本的一些視覺(jué)特征; 網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征提取模塊,與網(wǎng)頁(yè)預(yù)處理模塊和網(wǎng)頁(yè)結(jié)構(gòu)分析模塊連接,接受網(wǎng)頁(yè)預(yù)處理模塊網(wǎng)頁(yè)轉(zhuǎn)換后的圖像以及接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊的提取的網(wǎng)頁(yè)布局塊,用于提取網(wǎng)頁(yè)顏色上的一些傳統(tǒng)視覺(jué)特征; 網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征提取模塊與網(wǎng)頁(yè)預(yù)處理模塊連接,接受網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)轉(zhuǎn)換后的圖像,用于提取網(wǎng)頁(yè)的視覺(jué)復(fù)雜度特征; 分類(lèi)模塊,用于接收網(wǎng)頁(yè)布局視覺(jué)特征提取模塊、網(wǎng)頁(yè)文本視覺(jué)特征提取模塊、網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征提取模塊以及和網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征提取模塊提取的網(wǎng)頁(yè)特征,利用訓(xùn)練集對(duì)支持向量機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器參數(shù),利用訓(xùn)練好的支持向量機(jī)分類(lèi)器模型對(duì)測(cè)試網(wǎng)頁(yè)分類(lèi),并輸出網(wǎng)頁(yè)的分類(lèi)結(jié)果。 其中,所述網(wǎng)頁(yè)結(jié)構(gòu)分析模塊包括網(wǎng)頁(yè)布局塊提取單元接收網(wǎng)頁(yè)預(yù)處理模塊的
網(wǎng)頁(yè)分割單元的分割后生成的網(wǎng)頁(yè)視覺(jué)塊樹(shù),網(wǎng)頁(yè)視覺(jué)塊樹(shù)的所有葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊作
為網(wǎng)頁(yè)的布局塊;網(wǎng)頁(yè)文本塊提取單元接收網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)分割單元的分割后生成
的網(wǎng)頁(yè)視覺(jué)塊樹(shù),網(wǎng)頁(yè)視覺(jué)塊樹(shù)的所有葉節(jié)點(diǎn)中,包含了文本字符個(gè)數(shù)大于等于給定閾值
的葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊作為網(wǎng)頁(yè)的文本塊。(三)有益效果 從上述技術(shù)方案可以看出,本發(fā)明具有以下優(yōu)點(diǎn) 1 、本發(fā)明提供的這種網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,從四個(gè)方面來(lái)提取網(wǎng)頁(yè)的視覺(jué)特征布局視覺(jué)特征、文本視覺(jué)特征、顏色紋理特征以及視覺(jué)復(fù)雜度特征,四方面特征較為完整的描述了一副網(wǎng)頁(yè)的四種內(nèi)容結(jié)構(gòu)、文本、圖像以及背景。每一方面特征可以單獨(dú)進(jìn)行更改和擴(kuò)展,使得如果今后出現(xiàn)了更為快速魯棒的特征提取,可以輕而易舉地添加到本系統(tǒng)中,從而進(jìn)一步提升系統(tǒng)的性能。 2、本系統(tǒng)的特征提取和分類(lèi)器處理過(guò)程完全是自動(dòng)的,不需要人工干預(yù),因此能夠非常容易的嵌入到目前的各類(lèi)基于Web的應(yīng)用程序當(dāng)中,具有廣泛的應(yīng)用前景。本發(fā)明可以應(yīng)用在Web搜索,網(wǎng)頁(yè)設(shè)計(jì)以及Web過(guò)濾等諸多方面,提高基于Web的應(yīng)用程序的性
圖la為本發(fā)明的網(wǎng)頁(yè)的布局塊; 圖lb為本發(fā)明的網(wǎng)頁(yè)的文本塊; 圖2a為兩幅網(wǎng)頁(yè); 圖2b為上面兩幅網(wǎng)頁(yè)對(duì)應(yīng)的分割產(chǎn)生的樹(shù)形結(jié)構(gòu)圖。 圖3為本發(fā)明提供的網(wǎng)頁(yè)視覺(jué)質(zhì)量評(píng)價(jià)方法的流程圖; 圖4為本發(fā)明提供系統(tǒng)模塊構(gòu)成圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
本發(fā)明的執(zhí)行環(huán)境采用一臺(tái)具有3. 0G赫茲中央處理器和2G字節(jié)內(nèi)存的奔騰4計(jì)算機(jī)并用0++語(yǔ)言編制了網(wǎng)頁(yè)視覺(jué)質(zhì)量評(píng)價(jià)方法的算法程序,實(shí)現(xiàn)了本發(fā)明自動(dòng)的網(wǎng)頁(yè)視覺(jué)質(zhì)量評(píng)價(jià)系統(tǒng),還可以采用其他的執(zhí)行環(huán)境,在此不再贅述。
本發(fā)明的系統(tǒng)由以下七個(gè)模塊組構(gòu)成,如圖4所示 —、網(wǎng)頁(yè)預(yù)處理模塊l,該模塊為一獨(dú)立模塊,包括網(wǎng)頁(yè)分割單元11和轉(zhuǎn)化為圖像
單元12。網(wǎng)頁(yè)預(yù)處理模塊l,用于對(duì)網(wǎng)頁(yè)進(jìn)行分割,并把網(wǎng)頁(yè)轉(zhuǎn)化為一副圖像; 二、網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2,該模塊為一獨(dú)立模塊,網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2與網(wǎng)頁(yè)預(yù)處
理模塊1連接,該模塊的主要功能是依據(jù)網(wǎng)頁(yè)分割的結(jié)果,提取網(wǎng)頁(yè)的布局塊(如圖la示
出)和文本塊(如圖lb示出),圖la中的粗線矩形框代表了網(wǎng)頁(yè)的布局塊,圖lb中的細(xì)線
矩形框代表了網(wǎng)頁(yè)的文本塊。 三、網(wǎng)頁(yè)布局視覺(jué)特征提取模塊3與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2的網(wǎng)頁(yè)布局塊提取單元21連接,用于接收網(wǎng)頁(yè)結(jié)構(gòu)分析模塊提取的網(wǎng)頁(yè)布局塊,該模塊的主要功能是根據(jù)提取的網(wǎng)頁(yè)布局塊,提取網(wǎng)頁(yè)的布局視覺(jué)特征。 四、網(wǎng)頁(yè)文本視覺(jué)提取模塊4與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2的網(wǎng)頁(yè)文本塊提取單元22連接,接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2提取的網(wǎng)頁(yè)文本塊,用于提取反應(yīng)網(wǎng)頁(yè)文本的一些視覺(jué)特征;該網(wǎng)頁(yè)文本視覺(jué)提取模塊4的主要功能是對(duì)得到的網(wǎng)頁(yè)文本塊進(jìn)行特征提取,以反映網(wǎng)頁(yè)文本對(duì)用戶視覺(jué)感知的影響。 五、網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征提取模塊5與網(wǎng)頁(yè)預(yù)處理模塊1的圖像單元12以及網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2的網(wǎng)頁(yè)布局塊提取21單元連接,用于接收網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2提取的網(wǎng)頁(yè)的布局塊,以及接受網(wǎng)頁(yè)預(yù)處理模塊1網(wǎng)頁(yè)轉(zhuǎn)換后的圖像,用于提取網(wǎng)頁(yè)顏色上的一些傳統(tǒng)視覺(jué)特征;具體來(lái)說(shuō),就是提取每個(gè)網(wǎng)頁(yè)的整體色調(diào)(Hue),飽和度(Saturation),明亮度(Brightness),以及彩色度(Colorfulness)。 六、網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征提取模塊6與網(wǎng)頁(yè)預(yù)處理模塊1的圖像單元12連接,接
受網(wǎng)頁(yè)預(yù)處理模塊1的網(wǎng)頁(yè)轉(zhuǎn)換后的圖像,用于提取網(wǎng)頁(yè)的視覺(jué)復(fù)雜度特征;獲取網(wǎng)頁(yè)轉(zhuǎn)
換得到的網(wǎng)頁(yè)圖像,獲取網(wǎng)頁(yè)圖像的存儲(chǔ)空間大小來(lái)作為網(wǎng)頁(yè)的視覺(jué)復(fù)雜度特征。 七、分類(lèi)模塊與網(wǎng)頁(yè)布局視覺(jué)特征提取模塊、網(wǎng)頁(yè)文本視覺(jué)特征提取模塊、網(wǎng)頁(yè)傳
統(tǒng)視覺(jué)特征提取模塊以及網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征提取模塊連接,用以接收上述這四個(gè)特征提
取模塊的提取的四方面特征,利用支持向量機(jī)對(duì)特征進(jìn)行分類(lèi),并給出網(wǎng)頁(yè)最終是屬于正
類(lèi)(視覺(jué)質(zhì)量高的網(wǎng)頁(yè))還是負(fù)類(lèi)(視覺(jué)質(zhì)量低的網(wǎng)頁(yè))。 所述網(wǎng)頁(yè)結(jié)構(gòu)分析模塊2包括網(wǎng)頁(yè)布局塊提取單元21和網(wǎng)頁(yè)文本塊提取單元22,其中網(wǎng)頁(yè)布局塊提取單元21接收網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)分割單元輸出的網(wǎng)頁(yè)塊樹(shù)提取網(wǎng)頁(yè)塊的葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊,網(wǎng)頁(yè)文本塊提取單元22接受接收網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)分割單元11輸出的網(wǎng)頁(yè)塊樹(shù),提取含有文本字符個(gè)數(shù)大于等于給定閾值(閾值的范圍為30-100個(gè)數(shù), 一般選取50個(gè)數(shù))的葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊作為網(wǎng)頁(yè)的文本塊。
下面結(jié)合圖3,詳細(xì)給出本發(fā)明技術(shù)方案中所涉及的各個(gè)步驟細(xì)節(jié)問(wèn)題的說(shuō)明。
步驟301 :首先收集盡可能多的網(wǎng)頁(yè)樣本,利用人工來(lái)把每個(gè)樣本標(biāo)記為視覺(jué)質(zhì)量高的網(wǎng)頁(yè)或者視覺(jué)質(zhì)量低的網(wǎng)頁(yè),人工標(biāo)記為視覺(jué)質(zhì)量高的樣本組成正類(lèi)樣本集,人工標(biāo)記為視覺(jué)質(zhì)量低的樣本組成負(fù)類(lèi)樣本集,兩個(gè)集合構(gòu)成了訓(xùn)練集;收集的網(wǎng)頁(yè)及其人工標(biāo)記,構(gòu)成了訓(xùn)練集;此步驟應(yīng)盡可能多地收集多的網(wǎng)頁(yè)樣本,使所建立的訓(xùn)練集具有廣泛人工對(duì)每個(gè)樣本的視覺(jué)質(zhì)量標(biāo)記上,盡可能請(qǐng)多個(gè)用戶對(duì)每個(gè)樣本進(jìn)行視覺(jué)質(zhì)量評(píng)判,評(píng)判的結(jié)果是給出每個(gè)樣本的視覺(jué)質(zhì)量分?jǐn)?shù),分?jǐn)?shù)在一個(gè)事先設(shè)定的區(qū)間類(lèi),用戶給的分值越高表示視覺(jué)質(zhì)量越好,獲得每個(gè)樣本的多個(gè)視覺(jué)質(zhì)量評(píng)判結(jié)果后,對(duì)多個(gè)視覺(jué)質(zhì)量評(píng)判結(jié)果進(jìn)行平均計(jì)算,計(jì)算得到的平均值高于視覺(jué)質(zhì)量閾值(閾值定為打分區(qū)間的中值)的網(wǎng)頁(yè)樣本標(biāo)記為正類(lèi)樣本,低于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)樣本標(biāo)記為負(fù)類(lèi)樣本。 假定網(wǎng)頁(yè)的視覺(jué)質(zhì)量的打分區(qū)間為
,分值越高越好,視覺(jué)質(zhì)量閾值選取為視覺(jué)質(zhì)量打分區(qū)間的中值,也即為5分;假定有四個(gè)用戶對(duì)某一個(gè)樣本的打分分別為1分,2分,3分,6分,其平均分值為3分,小于5分,那么該樣本標(biāo)記為負(fù)類(lèi)樣本。假定打分分別為5分,10分,7分,8分,其平均分值為7. 5分,大于5分,那么該樣本標(biāo)記為正類(lèi)樣本。
步驟302 :在訓(xùn)練集網(wǎng)頁(yè)上對(duì)每幅網(wǎng)頁(yè)進(jìn)行分割,提取網(wǎng)頁(yè)布局塊與文本塊,以作為進(jìn)一步特征提取的輸入; 網(wǎng)頁(yè)的分割方法可以有很多選擇,如基于視覺(jué)的網(wǎng)頁(yè)分割算法(VIPS),基于文檔樹(shù)(D0M)的網(wǎng)頁(yè)分割算法等。圖2a,圖2b分別給出了網(wǎng)頁(yè),以及根據(jù)該網(wǎng)頁(yè)源碼利用基于視覺(jué)的網(wǎng)頁(yè)分割算法(Vision-based Page Segmentation,VIPS)后產(chǎn)生的相應(yīng)的網(wǎng)頁(yè)視覺(jué)塊樹(shù)的結(jié)構(gòu)的示意圖。網(wǎng)頁(yè)視覺(jué)塊樹(shù)的葉節(jié)點(diǎn)對(duì)應(yīng)的矩形作為網(wǎng)頁(yè)的布局塊,網(wǎng)頁(yè)視覺(jué)塊樹(shù)的葉節(jié)點(diǎn)中含有文本字符個(gè)數(shù)大于等于給定閾值的葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊作為網(wǎng)頁(yè)的文本塊; 步驟303 :將網(wǎng)頁(yè)轉(zhuǎn)換為圖像,根據(jù)提取的布局塊和文本塊,分別提取網(wǎng)頁(yè)布局視
覺(jué)特征,網(wǎng)頁(yè)文本視覺(jué)特征,網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征以及網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征; 網(wǎng)頁(yè)布局視覺(jué)特征包括網(wǎng)頁(yè)的整體長(zhǎng)寬比、網(wǎng)頁(yè)的整體長(zhǎng)寬和、提取的布局塊的
個(gè)數(shù); 網(wǎng)頁(yè)文本視覺(jué)特征包括網(wǎng)頁(yè)中文本塊的個(gè)數(shù)、網(wǎng)頁(yè)文本塊占總體網(wǎng)頁(yè)的面積比、網(wǎng)頁(yè)文字字符個(gè)數(shù)與網(wǎng)頁(yè)文本塊總面積的比例; 網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征包括網(wǎng)頁(yè)的色調(diào)表示為Hue,飽和度表示為Saturation,明亮度表示為Brightness和網(wǎng)頁(yè)的彩色度表示為(Colorfulness),傳統(tǒng)視覺(jué)特征的計(jì)算首先需要把一副網(wǎng)頁(yè)首先轉(zhuǎn)化為一副圖形,并分別用顏色空間HSV(Hue-Saturation-Value)和顏色空間RGB (Red-Green-Blue)對(duì)該圖像進(jìn)行表示,然后采用以下公式 胸( e) = Z J]邵,/) / - AO
'.=1 >1>StoM7'ado"(Page) = X! Z S(/, /) / (TV.
' =l j=l 5/'/g/7加ew(Page) =J] 力/
' =1 J=l Colorfulness = a rgyb+0. 3 P rgyb 其中,i和j是指圖像像素的在水平方向和垂直方向上的位置,N和M分別為網(wǎng)頁(yè)對(duì)應(yīng)圖像的高和寬;H(i,j)為位于圖像(i,j)的像素點(diǎn)在顏色空間HSV的H值;S(i,j)為位于圖像(i,j)的像素點(diǎn)在顏色空間HSV的S值;V(i,j)為位于圖像(i,j)的像素點(diǎn)在顏
8色空間HSV的V值;彩色度計(jì)算公式中的a ,b和|3 wb分別表示方差彩色因子和平均彩色因子,其計(jì)算公式為 /3,.,V[ ]2 ]2 rg(i, j) = R(i, j)-G(i, j) yb (i , j) = 0. 5 (R (i , j) +G (i , j)) _B (i , j) 其中o禾P 分別表示所有圖像像素點(diǎn)的rg和yb值的方差和均值; R(i, j) , G(i, j),和B(i, j),表示圖像(i, j)的像素點(diǎn)在顏色空間RGB的R, G和B值。 網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征是指網(wǎng)頁(yè)轉(zhuǎn)化的圖像對(duì)應(yīng)的圖像存儲(chǔ)空間的大小。 步驟304 :將得到的特征向量集分為訓(xùn)練集和測(cè)試集兩部分,利用訓(xùn)練集對(duì)支持
向量機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器參數(shù),利用訓(xùn)練好的支持向量機(jī)分類(lèi)器模型對(duì)測(cè)試集
分類(lèi),并輸出分類(lèi)結(jié)果,并對(duì)新網(wǎng)頁(yè)樣本進(jìn)行預(yù)測(cè)。 以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,該方法包括步驟1首先收集盡可能多的網(wǎng)頁(yè)樣本,利用人工來(lái)把每個(gè)樣本標(biāo)記為視覺(jué)質(zhì)量高的網(wǎng)頁(yè)或者視覺(jué)質(zhì)量低的網(wǎng)頁(yè),人工標(biāo)記為視覺(jué)質(zhì)量高的樣本組成正類(lèi)樣本集,人工標(biāo)記為視覺(jué)質(zhì)量低的樣本組成負(fù)類(lèi)樣本集,兩個(gè)集合構(gòu)成了訓(xùn)練集;收集的網(wǎng)頁(yè)及其標(biāo)記,構(gòu)成了訓(xùn)練集;步驟2利用網(wǎng)頁(yè)分割算法來(lái)對(duì)每幅網(wǎng)頁(yè)進(jìn)行分割并提取網(wǎng)頁(yè)布局塊和文本塊;步驟3將每一幅網(wǎng)頁(yè)轉(zhuǎn)換成一副圖像,提取每幅網(wǎng)頁(yè)四個(gè)方面的特征布局視覺(jué)特征、文本視覺(jué)特征、傳統(tǒng)視覺(jué)特征以及視覺(jué)復(fù)雜度特征;步驟4利用得到的每幅網(wǎng)頁(yè)的特征對(duì)支持向量機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器參數(shù),并對(duì)新網(wǎng)頁(yè)樣本進(jìn)行評(píng)價(jià),判定其是否為高于質(zhì)量閾值的網(wǎng)頁(yè)。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,所述建立訓(xùn)練集收 集網(wǎng)頁(yè)樣本是收集盡可能多的網(wǎng)頁(yè)樣本,并多個(gè)用戶對(duì)每個(gè)樣本進(jìn)行視覺(jué)質(zhì)量評(píng)判,獲得 每個(gè)樣本的多個(gè)視覺(jué)質(zhì)量評(píng)判結(jié)果并對(duì)多個(gè)視覺(jué)質(zhì)量評(píng)判結(jié)果進(jìn)行平均計(jì)算,計(jì)算得到的 平均值高于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)樣本標(biāo)記為正類(lèi)樣本,低于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)樣本標(biāo)記 為負(fù)類(lèi)樣本。
3. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,所述的網(wǎng)頁(yè)分割方 法包括基于視覺(jué)的網(wǎng)頁(yè)分割算法或基于DOM樹(shù)的網(wǎng)頁(yè)分割算法。
4. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,其特征在于,提取網(wǎng) 頁(yè)的布局塊與文本塊是利用網(wǎng)頁(yè)分割算法來(lái)把網(wǎng)頁(yè)劃分成多個(gè)矩形塊,這些矩形塊稱為布 局塊;包含文本字符個(gè)數(shù)超過(guò)閾值的布局塊作為網(wǎng)頁(yè)的文本塊。
5. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,所述的布局視覺(jué)特 征包括網(wǎng)頁(yè)的整體長(zhǎng)寬比、網(wǎng)頁(yè)的整體長(zhǎng)寬和、提取的布局塊的個(gè)數(shù)。
6. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,所述的文本視覺(jué)特 征包括網(wǎng)頁(yè)中文本塊的個(gè)數(shù)、網(wǎng)頁(yè)文本塊占總體網(wǎng)頁(yè)的面積比、網(wǎng)頁(yè)文字字符與網(wǎng)頁(yè)文本 塊面積的比例。
7. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,所述的傳統(tǒng)視覺(jué)特征包括網(wǎng)頁(yè)的色調(diào)表示為Hue (Page),網(wǎng)頁(yè)的飽和度表示為Saturation (Page),網(wǎng)頁(yè)的明亮度表示為Brightness (Page)和網(wǎng)頁(yè)的彩色度表示為Colorfulness,傳統(tǒng)視覺(jué)特征的計(jì)算首先需要把一副網(wǎng)頁(yè)首先轉(zhuǎn)化為一副圖形,并分別用顏色空間HSV和顏色空間RGB進(jìn)行表示,然后采用以下公式<formula>formula see original document page 2</formula>其中,i和j是指圖像像素的在水平方向和垂直方向上的位置,N和M分別為網(wǎng)頁(yè)對(duì)應(yīng)圖像的高和寬;H(i,j)為位于圖像(i,j)的像素點(diǎn)在顏色空間HSV的H值;S(i,j)為位于圖像(i, j)的像素點(diǎn)在顏色空間HSV的S值;V(i, j)為位于圖像(i, j)的像素點(diǎn)在顏色空間HSV的V值;彩色度計(jì)算公式中的a,b和Prgyb分別表示方差彩色因子和平均彩色因子,其計(jì)算公式為rg(i, j) = R(i, j)-G(i, j)yb(i, j) = 0.5(R(i, j)+G(i, j))-B(i, j)其中o和分別表示所有圖像像素點(diǎn)的rg和yb值的方差和均值;R(i, j) , G(i, j),和B(i, j),表示圖像(i, j)的像素點(diǎn)在顏色空間RGB的R, G和B值。
8. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,所述的視覺(jué)復(fù)雜度特征是指網(wǎng)頁(yè)轉(zhuǎn)化為圖像后的圖像存儲(chǔ)空間大小。
9. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)方法,其特征在于,采用支持向量機(jī)分類(lèi)算法對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi),判定其是否高于視覺(jué)質(zhì)量閾值的網(wǎng)頁(yè)。
10. —種網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)系統(tǒng),其特征在于,該系統(tǒng)包括網(wǎng)頁(yè)預(yù)處理模塊,用于對(duì)網(wǎng)頁(yè)進(jìn)行分割,并把網(wǎng)頁(yè)轉(zhuǎn)化為一副圖像;網(wǎng)頁(yè)結(jié)構(gòu)分析模塊與網(wǎng)頁(yè)預(yù)處理模塊連接,用于提取網(wǎng)頁(yè)的布局塊以及文本塊;網(wǎng)頁(yè)布局視覺(jué)特征提取模塊與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊連接,接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊提取的網(wǎng)頁(yè)布局塊,用于提取反應(yīng)網(wǎng)頁(yè)布局的視覺(jué)特征;網(wǎng)頁(yè)文本視覺(jué)特征提取模塊與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊連接,接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊提取的網(wǎng)頁(yè)文本塊,用于提取反應(yīng)網(wǎng)頁(yè)文本的一些視覺(jué)特征;網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征提取模塊與網(wǎng)頁(yè)結(jié)構(gòu)分析模塊和網(wǎng)頁(yè)預(yù)處理模塊連接,接受網(wǎng)頁(yè)結(jié)構(gòu)分析模塊的網(wǎng)頁(yè)的布局塊以及接受網(wǎng)頁(yè)預(yù)處理模塊網(wǎng)頁(yè)轉(zhuǎn)換后的圖像,用于提取網(wǎng)頁(yè)顏色上的一些傳統(tǒng)視覺(jué)特征;網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征提取模塊與網(wǎng)頁(yè)預(yù)處理模塊連接,接受網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)轉(zhuǎn)換后的圖像,用于提取網(wǎng)頁(yè)的視覺(jué)復(fù)雜度特征;分類(lèi)模塊,用于接收網(wǎng)頁(yè)布局視覺(jué)特征提取模塊、網(wǎng)頁(yè)文本視覺(jué)特征提取模塊、網(wǎng)頁(yè)傳統(tǒng)視覺(jué)特征提取模塊以及和網(wǎng)頁(yè)視覺(jué)復(fù)雜度特征提取模塊提取的網(wǎng)頁(yè)特征,利用訓(xùn)練集對(duì)支持向量機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器參數(shù),利用訓(xùn)練好的支持向量機(jī)分類(lèi)器模型對(duì)測(cè)試網(wǎng)頁(yè)分類(lèi),并輸出網(wǎng)頁(yè)的分類(lèi)結(jié)果。
11. 根據(jù)權(quán)利要求io所述的網(wǎng)頁(yè)視覺(jué)質(zhì)量的評(píng)價(jià)系統(tǒng),其特征在于,所述網(wǎng)頁(yè)結(jié)構(gòu)分析模塊包括網(wǎng)頁(yè)布局塊提取單元和網(wǎng)頁(yè)文本塊提取單元,其中網(wǎng)頁(yè)布局塊提取單元接收網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)分割單元的分割后生成的網(wǎng)頁(yè)視覺(jué)塊樹(shù),網(wǎng)頁(yè)視覺(jué)塊樹(shù)的所有葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊作為網(wǎng)頁(yè)的布局塊;網(wǎng)頁(yè)文本塊提取單元接收網(wǎng)頁(yè)預(yù)處理模塊的網(wǎng)頁(yè)分割單元的分割后生成的網(wǎng)頁(yè)視覺(jué)塊樹(shù),網(wǎng)頁(yè)視覺(jué)塊樹(shù)的所有葉節(jié)點(diǎn)中,包含了文本字符個(gè)數(shù)大于等于給定閾值的葉節(jié)點(diǎn)對(duì)應(yīng)的矩陣塊作為網(wǎng)頁(yè)的文本塊。
全文摘要
本發(fā)明公開(kāi)一種網(wǎng)頁(yè)視覺(jué)質(zhì)量的自動(dòng)評(píng)價(jià)方法及其系統(tǒng),包括收集網(wǎng)頁(yè)樣本,每個(gè)樣本通過(guò)人工來(lái)進(jìn)行標(biāo)記其為視覺(jué)質(zhì)量高的網(wǎng)頁(yè)樣本還是視覺(jué)質(zhì)量低的網(wǎng)頁(yè)樣本,以此建立訓(xùn)練集,利用網(wǎng)頁(yè)分割算法來(lái)對(duì)每幅網(wǎng)頁(yè)進(jìn)行分割并提取網(wǎng)頁(yè)布局塊與文本塊,把每一幅網(wǎng)頁(yè)轉(zhuǎn)換成一副圖像,結(jié)合提取的網(wǎng)頁(yè)布局塊和文本塊來(lái)提取每一幅網(wǎng)頁(yè)四方面的特征布局視覺(jué)特征、文本視覺(jué)特征、傳統(tǒng)視覺(jué)特征以及視覺(jué)復(fù)雜度特征;利用得到的網(wǎng)頁(yè)特征對(duì)支持向量機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器參數(shù),并對(duì)新網(wǎng)頁(yè)進(jìn)行評(píng)價(jià),判定其視覺(jué)質(zhì)量的高低。本發(fā)明可以應(yīng)用在Web搜索,網(wǎng)頁(yè)設(shè)計(jì)以及Web過(guò)濾等諸多方面,提高基于Web的應(yīng)用程序的性能。
文檔編號(hào)G06F17/30GK101777060SQ200910243729
公開(kāi)日2010年7月14日 申請(qǐng)日期2009年12月23日 優(yōu)先權(quán)日2009年12月23日
發(fā)明者吳偶, 李兵, 胡衛(wèi)明, 陳云飛 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所