亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

擷取超文字標(biāo)簽語言文件內(nèi)容的方法_2

文檔序號:8445535閱讀:來源:國知局
文件段落中出現(xiàn)的字元位置。于是,在S4步驟中,SP可根據(jù)數(shù)據(jù)結(jié)構(gòu)中所記錄的訊息找出該HTML文件段落中第一個(gè)目的標(biāo)簽及最后一個(gè)目的標(biāo)簽的所在字元位置。
[0046]從步驟S5開始,進(jìn)行本發(fā)明的段落區(qū)隔步驟,先將HTML文件段落中出現(xiàn)的第一個(gè)目的標(biāo)簽設(shè)為第一起點(diǎn)標(biāo)簽,即從該HTML文件段落中出現(xiàn)的第一個(gè)〈P〉標(biāo)簽或<br>標(biāo)簽開始進(jìn)行段落區(qū)隔的步驟,本發(fā)明的段落區(qū)隔步驟,主要通過將HTML文件段落中所有的標(biāo)簽進(jìn)行堆棧隊(duì)列的方式,從所設(shè)定的起點(diǎn)標(biāo)簽開始進(jìn)行擴(kuò)散包覆的動作,以實(shí)現(xiàn)將零亂的HTML文件段落區(qū)分成至少一個(gè)目標(biāo)區(qū)塊組,進(jìn)而判斷該目標(biāo)區(qū)塊組是否屬于重要內(nèi)容。
[0047]在此,請一并參考圖3及圖5A至5C的步驟流程解說及范例示意,步驟S51先由該第一起點(diǎn)標(biāo)簽向上尋找一落單的頭標(biāo)簽,將之設(shè)為一第一目標(biāo)區(qū)塊的前邊界,請同時(shí)參考圖5A的范例說明,步驟S51中先找出設(shè)定好的第一起點(diǎn)標(biāo)簽,即該HTML文件段落中的第一個(gè)出現(xiàn)的〈P〉標(biāo)簽或<br>標(biāo)簽,于圖5A的范例說明中可清楚看出,該HTML文件段落中第一個(gè)出現(xiàn)的目的標(biāo)簽是〈P〉標(biāo)簽,于是于此實(shí)施例中,即將該第一個(gè)出現(xiàn)的〈P〉標(biāo)簽設(shè)為第一起點(diǎn)標(biāo)簽101,進(jìn)而由該第一起點(diǎn)標(biāo)簽101向上尋找一落單的頭標(biāo)簽,即從該〈P〉標(biāo)簽開始,向上進(jìn)行標(biāo)簽堆棧隊(duì)列的動作,將〈P〉之前的每一個(gè)出現(xiàn)的標(biāo)簽置入一堆棧隊(duì)列中,通過堆棧隊(duì)列后進(jìn)先出的原理,當(dāng)堆棧隊(duì)列中置入成對的頭標(biāo)簽及尾標(biāo)簽時(shí),該成對的頭標(biāo)簽及尾標(biāo)簽將被提出堆棧隊(duì)列,而落單的頭標(biāo)簽或尾標(biāo)簽將一直存放在堆棧隊(duì)列中,于是可以很輕易的在擴(kuò)散的過程中找出落單的標(biāo)簽,而將之設(shè)為該區(qū)塊擴(kuò)散的邊界。而在標(biāo)簽堆棧隊(duì)列的過程中,有些只有頭標(biāo)簽的特殊功用標(biāo)簽可以不放進(jìn)堆棧隊(duì)列中檢查,例如<img>、<meta>、〈input〉、〈embed〉、<link>、<param>、<area>、<hr>、<col>、<?xml> 等等特殊功用的標(biāo)簽,而避免目標(biāo)區(qū)塊組的范圍抓取錯(cuò)誤。
[0048]而步驟S51由圖5A的范例中的第一個(gè)起點(diǎn)標(biāo)簽〈P〉標(biāo)簽往上尋找出的第一個(gè)落單的頭標(biāo)簽,即會找到〈span〉頭標(biāo)簽,于是便將該〈span〉標(biāo)簽設(shè)為第一目標(biāo)區(qū)塊的前邊界。而步驟S52則由該第一起點(diǎn)標(biāo)簽〈P〉標(biāo)簽向下尋找出第一個(gè)落單的尾標(biāo)簽,即會找到〈/span〉尾標(biāo)簽,便將之設(shè)為該第一目標(biāo)區(qū)塊的后邊界。而在步驟S53,便將前述第一目標(biāo)區(qū)塊的前邊界及后邊界范圍內(nèi)所包覆的內(nèi)容,合并成第一目標(biāo)區(qū)塊組10。
[0049]當(dāng)找出一個(gè)目標(biāo)區(qū)塊組10,接下來便進(jìn)行該目標(biāo)區(qū)塊組10是否包覆到最后一個(gè)目的標(biāo)簽(步驟S54)和是否包覆到HTML文件標(biāo)題(步驟S55)的判斷。于步驟S54中,若該第一目標(biāo)區(qū)塊組10的內(nèi)容已包覆到最后一個(gè)目的標(biāo)簽時(shí),即代表所有的重要內(nèi)容已找到,即跳至步驟S6進(jìn)行關(guān)聯(lián)值比對(于后步驟S6說明),于此實(shí)施例中,該第一目標(biāo)區(qū)塊組10的內(nèi)容尚未包覆到最后一個(gè)目的標(biāo)簽,所以再進(jìn)行步驟S55判斷是否包覆到HTML文件標(biāo)題(該HTML文件標(biāo)題即第5A范例圖中的<h IH i 11 e〈/h I > ),于此實(shí)施例中,第一目標(biāo)區(qū)塊組10的內(nèi)容尚未包覆到HTML文件標(biāo)題,代表第一目標(biāo)區(qū)塊組10可以再往外擴(kuò)散,即接續(xù)進(jìn)行步驟S56的向外擴(kuò)散的動作;而若發(fā)現(xiàn)第一目標(biāo)區(qū)塊組10已包覆到HTML文件標(biāo)題時(shí),則進(jìn)行步驟S62其他目標(biāo)區(qū)塊擴(kuò)散包覆的動作(于后圖6中說明)。
[0050]于步驟S56中,將第一目標(biāo)區(qū)塊10的前邊界(該落單的頭標(biāo)簽〈span〉標(biāo)簽)設(shè)為第二起點(diǎn)標(biāo)簽102,并由第二起點(diǎn)標(biāo)簽102同樣的通過上述標(biāo)簽堆棧隊(duì)列的方式再向上尋找出一落單的頭標(biāo)簽,將之設(shè)為第二目標(biāo)區(qū)塊的前邊界;從圖5B中,由第二起點(diǎn)標(biāo)簽102向上尋找出的第一個(gè)落單的頭標(biāo)簽是<img>,但前述說明中,<img>屬于特殊功用的標(biāo)簽,于是不放進(jìn)堆棧隊(duì)列中檢查,再往上找即會找到<div>頭標(biāo)簽,于是便該<div>標(biāo)簽設(shè)為第二目標(biāo)區(qū)塊的前邊界,步驟S57則將第一目標(biāo)區(qū)塊10的后邊界(該落單的頭標(biāo)簽〈/span〉標(biāo)簽)設(shè)為第三起點(diǎn)標(biāo)簽103,并由第三起點(diǎn)標(biāo)簽103向下尋找出第一個(gè)落單的尾標(biāo)簽,通過前述方法和規(guī)則即會找到</div>尾標(biāo)簽,便將之設(shè)為第二目標(biāo)區(qū)塊的后邊界,再于步驟S58中將第二目標(biāo)區(qū)塊的前邊界及后邊界范圍內(nèi)所包覆的內(nèi)容,合并成第二目標(biāo)區(qū)塊組20。
[0051]當(dāng)找出從第一目標(biāo)區(qū)塊組10向外擴(kuò)散出來的第二目標(biāo)區(qū)塊組20時(shí),接下來先判斷第二目標(biāo)區(qū)塊組20是否包覆到HTML文件標(biāo)題(步驟S59)的判斷。于此實(shí)施例中,第二目標(biāo)區(qū)塊組20的內(nèi)容尚未包覆到HTML文件標(biāo)題,代表第二目標(biāo)區(qū)塊組20可以再往外擴(kuò)散,即刪除較小的第一目標(biāo)區(qū)塊組10的設(shè)定(如圖5B中的范例示意,第一目標(biāo)區(qū)塊組10已以虛線示意,代表區(qū)塊的設(shè)定被刪除),保留第二目標(biāo)區(qū)塊組20的范圍,并將第二目標(biāo)區(qū)塊組20改設(shè)為新的第一目標(biāo)區(qū)塊組(所以在圖5B中只剩下一個(gè)第一目標(biāo)區(qū)塊組20),然后重新返回步驟S54、S55進(jìn)行該目標(biāo)區(qū)塊組20是否包覆到最后一個(gè)目的標(biāo)簽(步驟S54)和是否包覆到HTML文件標(biāo)題(步驟S55)的判斷及后續(xù)步驟,一直擴(kuò)散范圍直至該目標(biāo)區(qū)塊組的內(nèi)容包覆到HTML文件標(biāo)題或最后一個(gè)目的標(biāo)簽為止。于另一實(shí)施例圖5C的范例示意中則表現(xiàn)了當(dāng)?shù)谝荒繕?biāo)區(qū)塊組20經(jīng)由上述步驟判斷條件成立后,繼續(xù)向外擴(kuò)散找出第二目標(biāo)區(qū)塊組30,此時(shí)經(jīng)由步驟S59判斷該第二目標(biāo)區(qū)塊組30的內(nèi)容已經(jīng)包覆到HTML文件標(biāo)題時(shí),代表第二目標(biāo)區(qū)塊組30已經(jīng)超出所需內(nèi)容范圍,此時(shí)即進(jìn)行步驟S61刪除不恰當(dāng)?shù)牡诙繕?biāo)區(qū)塊組30的設(shè)定,保留第一目標(biāo)區(qū)塊組20的范圍(于圖5C的范例示意中,第二目標(biāo)區(qū)塊組30已以虛線示意,代表區(qū)塊的設(shè)定被刪除,只剩下一個(gè)被保留的第一目標(biāo)區(qū)塊組20)。
[0052]在前述步驟S55中,會判斷該目標(biāo)區(qū)塊組是否包覆到HTML文件標(biāo)題,若發(fā)現(xiàn)該目標(biāo)區(qū)塊組已包覆到HTML文件標(biāo)題時(shí),則進(jìn)行步驟S62的其他目標(biāo)區(qū)塊擴(kuò)散包覆的動作,請同時(shí)參考圖6的范例示意圖,如圖6所示,在經(jīng)過前述步驟后,擴(kuò)散包覆出最大范圍的第一目標(biāo)區(qū)塊組41后(因再擴(kuò)散會包覆到HTML文件標(biāo)題,所以第一目標(biāo)區(qū)塊組41已經(jīng)不能再擴(kuò)散,即為區(qū)塊內(nèi)容的最大范圍),且該第一目標(biāo)區(qū)塊組41經(jīng)過步驟S54判斷后發(fā)現(xiàn)亦未包覆到最后一個(gè)目的標(biāo)簽,此時(shí)即進(jìn)行步驟S62的其他目標(biāo)區(qū)塊擴(kuò)散包覆的動作,在步驟S62中,將第一目標(biāo)區(qū)塊組41后邊界(即</div>)的下一個(gè)頭標(biāo)簽(即</div>)設(shè)為第四起點(diǎn)標(biāo)簽421,將之當(dāng)成另一新目標(biāo)區(qū)塊42的前邊界,并由該第四起點(diǎn)標(biāo)簽421向下尋找出對應(yīng)的尾標(biāo)簽(即會找到一個(gè)對應(yīng)的</div>尾標(biāo)簽),將該尾標(biāo)簽設(shè)為另一新目標(biāo)區(qū)塊42的后邊界,然后再于步驟S63中,將前述的前邊界及后邊界范圍內(nèi)所包覆的內(nèi)容,合并成另一個(gè)新的目標(biāo)區(qū)塊組42,當(dāng)擴(kuò)散包覆出新的目標(biāo)區(qū)塊組42后,再進(jìn)行步驟S64檢查新的目標(biāo)區(qū)塊組42是否包覆到最后一個(gè)目的標(biāo)簽,若新的目標(biāo)區(qū)塊組尚未包覆到最后一個(gè)目的標(biāo)簽時(shí),再返回步驟S62再進(jìn)行另一個(gè)新的目標(biāo)區(qū)塊組43的擴(kuò)散包覆動作,即將該新的目標(biāo)區(qū)塊組42的后邊界(即</div>)的下一個(gè)頭標(biāo)簽(即<div>)設(shè)為第四起點(diǎn)標(biāo)簽431,將之當(dāng)成另一新目標(biāo)區(qū)塊43的前邊界,并由該第四起點(diǎn)標(biāo)簽431向下尋找出對應(yīng)的尾標(biāo)簽(即會找到一個(gè)對應(yīng)的</div>尾標(biāo)簽),將該尾標(biāo)簽設(shè)為另一新目標(biāo)區(qū)塊43的后邊界,再于步驟S63中,將前述的前邊界及后邊界范圍內(nèi)所包覆的內(nèi)容,再合并成另外一個(gè)新的目標(biāo)區(qū)塊組43,經(jīng)由上述步驟重復(fù),直至最后一個(gè)目標(biāo)區(qū)塊組包覆到最后一個(gè)目的標(biāo)簽為止,于此實(shí)施例中,即藉由前述步驟,區(qū)隔包覆出了三個(gè)目標(biāo)區(qū)塊組41、42、43。
[0053]而在步驟S64中,若檢查到所在的目標(biāo)區(qū)塊組的內(nèi)容已包覆到最后一個(gè)目的標(biāo)簽時(shí),即代表所有的重要內(nèi)容已找到,不再進(jìn)行區(qū)塊擴(kuò)散包覆新目標(biāo)區(qū)塊組的動作,即跳至步驟S6進(jìn)行關(guān)聯(lián)值比對(在步驟S54中檢查到第一目標(biāo)區(qū)塊組的內(nèi)容已包覆到最后一個(gè)目的標(biāo)簽時(shí)亦同)。
[0054]接下來在步驟S6中,更包括了下列步驟:
[0055]S-61、設(shè)定一N值;
[0056]S-62、依序檢查每一個(gè)目標(biāo)區(qū)塊組中是否包含該目的標(biāo)簽,并若該目標(biāo)區(qū)塊組未包含該目的標(biāo)簽,則關(guān)聯(lián)值累加1,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組,若該目標(biāo)區(qū)塊組包含該目的標(biāo)簽時(shí),則關(guān)聯(lián)值重設(shè)為0,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組;
[0057]S-
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1