63、若所在的目標(biāo)區(qū)塊組的關(guān)聯(lián)值等于該N值時(shí),停止檢查下一個(gè)目標(biāo)區(qū)塊組,并將所在的該目標(biāo)區(qū)塊組之下的所有目標(biāo)區(qū)塊組刪除;
[0058]S-64、從所在的該目標(biāo)區(qū)塊組開始往上刪除N個(gè)目標(biāo)區(qū)塊組。
[0059]請(qǐng)同時(shí)參考圖7A的范例示意圖,為方便解說,圖7A假設(shè)經(jīng)由前述步驟后,已在HTML文件段落中區(qū)隔包覆出5個(gè)目標(biāo)區(qū)塊組51、52、53、54、55,雖然在前述步驟S3中,我們已先把HTML文件段落中的所有目的標(biāo)簽的資訊和在HTML文件段落中字元位置都記錄了下來,但每一個(gè)目的標(biāo)簽的距離可能相距甚遠(yuǎn),于網(wǎng)頁設(shè)計(jì)實(shí)務(wù)及發(fā)明人的統(tǒng)計(jì)實(shí)測(cè)上,夾帶重要內(nèi)文資訊的目的標(biāo)簽之間都不會(huì)間隔太遠(yuǎn),距離太遠(yuǎn)的目的標(biāo)簽所夾帶的內(nèi)容幾乎都是非重要內(nèi)文的資訊(如網(wǎng)頁底部的讀者回應(yīng)之類),由示意可中可清楚看出,第一個(gè)目標(biāo)區(qū)塊51包覆著目的標(biāo)簽
,而第五個(gè)目標(biāo)區(qū)塊55才又包覆了一個(gè)目的標(biāo)簽</br>,但二個(gè)目標(biāo)區(qū)塊的間距有點(diǎn)遠(yuǎn),所以在步驟D中,設(shè)定一關(guān)聯(lián)值來依序檢查每一個(gè)目標(biāo)區(qū)塊,再于步驟S-61設(shè)定了一個(gè)N值,該N值即做為前述目標(biāo)區(qū)塊組之間距離門檻的判斷,于此實(shí)施例中,我們將N值設(shè)定為3,并將關(guān)聯(lián)值達(dá)到設(shè)定條件的所有目標(biāo)區(qū)塊組刪除(判定該些目標(biāo)區(qū)塊組與包含目的標(biāo)簽資訊的有效目標(biāo)區(qū)塊組相距太遠(yuǎn),屬于非重要內(nèi)文的目標(biāo)區(qū)塊組,圖7A中的第五個(gè)目標(biāo)區(qū)塊55雖然也有包覆目的標(biāo)簽,但超出N值距離門檻的設(shè)定,將會(huì)被判定為與重要內(nèi)文不相關(guān)的內(nèi)容,而被刪除,于下將詳細(xì)解說)。
[0060]在設(shè)定一關(guān)聯(lián)值之后,依序檢查每一個(gè)目標(biāo)區(qū)塊組51、52、53、54、55是否包含目的標(biāo)簽(是否有〈P〉標(biāo)簽或<br>標(biāo)簽),若檢查到的所在目標(biāo)區(qū)塊組未包含目的標(biāo)簽,則關(guān)聯(lián)值累加1,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組,若檢查到的所在目標(biāo)區(qū)塊組包含該目的標(biāo)簽時(shí),則關(guān)聯(lián)值重設(shè)為0,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組。在第7圖的范例示意圖中,第一個(gè)目標(biāo)區(qū)塊組51中包含了目的標(biāo)簽的資訊,于是將關(guān)聯(lián)值設(shè)為0,然后再往下檢查第二個(gè)目標(biāo)區(qū)塊組52 ;于第二個(gè)目標(biāo)區(qū)塊52中發(fā)現(xiàn)并未包含目的標(biāo)簽的資訊,則將關(guān)聯(lián)值累加1,然后再往下檢查第三個(gè)目標(biāo)區(qū)塊組53 ;于第三個(gè)目標(biāo)區(qū)塊53中發(fā)現(xiàn)并未包含目的標(biāo)簽的資訊,則將關(guān)聯(lián)值再加1,此時(shí)關(guān)聯(lián)值已累加為2,然后再往下檢查第四個(gè)目標(biāo)區(qū)塊組54 ;于第四個(gè)目標(biāo)區(qū)塊54中發(fā)現(xiàn)并未包含目的標(biāo)簽的資訊,則將關(guān)聯(lián)值再加1,此時(shí)關(guān)聯(lián)值已累加為3達(dá)到設(shè)定的N值條件,即停止檢查下一個(gè)目標(biāo)區(qū)塊組55,判定所在的目標(biāo)區(qū)塊組55與包含目的標(biāo)簽資訊的有效目標(biāo)區(qū)塊組51相距太遠(yuǎn),屬于非重要內(nèi)文的目標(biāo)區(qū)塊組,于是將所在的目標(biāo)區(qū)塊組54之下的所有目標(biāo)區(qū)塊組55刪除,并在步驟S-64中,再從所在的目標(biāo)區(qū)塊組54開始往上刪除3個(gè)目標(biāo)區(qū)塊組(因?yàn)镹值已設(shè)定為3,即刪除目標(biāo)區(qū)塊組52、53、54),到此步驟,被判定為非重要內(nèi)文的目標(biāo)區(qū)塊組52、53、54、55都被刪除(圖中以虛線表示),只保留判定為重要內(nèi)文目標(biāo)區(qū)塊組51,然后進(jìn)行步驟S7將剩余的目標(biāo)區(qū)塊組51的內(nèi)容輸出成為所需文件,于圖7A的范例示意中,最后輸出的內(nèi)容將為目標(biāo)區(qū)塊組51中的目的標(biāo)簽〈P〉所夾帶的內(nèi)容(文字),若該目標(biāo)區(qū)塊組51中亦有<img>圖片標(biāo)簽或〈a href>超連結(jié)標(biāo)簽或其他標(biāo)簽內(nèi)容的話,都會(huì)一并輸出成為所需文件(即包含重要內(nèi)文的純文字內(nèi)容及其他圖片和超連結(jié)等有用資訊,最后的輸出結(jié)果如圖7B所示),如此即可達(dá)到準(zhǔn)確提取HTML文件中所需內(nèi)容的目的。
【主權(quán)項(xiàng)】
1.一種擷取超文字標(biāo)簽語言文件內(nèi)容的方法,先取得一 HTML文件,并執(zhí)行一前置標(biāo)簽處理程序以擷取出一與主要內(nèi)容相關(guān)的HTML文件段落,該HTML文件段落中包含至少一個(gè)目的標(biāo)簽及目的標(biāo)簽所包含的內(nèi)容,其特征在于:該方法依據(jù)該HTML文件段落進(jìn)行下列步驟: A、從該HTML文件段落中搜尋所有的目的標(biāo)簽,并將該些目的標(biāo)簽的字元位置資訊記錄于一數(shù)據(jù)結(jié)構(gòu)中; B、根據(jù)該數(shù)據(jù)結(jié)構(gòu)中所記錄的訊息找出該HTML文件段落中第一個(gè)目的標(biāo)簽及最后一個(gè)目的標(biāo)簽的字元位置; C、將該第一個(gè)目的標(biāo)簽設(shè)為一第一起點(diǎn)標(biāo)簽并進(jìn)行段落區(qū)隔步驟,直至包覆到最后一個(gè)目的標(biāo)簽為止,藉以區(qū)隔出至少一個(gè)目標(biāo)區(qū)塊組; D、設(shè)定一關(guān)聯(lián)值,將所述目標(biāo)區(qū)塊組依序與該目的標(biāo)簽做關(guān)聯(lián)性比對(duì)并記錄其關(guān)聯(lián)值,將關(guān)聯(lián)值達(dá)到設(shè)定條件的所述目標(biāo)區(qū)塊組刪除;以及 E、將剩余的所述目標(biāo)區(qū)塊組的內(nèi)容輸出成為所需文件。
2.如權(quán)利要求1所述的擷取超文字標(biāo)簽語言文件內(nèi)容的方法,其特征在于,該目的標(biāo)簽包含標(biāo)簽〈P〉和標(biāo)簽<br>。
3.如權(quán)利要求1所述的擷取超文字標(biāo)簽語言文件內(nèi)容的方法,其特征在于,步驟C中的段落區(qū)隔步驟包括: C-1、由該第一起點(diǎn)標(biāo)簽向上尋找出一落單的頭標(biāo)簽,將之設(shè)為一第一目標(biāo)區(qū)塊前邊界; C-2、由該第一起點(diǎn)標(biāo)簽向下尋找出一落單的尾標(biāo)簽,將之設(shè)為一第一目標(biāo)區(qū)塊后邊界; C-3、將該第一目標(biāo)區(qū)塊前邊界及該第一目標(biāo)區(qū)塊后邊界范圍內(nèi)所包覆的內(nèi)容,合并成一第一目標(biāo)區(qū)塊組; C-4、若該第一目標(biāo)區(qū)塊組的內(nèi)容已包覆到最后一個(gè)目的標(biāo)簽時(shí),則進(jìn)行D步驟,若尚未包覆到最后一個(gè)目的標(biāo)簽時(shí)則繼續(xù)進(jìn)行下一步驟; C-5、若該第一目標(biāo)區(qū)塊組的內(nèi)容已包覆到HTML文件標(biāo)題時(shí),則進(jìn)行C-1I步驟,若尚未包覆到HTML文件標(biāo)題時(shí)則繼續(xù)進(jìn)行下一步驟; C-6、將該第一目標(biāo)區(qū)塊前邊界設(shè)為一第二起點(diǎn)標(biāo)簽,并由該第二起點(diǎn)標(biāo)簽向上尋找出一落單的頭標(biāo)簽,將之設(shè)為一第二目標(biāo)區(qū)塊前邊界; C-7、將該第一目標(biāo)區(qū)塊后邊界設(shè)為一第三起點(diǎn)標(biāo)簽,并由該第三起點(diǎn)標(biāo)簽向下尋找出一落單的尾標(biāo)簽,將之設(shè)為一第二目標(biāo)區(qū)塊后邊界; C-8、將該第二目標(biāo)區(qū)塊前邊界及該第二目標(biāo)區(qū)塊后邊界范圍內(nèi)所包覆的內(nèi)容,合并成一第二目標(biāo)區(qū)塊組; C-9、若該第二目標(biāo)區(qū)塊組的內(nèi)容未包覆到HTML文件標(biāo)題時(shí),刪除該第一目標(biāo)區(qū)塊組的設(shè)定,并將該第二目標(biāo)區(qū)塊組設(shè)為新的第一目標(biāo)區(qū)塊組,并返回進(jìn)行步驟C-4 ; C-10、若該第二目標(biāo)區(qū)塊組的內(nèi)容包覆到HTML文件標(biāo)題時(shí),刪除該第二目標(biāo)區(qū)塊組的設(shè)定,保留該第一目標(biāo)區(qū)塊組的內(nèi)容,并返回進(jìn)行步驟C-4; C-11、將所在的該目標(biāo)區(qū)塊后邊界的下一個(gè)頭標(biāo)簽設(shè)為一第四起點(diǎn)標(biāo)簽,將之當(dāng)成另一新目標(biāo)區(qū)塊的前邊界,并由該第四起點(diǎn)標(biāo)簽向下尋找出對(duì)應(yīng)的尾標(biāo)簽,將之設(shè)為該另一新目標(biāo)區(qū)塊的后邊界; C-12、將該另一新目標(biāo)區(qū)塊前邊界及該另一新目標(biāo)區(qū)塊后邊界范圍內(nèi)所包覆的內(nèi)容,合并成一另一新目標(biāo)區(qū)塊組;以及 C-13、若該另一新目標(biāo)區(qū)塊組的內(nèi)容未包覆到最后一個(gè)目的標(biāo)簽時(shí),則返回進(jìn)行步驟C-11,藉以區(qū)隔出數(shù)個(gè)目標(biāo)區(qū)塊組,直至該HTML文件中最后一個(gè)目的標(biāo)簽被其中一個(gè)目標(biāo)區(qū)塊組包覆到為止。
4.如權(quán)利要求1所述的擷取超文字標(biāo)簽語言文件內(nèi)容的方法,其特征在于,步驟D還包括: D-1、設(shè)定一 N值; D-2、依序檢查每一個(gè)目標(biāo)區(qū)塊組中是否包含該目的標(biāo)簽,并若該目標(biāo)區(qū)塊組未包含該目的標(biāo)簽,則關(guān)聯(lián)值累加1,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組,若該目標(biāo)區(qū)塊組包含該目的標(biāo)簽時(shí),則關(guān)聯(lián)值重設(shè)為O,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組; D-3、若所在的目標(biāo)區(qū)塊組的關(guān)聯(lián)值等于該N值時(shí),停止檢查下一個(gè)目標(biāo)區(qū)塊組,并將所在的該目標(biāo)區(qū)塊組之下的所有目標(biāo)區(qū)塊組刪除;以及 D-4、從所在的該目標(biāo)區(qū)塊組開始往上刪除N個(gè)目標(biāo)區(qū)塊組。
5.如權(quán)利要求4所述的擷取超文字標(biāo)簽語言文件內(nèi)容的方法,其特征在于,該N值為3。
6.如權(quán)利要求1所述的擷取超文字標(biāo)簽語言文件內(nèi)容的方法,其特征在于,該數(shù)據(jù)結(jié)構(gòu)所儲(chǔ)存的相關(guān)資訊包括:每一個(gè)目的標(biāo)簽的資訊及該目的標(biāo)簽出現(xiàn)的字元位置。
【專利摘要】本發(fā)明公開了一種擷取超文字標(biāo)簽語言文件(HyperText Markup Language,HTML)內(nèi)容的方法,從保留的HTML文件段落中記錄所有目的標(biāo)簽的字元位置,通過從第一個(gè)目的標(biāo)簽做為第一起點(diǎn)標(biāo)簽及設(shè)定后續(xù)數(shù)個(gè)不同的起點(diǎn)標(biāo)簽的方式,以不超出HTML文件標(biāo)題及包覆到最后一個(gè)目的標(biāo)簽為原則,分別進(jìn)行段落區(qū)隔的步驟,以區(qū)隔出至少一個(gè)目標(biāo)區(qū)塊組,再依序?qū)⒃撔┠繕?biāo)區(qū)塊組與目的標(biāo)簽做關(guān)聯(lián)性比對(duì),藉以刪除非重要的目標(biāo)區(qū)塊組,進(jìn)而將剩余保留的目標(biāo)區(qū)塊組的內(nèi)容輸出,而準(zhǔn)確地從該超文字標(biāo)簽語言文件中提取出包含重要內(nèi)文及其他所需的資訊(例如與重要內(nèi)文相關(guān)的圖片、超連結(jié)等資訊)。
【IPC分類】G06F17-30
【公開號(hào)】CN104765737
【申請(qǐng)?zhí)枴緾N201410003176
【發(fā)明人】蔡弘揚(yáng), 洪啟豪, 谷鴻祥
【申請(qǐng)人】易搜比控股公司
【公開日】2015年7月8日
【申請(qǐng)日】2014年1月3日