亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

擷取超文字標(biāo)簽語(yǔ)言文件內(nèi)容的方法

文檔序號(hào):8445535閱讀:371來(lái)源:國(guó)知局
擷取超文字標(biāo)簽語(yǔ)言文件內(nèi)容的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種網(wǎng)頁(yè)內(nèi)容的萃取方法,特別是有關(guān)于一種可以從超文字標(biāo)簽語(yǔ)言(HyperText Markup Language,HTML)文件中提取包含重要內(nèi)文及其他所需的資訊(例如與重要內(nèi)文相關(guān)的圖片、超連結(jié)等資訊)的方法。
【背景技術(shù)】
[0002]在現(xiàn)有的相關(guān)將HTML文件轉(zhuǎn)換為純文字內(nèi)容的技術(shù)中,都只著重在如何將重要內(nèi)文提取出,其訴求在避免提取出不重要的垃圾內(nèi)容的文字資訊及提高純文字結(jié)果的準(zhǔn)確率,但往往忽略了與重要內(nèi)文相關(guān)的圖片或超連結(jié)等資訊,令使用者在閱讀上,常會(huì)看不到相關(guān)訊息、圖片甚或看不懂內(nèi)文在寫什么。
[0003]在發(fā)明人前所公開(kāi)并已核準(zhǔn)的一種從超文字標(biāo)簽語(yǔ)言(HyperText MarkupLanguage, HTML)文件轉(zhuǎn)換成純文字文件的方法中,公開(kāi)針對(duì)〈P〉、<br>等目的標(biāo)簽抓取重要內(nèi)文段落,并以一預(yù)設(shè)的句子索引值作為段落區(qū)隔的依據(jù),將保留的HTML文件段落區(qū)隔為數(shù)個(gè)目標(biāo)區(qū)塊,再進(jìn)一步從這數(shù)個(gè)目標(biāo)區(qū)塊中找出最接近HTML文件標(biāo)題文意的目標(biāo)區(qū)塊將之輸出成為純文字文字,雖可提高提取重要內(nèi)文的準(zhǔn)確性,但在特殊情況下,會(huì)將任何與文件標(biāo)題有關(guān)的段落認(rèn)定為重要而抓取進(jìn)來(lái),例如重要內(nèi)文之后的讀者回應(yīng),若讀者回應(yīng)中有提及HTML文件標(biāo)題,則該篇讀者回應(yīng)會(huì)被當(dāng)做重要內(nèi)文的段落而一并提取出來(lái),而造成內(nèi)容提取錯(cuò)誤,且該方法無(wú)法提取出與重要內(nèi)容相關(guān)的圖片或超連結(jié)等資訊,甚為可
I曰°
[0004]而在另一種已知的解析HTML的樹(shù)狀標(biāo)簽結(jié)構(gòu)的做法中,雖可提取出與重要內(nèi)文相關(guān)的圖片或超連結(jié)等資訊,但該技術(shù)需先將整個(gè)HTML文件全部樹(shù)狀結(jié)構(gòu)化,再?gòu)钠渲腥〉靡恢翑?shù)個(gè)節(jié)點(diǎn)(node)內(nèi)的內(nèi)容為重要內(nèi)文,該做法需在可解析整個(gè)HTML文件的特定環(huán)境下方能執(zhí)行,其處理上既受限且費(fèi)時(shí),且判斷哪些節(jié)點(diǎn)系為重要內(nèi)文所在,常有失誤,再者若重要內(nèi)文分屬好幾個(gè)段落而落在不同的節(jié)點(diǎn)中的話,非常容易遺露其他節(jié)點(diǎn)中的重要內(nèi)文資訊。

【發(fā)明內(nèi)容】

[0005]為解決上述問(wèn)題,本發(fā)明的主要目的在于提供一種可從超文字標(biāo)簽語(yǔ)言文件(HTML文件)準(zhǔn)確提取包含重要內(nèi)文及所需的資訊(例如與重要內(nèi)文相關(guān)的圖片、超連結(jié)等資訊),供使用者便于閱讀的一種從超文字標(biāo)簽語(yǔ)言文件(HyperText Markup Language,HTML)提取所需內(nèi)容的方法。
[0006]為達(dá)上述目的,本發(fā)明的方法系先取得一 HTML文件,并執(zhí)行一前置標(biāo)簽處理程序以擷取出一與主要內(nèi)容相關(guān)的HTML文件段落,該HTML文件段落中包含了至少一個(gè)〈P〉標(biāo)簽或<br>標(biāo)簽所包含的內(nèi)容,所述的〈P〉標(biāo)簽及<br>標(biāo)簽即為目的標(biāo)簽,再依據(jù)該HTML文件段落進(jìn)行下列步驟:
[0007]A、從該HTML文件段落中搜尋所有的目的標(biāo)簽,并將該些目的標(biāo)簽的字元位置資訊記錄于一數(shù)據(jù)結(jié)構(gòu)中;
[0008]B、根據(jù)該數(shù)據(jù)結(jié)構(gòu)中所記錄的訊息找出該HTML文件段落中第一個(gè)目的標(biāo)簽及最后一個(gè)目的標(biāo)簽的位置;
[0009]C、將該第一個(gè)目的標(biāo)簽設(shè)為一第一起點(diǎn)標(biāo)簽并進(jìn)行段落區(qū)隔步驟,直至包覆到最后一個(gè)目的標(biāo)簽為止,藉以區(qū)隔出至少一個(gè)目標(biāo)區(qū)塊組;
[0010]D、設(shè)定一關(guān)聯(lián)值,將該(些)目標(biāo)區(qū)塊組依序與該目的標(biāo)簽做關(guān)聯(lián)性比對(duì)并記錄其關(guān)聯(lián)值,將關(guān)聯(lián)值達(dá)到設(shè)定條件的該(些)目標(biāo)區(qū)塊組刪除;
[0011]E、將剩余的該(些)目標(biāo)區(qū)塊組的內(nèi)容輸出成為所需文件。
[0012]其中,步驟C中的段落區(qū)隔步驟,系以不超出HTML文件標(biāo)題及包覆到最后一個(gè)目的標(biāo)簽為原則,進(jìn)行連續(xù)的、不同的目標(biāo)區(qū)塊組的擴(kuò)散包覆動(dòng)作,其系以第一個(gè)目的標(biāo)簽做為第一起點(diǎn)標(biāo)簽進(jìn)行擴(kuò)散包覆的動(dòng)作,藉以包覆出一第一目標(biāo)區(qū)塊組,此時(shí)判斷若該第一目標(biāo)區(qū)塊組尚未包覆到最后一個(gè)目的標(biāo)簽且包覆范圍未超出HTML文件標(biāo)題時(shí),再藉由設(shè)定不同的起點(diǎn)標(biāo)簽,分別進(jìn)行擴(kuò)散包覆的動(dòng)作,使之分別包覆出數(shù)個(gè)不同的目標(biāo)區(qū)塊組,直到最后一個(gè)目的標(biāo)簽被其中之一個(gè)目標(biāo)區(qū)塊組包覆到為止。
[0013]當(dāng)該HTML文件段落中所有的目標(biāo)區(qū)塊組都被包覆出來(lái)之后,而后于步驟D中,通過(guò)設(shè)置一關(guān)聯(lián)值,依序?qū)⒃撔┠繕?biāo)區(qū)塊組與目的標(biāo)簽(〈P〉標(biāo)簽或<br>標(biāo)簽)做關(guān)聯(lián)性比對(duì),若該目標(biāo)區(qū)塊組未包含該目的標(biāo)簽,則關(guān)聯(lián)值累加I,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組,若該目標(biāo)區(qū)塊組包含該目的標(biāo)簽時(shí),則關(guān)聯(lián)值重設(shè)為0,并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組,其中,在步驟D的詳細(xì)步驟中更設(shè)有一N值(做為距離門檻的判斷),當(dāng)檢查到的該目標(biāo)區(qū)塊組的關(guān)聯(lián)值達(dá)到該N值時(shí),即停止檢查下一個(gè)目標(biāo)區(qū)塊組,并將所在的目標(biāo)區(qū)塊組之下的所有目標(biāo)區(qū)塊組刪除,并從所在的該目標(biāo)區(qū)塊組開(kāi)始往上刪除N個(gè)目標(biāo)區(qū)塊組(該些被刪除的目標(biāo)區(qū)塊組皆被視為非重要的目標(biāo)區(qū)塊組而且剔除掉),最后只將剩余保留的目標(biāo)區(qū)塊組的內(nèi)容輸出,此即可達(dá)到準(zhǔn)確提取HTML文件所需內(nèi)容的目的。
[0014]以上關(guān)于本
【發(fā)明內(nèi)容】
及以下關(guān)于實(shí)施方式的說(shuō)明系用以示范與闡明本發(fā)明的精神與原理,并提供對(duì)本發(fā)明的申請(qǐng)專利范圍更進(jìn)一步的解釋。
【附圖說(shuō)明】
[0015]圖1為本發(fā)明的較佳實(shí)施例的步驟流程圖。
[0016]圖2為本發(fā)明的較佳實(shí)施例的數(shù)據(jù)結(jié)構(gòu)示意圖。
[0017]圖3為本發(fā)明的較佳實(shí)施例的局部步驟流程圖。
[0018]圖4為本發(fā)明的較佳實(shí)施例的局部步驟流程圖。
[0019]圖5A、5B、5C為本發(fā)明的較佳實(shí)施例的范例示意圖。
[0020]圖6為本發(fā)明的較佳實(shí)施例的范例示意圖。
[0021]圖7A、7B為本發(fā)明的較佳實(shí)施例的范例示意圖。
[0022]其中,附圖標(biāo)記:
[0023]10第一目標(biāo)區(qū)塊組
[0024]101第一起點(diǎn)標(biāo)簽
[0025]102第二起點(diǎn)標(biāo)簽
[0026]103第三起點(diǎn)標(biāo)簽
[0027]20第一、第二目標(biāo)區(qū)塊組
[0028]201第二起點(diǎn)標(biāo)簽
[0029]202第三起點(diǎn)標(biāo)簽
[0030]30第二目標(biāo)區(qū)塊組
[0031]41 — 43目標(biāo)區(qū)塊組
[0032]421第四起點(diǎn)標(biāo)簽
[0033]431第四起點(diǎn)標(biāo)簽
[0034]51 — 55目標(biāo)區(qū)塊組
【具體實(shí)施方式】
[0035]有關(guān)本發(fā)明的特征與實(shí)施例,以下茲配合附圖與較佳實(shí)施例的詳細(xì)說(shuō)明清楚呈現(xiàn)如下。
[0036]圖1公開(kāi)了本發(fā)明的一種較佳實(shí)施例的步驟流程圖,包括:
[0037]S1:取得一份HTML文件;
[0038]S2:執(zhí)行前置標(biāo)簽處理擷取出一與主要內(nèi)容相關(guān)的HTML文件段落,該HTML文件段落中包含至少一個(gè)目的標(biāo)簽及其所包含的內(nèi)容。
[0039]S3:從該HTML文件段落中搜尋所有的目的標(biāo)簽,并將該些目的標(biāo)簽的字元位置資訊記錄于一數(shù)據(jù)結(jié)構(gòu)中。
[0040]S4:根據(jù)數(shù)據(jù)結(jié)構(gòu)中所記錄的訊息找出該HTML文件段落中第一個(gè)目的標(biāo)簽及最后一個(gè)目的標(biāo)簽的位置;
[0041]S5:將第一個(gè)目的標(biāo)簽設(shè)為第一起點(diǎn)標(biāo)簽并進(jìn)行段落區(qū)隔步驟,直至包覆到最后一個(gè)目的標(biāo)簽為止,藉以區(qū)隔出至少一個(gè)目標(biāo)區(qū)塊組。
[0042]S6:設(shè)定一關(guān)聯(lián)值,將所有目標(biāo)區(qū)塊組依序與目的標(biāo)簽做關(guān)聯(lián)性比對(duì)并記錄其關(guān)聯(lián)值,將關(guān)聯(lián)值達(dá)到設(shè)定條件的目標(biāo)區(qū)塊刪除。
[0043]S7:將剩余的目標(biāo)區(qū)塊組的內(nèi)容輸出成為所需文件。
[0044]其中S1、S2步驟,主要目的是在先刪除HTML文件(指HTML原始碼)中大量不需要的雜訊及用不到的標(biāo)簽,這些不同的標(biāo)簽,有其不同的功用。由于HTML文件的篇幅往往都非常大,但是重要的內(nèi)容只出現(xiàn)在其中一小部分,于是本發(fā)明首先針對(duì)重要的內(nèi)容不可能出現(xiàn)的標(biāo)簽范圍,先將HTML文件的內(nèi)容做大幅度的刪減,以保留下有用的HTML文件段落,此為擷取HTML文件重要內(nèi)容的必要前置動(dòng)作。
[0045]而本發(fā)明主要針對(duì)保留下來(lái)的HTML文件段落,進(jìn)行提取有用內(nèi)容的處理。于S3步驟中,先從該HTML文件段落中搜尋所有的目的標(biāo)簽,所述的目的標(biāo)簽,主要為〈P〉標(biāo)簽及<br>標(biāo)簽,一般而言在HTML文件中真正重要的內(nèi)容,往往都出現(xiàn)在〈P〉標(biāo)簽或<br>標(biāo)簽附近,因此,本發(fā)明先把該HTML文件段落中的所有目的標(biāo)簽的字元位置資訊記錄在一數(shù)據(jù)結(jié)構(gòu)中,數(shù)據(jù)結(jié)構(gòu)的示意圖如圖2所示,這些相關(guān)資訊包括了:每一個(gè)標(biāo)簽及<br>標(biāo)簽的資訊和〈P〉標(biāo)簽及<br>標(biāo)簽在HTML
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1