擷取超文字標(biāo)簽語(yǔ)言文件內(nèi)容的方法

文檔序號(hào)：8445535閱讀：371來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

擷取超文字標(biāo)簽語(yǔ)言文件內(nèi)容的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種網(wǎng)頁(yè)內(nèi)容的萃取方法，特別是有關(guān)于一種可以從超文字標(biāo)簽語(yǔ)言(HyperText Markup Language,HTML)文件中提取包含重要內(nèi)文及其他所需的資訊(例如與重要內(nèi)文相關(guān)的圖片、超連結(jié)等資訊)的方法。
【背景技術(shù)】
[0002]在現(xiàn)有的相關(guān)將HTML文件轉(zhuǎn)換為純文字內(nèi)容的技術(shù)中，都只著重在如何將重要內(nèi)文提取出，其訴求在避免提取出不重要的垃圾內(nèi)容的文字資訊及提高純文字結(jié)果的準(zhǔn)確率，但往往忽略了與重要內(nèi)文相關(guān)的圖片或超連結(jié)等資訊，令使用者在閱讀上，常會(huì)看不到相關(guān)訊息、圖片甚或看不懂內(nèi)文在寫什么。
[0003]在發(fā)明人前所公開(kāi)并已核準(zhǔn)的一種從超文字標(biāo)簽語(yǔ)言(HyperText MarkupLanguage, HTML)文件轉(zhuǎn)換成純文字文件的方法中，公開(kāi)針對(duì)〈P〉、 等目的標(biāo)簽抓取重要內(nèi)文段落，并以一預(yù)設(shè)的句子索引值作為段落區(qū)隔的依據(jù)，將保留的HTML文件段落區(qū)隔為數(shù)個(gè)目標(biāo)區(qū)塊，再進(jìn)一步從這數(shù)個(gè)目標(biāo)區(qū)塊中找出最接近HTML文件標(biāo)題文意的目標(biāo)區(qū)塊將之輸出成為純文字文字，雖可提高提取重要內(nèi)文的準(zhǔn)確性，但在特殊情況下，會(huì)將任何與文件標(biāo)題有關(guān)的段落認(rèn)定為重要而抓取進(jìn)來(lái)，例如重要內(nèi)文之后的讀者回應(yīng)，若讀者回應(yīng)中有提及HTML文件標(biāo)題，則該篇讀者回應(yīng)會(huì)被當(dāng)做重要內(nèi)文的段落而一并提取出來(lái)，而造成內(nèi)容提取錯(cuò)誤，且該方法無(wú)法提取出與重要內(nèi)容相關(guān)的圖片或超連結(jié)等資訊，甚為可
I曰°
[0004]而在另一種已知的解析HTML的樹(shù)狀標(biāo)簽結(jié)構(gòu)的做法中，雖可提取出與重要內(nèi)文相關(guān)的圖片或超連結(jié)等資訊，但該技術(shù)需先將整個(gè)HTML文件全部樹(shù)狀結(jié)構(gòu)化，再?gòu)钠渲腥〉靡恢翑?shù)個(gè)節(jié)點(diǎn)(node)內(nèi)的內(nèi)容為重要內(nèi)文，該做法需在可解析整個(gè)HTML文件的特定環(huán)境下方能執(zhí)行，其處理上既受限且費(fèi)時(shí)，且判斷哪些節(jié)點(diǎn)系為重要內(nèi)文所在，常有失誤，再者若重要內(nèi)文分屬好幾個(gè)段落而落在不同的節(jié)點(diǎn)中的話，非常容易遺露其他節(jié)點(diǎn)中的重要內(nèi)文資訊。

【發(fā)明內(nèi)容】

[0005]為解決上述問(wèn)題，本發(fā)明的主要目的在于提供一種可從超文字標(biāo)簽語(yǔ)言文件(HTML文件)準(zhǔn)確提取包含重要內(nèi)文及所需的資訊(例如與重要內(nèi)文相關(guān)的圖片、超連結(jié)等資訊)，供使用者便于閱讀的一種從超文字標(biāo)簽語(yǔ)言文件(HyperText Markup Language,HTML)提取所需內(nèi)容的方法。
[0006]為達(dá)上述目的，本發(fā)明的方法系先取得一 HTML文件，并執(zhí)行一前置標(biāo)簽處理程序以擷取出一與主要內(nèi)容相關(guān)的HTML文件段落，該HTML文件段落中包含了至少一個(gè)〈P〉標(biāo)簽或 標(biāo)簽所包含的內(nèi)容，所述的〈P〉標(biāo)簽及 標(biāo)簽即為目的標(biāo)簽，再依據(jù)該HTML文件段落進(jìn)行下列步驟:
[0007]A、從該HTML文件段落中搜尋所有的目的標(biāo)簽，并將該些目的標(biāo)簽的字元位置資訊記錄于一數(shù)據(jù)結(jié)構(gòu)中；
[0008]B、根據(jù)該數(shù)據(jù)結(jié)構(gòu)中所記錄的訊息找出該HTML文件段落中第一個(gè)目的標(biāo)簽及最后一個(gè)目的標(biāo)簽的位置；
[0009]C、將該第一個(gè)目的標(biāo)簽設(shè)為一第一起點(diǎn)標(biāo)簽并進(jìn)行段落區(qū)隔步驟，直至包覆到最后一個(gè)目的標(biāo)簽為止，藉以區(qū)隔出至少一個(gè)目標(biāo)區(qū)塊組；
[0010]D、設(shè)定一關(guān)聯(lián)值，將該(些)目標(biāo)區(qū)塊組依序與該目的標(biāo)簽做關(guān)聯(lián)性比對(duì)并記錄其關(guān)聯(lián)值，將關(guān)聯(lián)值達(dá)到設(shè)定條件的該(些)目標(biāo)區(qū)塊組刪除；
[0011]E、將剩余的該(些)目標(biāo)區(qū)塊組的內(nèi)容輸出成為所需文件。
[0012]其中，步驟C中的段落區(qū)隔步驟，系以不超出HTML文件標(biāo)題及包覆到最后一個(gè)目的標(biāo)簽為原則，進(jìn)行連續(xù)的、不同的目標(biāo)區(qū)塊組的擴(kuò)散包覆動(dòng)作，其系以第一個(gè)目的標(biāo)簽做為第一起點(diǎn)標(biāo)簽進(jìn)行擴(kuò)散包覆的動(dòng)作，藉以包覆出一第一目標(biāo)區(qū)塊組，此時(shí)判斷若該第一目標(biāo)區(qū)塊組尚未包覆到最后一個(gè)目的標(biāo)簽且包覆范圍未超出HTML文件標(biāo)題時(shí)，再藉由設(shè)定不同的起點(diǎn)標(biāo)簽，分別進(jìn)行擴(kuò)散包覆的動(dòng)作，使之分別包覆出數(shù)個(gè)不同的目標(biāo)區(qū)塊組，直到最后一個(gè)目的標(biāo)簽被其中之一個(gè)目標(biāo)區(qū)塊組包覆到為止。
[0013]當(dāng)該HTML文件段落中所有的目標(biāo)區(qū)塊組都被包覆出來(lái)之后，而后于步驟D中，通過(guò)設(shè)置一關(guān)聯(lián)值，依序?qū)⒃撔┠繕?biāo)區(qū)塊組與目的標(biāo)簽(〈P〉標(biāo)簽或 標(biāo)簽)做關(guān)聯(lián)性比對(duì)，若該目標(biāo)區(qū)塊組未包含該目的標(biāo)簽，則關(guān)聯(lián)值累加I，并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組，若該目標(biāo)區(qū)塊組包含該目的標(biāo)簽時(shí)，則關(guān)聯(lián)值重設(shè)為0，并繼續(xù)檢查下一個(gè)目標(biāo)區(qū)塊組，其中，在步驟D的詳細(xì)步驟中更設(shè)有一N值(做為距離門檻的判斷)，當(dāng)檢查到的該目標(biāo)區(qū)塊組的關(guān)聯(lián)值達(dá)到該N值時(shí)，即停止檢查下一個(gè)目標(biāo)區(qū)塊組，并將所在的目標(biāo)區(qū)塊組之下的所有目標(biāo)區(qū)塊組刪除，并從所在的該目標(biāo)區(qū)塊組開(kāi)始往上刪除N個(gè)目標(biāo)區(qū)塊組(該些被刪除的目標(biāo)區(qū)塊組皆被視為非重要的目標(biāo)區(qū)塊組而且剔除掉)，最后只將剩余保留的目標(biāo)區(qū)塊組的內(nèi)容輸出，此即可達(dá)到準(zhǔn)確提取HTML文件所需內(nèi)容的目的。
[0014]以上關(guān)于本
【發(fā)明內(nèi)容】
及以下關(guān)于實(shí)施方式的說(shuō)明系用以示范與闡明本發(fā)明的精神與原理，并提供對(duì)本發(fā)明的申請(qǐng)專利范圍更進(jìn)一步的解釋。
【附圖說(shuō)明】
[0015]圖1為本發(fā)明的較佳實(shí)施例的步驟流程圖。
[0016]圖2為本發(fā)明的較佳實(shí)施例的數(shù)據(jù)結(jié)構(gòu)示意圖。
[0017]圖3為本發(fā)明的較佳實(shí)施例的局部步驟流程圖。
[0018]圖4為本發(fā)明的較佳實(shí)施例的局部步驟流程圖。
[0019]圖5A、5B、5C為本發(fā)明的較佳實(shí)施例的范例示意圖。
[0020]圖6為本發(fā)明的較佳實(shí)施例的范例示意圖。
[0021]圖7A、7B為本發(fā)明的較佳實(shí)施例的范例示意圖。
[0022]其中，附圖標(biāo)記:
[0023]10第一目標(biāo)區(qū)塊組
[0024]101第一起點(diǎn)標(biāo)簽
[0025]102第二起點(diǎn)標(biāo)簽
[0026]103第三起點(diǎn)標(biāo)簽
[0027]20第一、第二目標(biāo)區(qū)塊組
[0028]201第二起點(diǎn)標(biāo)簽
[0029]202第三起點(diǎn)標(biāo)簽
[0030]30第二目標(biāo)區(qū)塊組
[0031]41 — 43目標(biāo)區(qū)塊組
[0032]421第四起點(diǎn)標(biāo)簽
[0033]431第四起點(diǎn)標(biāo)簽
[0034]51 — 55目標(biāo)區(qū)塊組
【具體實(shí)施方式】
[0035]有關(guān)本發(fā)明的特征與實(shí)施例，以下茲配合附圖與較佳實(shí)施例的詳細(xì)說(shuō)明清楚呈現(xiàn)如下。
[0036]圖1公開(kāi)了本發(fā)明的一種較佳實(shí)施例的步驟流程圖，包括:
[0037]S1:取得一份HTML文件；
[0038]S2:執(zhí)行前置標(biāo)簽處理擷取出一與主要內(nèi)容相關(guān)的HTML文件段落，該HTML文件段落中包含至少一個(gè)目的標(biāo)簽及其所包含的內(nèi)容。
[0039]S3:從該HTML文件段落中搜尋所有的目的標(biāo)簽，并將該些目的標(biāo)簽的字元位置資訊記錄于一數(shù)據(jù)結(jié)構(gòu)中。
[0040]S4:根據(jù)數(shù)據(jù)結(jié)構(gòu)中所記錄的訊息找出該HTML文件段落中第一個(gè)目的標(biāo)簽及最后一個(gè)目的標(biāo)簽的位置；
[0041]S5:將第一個(gè)目的標(biāo)簽設(shè)為第一起點(diǎn)標(biāo)簽并進(jìn)行段落區(qū)隔步驟，直至包覆到最后一個(gè)目的標(biāo)簽為止，藉以區(qū)隔出至少一個(gè)目標(biāo)區(qū)塊組。
[0042]S6:設(shè)定一關(guān)聯(lián)值，將所有目標(biāo)區(qū)塊組依序與目的標(biāo)簽做關(guān)聯(lián)性比對(duì)并記錄其關(guān)聯(lián)值，將關(guān)聯(lián)值達(dá)到設(shè)定條件的目標(biāo)區(qū)塊刪除。
[0043]S7:將剩余的目標(biāo)區(qū)塊組的內(nèi)容輸出成為所需文件。
[0044]其中S1、S2步驟，主要目的是在先刪除HTML文件(指HTML原始碼)中大量不需要的雜訊及用不到的標(biāo)簽，這些不同的標(biāo)簽，有其不同的功用。由于HTML文件的篇幅往往都非常大，但是重要的內(nèi)容只出現(xiàn)在其中一小部分，于是本發(fā)明首先針對(duì)重要的內(nèi)容不可能出現(xiàn)的標(biāo)簽范圍，先將HTML文件的內(nèi)容做大幅度的刪減，以保留下有用的HTML文件段落，此為擷取HTML文件重要內(nèi)容的必要前置動(dòng)作。
[0045]而本發(fā)明主要針對(duì)保留下來(lái)的HTML文件段落，進(jìn)行提取有用內(nèi)容的處理。于S3步驟中，先從該HTML文件段落中搜尋所有的目的標(biāo)簽，所述的目的標(biāo)簽，主要為〈P〉標(biāo)簽及 標(biāo)簽，一般而言在HTML文件中真正重要的內(nèi)容，往往都出現(xiàn)在〈P〉標(biāo)簽或 標(biāo)簽附近，因此，本發(fā)明先把該HTML文件段落中的所有目的標(biāo)簽的字元位置資訊記錄在一數(shù)據(jù)結(jié)構(gòu)中，數(shù)據(jù)結(jié)構(gòu)的示意圖如圖2所示,這些相關(guān)資訊包括了:每一個(gè)標(biāo)簽及 標(biāo)簽的資訊和〈P〉標(biāo)簽及 標(biāo)簽在HTML

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡弘揚(yáng);洪啟豪;谷鴻祥;
技術(shù)所有人：易搜比控股公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

易語(yǔ)言透明標(biāo)簽相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

擷取超文字標(biāo)簽語(yǔ)言文件內(nèi)容的方法