一種互聯(lián)網(wǎng)主題信息采集方法及裝置的制作方法

文檔序號(hào)：6576660閱讀：311來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種互聯(lián)網(wǎng)主題信息采集方法及裝置的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及一種互聯(lián)網(wǎng)信息的處理技術(shù)，尤其涉及一種互聯(lián)網(wǎng)主題信息采集方法和裝置。
背景技術(shù)：
：瀏覽Web上的網(wǎng)頁(yè)信息，會(huì)發(fā)現(xiàn)它們通常包含兩部分內(nèi)容，一部分內(nèi)容體現(xiàn)的是網(wǎng)頁(yè)的主題信息，比如一張新聞網(wǎng)頁(yè)中的新聞信息部分，我們稱之為"主題"信息；另一部分則是與主題內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問巻等內(nèi)容，稱之為"噪音"信息。噪音信息通常分布在主題信息周圍，有時(shí)也夾雜在主題內(nèi)容中間，但它們并無內(nèi)容相關(guān)性。噪音信息通常是以鏈接導(dǎo)航文字(anchortext)的形式出現(xiàn)，因此，噪音信息會(huì)導(dǎo)致相互鏈接的網(wǎng)頁(yè)常常也無內(nèi)容相關(guān)性。這樣，網(wǎng)頁(yè)中的噪音內(nèi)容不僅給Web上基于網(wǎng)頁(yè)內(nèi)容的應(yīng)用系統(tǒng)帶來困難，也給基于網(wǎng)頁(yè)超鏈指向的應(yīng)用系統(tǒng)帶來困難?？焖贉?zhǔn)確的識(shí)別并清除網(wǎng)頁(yè)內(nèi)的噪音內(nèi)容后，可以采集網(wǎng)頁(yè)的主題內(nèi)容為進(jìn)行后續(xù)的處理或者開發(fā)?，F(xiàn)有技術(shù)一中，提出了一個(gè)去除互聯(lián)網(wǎng)網(wǎng)頁(yè)中噪音信息，采集主題信息的方法，該方法首先依據(jù)〈table〉標(biāo)簽構(gòu)造網(wǎng)頁(yè)的標(biāo)簽樹，進(jìn)而依據(jù)〈table〉標(biāo)簽將一張網(wǎng)頁(yè)規(guī)劃為相互嵌套的內(nèi)容塊；而后，對(duì)于使用同一個(gè)模板作出的網(wǎng)頁(yè)集，找出在該網(wǎng)頁(yè)集中多次出現(xiàn)的內(nèi)容，作為冗余內(nèi)容，而在該網(wǎng)頁(yè)集中共同出現(xiàn)較少的內(nèi)容塊就是有效信息塊。實(shí)驗(yàn)證明該方法是有效的，但該方法必須局限在基于同一個(gè)模板的網(wǎng)頁(yè)集，而Web上的網(wǎng)頁(yè)模板不計(jì)其數(shù)，因此該方法顯然不夠通用。HTML(HyperTextMark—upLanguage,超文本標(biāo)記i吾言)是——禾中標(biāo)識(shí)語(yǔ)言(MarkupLanguage)，其中定義了一套標(biāo)簽來刻畫網(wǎng)頁(yè)顯示時(shí)的頁(yè)面布局。因此，對(duì)于HTML網(wǎng)頁(yè)最常用的結(jié)構(gòu)表示方法是構(gòu)造網(wǎng)頁(yè)的標(biāo)簽樹?，F(xiàn)有的標(biāo)簽樹構(gòu)造工具很多，DOM(DocumentObjectModel,文檔對(duì)象模型)是一個(gè)常用標(biāo)簽樹構(gòu)造工具，它可以將網(wǎng)頁(yè)中的標(biāo)簽按照嵌套關(guān)系整理成一棵樹狀結(jié)構(gòu)。要實(shí)現(xiàn)網(wǎng)頁(yè)凈化冰采集有用的主題信息，首先根據(jù)HTML代碼，生成DOM樹，然后分析樹元素，提取主題信息。DOM全稱是文檔對(duì)象模型(DocumentObjectModel，D0M)，它根據(jù)文檔中標(biāo)記之間的嵌套關(guān)系，將文檔表示為一個(gè)樹形結(jié)構(gòu)，文檔中的元素、屬性、以分析的字符數(shù)據(jù)、注釋以及處理指令等都是節(jié)點(diǎn)?，F(xiàn)有技術(shù)二實(shí)施步驟如下1、將不夠規(guī)范的HTML文檔整理成格式良好的XHTML文檔；2、將XHTML文檔解析成一個(gè)樹模型——DOM樹；3、然后圍繞DOM樹進(jìn)行信息的提取；4、利用歸納學(xué)習(xí)用戶提供的樣本網(wǎng)頁(yè)的結(jié)構(gòu)，就可以根據(jù)D0M中的節(jié)點(diǎn)，生成一個(gè)XML文檔，這個(gè)XML文檔中只保留用戶感興趣的信息的節(jié)點(diǎn)，從而完成信息提取。發(fā)明人在實(shí)施本發(fā)明的過程中，發(fā)現(xiàn)現(xiàn)有技術(shù)二至少具有如下缺點(diǎn)DOM樹相對(duì)比較復(fù)雜，分析效率比較低，速度慢；并且DOM樹種類繁多，若要獲取正確的主題信息，存在較大的差異和難度。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于，針對(duì)上述現(xiàn)有技術(shù)的不足，本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法及裝置，不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板，而提供一種通用的方法，準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)，以獲取主題信息。本發(fā)明實(shí)施例提供的一種互聯(lián)網(wǎng)主題信息采集方法，包括獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼；以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表；逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。本發(fā)明實(shí)施例還提供了一種互聯(lián)網(wǎng)主題信息采集裝置，包括源代碼獲取模塊，用于獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼；字符串形成模塊，用于以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表；第一字符串分析模塊，用于逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。實(shí)施本發(fā)明提供的互聯(lián)網(wǎng)主題信息采集方法和裝置，通過以div標(biāo)簽將HTML源代碼劃分成多個(gè)字符串，再對(duì)多個(gè)字符串進(jìn)行分析，從而獲取主題信息，可以處理互聯(lián)網(wǎng)上不同網(wǎng)頁(yè)模板的網(wǎng)頁(yè)信息，并提高主題信息采集的準(zhǔn)確性。為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明中互聯(lián)網(wǎng)主題信息采集方法實(shí)施例一的流程示意圖圖2是本發(fā)明中互聯(lián)網(wǎng)主題信息采集方法實(shí)施例二的流程示意圖圖3是本發(fā)明中互聯(lián)網(wǎng)主題信息采集方法實(shí)施例三的流程示意圖圖4是本發(fā)明中互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例一的流程示意圖圖5是本發(fā)明中互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例二的流程示意圖圖6是本發(fā)明中互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例三的流程示意圖，具體實(shí)施例方式本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法及裝置，不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板，而提供一種通用的方法，準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)，以獲取主題信息。參見圖l，為本發(fā)明實(shí)施例提供的互聯(lián)網(wǎng)主題信息采集方法的實(shí)施例一的流程示意圖。本發(fā)明實(shí)施例提供的互聯(lián)網(wǎng)主題信息采集方法，包括步驟100，獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼；需要說明的是，HTML是超文本語(yǔ)言的簡(jiǎn)稱，一般用于編寫網(wǎng)頁(yè)，通過查看網(wǎng)絡(luò)上網(wǎng)頁(yè)的HTML源代碼，可以了解這個(gè)網(wǎng)頁(yè)的結(jié)構(gòu)以及一些圖片或者視頻的絕對(duì)地址。步驟101，以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表(按照我司以往接到的審查意見通知書，此處最好和發(fā)明人再溝通下，給字符串的具體書寫格式)；需要說明的是，HTML標(biāo)簽通常是英文詞匯的全稱(如塊引用blockquote)或縮略語(yǔ)(如"P"代表Paragraph)，但它們的與一般文本有區(qū)別，因?yàn)樗鼈兎旁趩螘?hào)里。故Paragragh標(biāo)簽是〈p〉，塊引用標(biāo)簽是〈blockquote〉。有些HTML標(biāo)簽說明頁(yè)面如何被格式化(例如，開始一個(gè)新段落)，其他則說明這些詞如何顯示(〈b〉使文字變粗)還有一些其他標(biāo)簽提供在頁(yè)面上不顯示的信息，例如標(biāo)題。HTML標(biāo)簽是成雙出現(xiàn)的。每當(dāng)使用一個(gè)標(biāo)簽，如〈blockquote〉，則必須以另一個(gè)標(biāo)簽〈/blockquote〉將它關(guān)閉。blockquote前的斜杠，就是關(guān)閉標(biāo)簽與打開標(biāo)簽的區(qū)別。但是也有一些標(biāo)簽例外。比如，〈i即ut〉標(biāo)簽就不需要?！愕?，HTML源代碼以DOCTYPE開始，它聲明文檔的類型，且它之前不能有任何內(nèi)容(包括換行符和空格)，否則將使文檔聲明無效，接著是〈html〉標(biāo)簽，以〈/html>標(biāo)簽結(jié)束。〈html〉標(biāo)簽和〈/html〉標(biāo)簽也是HTML標(biāo)簽中的一種，在它們之間，整個(gè)頁(yè)面有兩部分，標(biāo)題和正文。其中，標(biāo)題詞夾在〈head〉標(biāo)簽和〈/head〉標(biāo)簽之間，這個(gè)詞語(yǔ)在打開頁(yè)面時(shí)出現(xiàn)在屏幕底部最小化的窗口。正文則夾在〈body〉標(biāo)簽和〈/body〉標(biāo)簽之間，即所有頁(yè)面的內(nèi)容所在。頁(yè)面上顯示的任何東西都包含在這兩個(gè)標(biāo)簽之中。div標(biāo)簽是HTML標(biāo)簽中的一種，是用來為HTML源代碼內(nèi)大塊(block-level)的內(nèi)容提供結(jié)構(gòu)和背景的元素。div標(biāo)簽包括起始標(biāo)簽〈div〉和結(jié)束標(biāo)簽〈/div〉，這兩個(gè)標(biāo)簽之間的所有內(nèi)容都是用來構(gòu)成這個(gè)塊的，其中所包含元素的特性由div標(biāo)簽的屬性來控制，或者是通過使用樣式表格式化這個(gè)塊來進(jìn)行控制。div標(biāo)簽稱為區(qū)隔標(biāo)記，其作用是設(shè)定字、畫、表格等的擺放位置。當(dāng)把文字，圖像，或其他的放在div標(biāo)簽中，它可稱作為"DIVblock",或"DIVelement"或"CSS-layer"，或叫"layer"即"層次"。因?yàn)槿魏我环N模板的網(wǎng)頁(yè)的HTML源代碼中都有div標(biāo)簽，以div標(biāo)簽來將HTML源代碼劃分成字符串，不需要考慮該網(wǎng)頁(yè)是何種類型的模板，所以具有通用性；例如，下面這段HTML模擬了新聞網(wǎng)站的結(jié)構(gòu)。其中的每個(gè)div標(biāo)簽把每條新聞的標(biāo)題和摘要組合在一起?！碽ody〉〈hl〉NEWSWEBSITE〈/h1>〈divclass=〃news">〈h2>Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈divclass=〃news">〈h2>Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈/body>本實(shí)施例中，以div標(biāo)簽為標(biāo)志標(biāo)簽，即以〈div〉和〈/div>為界，將每一組〈div>和〈/div>中包含的字符串單獨(dú)提取出來，例如，將上述HTML源代碼中的第一組〈div〉和〈/div〉之間的字符串提取出來作為第一個(gè)字符串，艮卩第一個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>...〈/div>然后，再將上述HTML源代碼中的第二組〈div〉和〈/div>之間的字符串提取出來作為第二個(gè)字符串，即第二個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>...〈/div>以此類推，將所有〈div〉和〈/div>之間的字符串以此提取，形成字符串列表。步驟102，逐一分析字符串列表中的每個(gè)字符串，以分析出主題信息；具體的，逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。因此，針對(duì)以div標(biāo)簽劃分的字符串，通過比較上述各種HTML標(biāo)簽之外的字符和HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，若HTML標(biāo)簽外的字符個(gè)數(shù)大于HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，并且還大于預(yù)定的基數(shù)值，則可以判定該字符串內(nèi)的內(nèi)容獲取主題信息。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法，不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板，而提供一種通用的方法，以div標(biāo)簽將HTML源代碼劃分成不同的字符串，并對(duì)每個(gè)字符串進(jìn)行分析處理，從而可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)，以獲取主題信息。參見圖2，為本發(fā)明中提供的一種互聯(lián)網(wǎng)主題信息采集方法實(shí)施例二的流程示意圖。首先需要說明的是，本發(fā)明實(shí)施例提供的方法，既可以用于采集新聞主題信息，也可以用于采集日志主題信息；根據(jù)需要采集的主題信息是新聞信息還是日志主題信息的不同，在分析字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)是否大于某一個(gè)基數(shù)值時(shí)，可以將該基數(shù)值設(shè)置為不同。步驟200，下載可擴(kuò)展標(biāo)記語(yǔ)言(XML，ExtensibleMarkupLanguage)頁(yè)面，提取列表信息；具體的，若是需要采集新聞主題信息，則下載XML頁(yè)面，從中提取新聞列表信息；若采集日志主題信息，則從下載的XML頁(yè)面中提取日志列表信息；步驟201，下載所述列表信息中的統(tǒng)一資源定位符URL，用以獲取主題信息所在網(wǎng)頁(yè)的HTML源代碼。具體的，可以獲取新聞主題信息所在頁(yè)面的HTML源代碼，或者獲取日志主題信息所在網(wǎng)頁(yè)的HTML的源代碼。步驟202，過濾所述HTML源代碼中與主題信息無關(guān)的html標(biāo)簽(即，〈html〉標(biāo)簽禾口〈/html>標(biāo)簽)。具體的，過濾掉HTML源代碼中與新聞主題信息或者日志主題新日無關(guān)的HTML標(biāo)簽，例如script標(biāo)簽、style標(biāo)簽、object標(biāo)簽、iframe標(biāo)簽、form標(biāo)簽；步驟203，獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的HTML源代碼；本實(shí)施例中，因?yàn)樵揌TML源代碼已經(jīng)過濾掉與新聞主題信息或者日志主題信息無關(guān)的HTML標(biāo)簽，因此比上一實(shí)施例，為分析字符串提高了效率，為提高采集主題信息的準(zhǔn)確性奠定了基礎(chǔ)。步驟204，以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表。例如，下面這段HTML模擬了新聞網(wǎng)站的結(jié)構(gòu)。其中的每個(gè)div標(biāo)簽把每條新聞的標(biāo)題和摘要組合在一起?！碽ody〉〈hl〉NEWSWEBSITE〈/hl>...〈divclass=〃news">〈h2>Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>...〈/div>〈divclass=〃news">〈h2〉Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>…〈/div>…〈/body>本實(shí)施例中，以div標(biāo)簽為標(biāo)志標(biāo)簽，即以〈div〉和〈/div>為界，將每一組〈div〉和〈/div〉中包含的字符串單獨(dú)提取出來，例如，將上述HTML源代碼中的第一組〈div〉和〈/div〉之間的字符串提取出來作為第一個(gè)字符串，艮卩第一個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadlinel〈/h2>〈p>sometext,sometext,sometext….〈/p>…〈/div>然后，再將上述HTML源代碼中的第二組〈div〉和〈/div〉之間的字符串提取出來作為第二個(gè)字符串，即第二個(gè)字符串為〈divclass=〃news">〈h2>Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>以此類推，將所有〈div〉和〈/div>之間的字符串以此提取，形成字符串列表。步驟205，逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。需要說明的是，若要采集主題信息為新聞主題信息，則將所述基數(shù)設(shè)置為50，小于這個(gè)值的，一般都不是新聞主題信息；為了在實(shí)施例一的基礎(chǔ)上進(jìn)一步提高采集主題信息的準(zhǔn)確性，本實(shí)施例二中，還包括步驟206，獲取所述字符串列表中，HTML標(biāo)簽外字符數(shù)最大的字符串；步驟207，分析所述字符串列表中，所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串；具體地，若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。步驟208，分析前字符串和/或所述后字符串，以獲得結(jié)果字符串；具體地，若所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串；步驟209，對(duì)所述結(jié)果字符串進(jìn)行處理，以采集主題信息。最后，步驟210，將所述經(jīng)過步驟209處理的字符串中包含的主題信息以及該字符串進(jìn)行保存，以供二次開發(fā)使用。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法，不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板，提供一種通用的方法，首先以div標(biāo)簽將HTML源代碼劃分成不同的字符串，并對(duì)每個(gè)字符串進(jìn)行分析處理，可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)，并且還對(duì)經(jīng)過分析的字符串進(jìn)行二次分析，進(jìn)一步提高分析互聯(lián)網(wǎng)上網(wǎng)頁(yè)的準(zhǔn)確性，從而快速準(zhǔn)確的采集到主題信息。參見圖3，為本發(fā)明中一種互聯(lián)網(wǎng)主題信息采集方法實(shí)施例三的流程示意圖。本實(shí)施例中將詳細(xì)描述實(shí)施例二中的步驟209，其具體包括步驟300，將結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較，過濾與待采集的主題信息無關(guān)的字符；所述過濾關(guān)鍵字是預(yù)定的，具體為非法關(guān)鍵字或者廣告關(guān)鍵字，導(dǎo)航條關(guān)鍵字，問巻調(diào)查關(guān)鍵字等等與主題信息無關(guān)的噪音信息；步驟301，提取所述過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽，下載圖片資源并進(jìn)行保存；同時(shí)還可以獲取圖片寬度和高度；步驟302，將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑；步驟303，保留所述結(jié)果字符串中的段落p標(biāo)簽和圖片image標(biāo)簽，刪除所述結(jié)果字符串中的其他標(biāo)簽。最后，將所述經(jīng)過300步驟303處理的字符串中包含的主題信息以及該字符串進(jìn)行保存，以供二次開發(fā)使用。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法，在結(jié)合實(shí)施例一和實(shí)施例二準(zhǔn)確快速采集主題信息的基礎(chǔ)上，對(duì)采集的主題信息進(jìn)一步凈化處理，并保留了新聞或者日志原有的格式，還可以保留原有網(wǎng)頁(yè)中的圖片，因此可以更好的為二次開發(fā)所使用。參見圖4，為本發(fā)明中一種互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例一的結(jié)構(gòu)示意圖。本實(shí)施例的互聯(lián)網(wǎng)主題信息采集裝置，包括源代碼獲取模塊10、字符串形成模塊11以及第一字符串分析模塊12，它們的功能和作用如下源代碼獲取模塊IO，用于獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的HTML源代碼；具體實(shí)施的時(shí)候，該源代碼獲取模塊IO用于執(zhí)行前述互聯(lián)網(wǎng)主題信息采集方法實(shí)施例一(后簡(jiǎn)稱方法實(shí)施例一)中的步驟100;字符串形成模塊ll，用于以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表；需要說明的是，HTML標(biāo)簽通常是英文詞匯的全稱(如塊引用blockquote)或縮略語(yǔ)(如"P"代表Paragraph)，但它們的與一般文本有區(qū)別，因?yàn)樗鼈兎旁趩螘?hào)里。故Paragragh標(biāo)簽是〈p〉，塊引用標(biāo)簽是〈blockquote〉。有些HTML標(biāo)簽說明頁(yè)面如何被格式化(例如，開始一個(gè)新段落)，其他則說明這些詞如何顯示(〈b〉使文字變粗)還有一些其他標(biāo)簽提供在頁(yè)面上不顯示的信息，例如標(biāo)題。HTML標(biāo)簽是成雙出現(xiàn)的。每當(dāng)使用一個(gè)標(biāo)簽，如〈blockquote〉，則必須以另一個(gè)標(biāo)簽〈/blockquote〉將它關(guān)閉。blockquote前的斜杠，就是關(guān)閉標(biāo)簽與打開標(biāo)簽的區(qū)別。但是也有一些標(biāo)簽例外。比如，〈input〉標(biāo)簽就不需要。—般地，HTML源代碼以D0CTYPE開始，它聲明文檔的類型，且它之前不能有任何內(nèi)容(包括換行符和空格)，否則將使文檔聲明無效，接著是〈html〉標(biāo)簽，以〈/html>標(biāo)簽結(jié)束。〈html〉標(biāo)簽和〈/html〉標(biāo)簽也是HTML標(biāo)簽中的一種，在它們之間，整個(gè)頁(yè)面有兩部分，標(biāo)題和正文。其中，標(biāo)題詞夾在〈head〉標(biāo)簽和〈/head〉標(biāo)簽之間，這個(gè)詞語(yǔ)在打開頁(yè)面時(shí)出現(xiàn)在屏幕底部最小化的窗口。正文則夾在〈body〉標(biāo)簽和〈/body〉標(biāo)簽之間，即所有頁(yè)面的內(nèi)容所在。頁(yè)面上顯示的任何東西都包含在這兩個(gè)標(biāo)簽之中。div標(biāo)簽是HTML標(biāo)簽中的一種，是用來為HTML源代碼內(nèi)大塊(block-level)的內(nèi)容提供結(jié)構(gòu)和背景的元素。div標(biāo)簽包括起始標(biāo)簽〈div〉和結(jié)束標(biāo)簽〈/div〉，這兩個(gè)標(biāo)簽之間的所有內(nèi)容都是用來構(gòu)成這個(gè)塊的。div標(biāo)簽稱為區(qū)隔標(biāo)記，其作用是設(shè)定字、畫、表格等的擺放位置。因?yàn)槿魏我环N模板的網(wǎng)頁(yè)的HTML源代碼中都有div標(biāo)簽。本實(shí)施例中的字符串形成模塊11在具體實(shí)施的時(shí)候，用于執(zhí)行前述方法實(shí)施例一中的步驟101，即以div標(biāo)簽來將HTML源代碼劃分成字符串，不需要考慮該網(wǎng)頁(yè)是何種類型的模板，從而將HTML源代碼分成不同的字符串，形成字符串列表，具有通用性；例如，下面這段HTML模擬了新聞網(wǎng)站的結(jié)構(gòu)。其中的每個(gè)div標(biāo)簽把每條新聞的標(biāo)題和摘要組合在一起。0153]〈body〉0154]〈hl〉NEWSWEBSITE〈/hl>0155]0156]0157]0158]0159]0160]0161]0162]0163]0164]0165]0166]0167]0168]0169]〈p>sometext,sometext,sometext.…〈/p>〈divclass=〃news">〈h2>Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈divclass=〃news">〈h2>Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈/body>本實(shí)施例中，以div標(biāo)簽為標(biāo)志標(biāo)簽，即以〈div〉和〈/div>為界，將每一組〈div>和〈/div〉中包含的字符串單獨(dú)提取出來，例如，將上述HTML源代碼中的第一組div〉之間的字符串提取出來作為第一個(gè)字符串，艮卩0170]第一個(gè)字符串為0171]〈divclass=〃news">0172]〈h2〉Newsheadlinel〈/h2>0173]〈p>sometext,sometext,sometext….〈/p>.〈/div>然后，再將上述HTML源代碼中的第二組〈div〉和〈/div>之間的字符串提取出來作為第二個(gè)字符串，即第二個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>…〈/div>以此類推，將所有〈div〉和〈/div>之間的字符串以此提取，形成字符串列表。第一字符串分析模塊12，用于逐一分析所述字符串形成模塊10中形成的字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。具體地，針對(duì)以div標(biāo)簽劃分的字符串，通過由第一字符串分析模塊12比較前述方法實(shí)施例一中的各種HTML標(biāo)簽之外的字符和HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，若HTML標(biāo)簽外的字符個(gè)數(shù)大于HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，并且還大于預(yù)定的基數(shù)值，則可以判定該字符串內(nèi)的內(nèi)容獲取主題信息。在具體實(shí)施的時(shí)候，該第一字符串分析模塊12用于執(zhí)行前述方法實(shí)施例一中的步驟102。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集裝置，不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板，而提供一種通用的方式，以div標(biāo)簽將HTML源代碼劃分成不同的字符串，并對(duì)每個(gè)字符串進(jìn)行分析處理，從而可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)，以獲取主題信息。參見圖5，為本發(fā)明中提供的一種互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例二的結(jié)構(gòu)示意圖。首先需要說明的是，本發(fā)明實(shí)施例提供的裝置，既可以用于采集新聞主題信息，也可以用于采集日志主題信息。本實(shí)施例提供的裝置，除了包括前述互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例一(以下簡(jiǎn)稱裝置實(shí)施例一)中的源代碼獲取模塊10、字符串形成模塊11以及第一字符串分析模塊12以外，還包括基數(shù)設(shè)定模塊13，信息下載模塊14，信息過濾模塊15以及第二字符串分析模塊16，字符串處理模塊17，信息采集模塊18，它們的功能和作用如下基數(shù)設(shè)定模塊13，用于根據(jù)待采集的主題信息是新聞主題信息或日志主題信息，將所述基數(shù)的值設(shè)定為不同的值；具體的，根據(jù)需要采集的主題信息是新聞信息還是主題信息的不同，在分析字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)是否大于某一個(gè)基數(shù)值時(shí)，基數(shù)設(shè)定模塊13可以將該基數(shù)值設(shè)置為不同。實(shí)施例二中的裝置還包括信息下載模塊14，用于下載可擴(kuò)展標(biāo)記語(yǔ)言XML頁(yè)面，提取列表信息；并下載所述列表信息中的統(tǒng)一資源定位符URL，并發(fā)送給所述源代碼獲取模塊10進(jìn)行處理。具體的，若是需要采集新聞主題信息，信息下載模塊14則下載XML頁(yè)面，從中提取新聞列表信息；若采集日志主題信息，信息下載模塊14則從下載的XML頁(yè)面中提取日志列表信息；并下載所述列表信息中的統(tǒng)一資源定位符URL;在具體實(shí)施例的時(shí)候，該信息下載模塊14用于執(zhí)行前述方法實(shí)施例二中的步驟200以及步驟201;此后，所述源代碼獲取模塊10從所述列表信息和URL中獲取HTML源代碼；信息過濾模塊15，用于過濾所述源代碼獲取模塊10中獲取到的HTML源代碼中與主題信息無關(guān)的HTML標(biāo)簽。具體的，信息過濾模塊15用于過濾掉如script標(biāo)簽、style標(biāo)簽、object標(biāo)簽、iframe標(biāo)簽、form標(biāo)簽等與主題信息無關(guān)的HTML標(biāo)簽；在具體實(shí)施時(shí)候，信息過濾模塊15用于執(zhí)行前述方法實(shí)施例二中的步驟202;此后，由前述的字符串形成模塊11以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表；再由前述的第一字符串分析模塊12逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息；為了在裝置實(shí)施例一的基礎(chǔ)上進(jìn)一步提高采集主題信息的準(zhǔn)確性，本實(shí)施例二中的裝置，還包括第二字符串分析模塊16，用于獲取經(jīng)由所述第一字符串分析模塊12分析后，所述字符串列表中HTML標(biāo)簽外字符數(shù)最大的字符串；并分析所述字符串列表中，所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串；若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。具體實(shí)施的時(shí)候，第二字符串分析模塊16執(zhí)行前述方法實(shí)施例二中的步驟206步驟207;本實(shí)施例二中的裝置，還包括字符串處理模塊17，用于在所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串；并對(duì)所述結(jié)果字符串進(jìn)行處理，以采集主題信息。具體實(shí)施例的時(shí)候，該字符串處理模塊17執(zhí)行前述方法實(shí)施例二中的步驟208步驟209;本實(shí)施例二中的裝置還包括信息采集模塊18，用于將所述經(jīng)過字符串處理模塊17處理的所述結(jié)果字符串和該結(jié)果字符串中包含的主題信息進(jìn)行保存，以供用戶二次開發(fā)使用。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集裝置，不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板，提供一種通用的方法，首先以div標(biāo)簽將HTML源代碼劃分成不同的字符串，并對(duì)每個(gè)字符串進(jìn)行分析處理，可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)，并且還對(duì)經(jīng)過分析的字符串進(jìn)行二次分析，進(jìn)一步提高分析互聯(lián)網(wǎng)上網(wǎng)頁(yè)的準(zhǔn)確性，從而快速準(zhǔn)確的采集到主題信息。參見圖6，為本發(fā)明中一種互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例三的結(jié)構(gòu)示意圖。本實(shí)施例中，將詳細(xì)描述前述裝置實(shí)施例二中的字符串處理模塊17;所述字符串處理模塊17，具體包括字符過濾單元170、圖片下載單元171、路徑替換單元172、標(biāo)簽處理單元173，它們的功能和作用如下字符過濾單元170，用于將結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較，過濾與主題信息無關(guān)的字符；具體的，所述過濾關(guān)鍵字是預(yù)定的，具體為非法關(guān)鍵字或者廣告關(guān)鍵字，導(dǎo)航條關(guān)鍵字，問巻調(diào)查關(guān)鍵字等等與主題信息無關(guān)的噪音信息；在具體實(shí)施的時(shí)候，該字符過濾單元170用于執(zhí)行前述方法實(shí)施例三中的步驟300;圖片下載單元171，用于提取所述經(jīng)過字符過濾單元170過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽，下載圖片資源并進(jìn)行保存；同時(shí)還可以獲取圖片寬度和高度；路徑替換單元172，用于將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑；標(biāo)簽處理單元173，用于保留所述結(jié)果字符串中的段落p標(biāo)簽和圖片image標(biāo)簽，刪除所述結(jié)果字符串中的其他標(biāo)簽。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集裝置，在結(jié)合裝置實(shí)施例一和裝置實(shí)施例二準(zhǔn)確快速采集主題信息的基礎(chǔ)上，對(duì)采集的主題信息進(jìn)一步凈化處理，并保留了新聞或者日志原有的格式，還可以保留原有網(wǎng)頁(yè)中的圖片，因此可以更好的為二次開發(fā)所使用。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-OnlyMemory,ROM)或隨機(jī)存儲(chǔ)記憶體(RandomAccessMemory,廳)等。以上所述是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本
技術(shù)領(lǐng)域：
的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。權(quán)利要求一種互聯(lián)網(wǎng)主題信息采集方法，其特征在于，包括獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼；以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表(說明書中請(qǐng)補(bǔ)充字符串的具體書寫格式，否則，審查員很可能以公開不充分發(fā)出審查意見通知書)；逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。2.如權(quán)利要求1所述的方法，其特征在于，所述主題信息為新聞主題信息或日志主題信息。3.如權(quán)利要求2所述的方法，其特征在于，當(dāng)待采集的主題信息是新聞主題信息或日志主題信息時(shí)，所述基數(shù)的值設(shè)定為不同。4.如權(quán)利要求3所述的方法，其特征在于，當(dāng)所述主題信息為新聞主題信息時(shí)，在獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼步驟之前，包括下載可擴(kuò)展標(biāo)記語(yǔ)言XML頁(yè)面，提取列表信息；下載所述列表信息中的統(tǒng)一資源定位符URL，用以獲取主題信息所在網(wǎng)頁(yè)的HTML源代碼。5.如權(quán)利要求4所述的方法，其特征在于，所述獲取HTML源代碼之后，包括過濾所述HTML源代碼中與主題信息無關(guān)的HTML標(biāo)簽。6.如權(quán)利要求1-5中任一項(xiàng)所述的方法，其特征在于，所述將該字符串包含的內(nèi)容作為主題信息之后，還包括獲取所述字符串列表中，HTML標(biāo)簽外字符數(shù)最大的字符串；分析所述字符串列表中，所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串；若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。7.如權(quán)利要求6所述的方法，其特征在于，將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息之后，包括若所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串；對(duì)所述結(jié)果字符串進(jìn)行處理，采集主題信息。8.如權(quán)利要求7所述的方法，其特征在于，所述對(duì)結(jié)果字符串進(jìn)行處理，具體包括將所述結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較，過濾與待采集的主題信息無關(guān)的字符；提取所述過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽，下載圖片資源并進(jìn)行保存；將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑；保留所述結(jié)果字符串中的段落P標(biāo)簽和圖片image標(biāo)簽，刪除所述結(jié)果字符串中的其他標(biāo)簽。9.如權(quán)利要求8所述的方法，其特征在于，將所述經(jīng)過處理的所述結(jié)果字符串和該結(jié)果字符串中包含的主題信息進(jìn)行保存，以供二次開發(fā)使用。10.—種互聯(lián)網(wǎng)主題信息采集裝置，其特征在于，包括源代碼獲取模塊，用于獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼；字符串形成模塊，用于以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表；第一字符串分析模塊，用于逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。11.如權(quán)利要求io所述的裝置，其特征在于，所述主題信息為新聞主題信息或日志主題信息。12.如權(quán)利要求11所述的裝置，其特征在于，所述裝置還包括基數(shù)設(shè)定模塊，用于根據(jù)待采集的主題信息是新聞主題信息或日志主題信息，將所述基數(shù)的值設(shè)定為不同的值。13.如權(quán)利要求12所述的裝置，其特征在于，所述裝置還包括信息下載模塊，用于下載可擴(kuò)展標(biāo)記語(yǔ)言XML頁(yè)面，提取列表信息；并下載所述列表信息中的統(tǒng)一資源定位符URL，并發(fā)送給所述源代碼獲取模塊進(jìn)行處理。14.如權(quán)利要求13所述的裝置，其特征在于，所述裝置還包括信息過濾模塊，用于過濾所述源代碼獲取模塊中獲取到的HTML源代碼中與主題信息無關(guān)的HTML標(biāo)簽。15.如權(quán)利要求10-14中任一項(xiàng)所述的裝置，其特征在于，所述裝置還包括第二字符串分析模塊，用于獲取經(jīng)由所述第一字符串分析模塊分析后，所述字符串列表中HTML標(biāo)簽外字符數(shù)最大的字符串；并分析所述字符串列表中，所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串；若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。16.如權(quán)利要求15所述的裝置，其特征在于，所述裝置還包括字符串處理模塊，用于在所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí)，將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串；并對(duì)所述結(jié)果字符串進(jìn)行處理，以采集主題信息。17.如權(quán)利要求16所述的裝置，其特征在于，所述字符串處理模塊，具體包括字符過濾單元，用于將所述結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較，過濾與主題信息無關(guān)的字符；圖片下載單元，用于提取所述經(jīng)過字符過濾單元過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽，下載圖片資源并進(jìn)行保存；路徑替換單元，用于將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑；標(biāo)簽處理單元，用于保留所述結(jié)果字符串中的段落p標(biāo)簽和圖片image標(biāo)簽，刪除所述結(jié)果字符串中的其他標(biāo)簽。18.如權(quán)利要求17所述的裝置，其特征在于，所述裝置還包括信息采集模塊，用于將所述經(jīng)過字符串處理模塊處理的所述結(jié)果字符串和該結(jié)果字符串中包含的主題信息進(jìn)行保存，以供用戶二次開發(fā)使用。全文摘要本發(fā)明提供了一種互聯(lián)網(wǎng)主題信息采集方法及裝置，所述方法包括獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼；以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串，并將所述不同的字符串形成字符串列表；逐一分析所述字符串列表中的每個(gè)字符串，當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù)，且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí)，將該字符串包含的內(nèi)容作為主題信息。實(shí)施本發(fā)明提供的互聯(lián)網(wǎng)主題信息采集方法和裝置，通過以div標(biāo)簽將HTML源代碼劃分成多個(gè)字符串，對(duì)多個(gè)字符串進(jìn)行分析，從而獲取主題信息，可處理互聯(lián)網(wǎng)上不同網(wǎng)頁(yè)模板的網(wǎng)頁(yè)信息，并提高主題信息采集的準(zhǔn)確性。文檔編號(hào)G06F17/30GK101702160SQ20091011035公開日2010年5月5日申請(qǐng)日期2009年10月28日優(yōu)先權(quán)日2009年10月28日發(fā)明者黎柯申請(qǐng)人:深圳市同洲電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黎柯
技術(shù)所有人：深圳市同洲電子股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

互聯(lián)網(wǎng)信息采集相關(guān)技術(shù)

互聯(lián)網(wǎng)信息采集系統(tǒng)相關(guān)技術(shù)

互聯(lián)網(wǎng)信息采集技術(shù)相關(guān)技術(shù)

互聯(lián)網(wǎng)裝置藝術(shù)相關(guān)技術(shù)

電能量采集裝置相關(guān)技術(shù)

初始化采集裝置失敗相關(guān)技術(shù)

電量采集裝置相關(guān)技術(shù)

數(shù)據(jù)采集裝置相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種互聯(lián)網(wǎng)主題信息采集方法及裝置的制作方法