專利名稱::一種互聯(lián)網(wǎng)主題信息采集方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種互聯(lián)網(wǎng)信息的處理技術(shù),尤其涉及一種互聯(lián)網(wǎng)主題信息采集方法和裝置。
背景技術(shù):
:瀏覽Web上的網(wǎng)頁(yè)信息,會(huì)發(fā)現(xiàn)它們通常包含兩部分內(nèi)容,一部分內(nèi)容體現(xiàn)的是網(wǎng)頁(yè)的主題信息,比如一張新聞網(wǎng)頁(yè)中的新聞信息部分,我們稱之為"主題"信息;另一部分則是與主題內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問巻等內(nèi)容,稱之為"噪音"信息。噪音信息通常分布在主題信息周圍,有時(shí)也夾雜在主題內(nèi)容中間,但它們并無內(nèi)容相關(guān)性。噪音信息通常是以鏈接導(dǎo)航文字(anchortext)的形式出現(xiàn),因此,噪音信息會(huì)導(dǎo)致相互鏈接的網(wǎng)頁(yè)常常也無內(nèi)容相關(guān)性。這樣,網(wǎng)頁(yè)中的噪音內(nèi)容不僅給Web上基于網(wǎng)頁(yè)內(nèi)容的應(yīng)用系統(tǒng)帶來困難,也給基于網(wǎng)頁(yè)超鏈指向的應(yīng)用系統(tǒng)帶來困難??焖贉?zhǔn)確的識(shí)別并清除網(wǎng)頁(yè)內(nèi)的噪音內(nèi)容后,可以采集網(wǎng)頁(yè)的主題內(nèi)容為進(jìn)行后續(xù)的處理或者開發(fā)?,F(xiàn)有技術(shù)一中,提出了一個(gè)去除互聯(lián)網(wǎng)網(wǎng)頁(yè)中噪音信息,采集主題信息的方法,該方法首先依據(jù)〈table〉標(biāo)簽構(gòu)造網(wǎng)頁(yè)的標(biāo)簽樹,進(jìn)而依據(jù)〈table〉標(biāo)簽將一張網(wǎng)頁(yè)規(guī)劃為相互嵌套的內(nèi)容塊;而后,對(duì)于使用同一個(gè)模板作出的網(wǎng)頁(yè)集,找出在該網(wǎng)頁(yè)集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁(yè)集中共同出現(xiàn)較少的內(nèi)容塊就是有效信息塊。實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限在基于同一個(gè)模板的網(wǎng)頁(yè)集,而Web上的網(wǎng)頁(yè)模板不計(jì)其數(shù),因此該方法顯然不夠通用。HTML(HyperTextMark—upLanguage,超文本標(biāo)記i吾言)是——禾中標(biāo)識(shí)語(yǔ)言(MarkupLanguage),其中定義了一套標(biāo)簽來刻畫網(wǎng)頁(yè)顯示時(shí)的頁(yè)面布局。因此,對(duì)于HTML網(wǎng)頁(yè)最常用的結(jié)構(gòu)表示方法是構(gòu)造網(wǎng)頁(yè)的標(biāo)簽樹?,F(xiàn)有的標(biāo)簽樹構(gòu)造工具很多,DOM(DocumentObjectModel,文檔對(duì)象模型)是一個(gè)常用標(biāo)簽樹構(gòu)造工具,它可以將網(wǎng)頁(yè)中的標(biāo)簽按照嵌套關(guān)系整理成一棵樹狀結(jié)構(gòu)。要實(shí)現(xiàn)網(wǎng)頁(yè)凈化冰采集有用的主題信息,首先根據(jù)HTML代碼,生成DOM樹,然后分析樹元素,提取主題信息。DOM全稱是文檔對(duì)象模型(DocumentObjectModel,D0M),它根據(jù)文檔中標(biāo)記之間的嵌套關(guān)系,將文檔表示為一個(gè)樹形結(jié)構(gòu),文檔中的元素、屬性、以分析的字符數(shù)據(jù)、注釋以及處理指令等都是節(jié)點(diǎn)?,F(xiàn)有技術(shù)二實(shí)施步驟如下1、將不夠規(guī)范的HTML文檔整理成格式良好的XHTML文檔;2、將XHTML文檔解析成一個(gè)樹模型——DOM樹;3、然后圍繞DOM樹進(jìn)行信息的提取;4、利用歸納學(xué)習(xí)用戶提供的樣本網(wǎng)頁(yè)的結(jié)構(gòu),就可以根據(jù)D0M中的節(jié)點(diǎn),生成一個(gè)XML文檔,這個(gè)XML文檔中只保留用戶感興趣的信息的節(jié)點(diǎn),從而完成信息提取。發(fā)明人在實(shí)施本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)二至少具有如下缺點(diǎn)DOM樹相對(duì)比較復(fù)雜,分析效率比較低,速度慢;并且DOM樹種類繁多,若要獲取正確的主題信息,存在較大的差異和難度。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于,針對(duì)上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法及裝置,不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板,而提供一種通用的方法,準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),以獲取主題信息。本發(fā)明實(shí)施例提供的一種互聯(lián)網(wǎng)主題信息采集方法,包括獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼;以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表;逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。本發(fā)明實(shí)施例還提供了一種互聯(lián)網(wǎng)主題信息采集裝置,包括源代碼獲取模塊,用于獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼;字符串形成模塊,用于以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表;第一字符串分析模塊,用于逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。實(shí)施本發(fā)明提供的互聯(lián)網(wǎng)主題信息采集方法和裝置,通過以div標(biāo)簽將HTML源代碼劃分成多個(gè)字符串,再對(duì)多個(gè)字符串進(jìn)行分析,從而獲取主題信息,可以處理互聯(lián)網(wǎng)上不同網(wǎng)頁(yè)模板的網(wǎng)頁(yè)信息,并提高主題信息采集的準(zhǔn)確性。為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明中互聯(lián)網(wǎng)主題信息采集方法實(shí)施例一的流程示意圖圖2是本發(fā)明中互聯(lián)網(wǎng)主題信息采集方法實(shí)施例二的流程示意圖圖3是本發(fā)明中互聯(lián)網(wǎng)主題信息采集方法實(shí)施例三的流程示意圖圖4是本發(fā)明中互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例一的流程示意圖圖5是本發(fā)明中互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例二的流程示意圖圖6是本發(fā)明中互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例三的流程示意圖,具體實(shí)施例方式本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法及裝置,不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板,而提供一種通用的方法,準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),以獲取主題信息。參見圖l,為本發(fā)明實(shí)施例提供的互聯(lián)網(wǎng)主題信息采集方法的實(shí)施例一的流程示意圖。本發(fā)明實(shí)施例提供的互聯(lián)網(wǎng)主題信息采集方法,包括步驟100,獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼;需要說明的是,HTML是超文本語(yǔ)言的簡(jiǎn)稱,一般用于編寫網(wǎng)頁(yè),通過查看網(wǎng)絡(luò)上網(wǎng)頁(yè)的HTML源代碼,可以了解這個(gè)網(wǎng)頁(yè)的結(jié)構(gòu)以及一些圖片或者視頻的絕對(duì)地址。步驟101,以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表(按照我司以往接到的審查意見通知書,此處最好和發(fā)明人再溝通下,給字符串的具體書寫格式);需要說明的是,HTML標(biāo)簽通常是英文詞匯的全稱(如塊引用blockquote)或縮略語(yǔ)(如"P"代表Paragraph),但它們的與一般文本有區(qū)別,因?yàn)樗鼈兎旁趩螘?hào)里。故Paragragh標(biāo)簽是〈p〉,塊引用標(biāo)簽是〈blockquote〉。有些HTML標(biāo)簽說明頁(yè)面如何被格式化(例如,開始一個(gè)新段落),其他則說明這些詞如何顯示(〈b〉使文字變粗)還有一些其他標(biāo)簽提供在頁(yè)面上不顯示的信息,例如標(biāo)題。HTML標(biāo)簽是成雙出現(xiàn)的。每當(dāng)使用一個(gè)標(biāo)簽,如〈blockquote〉,則必須以另一個(gè)標(biāo)簽〈/blockquote〉將它關(guān)閉。blockquote前的斜杠,就是關(guān)閉標(biāo)簽與打開標(biāo)簽的區(qū)別。但是也有一些標(biāo)簽例外。比如,〈i即ut〉標(biāo)簽就不需要?!愕?,HTML源代碼以DOCTYPE開始,它聲明文檔的類型,且它之前不能有任何內(nèi)容(包括換行符和空格),否則將使文檔聲明無效,接著是〈html〉標(biāo)簽,以〈/html>標(biāo)簽結(jié)束。〈html〉標(biāo)簽和〈/html〉標(biāo)簽也是HTML標(biāo)簽中的一種,在它們之間,整個(gè)頁(yè)面有兩部分,標(biāo)題和正文。其中,標(biāo)題詞夾在〈head〉標(biāo)簽和〈/head〉標(biāo)簽之間,這個(gè)詞語(yǔ)在打開頁(yè)面時(shí)出現(xiàn)在屏幕底部最小化的窗口。正文則夾在〈body〉標(biāo)簽和〈/body〉標(biāo)簽之間,即所有頁(yè)面的內(nèi)容所在。頁(yè)面上顯示的任何東西都包含在這兩個(gè)標(biāo)簽之中。div標(biāo)簽是HTML標(biāo)簽中的一種,是用來為HTML源代碼內(nèi)大塊(block-level)的內(nèi)容提供結(jié)構(gòu)和背景的元素。div標(biāo)簽包括起始標(biāo)簽〈div〉和結(jié)束標(biāo)簽〈/div〉,這兩個(gè)標(biāo)簽之間的所有內(nèi)容都是用來構(gòu)成這個(gè)塊的,其中所包含元素的特性由div標(biāo)簽的屬性來控制,或者是通過使用樣式表格式化這個(gè)塊來進(jìn)行控制。div標(biāo)簽稱為區(qū)隔標(biāo)記,其作用是設(shè)定字、畫、表格等的擺放位置。當(dāng)把文字,圖像,或其他的放在div標(biāo)簽中,它可稱作為"DIVblock",或"DIVelement"或"CSS-layer",或叫"layer"即"層次"。因?yàn)槿魏我环N模板的網(wǎng)頁(yè)的HTML源代碼中都有div標(biāo)簽,以div標(biāo)簽來將HTML源代碼劃分成字符串,不需要考慮該網(wǎng)頁(yè)是何種類型的模板,所以具有通用性;例如,下面這段HTML模擬了新聞網(wǎng)站的結(jié)構(gòu)。其中的每個(gè)div標(biāo)簽把每條新聞的標(biāo)題和摘要組合在一起?!碽ody〉〈hl〉NEWSWEBSITE〈/h1>〈divclass=〃news">〈h2>Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈divclass=〃news">〈h2>Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈/body>本實(shí)施例中,以div標(biāo)簽為標(biāo)志標(biāo)簽,即以〈div〉和〈/div>為界,將每一組〈div>和〈/div>中包含的字符串單獨(dú)提取出來,例如,將上述HTML源代碼中的第一組〈div〉和〈/div〉之間的字符串提取出來作為第一個(gè)字符串,艮卩第一個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>...〈/div>然后,再將上述HTML源代碼中的第二組〈div〉和〈/div>之間的字符串提取出來作為第二個(gè)字符串,即第二個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>...〈/div>以此類推,將所有〈div〉和〈/div>之間的字符串以此提取,形成字符串列表。步驟102,逐一分析字符串列表中的每個(gè)字符串,以分析出主題信息;具體的,逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。因此,針對(duì)以div標(biāo)簽劃分的字符串,通過比較上述各種HTML標(biāo)簽之外的字符和HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),若HTML標(biāo)簽外的字符個(gè)數(shù)大于HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),并且還大于預(yù)定的基數(shù)值,則可以判定該字符串內(nèi)的內(nèi)容獲取主題信息。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法,不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板,而提供一種通用的方法,以div標(biāo)簽將HTML源代碼劃分成不同的字符串,并對(duì)每個(gè)字符串進(jìn)行分析處理,從而可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),以獲取主題信息。參見圖2,為本發(fā)明中提供的一種互聯(lián)網(wǎng)主題信息采集方法實(shí)施例二的流程示意圖。首先需要說明的是,本發(fā)明實(shí)施例提供的方法,既可以用于采集新聞主題信息,也可以用于采集日志主題信息;根據(jù)需要采集的主題信息是新聞信息還是日志主題信息的不同,在分析字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)是否大于某一個(gè)基數(shù)值時(shí),可以將該基數(shù)值設(shè)置為不同。步驟200,下載可擴(kuò)展標(biāo)記語(yǔ)言(XML,ExtensibleMarkupLanguage)頁(yè)面,提取列表信息;具體的,若是需要采集新聞主題信息,則下載XML頁(yè)面,從中提取新聞列表信息;若采集日志主題信息,則從下載的XML頁(yè)面中提取日志列表信息;步驟201,下載所述列表信息中的統(tǒng)一資源定位符URL,用以獲取主題信息所在網(wǎng)頁(yè)的HTML源代碼。具體的,可以獲取新聞主題信息所在頁(yè)面的HTML源代碼,或者獲取日志主題信息所在網(wǎng)頁(yè)的HTML的源代碼。步驟202,過濾所述HTML源代碼中與主題信息無關(guān)的html標(biāo)簽(即,〈html〉標(biāo)簽禾口〈/html>標(biāo)簽)。具體的,過濾掉HTML源代碼中與新聞主題信息或者日志主題新日無關(guān)的HTML標(biāo)簽,例如script標(biāo)簽、style標(biāo)簽、object標(biāo)簽、iframe標(biāo)簽、form標(biāo)簽;步驟203,獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的HTML源代碼;本實(shí)施例中,因?yàn)樵揌TML源代碼已經(jīng)過濾掉與新聞主題信息或者日志主題信息無關(guān)的HTML標(biāo)簽,因此比上一實(shí)施例,為分析字符串提高了效率,為提高采集主題信息的準(zhǔn)確性奠定了基礎(chǔ)。步驟204,以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表。例如,下面這段HTML模擬了新聞網(wǎng)站的結(jié)構(gòu)。其中的每個(gè)div標(biāo)簽把每條新聞的標(biāo)題和摘要組合在一起?!碽ody〉〈hl〉NEWSWEBSITE〈/hl>...〈divclass=〃news">〈h2>Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>...〈/div>〈divclass=〃news">〈h2〉Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>…〈/div>…〈/body>本實(shí)施例中,以div標(biāo)簽為標(biāo)志標(biāo)簽,即以〈div〉和〈/div>為界,將每一組〈div〉和〈/div〉中包含的字符串單獨(dú)提取出來,例如,將上述HTML源代碼中的第一組〈div〉和〈/div〉之間的字符串提取出來作為第一個(gè)字符串,艮卩第一個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadlinel〈/h2>〈p>sometext,sometext,sometext….〈/p>…〈/div>然后,再將上述HTML源代碼中的第二組〈div〉和〈/div〉之間的字符串提取出來作為第二個(gè)字符串,即第二個(gè)字符串為〈divclass=〃news">〈h2>Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>以此類推,將所有〈div〉和〈/div>之間的字符串以此提取,形成字符串列表。步驟205,逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。需要說明的是,若要采集主題信息為新聞主題信息,則將所述基數(shù)設(shè)置為50,小于這個(gè)值的,一般都不是新聞主題信息;為了在實(shí)施例一的基礎(chǔ)上進(jìn)一步提高采集主題信息的準(zhǔn)確性,本實(shí)施例二中,還包括步驟206,獲取所述字符串列表中,HTML標(biāo)簽外字符數(shù)最大的字符串;步驟207,分析所述字符串列表中,所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串;具體地,若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。步驟208,分析前字符串和/或所述后字符串,以獲得結(jié)果字符串;具體地,若所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串;步驟209,對(duì)所述結(jié)果字符串進(jìn)行處理,以采集主題信息。最后,步驟210,將所述經(jīng)過步驟209處理的字符串中包含的主題信息以及該字符串進(jìn)行保存,以供二次開發(fā)使用。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法,不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板,提供一種通用的方法,首先以div標(biāo)簽將HTML源代碼劃分成不同的字符串,并對(duì)每個(gè)字符串進(jìn)行分析處理,可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),并且還對(duì)經(jīng)過分析的字符串進(jìn)行二次分析,進(jìn)一步提高分析互聯(lián)網(wǎng)上網(wǎng)頁(yè)的準(zhǔn)確性,從而快速準(zhǔn)確的采集到主題信息。參見圖3,為本發(fā)明中一種互聯(lián)網(wǎng)主題信息采集方法實(shí)施例三的流程示意圖。本實(shí)施例中將詳細(xì)描述實(shí)施例二中的步驟209,其具體包括步驟300,將結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較,過濾與待采集的主題信息無關(guān)的字符;所述過濾關(guān)鍵字是預(yù)定的,具體為非法關(guān)鍵字或者廣告關(guān)鍵字,導(dǎo)航條關(guān)鍵字,問巻調(diào)查關(guān)鍵字等等與主題信息無關(guān)的噪音信息;步驟301,提取所述過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽,下載圖片資源并進(jìn)行保存;同時(shí)還可以獲取圖片寬度和高度;步驟302,將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑;步驟303,保留所述結(jié)果字符串中的段落p標(biāo)簽和圖片image標(biāo)簽,刪除所述結(jié)果字符串中的其他標(biāo)簽。最后,將所述經(jīng)過300步驟303處理的字符串中包含的主題信息以及該字符串進(jìn)行保存,以供二次開發(fā)使用。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集方法,在結(jié)合實(shí)施例一和實(shí)施例二準(zhǔn)確快速采集主題信息的基礎(chǔ)上,對(duì)采集的主題信息進(jìn)一步凈化處理,并保留了新聞或者日志原有的格式,還可以保留原有網(wǎng)頁(yè)中的圖片,因此可以更好的為二次開發(fā)所使用。參見圖4,為本發(fā)明中一種互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例一的結(jié)構(gòu)示意圖。本實(shí)施例的互聯(lián)網(wǎng)主題信息采集裝置,包括源代碼獲取模塊10、字符串形成模塊11以及第一字符串分析模塊12,它們的功能和作用如下源代碼獲取模塊IO,用于獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的HTML源代碼;具體實(shí)施的時(shí)候,該源代碼獲取模塊IO用于執(zhí)行前述互聯(lián)網(wǎng)主題信息采集方法實(shí)施例一(后簡(jiǎn)稱方法實(shí)施例一)中的步驟100;字符串形成模塊ll,用于以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表;需要說明的是,HTML標(biāo)簽通常是英文詞匯的全稱(如塊引用blockquote)或縮略語(yǔ)(如"P"代表Paragraph),但它們的與一般文本有區(qū)別,因?yàn)樗鼈兎旁趩螘?hào)里。故Paragragh標(biāo)簽是〈p〉,塊引用標(biāo)簽是〈blockquote〉。有些HTML標(biāo)簽說明頁(yè)面如何被格式化(例如,開始一個(gè)新段落),其他則說明這些詞如何顯示(〈b〉使文字變粗)還有一些其他標(biāo)簽提供在頁(yè)面上不顯示的信息,例如標(biāo)題。HTML標(biāo)簽是成雙出現(xiàn)的。每當(dāng)使用一個(gè)標(biāo)簽,如〈blockquote〉,則必須以另一個(gè)標(biāo)簽〈/blockquote〉將它關(guān)閉。blockquote前的斜杠,就是關(guān)閉標(biāo)簽與打開標(biāo)簽的區(qū)別。但是也有一些標(biāo)簽例外。比如,〈input〉標(biāo)簽就不需要。—般地,HTML源代碼以D0CTYPE開始,它聲明文檔的類型,且它之前不能有任何內(nèi)容(包括換行符和空格),否則將使文檔聲明無效,接著是〈html〉標(biāo)簽,以〈/html>標(biāo)簽結(jié)束。〈html〉標(biāo)簽和〈/html〉標(biāo)簽也是HTML標(biāo)簽中的一種,在它們之間,整個(gè)頁(yè)面有兩部分,標(biāo)題和正文。其中,標(biāo)題詞夾在〈head〉標(biāo)簽和〈/head〉標(biāo)簽之間,這個(gè)詞語(yǔ)在打開頁(yè)面時(shí)出現(xiàn)在屏幕底部最小化的窗口。正文則夾在〈body〉標(biāo)簽和〈/body〉標(biāo)簽之間,即所有頁(yè)面的內(nèi)容所在。頁(yè)面上顯示的任何東西都包含在這兩個(gè)標(biāo)簽之中。div標(biāo)簽是HTML標(biāo)簽中的一種,是用來為HTML源代碼內(nèi)大塊(block-level)的內(nèi)容提供結(jié)構(gòu)和背景的元素。div標(biāo)簽包括起始標(biāo)簽〈div〉和結(jié)束標(biāo)簽〈/div〉,這兩個(gè)標(biāo)簽之間的所有內(nèi)容都是用來構(gòu)成這個(gè)塊的。div標(biāo)簽稱為區(qū)隔標(biāo)記,其作用是設(shè)定字、畫、表格等的擺放位置。因?yàn)槿魏我环N模板的網(wǎng)頁(yè)的HTML源代碼中都有div標(biāo)簽。本實(shí)施例中的字符串形成模塊11在具體實(shí)施的時(shí)候,用于執(zhí)行前述方法實(shí)施例一中的步驟101,即以div標(biāo)簽來將HTML源代碼劃分成字符串,不需要考慮該網(wǎng)頁(yè)是何種類型的模板,從而將HTML源代碼分成不同的字符串,形成字符串列表,具有通用性;例如,下面這段HTML模擬了新聞網(wǎng)站的結(jié)構(gòu)。其中的每個(gè)div標(biāo)簽把每條新聞的標(biāo)題和摘要組合在一起。0153]〈body〉0154]〈hl〉NEWSWEBSITE〈/hl>0155]0156]0157]0158]0159]0160]0161]0162]0163]0164]0165]0166]0167]0168]0169]〈p>sometext,sometext,sometext.…〈/p>〈divclass=〃news">〈h2>Newsheadlinel〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈divclass=〃news">〈h2>Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>〈/div>〈/body>本實(shí)施例中,以div標(biāo)簽為標(biāo)志標(biāo)簽,即以〈div〉和〈/div>為界,將每一組〈div>和〈/div〉中包含的字符串單獨(dú)提取出來,例如,將上述HTML源代碼中的第一組div〉之間的字符串提取出來作為第一個(gè)字符串,艮卩0170]第一個(gè)字符串為0171]〈divclass=〃news">0172]〈h2〉Newsheadlinel〈/h2>0173]〈p>sometext,sometext,sometext….〈/p>.〈/div>然后,再將上述HTML源代碼中的第二組〈div〉和〈/div>之間的字符串提取出來作為第二個(gè)字符串,即第二個(gè)字符串為〈divclass=〃news">〈h2〉Newsheadline2〈/h2>〈p>sometext,sometext,sometext.…〈/p>…〈/div>以此類推,將所有〈div〉和〈/div>之間的字符串以此提取,形成字符串列表。第一字符串分析模塊12,用于逐一分析所述字符串形成模塊10中形成的字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。具體地,針對(duì)以div標(biāo)簽劃分的字符串,通過由第一字符串分析模塊12比較前述方法實(shí)施例一中的各種HTML標(biāo)簽之外的字符和HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),若HTML標(biāo)簽外的字符個(gè)數(shù)大于HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),并且還大于預(yù)定的基數(shù)值,則可以判定該字符串內(nèi)的內(nèi)容獲取主題信息。在具體實(shí)施的時(shí)候,該第一字符串分析模塊12用于執(zhí)行前述方法實(shí)施例一中的步驟102。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集裝置,不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板,而提供一種通用的方式,以div標(biāo)簽將HTML源代碼劃分成不同的字符串,并對(duì)每個(gè)字符串進(jìn)行分析處理,從而可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),以獲取主題信息。參見圖5,為本發(fā)明中提供的一種互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例二的結(jié)構(gòu)示意圖。首先需要說明的是,本發(fā)明實(shí)施例提供的裝置,既可以用于采集新聞主題信息,也可以用于采集日志主題信息。本實(shí)施例提供的裝置,除了包括前述互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例一(以下簡(jiǎn)稱裝置實(shí)施例一)中的源代碼獲取模塊10、字符串形成模塊11以及第一字符串分析模塊12以外,還包括基數(shù)設(shè)定模塊13,信息下載模塊14,信息過濾模塊15以及第二字符串分析模塊16,字符串處理模塊17,信息采集模塊18,它們的功能和作用如下基數(shù)設(shè)定模塊13,用于根據(jù)待采集的主題信息是新聞主題信息或日志主題信息,將所述基數(shù)的值設(shè)定為不同的值;具體的,根據(jù)需要采集的主題信息是新聞信息還是主題信息的不同,在分析字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)是否大于某一個(gè)基數(shù)值時(shí),基數(shù)設(shè)定模塊13可以將該基數(shù)值設(shè)置為不同。實(shí)施例二中的裝置還包括信息下載模塊14,用于下載可擴(kuò)展標(biāo)記語(yǔ)言XML頁(yè)面,提取列表信息;并下載所述列表信息中的統(tǒng)一資源定位符URL,并發(fā)送給所述源代碼獲取模塊10進(jìn)行處理。具體的,若是需要采集新聞主題信息,信息下載模塊14則下載XML頁(yè)面,從中提取新聞列表信息;若采集日志主題信息,信息下載模塊14則從下載的XML頁(yè)面中提取日志列表信息;并下載所述列表信息中的統(tǒng)一資源定位符URL;在具體實(shí)施例的時(shí)候,該信息下載模塊14用于執(zhí)行前述方法實(shí)施例二中的步驟200以及步驟201;此后,所述源代碼獲取模塊10從所述列表信息和URL中獲取HTML源代碼;信息過濾模塊15,用于過濾所述源代碼獲取模塊10中獲取到的HTML源代碼中與主題信息無關(guān)的HTML標(biāo)簽。具體的,信息過濾模塊15用于過濾掉如script標(biāo)簽、style標(biāo)簽、object標(biāo)簽、iframe標(biāo)簽、form標(biāo)簽等與主題信息無關(guān)的HTML標(biāo)簽;在具體實(shí)施時(shí)候,信息過濾模塊15用于執(zhí)行前述方法實(shí)施例二中的步驟202;此后,由前述的字符串形成模塊11以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表;再由前述的第一字符串分析模塊12逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息;為了在裝置實(shí)施例一的基礎(chǔ)上進(jìn)一步提高采集主題信息的準(zhǔn)確性,本實(shí)施例二中的裝置,還包括第二字符串分析模塊16,用于獲取經(jīng)由所述第一字符串分析模塊12分析后,所述字符串列表中HTML標(biāo)簽外字符數(shù)最大的字符串;并分析所述字符串列表中,所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串;若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。具體實(shí)施的時(shí)候,第二字符串分析模塊16執(zhí)行前述方法實(shí)施例二中的步驟206步驟207;本實(shí)施例二中的裝置,還包括字符串處理模塊17,用于在所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串;并對(duì)所述結(jié)果字符串進(jìn)行處理,以采集主題信息。具體實(shí)施例的時(shí)候,該字符串處理模塊17執(zhí)行前述方法實(shí)施例二中的步驟208步驟209;本實(shí)施例二中的裝置還包括信息采集模塊18,用于將所述經(jīng)過字符串處理模塊17處理的所述結(jié)果字符串和該結(jié)果字符串中包含的主題信息進(jìn)行保存,以供用戶二次開發(fā)使用。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集裝置,不用拘泥于統(tǒng)一的網(wǎng)絡(luò)模板,提供一種通用的方法,首先以div標(biāo)簽將HTML源代碼劃分成不同的字符串,并對(duì)每個(gè)字符串進(jìn)行分析處理,可以準(zhǔn)確分析并處理互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),并且還對(duì)經(jīng)過分析的字符串進(jìn)行二次分析,進(jìn)一步提高分析互聯(lián)網(wǎng)上網(wǎng)頁(yè)的準(zhǔn)確性,從而快速準(zhǔn)確的采集到主題信息。參見圖6,為本發(fā)明中一種互聯(lián)網(wǎng)主題信息采集裝置實(shí)施例三的結(jié)構(gòu)示意圖。本實(shí)施例中,將詳細(xì)描述前述裝置實(shí)施例二中的字符串處理模塊17;所述字符串處理模塊17,具體包括字符過濾單元170、圖片下載單元171、路徑替換單元172、標(biāo)簽處理單元173,它們的功能和作用如下字符過濾單元170,用于將結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較,過濾與主題信息無關(guān)的字符;具體的,所述過濾關(guān)鍵字是預(yù)定的,具體為非法關(guān)鍵字或者廣告關(guān)鍵字,導(dǎo)航條關(guān)鍵字,問巻調(diào)查關(guān)鍵字等等與主題信息無關(guān)的噪音信息;在具體實(shí)施的時(shí)候,該字符過濾單元170用于執(zhí)行前述方法實(shí)施例三中的步驟300;圖片下載單元171,用于提取所述經(jīng)過字符過濾單元170過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽,下載圖片資源并進(jìn)行保存;同時(shí)還可以獲取圖片寬度和高度;路徑替換單元172,用于將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑;標(biāo)簽處理單元173,用于保留所述結(jié)果字符串中的段落p標(biāo)簽和圖片image標(biāo)簽,刪除所述結(jié)果字符串中的其他標(biāo)簽。實(shí)施本發(fā)明提供一種互聯(lián)網(wǎng)主題信息采集裝置,在結(jié)合裝置實(shí)施例一和裝置實(shí)施例二準(zhǔn)確快速采集主題信息的基礎(chǔ)上,對(duì)采集的主題信息進(jìn)一步凈化處理,并保留了新聞或者日志原有的格式,還可以保留原有網(wǎng)頁(yè)中的圖片,因此可以更好的為二次開發(fā)所使用。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-OnlyMemory,ROM)或隨機(jī)存儲(chǔ)記憶體(RandomAccessMemory,廳)等。以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。權(quán)利要求一種互聯(lián)網(wǎng)主題信息采集方法,其特征在于,包括獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼;以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表(說明書中請(qǐng)補(bǔ)充字符串的具體書寫格式,否則,審查員很可能以公開不充分發(fā)出審查意見通知書);逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。2.如權(quán)利要求1所述的方法,其特征在于,所述主題信息為新聞主題信息或日志主題信息。3.如權(quán)利要求2所述的方法,其特征在于,當(dāng)待采集的主題信息是新聞主題信息或日志主題信息時(shí),所述基數(shù)的值設(shè)定為不同。4.如權(quán)利要求3所述的方法,其特征在于,當(dāng)所述主題信息為新聞主題信息時(shí),在獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼步驟之前,包括下載可擴(kuò)展標(biāo)記語(yǔ)言XML頁(yè)面,提取列表信息;下載所述列表信息中的統(tǒng)一資源定位符URL,用以獲取主題信息所在網(wǎng)頁(yè)的HTML源代碼。5.如權(quán)利要求4所述的方法,其特征在于,所述獲取HTML源代碼之后,包括過濾所述HTML源代碼中與主題信息無關(guān)的HTML標(biāo)簽。6.如權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述將該字符串包含的內(nèi)容作為主題信息之后,還包括獲取所述字符串列表中,HTML標(biāo)簽外字符數(shù)最大的字符串;分析所述字符串列表中,所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串;若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。7.如權(quán)利要求6所述的方法,其特征在于,將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息之后,包括若所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串;對(duì)所述結(jié)果字符串進(jìn)行處理,采集主題信息。8.如權(quán)利要求7所述的方法,其特征在于,所述對(duì)結(jié)果字符串進(jìn)行處理,具體包括將所述結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較,過濾與待采集的主題信息無關(guān)的字符;提取所述過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽,下載圖片資源并進(jìn)行保存;將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑;保留所述結(jié)果字符串中的段落P標(biāo)簽和圖片image標(biāo)簽,刪除所述結(jié)果字符串中的其他標(biāo)簽。9.如權(quán)利要求8所述的方法,其特征在于,將所述經(jīng)過處理的所述結(jié)果字符串和該結(jié)果字符串中包含的主題信息進(jìn)行保存,以供二次開發(fā)使用。10.—種互聯(lián)網(wǎng)主題信息采集裝置,其特征在于,包括源代碼獲取模塊,用于獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼;字符串形成模塊,用于以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表;第一字符串分析模塊,用于逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。11.如權(quán)利要求io所述的裝置,其特征在于,所述主題信息為新聞主題信息或日志主題信息。12.如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括基數(shù)設(shè)定模塊,用于根據(jù)待采集的主題信息是新聞主題信息或日志主題信息,將所述基數(shù)的值設(shè)定為不同的值。13.如權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括信息下載模塊,用于下載可擴(kuò)展標(biāo)記語(yǔ)言XML頁(yè)面,提取列表信息;并下載所述列表信息中的統(tǒng)一資源定位符URL,并發(fā)送給所述源代碼獲取模塊進(jìn)行處理。14.如權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括信息過濾模塊,用于過濾所述源代碼獲取模塊中獲取到的HTML源代碼中與主題信息無關(guān)的HTML標(biāo)簽。15.如權(quán)利要求10-14中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括第二字符串分析模塊,用于獲取經(jīng)由所述第一字符串分析模塊分析后,所述字符串列表中HTML標(biāo)簽外字符數(shù)最大的字符串;并分析所述字符串列表中,所述HTML標(biāo)簽外字符數(shù)最大的字符串的前字符串和后字符串;若所述前字符串和/或后字符串滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串中包含的內(nèi)容作為主題信息。16.如權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括字符串處理模塊,用于在所述前字符串和/或所述后字符串中滿足其中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)的條件時(shí),將該前字符串和/或后字符串與所述HTML標(biāo)簽外字符數(shù)最大的字符串一起作為結(jié)果字符串;并對(duì)所述結(jié)果字符串進(jìn)行處理,以采集主題信息。17.如權(quán)利要求16所述的裝置,其特征在于,所述字符串處理模塊,具體包括字符過濾單元,用于將所述結(jié)果字符串中的每一個(gè)HTML標(biāo)簽外的字符與過濾關(guān)鍵字進(jìn)行比較,過濾與主題信息無關(guān)的字符;圖片下載單元,用于提取所述經(jīng)過字符過濾單元過濾之后的結(jié)果字符串中所有的圖片image標(biāo)簽,下載圖片資源并進(jìn)行保存;路徑替換單元,用于將所述結(jié)果字符串中的網(wǎng)絡(luò)資源路徑替換為本地資源路徑;標(biāo)簽處理單元,用于保留所述結(jié)果字符串中的段落p標(biāo)簽和圖片image標(biāo)簽,刪除所述結(jié)果字符串中的其他標(biāo)簽。18.如權(quán)利要求17所述的裝置,其特征在于,所述裝置還包括信息采集模塊,用于將所述經(jīng)過字符串處理模塊處理的所述結(jié)果字符串和該結(jié)果字符串中包含的主題信息進(jìn)行保存,以供用戶二次開發(fā)使用。全文摘要本發(fā)明提供了一種互聯(lián)網(wǎng)主題信息采集方法及裝置,所述方法包括獲取互聯(lián)網(wǎng)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼;以div標(biāo)簽為標(biāo)志標(biāo)簽將所述HTML源代碼分成不同的字符串,并將所述不同的字符串形成字符串列表;逐一分析所述字符串列表中的每個(gè)字符串,當(dāng)某個(gè)字符串中的HTML標(biāo)簽外的字符個(gè)數(shù)大于所述HTML標(biāo)簽內(nèi)的字符個(gè)數(shù),且HTML標(biāo)簽外的字符個(gè)數(shù)大于設(shè)定的基數(shù)時(shí),將該字符串包含的內(nèi)容作為主題信息。實(shí)施本發(fā)明提供的互聯(lián)網(wǎng)主題信息采集方法和裝置,通過以div標(biāo)簽將HTML源代碼劃分成多個(gè)字符串,對(duì)多個(gè)字符串進(jìn)行分析,從而獲取主題信息,可處理互聯(lián)網(wǎng)上不同網(wǎng)頁(yè)模板的網(wǎng)頁(yè)信息,并提高主題信息采集的準(zhǔn)確性。文檔編號(hào)G06F17/30GK101702160SQ20091011035公開日2010年5月5日申請(qǐng)日期2009年10月28日優(yōu)先權(quán)日2009年10月28日發(fā)明者黎柯申請(qǐng)人:深圳市同洲電子股份有限公司