亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置的制作方法

文檔序號:6602861閱讀:209來源:國知局
專利名稱:面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種利用計算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情管理的技術(shù), 具體的講是從海量的互聯(lián)網(wǎng)網(wǎng)頁和論壇信息中快速準(zhǔn)確高效的提取有意義串的方法和系 統(tǒng)。
背景技術(shù)
文本表示是基于內(nèi)容的文本處理的首要步驟。文本表示中的特征項(xiàng)是影響文本分 類和聚類結(jié)果的重要因素。目前常用的文本特征項(xiàng)主要有字,詞,短語,語義等。從理論上 講,語義概念(語義集)高于短語(句法集),短語高于詞(詞語集),詞高于字(字符集)。 通常語義概念可以借助于語義詞典(同義詞,近義詞詞典等)或進(jìn)行潛在語義索引獲取。然 而大規(guī)模、覆蓋面廣的語義資源較難獲取,潛在語義索引的算法復(fù)雜度很高,從而限制了語 義概念在文本表示中的使用。目前最常用的文本表示模型是向量空間模型,向量空間模型 以詞作為特征。以詞作為特征的缺點(diǎn)在于它只簡單地考慮一個詞是否在文檔中出現(xiàn)及其 出現(xiàn)頻度,把特征看作是獨(dú)立存在的,而完全忽略了文本上下文間的語義關(guān)系,也沒有考慮 特征之間的先后次序。有意義串是具有獨(dú)立語義,緊密耦合,具有廣泛流通性的完整的語言 單元。有意義串實(shí)際上就是以短語為特征,以短語為特征的文本表示優(yōu)于以詞做特征的文 本表示。目前對有意義串的分析的研究主要有兩大方向,串內(nèi)分析和串外分析。串內(nèi)分析 是通過分析本串的結(jié)構(gòu)特征以及組成方式,來判斷串是否滿足有意義串的要求。目前常用 的串內(nèi)分析方法主要是通過簡單互信息,位置成詞概率,相鄰字對的耦合性來判斷。簡單互 信息[1]比較了一個模式串及其部分子串的頻度,它可以衡量模式串各部分之間的相關(guān)度。 當(dāng)從該模式串所取的子串的長度過短時,由于統(tǒng)計較短子串的頻次沒有意義,此時簡單互 信息的作用也失效了。位置成詞概率[2]表示某個漢字在某個位置(詞首或詞尾)出現(xiàn)的 概率。由于漢字用法比較豐富以及不規(guī)則新詞的不斷出現(xiàn),不能完全采用某個漢字的位置 乘此概率來篩選模式串。在切分好的訓(xùn)練語料中掃描所有出現(xiàn)過的連續(xù)子對,統(tǒng)計出每組 字對出現(xiàn)的總次數(shù)以及該字對作為某個詞子串的總次數(shù),后者與前者的比稱作相鄰字對的 耦合度[3]。如果耦合對比較大,表明該字對很可能出現(xiàn)在一個串中。當(dāng)選取的詞對為偶然 組合的無意義詞對時,該字對作為某個詞子串的總次數(shù)出現(xiàn)次數(shù)會很少,計算耦合度會過 濾掉一些實(shí)義的串。串外分析是分析緊鄰串的上下文的信息,以判斷串的語義環(huán)境是否豐富。目前常 用的串外分析主要是通過鄰接類別,熵值,鄰接對熵概念來判斷。鄰接類別[4]是串上文和 下文中出現(xiàn)的不同字符數(shù)量的最大值。鄰接類別只考慮字符串左邊和右邊的不同字符的種 類數(shù)量,而沒有考慮每個種類的字符出現(xiàn)的頻次。熵值[1][2][3]可以反映出該串語用環(huán)境的 豐富程度,度量一個串的獨(dú)立性,但是當(dāng)串出現(xiàn)的頻次整體都不多時效果不太明顯,而且熵 值計算沒有考慮上下文的組合關(guān)系。串的上文和下文的組合稱為鄰接對。鄰接對熵[3]是 對鄰接對求熵值。如果鄰接類別,熵值,鄰接對熵都比較大,則一個串很有可能成為一個有意乂串。概括而言,已有的有意義串提取算法存在以下缺點(diǎn)1)串內(nèi)分析中采用互信息作 為特征不能很好的篩選雙字串,對于雙字串來說,去掉首字和去尾字的串實(shí)際上是單字串, 計算單字出現(xiàn)的頻次沒有意義;2)串內(nèi)分析和串外分析都沒有考慮串和串之間的差異性, 提取的有意義串中會有很多串表征的內(nèi)容相似,造成許多有意義串的語義相似和冗余。與本發(fā)明相關(guān)的公開報道主要包括[1]胡吉祥.基于頻繁模式的消息文本聚類研究[D].中科院研究生院碩士學(xué)位論 文.2006.44-46 ;[2]賀敏.面向互聯(lián)網(wǎng)的中文有意義串挖掘[D].中國科學(xué)院計算技術(shù)研究所碩士 論文 2007 ;[3] 200710120755. 5,一種面向互聯(lián)網(wǎng)的有意義串的挖掘方法和系統(tǒng);[4] haodi feng. Accessor Variety Criteria for Chinese Word Extraction[J]. Computational Linguistics,30(1),2004。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠有效的提取新聞網(wǎng)頁和論壇上的有意義串,并可 以應(yīng)用于輿情監(jiān)管系統(tǒng)中的面向互聯(lián)網(wǎng)的有意義串的提取方法。本發(fā)明的目的還在于提供 一種面向互聯(lián)網(wǎng)的有意義串的提取裝置。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法包括下列步驟步驟1 提取重復(fù)字符串;步驟2 通過串內(nèi)分析過濾所述字符串;步驟3 通過串外分析過濾所述字符串;步驟4 通過串間分析過濾所述字符串。本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法還可以包括1、步驟1中所述提取重復(fù)字符串包括將網(wǎng)頁語料處理得到規(guī)則化的文本,記錄 文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的 重復(fù)串;具體步驟為步驟1. 1去除網(wǎng)頁標(biāo)簽,將網(wǎng)頁預(yù)處理得到規(guī)則化的文本格式,并把文本編碼格 式轉(zhuǎn)化成GB2312格式的編碼;步驟1. 2根據(jù)GB2312編碼格式,將漢字,英文,數(shù)字符號分別轉(zhuǎn)化成其ID表示,并 將其他符號用空格的ASCII碼代替;步驟1.3提取該文本的重復(fù)串,記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次數(shù),過濾 出現(xiàn)次數(shù)小于一定閾值的重復(fù)串;步驟1.4如果提取的重復(fù)串中有空格,則以空格為分隔符把重復(fù)串拆成子串。步驟二中所述對字符串進(jìn)行串內(nèi)分析包括如果該串不是雙字串,計算字符串的 互信息,判斷互信息是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串;如 果該串是雙字串,根據(jù)訓(xùn)練得到的雙字串統(tǒng)計表和白名單以及雙字串分詞后的結(jié)果對雙字 串進(jìn)行過濾;具體步驟為
步驟2. 1對訓(xùn)練語料進(jìn)行訓(xùn)練,生成雙字串詞性統(tǒng)計表,雙字串白名單;步驟2. 2如果字符串的長度大于2,轉(zhuǎn)入步驟2. 3,否則轉(zhuǎn)入步驟2. 5 ;步驟2. 3計算每個重復(fù)串的互信息,如果互信息達(dá)到閾值,則轉(zhuǎn)入步驟3 ;步驟2. 4如果互信息沒有達(dá)到閾值,則將該串過濾掉;步驟2. 5如果該串在雙字串白名單里,則轉(zhuǎn)入步驟3 ;步驟2. 6對該串用分詞程序進(jìn)行分詞;步驟2. 7如果分詞后的詞性組合在雙字串詞性統(tǒng)計表里,則轉(zhuǎn)入步驟3 ;步驟2. 8如果分詞后的詞性組合不在雙字串詞性統(tǒng)計表里,則過濾此串。步驟3中所述對字符串進(jìn)行串外分析包括計算字符串的熵值,判斷熵值是否達(dá) 到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串;具體步驟為步驟3. 1計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值;步驟3. 2如果達(dá)到閾值,轉(zhuǎn)入步驟4 ;步驟3. 3如果熵值未達(dá)到閾值,則將其過濾掉。步驟4中所述對字符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序,計算排序后 的相鄰兩串之間的重合率,并根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃 分成若干種類型,并分別對每種類型進(jìn)行分析,并過濾掉不符合要求的字符串,進(jìn)而得到有 意義串;具體步驟為步驟4. 1對所有字符串進(jìn)行排序,計算排序后每一對相鄰串的重合率;步驟4. 2如果重合率大于閾值,根據(jù)相鄰兩串之間的組合關(guān)系,將每一對相鄰串 劃分到其所屬的類型;如果重合率小于閾值,則不統(tǒng)計該相鄰串的類型;步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù),計算A串和AB串的頻率比值;根據(jù)頻率 比值的大小來確定如何對A串,AB串處理; 步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù),根據(jù)A串,AB串,ABC串的頻 次的組合關(guān)系來確定如何對A串,AB串,ABC串進(jìn)行處理;步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù),根據(jù)A串,AB串,AC串的頻次 的組合關(guān)系來確定如何對A串,AB串,AC串進(jìn)行處理;步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型,則過濾掉相鄰串中長度 較小的字符串,保留長度較長的字符串。本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取裝置包括依次串接的重復(fù)串發(fā)現(xiàn)模塊、串 內(nèi)分析模塊、串外分析模塊和串間分析模塊;重復(fù)串發(fā)現(xiàn)模塊,用于將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本,記錄文本中出現(xiàn)的 重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值的重復(fù)串和長度低于閾值的重復(fù)串;串內(nèi)分析模塊,用于對字符串進(jìn)行串內(nèi)分析,判斷串的長度,如果該串的長度大于 2,計算字符串的互信息,判斷互信息是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到 閾值的文本串;如果該串是雙字串,利用訓(xùn)練得到的雙字串統(tǒng)計表和白名單,根據(jù)雙字串分 詞后的結(jié)果對雙字串進(jìn)行過濾;串外分析模塊,用于對字符串進(jìn)行串外分析,計算字符串的熵值,判斷熵值是否達(dá) 到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。串間分析模塊,用于對字符串進(jìn)行串間分析,對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的重合率,并根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃 分為若干種類型,并分別對每種類型進(jìn)行分析,過濾掉不滿足要求的字符串,進(jìn)而得到有意義串。所述重合率,是根據(jù)兩串的最長公共子串和最長公共子序列計算得到,反映兩個 串之間重合程度大小的一個特征量。所述重復(fù)串發(fā)現(xiàn)算法可以使用N元遞增分步算法,以及后綴索引算法(包括后綴 樹算法,后綴數(shù)組算法)等。本系統(tǒng)采用后綴數(shù)組算法。本發(fā)明的有益效果是本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法和系統(tǒng),從互 聯(lián)網(wǎng)中下載網(wǎng)頁數(shù)據(jù),然后經(jīng)過重復(fù)串發(fā)現(xiàn),串內(nèi)分析,串外分析和串間分析等四個階段達(dá) 到提取出互聯(lián)網(wǎng)的有意義串的目的。本發(fā)明在重復(fù)串發(fā)現(xiàn)階段采用將標(biāo)點(diǎn)符號和特殊符號 換成分隔符號(空格),能夠很好的限制串的范圍,使有意義串不跨標(biāo)點(diǎn),句子,段落,提高 了重復(fù)串的準(zhǔn)確性。串內(nèi)分析可以使串內(nèi)部更加穩(wěn)固和完整,互信息處理雙字串時需要計 算單字出現(xiàn)頻率,單個漢字的出現(xiàn)頻率很隨機(jī)并且單字不能完整的概括出雙字串的語義, 而利用對雙字串訓(xùn)練后的雙字串詞性統(tǒng)計表和白名單處理雙字串有很好的效果。串外分析 是為了使串能用于比較豐富的語用環(huán)境,更具用獨(dú)立性。串間分析通過對串和串之間差異 性比較,使串具有更好的語義獨(dú)立性,減少串之間的相似程度,并能夠減少特征串的數(shù)量。 本發(fā)明可廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。


圖1是本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法過程示意圖;圖2是本發(fā)明的面向互聯(lián)網(wǎng)的的串內(nèi)分析過程流程圖;圖3是本發(fā)明的面向互聯(lián)網(wǎng)的的串間分析過程流程圖;圖4是本發(fā)明表面向互聯(lián)網(wǎng)的有意義串的提取裝置示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明的一種面向互聯(lián)網(wǎng)的有意義串的提取方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。本發(fā)明將在互聯(lián)網(wǎng)存在的海量網(wǎng)頁中提取出有意義串。有意義串是具有獨(dú)立語 義,緊密耦合,具有廣泛流通性的完整的語言單元。本發(fā)明提取的有意義串可以作為文本表 示模型的特征表示,應(yīng)用于互聯(lián)網(wǎng)海量數(shù)據(jù)的聚類和分類中。本發(fā)明將有意義串挖掘方法過程分為重復(fù)串發(fā)現(xiàn),串內(nèi)分析,串外分析,串間分析 等四個階段,整個過程如圖1所示,包括以下步驟步驟S1,在重復(fù)串發(fā)現(xiàn)階段,將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本,記錄文本中出 現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串。步驟S2,在串內(nèi)分析階段,判斷串的長度,如果該串的長度大于2,計算字符串的 互信息,判斷互信息是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。如 果該串是雙字串,利用訓(xùn)練得到的雙字串詞性統(tǒng)計表和白名單,根據(jù)雙字串分詞后的結(jié)果 對雙字串進(jìn)行過濾。步驟S3,在串外分析階段,計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串。步驟S4,在串間分析階段,對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的 重合率,并根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分為若干種類型,并 分別對每種類型進(jìn)行分析,過濾掉不滿足要求的字符串,進(jìn)而得到有意義串。本發(fā)明主要使用了兩個標(biāo)準(zhǔn)來衡量。首先,本發(fā)明在串內(nèi)分析中,對長度大于2的 串計算互信息,如果互信息值小于閾值,則刪除該串。對于雙字串,首先判斷該串是否在雙 字串白名單里,如果在的話直接對該串進(jìn)行串外分析。如果雙字串不出現(xiàn)在白名單里,判斷 雙字串分詞后的詞性組合是否在雙字串詞性統(tǒng)計表中,如果不在的話過濾該串,否則對該 串進(jìn)行串外分析。其次,本發(fā)明引入了串間分析,以減少串之間的相異程度。計算排序后的相鄰兩 串之間的重合率,根據(jù)串和串之間的組成關(guān)系把重合率大于閾值的鄰串對劃分成若干種類 型,并分別對每種類型進(jìn)行分析,過濾掉不滿足要求的字符串。下面詳細(xì)說明步驟S1中,將網(wǎng)頁語料處理得到規(guī)則化的文本,記錄文本中出現(xiàn)的 重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串的過程。本發(fā)明利用網(wǎng)絡(luò)爬蟲以增量方式采集互聯(lián)網(wǎng)上的數(shù)據(jù),并將下載到的網(wǎng)頁抽取正 文并格式化成純文本文件。然后將文本轉(zhuǎn)化成GB2312編碼,根據(jù)GB2312編碼規(guī)則將文本 中的漢字,數(shù)字,英文轉(zhuǎn)化成其對應(yīng)的ASCII碼值,將其他符號轉(zhuǎn)化成空格的ASCII碼,空格 主要起到了分隔符的作用。采用ASCII碼代替字符編碼可以有效的避免所提取的串中含有 半個漢字的問題,并能有效縮短提取重復(fù)串的時間。目前比較成熟的提取重復(fù)串的方法有基于產(chǎn)生式文法的Sequitur算法,N元遞 增分步算法,以及后綴索引算法(包括后綴樹和后綴數(shù)組)等等。后綴數(shù)組是一種全文索 引結(jié)構(gòu),利用后綴數(shù)組計算語料中所有子串的集合頻度和文檔頻度的算法的時間復(fù)雜度為 O(NlogN),空間復(fù)雜度為0(N),N為文本的長度。本發(fā)明實(shí)例采用的后綴數(shù)組算法。后綴數(shù) 組能在0(n)時間內(nèi)建立。在提取完重復(fù)串之后,要將重復(fù)串中的空格去掉,以空格為分隔符號將重復(fù)串拆 成兩個子重復(fù)串,直至所有重復(fù)串都不含有空格為止。去掉重復(fù)串中的空格的作用是保證 提取的重復(fù)串不會跨標(biāo)點(diǎn)、句子、段落,提高了重復(fù)串的語義完整性?;バ畔⑹呛饬恐貜?fù)串內(nèi)部各組成部分之間的相關(guān)度。如果互信息比較高,則重復(fù) 串與其單獨(dú)左右部分子串相比更可能成為有意義串,否則刪除該串。互信息是通過計算而 得到。計算互信息的公式如下給定字符串S = cic2. . . cn,其中Ci(l≤i≤n)為漢字、 英文或數(shù)字,MI (S)為S串的互信息。MI(S)={f(s)}/[f(sl) + f(sr)-f(s)}其中f(sl)為去掉首字的S串的頻次,f(sr)為去掉尾字的S串的頻次,f(s)為S 串的頻次。如圖2所示,雙字串詞性統(tǒng)計表和雙字串白名單是通過訓(xùn)練語料訓(xùn)練得到的,訓(xùn) 練過程需要在人工的幫助下來訓(xùn)練數(shù)據(jù)。雙字串進(jìn)行分詞的結(jié)果只有兩種情況。第一種情況是對該雙字串用分詞程序只分出一個詞性出來,即該串為一個雙字詞。觀察滿足這種詞 性的所有雙字串是否有實(shí)際的語義,如果實(shí)義串的數(shù)目與滿足該類所有串的數(shù)目的比值超 過閾值的話,則將這種詞性加入到雙字串詞性統(tǒng)計表中。第二種情況是該雙字串用分詞程 序分成兩個詞性,即兩個單字詞,觀察滿足這種詞性的所有雙字串是否有實(shí)際的語義,如果 實(shí)義串的數(shù)目與滿足該類所有串的數(shù)目的比值超過閾值的話,則將其詞性加入到雙字串詞 性統(tǒng)計表中。 對于第二種情況,如果實(shí)義串的數(shù)目與該種詞性組合的串的總數(shù)目的比值沒有超 過閾值的話,我們不將該類詞性組合加入到雙字串詞性統(tǒng)計表中。不過滿足這類詞性組合 的雙字串中也會有部分串具有實(shí)際語義,為了避免去掉這些實(shí)義雙字串造成的有意義串特 征提取不完全,所以可以把這些實(shí)義雙字串加入到雙字串白名單里。雙字串白名單可以事 先過濾那些有實(shí)在意義但其分詞后的詞性組合卻不滿足雙字串詞性分析表的雙字串。對雙 字串進(jìn)行串內(nèi)分析時候首先要用雙字串白名單過濾雙字串,如果雙字串在白名單中,則直 接對該串進(jìn)行串外分析。如果不在白名單中,再對其進(jìn)行串內(nèi)分析步驟中后續(xù)的分析。表1給出了雙字串詞性統(tǒng)計表的部分內(nèi)容及其注釋
雙字串詞 注釋
性統(tǒng)計表分詞結(jié)果第一個詞性第二個詞性雙字串舉例
內(nèi)容
ng1個詞性ng (名語素)無韃虜
nr1個詞性nr (人名)無布什
ns1個詞性ns (地名)無中國
V1個詞性v (動詞)無監(jiān)督
vn1個詞性vn (名動詞)無管理
mng2個詞性m (數(shù)詞)ng(名語素)二舅
ngng2個詞性ng(名語素)ng(名語素)木骨(地名)
nrnr2個詞性nr (人名)nr (人名)湯唯
vn2個詞性v (動詞)n (名詞)借錢
無論用分詞程序?qū)㈦p字串分成一個詞性還是兩個詞性,只要訓(xùn)練I
者詞性組合中大部分是完整的實(shí)義串,則將該詞性或者詞性組合加入到雙字串詞性統(tǒng)計表 中。對雙字串進(jìn)行的串內(nèi)分析可以摒棄很多無意義的特征,提高特征的準(zhǔn)確率。而且 還能極大地減少特征數(shù)目。通過實(shí)驗(yàn)驗(yàn)證,加入雙字串串內(nèi)分析可以使有意義串的特征減 少了 89. 1%。下面詳細(xì)描述步驟S3中,計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值,根 據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串的過程。熵值主要是反映字符串的獨(dú)立性,熵值越大說明該串越能夠在多種語言環(huán)境中使 用。串外分析利用熵值來判別是否對字符串進(jìn)行篩選。計算熵值的公式為EL代表串的熵值。令文本T的子串R共出現(xiàn)F次,其左鄰接 集合L = IA,C2……CJ,C,出現(xiàn)頻次為fi(l彡i彡n),貝丨J R的左鄰接熵如以下公式計算。
10 同理可計算右鄰接熵,左鄰接熵和右鄰接熵的算術(shù)平均值為串的熵值。由于當(dāng)串處在句子首部時,上文為空,無法計算左鄰接熵,此&為該串處在句首的 次數(shù)。同理當(dāng)串處在句子尾部時,下文為空,無法計算右鄰接熵,此時此時fi為該串處在句 尾的次數(shù)。下面詳細(xì)描述步驟S4中,對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的 重合率,并根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分成若干種類型,并 分別對每種類型進(jìn)行分析,過濾掉不滿足要求的字符串,進(jìn)而得到有意義串的過程。為了判斷兩個串的相似程度,本發(fā)明定義了重合率的概念。重合率能夠度量兩個 串的重合程度的大小。當(dāng)重合率大于閾值時,則兩串相似。該閾值取值要大于0.5。重合率 的計算公式如下設(shè)字符串a(chǎn),字符串b的長度分別為lengthl,length2。兩串的最長公共子序列的 長度為si,兩串的最長重復(fù)子串的長度為s2,設(shè)兩串的重合率記為C (a, b),則重合率公式
如下

圖3所示,將所有字符串排序,計算排序后兩兩相鄰串的重合率。根據(jù)相鄰串的 組合形式,只將那些重合率大于閾值的兩兩相鄰串歸入到以下5種類型中,A-AB型相鄰串, A-AB-AC型相鄰串,A-AB-ABC型相鄰串,最長公共子串為1的相鄰串及其他類型。如果相鄰 串的重合率大于閾值,則說明相鄰的兩串之間相似程度比較大。下面分別對各種類型的數(shù) 據(jù)進(jìn)行分析來篩選修剪字符串,以減少字符串的語義冗余和字符串的相似程度。對于A-AB型數(shù)據(jù),本發(fā)明引入頻率比值來反映兩個串語用環(huán)境豐富程度上的差 異程度。我們利用頻率比值來對A-AB型數(shù)據(jù)進(jìn)行篩選和修剪。設(shè)A串的頻次為f(A),AB 串的頻次為f (AB),則頻率比值的公式如下
A-ab型有意義_雜值
串的頻次f(AB)計算A-AB型相鄰串的頻率比值,然后判斷頻率滿足以下哪種情況。S11)如果該頻率比值大于大閾值,則說明A串出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于AB串出現(xiàn)的頻 次,AB串為小概率出現(xiàn)的串。一般來說,小概率出現(xiàn)的串在全文中的作用不太突出,內(nèi)容可 以忽略,而且A串在語義上能對AB串語義的丟失有一定的彌補(bǔ),因此這種情況可以把AB串 過濾掉。S12)如果該頻率比值小于小閾值,則說明A串后面緊接著B串的頻次的概率遠(yuǎn)遠(yuǎn) 大于A串后面不緊接著B串的概率,也就是說AB串有很大的概率作為一個整體出現(xiàn),因此 這種情況把A串過濾掉。S13)如果該頻率比值介于小閾值和大閾值之間,則說明A串后面接B串以及A串 后面不接B串的概率差不多,A串和AB串都具有比較完整的語義,因此這種情況兩串都保甶。對于A-AB-AC型數(shù)據(jù),本發(fā)明通過A串,AB串,AC串的頻次來對字符串進(jìn)行篩選和 修剪。設(shè)A串的頻次為f(A),AB串的頻次為f(AB),AC串的頻次為f(AC)。對該類型數(shù)據(jù) 的處理一共有以下四種情況。
f(AB) + f(AC)S21)如果~^的值大于重合閾值,說明AB串加上AC串出現(xiàn)的總次數(shù)
和A串出現(xiàn)的總次數(shù)差不多,這時用AB串和AC串在語義上可以很好的代替A串。因此這 種情況下我們將A串過濾掉。S22)如果^^^^的值小于重合閾值,并且AB串(或AC串)的頻次小于
最小閾值,即AB串(或AC串)出現(xiàn)的次數(shù)比較少。出現(xiàn)次數(shù)少的串大都是臨時組合,AB串 (或AC串)通常并不作為一個整體出現(xiàn)。因此這種情況下把AB或AC修剪成B或C。S23)如果的值小于重合閾值,并且AB和AC的頻次小于最小閾值,
這種情況下則把AB和AC修剪成B和C。 f(AB) + /(AC)S24)如果^勺值小于重合閾值,并且的頻次都大于最小閾
值,即AB串和AC串都頻繁出現(xiàn),兩串有很大的概率作為一個整體存在,這種情況下不修剪 AB串和AC串。對A-AB-AC型數(shù)據(jù)進(jìn)行串間分析,既能夠減少特征的數(shù)目又可以修剪部分冗余串 成為語義更加完整的有意義串。將AB串修剪成B串,也就是說刪除有意義串集合中的AB 串,并在有意義串集合中增加B串。當(dāng)然如果B串事先已經(jīng)出現(xiàn)在有意義串集合中,此時就 不用增加B串;否則向有意義串集合中添加B串,并將AB串的頻次作為B串的頻次。對于A-AB-ABC型數(shù)據(jù),設(shè)A串的頻次為f (A),AB串的頻次為f (AB),ABC串的頻次
為f(ABC)。本來發(fā)明通過主要根據(jù)^^,二、'f(AB)和f(ABC)四個參數(shù)來對該類
所有字符串進(jìn)行篩選和修剪。對于該類數(shù)據(jù),根據(jù)以下規(guī)則處理A串和AB串,再根據(jù)相同 規(guī)則處理AB串和ABC串,將兩種處理結(jié)果結(jié)合起來就可得到對A-AB-ABC型數(shù)據(jù)的處理結(jié)^ o對于A-AB-ABC型數(shù)據(jù)中的A串和AB型的處理規(guī)則如下1)如果f(A)遠(yuǎn)遠(yuǎn)高于f(AB)串,這種情況將AB串過濾掉。2)如果f (A)接近f (AB),這種情況將A串過濾掉。3)如果f (AB)小于最小閾值,這種情況把AB串修剪成B串。4)如果f(AB)大于最小閾值,這種情況A串和AB串都保留。對A-AB-ABC型數(shù)據(jù)處理的最終規(guī)則如下,規(guī)則的優(yōu)先級順序是從上到下,如果滿 足任一規(guī)則后則可退出,即該對相鄰串處理完畢?!白罱K保留的串”是經(jīng)過對A串,AB串, ABC串的修剪和篩選后最后形成的串。S30) f (AB)遠(yuǎn)遠(yuǎn)大于f (A),最終保留的串為A串。 S31) f (AB)接近f(A), f (ABC)小于f (AB),最終保留的串為ABC串。
S32) f (AB)接近f (A),f (ABC)接近f (AB),最終保留的串為AB串。S33)f(AB)接近f(A),f(ABC)小于最小閾值,最終保留的串為AB串和C串。S34)f(AB)接近f(A),f(ABC)大于最小閾值,最終保留的串為AB串。S35)f(AB)小于最小閾值,最終保留的串為A串,B串和C串。S36)f(AB)大于最小閾值,f(ABC)小于f (AB),最終保留的串為A串和ABC串。S37)f(AB)大于最小閾值,f(ABC)接近f(AB),最終保留的串為A串和AB串。S38)f(AB)大于最小閾值,f(ABC)小于最小閾值,最終保留的串為A,AB和C串。S39)f(AB)大于最小閾值,f (ABC)大于最小閾值,最終保留的串為A,AB和ABC串。對A-AB-ABC類型的數(shù)據(jù)進(jìn)行串間分析,可以極大的減少特征串的數(shù)目,并且使特 征串和特征串之間的相似程度有所減小,而保留的特征串在語義上完全可以概括原有的特 征串。對于相鄰串的最長公共子串為1類型的數(shù)據(jù)來說,只有相鄰串的重合率大于閾值 才有可能將相鄰串劃分到該類。既然相鄰串的重合率大于閾值,則兩串的最長公共子序列 必定大于2。通過實(shí)驗(yàn)數(shù)據(jù)觀察,兩串的語義上比較相似,如下表所示。對于這種類型的數(shù) 據(jù),可將兩串合并成1個串,只保留長度較長的串,而刪除掉長度較短的串。最后將兩串頻 次的總和作為該長度較長的串的頻次。表2給出了最長公共子串為1的相鄰串類型部分?jǐn)?shù)據(jù)的處理結(jié)果 通過實(shí)驗(yàn)驗(yàn)證,滿足該類型的數(shù)據(jù)通常情況下一個特征串是另一個特征串的縮寫 形式,兩者在語義上比較相似。對該類型數(shù)據(jù)進(jìn)行串間分析,可以增加特征的強(qiáng)度,減少語 義漂移,使特征具有更好的代表性;而且也能夠減少特征的數(shù)目,起到降維的作用。以上過程提到的閾值都是經(jīng)過不斷調(diào)整閾值并觀察實(shí)驗(yàn)效果訓(xùn)練得到。經(jīng)過這一系列步驟,還沒有被過濾掉的特征串確定為有意義串。將這些有意義串 和有意義串的頻次輸出,過程結(jié)束。為了驗(yàn)證本發(fā)明的有效性,我們搭建了典型應(yīng)用環(huán)境。實(shí)驗(yàn)采用AMD 0PTER0N 2G 的曙光服務(wù)器,操作系統(tǒng)為2. 6. 16. 19內(nèi)核的Linux企業(yè)版。利用輿情系統(tǒng)收集到的來自新浪,中華網(wǎng),網(wǎng)易,騰訊等六大論壇和各個新聞網(wǎng)頁收集到的1萬多網(wǎng)頁,作為測試數(shù)據(jù) 的原始網(wǎng)頁的一部分。經(jīng)過格式化文本最終的大小為12. 3MB。本發(fā)明的有意義串的挖掘方 法在這些新聞網(wǎng)頁上提取有意義串的正確率可以達(dá)到85.3%。與所屬面向互聯(lián)網(wǎng)的有意義串的提取方法相對應(yīng),本發(fā)明還提供了一種面向互聯(lián) 網(wǎng)的有意義串的提取系統(tǒng),如圖4所示,其包括重復(fù)串發(fā)現(xiàn)模塊,用于將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本,記錄文本中出現(xiàn)的 重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串。串內(nèi)分析模塊,用于對字符串進(jìn)行串內(nèi)分析,判斷字符串的長度,如果該串不是雙 字串,則計算字符串的互信息,判斷互信息是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有 達(dá)到閾值的文本串;如果該串是雙字串,利用訓(xùn)練得到的雙字串詞性統(tǒng)計表和白名單,根據(jù) 雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾。串外分析模塊,用于對字符串進(jìn)行串外分析,計算字符串的熵值,判斷熵值是否達(dá) 到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。串間分析模塊,用于對字符串進(jìn)行串間分析,對所有字符串進(jìn)行排序,計算排序后 的相鄰兩串之間的重合率,并根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃 分為若干類型,并分別對每種類型進(jìn)行分析,過濾掉不滿足要求的字符串,進(jìn)而得到有意義
串o本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取系統(tǒng),采用與面向互聯(lián)網(wǎng)的有意義串的提 取方法相同的過程工作,因此,在本發(fā)明實(shí)施例中,不再對該系統(tǒng)進(jìn)行重復(fù)描述。
1權(quán)利要求
一種面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是包括下列步驟步驟1提取重復(fù)字符串;步驟2通過串內(nèi)分析過濾所述字符串;步驟3通過串外分析過濾所述字符串;步驟4通過串間分析過濾所述字符串。
2.根據(jù)權(quán)利要求1所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述提取重復(fù) 字符串包括將網(wǎng)頁語料處理得到規(guī)則化的文本,記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的 次數(shù),過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串;具體步驟為步驟1. 1去除網(wǎng)頁標(biāo)簽,將網(wǎng)頁預(yù)處理得到規(guī)則化的文本格式,并把文本編碼格式轉(zhuǎn) 化成GB2312格式的編碼;步驟1. 2根據(jù)GB2312編碼格式,將漢字,英文,數(shù)字符號分別轉(zhuǎn)化成其ID表示,并將其 他符號用空格的ASCII碼代替;步驟1.3提取該文本的重復(fù)串,記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次數(shù),過濾出現(xiàn) 次數(shù)小于一定閾值的重復(fù)串;步驟1.4如果提取的重復(fù)串中有空格,則以空格為分隔符把重復(fù)串拆成子串。
3.根據(jù)權(quán)利要求1或2所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字 符串進(jìn)行串內(nèi)分析包括如果該串不是雙字串,計算字符串的互信息,判斷互信息是否達(dá)到 設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串;如果該串是雙字串,根據(jù)訓(xùn)練得 到的雙字串統(tǒng)計表和白名單以及雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾;具體步驟為步驟2. 1對訓(xùn)練語料進(jìn)行訓(xùn)練,生成雙字串詞性統(tǒng)計表,雙字串白名單; 步驟2. 2如果字符串的長度大于2,轉(zhuǎn)入步驟2. 3,否則轉(zhuǎn)入步驟2. 5 ; 步驟2. 3計算每個重復(fù)串的互信息,如果互信息達(dá)到閾值,則轉(zhuǎn)入步驟3 ; 步驟2. 4如果互信息沒有達(dá)到閾值,則將該串過濾掉; 步驟2. 5如果該串在雙字串白名單里,則轉(zhuǎn)入步驟3 ; 步驟2. 6對該串用分詞程序進(jìn)行分詞;步驟2. 7如果分詞后的詞性組合在雙字串詞性統(tǒng)計表里,則轉(zhuǎn)入步驟3 ; 步驟2. 8如果分詞后的詞性組合不在雙字串詞性統(tǒng)計表里,則過濾此串。
4.根據(jù)權(quán)利要求1或2所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字 符串進(jìn)行串外分析包括計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果 過濾掉沒有達(dá)到閾值的文本串;具體步驟為步驟3. 1計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值;步驟3. 2如果達(dá)到閾值,轉(zhuǎn)入步驟4 ;步驟3. 3如果熵值未達(dá)到閾值,則將其過濾掉。
5.根據(jù)權(quán)利要求6所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字符串 進(jìn)行串外分析包括計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾 掉沒有達(dá)到閾值的文本串;具體步驟為步驟3. 1計算字符串的熵值,判斷熵值是否達(dá)到設(shè)定的閾值;步驟3. 2如果達(dá)到閾值,轉(zhuǎn)入步驟4 ;步驟3. 3如果熵值未達(dá)到閾值,則將其過濾掉。
6.根據(jù)權(quán)利要求1或2所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字 符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的重合率,并 根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分成若干種類型,并分別對每 種類型進(jìn)行分析,并過濾掉不符合要求的字符串,進(jìn)而得到有意義串;具體步驟為步驟4. 1對所有字符串進(jìn)行排序,計算排序后每一對相鄰串的重合率; 步驟4. 2如果重合率大于閾值,根據(jù)相鄰兩串之間的組合關(guān)系,將每一對相鄰串劃分 到其所屬的類型;如果重合率小于閾值,則不統(tǒng)計該相鄰串的類型;步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù),計算A串和AB串的頻率比值;根據(jù)頻率比值 的大小來確定如何對A串,AB串處理;步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù),根據(jù)A串,AB串,ABC串的頻次的 組合關(guān)系來確定如何對A串,AB串,ABC串進(jìn)行處理;步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù),根據(jù)A串,AB串,AC串的頻次的組 合關(guān)系來確定如何對A串,AB串,AC串進(jìn)行處理;步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型,則過濾掉相鄰串中長度較小 的字符串,保留長度較長的字符串。
7.根據(jù)權(quán)利要求3所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字符串 進(jìn)行串間分析包括對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的重合率,并根據(jù) 串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分成若干種類型,并分別對每種類 型進(jìn)行分析,并過濾掉不符合要求的字符串,進(jìn)而得到有意義串;具體步驟為步驟4. 1對所有字符串進(jìn)行排序,計算排序后每一對相鄰串的重合率; 步驟4. 2如果重合率大于閾值,根據(jù)相鄰兩串之間的組合關(guān)系,將每一對相鄰串劃分 到其所屬的類型;如果重合率小于閾值,則不統(tǒng)計該相鄰串的類型;步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù),計算A串和AB串的頻率比值;根據(jù)頻率比值 的大小來確定如何對A串,AB串處理;步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù),根據(jù)A串,AB串,ABC串的頻次的 組合關(guān)系來確定如何對A串,AB串,ABC串進(jìn)行處理;步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù),根據(jù)A串,AB串,AC串的頻次的組 合關(guān)系來確定如何對A串,AB串,AC串進(jìn)行處理;步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型,則過濾掉相鄰串中長度較小 的字符串,保留長度較長的字符串。
8.根據(jù)權(quán)利要求4所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字符串 進(jìn)行串間分析包括對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的重合率,并根據(jù) 串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分成若干種類型,并分別對每種類 型進(jìn)行分析,并過濾掉不符合要求的字符串,進(jìn)而得到有意義串;具體步驟為步驟4. 1對所有字符串進(jìn)行排序,計算排序后每一對相鄰串的重合率; 步驟4. 2如果重合率大于閾值,根據(jù)相鄰兩串之間的組合關(guān)系,將每一對相鄰串劃分 到其所屬的類型;如果重合率小于閾值,則不統(tǒng)計該相鄰串的類型;步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù),計算A串和AB串的頻率比值;根據(jù)頻率比值 的大小來確定如何對A串,AB串處理;步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù),根據(jù)A串,AB串,ABC串的頻次的 組合關(guān)系來確定如何對A串,AB串,ABC串進(jìn)行處理;步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù),根據(jù)A串,AB串,AC串的頻次的組 合關(guān)系來確定如何對A串,AB串,AC串進(jìn)行處理;步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型,則過濾掉相鄰串中長度較小 的字符串,保留長度較長的字符串。
9.根據(jù)權(quán)利要求5所述的面向互聯(lián)網(wǎng)的有意義串的提取方法,其特征是所述對字符串 進(jìn)行串間分析包括對所有字符串進(jìn)行排序,計算排序后的相鄰兩串之間的重合率,并根據(jù) 串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分成若干種類型,并分別對每種類 型進(jìn)行分析,并過濾掉不符合要求的字符串,進(jìn)而得到有意義串;具體步驟為步驟4. 1對所有字符串進(jìn)行排序,計算排序后每一對相鄰串的重合率; 步驟4. 2如果重合率大于閾值,根據(jù)相鄰兩串之間的組合關(guān)系,將每一對相鄰串劃分 到其所屬的類型;如果重合率小于閾值,則不統(tǒng)計該相鄰串的類型;步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù),計算A串和AB串的頻率比值;根據(jù)頻率比值 的大小來確定如何對A串,AB串處理;步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù),根據(jù)A串,AB串,ABC串的頻次的 組合關(guān)系來確定如何對A串,AB串,ABC串進(jìn)行處理;步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù),根據(jù)A串,AB串,AC串的頻次的組 合關(guān)系來確定如何對A串,AB串,AC串進(jìn)行處理;步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型,則過濾掉相鄰串中長度較小 的字符串,保留長度較長的字符串。
10.一種面向互聯(lián)網(wǎng)的有意義串的提取裝置,其特征是包括依次串接的重復(fù)串發(fā)現(xiàn)模 塊、串內(nèi)分析模塊、串外分析模塊和串間分析模塊;重復(fù)串發(fā)現(xiàn)模塊,用于將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本,記錄文本中出現(xiàn)的重復(fù) 串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值的重復(fù)串和長度低于閾值的重復(fù)串;串內(nèi)分析模塊,用于對字符串進(jìn)行串內(nèi)分析,判斷串的長度,如果該串的長度大于2,計 算字符串的互信息,判斷互信息是否達(dá)到設(shè)定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值 的文本串;如果該串是雙字串,利用訓(xùn)練得到的雙字串統(tǒng)計表和白名單,根據(jù)雙字串分詞后 的結(jié)果對雙字串進(jìn)行過濾;串外分析模塊,用于對字符串進(jìn)行串外分析,計算字符串的熵值,判斷熵值是否達(dá)到設(shè) 定的閾值,根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。串間分析模塊,用于對字符串進(jìn)行串間分析,對所有字符串進(jìn)行排序,計算排序后的 相鄰兩串之間的重合率,并根據(jù)串和串之間的組成關(guān)系,把重合率大于閾值的鄰串對劃分 為若干種類型,并分別對每種類型進(jìn)行分析,過濾掉不滿足要求的字符串,進(jìn)而得到有意義 串o
全文摘要
本發(fā)明提供的是一種面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置。提取方法包括提取重復(fù)字符串,通過串內(nèi)分析過濾所述字符串,通過串外分析過濾所述字符串,通過串間分析過濾所述字符串步驟;提取裝置包括依次串接的重復(fù)串發(fā)現(xiàn)模塊、串內(nèi)分析模塊、串外分析模塊和串間分析模塊。本發(fā)明能夠有效的提取新聞網(wǎng)頁和論壇上的有意義串。本發(fā)明可廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。
文檔編號G06F17/30GK101853284SQ20101017968
公開日2010年10月6日 申請日期2010年5月24日 優(yōu)先權(quán)日2010年5月24日
發(fā)明者楊武, 王巍, 苘大鵬, 董紅臣 申請人:哈爾濱工程大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1