面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置的制作方法

文檔序號：6602861閱讀：209來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及的是一種利用計算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情管理的技術(shù)，具體的講是從海量的互聯(lián)網(wǎng)網(wǎng)頁和論壇信息中快速準(zhǔn)確高效的提取有意義串的方法和系統(tǒng)。
背景技術(shù)：
文本表示是基于內(nèi)容的文本處理的首要步驟。文本表示中的特征項(xiàng)是影響文本分類和聚類結(jié)果的重要因素。目前常用的文本特征項(xiàng)主要有字，詞，短語，語義等。從理論上講，語義概念(語義集)高于短語(句法集)，短語高于詞(詞語集)，詞高于字(字符集)。通常語義概念可以借助于語義詞典(同義詞，近義詞詞典等)或進(jìn)行潛在語義索引獲取。然而大規(guī)模、覆蓋面廣的語義資源較難獲取，潛在語義索引的算法復(fù)雜度很高，從而限制了語義概念在文本表示中的使用。目前最常用的文本表示模型是向量空間模型，向量空間模型以詞作為特征。以詞作為特征的缺點(diǎn)在于它只簡單地考慮一個詞是否在文檔中出現(xiàn)及其出現(xiàn)頻度，把特征看作是獨(dú)立存在的，而完全忽略了文本上下文間的語義關(guān)系，也沒有考慮特征之間的先后次序。有意義串是具有獨(dú)立語義，緊密耦合，具有廣泛流通性的完整的語言單元。有意義串實(shí)際上就是以短語為特征，以短語為特征的文本表示優(yōu)于以詞做特征的文本表示。目前對有意義串的分析的研究主要有兩大方向，串內(nèi)分析和串外分析。串內(nèi)分析是通過分析本串的結(jié)構(gòu)特征以及組成方式，來判斷串是否滿足有意義串的要求。目前常用的串內(nèi)分析方法主要是通過簡單互信息，位置成詞概率，相鄰字對的耦合性來判斷。簡單互信息[1]比較了一個模式串及其部分子串的頻度，它可以衡量模式串各部分之間的相關(guān)度。當(dāng)從該模式串所取的子串的長度過短時，由于統(tǒng)計較短子串的頻次沒有意義，此時簡單互信息的作用也失效了。位置成詞概率[2]表示某個漢字在某個位置(詞首或詞尾)出現(xiàn)的概率。由于漢字用法比較豐富以及不規(guī)則新詞的不斷出現(xiàn)，不能完全采用某個漢字的位置乘此概率來篩選模式串。在切分好的訓(xùn)練語料中掃描所有出現(xiàn)過的連續(xù)子對，統(tǒng)計出每組字對出現(xiàn)的總次數(shù)以及該字對作為某個詞子串的總次數(shù)，后者與前者的比稱作相鄰字對的耦合度[3]。如果耦合對比較大，表明該字對很可能出現(xiàn)在一個串中。當(dāng)選取的詞對為偶然組合的無意義詞對時，該字對作為某個詞子串的總次數(shù)出現(xiàn)次數(shù)會很少，計算耦合度會過濾掉一些實(shí)義的串。串外分析是分析緊鄰串的上下文的信息，以判斷串的語義環(huán)境是否豐富。目前常用的串外分析主要是通過鄰接類別，熵值，鄰接對熵概念來判斷。鄰接類別[4]是串上文和下文中出現(xiàn)的不同字符數(shù)量的最大值。鄰接類別只考慮字符串左邊和右邊的不同字符的種類數(shù)量，而沒有考慮每個種類的字符出現(xiàn)的頻次。熵值[1][2][3]可以反映出該串語用環(huán)境的豐富程度，度量一個串的獨(dú)立性，但是當(dāng)串出現(xiàn)的頻次整體都不多時效果不太明顯，而且熵值計算沒有考慮上下文的組合關(guān)系。串的上文和下文的組合稱為鄰接對。鄰接對熵[3]是對鄰接對求熵值。如果鄰接類別，熵值，鄰接對熵都比較大，則一個串很有可能成為一個有意乂串。概括而言，已有的有意義串提取算法存在以下缺點(diǎn)1)串內(nèi)分析中采用互信息作為特征不能很好的篩選雙字串，對于雙字串來說，去掉首字和去尾字的串實(shí)際上是單字串，計算單字出現(xiàn)的頻次沒有意義；2)串內(nèi)分析和串外分析都沒有考慮串和串之間的差異性，提取的有意義串中會有很多串表征的內(nèi)容相似，造成許多有意義串的語義相似和冗余。與本發(fā)明相關(guān)的公開報道主要包括[1]胡吉祥.基于頻繁模式的消息文本聚類研究[D].中科院研究生院碩士學(xué)位論文.2006.44-46 ；[2]賀敏.面向互聯(lián)網(wǎng)的中文有意義串挖掘[D].中國科學(xué)院計算技術(shù)研究所碩士論文 2007 ；[3] 200710120755. 5，一種面向互聯(lián)網(wǎng)的有意義串的挖掘方法和系統(tǒng)；[4] haodi feng. Accessor Variety Criteria for Chinese Word Extraction[J]. Computational Linguistics,30(1)，2004。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠有效的提取新聞網(wǎng)頁和論壇上的有意義串，并可以應(yīng)用于輿情監(jiān)管系統(tǒng)中的面向互聯(lián)網(wǎng)的有意義串的提取方法。本發(fā)明的目的還在于提供一種面向互聯(lián)網(wǎng)的有意義串的提取裝置。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法包括下列步驟步驟1 提取重復(fù)字符串；步驟2 通過串內(nèi)分析過濾所述字符串；步驟3 通過串外分析過濾所述字符串；步驟4 通過串間分析過濾所述字符串。本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法還可以包括1、步驟1中所述提取重復(fù)字符串包括將網(wǎng)頁語料處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串；具體步驟為步驟1. 1去除網(wǎng)頁標(biāo)簽，將網(wǎng)頁預(yù)處理得到規(guī)則化的文本格式，并把文本編碼格式轉(zhuǎn)化成GB2312格式的編碼；步驟1. 2根據(jù)GB2312編碼格式，將漢字，英文，數(shù)字符號分別轉(zhuǎn)化成其ID表示，并將其他符號用空格的ASCII碼代替；步驟1.3提取該文本的重復(fù)串，記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次數(shù)，過濾出現(xiàn)次數(shù)小于一定閾值的重復(fù)串；步驟1.4如果提取的重復(fù)串中有空格，則以空格為分隔符把重復(fù)串拆成子串。步驟二中所述對字符串進(jìn)行串內(nèi)分析包括如果該串不是雙字串，計算字符串的互信息，判斷互信息是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；如果該串是雙字串，根據(jù)訓(xùn)練得到的雙字串統(tǒng)計表和白名單以及雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾；具體步驟為
步驟2. 1對訓(xùn)練語料進(jìn)行訓(xùn)練，生成雙字串詞性統(tǒng)計表，雙字串白名單；步驟2. 2如果字符串的長度大于2，轉(zhuǎn)入步驟2. 3，否則轉(zhuǎn)入步驟2. 5 ；步驟2. 3計算每個重復(fù)串的互信息，如果互信息達(dá)到閾值，則轉(zhuǎn)入步驟3 ；步驟2. 4如果互信息沒有達(dá)到閾值，則將該串過濾掉；步驟2. 5如果該串在雙字串白名單里，則轉(zhuǎn)入步驟3 ；步驟2. 6對該串用分詞程序進(jìn)行分詞；步驟2. 7如果分詞后的詞性組合在雙字串詞性統(tǒng)計表里，則轉(zhuǎn)入步驟3 ；步驟2. 8如果分詞后的詞性組合不在雙字串詞性統(tǒng)計表里，則過濾此串。步驟3中所述對字符串進(jìn)行串外分析包括計算字符串的熵值，判斷熵值是否達(dá) 到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；具體步驟為步驟3. 1計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值；步驟3. 2如果達(dá)到閾值，轉(zhuǎn)入步驟4 ；步驟3. 3如果熵值未達(dá)到閾值，則將其過濾掉。步驟4中所述對字符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，并過濾掉不符合要求的字符串，進(jìn)而得到有意義串；具體步驟為步驟4. 1對所有字符串進(jìn)行排序，計算排序后每一對相鄰串的重合率；步驟4. 2如果重合率大于閾值，根據(jù)相鄰兩串之間的組合關(guān)系，將每一對相鄰串劃分到其所屬的類型；如果重合率小于閾值，則不統(tǒng)計該相鄰串的類型；步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù)，計算A串和AB串的頻率比值；根據(jù)頻率比值的大小來確定如何對A串，AB串處理；步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù)，根據(jù)A串，AB串，ABC串的頻次的組合關(guān)系來確定如何對A串，AB串，ABC串進(jìn)行處理；步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù)，根據(jù)A串，AB串，AC串的頻次的組合關(guān)系來確定如何對A串，AB串，AC串進(jìn)行處理；步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型，則過濾掉相鄰串中長度較小的字符串，保留長度較長的字符串。本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取裝置包括依次串接的重復(fù)串發(fā)現(xiàn)模塊、串內(nèi)分析模塊、串外分析模塊和串間分析模塊；重復(fù)串發(fā)現(xiàn)模塊，用于將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和長度低于閾值的重復(fù)串；串內(nèi)分析模塊，用于對字符串進(jìn)行串內(nèi)分析，判斷串的長度，如果該串的長度大于 2，計算字符串的互信息，判斷互信息是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；如果該串是雙字串，利用訓(xùn)練得到的雙字串統(tǒng)計表和白名單，根據(jù)雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾；串外分析模塊，用于對字符串進(jìn)行串外分析，計算字符串的熵值，判斷熵值是否達(dá) 到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。串間分析模塊，用于對字符串進(jìn)行串間分析，對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分為若干種類型，并分別對每種類型進(jìn)行分析，過濾掉不滿足要求的字符串，進(jìn)而得到有意義串。所述重合率，是根據(jù)兩串的最長公共子串和最長公共子序列計算得到，反映兩個串之間重合程度大小的一個特征量。所述重復(fù)串發(fā)現(xiàn)算法可以使用N元遞增分步算法，以及后綴索引算法(包括后綴樹算法，后綴數(shù)組算法)等。本系統(tǒng)采用后綴數(shù)組算法。本發(fā)明的有益效果是本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法和系統(tǒng)，從互聯(lián)網(wǎng)中下載網(wǎng)頁數(shù)據(jù)，然后經(jīng)過重復(fù)串發(fā)現(xiàn)，串內(nèi)分析，串外分析和串間分析等四個階段達(dá) 到提取出互聯(lián)網(wǎng)的有意義串的目的。本發(fā)明在重復(fù)串發(fā)現(xiàn)階段采用將標(biāo)點(diǎn)符號和特殊符號換成分隔符號(空格)，能夠很好的限制串的范圍，使有意義串不跨標(biāo)點(diǎn)，句子，段落，提高了重復(fù)串的準(zhǔn)確性。串內(nèi)分析可以使串內(nèi)部更加穩(wěn)固和完整，互信息處理雙字串時需要計算單字出現(xiàn)頻率，單個漢字的出現(xiàn)頻率很隨機(jī)并且單字不能完整的概括出雙字串的語義，而利用對雙字串訓(xùn)練后的雙字串詞性統(tǒng)計表和白名單處理雙字串有很好的效果。串外分析是為了使串能用于比較豐富的語用環(huán)境，更具用獨(dú)立性。串間分析通過對串和串之間差異性比較，使串具有更好的語義獨(dú)立性，減少串之間的相似程度，并能夠減少特征串的數(shù)量。本發(fā)明可廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。

圖1是本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取方法過程示意圖；圖2是本發(fā)明的面向互聯(lián)網(wǎng)的的串內(nèi)分析過程流程圖；圖3是本發(fā)明的面向互聯(lián)網(wǎng)的的串間分析過程流程圖；圖4是本發(fā)明表面向互聯(lián)網(wǎng)的有意義串的提取裝置示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的，技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對本發(fā)明的一種面向互聯(lián)網(wǎng)的有意義串的提取方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。本發(fā)明將在互聯(lián)網(wǎng)存在的海量網(wǎng)頁中提取出有意義串。有意義串是具有獨(dú)立語義，緊密耦合，具有廣泛流通性的完整的語言單元。本發(fā)明提取的有意義串可以作為文本表示模型的特征表示，應(yīng)用于互聯(lián)網(wǎng)海量數(shù)據(jù)的聚類和分類中。本發(fā)明將有意義串挖掘方法過程分為重復(fù)串發(fā)現(xiàn)，串內(nèi)分析，串外分析，串間分析等四個階段，整個過程如圖1所示，包括以下步驟步驟S1，在重復(fù)串發(fā)現(xiàn)階段，將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串。步驟S2，在串內(nèi)分析階段，判斷串的長度，如果該串的長度大于2，計算字符串的互信息，判斷互信息是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。如果該串是雙字串，利用訓(xùn)練得到的雙字串詞性統(tǒng)計表和白名單，根據(jù)雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾。步驟S3，在串外分析階段，計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串。步驟S4，在串間分析階段，對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分為若干種類型，并分別對每種類型進(jìn)行分析，過濾掉不滿足要求的字符串，進(jìn)而得到有意義串。本發(fā)明主要使用了兩個標(biāo)準(zhǔn)來衡量。首先，本發(fā)明在串內(nèi)分析中，對長度大于2的串計算互信息，如果互信息值小于閾值，則刪除該串。對于雙字串，首先判斷該串是否在雙字串白名單里，如果在的話直接對該串進(jìn)行串外分析。如果雙字串不出現(xiàn)在白名單里，判斷雙字串分詞后的詞性組合是否在雙字串詞性統(tǒng)計表中，如果不在的話過濾該串，否則對該串進(jìn)行串外分析。其次，本發(fā)明引入了串間分析，以減少串之間的相異程度。計算排序后的相鄰兩串之間的重合率，根據(jù)串和串之間的組成關(guān)系把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，過濾掉不滿足要求的字符串。下面詳細(xì)說明步驟S1中，將網(wǎng)頁語料處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串的過程。本發(fā)明利用網(wǎng)絡(luò)爬蟲以增量方式采集互聯(lián)網(wǎng)上的數(shù)據(jù)，并將下載到的網(wǎng)頁抽取正文并格式化成純文本文件。然后將文本轉(zhuǎn)化成GB2312編碼，根據(jù)GB2312編碼規(guī)則將文本中的漢字，數(shù)字，英文轉(zhuǎn)化成其對應(yīng)的ASCII碼值，將其他符號轉(zhuǎn)化成空格的ASCII碼，空格主要起到了分隔符的作用。采用ASCII碼代替字符編碼可以有效的避免所提取的串中含有半個漢字的問題，并能有效縮短提取重復(fù)串的時間。目前比較成熟的提取重復(fù)串的方法有基于產(chǎn)生式文法的Sequitur算法，N元遞增分步算法，以及后綴索引算法(包括后綴樹和后綴數(shù)組)等等。后綴數(shù)組是一種全文索引結(jié)構(gòu)，利用后綴數(shù)組計算語料中所有子串的集合頻度和文檔頻度的算法的時間復(fù)雜度為 O(NlogN)，空間復(fù)雜度為0(N)，N為文本的長度。本發(fā)明實(shí)例采用的后綴數(shù)組算法。后綴數(shù) 組能在0(n)時間內(nèi)建立。在提取完重復(fù)串之后，要將重復(fù)串中的空格去掉，以空格為分隔符號將重復(fù)串拆成兩個子重復(fù)串，直至所有重復(fù)串都不含有空格為止。去掉重復(fù)串中的空格的作用是保證提取的重復(fù)串不會跨標(biāo)點(diǎn)、句子、段落，提高了重復(fù)串的語義完整性?；バ畔⑹呛饬恐貜?fù)串內(nèi)部各組成部分之間的相關(guān)度。如果互信息比較高，則重復(fù) 串與其單獨(dú)左右部分子串相比更可能成為有意義串，否則刪除該串。互信息是通過計算而得到。計算互信息的公式如下給定字符串S = cic2. . . cn，其中Ci(l≤i≤n)為漢字、英文或數(shù)字，MI (S)為S串的互信息。MI(S)={f(s)}/[f(sl) + f(sr)-f(s)}其中f(sl)為去掉首字的S串的頻次，f(sr)為去掉尾字的S串的頻次，f(s)為S 串的頻次。如圖2所示，雙字串詞性統(tǒng)計表和雙字串白名單是通過訓(xùn)練語料訓(xùn)練得到的，訓(xùn) 練過程需要在人工的幫助下來訓(xùn)練數(shù)據(jù)。雙字串進(jìn)行分詞的結(jié)果只有兩種情況。第一種情況是對該雙字串用分詞程序只分出一個詞性出來，即該串為一個雙字詞。觀察滿足這種詞性的所有雙字串是否有實(shí)際的語義，如果實(shí)義串的數(shù)目與滿足該類所有串的數(shù)目的比值超過閾值的話，則將這種詞性加入到雙字串詞性統(tǒng)計表中。第二種情況是該雙字串用分詞程序分成兩個詞性，即兩個單字詞，觀察滿足這種詞性的所有雙字串是否有實(shí)際的語義，如果實(shí)義串的數(shù)目與滿足該類所有串的數(shù)目的比值超過閾值的話，則將其詞性加入到雙字串詞性統(tǒng)計表中。對于第二種情況，如果實(shí)義串的數(shù)目與該種詞性組合的串的總數(shù)目的比值沒有超過閾值的話，我們不將該類詞性組合加入到雙字串詞性統(tǒng)計表中。不過滿足這類詞性組合的雙字串中也會有部分串具有實(shí)際語義，為了避免去掉這些實(shí)義雙字串造成的有意義串特征提取不完全，所以可以把這些實(shí)義雙字串加入到雙字串白名單里。雙字串白名單可以事先過濾那些有實(shí)在意義但其分詞后的詞性組合卻不滿足雙字串詞性分析表的雙字串。對雙字串進(jìn)行串內(nèi)分析時候首先要用雙字串白名單過濾雙字串，如果雙字串在白名單中，則直接對該串進(jìn)行串外分析。如果不在白名單中，再對其進(jìn)行串內(nèi)分析步驟中后續(xù)的分析。表1給出了雙字串詞性統(tǒng)計表的部分內(nèi)容及其注釋
雙字串詞注釋
性統(tǒng)計表分詞結(jié)果第一個詞性第二個詞性雙字串舉例
內(nèi)容
ng1個詞性ng (名語素)無韃虜
nr1個詞性nr (人名)無布什
ns1個詞性ns (地名)無中國
V1個詞性v (動詞)無監(jiān)督
vn1個詞性vn (名動詞)無管理
mng2個詞性m (數(shù)詞)ng(名語素)二舅
ngng2個詞性ng(名語素)ng(名語素)木骨(地名)
nrnr2個詞性nr (人名)nr (人名)湯唯
vn2個詞性v (動詞)n (名詞)借錢
無論用分詞程序?qū)㈦p字串分成一個詞性還是兩個詞性，只要訓(xùn)練I
者詞性組合中大部分是完整的實(shí)義串，則將該詞性或者詞性組合加入到雙字串詞性統(tǒng)計表中。對雙字串進(jìn)行的串內(nèi)分析可以摒棄很多無意義的特征，提高特征的準(zhǔn)確率。而且還能極大地減少特征數(shù)目。通過實(shí)驗(yàn)驗(yàn)證，加入雙字串串內(nèi)分析可以使有意義串的特征減少了 89. 1%。下面詳細(xì)描述步驟S3中，計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串的過程。熵值主要是反映字符串的獨(dú)立性，熵值越大說明該串越能夠在多種語言環(huán)境中使用。串外分析利用熵值來判別是否對字符串進(jìn)行篩選。計算熵值的公式為EL代表串的熵值。令文本T的子串R共出現(xiàn)F次，其左鄰接集合L = IA，C2……CJ，C,出現(xiàn)頻次為fi(l彡i彡n)，貝丨J R的左鄰接熵如以下公式計算。
10 同理可計算右鄰接熵，左鄰接熵和右鄰接熵的算術(shù)平均值為串的熵值。由于當(dāng)串處在句子首部時，上文為空，無法計算左鄰接熵，此&為該串處在句首的次數(shù)。同理當(dāng)串處在句子尾部時，下文為空，無法計算右鄰接熵，此時此時fi為該串處在句尾的次數(shù)。下面詳細(xì)描述步驟S4中，對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，過濾掉不滿足要求的字符串，進(jìn)而得到有意義串的過程。為了判斷兩個串的相似程度，本發(fā)明定義了重合率的概念。重合率能夠度量兩個串的重合程度的大小。當(dāng)重合率大于閾值時，則兩串相似。該閾值取值要大于0.5。重合率的計算公式如下設(shè)字符串a(chǎn)，字符串b的長度分別為lengthl，length2。兩串的最長公共子序列的長度為si，兩串的最長重復(fù)子串的長度為s2，設(shè)兩串的重合率記為C (a, b)，則重合率公式
如下

圖3所示，將所有字符串排序，計算排序后兩兩相鄰串的重合率。根據(jù)相鄰串的組合形式，只將那些重合率大于閾值的兩兩相鄰串歸入到以下5種類型中，A-AB型相鄰串， A-AB-AC型相鄰串，A-AB-ABC型相鄰串，最長公共子串為1的相鄰串及其他類型。如果相鄰串的重合率大于閾值，則說明相鄰的兩串之間相似程度比較大。下面分別對各種類型的數(shù) 據(jù)進(jìn)行分析來篩選修剪字符串，以減少字符串的語義冗余和字符串的相似程度。對于A-AB型數(shù)據(jù)，本發(fā)明引入頻率比值來反映兩個串語用環(huán)境豐富程度上的差異程度。我們利用頻率比值來對A-AB型數(shù)據(jù)進(jìn)行篩選和修剪。設(shè)A串的頻次為f(A)，AB 串的頻次為f (AB)，則頻率比值的公式如下
A-ab型有意義_雜值
串的頻次f(AB)計算A-AB型相鄰串的頻率比值，然后判斷頻率滿足以下哪種情況。S11)如果該頻率比值大于大閾值，則說明A串出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于AB串出現(xiàn)的頻次，AB串為小概率出現(xiàn)的串。一般來說，小概率出現(xiàn)的串在全文中的作用不太突出，內(nèi)容可以忽略，而且A串在語義上能對AB串語義的丟失有一定的彌補(bǔ)，因此這種情況可以把AB串過濾掉。S12)如果該頻率比值小于小閾值，則說明A串后面緊接著B串的頻次的概率遠(yuǎn)遠(yuǎn) 大于A串后面不緊接著B串的概率，也就是說AB串有很大的概率作為一個整體出現(xiàn)，因此這種情況把A串過濾掉。S13)如果該頻率比值介于小閾值和大閾值之間，則說明A串后面接B串以及A串后面不接B串的概率差不多，A串和AB串都具有比較完整的語義，因此這種情況兩串都保甶。對于A-AB-AC型數(shù)據(jù)，本發(fā)明通過A串，AB串，AC串的頻次來對字符串進(jìn)行篩選和修剪。設(shè)A串的頻次為f(A)，AB串的頻次為f(AB)，AC串的頻次為f(AC)。對該類型數(shù)據(jù) 的處理一共有以下四種情況。
f(AB) + f(AC)S21)如果~^的值大于重合閾值，說明AB串加上AC串出現(xiàn)的總次數(shù)
和A串出現(xiàn)的總次數(shù)差不多，這時用AB串和AC串在語義上可以很好的代替A串。因此這種情況下我們將A串過濾掉。S22)如果^^^^的值小于重合閾值，并且AB串(或AC串)的頻次小于
最小閾值，即AB串(或AC串)出現(xiàn)的次數(shù)比較少。出現(xiàn)次數(shù)少的串大都是臨時組合，AB串 (或AC串)通常并不作為一個整體出現(xiàn)。因此這種情況下把AB或AC修剪成B或C。S23)如果的值小于重合閾值，并且AB和AC的頻次小于最小閾值，
這種情況下則把AB和AC修剪成B和C。 f(AB) + /(AC)S24)如果^勺值小于重合閾值，并且的頻次都大于最小閾
值，即AB串和AC串都頻繁出現(xiàn)，兩串有很大的概率作為一個整體存在，這種情況下不修剪 AB串和AC串。對A-AB-AC型數(shù)據(jù)進(jìn)行串間分析，既能夠減少特征的數(shù)目又可以修剪部分冗余串成為語義更加完整的有意義串。將AB串修剪成B串，也就是說刪除有意義串集合中的AB 串，并在有意義串集合中增加B串。當(dāng)然如果B串事先已經(jīng)出現(xiàn)在有意義串集合中，此時就不用增加B串；否則向有意義串集合中添加B串，并將AB串的頻次作為B串的頻次。對于A-AB-ABC型數(shù)據(jù)，設(shè)A串的頻次為f (A)，AB串的頻次為f (AB)，ABC串的頻次
為f(ABC)。本來發(fā)明通過主要根據(jù)^^，二、'f(AB)和f(ABC)四個參數(shù)來對該類
所有字符串進(jìn)行篩選和修剪。對于該類數(shù)據(jù)，根據(jù)以下規(guī)則處理A串和AB串，再根據(jù)相同規(guī)則處理AB串和ABC串，將兩種處理結(jié)果結(jié)合起來就可得到對A-AB-ABC型數(shù)據(jù)的處理結(jié)^ o對于A-AB-ABC型數(shù)據(jù)中的A串和AB型的處理規(guī)則如下1)如果f(A)遠(yuǎn)遠(yuǎn)高于f(AB)串，這種情況將AB串過濾掉。2)如果f (A)接近f (AB)，這種情況將A串過濾掉。3)如果f (AB)小于最小閾值，這種情況把AB串修剪成B串。4)如果f(AB)大于最小閾值，這種情況A串和AB串都保留。對A-AB-ABC型數(shù)據(jù)處理的最終規(guī)則如下，規(guī)則的優(yōu)先級順序是從上到下，如果滿足任一規(guī)則后則可退出，即該對相鄰串處理完畢?！白罱K保留的串”是經(jīng)過對A串，AB串， ABC串的修剪和篩選后最后形成的串。S30) f (AB)遠(yuǎn)遠(yuǎn)大于f (A)，最終保留的串為A串。 S31) f (AB)接近f(A), f (ABC)小于f (AB)，最終保留的串為ABC串。
S32) f (AB)接近f (A)，f (ABC)接近f (AB)，最終保留的串為AB串。S33)f(AB)接近f(A)，f(ABC)小于最小閾值，最終保留的串為AB串和C串。S34)f(AB)接近f(A)，f(ABC)大于最小閾值，最終保留的串為AB串。S35)f(AB)小于最小閾值，最終保留的串為A串，B串和C串。S36)f(AB)大于最小閾值，f(ABC)小于f (AB)，最終保留的串為A串和ABC串。S37)f(AB)大于最小閾值，f(ABC)接近f(AB)，最終保留的串為A串和AB串。S38)f(AB)大于最小閾值，f(ABC)小于最小閾值，最終保留的串為A，AB和C串。S39)f(AB)大于最小閾值，f (ABC)大于最小閾值，最終保留的串為A，AB和ABC串。對A-AB-ABC類型的數(shù)據(jù)進(jìn)行串間分析，可以極大的減少特征串的數(shù)目，并且使特征串和特征串之間的相似程度有所減小，而保留的特征串在語義上完全可以概括原有的特征串。對于相鄰串的最長公共子串為1類型的數(shù)據(jù)來說，只有相鄰串的重合率大于閾值才有可能將相鄰串劃分到該類。既然相鄰串的重合率大于閾值，則兩串的最長公共子序列必定大于2。通過實(shí)驗(yàn)數(shù)據(jù)觀察，兩串的語義上比較相似，如下表所示。對于這種類型的數(shù) 據(jù)，可將兩串合并成1個串，只保留長度較長的串，而刪除掉長度較短的串。最后將兩串頻次的總和作為該長度較長的串的頻次。表2給出了最長公共子串為1的相鄰串類型部分?jǐn)?shù)據(jù)的處理結(jié)果通過實(shí)驗(yàn)驗(yàn)證，滿足該類型的數(shù)據(jù)通常情況下一個特征串是另一個特征串的縮寫形式，兩者在語義上比較相似。對該類型數(shù)據(jù)進(jìn)行串間分析，可以增加特征的強(qiáng)度，減少語義漂移，使特征具有更好的代表性；而且也能夠減少特征的數(shù)目，起到降維的作用。以上過程提到的閾值都是經(jīng)過不斷調(diào)整閾值并觀察實(shí)驗(yàn)效果訓(xùn)練得到。經(jīng)過這一系列步驟，還沒有被過濾掉的特征串確定為有意義串。將這些有意義串和有意義串的頻次輸出，過程結(jié)束。為了驗(yàn)證本發(fā)明的有效性，我們搭建了典型應(yīng)用環(huán)境。實(shí)驗(yàn)采用AMD 0PTER0N 2G 的曙光服務(wù)器，操作系統(tǒng)為2. 6. 16. 19內(nèi)核的Linux企業(yè)版。利用輿情系統(tǒng)收集到的來自新浪，中華網(wǎng)，網(wǎng)易，騰訊等六大論壇和各個新聞網(wǎng)頁收集到的1萬多網(wǎng)頁，作為測試數(shù)據(jù) 的原始網(wǎng)頁的一部分。經(jīng)過格式化文本最終的大小為12. 3MB。本發(fā)明的有意義串的挖掘方法在這些新聞網(wǎng)頁上提取有意義串的正確率可以達(dá)到85.3%。與所屬面向互聯(lián)網(wǎng)的有意義串的提取方法相對應(yīng)，本發(fā)明還提供了一種面向互聯(lián) 網(wǎng)的有意義串的提取系統(tǒng)，如圖4所示，其包括重復(fù)串發(fā)現(xiàn)模塊，用于將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串。串內(nèi)分析模塊，用于對字符串進(jìn)行串內(nèi)分析，判斷字符串的長度，如果該串不是雙字串，則計算字符串的互信息，判斷互信息是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；如果該串是雙字串，利用訓(xùn)練得到的雙字串詞性統(tǒng)計表和白名單，根據(jù) 雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾。串外分析模塊，用于對字符串進(jìn)行串外分析，計算字符串的熵值，判斷熵值是否達(dá) 到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。串間分析模塊，用于對字符串進(jìn)行串間分析，對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分為若干類型，并分別對每種類型進(jìn)行分析，過濾掉不滿足要求的字符串，進(jìn)而得到有意義
串o本發(fā)明的面向互聯(lián)網(wǎng)的有意義串的提取系統(tǒng)，采用與面向互聯(lián)網(wǎng)的有意義串的提取方法相同的過程工作，因此，在本發(fā)明實(shí)施例中，不再對該系統(tǒng)進(jìn)行重復(fù)描述。
1權(quán)利要求
一種面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是包括下列步驟步驟1提取重復(fù)字符串；步驟2通過串內(nèi)分析過濾所述字符串；步驟3通過串外分析過濾所述字符串；步驟4通過串間分析過濾所述字符串。
2.根據(jù)權(quán)利要求1所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述提取重復(fù) 字符串包括將網(wǎng)頁語料處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù)串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和串長低于閾值的重復(fù)串；具體步驟為步驟1. 1去除網(wǎng)頁標(biāo)簽，將網(wǎng)頁預(yù)處理得到規(guī)則化的文本格式，并把文本編碼格式轉(zhuǎn) 化成GB2312格式的編碼；步驟1. 2根據(jù)GB2312編碼格式，將漢字，英文，數(shù)字符號分別轉(zhuǎn)化成其ID表示，并將其他符號用空格的ASCII碼代替；步驟1.3提取該文本的重復(fù)串，記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次數(shù)，過濾出現(xiàn) 次數(shù)小于一定閾值的重復(fù)串；步驟1.4如果提取的重復(fù)串中有空格，則以空格為分隔符把重復(fù)串拆成子串。
3.根據(jù)權(quán)利要求1或2所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串內(nèi)分析包括如果該串不是雙字串，計算字符串的互信息，判斷互信息是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；如果該串是雙字串，根據(jù)訓(xùn)練得到的雙字串統(tǒng)計表和白名單以及雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾；具體步驟為步驟2. 1對訓(xùn)練語料進(jìn)行訓(xùn)練，生成雙字串詞性統(tǒng)計表，雙字串白名單；步驟2. 2如果字符串的長度大于2，轉(zhuǎn)入步驟2. 3，否則轉(zhuǎn)入步驟2. 5 ；步驟2. 3計算每個重復(fù)串的互信息，如果互信息達(dá)到閾值，則轉(zhuǎn)入步驟3 ；步驟2. 4如果互信息沒有達(dá)到閾值，則將該串過濾掉；步驟2. 5如果該串在雙字串白名單里，則轉(zhuǎn)入步驟3 ；步驟2. 6對該串用分詞程序進(jìn)行分詞；步驟2. 7如果分詞后的詞性組合在雙字串詞性統(tǒng)計表里，則轉(zhuǎn)入步驟3 ；步驟2. 8如果分詞后的詞性組合不在雙字串詞性統(tǒng)計表里，則過濾此串。
4.根據(jù)權(quán)利要求1或2所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串外分析包括計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；具體步驟為步驟3. 1計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值；步驟3. 2如果達(dá)到閾值，轉(zhuǎn)入步驟4 ；步驟3. 3如果熵值未達(dá)到閾值，則將其過濾掉。
5.根據(jù)權(quán)利要求6所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串外分析包括計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；具體步驟為步驟3. 1計算字符串的熵值，判斷熵值是否達(dá)到設(shè)定的閾值；步驟3. 2如果達(dá)到閾值，轉(zhuǎn)入步驟4 ；步驟3. 3如果熵值未達(dá)到閾值，則將其過濾掉。
6.根據(jù)權(quán)利要求1或2所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，并過濾掉不符合要求的字符串，進(jìn)而得到有意義串；具體步驟為步驟4. 1對所有字符串進(jìn)行排序，計算排序后每一對相鄰串的重合率；步驟4. 2如果重合率大于閾值，根據(jù)相鄰兩串之間的組合關(guān)系，將每一對相鄰串劃分到其所屬的類型；如果重合率小于閾值，則不統(tǒng)計該相鄰串的類型；步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù)，計算A串和AB串的頻率比值；根據(jù)頻率比值的大小來確定如何對A串，AB串處理；步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù)，根據(jù)A串，AB串，ABC串的頻次的組合關(guān)系來確定如何對A串，AB串，ABC串進(jìn)行處理；步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù)，根據(jù)A串，AB串，AC串的頻次的組合關(guān)系來確定如何對A串，AB串，AC串進(jìn)行處理；步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型，則過濾掉相鄰串中長度較小的字符串，保留長度較長的字符串。
7.根據(jù)權(quán)利要求3所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù) 串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，并過濾掉不符合要求的字符串，進(jìn)而得到有意義串；具體步驟為步驟4. 1對所有字符串進(jìn)行排序，計算排序后每一對相鄰串的重合率；步驟4. 2如果重合率大于閾值，根據(jù)相鄰兩串之間的組合關(guān)系，將每一對相鄰串劃分到其所屬的類型；如果重合率小于閾值，則不統(tǒng)計該相鄰串的類型；步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù)，計算A串和AB串的頻率比值；根據(jù)頻率比值的大小來確定如何對A串，AB串處理；步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù)，根據(jù)A串，AB串，ABC串的頻次的組合關(guān)系來確定如何對A串，AB串，ABC串進(jìn)行處理；步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù)，根據(jù)A串，AB串，AC串的頻次的組合關(guān)系來確定如何對A串，AB串，AC串進(jìn)行處理；步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型，則過濾掉相鄰串中長度較小的字符串，保留長度較長的字符串。
8.根據(jù)權(quán)利要求4所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù) 串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，并過濾掉不符合要求的字符串，進(jìn)而得到有意義串；具體步驟為步驟4. 1對所有字符串進(jìn)行排序，計算排序后每一對相鄰串的重合率；步驟4. 2如果重合率大于閾值，根據(jù)相鄰兩串之間的組合關(guān)系，將每一對相鄰串劃分到其所屬的類型；如果重合率小于閾值，則不統(tǒng)計該相鄰串的類型；步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù)，計算A串和AB串的頻率比值；根據(jù)頻率比值的大小來確定如何對A串，AB串處理；步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù)，根據(jù)A串，AB串，ABC串的頻次的組合關(guān)系來確定如何對A串，AB串，ABC串進(jìn)行處理；步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù)，根據(jù)A串，AB串，AC串的頻次的組合關(guān)系來確定如何對A串，AB串，AC串進(jìn)行處理；步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型，則過濾掉相鄰串中長度較小的字符串，保留長度較長的字符串。
9.根據(jù)權(quán)利要求5所述的面向互聯(lián)網(wǎng)的有意義串的提取方法，其特征是所述對字符串進(jìn)行串間分析包括對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù) 串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分成若干種類型，并分別對每種類型進(jìn)行分析，并過濾掉不符合要求的字符串，進(jìn)而得到有意義串；具體步驟為步驟4. 1對所有字符串進(jìn)行排序，計算排序后每一對相鄰串的重合率；步驟4. 2如果重合率大于閾值，根據(jù)相鄰兩串之間的組合關(guān)系，將每一對相鄰串劃分到其所屬的類型；如果重合率小于閾值，則不統(tǒng)計該相鄰串的類型；步驟4. 3如果該相鄰串屬于A-AB型數(shù)據(jù)，計算A串和AB串的頻率比值；根據(jù)頻率比值的大小來確定如何對A串，AB串處理；步驟4. 4如果連續(xù)兩個相鄰串屬于A-AB-ABC型數(shù)據(jù)，根據(jù)A串，AB串，ABC串的頻次的組合關(guān)系來確定如何對A串，AB串，ABC串進(jìn)行處理；步驟4. 5如果連續(xù)兩個相鄰串屬于A-AB-AC型數(shù)據(jù)，根據(jù)A串，AB串，AC串的頻次的組合關(guān)系來確定如何對A串，AB串，AC串進(jìn)行處理；步驟4. 6如果該相鄰串屬于最長公共子串僅為1的類型，則過濾掉相鄰串中長度較小的字符串，保留長度較長的字符串。
10.一種面向互聯(lián)網(wǎng)的有意義串的提取裝置，其特征是包括依次串接的重復(fù)串發(fā)現(xiàn)模塊、串內(nèi)分析模塊、串外分析模塊和串間分析模塊；重復(fù)串發(fā)現(xiàn)模塊，用于將網(wǎng)頁語料預(yù)處理得到規(guī)則化的文本，記錄文本中出現(xiàn)的重復(fù) 串以及其出現(xiàn)的次數(shù)，過濾掉頻次低于閾值的重復(fù)串和長度低于閾值的重復(fù)串；串內(nèi)分析模塊，用于對字符串進(jìn)行串內(nèi)分析，判斷串的長度，如果該串的長度大于2，計算字符串的互信息，判斷互信息是否達(dá)到設(shè)定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的文本串；如果該串是雙字串，利用訓(xùn)練得到的雙字串統(tǒng)計表和白名單，根據(jù)雙字串分詞后的結(jié)果對雙字串進(jìn)行過濾；串外分析模塊，用于對字符串進(jìn)行串外分析，計算字符串的熵值，判斷熵值是否達(dá)到設(shè) 定的閾值，根據(jù)判斷結(jié)果過濾掉沒有達(dá)到閾值的字符串。串間分析模塊，用于對字符串進(jìn)行串間分析，對所有字符串進(jìn)行排序，計算排序后的相鄰兩串之間的重合率，并根據(jù)串和串之間的組成關(guān)系，把重合率大于閾值的鄰串對劃分為若干種類型，并分別對每種類型進(jìn)行分析，過濾掉不滿足要求的字符串，進(jìn)而得到有意義串o
全文摘要
本發(fā)明提供的是一種面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置。提取方法包括提取重復(fù)字符串，通過串內(nèi)分析過濾所述字符串，通過串外分析過濾所述字符串，通過串間分析過濾所述字符串步驟；提取裝置包括依次串接的重復(fù)串發(fā)現(xiàn)模塊、串內(nèi)分析模塊、串外分析模塊和串間分析模塊。本發(fā)明能夠有效的提取新聞網(wǎng)頁和論壇上的有意義串。本發(fā)明可廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。
文檔編號G06F17/30GK101853284SQ20101017968
公開日2010年10月6日申請日期2010年5月24日優(yōu)先權(quán)日2010年5月24日
發(fā)明者楊武, 王巍, 苘大鵬, 董紅臣申請人:哈爾濱工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王巍;楊武;苘大鵬;董紅臣
技術(shù)所有人：哈爾濱工程大學(xué)
我是此專利的發(fā)明人

上一篇：一種文件自動分類系統(tǒng)的制作方法
上一篇：一種文件自動分類方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

互聯(lián)網(wǎng)裝置藝術(shù)相關(guān)技術(shù)

硬定位裝置的意義相關(guān)技術(shù)

索氏提取裝置相關(guān)技術(shù)

索氏提取器裝置圖相關(guān)技術(shù)

回流提取裝置圖相關(guān)技術(shù)

索氏提取裝置圖相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向互聯(lián)網(wǎng)的有意義串的提取方法及裝置的制作方法