文本信息的處理方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及信息處理技術,特別是涉及一種文本信息的處理方法和裝置。
【背景技術】
[0002]各種文本信息中的網(wǎng)絡傳播中,非法信息傳播者為了逃避信息安全中的各種信息過濾應用而在文本信息中添加噪音,以繞過信息過濾應用所進行的安全檢測,使得作為垃圾信息甚至于非法信息的文本信息得以廣泛地傳播。
[0003]傳統(tǒng)的文本信息過濾應用是提取文本信息的關鍵字實現(xiàn)其中的噪音清除的,但是,由于經過傳統(tǒng)的文本信息過濾應用提得到的文本信息僅僅是由原文本信息中提取得到的關鍵字組合在一起形成的,并不會對非關鍵字進行提取,因此常常遺漏了非關鍵字,進而造成文本信息的缺失。
【發(fā)明內容】
[0004]基于此,有必要針對文本信息過濾中遺漏非關鍵字的技術問題,提供一種能避免非關鍵字遺漏的文本信息的處理方法。
[0005]此外,還有必要提供一種能避免非關鍵字遺漏的文本信息的處理裝置。
[0006]一種文本信息的處理方法,包括如下步驟:
[0007]對文本信息進行分詞處理以得到切分的文本;
[0008]提取所述切分的文本匹配的詞以及所述切分的文本在所述文本信息中的偏移量;
[0009]判斷是否存在未匹配的切分的文本,若為是,則組合所述相互連續(xù)的切分的文本,并更新所述組合的文本的出現(xiàn)頻度;
[0010]根據(jù)所述出現(xiàn)頻度獲取所述組合的文本在所述文本信息中的偏移量;
[0011]根據(jù)所述偏移量將所述切合的文本匹配的詞和組合的文本進行組合排列得到有效文本信息。
[0012]一種文本信息的處理裝置,其特征在于,包括:
[0013]分詞處理模塊,用于對文本信息進行分詞處理以得到切分的文本;
[0014]偏移量提取模塊,用于提取所述切分的文本匹配的詞以及所述切分的文本在所述文本信息中的偏移量;
[0015]未匹配處理模塊,用于判斷是否存在未匹配的切分的文本,若為是,則組合所述相互連續(xù)的切分的文本,并更新所述組合的文本的出現(xiàn)頻度;
[0016]組合文本處理模塊,用于根據(jù)所述出現(xiàn)頻度獲取所述組合的文本在所述文本信息的偏移量;
[0017]組合排列模塊,用于根據(jù)所述偏移量將所述切合的文本匹配的詞和組合的文本進行組合排列得到有效文本信息。
[0018]上述文本信息的處理方法和裝置中,對文本信息進行分詞處理以得以切分的文本,提取切分的文本匹配的詞以及切分的文本在文本信息中的偏移量,此時,所提取到的切分的文本匹配的詞必然為文本信息中的關鍵詞,而對于不存在與其匹配的詞的切分的文本,由于無法提取得到與之相匹配的詞被視為非關鍵詞,此時,需要將相互之間連續(xù)的切分的文本組合在一起,并更新這一組合在一起的文本的出現(xiàn)頻度,進而根據(jù)出現(xiàn)頻度來進行組合的文本在文本信息中的偏移量的獲取,根據(jù)偏移量將切分的文本和組合的文本進行組合排列得到有效文本信息,無論是文本信息中的關鍵字還是非關鍵字均存在于有效文本信息中,避免了非關鍵字的遺漏,屏蔽了噪音在文本信息中對文本完整性和語義上的干擾,有效提聞了識別文本/[目息的準確性。
【附圖說明】
[0019]圖1為一個實施例中文本信息的處理方法的流程圖;
[0020]圖2為圖1中根據(jù)出現(xiàn)頻度獲取組合的文本在文本信息中的偏移量的方法流程圖;
[0021]圖3為一個實施例中文本信息的處理裝置的結構示意圖;
[0022]圖4為一個實施例中組合文本處理模塊的結構示意圖;
[0023]圖5為一個實施例中實現(xiàn)本發(fā)明實施例的計算機系統(tǒng)的模塊圖。
【具體實施方式】
[0024]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0025]除非上下文另有特定清楚的描述,本發(fā)明中的元件和組件,數(shù)量既可以單個的形式存在,也可以多個的形式存在,本發(fā)明并不對此進行限定。本發(fā)明中的步驟雖然用標號進行了排列,但并不用于限定步驟的先后次序,除非明確說明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎,否則步驟的相對次序是可以調整的??梢岳斫?,本文中所使用的術語“和/或”涉及且涵蓋相關聯(lián)的所列項目中的一者或一者以上的任何和所有可能的組口 ο
[0026]如圖1所示,在一個實施例中,一種文本信息的處理方法,包括如下步驟:
[0027]步驟S110,對文本信息進行分詞處理以得到切分的文本。
[0028]本實施例中,文本信息中的文本可以是繁體中文、簡體中文、數(shù)字、圖形符號、標點符號等。例如,該文本信息可以是短信以及各種網(wǎng)絡消息等。
[0029]通過對文本信息進行分詞處理,切分文本信息中的文本,以得到若干個切分的文本。
[0030]具體的,可采用正向最大匹配算法對文本信息進行分詞處理,其中,在正向最大匹配算法所進行的詞典搜索中,所應用的搜索樹為雙trie樹。
[0031]進一步的,對于文本信息中的數(shù)字或者字母,將相連的數(shù)字或者字母切分在一起,作為一個切分的文本,進而完成文本信息中文本的分詞處理。
[0032]步驟S120,提取切分的文本匹配的詞以及切分的文本在文本信息中的偏移量。
[0033]本實施例中,預先設置詞庫,將大量的詞存儲于預先設置的詞庫中,將信息中的若干個切分的文本與詞庫中的詞進行逐一比對,以得到與切分的文本相匹配的詞,進而提取該詞,并從文本信息中獲取這一切分的文本在文本信息中的偏移量。
[0034]切分的文本在文本信息中的偏移量用于標識其在文本信息中的位置,例如,在“24小時服務熱線”這樣一個文本信息中,在進行分詞處理后將得到包括了 4個切分的文本即“24/小時/服務/熱線”,而切分的文本“小時”在文本信息中的偏移量為2。
[0035]從詞庫中所提取得到的與切分的文本相匹配的詞即為關鍵詞,是該切分的文本所對應的正確詞,這一匹配過程能夠清除文本中存在的噪音,以消除噪音對文本信息的干擾,其中,文本信息中的噪音指的是對文本信息中的語句完整性或者語義起到破壞作用的字或
ο
[0036]例如,若某一切分的文本為“哈爾賓”,則“賓”這一個字即被視為噪音,則所提取得到的詞為“哈爾濱”,清除了噪音。
[0037]步驟S130,判斷是否存在未匹配的切分的文本,若為是,則進入步驟S140,若為否,則進入步驟S150。
[0038]本實施例中,若詞庫中不存在與某一切分的文本相匹配的詞,則說明該切分的文本為非關鍵詞,因此,需要進一步區(qū)分該切分的文本是有效詞還是噪音,以避免作為有效詞的非關鍵詞被誤當成噪音而清除。
[0039]步驟S140,組合相互連續(xù)的切分的文本,并更新組合的文本的出現(xiàn)頻度。
[0040]本實施例中,若判斷到當前存在著未匹配的切分的文本,則對相互連續(xù)的切分的文本進行組合,以得到組合的文本,并