
本發(fā)明涉及文本識(shí)別技術(shù)領(lǐng)域,特別涉及一種基于中文分詞的文本相似性識(shí)別方法及裝置。
背景技術(shù):隨著Web2.0技術(shù)及SNS的快速發(fā)展,雖然使信息傳播更加便利,但重復(fù)信息也越來越多,據(jù)公開資料統(tǒng)計(jì),網(wǎng)頁的重復(fù)率平均大約為4。也就是說,當(dāng)你通過一個(gè)連接看到一篇文章信息的時(shí)候,平均還有另外3個(gè)不同的鏈接也給出相同或者基本相似的內(nèi)容。對(duì)于相同或相似的信息,現(xiàn)有的一些網(wǎng)站、社區(qū)等會(huì)對(duì)網(wǎng)頁或文章中的文本內(nèi)容進(jìn)行識(shí)別,提取文本中的一些特征信息,并基于這些特征信息判斷文本之間的相似程度,并通過聚類、過濾等手段對(duì)相似的文本進(jìn)行處理,減少過多的無效重復(fù)信息,以及攔截批量傳播的非法內(nèi)容、垃圾廣告等不良信息。對(duì)于文本相似性的識(shí)別,現(xiàn)有方法一般是基于關(guān)鍵字的提取,即提取文本中的關(guān)鍵字作為特征信息,再根據(jù)文本之間特定關(guān)鍵字的共性,如相同關(guān)鍵字的數(shù)量、相同關(guān)鍵字出現(xiàn)的次數(shù)等,確定文本之間的相似性,之后,即可基于文本相似性進(jìn)行后續(xù)的聚類、過濾、攔截等處理操作。但是,這種基于關(guān)鍵字的文本相似性識(shí)別并不能很好的反映文本真實(shí)意思表示的相似性,其相似性識(shí)別的準(zhǔn)確率比較低,很多文本雖然都包含某些相同的關(guān)鍵字,但是其要表達(dá)的意思可能完全不同甚至相反,致使很多雖然帶有相同關(guān)鍵詞,但意思表示與已知文本完全不同的文本被認(rèn)為相似而被誤殺,對(duì)網(wǎng)站、社區(qū)用戶的體驗(yàn)傷害很大,對(duì)業(yè)務(wù)發(fā)展帶來較大壓力。為提高相似性識(shí)別的準(zhǔn)確性,人們提出了其它改進(jìn)的方法:向量矩陣算法,該算法將文本轉(zhuǎn)換為一個(gè)向量矩陣,通過對(duì)向量矩陣進(jìn)行比較,確定文本之間的相似性。全文分段簽名算法,該算法把文本按一定的原則分成N段(如每n行作為一段),然后對(duì)每一段進(jìn)行簽名(即計(jì)算指紋),于是文本就可以用N個(gè)簽名后的指紋來表示。對(duì)于兩個(gè)文本,當(dāng)它們的N個(gè)簽名中有M個(gè)相同時(shí)(m是系統(tǒng)定義的閾值),則認(rèn)為兩個(gè)文本相似。雖然上述兩種算法能夠保證較高的識(shí)別準(zhǔn)確率,降低了關(guān)鍵字提取方法所帶來的誤殺,但這兩種算法所需的計(jì)算量相當(dāng)大,它們?cè)跁r(shí)間上的復(fù)雜度(提取特征信息和特征信息比較過程所需時(shí)間)和空間的復(fù)雜度(提取出的特征信息需要占用的存儲(chǔ)空間)都很高,大大降低了文本相似性識(shí)別的效率,難以勝任海量文本業(yè)務(wù)的應(yīng)用。
技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提供了一種基于中文分詞的文本相似性識(shí)別方法及裝置,可以降低識(shí)別復(fù)雜度,提高識(shí)別效率,同時(shí)達(dá)到較高的識(shí)別正確率。為達(dá)上述目的,本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的:一種基于中文分詞的文本相似性識(shí)別方法,該方法包括:對(duì)文本進(jìn)行分詞;根據(jù)分詞的詞性和出現(xiàn)的次數(shù)從所有分詞中選擇預(yù)設(shè)數(shù)量的分詞作為特征詞;對(duì)選擇的特征詞進(jìn)行排序得到特征字符串,并計(jì)算所述排序得到的特征字符串的特征值;將所述特征值作為整個(gè)文本的特征值;所述排序包括:根據(jù)特征詞的詞性和出現(xiàn)的次數(shù)作為權(quán)重,對(duì)特征詞進(jìn)行加權(quán)排序,得到排序后的特征詞字符串;通過比較文本的特征值,確定文本之間的相似性。較佳地,對(duì)文本進(jìn)行分詞包括:按照大粒度或小粒度模式,結(jié)合詞頻詞性選擇特定的分詞單元對(duì)文本以單詞為單位進(jìn)行劃分,并標(biāo)注每個(gè)單詞的詞性。較佳地,對(duì)文本進(jìn)行分詞之前還包括:對(duì)文本中不能識(shí)別的字符以及無意義字符進(jìn)行過濾。較佳地,所述特征值為根據(jù)所述排序后的特征詞字符串計(jì)算的MD5值。較佳地,該方法進(jìn)一步包括:預(yù)先選取樣本文本并計(jì)算特征值;根據(jù)所述樣本文本的特征值建立分類樣本庫;計(jì)算特定文本的特征值并與所述分類樣本庫中樣本文本的特征值進(jìn)行匹配;若匹配到相同的特征值,則確定該特定文本對(duì)應(yīng)的分類,根據(jù)該特定文本的分類,進(jìn)行對(duì)應(yīng)的處理。較佳地,該方法進(jìn)一步包括:若沒有匹配到相同的特征值,則將該特定文本進(jìn)行手工分類,并將該特定文本的特征值加入分類樣本庫。一種基于中文分詞的文本相似性識(shí)別裝置,該裝置包括:分詞模塊,用于按照預(yù)設(shè)的分詞模式對(duì)文本進(jìn)行分詞;選擇模塊,與所述分詞模塊相連,用于預(yù)先設(shè)定選取特征詞的數(shù)量,根據(jù)分詞的詞性和出現(xiàn)的次數(shù)從所有分詞中選擇預(yù)設(shè)數(shù)量的分詞作為特征詞;特征值計(jì)算模塊,與所述選擇模塊相連,用于根據(jù)選擇的特征詞的詞性和出現(xiàn)的次數(shù)作為權(quán)重,對(duì)選擇的特征詞進(jìn)行加權(quán)排序得到特征字符串,并計(jì)算所述排序得到的特征字符串的特征值;將所述特征值作為整個(gè)文本的特征值;比較模塊,與所述特征值計(jì)算模塊相連,用于通過比較文本的特征值,確定文本之間的相似性。較佳地,所述分詞模塊包括:模式確定單元,用于確定分詞模式,包括大粒度模式或小粒度模式;劃分單元,與所述模式確定單元相連,用于根據(jù)確定的分詞模式,結(jié)合詞頻詞性選擇特定的分詞單元對(duì)文本以單詞為單位進(jìn)行劃分;標(biāo)注單元,與所述劃分單元相連,用于標(biāo)注每個(gè)單詞的詞性。較佳地,該裝置還包括:預(yù)處理模塊,與分詞模塊相連,用于在分詞之前對(duì)文本中不能識(shí)別的字符以及無意義字符進(jìn)行過濾。較佳地,所述特征值計(jì)算模塊包括:排序單元,用于根據(jù)特征詞的詞性和出現(xiàn)的次數(shù)作為權(quán)重,對(duì)特征詞進(jìn)行加權(quán)排序,得到排序后...