一種基于中文分詞的文本相似性識(shí)別方法及裝置與流程

文檔序號(hào)：11293472閱讀：338來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及文本識(shí)別技術(shù)領(lǐng)域，特別涉及一種基于中文分詞的文本相似性識(shí)別方法及裝置。

背景技術(shù)：
隨著Web2.0技術(shù)及SNS的快速發(fā)展，雖然使信息傳播更加便利，但重復(fù)信息也越來越多，據(jù)公開資料統(tǒng)計(jì)，網(wǎng)頁的重復(fù)率平均大約為4。也就是說，當(dāng)你通過一個(gè)連接看到一篇文章信息的時(shí)候，平均還有另外3個(gè)不同的鏈接也給出相同或者基本相似的內(nèi)容。對(duì)于相同或相似的信息，現(xiàn)有的一些網(wǎng)站、社區(qū)等會(huì)對(duì)網(wǎng)頁或文章中的文本內(nèi)容進(jìn)行識(shí)別，提取文本中的一些特征信息，并基于這些特征信息判斷文本之間的相似程度，并通過聚類、過濾等手段對(duì)相似的文本進(jìn)行處理，減少過多的無效重復(fù)信息，以及攔截批量傳播的非法內(nèi)容、垃圾廣告等不良信息。對(duì)于文本相似性的識(shí)別，現(xiàn)有方法一般是基于關(guān)鍵字的提取，即提取文本中的關(guān)鍵字作為特征信息，再根據(jù)文本之間特定關(guān)鍵字的共性，如相同關(guān)鍵字的數(shù)量、相同關(guān)鍵字出現(xiàn)的次數(shù)等，確定文本之間的相似性，之后，即可基于文本相似性進(jìn)行后續(xù)的聚類、過濾、攔截等處理操作。但是，這種基于關(guān)鍵字的文本相似性識(shí)別并不能很好的反映文本真實(shí)意思表示的相似性，其相似性識(shí)別的準(zhǔn)確率比較低，很多文本雖然都包含某些相同的關(guān)鍵字，但是其要表達(dá)的意思可能完全不同甚至相反，致使很多雖然帶有相同關(guān)鍵詞，但意思表示與已知文本完全不同的文本被認(rèn)為相似而被誤殺，對(duì)網(wǎng)站、社區(qū)用戶的體驗(yàn)傷害很大，對(duì)業(yè)務(wù)發(fā)展帶來較大壓力。為提高相似性識(shí)別的準(zhǔn)確性，人們提出了其它改進(jìn)的方法：向量矩陣算法，該算法將文本轉(zhuǎn)換為一個(gè)向量矩陣，通過對(duì)向量矩陣進(jìn)行比較，確定文本之間的相似性。全文分段簽名算法，該算法把文本按一定的原則分成N段(如每n行作為一段)，然后對(duì)每一段進(jìn)行簽名(即計(jì)算指紋)，于是文本就可以用N個(gè)簽名后的指紋來表示。對(duì)于兩個(gè)文本，當(dāng)它們的N個(gè)簽名中有M個(gè)相同時(shí)(m是系統(tǒng)定義的閾值)，則認(rèn)為兩個(gè)文本相似。雖然上述兩種算法能夠保證較高的識(shí)別準(zhǔn)確率，降低了關(guān)鍵字提取方法所帶來的誤殺，但這兩種算法所需的計(jì)算量相當(dāng)大，它們?cè)跁r(shí)間上的復(fù)雜度(提取特征信息和特征信息比較過程所需時(shí)間)和空間的復(fù)雜度(提取出的特征信息需要占用的存儲(chǔ)空間)都很高，大大降低了文本相似性識(shí)別的效率，難以勝任海量文本業(yè)務(wù)的應(yīng)用。

技術(shù)實(shí)現(xiàn)要素：
有鑒于此，本發(fā)明提供了一種基于中文分詞的文本相似性識(shí)別方法及裝置，可以降低識(shí)別復(fù)雜度，提高識(shí)別效率，同時(shí)達(dá)到較高的識(shí)別正確率。為達(dá)上述目的，本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的：一種基于中文分詞的文本相似性識(shí)別方法，該方法包括：對(duì)文本進(jìn)行分詞；根據(jù)分詞的詞性和出現(xiàn)的次數(shù)從所有分詞中選擇預(yù)設(shè)數(shù)量的分詞作為特征詞；對(duì)選擇的特征詞進(jìn)行排序得到特征字符串，并計(jì)算所述排序得到的特征字符串的特征值；將所述特征值作為整個(gè)文本的特征值；所述排序包括：根據(jù)特征詞的詞性和出現(xiàn)的次數(shù)作為權(quán)重，對(duì)特征詞進(jìn)行加權(quán)排序，得到排序后的特征詞字符串；通過比較文本的特征值，確定文本之間的相似性。較佳地，對(duì)文本進(jìn)行分詞包括：按照大粒度或小粒度模式，結(jié)合詞頻詞性選擇特定的分詞單元對(duì)文本以單詞為單位進(jìn)行劃分，并標(biāo)注每個(gè)單詞的詞性。較佳地，對(duì)文本進(jìn)行分詞之前還包括：對(duì)文本中不能識(shí)別的字符以及無意義字符進(jìn)行過濾。較佳地，所述特征值為根據(jù)所述排序后的特征詞字符串計(jì)算的MD5值。較佳地，該方法進(jìn)一步包括：預(yù)先選取樣本文本并計(jì)算特征值；根據(jù)所述樣本文本的特征值建立分類樣本庫；計(jì)算特定文本的特征值并與所述分類樣本庫中樣本文本的特征值進(jìn)行匹配；若匹配到相同的特征值，則確定該特定文本對(duì)應(yīng)的分類，根據(jù)該特定文本的分類，進(jìn)行對(duì)應(yīng)的處理。較佳地，該方法進(jìn)一步包括：若沒有匹配到相同的特征值，則將該特定文本進(jìn)行手工分類，并將該特定文本的特征值加入分類樣本庫。一種基于中文分詞的文本相似性識(shí)別裝置，該裝置包括：分詞模塊，用于按照預(yù)設(shè)的分詞模式對(duì)文本進(jìn)行分詞；選擇模塊，與所述分詞模塊相連，用于預(yù)先設(shè)定選取特征詞的數(shù)量，根據(jù)分詞的詞性和出現(xiàn)的次數(shù)從所有分詞中選擇預(yù)設(shè)數(shù)量的分詞作為特征詞；特征值計(jì)算模塊，與所述選擇模塊相連，用于根據(jù)選擇的特征詞的詞性和出現(xiàn)的次數(shù)作為權(quán)重，對(duì)選擇的特征詞進(jìn)行加權(quán)排序得到特征字符串，并計(jì)算所述排序得到的特征字符串的特征值；將所述特征值作為整個(gè)文本的特征值；比較模塊，與所述特征值計(jì)算模塊相連，用于通過比較文本的特征值，確定文本之間的相似性。較佳地，所述分詞模塊包括：模式確定單元，用于確定分詞模式，包括大粒度模式或小粒度模式；劃分單元，與所述模式確定單元相連，用于根據(jù)確定的分詞模式，結(jié)合詞頻詞性選擇特定的分詞單元對(duì)文本以單詞為單位進(jìn)行劃分；標(biāo)注單元，與所述劃分單元相連，用于標(biāo)注每個(gè)單詞的詞性。較佳地，該裝置還包括：預(yù)處理模塊，與分詞模塊相連，用于在分詞之前對(duì)文本中不能識(shí)別的字符以及無意義字符進(jìn)行過濾。較佳地，所述特征值計(jì)算模塊包括：排序單元，用于根據(jù)特征詞的詞性和出現(xiàn)的次數(shù)作為權(quán)重，對(duì)特征詞進(jìn)行加權(quán)排序，得到排序后...

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬波;曹訓(xùn)志;謝志遠(yuǎn);陳盛榮;劉銳強(qiáng)
技術(shù)所有人：深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文文本分詞相關(guān)技術(shù)

文本分詞相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于中文分詞的文本相似性識(shí)別方法及裝置與流程