亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種中文文本相似度的檢測(cè)方法及檢測(cè)裝置與流程

文檔序號(hào):12120894閱讀:369來源:國(guó)知局
一種中文文本相似度的檢測(cè)方法及檢測(cè)裝置與流程

本發(fā)明涉及相似度檢測(cè)領(lǐng)域,特別是涉及一種中文文本相似度的檢測(cè)方法及檢測(cè)裝置。



背景技術(shù):

文本文檔是信息存儲(chǔ)、傳播和交流的主要形式之一,是人們?cè)谌粘I詈凸ぷ髦校褂米顬轭l繁和廣泛的信息載體?;ヂ?lián)網(wǎng)給人們提供了豐富的論文資源,文本編輯軟件給人們提供了靈活的編輯處理工具。這些資源和工具在為我們提供便利的同時(shí),也使抄襲、剽竊、造假、侵權(quán)事件頻頻發(fā)生,嚴(yán)重威脅著創(chuàng)新型國(guó)家的建設(shè)。

文本相似度檢測(cè)(copy detection)是打擊抄襲、剽竊等侵權(quán)行為的有效手段之一,是近年才發(fā)展起來的一個(gè)新興的研究領(lǐng)域。已有研究成果可以分為基于物理結(jié)構(gòu)的檢測(cè)和基于內(nèi)容的檢測(cè)方法兩大類?;谖锢斫Y(jié)構(gòu)的文本相似度檢測(cè)紛紛通過分析文檔內(nèi)部組件的相互關(guān)系、冗余空間信息獲取對(duì)文本復(fù)制和篡改的有關(guān)證據(jù)?;趦?nèi)容的文本相似度檢測(cè)方法對(duì)文本的內(nèi)容是否完整、內(nèi)容是否被篡改或部分內(nèi)容被篡改等進(jìn)行檢測(cè)。

這類方法的缺點(diǎn)是,當(dāng)存儲(chǔ)文本的文件類型改變時(shí),文件的物理結(jié)構(gòu)信息將會(huì)不同程度受到損失,這類方法將隨之失效?;趦?nèi)容的文本相似度檢測(cè)已有成果可以分為兩類:基于語義的比較和基于字詞的統(tǒng)計(jì)分析?;谡Z義比較方法的基本思想是從文本中選取句子或詞語作為分析內(nèi)容,利用自然語言處理領(lǐng)域的相關(guān)方法對(duì)文本中的句子或詞語進(jìn)行語義分析其相似度,最后得到文本的相似度;基于字詞統(tǒng)計(jì)的方法首先需要對(duì)文本進(jìn)行分片,抽取合適的詞語來表示文本,并統(tǒng)計(jì)每個(gè)詞語出現(xiàn)的頻次,根據(jù)這些詞語的頻次構(gòu)成文本特征向量,再采用點(diǎn)積、余弦或者類似方式度量?jī)善谋咎卣飨蛄康南嗨贫龋⒁源俗鳛槲谋鞠嗨贫取?/p>

但是由于中文文本中存在的關(guān)于同義詞替換、移位替換、語句變換以及文本表示中存在的高維、稀疏等問題,中文文本相似度檢測(cè)一直未能取得很好的結(jié)果。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種中文文本相似度的檢測(cè)方法,可提高中文文本相似度檢測(cè)的檢測(cè)準(zhǔn)確度。

為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:

一種中文文本相似度的檢測(cè)方法,所述檢測(cè)方法包括:

步驟一:對(duì)中文本中的各個(gè)高頻字進(jìn)行拆分,獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次;

步驟二:根據(jù)所述多個(gè)部件及各部件之間的關(guān)聯(lián)頻次,繪制對(duì)應(yīng)中文文本的部件關(guān)聯(lián)圖;

步驟三:基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度。

可選的,在步驟一之前,所述檢測(cè)方法包括:

對(duì)中文文本進(jìn)行預(yù)處理,獲取高頻字。

可選的,所述獲取高頻字的方法包括:

刪除所述中文文本中的停用字、無用字;

從刪除后的文本中抽取中文文字;

統(tǒng)計(jì)各所述中文文字的出現(xiàn)頻率;

按照設(shè)定的頻率比例,從所述中文文字中篩選高頻字。

可選的,所述獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次的方法包括:

根據(jù)漢子數(shù)學(xué)表達(dá)式將中文本中的各個(gè)高頻字拆分,分別獲得關(guān)于部件的集合;

根據(jù)各部件的集合中確定不同部件出現(xiàn)的頻次,并對(duì)各不同的部件依次進(jìn)行編號(hào);

根據(jù)部件的集合確定各部件之間的關(guān)聯(lián)頻次。

可選的,所述部件關(guān)聯(lián)圖的包括單個(gè)部件的部件關(guān)聯(lián)簇圖和整個(gè)文本的部件關(guān)聯(lián)全圖;

其中,所述基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度的方法包括:

步驟31:根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(Ci,Ci′):

其中,i、k分別表示中文文本中部件號(hào),i=1,...,n、k=1,...,n、i≠k,Ci表示參照文本A中第i號(hào)部件,Ci′表示待檢測(cè)文本B中第i號(hào)部件,Wik表示參照文本A中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,Wik′表示待檢測(cè)文本B中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,min(Wik,Wik′)表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件與第k號(hào)部件關(guān)聯(lián)頻次的最小值,∑Wi表示參照文本A中所有第i號(hào)部件關(guān)聯(lián)頻次的總和,×1{Ck=Ck′}表示若待檢測(cè)文本B與參照文本A中第i號(hào)部件都同時(shí)與第k號(hào)部件關(guān)聯(lián),則將關(guān)聯(lián)度加入第i號(hào)部件的關(guān)聯(lián)簇結(jié)果中,否則忽略;

步驟32:根據(jù)以下公式確定待檢測(cè)文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C'):

其中,表示在待檢測(cè)文本B與參照文本A中第i號(hào)部件的部件關(guān)聯(lián)簇圖的相似度占待檢測(cè)文本B中部件關(guān)聯(lián)簇圖相似度的比例;

步驟33:根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B)):

其中,CRM(A)∩CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的相同部分,CRM(A)∪CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的總和,表示待檢測(cè)文本B與參照文本A分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最小值,表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最大值,×1{Ci=Ci'}表示若待檢測(cè)文本B與參照文本A中都有第i號(hào)部件才對(duì)其進(jìn)行計(jì)算,否則忽略,表示所有在參照文本A中出現(xiàn)但在待檢測(cè)文本B中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和,表示所有在待檢測(cè)文本B中出現(xiàn)但在參照文本A中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和;

步驟34:根據(jù)以下公式確定計(jì)算待檢測(cè)文本B與參照文本A的相似度sim(A,B):

sim(A,B)=α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6);

其中,α為系統(tǒng)參考系數(shù)。

可選的,α的初始值為0.5,之后按照設(shè)定比例增減以計(jì)算相似度sim(A,B),根據(jù)相似度sim(A,B)調(diào)整α的數(shù)值。

可選的,所述檢測(cè)方法還包括:

根據(jù)各部件出現(xiàn)頻次繪制部件直方圖。

根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果:

本發(fā)明中文文本相似度的檢測(cè)方法通過中文本中的各個(gè)高頻字進(jìn)行拆分,構(gòu)建部件關(guān)聯(lián)圖,進(jìn)而根據(jù)部件關(guān)聯(lián)圖,確定待檢測(cè)文本與參照文本的相似度;部件之間相互關(guān)聯(lián)組成漢字,以部件關(guān)聯(lián)圖作為相似度檢測(cè)依據(jù)可以有效提高文件相似度檢測(cè)的檢測(cè)精度。

本發(fā)明的目的是提供一種中文文本相似度的檢測(cè)裝置,可提高中文文本相似度檢測(cè)的檢測(cè)準(zhǔn)確度。

為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:

一種中文文本相似度的檢測(cè)裝置,所述檢測(cè)裝置包括:

拆分單元,用于對(duì)中文本中的各個(gè)高頻字進(jìn)行拆分,獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次;

繪圖單元,用于根據(jù)所述多個(gè)部件及各部件之間的關(guān)聯(lián)頻次,繪制對(duì)應(yīng)中文文本的部件關(guān)聯(lián)圖;

計(jì)算單元,用于基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度。

可選的,所述檢測(cè)裝置還包括:

預(yù)處理單元,與所述拆分單元連接,用于對(duì)中文文本進(jìn)行預(yù)處理,獲取高頻字。

可選的,所述部件關(guān)聯(lián)圖的包括單個(gè)部件的部件關(guān)聯(lián)簇圖和整個(gè)文本的部件關(guān)聯(lián)全圖;

其中,計(jì)算單元包括:

關(guān)聯(lián)簇圖計(jì)算模塊,用于根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(Ci,Ci′):

其中,i、k分別表示中文文本中部件號(hào),i=1,...,n、k=1,...,n、i≠k,Ci表示參照文本A中第i號(hào)部件,Ci′表示待檢測(cè)文本B中第i號(hào)部件,Wik表示參照文本A中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,Wik′表示待檢測(cè)文本B中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,min(Wik,Wik′)表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件與第k號(hào)部件關(guān)聯(lián)頻次的最小值,∑Wi表示參照文本A中所有第i號(hào)部件關(guān)聯(lián)頻次的總和,×1{Ck=Ck′}表示若待檢測(cè)文本B與參照文本A中第i號(hào)部件都同時(shí)與第k號(hào)部件關(guān)聯(lián),則將關(guān)聯(lián)度加入第i號(hào)部件的關(guān)聯(lián)簇結(jié)果中,否則忽略;

比例計(jì)算模塊,用于根據(jù)以下公式確定待檢測(cè)文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C'):

其中,表示在待檢測(cè)文本B與參照文本A中第i號(hào)部件的部件關(guān)聯(lián)簇圖的相似度占待檢測(cè)文本B中部件關(guān)聯(lián)簇圖相似度的比例;

關(guān)聯(lián)全圖計(jì)算模塊,用于根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B)):

其中,CRM(A)∩CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的相同部分,CRM(A)∪CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的總和,表示待檢測(cè)文本B與參照文本A分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最小值,表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最大值,×1{Ci=Ci'}表示若待檢測(cè)文本B與參照文本A中都有第i號(hào)部件才對(duì)其進(jìn)行計(jì)算,否則忽略,表示所有在參照文本A中出現(xiàn)但在待檢測(cè)文本B中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和,表示所有在待檢測(cè)文本B中出現(xiàn)但在參照文本A中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和;

相似度計(jì)算模塊,分別與比例計(jì)算模塊和關(guān)聯(lián)全圖計(jì)算模塊連接,用于根據(jù)以下公式確定計(jì)算待檢測(cè)文本B與參照文本A的相似度sim(A,B):

sim(A,B)=α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6);

其中,α為系統(tǒng)參考系數(shù)。

相對(duì)于現(xiàn)有技術(shù),本發(fā)明中文文本相似度的檢測(cè)裝置與上述中文文本相似度的檢測(cè)方法的有益效果相同,在此不再贅述。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明中文文本相似度的檢測(cè)方法的流程圖;

圖2為本發(fā)明中整個(gè)文本的部件關(guān)聯(lián)全圖;

圖3為本發(fā)明中單個(gè)部件的部件關(guān)聯(lián)簇圖;

圖4為本發(fā)明中部件直方圖;

圖5為本發(fā)明中文文本相似度的檢測(cè)裝置的模塊結(jié)構(gòu)示意圖。

符號(hào)說明:

拆分單元 1 繪圖單元 2

計(jì)算單元 3 關(guān)聯(lián)簇圖計(jì)算模塊 31

比例計(jì)算模塊 32 關(guān)聯(lián)全圖計(jì)算模塊 33

相似度計(jì)算模塊 34。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明的目的是提供一種中文文本相似度的檢測(cè)方法,通過中文本中的各個(gè)高頻字進(jìn)行拆分,構(gòu)建部件關(guān)聯(lián)圖,進(jìn)而根據(jù)部件關(guān)聯(lián)圖,確定待檢測(cè)文本與參照文本的相似度;部件之間相互關(guān)聯(lián)組成漢字,以部件關(guān)聯(lián)圖作為相似度檢測(cè)依據(jù)可以有效提高文件相似度檢測(cè)的檢測(cè)精度。

部件是介于筆畫與漢字之間的一個(gè)概念,它是由筆畫組成的一個(gè)結(jié)構(gòu)塊,由不同數(shù)量、不同功能的結(jié)構(gòu)塊按不同的方式組合成漢字,由部件作為操作數(shù)、部件間的結(jié)構(gòu)關(guān)系作為運(yùn)算符組成漢字?jǐn)?shù)學(xué)表達(dá)式,根據(jù)漢字?jǐn)?shù)學(xué)表達(dá)式將中文文本拆分成部件的集合。每一個(gè)相同部件都有一個(gè)唯一的部件號(hào)標(biāo)志。部件直方圖即是中文文本中部件出現(xiàn)的頻次圖,作為文本指紋。

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

如圖1所示,本發(fā)明中文文本相似度的檢測(cè)方法包括:

步驟110:對(duì)中文本中的各個(gè)高頻字進(jìn)行拆分,獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次;

步驟120:根據(jù)所述多個(gè)部件及各部件之間的關(guān)聯(lián)頻次,繪制對(duì)應(yīng)中文文本的部件關(guān)聯(lián)圖;

步驟130:基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度。

進(jìn)一步地,本發(fā)明中文文本相似度的檢測(cè)方法還包括:

步驟100,設(shè)置于步驟110之前,對(duì)中文文本進(jìn)行預(yù)處理,獲取高頻字。

其中,所述獲取高頻字的方法包括:

步驟101:刪除所述中文文本中的停用字、無用字;

步驟102:從刪除后的文本中抽取中文文字;

步驟103:統(tǒng)計(jì)各所述中文文字的出現(xiàn)頻率;

步驟104:按照設(shè)定的頻率比例,從所述中文文字中篩選高頻字。

所述設(shè)定的頻率比例為在中文文本中高頻字按照頻次由高到低排列后取的比例,可為前20%、40%、60%、80%、100%等。

其中,在步驟110,所述獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次的方法包括:

步驟111:根據(jù)漢子數(shù)學(xué)表達(dá)式將中文本中的各個(gè)高頻字拆分,分別獲得關(guān)于部件的集合;

步驟112:根據(jù)各部件的集合中確定不同部件出現(xiàn)的頻次,并對(duì)各不同的部件依次進(jìn)行編號(hào);

步驟113:根據(jù)部件的集合確定各部件之間的關(guān)聯(lián)頻次。

進(jìn)一步地,部件關(guān)聯(lián)圖是由部件表示節(jié)點(diǎn),部件之間關(guān)聯(lián)則繪制邊,關(guān)聯(lián)頻次作為邊的權(quán)重表示的圖。漢字由部件按一定方式組成,因此部件之間必然存在關(guān)聯(lián),部件之間的關(guān)聯(lián)情況能夠反映中文文本中漢字的情況。其中,所述部件關(guān)聯(lián)圖的包括單個(gè)部件的部件關(guān)聯(lián)簇圖(如圖3所示)和整個(gè)文本的部件關(guān)聯(lián)全圖(如圖2所示)。

其中,所述基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度的方法包括(結(jié)合表1):

步驟131:根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(Ci,Ci′):

其中,i、k分別表示中文文本中部件號(hào),i=1,...,n、k=1,...,n、i≠k,Ci表示參照文本A中第i號(hào)部件,Ci′表示待檢測(cè)文本B中第i號(hào)部件,Wik表示參照文本A中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,Wik′表示待檢測(cè)文本B中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,min(Wik,Wik′)表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件與第k號(hào)部件關(guān)聯(lián)頻次的最小值,∑Wi表示參照文本A中所有第i號(hào)部件關(guān)聯(lián)頻次的總和,×1{Ck=Ck′}表示若待檢測(cè)文本B與參照文本A中第i號(hào)部件都同時(shí)與第k號(hào)部件關(guān)聯(lián),則將關(guān)聯(lián)度加入第i號(hào)部件的關(guān)聯(lián)簇結(jié)果中,否則忽略.

步驟132:根據(jù)以下公式確定待檢測(cè)文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C'):

其中,表示在待檢測(cè)文本B與參照文本A中第i號(hào)部件的部件關(guān)聯(lián)簇圖的相似度占待檢測(cè)文本B中部件關(guān)聯(lián)簇圖相似度的比例。

步驟133:根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B)):

其中,CRM(A)∩CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的相同部分,CRM(A)∪CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的總和,表示待檢測(cè)文本B與參照文本A分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最小值,表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最大值,×1{Ci=Ci'}表示若待檢測(cè)文本B與參照文本A中都有第i號(hào)部件才對(duì)其進(jìn)行計(jì)算,否則忽略,表示所有在參照文本A中出現(xiàn)但在待檢測(cè)文本B中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和,表示所有在待檢測(cè)文本B中出現(xiàn)但在參照文本A中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和。

步驟134:根據(jù)以下公式確定計(jì)算待檢測(cè)文本B與參照文本A的相似度sim(A,B):

sim(A,B)=α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6);其中,α為系統(tǒng)參考系數(shù)。

表1公式符號(hào)及其含義

其中,α的初始值為0.5,之后按照設(shè)定比例增減以計(jì)算相似度sim(A,B),根據(jù)相似度sim(A,B)調(diào)整α的數(shù)值。在本實(shí)施例中,所述設(shè)定比例為0.1。

通過本發(fā)明中文文本相似度的檢測(cè)與基于余弦特征向量的相似度檢測(cè)方法進(jìn)行聚類對(duì)比分析,比較其結(jié)果,確定出最佳的系統(tǒng)參考系數(shù)。

此外,本發(fā)明中文文本相似度的檢測(cè)方法還包括:根據(jù)各部件出現(xiàn)頻次繪制部件直方圖(如圖4所示),根據(jù)所述部件直方圖可直觀的確定各部件出現(xiàn)頻次,便于統(tǒng)計(jì)分析。

本發(fā)明中文文本相似度的檢測(cè)方法根據(jù)部件之間的關(guān)聯(lián)關(guān)系,構(gòu)建部件關(guān)聯(lián)圖,并分別從單個(gè)部件的部件關(guān)聯(lián)簇圖與整個(gè)文本的部件關(guān)聯(lián)全圖計(jì)算相似度,并綜合所有結(jié)果得到最后文本相似度值。部件之間相互關(guān)聯(lián)組成漢字,因此中文文本可以表示成部件關(guān)聯(lián)的情況,以部件關(guān)聯(lián)圖作為相似度檢測(cè)依據(jù)可以有效解決文本表示中存在的稀疏等缺陷,從而提高檢測(cè)的準(zhǔn)確度。

此外,本發(fā)明還提供一種中文文本相似度的檢測(cè)裝置,可提高中文文本相似度檢測(cè)的檢測(cè)準(zhǔn)確度。

具體的,如圖5所示,本發(fā)明中文文本相似度的檢測(cè)裝置包括拆分單元1、繪圖單元2及計(jì)算單元3。其中,拆分單元1對(duì)中文本中的各個(gè)高頻字進(jìn)行拆分,獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次;所述繪圖單元2根據(jù)所述多個(gè)部件及各部件之間的關(guān)聯(lián)頻次,繪制對(duì)應(yīng)中文文本的部件關(guān)聯(lián)圖;所述計(jì)算單元3基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度。

進(jìn)一步地,本發(fā)明中文文本相似度的檢測(cè)裝置還包括預(yù)處理單元4,所述預(yù)處理單元4與所述拆分單元1連接,用于對(duì)中文文本進(jìn)行預(yù)處理,獲取高頻字。

其中,所述預(yù)處理單元4對(duì)中文文本進(jìn)行預(yù)處理,獲取高頻字包括:刪除所述中文文本中的停用字、無用字;從刪除后的文本中抽取中文文字;統(tǒng)計(jì)各所述中文文字的出現(xiàn)頻率;按照設(shè)定的頻率比例,從所述中文文字中篩選高頻字。

所述拆分單元1對(duì)中文本中的各個(gè)高頻字進(jìn)行拆分,獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次包括:根據(jù)漢子數(shù)學(xué)表達(dá)式將中文本中的各個(gè)高頻字拆分,分別獲得關(guān)于部件的集合;根據(jù)各部件的集合中確定不同部件出現(xiàn)的頻次,并對(duì)各不同的部件依次進(jìn)行編號(hào);根據(jù)部件的集合確定各部件之間的關(guān)聯(lián)頻次。

所述繪圖單元2繪制的對(duì)應(yīng)中文文本的部件關(guān)聯(lián)圖包括單個(gè)部件的部件關(guān)聯(lián)簇圖和整個(gè)文本的部件關(guān)聯(lián)全圖。此外,所述繪圖單元2還用于根據(jù)各部件出現(xiàn)頻次繪制部件直方圖。

所述計(jì)算單元3進(jìn)一步包括關(guān)聯(lián)簇圖計(jì)算模塊31、比例計(jì)算模塊32、關(guān)聯(lián)全圖計(jì)算模塊33及相似度計(jì)算模塊34。其中,所述關(guān)聯(lián)簇圖計(jì)算模塊31用于根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(Ci,Ci'):

其中,i、k分別表示中文文本中部件號(hào),i=1,...,n、k=1,...,n、i≠k,Ci表示參照文本A中第i號(hào)部件,Ci'表示待檢測(cè)文本B中第i號(hào)部件,Wik表示參照文本A中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,Wik′表示待檢測(cè)文本B中第i號(hào)部件與第k號(hào)的關(guān)聯(lián)頻次,min(Wik,Wik′)表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件與第k號(hào)部件關(guān)聯(lián)頻次的最小值,∑Wi表示參照文本A中所有第i號(hào)部件關(guān)聯(lián)頻次的總和,×1{Ck=Ck′}表示若待檢測(cè)文本B與參照文本A中第i號(hào)部件都同時(shí)與第k號(hào)部件關(guān)聯(lián),則將關(guān)聯(lián)度加入第i號(hào)部件的關(guān)聯(lián)簇結(jié)果中,否則忽略。

所述比例計(jì)算模塊32根據(jù)以下公式確定待檢測(cè)文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C'):

其中,表示在待檢測(cè)文本B與參照文本A中第i號(hào)部件的部件關(guān)聯(lián)簇圖的相似度占待檢測(cè)文本B中部件關(guān)聯(lián)簇圖相似度的比例;

所述關(guān)聯(lián)全圖計(jì)算模塊33根據(jù)以下公式確定待檢測(cè)文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B)):

其中,CRM(A)∩CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的相同部分,CRM(A)∪CRM(B)表示待檢測(cè)文本B與參照文本A中部件關(guān)聯(lián)的總和,表示待檢測(cè)文本B與參照文本A分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最小值,表示待檢測(cè)文本B與參照文本A中分別第i號(hào)部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最大值,×1{Ci=Ci'}表示若待檢測(cè)文本B與參照文本A中都有第i號(hào)部件才對(duì)其進(jìn)行計(jì)算,否則忽略,表示所有在參照文本A中出現(xiàn)但在待檢測(cè)文本B中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和,表示所有在待檢測(cè)文本B中出現(xiàn)但在參照文本A中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和,乘以部件號(hào),再求和;

所述相似度計(jì)算模塊34分別與比例計(jì)算模塊和關(guān)聯(lián)全圖計(jì)算模塊連接,用于根據(jù)以下公式確定計(jì)算待檢測(cè)文本B與參照文本A的相似度sim(A,B):

sim(A,B)=α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6);

其中,α為系統(tǒng)參考系數(shù),α的初始值為0.5,之后按照設(shè)定比例增減以計(jì)算相似度sim(A,B),根據(jù)相似度sim(A,B)調(diào)整α的數(shù)值。在本實(shí)施例中,所述設(shè)定比例為0.1。

相對(duì)于現(xiàn)有技術(shù),本發(fā)明中文文本相似度的檢測(cè)裝置與上述中文文本相似度的檢測(cè)方法的有益效果相同,在此不再贅述。

本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。

本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1