亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種利用計算機程序檢測電子文本剽竊的方法

文檔序號:6363067閱讀:163來源:國知局

專利名稱::一種利用計算機程序檢測電子文本剽竊的方法
技術(shù)領(lǐng)域
:本發(fā)明屬于智能信息處理和計算機
技術(shù)領(lǐng)域
,具體涉及一種利用計算機程序檢測電子文本剽竊的方法。
背景技術(shù)
:在Internet上電子文本由于易于復(fù)制、易于傳播,成為知識產(chǎn)權(quán)保護的一個重點。目前電子文本知識產(chǎn)權(quán)主要有兩種保護措施一種是“阻止”法,一種是“檢測”法。“阻止”法就是使用加密、水印、特殊載體等方法使得受保護內(nèi)容難以拷貝。例如IEEE通過光盤發(fā)行文集,中國期刊網(wǎng)上的文章采用專用軟件才能閱讀。貝爾實驗室提出了“水印”技術(shù)使用加密的單詞空格或者圖像,可以鑒定文檔授權(quán)用戶身份。但是這個世界上沒有攻不破的馬其諾防線,也沒有絕對可靠的加密技術(shù)。上述方法都有可能被破解;而且我們也沒有技術(shù)手段來防止授權(quán)用戶使用光學(xué)識別(OCR)等辦法去非法復(fù)制、擴散。所以“阻止”法不能完全解決知識產(chǎn)權(quán)保護問題?!皺z測”法保護知識產(chǎn)權(quán)的思路是這樣的它并不關(guān)心文件是如何被復(fù)制的。而是首先判斷出當前的文件中是否含有復(fù)制或者剽竊的內(nèi)容;如果發(fā)現(xiàn)了非法復(fù)制或者剽竊行為,那么再對復(fù)制源或者剽竊者采取相關(guān)措施。“檢測”法的核心就是復(fù)制檢測技術(shù)。顯然“阻止”法和“檢測”法不是相互對立的關(guān)系,而應(yīng)該相互補充、完善才能更好地保護知識產(chǎn)權(quán)。所謂文本復(fù)制檢測就是判斷一個文件的內(nèi)容是否抄襲、剽竊或者復(fù)制于另外一個或者多個文件。剽竊不僅僅意味著原封不動地照搬,還包括對原作的移位變換、同義詞替換以及改變說法重述等等方式。現(xiàn)在文本復(fù)制檢測技術(shù)主要有兩種基本檢測方法一種是“字符串匹配”法,另一種是“詞頻”法。所謂字符串匹配檢測法就是首先從文本中提取一些特征字符串,一般稱之為“指紋”(fingerprints);然后根據(jù)這些指紋的雷同率來判定文本中是否有剽竊。例如斯坦福大學(xué)Brin和Garcia-Molina等人提出的COPS系統(tǒng)([1]S.Brin,J.Davis,andH.Garcia-Molina.Copydetectionmechanismsfordigitaldocuments.InProceedingsoftheACMSIGMODAnnualConference,sSanFrancisco,CA,May1995.);貝爾實驗室Heintze開發(fā)的KOALA系統(tǒng)([2]HeintzeN.ScalableDocumentFingerprinting.InProceedingsoftheSecondUSENIXWorkshoponElectronicCommerce,Oakland,California,18-21November,1996.)等等。所謂詞頻檢測法是借用信息檢索中“單詞袋”(bagofwords)方法,首先統(tǒng)計文本中各個單詞出現(xiàn)頻率,然后對單詞頻率矢量運用某種度量得到兩篇文本的雷同度,并得出最終判斷。例如斯坦福大學(xué)Garcia-Molina和Shivakumar等人提出的SCAM原型([3]N.ShivakumarandH.Garcia-Molina.SCAMAcopydetectionmechanismfordigitaldocuments.InProceedingsof2ndInternationalConferenceinTheoryandPracticeofDigitalLibraries(DL’95),Austin,Texas,June1995.);香港理工大學(xué)Si和Leong等人建立的CHECK原型([4]SiA.,LeongH.V.,LauR.W.H.CHECKADocumentPlagiarismDetectionSystem.InProceedingsofACMSymposiumforAppliedComputing,pp.70-77,F(xiàn)eb.1997.)等等。字符串匹配法可以精確確定被復(fù)制內(nèi)容,但是當字符串中個別字詞被改變(刪除)之后,精度便大大降低。詞頻法具有一定抗噪聲性能,小規(guī)模的字詞改變不會顯著影響檢測精度,檢測效率相對較高。但是當被復(fù)制內(nèi)容占整篇文本的比重較小時,詞頻法則難以檢測出來。詞頻法對于n合1型部分復(fù)制幾乎失效。字符串匹配法是一種注重于局部特征的檢測方法,由于局部特征一般不穩(wěn)定,所以該方法抗噪聲性能不佳。詞頻法通過詞頻挖掘全局特征,局部的微小調(diào)整不會影響全局特征,所以該方法抗噪聲能力相對較強。但是由于詞頻法僅僅關(guān)注全局特征,忽略了局部特征,從而不能對兩篇比較相似(但不同)的文本進行細致檢測,所以詞頻法對于小含量剽竊(例如n合1型部分復(fù)制)難以檢測。
發(fā)明內(nèi)容本發(fā)明的目的就是在不需要存儲文本全文的情況下,盡可能快速地、準確地檢測出被剽竊文本,特別是要較好地檢測出n合1部分復(fù)制型剽竊文本。為了便于說明問題,本發(fā)明先引進有關(guān)概念。定義1令S為單詞表∑上的一個單詞串,S=w1w2…wn,wi∈∑,1≤i≤n。我們把S的第i個位置記為is,is上的單詞記為w(is)。我們定義在S上i處的語義密度Φ(is)為Φ(is)=1/(is-hs),1≤hs<is≤n其中w(hs)=w(is),并且w(ls)≠w(is),hs<ls<iso。如果w(hs)不存在,即w(is)第一次出現(xiàn),那么Φ(is)=0。定義2令S為單詞表∑上的一個單詞串,S=w1w2…wn,wi∈∑,1≤i≤n。則S上的一個局部語義L(S)=wiwj…wk,1≤is<js<ks≤n是由S得到的一個單詞串,并且滿足以下所有條件(1)局部語義L(S)必須包含1個以上的單詞。(2)局部語義L(S)中的每一個單詞必然來自于原文S。(3)局部語義L(S)中任意兩個單詞的前后順序與其在原文S中的前后順序一致。(4)局部語義L(S)中任意兩個相鄰單詞,其在原文S中的位置必須小于等于ε。(5)Φ(ls)≥δ,is≤ls≤ks(6)如果hs=is-1,則Φ(hs)<δ。(7)如果vs=ks+1,則Φ(vs)<δ。其中語義密度閾值δ和連續(xù)性閾值ε是用戶可調(diào)整的參數(shù)。n合1部分復(fù)制型剽竊文本是從n(n>1)篇原始文本中分別拷貝一部分內(nèi)容,然后綜合成一篇新的剽竊文本。也就是說該剽竊文本與n篇原始文本的任何一篇都有部分雷同內(nèi)容。本發(fā)明的基本思想就是兼顧文本的全局特征與局部特征,結(jié)合文本結(jié)構(gòu)信息和語義信息,估計文本對的雷同度。本發(fā)明綜合了字符串匹配法與詞頻法的優(yōu)點,在文本全局特征與局部特征之間作折中,從而在檢索精度與效率上獲得較好性能。本發(fā)明首先根據(jù)局部語義密度提取文本局部語義,然后運用探針法估計最大共同語義并給出文本雷同度量,最后據(jù)此判定是否有剽竊。所謂文本的一個局部語義實際上就是把文本中低密度的單詞刪除后,得到的一個連續(xù)的單詞串。一個文本所有的局部語義構(gòu)成了該文本的文本特征。局部語義密度反映了文本的局部結(jié)構(gòu)特征,局部語義代表了文本在某局部的語義特征。我們認為文本在某處頻繁地使用某些字詞,那么這些字詞則代表了文本的局部特征。顯而易見的是單個局部語義(局部語義密度高的字詞),并不一定代表文本的全局特征。例如一篇文本在一個小段P里談?wù)摿藛栴}q,但是在其它地方均未涉及q而全部討論問題r。假若P在整個文本中所占的比重很低,那么在文本全局特征中很可能會漏掉了P中反映問題q的特征字詞。但是P中的局部語義則會突出問題q的特征字詞。所以本發(fā)明可以相對精細地檢測復(fù)制文本,尤其是可以較好地檢測n合1型部分復(fù)制文本。實現(xiàn)上述發(fā)明目的的技術(shù)解決方案是,一種利用計算機程序檢測電子文本剽竊的方法,該計算機程序至少包含1)電子文本提交、收集和錄入模塊,用于向系統(tǒng)提交待檢測文本或者增添新文本;2)文本特征提取模塊,用于提取文本特征;3)文本特征庫,用于存儲所有文本特征;4)文本剽竊判定模塊,用于判定待檢測文本中是否含有剽竊內(nèi)容;其特點是,包括以下步驟1)首先文本特征提取模塊根據(jù)文本的結(jié)構(gòu)信息和語義信息提取待檢測文本特征;2)然后運用文本剽竊判定模塊中設(shè)定的探針法估計比較待檢測文本特征和特征庫中的文本特征的最大共同語義并給出文本雷同度量;3)最后據(jù)此判定是否有剽竊,如果雷同度大于或者等于某個閾值則認為檢測文本中存在剽竊,否則認為檢測文本中沒有剽竊。本發(fā)明其它一些特點是,所述探針法就是首先從一篇文本的文本特征中選取一些單詞作為探針;然后統(tǒng)計這些探針在另一篇文本的文本特征中出現(xiàn)的次數(shù);如果探針在兩篇文本的文本特征中都出現(xiàn),則稱為被刺中;最后被刺中的次數(shù)與探針數(shù)目的比率就是兩篇文本的雷同度。兩篇文本的雷同度也可以簡單地等于被“刺中”的次數(shù)。被提交、收集和錄入的電子文本可以從互聯(lián)網(wǎng)上自動獲得也可以通過人工手動獲得。電子文本在計算機中無論以什么格式存儲(比如ASCII文件、■軟公司word文件、HTML文件、pdf(portabledocumentformat)文件、■x文件等等),其向用戶主要呈現(xiàn)的是以自然語言為主的文本內(nèi)容,而并非■形、圖像、視頻、音頻等其它信息。對于文本特征的提取綜合了文本結(jié)構(gòu)信息和語義信息;文本結(jié)構(gòu)信息是■單詞的位置信息和相同單詞的間隔距離;語義信息是指單詞在一篇文本中■含量。文本特征是從文本中提取出來的一個或者多個單詞序列,序列中每■單詞具有以下特征1)序列中任意兩個單詞的前后順序與它們在原文本中的順序一樣;2)序列中任意兩個相鄰的單詞在原文本中的位置也非常相近;3)序列中任意一個單詞在原文本中的當前位置距離該單詞在原文本中上■次出現(xiàn)的位置非常近。文本特征庫中僅僅存儲文本特征信息,而不包含文本全文;文本特征庫■以全部位于一臺計算機上,也可以分布于多臺計算機上,甚至于分布在互■網(wǎng)上。本發(fā)明是利用計算機程序檢測一篇給定的電子文本中是否剽竊了其它文■的內(nèi)容。通過本發(fā)明可以找出或者發(fā)現(xiàn)那些有剽竊嫌疑的電子文本,從而■采取進一步措施保護合法知識產(chǎn)權(quán)提供了技術(shù)手段和依據(jù)。圖1是本發(fā)明的較佳實施例結(jié)構(gòu)圖;圖2是本發(fā)明提取一篇文本的文本特征的程序流程圖;圖3是本發(fā)明運用探針法計算文本雷同度并判定剽竊的程序流程圖。具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明做進一步說明。依照本發(fā)明的技術(shù)方案,一種利用計算機程序檢測電子文本剽竊的方法,該計算機程序至少包含以下模塊1)電子文本提交、收集和錄入模塊,用于向系統(tǒng)提交待檢測文本或者增添新文本;2)文本特征提取模塊,用于提取文本特征;3)文本特征庫,用于存儲所有文本特征;4)文本剽竊判定模塊,用于判定待檢測文本中是否含有剽竊內(nèi)容;該方法包括以下步驟1)首先文本特征提取模塊根據(jù)文本的結(jié)構(gòu)信息和語義信息提取待檢測文本特征;2)然后運用文本剽竊判定模塊中設(shè)定的探針法估計比較待檢測文本特征和特征庫中的文本特征的最大共同語義并給出文本雷同度量;3)最后據(jù)此判定是否有剽竊,如果雷同度大于或者等于某個閾值則認為檢測文本中存在剽竊,否則認為檢測文本中沒有剽竊。本發(fā)明在計算文本雷同度時并沒有使用簡單地匹配字符串的方法,而是吸收了詞頻法的一些特點。也就是說,如果兩個文本的某一對局部語義之間有足夠多的相同單詞,那么這兩個文本之間有剽竊的概率就足夠大。我們運用語義探針法,通過估計(探測)兩篇文本特征集中的最大雷同單詞數(shù)來估計文本雷同度。探針法不需要用大量的存儲資源來存儲文本全文,避免了使用字符串匹配方法在文本特征集中搜尋最大公共串。因為這樣作一方面運算量大、效率低,另一方面易于受到噪聲干擾。探針法的思路就是在一篇文本的局部語義中隨機選取一些單詞作為“探針”,然后記錄另一篇文本中某個局部語義被刺中的最多次數(shù),只要被刺中的次數(shù)足夠大就可以認為兩篇文本之間有剽竊。如果“探針”在兩篇文本的文本特征中都出現(xiàn),則稱為被“刺中”。最后被“刺中”的次數(shù)與“探針”數(shù)目的比率就是兩篇文本的雷同度。兩篇文本的雷同度也可以簡單地等于被“刺中”的次數(shù)。以下是發(fā)明人給出的較佳實施例。參照圖1,其為本發(fā)明的較佳實施例結(jié)構(gòu)圖。在模塊30,用戶可以從互聯(lián)網(wǎng)20上自動地獲取電子文本向系統(tǒng)提交或者收集、擴充更多的保護文本,也可以通過人力10手工地收集、錄入和提交電子文本。在模塊40,系統(tǒng)需要針對提交的電子文本提取其文本特征。如果該電子文本是擴充的被保護文本,則其文本特征將被增添至文本特征庫50中。如果該電子文本是一篇待檢測文本,則其文本特征將被送至下一模塊60中進行剽竊判定。在模塊60中,待檢測文本特征將要與文本特征庫中所有被保護文本的文本特征進行逐一計算,最終判定出所有可能被剽竊的文本,然后系統(tǒng)向用戶報告檢測結(jié)果70。參照圖2,其為本發(fā)明較佳實施例中,提取一篇文本的文本特征的程序流程圖。首先進行步驟201,對文本進行預(yù)處理。文本預(yù)處理包括對文本進行格式轉(zhuǎn)換、分詞(切詞)、詞干處理、去除高頻詞等操作。格式轉(zhuǎn)換就是把其它格式(比如微軟公司word文件,pdf(portabledocumentformat)文件等等)的文本統(tǒng)統(tǒng)轉(zhuǎn)換成純ASCII碼格式文件,使得轉(zhuǎn)換后的文本中不含有非ASCII碼的字符。分詞或者切詞是指按照單詞來切割文本,使得文本成為一個長的單詞序列而不是一個字符序列。在分詞的過程中去掉了各種標點符號、數(shù)字、以及其它非字符符號,所有單詞之間用統(tǒng)一的一個符號來分隔(比如空格)。詞干處理是指把單詞的不同詞形統(tǒng)統(tǒng)歸一到一個詞干上,比如把danced,dancing和dance都歸一為dance。去除高頻詞是指把那些出現(xiàn)頻率特別高的單詞從文本中去除掉,這些高頻詞包括單字母詞、代詞、介詞、語氣詞等等,比如a、he、the、of等等。接下來進行步驟202,初始化一些局部變量,例如保存文本特征的變量T,臨時緩沖區(qū)L等等。然后進行步驟203,從文本中讀取一個單詞,并記錄當前位置,記為i。然后進行步驟204,查詢該單詞在該文本中上一次出現(xiàn)的位置,記為h。然后進行步驟205,判斷是否查到該單詞。如果查到該單詞,則進行步驟206;否則轉(zhuǎn)至步驟209。在步驟206,令該單詞的語義密度為f=1/(i-h)。然后進行步驟207,判斷該單詞的語義密度f是否大于或者等于某個給定的閾值δ。如果是,則進行步驟208;否則轉(zhuǎn)至步驟209。在步驟208,把該單詞追加到臨時緩沖L中。然后進行步驟209,判斷文本中的單詞是否已經(jīng)讀完。如果讀完了,則進行步驟210;否則轉(zhuǎn)至步驟203,繼續(xù)上述循環(huán),直至讀完文本中所有的單詞。在步驟210,初始化一些局部變量,例如位置計數(shù)器k,當前語義長度len等等。然后進行步驟211,從L中取出第k個單詞,記為L[k]。然后進行步驟212,判斷L中的第k個單詞和第k-1個單詞在原文的位置是否相近,即是否小于等于一個給定的閾值ε。如果是,則進行步驟213;否則轉(zhuǎn)至步驟214。在步驟213,當前語義長度len增加1,說明第k個單詞與前一單詞屬于同一個局部語義。在步驟214,判斷當前語義長度是否大于2。如果大于2,則進行步驟215;否則進行步驟216。在步驟215,把L中從k-len到k-1的單詞序列保存到T中,即該單詞序列是一個完整的局部語義。在步驟216,L中從k-len到k-1的單詞序列刪除或者置0,即該序列長度太短,是一個無效序列。然后進行步驟217,把當前語義長度len重新置為1。接下來進行步驟218,把位置計數(shù)器加1,準備處理下一個單詞。然后進行步驟219,判斷k是否大于或者等于L的長度。如果是,則說明文本已經(jīng)處理完了,T中保存有所有的局部語義(即該文本的文本特征),所以提取該文本的文本特征過程結(jié)束。否則,轉(zhuǎn)至步驟211,繼續(xù)上述循環(huán),直至處理完文本中所有的單詞。參照圖3,其為本發(fā)明較佳實施例中,運用探針法計算文本雷同度并判定剽竊的程序流程圖。首先進行步驟101,確定本次探測的探針數(shù)目p。接著進行步驟102,讀取待檢測文本的文本特征A。然后進行步驟103,從文本特征庫中讀取某一被保護文本的文本特征B。接著進行步驟104,統(tǒng)計A和B之間被刺中的次數(shù)x。之后進行步驟105,計算A和B之間的雷同度d=x/p。在步驟105中,還可以令A(yù)B之間的雷同度d=x。然后進行步驟106,判斷AB之間的雷同度d是否大于給定的閾值。如果d大于或者等于給定閾值,則得到結(jié)論107,A剽竊了B。否則,如果d小于給定閾值,則得到結(jié)論108,A沒有剽竊B。然后進行步驟109,判斷文本特征庫中是否還有未和A檢測過的文本。如果文本特征庫中還有未檢測文本,則轉(zhuǎn)至步驟103并重復(fù)上述過程。否則,對文本A的剽竊檢測過程結(jié)束。在上述說明中,我們用英文文本舉了幾個例子,但是這并不表示本發(fā)明只能處理英文文本。本發(fā)明所述的方法可以檢測中文、英文、日文、法文等等單一語言的電子文本,其區(qū)別僅僅在于文本預(yù)處理階段具體的操作有所不同,其它所有環(huán)節(jié)完全相同。權(quán)利要求1.一種利用計算機程序檢測電子文本剽竊的方法,該計算機程序至少包含1)電子文本提交、收集和錄入模塊,其用以向系統(tǒng)提交待檢測文本或者增添新文本;2)文本特征提取模塊,其用以提取文本特征;3)文本特征庫,其用以存儲所有文本特征;4)文本剽竊判定模塊,其用以判定待檢測文本中是否含有剽竊內(nèi)容;其特征在于,包括以下步驟①首先文本特征提取模塊根據(jù)文本的結(jié)構(gòu)信息和語義信息提取待檢測文本特征;②然后運用文本剽竊判定模塊中設(shè)定的探針法估計待檢測文本特征和特征庫中的文本特征的最大共同語義并給出文本雷同度量;③最后據(jù)此判定是否有剽竊,如果雷同度大于或者等于某個閾值則認為檢測文本中存在剽竊,否則認為檢測文本中沒有剽竊。2.如權(quán)利要求1所述的利用計算機程序檢測電子文本剽竊的方法,其特征在于,所述探針法是,首先從一篇文本的文本特征中選取一些單詞作為探針,然后統(tǒng)計這些探針在另一篇文本的文本特征中出現(xiàn)的次數(shù);如果探針在兩篇文本的文本特征中都出現(xiàn),則稱為被刺中;最后被刺中的次數(shù)與探針數(shù)目的比率就是兩篇文本的雷同度。3.如權(quán)利要求1所述的利用計算機程序檢測電子文本剽竊的方法,其特征在于,上述被提交、收集和錄入的電子文本可以從互聯(lián)網(wǎng)上自動獲得也可以通過人工手動獲得。4.如權(quán)利要求1所述的利用計算機程序檢測電子文本剽竊的方法,其特征在于,所述的電子文本無論電子文本在計算機中以什么格式存儲,其向用戶主要呈現(xiàn)的是以自然語言為主的文本內(nèi)容,而并非圖形、圖像、視頻、音頻等其它信息。5.如權(quán)利要求1所述的利用計算機程序檢測電子文本剽竊的方法,其特征在于,對于文本特征的提取綜合了文本結(jié)構(gòu)信息和語義信息。文本結(jié)構(gòu)信息是指單詞的位置信息和相同單詞的間隔距離。語義信息是指單詞在一篇文本中的含量。6.如權(quán)利要求1所述的利用計算機程序檢測電子文本剽竊的方法,其特征在于,文本特征是從文本中提取出來的一個或者多個單詞序列,序列中的每個單詞具有以下特征1)序列中任意兩個單詞的前后順序與它們在原文本中的順序一樣;2)序列中任意兩個相鄰的單詞在原文本中的位置也非常相近;3)序列中任意一個單詞在原文本中的當前位置距離該單詞在原文本中上一次出現(xiàn)的位置非常近;7.如權(quán)利要求1所述的利用計算機程序檢測電子文本剽竊的方法,其特征在于,文本特征庫中僅僅存儲文本特征信息,而不包含文本全文;文本特征庫可以全部位于一臺計算機上,也可以分布于多臺計算機上,甚至于分布在互聯(lián)網(wǎng)上。全文摘要本發(fā)明提供一種利用計算機程序檢測電子文本剽竊的方法。該計算機程序至少包括電子文本的收集和錄入;電子文本特征提?。晃谋咎卣鲙旃芾砗臀谋矩飧`判定。本發(fā)明首先根據(jù)文本的結(jié)構(gòu)信息和語義信息提取文本特征;然后運用文本剽竊判定模塊中設(shè)定的探針法估計待檢測文本特征和特征庫中的文本特征的最大共同語義并給出文本雷同度量;最后據(jù)此判定是否有剽竊,如果雷同度大于或者等于某個閾值則認為檢測文本中存在剽竊,否則認為檢測文本中沒有剽竊。文檔編號G06F11/28GK1492327SQ0313456公開日2004年4月28日申請日期2003年9月10日優(yōu)先權(quán)日2003年9月10日發(fā)明者鮑軍鵬申請人:西安交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1