亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

利用搜索引擎鑒定文檔抄襲的裝置的制造方法

文檔序號:10534823閱讀:501來源:國知局
利用搜索引擎鑒定文檔抄襲的裝置的制造方法
【專利摘要】本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是一種利用搜索引擎鑒定文檔抄襲的裝置,包括具有網(wǎng)絡(luò)連接的操作主機,操作主機上設(shè)有段落提取模塊和文檔抄襲鑒定模塊,操作主機按如下步驟執(zhí)行文檔是否抄襲的鑒定:1)打開一篇文檔;2)提取文檔內(nèi)段落并轉(zhuǎn)換成字符串;3)調(diào)用文檔抄襲鑒定模塊,通過搜索引擎對段落內(nèi)容進行查詢,如果有抄襲部分,則返回一個記錄抄襲內(nèi)容和網(wǎng)址的數(shù)組;4)如果有返回數(shù)組,則按返回數(shù)組對提取的段落進行標(biāo)記,如果文檔還有其他段落,則返回步驟(2)繼續(xù)提取下一個段落;5)處理完最后一個段落,則文檔處理完畢,保存并顯示處理結(jié)果。該裝置可以自動對文檔內(nèi)容是否抄襲進行檢索并標(biāo)識,從而幫助使用者鑒別涉嫌抄襲的文章。
【專利說明】
利用搜索引擎鑒定文檔抄襲的裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是一種利用搜索引擎鑒定文檔抄襲的裝置。
【背景技術(shù)】
[0002]飛速發(fā)展的互聯(lián)網(wǎng)已經(jīng)滲透到每個人的日常生活中,人們的生活已經(jīng)離不開網(wǎng)絡(luò)。每天都有數(shù)以千萬的新網(wǎng)頁生成以及大量的文檔上傳到網(wǎng)絡(luò)上,同時,各種博客BBS系統(tǒng)也會產(chǎn)生大量的資源,為了能夠在海量的信息中很快找到自己需要的資源,搜索引擎逐漸發(fā)展起來,并且快速形成產(chǎn)業(yè)。目前,搜索技術(shù)的研究和進步,使得搜索的效率非常高,人們幾乎可以在網(wǎng)絡(luò)里找到任何他需要的內(nèi)容。但是,技術(shù)是把雙刃劍,給人們帶來效率的同時,也帶來了很多的弊端,比如,人們不再積極思考,遇到問題,第一個想法總是查找,到網(wǎng)絡(luò)里搜索,這樣,技術(shù)助長了人的惰性。更為嚴(yán)重的是,對網(wǎng)絡(luò)資源的濫用有時甚至?xí)?dǎo)致版權(quán)等問題。面對一篇文檔,如何初步鑒別一下它不是抄襲自網(wǎng)絡(luò)呢,比如老師需要知道學(xué)生提交的論文有沒有抄襲網(wǎng)絡(luò)里的內(nèi)容,編輯需要確定一篇稿件是不是來自網(wǎng)絡(luò)里的某個博客等等。針對這些問題,本發(fā)明綜合各種網(wǎng)絡(luò)技術(shù),給出一種方法,可以實現(xiàn)對文稿抄襲的初步鑒定。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的在于提供一種利用搜索引擎鑒定文檔抄襲的裝置,該裝置可以自動對文檔內(nèi)容是否抄襲進行檢索并標(biāo)識,從而幫助使用者鑒別涉嫌抄襲的文章。
[0004]本發(fā)明采用的技術(shù)方案是:這種利用搜索引擎鑒定文檔抄襲的裝置,包括具有網(wǎng)絡(luò)連接的操作主機,所述操作主機上設(shè)有段落提取模塊和文檔抄襲鑒定模塊,所述操作主機按如下步驟執(zhí)行文檔是否抄襲的鑒定:
[0005](I)打開一篇文檔;
[0006](2)調(diào)用段落提取模塊,以提取文檔內(nèi)地一個段落,并將所述段落的內(nèi)容轉(zhuǎn)換成字符串;
[0007](3)調(diào)用文檔抄襲鑒定模塊,通過搜索引擎對段落內(nèi)容進行查詢處理,如果字符串的內(nèi)容有抄襲部分,則返回一個數(shù)組,數(shù)組里記錄下抄襲的內(nèi)容和網(wǎng)址;
[0008](4)如果有返回數(shù)組,則在打開的文檔內(nèi)按返回數(shù)組對提取的段落進行修改:把段落中涉及抄襲的內(nèi)容進行標(biāo)記,并把抄襲的網(wǎng)址插入段落的末尾;如果文檔還有其他段落,則返回步驟(2)繼續(xù)提取下一個段落;
[0009](5)處理完最后一個段落,則文檔處理完畢,保存并顯示處理結(jié)果。
[0010]上述文檔抄襲鑒定模塊按如下步驟執(zhí)行段落內(nèi)容的查詢處理:
[0011 ] (I)利用標(biāo)點符號作為分割符,將字符串的內(nèi)容拆分成若干獨立的句子,然后依次處理每個句子;
[0012](2)取出第i個句子,以所述第i個句子作為關(guān)鍵字形成搜索引擎的URL地址;
[0013](3)以形成的URL地址為入口參數(shù),利用搜索引擎得到搜索頁面,并提取搜索頁面中目標(biāo)網(wǎng)頁的超級鏈接數(shù)組;
[0014](4)利用超級鏈接數(shù)組H[k]得到相對應(yīng)的網(wǎng)頁內(nèi)容,返回一個所述網(wǎng)頁內(nèi)容的字符串S ;
[0015](5)查看第i句與第I句的內(nèi)容是否同時出現(xiàn)在S內(nèi),第i句與第2句的內(nèi)容是否同時出現(xiàn)在S內(nèi),……,第i句與最后一個句子的內(nèi)容是否同時出現(xiàn)在S內(nèi),如果在,則進行計數(shù),并記下總的計數(shù)值count ;
[0016](6)如果count大于實現(xiàn)規(guī)定的認定抄襲的值,則記錄下數(shù)組(i, count, H[k]);
[0017](7)將得到的數(shù)組(i,count, H[k])進行合并:如果得到兩段內(nèi)容有包含關(guān)系,則舍棄長度小的,保存長度較大的結(jié)果;
[0018](8)將合并后的結(jié)果返回。
[0019]本發(fā)明的顯著特點是可以檢索出文檔中從網(wǎng)絡(luò)上抄襲的文字,并對抄襲內(nèi)容進行標(biāo)識,從而可以對文檔與網(wǎng)絡(luò)上內(nèi)容出現(xiàn)雷同的情況進行直觀的觀察,并根據(jù)程序處理的結(jié)果,輔助人們做出判斷,此文檔是否涉嫌抄襲。在當(dāng)前網(wǎng)絡(luò)飛速發(fā)展的背景下,在網(wǎng)絡(luò)資源爆炸增長的今天,本發(fā)明具有非常廣泛的應(yīng)用領(lǐng)域和廣闊的市場前景。
[0020]下面結(jié)合附圖及具體實施例對本發(fā)明作進一步的詳細說明。
【附圖說明】
[0021]圖1是本發(fā)明的工作原理圖。
【具體實施方式】
[0022]本發(fā)明的利用搜索引擎鑒定文檔抄襲的裝置,包括具有網(wǎng)絡(luò)連接的操作主機,其特征在于:所述操作主機上設(shè)有段落提取模塊和文檔抄襲鑒定模塊,所述操作主機按如下步驟執(zhí)行文檔是否抄襲的鑒定:
[0023](I)打開一篇文檔;
[0024](2)調(diào)用段落提取模塊,以提取文檔內(nèi)的一個段落,并將所述段落的內(nèi)容轉(zhuǎn)換成字符串;
[0025](3)調(diào)用文檔抄襲鑒定模塊,通過搜索引擎對段落內(nèi)容進行查詢處理,如果字符串的內(nèi)容有抄襲部分,則返回一個數(shù)組,數(shù)組里記錄下抄襲的內(nèi)容和網(wǎng)址:
[0026](4)如果有返回數(shù)組,則在打開的文檔內(nèi)按返回數(shù)組對提取的段落進行修改:把段落中涉及抄襲的內(nèi)容進行標(biāo)記,并把抄襲的網(wǎng)址插入段落的末尾:如果文檔還有其他段落,則返回步驟(2)繼續(xù)提取下一個段落:
[0027](5)處理完最后一個段落,則文檔處理完畢,保存并顯示處理結(jié)果。
[0028]上述文檔抄襲鑒定模塊按如下步驟執(zhí)行段落內(nèi)容的查詢處理:
[0029](I)利用標(biāo)點符號作為分割符,將字符串的內(nèi)容拆分成若干獨立的句子,然后依次處理每個句子;
[0030](2)取出第i個句子,以所述第i個句子作為關(guān)鍵字形成搜索引擎的URL地址;
[0031](3)以形成的URL地址為入口參數(shù),利用搜索引擎得到搜索頁面,并提取搜索頁面中目標(biāo)網(wǎng)頁的超級鏈接數(shù)組;
[0032](4)利用超級鏈接數(shù)組H[k]得到相對應(yīng)的網(wǎng)頁內(nèi)容,返回一個所述網(wǎng)頁內(nèi)容的字符串S ;
[0033](5)查看第i句與第I句的內(nèi)容是否同時出現(xiàn)在S內(nèi),第i句與第2句的內(nèi)容是否同時出現(xiàn)在S內(nèi),……,第i句與最后一個句子的內(nèi)容是否同時出現(xiàn)在S內(nèi),如果在,則進行計數(shù),并記下總的計數(shù)值count ;
[0034](6)如果count大于實現(xiàn)規(guī)定的認定抄襲的值,則記錄下數(shù)組(i, count, H[k]);
[0035](7)將得到的數(shù)組(i,count, H[k])進行合并:如果得到兩段內(nèi)容有包含關(guān)系,則舍棄長度小的,保存長度較大的結(jié)果;
[0036](8)將合并后的結(jié)果返回。
[0037]涉及的相關(guān)技術(shù):
[0038]I)本發(fā)明處理的文檔包括各種常用文檔,如word,pdf,excel等,為了通過程序來處理這些文檔,段落提取模塊通過第三方數(shù)據(jù)包或程序接口來完成這一任務(wù),如Jacob數(shù)據(jù)包或COM技術(shù),從而使本發(fā)明的段落提取模塊具備如下功能:1、可以提取文檔內(nèi)容,并把內(nèi)容轉(zhuǎn)換為字符串;2、能識別文檔中插入的圖片;3、能夠?qū)ξ臋n進行排版。
[0039]2)為了實現(xiàn)搜索查詢模塊的功能,本發(fā)明通過面向?qū)ο缶幊痰木幊唐脚_,如最常用的Java,實現(xiàn)了以下幾個工具類,供程序其他部分調(diào)用:
[0040]工具1:把字符串拆分成句子的分析器。把字符串拆分成獨立的句子,用標(biāo)點符號作為分割符來實現(xiàn)。
[0041]工具2:根據(jù)關(guān)鍵字進行搜索的類。依據(jù)關(guān)鍵字形成搜索引擎的URL,然后可以得到相應(yīng)的搜索結(jié)果,網(wǎng)頁內(nèi)容或者是超級鏈接。
[0042]工具3:從網(wǎng)頁中提取超鏈接的類。在網(wǎng)頁中包含的超級鏈接要通過程序提取出來,所用的搜索引擎不同,提取方法也不同,但都是可以準(zhǔn)確定位提取的。
[0043]工具4:獲取網(wǎng)頁內(nèi)容的類。入口參數(shù)為一 URL地址,返回值為網(wǎng)頁內(nèi)容的字符串。
[0044]工具5保存結(jié)果的數(shù)組類。用于保存中間結(jié)果的數(shù)組類,用于返回值的傳遞。
[0045]以上是本發(fā)明的較佳實施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時,均屬于本發(fā)明的保護范圍。
【主權(quán)項】
1.一種利用搜索引擎鑒定文檔抄襲的裝置,包括具有網(wǎng)絡(luò)連接的操作主機,其特征在于:所述操作主機上設(shè)有段落提取模塊和文檔抄襲鑒定模塊,所述操作主機按如下步驟執(zhí)行文檔是否抄襲的鑒定: (1)打開一篇文檔; (2)調(diào)用段落提取模塊,以提取文檔內(nèi)的一個段落,并將所述段落的內(nèi)容轉(zhuǎn)換成字符串; (3)調(diào)用文檔抄襲鑒定模塊,通過搜索引擎對段落內(nèi)容進行查詢處理,如果字符串的內(nèi)容有抄襲部分,則返回一個數(shù)組,數(shù)組里記錄下抄襲的內(nèi)容和網(wǎng)址; (4)如果有返回數(shù)組,則在打開的文檔內(nèi)按返回數(shù)組對提取的段落進行修改:把段落中涉及抄襲的內(nèi)容進行標(biāo)記,并把抄襲的網(wǎng)址插入段落的末尾;如果文檔還有其他段落,則返回步驟(2)繼續(xù)提取下一個段落; (5)處理完最后一個段落,則文檔處理完畢,保存并顯示處理結(jié)果。2.根據(jù)權(quán)利要求1所述的利用搜索引擎鑒定文檔抄襲的裝置,其特征在于:所述文檔抄襲鑒定模塊按如下步驟執(zhí)行段落內(nèi)容的查詢處理: (1)利用標(biāo)點符號作為分割符,將字符串的內(nèi)容拆分成若干獨立的句子,然后依次處理每個句子; (2)取出第i個句子,以所述第i個句子作為關(guān)鍵字形成搜索引擎的URL地址; (3)以形成的URL地址為入口參數(shù),利用搜索引擎得到搜索頁面,并提取搜索頁面中目標(biāo)網(wǎng)頁的超級鏈接數(shù)組; (4)利用超級鏈接數(shù)組H[k]得到相對應(yīng)的網(wǎng)頁內(nèi)容,返回一個所述網(wǎng)頁內(nèi)容的字符串S ; (5)查看第i句與第I句的內(nèi)容是否同時出現(xiàn)在S內(nèi),第i句與第2句的內(nèi)容是否同時出現(xiàn)在S內(nèi),……,第i句與最后一個句子的內(nèi)容是否同時出現(xiàn)在S內(nèi),如果在,則進行計數(shù),并記下總的計數(shù)值count ; (6)如果count大于實現(xiàn)規(guī)定的認定抄襲的值,則記錄下數(shù)組(i,count, H[k]); (7)將得到的數(shù)組(i,count,H[k])進行合并:如果得到兩段內(nèi)容有包含關(guān)系,則舍棄長度小的,保存長度較大的結(jié)果; (8)將合并后的結(jié)果返回。
【文檔編號】G06F17/30GK105893365SQ201410589378
【公開日】2016年8月24日
【申請日】2014年10月18日
【發(fā)明人】鄭強, 柳素梅
【申請人】重慶普石科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1