一種利用網(wǎng)絡(luò)資源實現(xiàn)剽竊和格式檢查的在線論文管理方法

文檔序號：6561213閱讀：333來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種利用網(wǎng)絡(luò)資源實現(xiàn)剽竊和格式檢查的在線論文管理方法
技術(shù)領(lǐng)域：
：本發(fā)明專利涉及教育與出版業(yè)的論文提交與評審工作。
背景技術(shù)：
：本發(fā)明專利面向期刊編輯部、大專院校和國際會議，為它們的編輯、投稿人、審稿人和管理人員提供一個計算機(jī)系統(tǒng)，支持他們的在線協(xié)同工作。該系統(tǒng)由一臺上網(wǎng)計算機(jī)、自動剽竊檢查軟件、自動格式檢査軟件以及論文提交與評審軟件組成。該系統(tǒng)面向論文全生命周期，支持提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理和個性化專業(yè)工具箱，支持他們的在線協(xié)同工作，包括論文創(chuàng)作、交流和評審，進(jìn)度實時統(tǒng)計，自動通知、定向群發(fā)，數(shù)據(jù)歸檔等功能。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤，節(jié)省多余論文打印費、車旅費、電話費、郵遞費等，提高工作效率。目前，對考試、文本剽竊已經(jīng)有一些算法和檢測監(jiān)控方法，例如專利l"一種利用計算機(jī)程序檢測電子文本剽竊的方法"和專利2"基于計算機(jī)網(wǎng)絡(luò)的防轉(zhuǎn)載或/和反剽竊監(jiān)控方法"。然而，這些方法本質(zhì)是基于靜態(tài)文本特征庫的檢測。與專利1比較，而本專利的剽竊檢査，是目前論文評審過程中手工剽竊檢査的自動化，是在網(wǎng)絡(luò)論文資源具備計算機(jī)接口、支持軟件遠(yuǎn)程訪問和操作的條件下才可能實現(xiàn)的。因此和上述的方法l的目標(biāo)、使用場合、技術(shù)手段不一樣，只是在執(zhí)行剽竊分析這一環(huán)節(jié)具有一定的類似性，而這一環(huán)節(jié)并非本專利的主要特征。專利2只是一種針對靜態(tài)、特定文檔進(jìn)行數(shù)據(jù)比較的一種計算機(jī)系統(tǒng)實施方法，未涉及網(wǎng)絡(luò)資源的使用，也沒有剽竊檢査機(jī)制與算法，在目標(biāo)、應(yīng)用場合和技術(shù)手段上均無本專利的特征。國內(nèi)外的國際會議、編輯部、高校已經(jīng)有一些論文管理系統(tǒng)，但是這些系統(tǒng)的主要功能是論文遠(yuǎn)程提交和評審，均沒有自動格式檢査和自動剽竊檢查的功能，也沒有如本系統(tǒng)的多角色權(quán)限管理和自動工作流管理。管理人員和評審者需要人工協(xié)調(diào)論文評審，人工檢査論文格式，人工査閱各種文獻(xiàn)來判斷是否涉嫌剽竊。
發(fā)明內(nèi)容本發(fā)明專利面向期刊編輯部、大專院校和國際會議，為它們的編輯、投稿人、審稿人和管理人員提供一套利用計算機(jī)系統(tǒng)自動執(zhí)行格式檢查、自動剽竊檢查、支持他們在線協(xié)同工作的方法與機(jī)制?；谠搶＠南到y(tǒng)實現(xiàn)由一臺上網(wǎng)計算機(jī)、自動剽竊檢査軟件、自動格式檢査軟件以及論文提交與評審軟件組成。該系統(tǒng)面向論文全生命周期，支持提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理和個性化專業(yè)工具箱，支持他們的在線協(xié)同工作，包括論文創(chuàng)作、交流和評審，進(jìn)度實時統(tǒng)計，自動通知、定向群發(fā)，數(shù)據(jù)歸檔等功能。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤，節(jié)省多余論文打印費、車旅費、電話費、郵遞費等，提高工作效率。漢不萬茶1論文管理的組成與機(jī)制整個論文管理分為5部分，在計算機(jī)系統(tǒng)實現(xiàn)上1)前端是與不同角色用戶交互的論文提交界面。各個角色的用戶通過它登陸系統(tǒng)，進(jìn)入自己的工具箱界面。所有的評審交互過程都伴隨系統(tǒng)自動發(fā)送的EMAIL進(jìn)行系統(tǒng)邊界以外的互聯(lián)，方便師生進(jìn)行溝通。系統(tǒng)中所有角色和論文都由管理員用戶統(tǒng)一進(jìn)行管理。論文提交平臺建立了論文從提交到評審的完備工作流程，將這一復(fù)雜的過程信息化，實現(xiàn)了該流程的無紙化運作。2)服務(wù)器端自動運行著論文檢査服務(wù)中間件，它根據(jù)論文提交平臺提交上來的論文信息，向檢査論文格式、論文抄襲的WebServices提出調(diào)用請求，并將檢査結(jié)果整理成報告形式存入數(shù)據(jù)庫中，論文提交界面把報告展示給用戶，用戶可查詢到論文最新的檢査報告。3)論文檢查服務(wù)中間件負(fù)責(zé)與檢査論文的兩個WebServices聯(lián)系。4)論文格式檢查與剽竊檢査WebServices的作用是接受論文檢査服務(wù)中間件發(fā)過來的調(diào)用請求，接收論文檢査服務(wù)中間件發(fā)送過來的要求檢査的論文，把文檔存儲在自己和核心程序都能訪問的共享文件夾(Samba共享)內(nèi)，并調(diào)用核心程序開始檢査。最后當(dāng)檢査完畢之后，把結(jié)果返還給論文檢査服務(wù)中間件。這兩個WebServices,每次接到一個新的請求便創(chuàng)建出一個新的線程負(fù)責(zé)處理，該進(jìn)程首先將文檔轉(zhuǎn)換成TXT格式的文件，然后讀取整個文件，以句子為單位進(jìn)行保存，分別進(jìn)行檢査后，給出整體的報告。報告的形式是生成一個檢査結(jié)果數(shù)組，將統(tǒng)計數(shù)據(jù)，耗時和檢査到的結(jié)果都寫在這個數(shù)組中返回。5)最后一部分是搜索引擎，這個是第三方提供的Web搜索引擎，包括GoogleAPI和其他論文檢索系統(tǒng)的接口。2功能特征與功能設(shè)計1)論文管理部分的功能特征在線協(xié)同工作，畢業(yè)論文涉及的學(xué)生、導(dǎo)師、評審委員、管理人員、主管院長、學(xué)位分委員會主席等角色協(xié)同在線，無紙辦公，免去論文反復(fù)打印、傳送、修改等的繁瑣工作和過程數(shù)據(jù)丟失之苦。專業(yè)工作界面，各個角色登錄系統(tǒng)，均為自己所熟悉的界面、所需要的統(tǒng)計數(shù)據(jù)和工作工具。完善的權(quán)限管理，按照不同角色在開提報告和論文業(yè)務(wù)中的工作內(nèi)容，有完善的操作權(quán)限管理。數(shù)據(jù)進(jìn)度統(tǒng)計，進(jìn)入系統(tǒng)，不同角色可看到自己所關(guān)注各項統(tǒng)計數(shù)據(jù)，如提交論文數(shù)、論文狀態(tài)等數(shù)據(jù)。在線人員管理，管理人員可以在線管理各種角色，進(jìn)行評審管理。通知定向群發(fā)，根據(jù)論文管理中通信需要，為不同角色分別提供了對應(yīng)的定向通知群發(fā)功能。接收人員不但可在系統(tǒng)中看到被發(fā)送的消息，同時也會在自己的電子郵件中接收到評審等工作安排通知。完全流程支持，支持從開提報告、專家確定、報告審閱、論文提交、評審分配、論文評審、評語填寫直到通過答辯的整個流程。批量打印功能，支持開提報告、學(xué)位論文、論文評閱書等的批量輸出、打印，方便管理和存檔。2)本專利的主要功能設(shè)計產(chǎn)品名稱支持剽竊和格式檢査的在線協(xié)同論文管理系統(tǒng)<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>3)論文檢査服務(wù)中間件接受用戶提交的論文接受Word格式的文檔向檢査論文格式的WS發(fā)出調(diào)用請求向檢査論文抄襲的WS發(fā)出調(diào)用請求接收檢査的結(jié)果，將檢查結(jié)果返還給用戶4)檢査論文兩個的WebServices接受用戶的調(diào)用請求接收上傳過來的需要檢査的文檔維護(hù)與核心部分能共同訪問的共享文件夾(Samba共享)激活核心部分的程序，開始進(jìn)行檢査(Sockets通訊)將檢査結(jié)果反饋回給論文提交網(wǎng)站核心程序接受WS的調(diào)用命令，創(chuàng)建新的線程處理該請求將文檔由Word格式轉(zhuǎn)換為TEXT文件讀取模版格式讀取全文格式，并與模版對照讀取全文存入數(shù)組對句子進(jìn)行分詞，并生成相應(yīng)的URL請求與GoogleAPI交互，獲取返回信息讀取返回信息，運行比對算法統(tǒng)計最終的結(jié)果，生成檢査結(jié)果報告5)搜索弓l擎、將關(guān)鍵詞封裝到URL請求中去從返回的HTML頁面中獲取査詢的結(jié)果3格式檢査技術(shù)方案系統(tǒng)的自動格式檢查功能基于論文檢査單位的論文模板，通過計算機(jī)軟件獲取論文模板和所提交論文的格式，執(zhí)行比對，輸出不一致的(錯誤)格式項目。自動格式檢查的實現(xiàn)主要是基于Word文件及其二次開發(fā)環(huán)境。非Word文檔的論文數(shù)據(jù)，首先要轉(zhuǎn)換成為Word格式。OfficeWord中有幾十種自帶的樣式，并且可以由用戶自定義新的樣式，而每種樣式又是由一系列的子元素構(gòu)成的，如標(biāo)題一的元素定義為"正文+段落大綱l.段落上端間距17磅，段落下端間距16.5磅，行距多倍，行距大小2.4字行，段中不分頁，與下端同頁，粗體，字號二號，字距調(diào)整二號"，而這些元素又是用一系列Word自定義標(biāo)簽來表示的，粗略統(tǒng)計有幾百種元素。使用WordAPI把word轉(zhuǎn)成XML文件，所有的格式元素都以XML標(biāo)簽的形式發(fā)揮其作用。這是經(jīng)過中間層轉(zhuǎn)換后的XML，所以有中文tag，如果是直接轉(zhuǎn)換的XML，其tag全為英文，這樣對于一些比較偏僻的tag就很難了解其表達(dá)含義了。在本方案中，對較為常見的tag定義了語義庫，格式檢查的基本算法如下提取標(biāo)準(zhǔn)模版中的所有樣式及其相應(yīng)的元素定義提取提交文檔中的所有樣式及其相應(yīng)的元素定義對提交文檔逐句檢査其應(yīng)用樣式若其應(yīng)用樣式在模版樣式中存在，則對比其元素是否與模版中此樣式的元素一一相符，若不符則歸結(jié)為樣式設(shè)置錯誤若其應(yīng)用樣式在模版樣式中不存在，則提示為所應(yīng)用的樣式不存在，請校正。4剽竊檢查技術(shù)方案系統(tǒng)的自動剽竊檢査功能基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源，利用計算機(jī)軟件獲取文獻(xiàn)、分解文獻(xiàn)、檢查文獻(xiàn)來實現(xiàn)。世界上現(xiàn)有的搜索引擎能夠處理的搜索字串都不超過二十個單字(單詞)，超過的話搜索精度就會大大降低。如果輸入的關(guān)鍵字有限，則失去了句子的整體性，無法判斷其句子的相識度，僅是個別詞相識是不能說明問題的。特別是在較長的論文中，較之整篇大面積的照搬，抄襲更多情況是拼接。抄襲者常常將原文中的詞句或觀點糅合起來，并用自己的語言和觀點來說明；或者是從不同的資料來源中找到自己需要的，不注明來源，拼接成自己的東西；或者將注明引用的和未注明引用的文字糅合在一起。首先我們要對最容易相似的關(guān)鍵詞，如標(biāo)題、作者、摘要等要素進(jìn)行提取。如果提交的word文檔在文件屬性中有這些屬性，那可以通過WordAPI直接提取，如果Word文件文件名不包含相關(guān)信息，那么論文標(biāo)題，作者，作者身份等信息該如何獲取并不是一件容易的事。因為不是所有論文都是按照嚴(yán)格的統(tǒng)一格式書寫的，即使是有標(biāo)準(zhǔn)格式，這些標(biāo)準(zhǔn)也不是唯一的，這就造成上述信息不能簡單地通過定位來確定。我們的處理方法是(以作者名字為例)作者名字是以單獨語素存在的，也就是說，問題轉(zhuǎn)化為，當(dāng)獲得一個語素時如何判斷其是否為作者姓名。1、該語素應(yīng)該滿足姓名的命名法則，即從語素本身的characteristic入手。例如姓氏是有一定取值范圍的，同時姓名長度也是有一定范圍的。任何一個語素按照characteristic的規(guī)則可以獲得一個權(quán)值c。2、從語素在全文的位置考慮，即從語素的location入手。例如作者姓名只可能出現(xiàn)在文檔前面或者最后的一定范圍內(nèi)，該位置值可能是絕對位置或者是百分比位置，并且應(yīng)該定義為一個范圍。同樣，每個語素都獲得一個權(quán)值l。3、從語素所在的上下文考慮，即從語素的context入手。例如作者姓名前后應(yīng)該是描述作者的單位，編號等信息，當(dāng)信息符合時，該語素應(yīng)獲得更高的權(quán)值t。綜上，一個語素最后可得到一個綜合權(quán)值q，當(dāng)q值達(dá)到某一水平才會被認(rèn)為是目標(biāo)。Google的一個變化是開始采用詞干法進(jìn)行搜索服務(wù)。換言之，如果在搜索框中鍵入"dietary",那么也會得到一些基于"diet"的搜索結(jié)果。也就是說，它不再拘泥搜索與輸入査詢完全相同的詞語，亦會向用戶提供與部分或所有查iU詞語相近的搜索結(jié)果。例如，對于査詢詞語"petlemurdietaryneeds",Google也會顯示"petlemurdietneeds"及其它詞性變化形式的搜索結(jié)果。而且對于搜索結(jié)果頁上出現(xiàn)的査詢詞本身及其不同的變化形式，Google會以粗體突出表示。"所以我們采用逐句式搜索，先以逗點為分割符分割文本，然后對短劇進(jìn)行有效性篩選，去除一些通用性語句，如"thanks"、"bytheway"等不能說明問題的句子。將剩下的有效句子記錄到array中，用做調(diào)用Googlesearch的輸入關(guān)鍵詞。反剽竊的算法的實現(xiàn)。算法的好壞和編程的情況是決定整個檢驗過程的效果和效率的關(guān)鍵。因為中英文的文章風(fēng)格，用詞，標(biāo)點符號都是有差別的，很難說能開發(fā)一個任何語言都能通吃，且效率又都特別好的算法。所以我們針對英文論文進(jìn)行算法實現(xiàn)。我們的算法基于一個假設(shè)涉嫌剽竊的論文，至少都是一整段內(nèi)容的照搬。單獨句子的出現(xiàn)可能是因為作者有引用他人的文章，而不是說剽竊，但是存在很多句子被發(fā)現(xiàn)，甚至是大段大段的內(nèi)容被發(fā)現(xiàn)，則必定說明作者剽竊了他人的論文。反剽竊的算法的設(shè)計如下接收論文，轉(zhuǎn)換為TXT格式句子識別&單詞識別單句搜索&隨機(jī)起點比對結(jié)果&"CheckNext"策略按照要求重復(fù)3，4步驟結(jié)果統(tǒng)計因為設(shè)計的時候考慮到文章過長可能會耗很長的時間，所以在全文檢査的基礎(chǔ)上設(shè)置了一個檢査間隔，例如，選擇檢査間隔為IO，那么每隔10句話，會檢查一次，這樣有個問題，就是起點如何定，在1一10這個間隔范圍內(nèi)，從哪句話開始檢查，我們采用了隨機(jī)數(shù)的方法，每次會從間隔起點的范圍內(nèi)挑選一個數(shù)作為開始檢查的位置。這樣就能保證檢査的隨機(jī)性，而不至于每次都只能檢査到文章的同一部分。如果整句話能在google上搜索到，那么這句話肯定是抄襲來的'。如果整篇文章或整段文章存在大量的整句的抄襲，而且出處又集中在幾篇文章內(nèi)，那么肯定可以判斷文章是抄襲的了。這樣做的好處是只要去向Google査詢就行了，而不用去把找來的文章做兩兩對比，比較節(jié)約時間。選取了査找句后就是調(diào)用GoogleAPI進(jìn)行搜索.Google搜索引擎提供了基于SOAP的WebService。這意味著不同的開發(fā)語言、開發(fā)環(huán)境都能夠使用這種服務(wù)，另外，Google為了簡化Java程序員的開發(fā)，它還提供了一套JavaAPI接口，用于訪問WebSerivce，這使得開發(fā)一套支持Google搜索功能的程序變得十分容易。開發(fā)人員可以將Google的搜索功能嵌入到他們的應(yīng)用程序當(dāng)中。目前，Google的API還是處于Beta測試階段，因此，在API的使用上還有一些限制。例如，使用這些API需要申請一個帳號。對于免費申請的帳號，為了防止開發(fā)人員不正當(dāng)?shù)氖褂?，限制每個帳號、每天最多只能查詢1000次。目前，Google還沒有提出正式的運營模式和收費方式。GoogleAPI目前主要提供三種服務(wù)，分別如下1)搜索服務(wù)。用戶提交一個搜索內(nèi)容請求，Google服務(wù)器將査找超過20億的網(wǎng)頁內(nèi)容，并且將滿足用戶需求的目標(biāo)返回給用戶，一般來說這種處理只需要幾秒的時間。2)緩存服務(wù)(Cache)。用戶提交一個URL，Google服務(wù)器將返回搜索器訪問該URL的最新記錄。這樣，用戶很容易復(fù)用Google的搜索成果。3)拼寫檢査。該功能用于檢査用戶的查詢請求是否有效。用戶提交一個檢査內(nèi)容，Google服務(wù)器將返回有效的、最接近該內(nèi)容的查詢請求，返回的査詢請求將符合Google的査詢規(guī)則。Google提供了基于SOAP的WebService，因此用戶可以向Google服務(wù)器提交SOAP的査詢請求，而后Google服務(wù)器將處理這些請求，并返回SOAP格式的査詢結(jié)果。和GoogleAPI交互之后，會得到Google的返回結(jié)果，這時我們需要進(jìn)行內(nèi)容的解析，首先判斷是不是什么都沒査到，如果是這樣的話，本次查詢就結(jié)束了。如果有査詢到內(nèi)容，那么就讀取査到的內(nèi)容，和進(jìn)行査詢的那句句子進(jìn)行比對，如果發(fā)現(xiàn)兩者相同或者相似，那么就把內(nèi)容記錄下來。抄襲有以下幾種方式1、照抄不誤，等于C0PY，有的甚至連標(biāo)點符號也不放過。這是一種低級的抄襲，這種情況很容易檢測，但并不常見。2、抄襲別人的核心觀點，放在自己的語言體系中。這種抄襲較為常見。3、襲用別人的理論模型或框架、方法、定理，再加一些敘述。這種抄襲也較多。4、改寫別人的文字，加上自己的一些看法，但通讀之后使人感到了無新意，并能發(fā)現(xiàn)文章的出處原型。5、引用別人的成果不老實，如有些地方加注明，有些地方不注明，只是改寫，在數(shù)量上篇幅較大?；虼罅恳脛e人引用過的資料不說明轉(zhuǎn)引，也屬對別人勞動成果的一種剽竊，是較常見的抄襲行為。為了區(qū)分這幾種抄襲，在設(shè)計上，我們采用相似度權(quán)值的方法。標(biāo)準(zhǔn)如下<table>tableseeoriginaldocumentpage11</column></row><table>在我們的懷疑記錄中目前不記錄O.7以下的記錄。在Google返回的結(jié)果中，已經(jīng)按照搜索詞的關(guān)聯(lián)度進(jìn)行排序了，也就是說從第一條開始讀取記錄進(jìn)行比較是最有可能找到相似句子的，并且在返回的結(jié)果中有個summary字段是搜索到的文件中包含關(guān)鍵詞的一段話，所以和summaiT字段進(jìn)行比較就可以了。那么如果本句話被査到了，那么它的下一句應(yīng)該也會在Google的返回結(jié)果中，只要我們再比對一下下一句話，那么很大的程度上能夠命中。這樣就能減少一次査詢。這個就是CheckNext的策略。這個策略對于抄襲越嚴(yán)重的論文，檢查的速度會越快。文檔一從第一個語素開始，每個語素都與文檔二的每個語素順序比較，當(dāng)找到匹配時R印ort對象加入元素。做完所有匹配之后，調(diào)用R印ort類的summarizing()函數(shù)進(jìn)行歸納，對相鄰元素連續(xù)匹配加以合并。為了節(jié)省搜索時間，我們只取搜索結(jié)果的前10條進(jìn)行比對。檢査完一句話后，然后在拿出下一句話進(jìn)行檢查，這樣反復(fù)直到所有該檢查的句子都檢査完畢了，這樣?xùn)嗽冞^程也就結(jié)束了。接下來是一些統(tǒng)計數(shù)據(jù)的生成，以及報告的表達(dá)形式，多種匹配方式的支持。專利效果本專利面向期刊編輯部、大專院校和國際會議，為它們的編輯、投稿人、審稿人和管理人員提供一個計算機(jī)系統(tǒng)，支持他們的在線協(xié)同工作。該系統(tǒng)由一臺上網(wǎng)計算機(jī)、自動剽竊檢査軟件、自動格式檢查軟件以及論文提交與評審軟件組成。該系統(tǒng)面向論文全生命周期，支持論文創(chuàng)作和交流、面向提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理和個性化專業(yè)工具箱，進(jìn)度實時統(tǒng)計，自動通知、定向群發(fā)，數(shù)據(jù)歸檔等功能。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤，節(jié)省多余論文打印費、車旅費、電話費、郵遞費等，提高工作效率。專利案例表明，該系統(tǒng)可以免除管理人員和師生60-80%的工作量，減少不必要的時間精力消耗，每年節(jié)省開支1萬一6萬多元，提高工作效率30%以上，把大家從瑣碎、煩雜的論文創(chuàng)作、提交、修改、評審、管理等工作中解脫出來。下面結(jié)合圖片說明介紹本專利具體實施方式。圖l是本專利的計算機(jī)系統(tǒng)組成圖。圖2是本專利的系統(tǒng)軟件結(jié)構(gòu)。圖3是本專利的論文檢査服務(wù)中間件類圖示例。圖4是本專利實施例中的用戶登陸界面。圖5是本專利實施例中的論文管理人員界面。圖6是本專利實施例中的論文格式檢査界面。圖7是本專利實施例中的論文剽竊檢査界面。具體實施例方式本專利面向期刊編輯部、大專院校和國際會議，為它們的編輯、投稿人、審稿人和管理人員提供一套利用計算機(jī)系統(tǒng)自動執(zhí)行格式檢査、自動剽竊檢查、支持他們在線協(xié)同工作的方法與機(jī)制?；诒緦＠枋龇椒ㄅc機(jī)制的系統(tǒng)實施例是復(fù)旦大學(xué)的學(xué)位論文提交與評審系統(tǒng)。1論文管理的組成與機(jī)制如圖1所示，整個論文管理分為5部分，在計算機(jī)系統(tǒng)實現(xiàn)上1)前端是與不同角色用戶交互的論文提交界面。各個角色的用戶通過它登陸系統(tǒng)，進(jìn)入自己的工具箱界面。所有的評審交互過程都伴隨系統(tǒng)自動發(fā)送的EMAIL進(jìn)行系統(tǒng)邊界以外的互聯(lián)，方便師生進(jìn)行溝通。系統(tǒng)中所有角色和論文都由管理員用戶統(tǒng)一進(jìn)行管理。論文提交平臺建立了論文從提交到評審的完備工作流程，將這一復(fù)雜的過程信息化，實現(xiàn)了該流程的無紙化運作。2)服務(wù)器端自動運行著論文檢查服務(wù)中間件，它根據(jù)論文提交平臺提交上來的論文信息，向檢査論文格式、論文抄襲的WebServices提出調(diào)用請求，并將檢査結(jié)果整理成報告形式存入數(shù)據(jù)庫中，論文提交界面把報告展示給用戶，用戶可査詢到論文最新的檢査報告。3)論文檢査服務(wù)中間件負(fù)責(zé)與檢査論文的兩個WebServices聯(lián)系。4)論文格式檢査與剽竊檢査WebServices的作用是接受論文檢查服務(wù)中間件發(fā)過來的調(diào)用請求，接收論文檢査服務(wù)中間件發(fā)送過來的要求檢査的論文，把文檔存儲在自己和核心程序都能訪問的共享文件夾(Samba共享)內(nèi)，并調(diào)用核心程序開始檢査。最后當(dāng)檢查完畢之后，把結(jié)果返還給論文檢查服務(wù)中間件。這兩個WebServices,每次接到一個新的請求便創(chuàng)建出一個新的線程負(fù)責(zé)處理，該進(jìn)程首先將文檔轉(zhuǎn)換成TXT格式的文件，然后讀取整個文件，以句子為單位進(jìn)行保存，分別進(jìn)行檢查后，給出整體的報告。報告的形式是生成一個檢査結(jié)果數(shù)組，將統(tǒng)計數(shù)據(jù)，耗時和檢査到的結(jié)果都寫在這個數(shù)組中返回。5)最后一部分是搜索引擎，這個是第三方提供的Web搜索引擎，包括GoogleAPI和其他論文檢索系統(tǒng)的接口。2功能特征與功能設(shè)計圖4是本專利實施例中的用戶登陸界面。圖5是本專利實施例中的論文管理人員界面。1)論文管理部分的功能特征在線協(xié)同工作，畢業(yè)論文涉及的學(xué)生、導(dǎo)師、評審委員、管理人員、主管院長、學(xué)位分委員會主席等角色協(xié)同在線，無紙辦公，免去論文反復(fù)打印、傳送、修改等的繁瑣工作和過程數(shù)據(jù)丟失之苦。專業(yè)工作界面，各個角色登錄系統(tǒng)，均為自己所熟悉的界面、所需要的統(tǒng)計數(shù)據(jù)和工作工具。完善的權(quán)限管理，按照不同角色在開提報告和論文業(yè)務(wù)中的工作內(nèi)容，有完善的操作權(quán)限管理。數(shù)據(jù)進(jìn)度統(tǒng)計，進(jìn)入系統(tǒng)，不同角色可看到自己所關(guān)注各項統(tǒng)計數(shù)據(jù)，如提交論文數(shù)、論文狀態(tài)等數(shù)據(jù)。在線人員管理，管理人員可以在線管理各種角色，進(jìn)行評審管理。通知定向群發(fā)，根據(jù)論文管理中通信需要，為不同角色分別提供了對應(yīng)的定向通知群發(fā)功能。接收人員不但可在系統(tǒng)中看到被發(fā)送的消息，同時也會在自己的電子郵件中接收到評審等工作安排通知。完全流程支持，支持從開提報告、專家確定、報告審閱、論文提交、評審分配、論文評審、評語填寫直到通過答辯的整個流程。批量打印功能，支持開提報告、學(xué)位論文、論文評閱書等的批量輸出、打印，方便管理和存檔。2<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table><table>complextableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table>3)論文檢查服務(wù)中間件接受用戶提交的論文接受Word格式的文檔向檢査論文格式的WS發(fā)出調(diào)用請求向檢查論文抄襲的WS發(fā)出調(diào)用請求接收檢查的結(jié)果，將檢查結(jié)果返還給用戶4)檢査論文兩個的WebServices接受用戶的調(diào)用請求接收上傳過來的需要檢査的文檔維護(hù)與核心部分能共同訪問的共享文件夾(Samba共享)激活核心部分的程序，開始進(jìn)行檢査(Sockets通訊)將檢査結(jié)果反饋回給論文提交網(wǎng)站核心程序接受WS的調(diào)用命令，創(chuàng)建新的線程處理該請求將文檔由Word格式轉(zhuǎn)換為TEXT文件讀取模版格式讀取全文格式，并與模版對照讀取全文存入數(shù)組對句子進(jìn)行分詞，并生成相應(yīng)的URL請求與GoogleAPI交互，獲取返回信息讀取返回信息，運行比對算法統(tǒng)計最終的結(jié)果，生成檢查結(jié)果報告5)搜索引擎將關(guān)鍵詞封裝到URL請求中去從返回的HTML頁面中獲取査詢的結(jié)果3格式檢査技術(shù)方案圖6是本專利實施例中的論文格式檢查界面。系統(tǒng)的自動格式檢查功能基于論文檢查單位的論文模板，通過計算機(jī)軟件獲取論文模板和所提交論文的格式，執(zhí)行比對，輸出不一致的(錯誤)格式項目。自動格式檢查的實現(xiàn)主要是基于Word文件及其二次開發(fā)環(huán)境。非Word文檔的論文數(shù)據(jù)，首先要轉(zhuǎn)換成為Word格式。OfficeWord中有幾十種自帶的樣式，并且可以由用戶自定義新的樣式，而每種樣式又是由一系列的子元素構(gòu)成的，如標(biāo)題一的元素定義為"正文+段落大綱l.段落上端間距17磅，段落下端間距16.5磅，行距多倍，行距大小2.4字行，段中不分頁，與下端同頁，粗體，字號二號，字距調(diào)整二號"，而這些元素又是用一系列Word自定義標(biāo)簽來表示的，粗略統(tǒng)計有幾百種元素。使用WordAPI把word轉(zhuǎn)成XML文件，形式如下<xmlversion="1.0"encoding="UTF-8"><uof:UOFxmlns:uof="http:〃schemas.uof.org/cn/2003/uof"xmlns:="http:〃schemas.uof.org/cn/2003/graph"xmlns:="http:〃schemas.uof.org/cn/2003/uof-wordproc"xmlns:="http:〃schemas.uof.org/cn/2003/uof-spreadsheet"xmlns:="http:〃schemas.uof.org/cn/2003/uof-slideshow"xmlns:xsi="http:〃www.w3.org/2001/XMLSchema-instance"xsi:schemaLocaticm="http:〃schemas.uof.org/cn/2003/uofD:\UOF\uof_schema\uof.xsd"uof:language="cn"uof:version="1.0"uof:locID="u0000">〈uof:元數(shù)據(jù)uof:locID="u0001">〈uof:標(biāo)題uof:lodD-"u0002"〉基于Googlewebservice的論文査抄襲系統(tǒng)々uof:標(biāo)題〉〈uof:創(chuàng)建者uof:locID^'u0004"x/uof:創(chuàng)建者>〈uof:最后作者uof:locID="u0006">々uof:最后作者〉〈uof:創(chuàng)建日期uof:loclD-"u0008"〉2006-05-30T02:00:00〈/uof:創(chuàng)建日期>〈uof:編輯次數(shù)uof:locID="u0009">3K/uof:編輯次數(shù)〉〈uof:編輯時間uof:locID-"u0010"〉P0Y0M0DT0H55M6S〈/uof:編輯時間〉〈uof:創(chuàng)建應(yīng)用程序uof:locID="u001l">EIOffice2007〈/uof:創(chuàng)建應(yīng)用程序〉〈uof:公司名稱uof:locID="u0018">SoftwareFudan.lK/uof:公司名稱〉々uof:元數(shù)據(jù)〉〈uof:書簽集uof:locID="u0027">〈uof:書簽uof:locID="u0028"uof:attrLisf名稱"叫f:名稱一'—Tocl38184650">〈uof:文本位置uof:locID="u0029"uof:attrLisH'區(qū)域引用"字:區(qū)域引用-"bk—Tocl38184650'7>々uof:書簽〉々uof:書簽集〉〈uof:對象集uof:locID="u0033">〈uof:其他對象uof:locID="u0036"uof:attrLisf標(biāo)識符內(nèi)嵌公共類型私有類型"uof:標(biāo)識符-"OBJ00002"uof:內(nèi)嵌-"false"uof:公共類型-"png、〈uof:數(shù)據(jù)uof:locID="u0037">々uof:數(shù)據(jù)〉々uof:其他對象〉<圖:圖形uof:locID="g0000"uof:attrLisf層次標(biāo)識符組合列表其他對象"圖:層次="4"圖:標(biāo)識符-"OBJ0000r圖:其他對象y'OBJ00002"〉<圖:預(yù)定義圖形uof:locID="g0005"><圖:類別uof:locID="g0006">l1</圖:類別><圖:名稱uof:locID-"g0007"〉Rectangle〈/圖:名稱><圖:生成軟件uof:locID^'g0008"〉EIOffice々圖:生成軟件〉<圖:屬性uof:locID="g0011"><圖:線型uof:locID-"g0014,single〈/圖:線型〉<圖:線粗細(xì)uof:loclD-"g0016"X).75々圖:線粗細(xì)〉<圖:寬度uof:locID="g0023">36.00055</圖:寬度><圖:高度uof:locIDJg0024"〉36.00055々圖:高度><圖:旋轉(zhuǎn)角度uof:locID-"g0025"X).(X/圖:旋轉(zhuǎn)角度〉<圖:鎖定縱橫比uof:locID="g0028">1</圖:鎖定縱橫比><圖:打印對象uof:locID-"g0032"〉true〈/圖:打印對象〉〈圖:Web文字uof:locID^'g0033"〉Graph々圖:Web文字></圖:屬性></圖:預(yù)定義圖形></圖:圖形>可以看到，所有的格式元素都以XML標(biāo)簽的形式發(fā)揮其作用。這還是經(jīng)過中間層轉(zhuǎn)換后的XML,所以有中文tag，如果是直接轉(zhuǎn)換的XML，其tag全為英文，這樣對于一些比較偏僻的tag就很難了解其表達(dá)含義了。在本系統(tǒng)中，對較為常見的tag定義了語義庫，格式檢査的基本算法如下提取標(biāo)準(zhǔn)模版中的所有樣式及其相應(yīng)的元素定義提取提交文檔中的所有樣式及其相應(yīng)的元素定義對提交文檔逐句檢査其應(yīng)用樣式若其應(yīng)用樣式在模版樣式中存在，則對比其元素是否與模版中此樣式的元素一一相符，若不符則歸結(jié)為樣式設(shè)置錯誤若其應(yīng)用樣式在模版樣式中不存在，則提示為所應(yīng)用的樣式不存在，請校正。此部分服務(wù)的難點在于，Word轉(zhuǎn)成xml后，其層次結(jié)構(gòu)相當(dāng)復(fù)雜，尤其是當(dāng)樣式中設(shè)置的元素過多或是存在復(fù)雜表格的時候，一個短句的格式相關(guān)結(jié)構(gòu)會達(dá)到10層左右，并且元素標(biāo)簽的數(shù)量巨大，要準(zhǔn)確地定位語句和準(zhǔn)確提取元素標(biāo)簽，是很費時和占資源的，如果提交的文檔過大(一般大于2M)就會在運行過程中因資源耗盡而出錯終止。所以本系統(tǒng)采用分段傳輸word，分段檢查，最后合并檢査報告的方法來解決這個問題。4剽竊檢査技術(shù)方案圖7是本專利實施例中的論文剽竊檢査界面。系統(tǒng)的自動剽竊檢査功能基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源，利用計算機(jī)軟件獲取文獻(xiàn)、分解文獻(xiàn)、檢查文獻(xiàn)來實現(xiàn)。世界上現(xiàn)有的搜索引擎能夠處理的搜索字串都不超過二十個單字(單詞)，超過的話搜索精度就會大大降低。如果輸入的關(guān)鍵字有限，則失去了句子的整體性，無法判斷其句子的相識度，僅是個別詞相識是不能說明問題的。特別是在較長的論文中，較之整篇大面積的照搬，抄襲更多情況是拼接。抄襲者常常將原文中的詞句或觀點糅合起來，并用自己的語言和觀點來說明；或者是從不同的資料來源中找到自己需要的，不注明來源，拼接成自己的東西；或者將注明引用的和未注明引用的文字糅合在一起。所以如何向Googlewebservice發(fā)送合理的搜索關(guān)鍵字是本項目的難點。首先我們要對最容易相似的關(guān)鍵詞，如標(biāo)題、作者、摘要等要素進(jìn)行提取。如果提交的word文檔在文件屬性中有這些屬性，那可以通過WordAPI直接提取，如果Word文件文件名不包含相關(guān)信息，那么論文標(biāo)題，作者，作者身份等信息該如何獲取并不是一件容易的事。因為不是所有論文都是按照嚴(yán)格的統(tǒng)一格式書寫的，即使是有標(biāo)準(zhǔn)格式，這些標(biāo)準(zhǔn)也不是唯一的，這就造成上述信息不能簡單地通過定位來確定。我們的處理方法是(以作者名字為例)作者名字是以單獨語素存在的，也就是說，問題轉(zhuǎn)化為，當(dāng)獲得一個語素時如何判斷其是否為作者姓名。1、該語素應(yīng)該滿足姓名的命名法則，即從語素本身的characteristic入手。例如姓氏是有一定取值范圍的，同時姓名長度也是有一定范圍的。任何一個語素按照characteristic的規(guī)則可以獲得一個權(quán)值c。2、從語素在全文的位置考慮，即從語素的location入手。例如作者姓名只可能出現(xiàn)在文檔前面或者最后的一定范圍內(nèi)，該位置值可能是絕對位置或者是百分比位置，并且應(yīng)該定義為一個范圍。同樣，每個語素都獲得一個權(quán)值l。3、從語素所在的上下文考慮，即從語素的context入手。例如作者姓名前后應(yīng)該是描述作者的單位，編號等信息，當(dāng)信息符合時，該語素應(yīng)獲得更高的權(quán)值t。綜上，一個語素最后可得到一個綜合權(quán)值q，當(dāng)q值達(dá)到某一水平才會被認(rèn)為是目標(biāo)。Google的一個變化是開始采用詞干法進(jìn)行搜索服務(wù)。換言之，如果在搜索框中鍵入"dietary",那么也會得到一些基于"diet"的搜索結(jié)果。也就是說，它不再拘泥搜索與輸入査詢完全相同的詞語，亦會向用戶提供與部分或所有査il]詞語相近的搜索結(jié)果。例如，對于査詢詞語"petlemurdietaryneeds",Google也會顯示"petlemurdietneeds"及其它詞性變化形式的搜索結(jié)果。而且對于搜索結(jié)果頁上出現(xiàn)的査詢詞本身及其不同的變化形式，Google會以粗體突出表示。"所以我們采用逐句式搜索，先以逗點為分割符分割文本，然后對短劇進(jìn)行有效性篩選，去除一些通用性語句，如"thanks"、"bytheway"等不能說明問題的句子。將剩下的有效句子記錄到array中，用做調(diào)用Googlesearch的輸入關(guān)鍵詞。反剽竊的算法的實現(xiàn)。算法的好壞和編程的情況是決定整個檢驗過程的效果和效率的關(guān)鍵。因為中英文的文章風(fēng)格，用詞，標(biāo)點符號都是有差別的，很難說能開發(fā)一個任何語言都能通吃，且效率又都特別好的算法。所以我們針對英文論文進(jìn)行算法實現(xiàn)。我們的算法基于一個假設(shè)涉嫌剽竊的論文，至少都是一整段內(nèi)容的照搬。單獨句子的出現(xiàn)可能是因為作者有引用他人的文章，而不是說剽竊，但是存在很多句子被發(fā)現(xiàn)，甚至是大段大段的內(nèi)容被發(fā)現(xiàn)，則必定說明作者剽竊了他人的論文反剽竊的算法的設(shè)計如下接收論文，轉(zhuǎn)換為TXT格式句子識別&單詞識別單句搜索&隨機(jī)起點比對結(jié)果&"CheckNext"策略按照要求重復(fù)3，4步驟結(jié)果統(tǒng)計因為設(shè)計的時候考慮到文章過長可能會耗很長的時間，所以在全文檢査的基礎(chǔ)上設(shè)置了一個檢査間隔，例如，選擇檢查間隔為IO，那么每隔10句話，會檢査一次，這樣有個問題，就是起點如何定，在1一10這個間隔范圍內(nèi)，從哪句話開始檢査，我們采用了隨機(jī)數(shù)的方法，每次會從間隔起點的范圍內(nèi)挑選一個數(shù)作為開始檢査的位置。這樣就能保證檢査的隨機(jī)性，而不至于每次都只能檢査到文章的同一部分。如果整句話能在google上搜索到，那么這句話肯定是抄襲來的'。如果整篇文章或整段文章存在大量的整句的抄襲，而且出處又集中在幾篇文章內(nèi)，那么肯定可以判斷文章是抄襲的了。這樣做的好處是只要去向Google查詢就行了，而不用去把找來的文章做兩兩對比，比較節(jié)約時間。選取了査找句后就是調(diào)用GoogleAPI進(jìn)行搜索.Google搜索引擎提供了基于SOAP的WebService。這意味著不同的開發(fā)語言、開發(fā)環(huán)境都能夠使用這種服務(wù)，另外，Google為了簡化Java程序員的開發(fā)，它還提供了一套JavaAPI接口，用于訪問WebSerivce,這使得開發(fā)一套支持Google搜索功能的程序變得十分容易。開發(fā)人員可以將Google的搜索功能嵌入到他們的應(yīng)用程序當(dāng)中。目前，Google的API還是處于Beta測試階段，因此，在API的使用上還有一些限制。例如，使用這些API需要申請一個帳號。對于免費申請的帳號，為了防止開發(fā)人員不正當(dāng)?shù)氖褂?，限制每個帳號、每天最多只能査詢1000次。目前，Google還沒有提出正式的運營模式和收費方式。GoogleAPI目前主要提供三種服務(wù)，分別如下1)搜索服務(wù)。用戶提交一個搜索內(nèi)容請求，Google服務(wù)器將查找超過20億的網(wǎng)頁內(nèi)容，并且將滿足用戶需求的目標(biāo)返回給用戶，一般來說這種處理只需要幾秒的時間。2)緩存服務(wù)(Cache)。用戶提交一個URL，Google服務(wù)器將返回搜索器訪問該URL的最新記錄。這樣，用戶很容易復(fù)用Google的搜索成果。3)拼寫檢查。該功能用于檢査用戶的査詢請求是否有效。用戶提交一個檢査內(nèi)容，Google服務(wù)器將返回有效的、最接近該內(nèi)容的査詢請求，返回的査詢請求將符合Google的查詢規(guī)則。Google提供了基于SOAP的WebService，因此用戶可以向Google服務(wù)器提交SOAP的査詢請求，而后Google服務(wù)器將處理這些請求，并返回SOAP格式的査詢結(jié)果。和GoogleAPI交互之后，會得到Google的返回結(jié)果，這時我們需要進(jìn)行內(nèi)容的解析，首先判斷是不是什么都沒查到，如果是這樣的話，本次查詢就結(jié)束了。如果有査詢到內(nèi)容，那么就讀取查到的內(nèi)容，和進(jìn)行査詢的那句句子進(jìn)行比對，如果發(fā)現(xiàn)兩者相同或者相似，那么就把內(nèi)容記錄下來。抄襲有以下幾種方式1、照抄不誤，等于C0PY，有的甚至連標(biāo)點符號也不放過。這是一種低級的抄襲，這種情況很容易檢測，但并不常見。2、抄襲別人的核心觀點，放在自己的語言體系中。這種抄襲較為常見。3、襲用別人的理論模型或框架、方法、定理，再加一些敘述。這種抄襲也較多。4、改寫別人的文字，加上自己的一些看法，但通讀之后使人感到了無新意，并能發(fā)現(xiàn)文章的出處原型。5、引用別人的成果不老實，如有些地方加注明，有些地方不注明，只是改寫，在數(shù)量上篇幅較大。或大量引用別人引用過的資料不說明轉(zhuǎn)引，也屬對別人勞動成果的一種剽竊，是較常見的抄襲行為。為了區(qū)分這幾種抄襲，在設(shè)計上，我們采用相似度權(quán)值的方法。標(biāo)準(zhǔn)如下<table>tableseeoriginaldocumentpage21</column></row><table>在我們的懷疑記錄中目前不記錄O.7以下的記錄。在Google返回的結(jié)果中，已經(jīng)按照搜索詞的關(guān)聯(lián)度進(jìn)行排序了，也就是說從第一條開始讀取記錄進(jìn)行比較是最有可能找到相似句子的，并且在返回的結(jié)果中有個summary字段是搜索到的文件中包含關(guān)鍵詞的一段話，所以和sumraary字段進(jìn)行比較就可以了。那么如果本句話被査到了，那么它的下一句應(yīng)該也會在Google的返回結(jié)果中，只要我們再比對一下下一句話，那么很大的程度上能夠命中。這樣就能減少一次査詢。這個就是CheckNext的策略。這個策略對于抄襲越嚴(yán)重的論文，檢查的速度會越快。文檔一從第一個語素開始，每個語素都與文檔二的每個語素順序比較，當(dāng)找到匹配時R印ort對象加入元素。做完所有匹配之后，調(diào)用R印ort類的summarizing()函數(shù)進(jìn)行歸納，對相鄰元素連續(xù)匹配加以合并。為了節(jié)省搜索時間，我們只取搜索結(jié)果的前10條進(jìn)行比對。檢査完一句話后，然后在拿出下一句話進(jìn)行檢査，這樣反復(fù)直到所有該檢査的句子都檢查完畢了，這樣查詢過程也就結(jié)束了。接下來是一些統(tǒng)計數(shù)據(jù)的生成，以及報告的表達(dá)形式，多種匹配方式的支持。5系統(tǒng)業(yè)務(wù)流程<table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>6系統(tǒng)實現(xiàn)的軟件結(jié)構(gòu)支持本專利實現(xiàn)的整個論文管理系統(tǒng)軟件結(jié)構(gòu)如圖2所示。論文檢査服務(wù)中間件負(fù)責(zé)與檢查論文的兩個WebServices聯(lián)系，其結(jié)構(gòu)如圖2所示。7系統(tǒng)開發(fā)環(huán)境系統(tǒng)在開發(fā)環(huán)境為Tomcat+Axis+Java。環(huán)境配置步驟如下1)建立Java開發(fā)環(huán)境，Java.SDKl.3.1或更新的版本。相關(guān)地址http:.〃java.sun.com/J2SE2)下載GoogleAPI的Jar文件，Google即i.jar。開發(fā)人員可以到http:〃www.google,com/即is下載。3)申請Google訪問帳號，目前Google支持免費申請的方式，用戶需要使用一個email帳號來獲取新帳號。注意，目前免費帳號支持每天1000條的最大査詢量。申請地址http://www.google.com/apis。4)(可選)如果用戶需要通過Java程序直接發(fā)送SOAP請求，開發(fā)人員需要下載相關(guān)的Java軟件包，JAXM。下載±也址http:〃Java.sun.com/xmlWebServices部署步驟如下1)安裝Tomcat服務(wù)器，tomcat5.0或更新版本，并確保tomcat服務(wù)器能夠正常運行。2)將Axis工具包解壓到Tomcat安裝目錄的webapps目錄下。3)把檢查服務(wù)的WebService的plgpreventing.jar包復(fù)制到axisMVEB-INF、lib下4)將jacob.dll復(fù)制到windows、system32文件夾下5)依次分別運行格式檢查服務(wù)的und印loy.bat與d印loy.bat，以及剽竊檢查服務(wù)的undeploy.bat與d印loy.bat。6)重啟tomcat服務(wù)器7)打開瀏覽器，在地址欄上輸入hUp:〃localhost:端口號/axis/services/，檢査服務(wù)是否存在。若存在則表示W(wǎng)ebService部署成功8軟硬件配置軟件配置-Microsoft.NETFramework1.1—MicrosoftSQLServer2000EnterpriseEdition一MicrosoftSMTPServer一MicrosoftIIS-JavaSDK1.3.2-Tomcat5.0-Axis工具包硬件配置服務(wù)器應(yīng)具有如下配置-最低配置PIII550雙CPU、512M內(nèi)存、15G快速硬盤-推薦配置雙致強CPU、2048M內(nèi)存、36G以上高速熱拔插硬盤(磁盤整列)-客戶端應(yīng)具備如下配置-系統(tǒng)配置PII233以上，128M內(nèi)存，IOG硬盤-操作系統(tǒng)Windows98以上-瀏覽器IE5.5以上權(quán)利要求1支持剽竊檢查和格式檢查的在線論文管理方法與實現(xiàn)機(jī)制?；谠搶＠挠嬎銠C(jī)系統(tǒng)由一臺上網(wǎng)的計算機(jī)、自動剽竊檢查軟件、自動格式檢查軟件以及論文提交與評審軟件組成。該專利面向論文全生命周期，支持提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理，支持他們的協(xié)同在線工作，包括論文創(chuàng)作、提交、交流、評審、管理。其主要特征包括利用Word開發(fā)環(huán)境實現(xiàn)論文自動格式檢查、利用網(wǎng)絡(luò)論文資源實習(xí)論文自動剽竊檢查的方法、機(jī)制和軟件實現(xiàn)方法，個性化專業(yè)工具箱和協(xié)同工作流機(jī)制，進(jìn)度實時統(tǒng)計，通知定向群發(fā)，數(shù)據(jù)歸檔等功能。2"權(quán)利要求l"中的論文自動剽竊檢査及其實現(xiàn)方法。特征基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源，利用計算機(jī)軟件獲取、分解、檢査文獻(xiàn)，同時分解待檢査論文，通過語義匹配和剽竊判斷規(guī)則給出涉嫌剽竊的部分。3"權(quán)利要求l"中的論文自動格式檢査及其實現(xiàn)方法。特征基于論文檢査單位的論文模板，通過計算機(jī)軟件獲取論文模板和所提交論文的格式，執(zhí)行比對，輸出不一致的(錯誤)格式項目說明。全文摘要1)本發(fā)明包括面向論文全生命周期的協(xié)同在線論文管理、利用Word開發(fā)環(huán)境實現(xiàn)論文自動格式檢查、利用網(wǎng)絡(luò)論文資源實習(xí)論文自動剽竊檢查的方法、機(jī)制和軟件實現(xiàn)方法。基于該發(fā)明的系統(tǒng)實現(xiàn)由一臺上網(wǎng)的計算機(jī)、自動剽竊檢查軟件、自動格式檢查軟件以及論文提交與評審軟件組成，目前的實施例是復(fù)旦大學(xué)。該發(fā)明所實現(xiàn)的系統(tǒng)，針對論文全生命周期的專業(yè)業(yè)務(wù)流程，支持論文創(chuàng)作交流、在線提交、評審、管理的協(xié)同在線管理。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤，節(jié)省多余論文打印費、車旅費、電話費、郵遞費等，提高工作效率。2)系統(tǒng)的自動剽竊檢查功能基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源，利用計算機(jī)軟件獲取文獻(xiàn)、分解文獻(xiàn)、檢查文獻(xiàn)來實現(xiàn)。系統(tǒng)的自動格式檢查功能基于論文檢查單位的論文模板，通過計算機(jī)軟件獲取論文模板和所提交論文的格式，執(zhí)行比對，輸出不一致的(錯誤)格式項目。面向論文全生命周期的協(xié)同在線論文管理，包括面向論文提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理，個性化專業(yè)工具箱，進(jìn)度實時統(tǒng)計，通知定向群發(fā)，數(shù)據(jù)歸檔等功能。文檔編號G06Q50/20GK101178786SQ200610118150公開日2008年5月14日申請日期2006年11月9日優(yōu)先權(quán)日2006年11月9日發(fā)明者濤李,李銀勝申請人:上海晨鳥信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李銀勝;李濤
技術(shù)所有人：上海晨鳥信息科技有限公司
我是此專利的發(fā)明人

上一篇：基于有限多幅人臉圖像的人臉匹配方法
上一篇：基于多標(biāo)記圖和對比模型的模式匹配方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種利用網(wǎng)絡(luò)資源實現(xiàn)剽竊和格式檢查的在線論文管理方法