專利名稱::一種利用網(wǎng)絡(luò)資源實現(xiàn)剽竊和格式檢查的在線論文管理方法
技術(shù)領(lǐng)域:
:本發(fā)明專利涉及教育與出版業(yè)的論文提交與評審工作。
背景技術(shù):
:本發(fā)明專利面向期刊編輯部、大專院校和國際會議,為它們的編輯、投稿人、審稿人和管理人員提供一個計算機(jī)系統(tǒng),支持他們的在線協(xié)同工作。該系統(tǒng)由一臺上網(wǎng)計算機(jī)、自動剽竊檢查軟件、自動格式檢査軟件以及論文提交與評審軟件組成。該系統(tǒng)面向論文全生命周期,支持提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理和個性化專業(yè)工具箱,支持他們的在線協(xié)同工作,包括論文創(chuàng)作、交流和評審,進(jìn)度實時統(tǒng)計,自動通知、定向群發(fā),數(shù)據(jù)歸檔等功能。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤,節(jié)省多余論文打印費、車旅費、電話費、郵遞費等,提高工作效率。目前,對考試、文本剽竊已經(jīng)有一些算法和檢測監(jiān)控方法,例如專利l"一種利用計算機(jī)程序檢測電子文本剽竊的方法"和專利2"基于計算機(jī)網(wǎng)絡(luò)的防轉(zhuǎn)載或/和反剽竊監(jiān)控方法"。然而,這些方法本質(zhì)是基于靜態(tài)文本特征庫的檢測。與專利1比較,而本專利的剽竊檢査,是目前論文評審過程中手工剽竊檢査的自動化,是在網(wǎng)絡(luò)論文資源具備計算機(jī)接口、支持軟件遠(yuǎn)程訪問和操作的條件下才可能實現(xiàn)的。因此和上述的方法l的目標(biāo)、使用場合、技術(shù)手段不一樣,只是在執(zhí)行剽竊分析這一環(huán)節(jié)具有一定的類似性,而這一環(huán)節(jié)并非本專利的主要特征。專利2只是一種針對靜態(tài)、特定文檔進(jìn)行數(shù)據(jù)比較的一種計算機(jī)系統(tǒng)實施方法,未涉及網(wǎng)絡(luò)資源的使用,也沒有剽竊檢査機(jī)制與算法,在目標(biāo)、應(yīng)用場合和技術(shù)手段上均無本專利的特征。國內(nèi)外的國際會議、編輯部、高校已經(jīng)有一些論文管理系統(tǒng),但是這些系統(tǒng)的主要功能是論文遠(yuǎn)程提交和評審,均沒有自動格式檢査和自動剽竊檢查的功能,也沒有如本系統(tǒng)的多角色權(quán)限管理和自動工作流管理。管理人員和評審者需要人工協(xié)調(diào)論文評審,人工檢査論文格式,人工査閱各種文獻(xiàn)來判斷是否涉嫌剽竊。
發(fā)明內(nèi)容本發(fā)明專利面向期刊編輯部、大專院校和國際會議,為它們的編輯、投稿人、審稿人和管理人員提供一套利用計算機(jī)系統(tǒng)自動執(zhí)行格式檢查、自動剽竊檢查、支持他們在線協(xié)同工作的方法與機(jī)制?;谠搶@南到y(tǒng)實現(xiàn)由一臺上網(wǎng)計算機(jī)、自動剽竊檢査軟件、自動格式檢査軟件以及論文提交與評審軟件組成。該系統(tǒng)面向論文全生命周期,支持提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理和個性化專業(yè)工具箱,支持他們的在線協(xié)同工作,包括論文創(chuàng)作、交流和評審,進(jìn)度實時統(tǒng)計,自動通知、定向群發(fā),數(shù)據(jù)歸檔等功能。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤,節(jié)省多余論文打印費、車旅費、電話費、郵遞費等,提高工作效率。漢不萬茶1論文管理的組成與機(jī)制整個論文管理分為5部分,在計算機(jī)系統(tǒng)實現(xiàn)上1)前端是與不同角色用戶交互的論文提交界面。各個角色的用戶通過它登陸系統(tǒng),進(jìn)入自己的工具箱界面。所有的評審交互過程都伴隨系統(tǒng)自動發(fā)送的EMAIL進(jìn)行系統(tǒng)邊界以外的互聯(lián),方便師生進(jìn)行溝通。系統(tǒng)中所有角色和論文都由管理員用戶統(tǒng)一進(jìn)行管理。論文提交平臺建立了論文從提交到評審的完備工作流程,將這一復(fù)雜的過程信息化,實現(xiàn)了該流程的無紙化運作。2)服務(wù)器端自動運行著論文檢査服務(wù)中間件,它根據(jù)論文提交平臺提交上來的論文信息,向檢査論文格式、論文抄襲的WebServices提出調(diào)用請求,并將檢査結(jié)果整理成報告形式存入數(shù)據(jù)庫中,論文提交界面把報告展示給用戶,用戶可查詢到論文最新的檢査報告。3)論文檢查服務(wù)中間件負(fù)責(zé)與檢査論文的兩個WebServices聯(lián)系。4)論文格式檢查與剽竊檢査WebServices的作用是接受論文檢査服務(wù)中間件發(fā)過來的調(diào)用請求,接收論文檢査服務(wù)中間件發(fā)送過來的要求檢査的論文,把文檔存儲在自己和核心程序都能訪問的共享文件夾(Samba共享)內(nèi),并調(diào)用核心程序開始檢査。最后當(dāng)檢査完畢之后,把結(jié)果返還給論文檢査服務(wù)中間件。這兩個WebServices,每次接到一個新的請求便創(chuàng)建出一個新的線程負(fù)責(zé)處理,該進(jìn)程首先將文檔轉(zhuǎn)換成TXT格式的文件,然后讀取整個文件,以句子為單位進(jìn)行保存,分別進(jìn)行檢査后,給出整體的報告。報告的形式是生成一個檢査結(jié)果數(shù)組,將統(tǒng)計數(shù)據(jù),耗時和檢査到的結(jié)果都寫在這個數(shù)組中返回。5)最后一部分是搜索引擎,這個是第三方提供的Web搜索引擎,包括GoogleAPI和其他論文檢索系統(tǒng)的接口。2功能特征與功能設(shè)計1)論文管理部分的功能特征在線協(xié)同工作,畢業(yè)論文涉及的學(xué)生、導(dǎo)師、評審委員、管理人員、主管院長、學(xué)位分委員會主席等角色協(xié)同在線,無紙辦公,免去論文反復(fù)打印、傳送、修改等的繁瑣工作和過程數(shù)據(jù)丟失之苦。專業(yè)工作界面,各個角色登錄系統(tǒng),均為自己所熟悉的界面、所需要的統(tǒng)計數(shù)據(jù)和工作工具。完善的權(quán)限管理,按照不同角色在開提報告和論文業(yè)務(wù)中的工作內(nèi)容,有完善的操作權(quán)限管理。數(shù)據(jù)進(jìn)度統(tǒng)計,進(jìn)入系統(tǒng),不同角色可看到自己所關(guān)注各項統(tǒng)計數(shù)據(jù),如提交論文數(shù)、論文狀態(tài)等數(shù)據(jù)。在線人員管理,管理人員可以在線管理各種角色,進(jìn)行評審管理。通知定向群發(fā),根據(jù)論文管理中通信需要,為不同角色分別提供了對應(yīng)的定向通知群發(fā)功能。接收人員不但可在系統(tǒng)中看到被發(fā)送的消息,同時也會在自己的電子郵件中接收到評審等工作安排通知。完全流程支持,支持從開提報告、專家確定、報告審閱、論文提交、評審分配、論文評審、評語填寫直到通過答辯的整個流程。批量打印功能,支持開提報告、學(xué)位論文、論文評閱書等的批量輸出、打印,方便管理和存檔。2)本專利的主要功能設(shè)計產(chǎn)品名稱支持剽竊和格式檢査的在線協(xié)同論文管理系統(tǒng)<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>3)論文檢査服務(wù)中間件接受用戶提交的論文接受Word格式的文檔向檢査論文格式的WS發(fā)出調(diào)用請求向檢査論文抄襲的WS發(fā)出調(diào)用請求接收檢査的結(jié)果,將檢查結(jié)果返還給用戶4)檢査論文兩個的WebServices接受用戶的調(diào)用請求接收上傳過來的需要檢査的文檔維護(hù)與核心部分能共同訪問的共享文件夾(Samba共享)激活核心部分的程序,開始進(jìn)行檢査(Sockets通訊)將檢査結(jié)果反饋回給論文提交網(wǎng)站核心程序接受WS的調(diào)用命令,創(chuàng)建新的線程處理該請求將文檔由Word格式轉(zhuǎn)換為TEXT文件讀取模版格式讀取全文格式,并與模版對照讀取全文存入數(shù)組對句子進(jìn)行分詞,并生成相應(yīng)的URL請求與GoogleAPI交互,獲取返回信息讀取返回信息,運行比對算法統(tǒng)計最終的結(jié)果,生成檢査結(jié)果報告5)搜索弓l擎、將關(guān)鍵詞封裝到URL請求中去從返回的HTML頁面中獲取査詢的結(jié)果3格式檢査技術(shù)方案系統(tǒng)的自動格式檢查功能基于論文檢査單位的論文模板,通過計算機(jī)軟件獲取論文模板和所提交論文的格式,執(zhí)行比對,輸出不一致的(錯誤)格式項目。自動格式檢查的實現(xiàn)主要是基于Word文件及其二次開發(fā)環(huán)境。非Word文檔的論文數(shù)據(jù),首先要轉(zhuǎn)換成為Word格式。OfficeWord中有幾十種自帶的樣式,并且可以由用戶自定義新的樣式,而每種樣式又是由一系列的子元素構(gòu)成的,如標(biāo)題一的元素定義為"正文+段落大綱l.段落上端間距17磅,段落下端間距16.5磅,行距多倍,行距大小2.4字行,段中不分頁,與下端同頁,粗體,字號二號,字距調(diào)整二號",而這些元素又是用一系列Word自定義標(biāo)簽來表示的,粗略統(tǒng)計有幾百種元素。使用WordAPI把word轉(zhuǎn)成XML文件,所有的格式元素都以XML標(biāo)簽的形式發(fā)揮其作用。這是經(jīng)過中間層轉(zhuǎn)換后的XML,所以有中文tag,如果是直接轉(zhuǎn)換的XML,其tag全為英文,這樣對于一些比較偏僻的tag就很難了解其表達(dá)含義了。在本方案中,對較為常見的tag定義了語義庫,格式檢查的基本算法如下提取標(biāo)準(zhǔn)模版中的所有樣式及其相應(yīng)的元素定義提取提交文檔中的所有樣式及其相應(yīng)的元素定義對提交文檔逐句檢査其應(yīng)用樣式若其應(yīng)用樣式在模版樣式中存在,則對比其元素是否與模版中此樣式的元素一一相符,若不符則歸結(jié)為樣式設(shè)置錯誤若其應(yīng)用樣式在模版樣式中不存在,則提示為所應(yīng)用的樣式不存在,請校正。4剽竊檢查技術(shù)方案系統(tǒng)的自動剽竊檢査功能基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源,利用計算機(jī)軟件獲取文獻(xiàn)、分解文獻(xiàn)、檢查文獻(xiàn)來實現(xiàn)。世界上現(xiàn)有的搜索引擎能夠處理的搜索字串都不超過二十個單字(單詞),超過的話搜索精度就會大大降低。如果輸入的關(guān)鍵字有限,則失去了句子的整體性,無法判斷其句子的相識度,僅是個別詞相識是不能說明問題的。特別是在較長的論文中,較之整篇大面積的照搬,抄襲更多情況是拼接。抄襲者常常將原文中的詞句或觀點糅合起來,并用自己的語言和觀點來說明;或者是從不同的資料來源中找到自己需要的,不注明來源,拼接成自己的東西;或者將注明引用的和未注明引用的文字糅合在一起。首先我們要對最容易相似的關(guān)鍵詞,如標(biāo)題、作者、摘要等要素進(jìn)行提取。如果提交的word文檔在文件屬性中有這些屬性,那可以通過WordAPI直接提取,如果Word文件文件名不包含相關(guān)信息,那么論文標(biāo)題,作者,作者身份等信息該如何獲取并不是一件容易的事。因為不是所有論文都是按照嚴(yán)格的統(tǒng)一格式書寫的,即使是有標(biāo)準(zhǔn)格式,這些標(biāo)準(zhǔn)也不是唯一的,這就造成上述信息不能簡單地通過定位來確定。我們的處理方法是(以作者名字為例)作者名字是以單獨語素存在的,也就是說,問題轉(zhuǎn)化為,當(dāng)獲得一個語素時如何判斷其是否為作者姓名。1、該語素應(yīng)該滿足姓名的命名法則,即從語素本身的characteristic入手。例如姓氏是有一定取值范圍的,同時姓名長度也是有一定范圍的。任何一個語素按照characteristic的規(guī)則可以獲得一個權(quán)值c。2、從語素在全文的位置考慮,即從語素的location入手。例如作者姓名只可能出現(xiàn)在文檔前面或者最后的一定范圍內(nèi),該位置值可能是絕對位置或者是百分比位置,并且應(yīng)該定義為一個范圍。同樣,每個語素都獲得一個權(quán)值l。3、從語素所在的上下文考慮,即從語素的context入手。例如作者姓名前后應(yīng)該是描述作者的單位,編號等信息,當(dāng)信息符合時,該語素應(yīng)獲得更高的權(quán)值t。綜上,一個語素最后可得到一個綜合權(quán)值q,當(dāng)q值達(dá)到某一水平才會被認(rèn)為是目標(biāo)。Google的一個變化是開始采用詞干法進(jìn)行搜索服務(wù)。換言之,如果在搜索框中鍵入"dietary",那么也會得到一些基于"diet"的搜索結(jié)果。也就是說,它不再拘泥搜索與輸入査詢完全相同的詞語,亦會向用戶提供與部分或所有查iU詞語相近的搜索結(jié)果。例如,對于査詢詞語"petlemurdietaryneeds",Google也會顯示"petlemurdietneeds"及其它詞性變化形式的搜索結(jié)果。而且對于搜索結(jié)果頁上出現(xiàn)的査詢詞本身及其不同的變化形式,Google會以粗體突出表示。"所以我們采用逐句式搜索,先以逗點為分割符分割文本,然后對短劇進(jìn)行有效性篩選,去除一些通用性語句,如"thanks"、"bytheway"等不能說明問題的句子。將剩下的有效句子記錄到array中,用做調(diào)用Googlesearch的輸入關(guān)鍵詞。反剽竊的算法的實現(xiàn)。算法的好壞和編程的情況是決定整個檢驗過程的效果和效率的關(guān)鍵。因為中英文的文章風(fēng)格,用詞,標(biāo)點符號都是有差別的,很難說能開發(fā)一個任何語言都能通吃,且效率又都特別好的算法。所以我們針對英文論文進(jìn)行算法實現(xiàn)。我們的算法基于一個假設(shè)涉嫌剽竊的論文,至少都是一整段內(nèi)容的照搬。單獨句子的出現(xiàn)可能是因為作者有引用他人的文章,而不是說剽竊,但是存在很多句子被發(fā)現(xiàn),甚至是大段大段的內(nèi)容被發(fā)現(xiàn),則必定說明作者剽竊了他人的論文。反剽竊的算法的設(shè)計如下接收論文,轉(zhuǎn)換為TXT格式句子識別&單詞識別單句搜索&隨機(jī)起點比對結(jié)果&"CheckNext"策略按照要求重復(fù)3,4步驟結(jié)果統(tǒng)計因為設(shè)計的時候考慮到文章過長可能會耗很長的時間,所以在全文檢査的基礎(chǔ)上設(shè)置了一個檢査間隔,例如,選擇檢査間隔為IO,那么每隔10句話,會檢查一次,這樣有個問題,就是起點如何定,在1一10這個間隔范圍內(nèi),從哪句話開始檢查,我們采用了隨機(jī)數(shù)的方法,每次會從間隔起點的范圍內(nèi)挑選一個數(shù)作為開始檢查的位置。這樣就能保證檢査的隨機(jī)性,而不至于每次都只能檢査到文章的同一部分。如果整句話能在google上搜索到,那么這句話肯定是抄襲來的'。如果整篇文章或整段文章存在大量的整句的抄襲,而且出處又集中在幾篇文章內(nèi),那么肯定可以判斷文章是抄襲的了。這樣做的好處是只要去向Google査詢就行了,而不用去把找來的文章做兩兩對比,比較節(jié)約時間。選取了査找句后就是調(diào)用GoogleAPI進(jìn)行搜索.Google搜索引擎提供了基于SOAP的WebService。這意味著不同的開發(fā)語言、開發(fā)環(huán)境都能夠使用這種服務(wù),另外,Google為了簡化Java程序員的開發(fā),它還提供了一套JavaAPI接口,用于訪問WebSerivce,這使得開發(fā)一套支持Google搜索功能的程序變得十分容易。開發(fā)人員可以將Google的搜索功能嵌入到他們的應(yīng)用程序當(dāng)中。目前,Google的API還是處于Beta測試階段,因此,在API的使用上還有一些限制。例如,使用這些API需要申請一個帳號。對于免費申請的帳號,為了防止開發(fā)人員不正當(dāng)?shù)氖褂?,限制每個帳號、每天最多只能查詢1000次。目前,Google還沒有提出正式的運營模式和收費方式。GoogleAPI目前主要提供三種服務(wù),分別如下1)搜索服務(wù)。用戶提交一個搜索內(nèi)容請求,Google服務(wù)器將査找超過20億的網(wǎng)頁內(nèi)容,并且將滿足用戶需求的目標(biāo)返回給用戶,一般來說這種處理只需要幾秒的時間。2)緩存服務(wù)(Cache)。用戶提交一個URL,Google服務(wù)器將返回搜索器訪問該URL的最新記錄。這樣,用戶很容易復(fù)用Google的搜索成果。3)拼寫檢査。該功能用于檢査用戶的查詢請求是否有效。用戶提交一個檢査內(nèi)容,Google服務(wù)器將返回有效的、最接近該內(nèi)容的查詢請求,返回的査詢請求將符合Google的査詢規(guī)則。Google提供了基于SOAP的WebService,因此用戶可以向Google服務(wù)器提交SOAP的査詢請求,而后Google服務(wù)器將處理這些請求,并返回SOAP格式的査詢結(jié)果。和GoogleAPI交互之后,會得到Google的返回結(jié)果,這時我們需要進(jìn)行內(nèi)容的解析,首先判斷是不是什么都沒査到,如果是這樣的話,本次查詢就結(jié)束了。如果有査詢到內(nèi)容,那么就讀取査到的內(nèi)容,和進(jìn)行査詢的那句句子進(jìn)行比對,如果發(fā)現(xiàn)兩者相同或者相似,那么就把內(nèi)容記錄下來。抄襲有以下幾種方式1、照抄不誤,等于C0PY,有的甚至連標(biāo)點符號也不放過。這是一種低級的抄襲,這種情況很容易檢測,但并不常見。2、抄襲別人的核心觀點,放在自己的語言體系中。這種抄襲較為常見。3、襲用別人的理論模型或框架、方法、定理,再加一些敘述。這種抄襲也較多。4、改寫別人的文字,加上自己的一些看法,但通讀之后使人感到了無新意,并能發(fā)現(xiàn)文章的出處原型。5、引用別人的成果不老實,如有些地方加注明,有些地方不注明,只是改寫,在數(shù)量上篇幅較大?;虼罅恳脛e人引用過的資料不說明轉(zhuǎn)引,也屬對別人勞動成果的一種剽竊,是較常見的抄襲行為。為了區(qū)分這幾種抄襲,在設(shè)計上,我們采用相似度權(quán)值的方法。標(biāo)準(zhǔn)如下<table>tableseeoriginaldocumentpage11</column></row><table>在我們的懷疑記錄中目前不記錄O.7以下的記錄。在Google返回的結(jié)果中,已經(jīng)按照搜索詞的關(guān)聯(lián)度進(jìn)行排序了,也就是說從第一條開始讀取記錄進(jìn)行比較是最有可能找到相似句子的,并且在返回的結(jié)果中有個summary字段是搜索到的文件中包含關(guān)鍵詞的一段話,所以和summaiT字段進(jìn)行比較就可以了。那么如果本句話被査到了,那么它的下一句應(yīng)該也會在Google的返回結(jié)果中,只要我們再比對一下下一句話,那么很大的程度上能夠命中。這樣就能減少一次査詢。這個就是CheckNext的策略。這個策略對于抄襲越嚴(yán)重的論文,檢查的速度會越快。文檔一從第一個語素開始,每個語素都與文檔二的每個語素順序比較,當(dāng)找到匹配時R印ort對象加入元素。做完所有匹配之后,調(diào)用R印ort類的summarizing()函數(shù)進(jìn)行歸納,對相鄰元素連續(xù)匹配加以合并。為了節(jié)省搜索時間,我們只取搜索結(jié)果的前10條進(jìn)行比對。檢査完一句話后,然后在拿出下一句話進(jìn)行檢查,這樣反復(fù)直到所有該檢查的句子都檢査完畢了,這樣?xùn)嗽冞^程也就結(jié)束了。接下來是一些統(tǒng)計數(shù)據(jù)的生成,以及報告的表達(dá)形式,多種匹配方式的支持。專利效果本專利面向期刊編輯部、大專院校和國際會議,為它們的編輯、投稿人、審稿人和管理人員提供一個計算機(jī)系統(tǒng),支持他們的在線協(xié)同工作。該系統(tǒng)由一臺上網(wǎng)計算機(jī)、自動剽竊檢査軟件、自動格式檢查軟件以及論文提交與評審軟件組成。該系統(tǒng)面向論文全生命周期,支持論文創(chuàng)作和交流、面向提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理和個性化專業(yè)工具箱,進(jìn)度實時統(tǒng)計,自動通知、定向群發(fā),數(shù)據(jù)歸檔等功能。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤,節(jié)省多余論文打印費、車旅費、電話費、郵遞費等,提高工作效率。專利案例表明,該系統(tǒng)可以免除管理人員和師生60-80%的工作量,減少不必要的時間精力消耗,每年節(jié)省開支1萬一6萬多元,提高工作效率30%以上,把大家從瑣碎、煩雜的論文創(chuàng)作、提交、修改、評審、管理等工作中解脫出來。下面結(jié)合圖片說明介紹本專利具體實施方式。圖l是本專利的計算機(jī)系統(tǒng)組成圖。圖2是本專利的系統(tǒng)軟件結(jié)構(gòu)。圖3是本專利的論文檢査服務(wù)中間件類圖示例。圖4是本專利實施例中的用戶登陸界面。圖5是本專利實施例中的論文管理人員界面。圖6是本專利實施例中的論文格式檢査界面。圖7是本專利實施例中的論文剽竊檢査界面。具體實施例方式本專利面向期刊編輯部、大專院校和國際會議,為它們的編輯、投稿人、審稿人和管理人員提供一套利用計算機(jī)系統(tǒng)自動執(zhí)行格式檢査、自動剽竊檢查、支持他們在線協(xié)同工作的方法與機(jī)制?;诒緦@枋龇椒ㄅc機(jī)制的系統(tǒng)實施例是復(fù)旦大學(xué)的學(xué)位論文提交與評審系統(tǒng)。1論文管理的組成與機(jī)制如圖1所示,整個論文管理分為5部分,在計算機(jī)系統(tǒng)實現(xiàn)上1)前端是與不同角色用戶交互的論文提交界面。各個角色的用戶通過它登陸系統(tǒng),進(jìn)入自己的工具箱界面。所有的評審交互過程都伴隨系統(tǒng)自動發(fā)送的EMAIL進(jìn)行系統(tǒng)邊界以外的互聯(lián),方便師生進(jìn)行溝通。系統(tǒng)中所有角色和論文都由管理員用戶統(tǒng)一進(jìn)行管理。論文提交平臺建立了論文從提交到評審的完備工作流程,將這一復(fù)雜的過程信息化,實現(xiàn)了該流程的無紙化運作。2)服務(wù)器端自動運行著論文檢查服務(wù)中間件,它根據(jù)論文提交平臺提交上來的論文信息,向檢査論文格式、論文抄襲的WebServices提出調(diào)用請求,并將檢査結(jié)果整理成報告形式存入數(shù)據(jù)庫中,論文提交界面把報告展示給用戶,用戶可査詢到論文最新的檢査報告。3)論文檢査服務(wù)中間件負(fù)責(zé)與檢査論文的兩個WebServices聯(lián)系。4)論文格式檢査與剽竊檢査WebServices的作用是接受論文檢查服務(wù)中間件發(fā)過來的調(diào)用請求,接收論文檢査服務(wù)中間件發(fā)送過來的要求檢査的論文,把文檔存儲在自己和核心程序都能訪問的共享文件夾(Samba共享)內(nèi),并調(diào)用核心程序開始檢査。最后當(dāng)檢查完畢之后,把結(jié)果返還給論文檢查服務(wù)中間件。這兩個WebServices,每次接到一個新的請求便創(chuàng)建出一個新的線程負(fù)責(zé)處理,該進(jìn)程首先將文檔轉(zhuǎn)換成TXT格式的文件,然后讀取整個文件,以句子為單位進(jìn)行保存,分別進(jìn)行檢查后,給出整體的報告。報告的形式是生成一個檢査結(jié)果數(shù)組,將統(tǒng)計數(shù)據(jù),耗時和檢査到的結(jié)果都寫在這個數(shù)組中返回。5)最后一部分是搜索引擎,這個是第三方提供的Web搜索引擎,包括GoogleAPI和其他論文檢索系統(tǒng)的接口。2功能特征與功能設(shè)計圖4是本專利實施例中的用戶登陸界面。圖5是本專利實施例中的論文管理人員界面。1)論文管理部分的功能特征在線協(xié)同工作,畢業(yè)論文涉及的學(xué)生、導(dǎo)師、評審委員、管理人員、主管院長、學(xué)位分委員會主席等角色協(xié)同在線,無紙辦公,免去論文反復(fù)打印、傳送、修改等的繁瑣工作和過程數(shù)據(jù)丟失之苦。專業(yè)工作界面,各個角色登錄系統(tǒng),均為自己所熟悉的界面、所需要的統(tǒng)計數(shù)據(jù)和工作工具。完善的權(quán)限管理,按照不同角色在開提報告和論文業(yè)務(wù)中的工作內(nèi)容,有完善的操作權(quán)限管理。數(shù)據(jù)進(jìn)度統(tǒng)計,進(jìn)入系統(tǒng),不同角色可看到自己所關(guān)注各項統(tǒng)計數(shù)據(jù),如提交論文數(shù)、論文狀態(tài)等數(shù)據(jù)。在線人員管理,管理人員可以在線管理各種角色,進(jìn)行評審管理。通知定向群發(fā),根據(jù)論文管理中通信需要,為不同角色分別提供了對應(yīng)的定向通知群發(fā)功能。接收人員不但可在系統(tǒng)中看到被發(fā)送的消息,同時也會在自己的電子郵件中接收到評審等工作安排通知。完全流程支持,支持從開提報告、專家確定、報告審閱、論文提交、評審分配、論文評審、評語填寫直到通過答辯的整個流程。批量打印功能,支持開提報告、學(xué)位論文、論文評閱書等的批量輸出、打印,方便管理和存檔。2<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table><table>complextableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table>3)論文檢查服務(wù)中間件接受用戶提交的論文接受Word格式的文檔向檢査論文格式的WS發(fā)出調(diào)用請求向檢查論文抄襲的WS發(fā)出調(diào)用請求接收檢查的結(jié)果,將檢查結(jié)果返還給用戶4)檢査論文兩個的WebServices接受用戶的調(diào)用請求接收上傳過來的需要檢査的文檔維護(hù)與核心部分能共同訪問的共享文件夾(Samba共享)激活核心部分的程序,開始進(jìn)行檢査(Sockets通訊)將檢査結(jié)果反饋回給論文提交網(wǎng)站核心程序接受WS的調(diào)用命令,創(chuàng)建新的線程處理該請求將文檔由Word格式轉(zhuǎn)換為TEXT文件讀取模版格式讀取全文格式,并與模版對照讀取全文存入數(shù)組對句子進(jìn)行分詞,并生成相應(yīng)的URL請求與GoogleAPI交互,獲取返回信息讀取返回信息,運行比對算法統(tǒng)計最終的結(jié)果,生成檢查結(jié)果報告5)搜索引擎將關(guān)鍵詞封裝到URL請求中去從返回的HTML頁面中獲取査詢的結(jié)果3格式檢査技術(shù)方案圖6是本專利實施例中的論文格式檢查界面。系統(tǒng)的自動格式檢查功能基于論文檢查單位的論文模板,通過計算機(jī)軟件獲取論文模板和所提交論文的格式,執(zhí)行比對,輸出不一致的(錯誤)格式項目。自動格式檢查的實現(xiàn)主要是基于Word文件及其二次開發(fā)環(huán)境。非Word文檔的論文數(shù)據(jù),首先要轉(zhuǎn)換成為Word格式。OfficeWord中有幾十種自帶的樣式,并且可以由用戶自定義新的樣式,而每種樣式又是由一系列的子元素構(gòu)成的,如標(biāo)題一的元素定義為"正文+段落大綱l.段落上端間距17磅,段落下端間距16.5磅,行距多倍,行距大小2.4字行,段中不分頁,與下端同頁,粗體,字號二號,字距調(diào)整二號",而這些元素又是用一系列Word自定義標(biāo)簽來表示的,粗略統(tǒng)計有幾百種元素。使用WordAPI把word轉(zhuǎn)成XML文件,形式如下<xmlversion="1.0"encoding="UTF-8"><uof:UOFxmlns:uof="http:〃schemas.uof.org/cn/2003/uof"xmlns:="http:〃schemas.uof.org/cn/2003/graph"xmlns:="http:〃schemas.uof.org/cn/2003/uof-wordproc"xmlns:="http:〃schemas.uof.org/cn/2003/uof-spreadsheet"xmlns:="http:〃schemas.uof.org/cn/2003/uof-slideshow"xmlns:xsi="http:〃www.w3.org/2001/XMLSchema-instance"xsi:schemaLocaticm="http:〃schemas.uof.org/cn/2003/uofD:\UOF\uof_schema\uof.xsd"uof:language="cn"uof:version="1.0"uof:locID="u0000">〈uof:元數(shù)據(jù)uof:locID="u0001">〈uof:標(biāo)題uof:lodD-"u0002"〉基于Googlewebservice的論文査抄襲系統(tǒng)々uof:標(biāo)題〉〈uof:創(chuàng)建者uof:locID^'u0004"x/uof:創(chuàng)建者>〈uof:最后作者uof:locID="u0006">々uof:最后作者〉〈uof:創(chuàng)建日期uof:loclD-"u0008"〉2006-05-30T02:00:00〈/uof:創(chuàng)建日期>〈uof:編輯次數(shù)uof:locID="u0009">3K/uof:編輯次數(shù)〉〈uof:編輯時間uof:locID-"u0010"〉P0Y0M0DT0H55M6S〈/uof:編輯時間〉〈uof:創(chuàng)建應(yīng)用程序uof:locID="u001l">EIOffice2007〈/uof:創(chuàng)建應(yīng)用程序〉〈uof:公司名稱uof:locID="u0018">SoftwareFudan.lK/uof:公司名稱〉々uof:元數(shù)據(jù)〉〈uof:書簽集uof:locID="u0027">〈uof:書簽uof:locID="u0028"uof:attrLisf名稱"叫f:名稱一'—Tocl38184650">〈uof:文本位置uof:locID="u0029"uof:attrLisH'區(qū)域引用"字:區(qū)域引用-"bk—Tocl38184650'7>々uof:書簽〉々uof:書簽集〉〈uof:對象集uof:locID="u0033">〈uof:其他對象uof:locID="u0036"uof:attrLisf標(biāo)識符內(nèi)嵌公共類型私有類型"uof:標(biāo)識符-"OBJ00002"uof:內(nèi)嵌-"false"uof:公共類型-"png、〈uof:數(shù)據(jù)uof:locID="u0037">々uof:數(shù)據(jù)〉々uof:其他對象〉<圖:圖形uof:locID="g0000"uof:attrLisf層次標(biāo)識符組合列表其他對象"圖:層次="4"圖:標(biāo)識符-"OBJ0000r圖:其他對象y'OBJ00002"〉<圖:預(yù)定義圖形uof:locID="g0005"><圖:類別uof:locID="g0006">l1</圖:類別><圖:名稱uof:locID-"g0007"〉Rectangle〈/圖:名稱><圖:生成軟件uof:locID^'g0008"〉EIOffice々圖:生成軟件〉<圖:屬性uof:locID="g0011"><圖:線型uof:locID-"g0014,single〈/圖:線型〉<圖:線粗細(xì)uof:loclD-"g0016"X).75々圖:線粗細(xì)〉<圖:寬度uof:locID="g0023">36.00055</圖:寬度><圖:高度uof:locIDJg0024"〉36.00055々圖:高度><圖:旋轉(zhuǎn)角度uof:locID-"g0025"X).(X/圖:旋轉(zhuǎn)角度〉<圖:鎖定縱橫比uof:locID="g0028">1</圖:鎖定縱橫比><圖:打印對象uof:locID-"g0032"〉true〈/圖:打印對象〉〈圖:Web文字uof:locID^'g0033"〉Graph々圖:Web文字></圖:屬性></圖:預(yù)定義圖形></圖:圖形>可以看到,所有的格式元素都以XML標(biāo)簽的形式發(fā)揮其作用。這還是經(jīng)過中間層轉(zhuǎn)換后的XML,所以有中文tag,如果是直接轉(zhuǎn)換的XML,其tag全為英文,這樣對于一些比較偏僻的tag就很難了解其表達(dá)含義了。在本系統(tǒng)中,對較為常見的tag定義了語義庫,格式檢査的基本算法如下提取標(biāo)準(zhǔn)模版中的所有樣式及其相應(yīng)的元素定義提取提交文檔中的所有樣式及其相應(yīng)的元素定義對提交文檔逐句檢査其應(yīng)用樣式若其應(yīng)用樣式在模版樣式中存在,則對比其元素是否與模版中此樣式的元素一一相符,若不符則歸結(jié)為樣式設(shè)置錯誤若其應(yīng)用樣式在模版樣式中不存在,則提示為所應(yīng)用的樣式不存在,請校正。此部分服務(wù)的難點在于,Word轉(zhuǎn)成xml后,其層次結(jié)構(gòu)相當(dāng)復(fù)雜,尤其是當(dāng)樣式中設(shè)置的元素過多或是存在復(fù)雜表格的時候,一個短句的格式相關(guān)結(jié)構(gòu)會達(dá)到10層左右,并且元素標(biāo)簽的數(shù)量巨大,要準(zhǔn)確地定位語句和準(zhǔn)確提取元素標(biāo)簽,是很費時和占資源的,如果提交的文檔過大(一般大于2M)就會在運行過程中因資源耗盡而出錯終止。所以本系統(tǒng)采用分段傳輸word,分段檢查,最后合并檢査報告的方法來解決這個問題。4剽竊檢査技術(shù)方案圖7是本專利實施例中的論文剽竊檢査界面。系統(tǒng)的自動剽竊檢査功能基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源,利用計算機(jī)軟件獲取文獻(xiàn)、分解文獻(xiàn)、檢查文獻(xiàn)來實現(xiàn)。世界上現(xiàn)有的搜索引擎能夠處理的搜索字串都不超過二十個單字(單詞),超過的話搜索精度就會大大降低。如果輸入的關(guān)鍵字有限,則失去了句子的整體性,無法判斷其句子的相識度,僅是個別詞相識是不能說明問題的。特別是在較長的論文中,較之整篇大面積的照搬,抄襲更多情況是拼接。抄襲者常常將原文中的詞句或觀點糅合起來,并用自己的語言和觀點來說明;或者是從不同的資料來源中找到自己需要的,不注明來源,拼接成自己的東西;或者將注明引用的和未注明引用的文字糅合在一起。所以如何向Googlewebservice發(fā)送合理的搜索關(guān)鍵字是本項目的難點。首先我們要對最容易相似的關(guān)鍵詞,如標(biāo)題、作者、摘要等要素進(jìn)行提取。如果提交的word文檔在文件屬性中有這些屬性,那可以通過WordAPI直接提取,如果Word文件文件名不包含相關(guān)信息,那么論文標(biāo)題,作者,作者身份等信息該如何獲取并不是一件容易的事。因為不是所有論文都是按照嚴(yán)格的統(tǒng)一格式書寫的,即使是有標(biāo)準(zhǔn)格式,這些標(biāo)準(zhǔn)也不是唯一的,這就造成上述信息不能簡單地通過定位來確定。我們的處理方法是(以作者名字為例)作者名字是以單獨語素存在的,也就是說,問題轉(zhuǎn)化為,當(dāng)獲得一個語素時如何判斷其是否為作者姓名。1、該語素應(yīng)該滿足姓名的命名法則,即從語素本身的characteristic入手。例如姓氏是有一定取值范圍的,同時姓名長度也是有一定范圍的。任何一個語素按照characteristic的規(guī)則可以獲得一個權(quán)值c。2、從語素在全文的位置考慮,即從語素的location入手。例如作者姓名只可能出現(xiàn)在文檔前面或者最后的一定范圍內(nèi),該位置值可能是絕對位置或者是百分比位置,并且應(yīng)該定義為一個范圍。同樣,每個語素都獲得一個權(quán)值l。3、從語素所在的上下文考慮,即從語素的context入手。例如作者姓名前后應(yīng)該是描述作者的單位,編號等信息,當(dāng)信息符合時,該語素應(yīng)獲得更高的權(quán)值t。綜上,一個語素最后可得到一個綜合權(quán)值q,當(dāng)q值達(dá)到某一水平才會被認(rèn)為是目標(biāo)。Google的一個變化是開始采用詞干法進(jìn)行搜索服務(wù)。換言之,如果在搜索框中鍵入"dietary",那么也會得到一些基于"diet"的搜索結(jié)果。也就是說,它不再拘泥搜索與輸入査詢完全相同的詞語,亦會向用戶提供與部分或所有査il]詞語相近的搜索結(jié)果。例如,對于査詢詞語"petlemurdietaryneeds",Google也會顯示"petlemurdietneeds"及其它詞性變化形式的搜索結(jié)果。而且對于搜索結(jié)果頁上出現(xiàn)的査詢詞本身及其不同的變化形式,Google會以粗體突出表示。"所以我們采用逐句式搜索,先以逗點為分割符分割文本,然后對短劇進(jìn)行有效性篩選,去除一些通用性語句,如"thanks"、"bytheway"等不能說明問題的句子。將剩下的有效句子記錄到array中,用做調(diào)用Googlesearch的輸入關(guān)鍵詞。反剽竊的算法的實現(xiàn)。算法的好壞和編程的情況是決定整個檢驗過程的效果和效率的關(guān)鍵。因為中英文的文章風(fēng)格,用詞,標(biāo)點符號都是有差別的,很難說能開發(fā)一個任何語言都能通吃,且效率又都特別好的算法。所以我們針對英文論文進(jìn)行算法實現(xiàn)。我們的算法基于一個假設(shè)涉嫌剽竊的論文,至少都是一整段內(nèi)容的照搬。單獨句子的出現(xiàn)可能是因為作者有引用他人的文章,而不是說剽竊,但是存在很多句子被發(fā)現(xiàn),甚至是大段大段的內(nèi)容被發(fā)現(xiàn),則必定說明作者剽竊了他人的論文反剽竊的算法的設(shè)計如下接收論文,轉(zhuǎn)換為TXT格式句子識別&單詞識別單句搜索&隨機(jī)起點比對結(jié)果&"CheckNext"策略按照要求重復(fù)3,4步驟結(jié)果統(tǒng)計因為設(shè)計的時候考慮到文章過長可能會耗很長的時間,所以在全文檢査的基礎(chǔ)上設(shè)置了一個檢査間隔,例如,選擇檢查間隔為IO,那么每隔10句話,會檢査一次,這樣有個問題,就是起點如何定,在1一10這個間隔范圍內(nèi),從哪句話開始檢査,我們采用了隨機(jī)數(shù)的方法,每次會從間隔起點的范圍內(nèi)挑選一個數(shù)作為開始檢査的位置。這樣就能保證檢査的隨機(jī)性,而不至于每次都只能檢査到文章的同一部分。如果整句話能在google上搜索到,那么這句話肯定是抄襲來的'。如果整篇文章或整段文章存在大量的整句的抄襲,而且出處又集中在幾篇文章內(nèi),那么肯定可以判斷文章是抄襲的了。這樣做的好處是只要去向Google查詢就行了,而不用去把找來的文章做兩兩對比,比較節(jié)約時間。選取了査找句后就是調(diào)用GoogleAPI進(jìn)行搜索.Google搜索引擎提供了基于SOAP的WebService。這意味著不同的開發(fā)語言、開發(fā)環(huán)境都能夠使用這種服務(wù),另外,Google為了簡化Java程序員的開發(fā),它還提供了一套JavaAPI接口,用于訪問WebSerivce,這使得開發(fā)一套支持Google搜索功能的程序變得十分容易。開發(fā)人員可以將Google的搜索功能嵌入到他們的應(yīng)用程序當(dāng)中。目前,Google的API還是處于Beta測試階段,因此,在API的使用上還有一些限制。例如,使用這些API需要申請一個帳號。對于免費申請的帳號,為了防止開發(fā)人員不正當(dāng)?shù)氖褂?,限制每個帳號、每天最多只能査詢1000次。目前,Google還沒有提出正式的運營模式和收費方式。GoogleAPI目前主要提供三種服務(wù),分別如下1)搜索服務(wù)。用戶提交一個搜索內(nèi)容請求,Google服務(wù)器將查找超過20億的網(wǎng)頁內(nèi)容,并且將滿足用戶需求的目標(biāo)返回給用戶,一般來說這種處理只需要幾秒的時間。2)緩存服務(wù)(Cache)。用戶提交一個URL,Google服務(wù)器將返回搜索器訪問該URL的最新記錄。這樣,用戶很容易復(fù)用Google的搜索成果。3)拼寫檢查。該功能用于檢査用戶的査詢請求是否有效。用戶提交一個檢査內(nèi)容,Google服務(wù)器將返回有效的、最接近該內(nèi)容的査詢請求,返回的査詢請求將符合Google的查詢規(guī)則。Google提供了基于SOAP的WebService,因此用戶可以向Google服務(wù)器提交SOAP的査詢請求,而后Google服務(wù)器將處理這些請求,并返回SOAP格式的査詢結(jié)果。和GoogleAPI交互之后,會得到Google的返回結(jié)果,這時我們需要進(jìn)行內(nèi)容的解析,首先判斷是不是什么都沒查到,如果是這樣的話,本次查詢就結(jié)束了。如果有査詢到內(nèi)容,那么就讀取查到的內(nèi)容,和進(jìn)行査詢的那句句子進(jìn)行比對,如果發(fā)現(xiàn)兩者相同或者相似,那么就把內(nèi)容記錄下來。抄襲有以下幾種方式1、照抄不誤,等于C0PY,有的甚至連標(biāo)點符號也不放過。這是一種低級的抄襲,這種情況很容易檢測,但并不常見。2、抄襲別人的核心觀點,放在自己的語言體系中。這種抄襲較為常見。3、襲用別人的理論模型或框架、方法、定理,再加一些敘述。這種抄襲也較多。4、改寫別人的文字,加上自己的一些看法,但通讀之后使人感到了無新意,并能發(fā)現(xiàn)文章的出處原型。5、引用別人的成果不老實,如有些地方加注明,有些地方不注明,只是改寫,在數(shù)量上篇幅較大。或大量引用別人引用過的資料不說明轉(zhuǎn)引,也屬對別人勞動成果的一種剽竊,是較常見的抄襲行為。為了區(qū)分這幾種抄襲,在設(shè)計上,我們采用相似度權(quán)值的方法。標(biāo)準(zhǔn)如下<table>tableseeoriginaldocumentpage21</column></row><table>在我們的懷疑記錄中目前不記錄O.7以下的記錄。在Google返回的結(jié)果中,已經(jīng)按照搜索詞的關(guān)聯(lián)度進(jìn)行排序了,也就是說從第一條開始讀取記錄進(jìn)行比較是最有可能找到相似句子的,并且在返回的結(jié)果中有個summary字段是搜索到的文件中包含關(guān)鍵詞的一段話,所以和sumraary字段進(jìn)行比較就可以了。那么如果本句話被査到了,那么它的下一句應(yīng)該也會在Google的返回結(jié)果中,只要我們再比對一下下一句話,那么很大的程度上能夠命中。這樣就能減少一次査詢。這個就是CheckNext的策略。這個策略對于抄襲越嚴(yán)重的論文,檢查的速度會越快。文檔一從第一個語素開始,每個語素都與文檔二的每個語素順序比較,當(dāng)找到匹配時R印ort對象加入元素。做完所有匹配之后,調(diào)用R印ort類的summarizing()函數(shù)進(jìn)行歸納,對相鄰元素連續(xù)匹配加以合并。為了節(jié)省搜索時間,我們只取搜索結(jié)果的前10條進(jìn)行比對。檢査完一句話后,然后在拿出下一句話進(jìn)行檢査,這樣反復(fù)直到所有該檢査的句子都檢查完畢了,這樣查詢過程也就結(jié)束了。接下來是一些統(tǒng)計數(shù)據(jù)的生成,以及報告的表達(dá)形式,多種匹配方式的支持。5系統(tǒng)業(yè)務(wù)流程<table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>6系統(tǒng)實現(xiàn)的軟件結(jié)構(gòu)支持本專利實現(xiàn)的整個論文管理系統(tǒng)軟件結(jié)構(gòu)如圖2所示。論文檢査服務(wù)中間件負(fù)責(zé)與檢查論文的兩個WebServices聯(lián)系,其結(jié)構(gòu)如圖2所示。7系統(tǒng)開發(fā)環(huán)境系統(tǒng)在開發(fā)環(huán)境為Tomcat+Axis+Java。環(huán)境配置步驟如下1)建立Java開發(fā)環(huán)境,Java.SDKl.3.1或更新的版本。相關(guān)地址http:.〃java.sun.com/J2SE2)下載GoogleAPI的Jar文件,Google即i.jar。開發(fā)人員可以到http:〃www.google,com/即is下載。3)申請Google訪問帳號,目前Google支持免費申請的方式,用戶需要使用一個email帳號來獲取新帳號。注意,目前免費帳號支持每天1000條的最大査詢量。申請地址http://www.google.com/apis。4)(可選)如果用戶需要通過Java程序直接發(fā)送SOAP請求,開發(fā)人員需要下載相關(guān)的Java軟件包,JAXM。下載±也址http:〃Java.sun.com/xmlWebServices部署步驟如下1)安裝Tomcat服務(wù)器,tomcat5.0或更新版本,并確保tomcat服務(wù)器能夠正常運行。2)將Axis工具包解壓到Tomcat安裝目錄的webapps目錄下。3)把檢查服務(wù)的WebService的plgpreventing.jar包復(fù)制到axisMVEB-INF、lib下4)將jacob.dll復(fù)制到windows、system32文件夾下5)依次分別運行格式檢查服務(wù)的und印loy.bat與d印loy.bat,以及剽竊檢查服務(wù)的undeploy.bat與d印loy.bat。6)重啟tomcat服務(wù)器7)打開瀏覽器,在地址欄上輸入hUp:〃localhost:端口號/axis/services/,檢査服務(wù)是否存在。若存在則表示W(wǎng)ebService部署成功8軟硬件配置軟件配置-Microsoft.NETFramework1.1—MicrosoftSQLServer2000EnterpriseEdition一MicrosoftSMTPServer一MicrosoftIIS-JavaSDK1.3.2-Tomcat5.0-Axis工具包硬件配置服務(wù)器應(yīng)具有如下配置-最低配置PIII550雙CPU、512M內(nèi)存、15G快速硬盤-推薦配置雙致強CPU、2048M內(nèi)存、36G以上高速熱拔插硬盤(磁盤整列)-客戶端應(yīng)具備如下配置-系統(tǒng)配置PII233以上,128M內(nèi)存,IOG硬盤-操作系統(tǒng)Windows98以上-瀏覽器IE5.5以上權(quán)利要求1支持剽竊檢查和格式檢查的在線論文管理方法與實現(xiàn)機(jī)制?;谠搶@挠嬎銠C(jī)系統(tǒng)由一臺上網(wǎng)的計算機(jī)、自動剽竊檢查軟件、自動格式檢查軟件以及論文提交與評審軟件組成。該專利面向論文全生命周期,支持提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理,支持他們的協(xié)同在線工作,包括論文創(chuàng)作、提交、交流、評審、管理。其主要特征包括利用Word開發(fā)環(huán)境實現(xiàn)論文自動格式檢查、利用網(wǎng)絡(luò)論文資源實習(xí)論文自動剽竊檢查的方法、機(jī)制和軟件實現(xiàn)方法,個性化專業(yè)工具箱和協(xié)同工作流機(jī)制,進(jìn)度實時統(tǒng)計,通知定向群發(fā),數(shù)據(jù)歸檔等功能。2"權(quán)利要求l"中的論文自動剽竊檢査及其實現(xiàn)方法。特征基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源,利用計算機(jī)軟件獲取、分解、檢査文獻(xiàn),同時分解待檢査論文,通過語義匹配和剽竊判斷規(guī)則給出涉嫌剽竊的部分。3"權(quán)利要求l"中的論文自動格式檢査及其實現(xiàn)方法。特征基于論文檢査單位的論文模板,通過計算機(jī)軟件獲取論文模板和所提交論文的格式,執(zhí)行比對,輸出不一致的(錯誤)格式項目說明。全文摘要1)本發(fā)明包括面向論文全生命周期的協(xié)同在線論文管理、利用Word開發(fā)環(huán)境實現(xiàn)論文自動格式檢查、利用網(wǎng)絡(luò)論文資源實習(xí)論文自動剽竊檢查的方法、機(jī)制和軟件實現(xiàn)方法。基于該發(fā)明的系統(tǒng)實現(xiàn)由一臺上網(wǎng)的計算機(jī)、自動剽竊檢查軟件、自動格式檢查軟件以及論文提交與評審軟件組成,目前的實施例是復(fù)旦大學(xué)。該發(fā)明所實現(xiàn)的系統(tǒng),針對論文全生命周期的專業(yè)業(yè)務(wù)流程,支持論文創(chuàng)作交流、在線提交、評審、管理的協(xié)同在線管理。目的是減少管理人員、評審人員和投稿人的工作時間和交流中的失誤,節(jié)省多余論文打印費、車旅費、電話費、郵遞費等,提高工作效率。2)系統(tǒng)的自動剽竊檢查功能基于開放的網(wǎng)絡(luò)文獻(xiàn)資源、圖書館在線資源、系統(tǒng)自建論文資源,利用計算機(jī)軟件獲取文獻(xiàn)、分解文獻(xiàn)、檢查文獻(xiàn)來實現(xiàn)。系統(tǒng)的自動格式檢查功能基于論文檢查單位的論文模板,通過計算機(jī)軟件獲取論文模板和所提交論文的格式,執(zhí)行比對,輸出不一致的(錯誤)格式項目。面向論文全生命周期的協(xié)同在線論文管理,包括面向論文提交者、評審者、論文管理者、單位管理者、論文導(dǎo)師的多角色權(quán)限管理,個性化專業(yè)工具箱,進(jìn)度實時統(tǒng)計,通知定向群發(fā),數(shù)據(jù)歸檔等功能。文檔編號G06Q50/20GK101178786SQ200610118150公開日2008年5月14日申請日期2006年11月9日優(yōu)先權(quán)日2006年11月9日發(fā)明者濤李,李銀勝申請人:上海晨鳥信息科技有限公司