專利名稱:高質(zhì)量版本的篩選方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種高質(zhì)量版本的篩選方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,每天都有大量的新聞、事件等消息通過網(wǎng)絡(luò)被迅速傳播,人們對(duì)于各種信息的傳播熱情與共享程度達(dá)到了空前的高度,為方便人類不斷積累知識(shí),沉淀并傳承文明,一種通過電子大百科全書記錄信息的方式應(yīng)運(yùn)而生。人們可以對(duì)已有知識(shí)或剛剛形成的智力成果進(jìn)行梳理和積累,或者在自己感興趣的領(lǐng)域,憑借自身的知識(shí)能力對(duì)相關(guān)知識(shí)主題進(jìn)行創(chuàng)建、編輯和完善。不斷完善的電子大百科全書不僅對(duì)知識(shí)體系進(jìn)行了有效的梳理和保存,還有利于人們進(jìn)行知識(shí)檢索與查閱。由于大量的用戶參與到百科數(shù)據(jù)的加工中來,用戶創(chuàng)建的百科版本和后續(xù)用戶編輯的百科版本形成海量版本數(shù)據(jù),傳統(tǒng)的人工篩選審核方式遠(yuǎn)不能滿足快速篩選百科版本數(shù)據(jù)的需要,而且在篩選版本中的判斷過程還可能由于篩選者的主觀隨意性而造成誤判; 此外,單一的機(jī)器篩選方式(如僅僅通過百科版本的字節(jié)數(shù)、有無圖片或敏感詞匯等因素進(jìn)行判斷)沒有對(duì)專業(yè)性的百科數(shù)據(jù)的具體分析,使得自動(dòng)篩選操作缺乏針對(duì)性,不能根據(jù)百科數(shù)據(jù)的特點(diǎn)對(duì)百科版本進(jìn)行分級(jí)篩選,從而造成大量誤判,不利于篩選出高質(zhì)量版本數(shù)據(jù)作為優(yōu)質(zhì)版本評(píng)選的基礎(chǔ);同時(shí)也不利于根據(jù)版本質(zhì)量挖掘和管理不同級(jí)別的用戶,而且也不利于篩選出非高質(zhì)量版本以推動(dòng)用戶進(jìn)一步完善該詞條,引導(dǎo)用戶持續(xù)優(yōu)化詞條信息。如何在海量的百科數(shù)據(jù)中,通過技術(shù)手段有效的對(duì)百科版本數(shù)據(jù)進(jìn)行多維度的分級(jí)篩選審核,從而快速準(zhǔn)確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,加快百科數(shù)據(jù)庫(kù)的建設(shè)成為本領(lǐng)域亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明要解決的一個(gè)技術(shù)問題是提供一種高質(zhì)量版本的篩選方法及系統(tǒng),其能夠在降低人工投入的前提下,有效提高對(duì)復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率,有利于為高質(zhì)量版本數(shù)據(jù)的審核提供評(píng)選基礎(chǔ)。本發(fā)明的一個(gè)方面提供了一種高質(zhì)量版本的篩選方法,該方法包括讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)百科版本數(shù)據(jù)進(jìn)行解析;對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果,過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行復(fù)雜編輯版本進(jìn)程的步驟進(jìn)一步包括判斷過濾后的百科版本是否含有參考資料, 如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析的步驟進(jìn)一步包括統(tǒng)計(jì)信息的段落數(shù)、總字節(jié)數(shù);分析信息是否含有圖片、參考資料和目錄信息;以及根據(jù)預(yù)定規(guī)則評(píng)估百科版本數(shù)據(jù)的變化量是否高于復(fù)雜版本變化量閾值。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,該方法還包括對(duì)于用戶編輯的百科版本數(shù)據(jù)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程,判斷之前的版本是否存在連續(xù)的相同用戶編輯同名詞條版本,如果不存在,則直接過濾百科版本數(shù)據(jù);如果之前存在連續(xù)的、與版本數(shù)據(jù)具有相同編輯用戶的同名詞條版本,則執(zhí)行連續(xù)版本過濾進(jìn)程。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,該方法還包括對(duì)于用戶編輯的百科版本數(shù)據(jù)進(jìn)入復(fù)雜編輯版本進(jìn)程,判斷之前相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí),如果是,則判斷過濾后的百科版本是否含有參考資料;如果過濾后的百科版本不含有參考資料,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則,則執(zhí)行連續(xù)版本過濾進(jìn)程。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,連續(xù)版本過濾進(jìn)程針對(duì)由同一用戶編輯的連續(xù)同名詞條版本構(gòu)成的一組版本,判斷之前是否存在獲得高質(zhì)量版本/ 優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本數(shù)據(jù),如果不存在,則選取一組版本中最后提交的版本數(shù)據(jù)與之前不同用戶編輯的版本進(jìn)行對(duì)比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);如果之前存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的版本,則選取一組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的版本進(jìn)行對(duì)比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,該方法還包括對(duì)同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進(jìn)行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動(dòng)過濾出評(píng)選區(qū),并選取最新進(jìn)入評(píng)選區(qū)的版本待審核。本發(fā)明的另一個(gè)方面提供了一種高質(zhì)量版本的篩選系統(tǒng),該系統(tǒng)包括數(shù)據(jù)解析模塊,用于讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)百科版本數(shù)據(jù)進(jìn)行解析;統(tǒng)計(jì)分析模塊,用于對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析和判斷;版本過濾模塊,用于根據(jù)統(tǒng)計(jì)分析和判斷的結(jié)果,過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個(gè)實(shí)施例中,該系統(tǒng)還包括去重模塊, 用于對(duì)同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進(jìn)行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動(dòng)過濾出評(píng)選區(qū),并選取最新進(jìn)入評(píng)選區(qū)的版本待審核。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個(gè)實(shí)施例中,統(tǒng)計(jì)分析模塊進(jìn)一步包括統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)信息的段落數(shù)、總字節(jié)數(shù);分析子模塊,用于分析信息是否含有圖片、參考資料和目錄信息;以及測(cè)算子模塊,用于根據(jù)預(yù)定規(guī)則計(jì)算并評(píng)估百科版本數(shù)據(jù)是否屬于高質(zhì)量版本。本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng),通過對(duì)用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進(jìn)行解析,對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程;其能夠在降低人工篩選投入的前提下,有效提高對(duì)復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。進(jìn)一步地, 對(duì)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程的百科版本執(zhí)行連續(xù)版本過濾進(jìn)程,從而更加準(zhǔn)確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評(píng)選基礎(chǔ)。此外,通過快速準(zhǔn)確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫(kù)的建設(shè);同時(shí)還有利于挖掘具有較高編輯能力的用戶,完善對(duì)百科用戶的分級(jí)管理。
圖1示出本發(fā)明實(shí)施例提供的一種高質(zhì)量版本的篩選方法的流程圖;圖2示出本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中統(tǒng)計(jì)分析所采用的具體策略流程圖;圖3示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖;圖4示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖;圖5示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖;圖6示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖;圖7示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖;圖8示出本發(fā)明實(shí)施例提供的一種高質(zhì)量版本的篩選系統(tǒng)的結(jié)構(gòu)示意圖;圖9示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;圖10示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面參照附圖對(duì)本發(fā)明進(jìn)行更全面的描述,其中說明本發(fā)明的示例性實(shí)施例。圖1示出本發(fā)明實(shí)施例提供的一種高質(zhì)量版本的篩選方法的流程圖。如圖1所示,高質(zhì)量版本的篩選方法流程100包括步驟102,讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)百科版本數(shù)據(jù)進(jìn)行解析。例如,用戶通過百科頻道創(chuàng)建詞條信息,詞條信息創(chuàng)建完畢后提交以供系統(tǒng)后續(xù)篩選審核。接收到用戶完成的創(chuàng)建詞條信息后,需要對(duì)該詞條信息中的百科版本數(shù)據(jù)進(jìn)行解析,以分解提取相關(guān)條目信息。步驟104,對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析。例如,對(duì)前述分解提取的相關(guān)條目信息進(jìn)行統(tǒng)計(jì)分析,具體來說,涉及統(tǒng)計(jì)百科版本段落數(shù),統(tǒng)計(jì)該版本中的總字節(jié)數(shù),并分析其中是否含有圖片、參考資料等相關(guān)信息。稍后的其它實(shí)施例還將對(duì)統(tǒng)計(jì)分析所采用的具體策略作進(jìn)一步的簡(jiǎn)要介紹。步驟106,根據(jù)統(tǒng)計(jì)分析的結(jié)果,過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。例如,根據(jù)統(tǒng)計(jì)的段落數(shù)、字節(jié)數(shù)等相關(guān)信息對(duì)百科版本數(shù)據(jù)進(jìn)行過濾,對(duì)符合相應(yīng)預(yù)設(shè)條件的百科版本分別歸入簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜版本進(jìn)程,以便對(duì)復(fù)雜版本百科數(shù)據(jù)進(jìn)行高質(zhì)量版本的審核,并引導(dǎo)用戶進(jìn)一步完善該詞條信息等后續(xù)操作。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行復(fù)雜編輯版本進(jìn)程的步驟進(jìn)一步包括判斷過濾后的百科版本是否含有參考資料, 如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法,通過對(duì)百科版本數(shù)據(jù)進(jìn)行解析、統(tǒng)計(jì)分析, 篩選出復(fù)雜編輯版本和簡(jiǎn)單編輯版本,以減少人工篩選及審核的投入,在提高篩選效率的同時(shí),有利于后續(xù)評(píng)審高質(zhì)量版本更有針對(duì)性。圖2示出本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中統(tǒng)計(jì)分析所采用的具體策略流程圖。如圖2所示,本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中統(tǒng)計(jì)分析所采用的具體策略流程200包括步驟202,對(duì)解析后的百科版本數(shù)據(jù)進(jìn)行條目統(tǒng)計(jì),判斷該百科版本數(shù)據(jù)是否只有一條段落;如果不是只有一個(gè)段落,則執(zhí)行步驟204 ;否則執(zhí)行步驟212。步驟204,統(tǒng)計(jì)百科版本數(shù)據(jù)的總字節(jié)數(shù);如果其總字節(jié)數(shù)大于某一閾值,如600 字節(jié),則執(zhí)行步驟214 ;否則執(zhí)行步驟206。步驟206,判斷百科版本數(shù)據(jù)統(tǒng)計(jì)的總字節(jié)數(shù)是否小于某一閾值,如300字節(jié),則執(zhí)行步驟212 ;否則執(zhí)行步驟208。步驟208,判斷百科版本數(shù)據(jù)中是否沒有圖片、參考資料和目錄;如果都沒有,則執(zhí)行步驟212 ;否則執(zhí)行步驟210。步驟210,對(duì)前述統(tǒng)計(jì)的信息,依據(jù)具體的計(jì)算公式來測(cè)算版本變化量是否大于預(yù)先設(shè)置的閾值。如果是則執(zhí)行步驟214;否則執(zhí)行步驟212。舉例來說,如果統(tǒng)計(jì)分析的百科版本數(shù)據(jù)中含有內(nèi)鏈計(jì)1分,有圖片計(jì)2分(對(duì)于統(tǒng)計(jì)圖片變化量來說,對(duì)圖注文字的修改、添加,居左/居右屬性的變化不計(jì)入),有參考資料計(jì)1分,有N個(gè)目錄計(jì)N分;可以根據(jù)這4項(xiàng)得分相加求和,總分在2分以上的百科版本可視為復(fù)雜編輯版本。步驟212,對(duì)所過濾的百科版本數(shù)據(jù)執(zhí)行簡(jiǎn)單編輯版本進(jìn)程。例如,最簡(jiǎn)單的做法就是直接過濾該簡(jiǎn)單編輯版本,而不在展示區(qū)顯示;但是這樣作可能挫傷用戶創(chuàng)建、編輯百科詞條的積極性,也不利于培養(yǎng)和發(fā)掘有創(chuàng)造力的用戶;進(jìn)一步地,可以將歸入簡(jiǎn)單編輯版本進(jìn)程的簡(jiǎn)單百科版本直接返回用戶,由用戶進(jìn)行重新創(chuàng)建或進(jìn)一步編輯完善;又或者對(duì)簡(jiǎn)單編輯版本作進(jìn)一步的判斷,以判斷是否存在通過連續(xù)編輯版本以達(dá)到復(fù)雜版本的變化量。步驟214,對(duì)所過濾的百科版本數(shù)據(jù)執(zhí)行復(fù)雜編輯版本進(jìn)程。例如,判斷進(jìn)入復(fù)雜編輯版本進(jìn)程的復(fù)雜百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾;過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。需要說明的是,如果該復(fù)雜編輯版本已經(jīng)被標(biāo)記為高質(zhì)量或優(yōu)質(zhì)版本的版本,直接過濾,不進(jìn)入高質(zhì)量待審區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中統(tǒng)計(jì)分析所采用的具體策略能夠用于統(tǒng)計(jì)用戶編輯版本的版本變化量,并篩選出可能的復(fù)雜編輯版本,因而,該流程也可被稱之為復(fù)雜編輯版本策略。圖3示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖。如圖3所示,高質(zhì)量版本的篩選方法流程300包括步驟302-312,其中步驟 302-306可以執(zhí)行與圖1所示的步驟102-106相同或相似的技術(shù)內(nèi)容,為簡(jiǎn)潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖3所示,在步驟306后,依次執(zhí)行步驟308,判斷之前的版本是否存在連續(xù)的相同用戶編輯同名詞條版本。具體來說,對(duì)于用戶編輯的百科版本數(shù)據(jù),當(dāng)所述百科版本數(shù)據(jù)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程后,判斷之前是否存在連續(xù)的同ID的用戶編輯同名詞條的版本。如果不存在,則執(zhí)行步驟310,否則執(zhí)行步驟312。步驟310,如果之前的版本不存在連續(xù)的相同用戶編輯同名詞條版本,則直接過濾百科版本數(shù)據(jù)。對(duì)于簡(jiǎn)單編輯的版本,且不存在連續(xù)的同ID用戶編輯的同名詞條版本的情形,系統(tǒng)可以直接過濾該簡(jiǎn)單編輯的百科版本詞條信息,提高了篩選判斷的效率,降低了人工審核的成本,也有利于避免單一線性判斷模式的誤判率。步驟312,如果之前存在連續(xù)的、與版本數(shù)據(jù)具有相同編輯用戶的同名詞條版本, 則執(zhí)行連續(xù)版本過濾進(jìn)程。也就是說,存在連續(xù)的,由同一用戶ID編輯的、且連續(xù)被審核通過的同名詞條版本所形成的一組版本,系統(tǒng)需要判斷該同一用戶編輯的連續(xù)版本組的累積變化量是否達(dá)到復(fù)雜版本變化量閾值,如果達(dá)到了預(yù)先設(shè)定的變化量閾值,則有可能被篩選出來成為待審核的高質(zhì)量版本。稍后的其它實(shí)施例還將對(duì)連續(xù)版本過濾進(jìn)程作進(jìn)一步的詳細(xì)介紹。本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng),通過對(duì)用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進(jìn)行解析,對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程;其能夠在降低人工篩選投入的前提下,有效提高對(duì)復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。對(duì)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程的百科版本執(zhí)行連續(xù)版本過濾進(jìn)程,從而更加準(zhǔn)確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評(píng)選基礎(chǔ)。圖4示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖。如圖4所示,高質(zhì)量版本的篩選方法流程400包括步驟402-416,其中步驟 402-410可以執(zhí)行與圖3所示的步驟302-310相同或相似的技術(shù)內(nèi)容,為簡(jiǎn)潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖4所示,連續(xù)版本過濾進(jìn)程進(jìn)一步包括步驟412-416,具體來說,步驟412,判斷之前是否存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本數(shù)據(jù)。如果不存在,則執(zhí)行步驟414;否則執(zhí)行步驟416。步驟414,選取該組版本中最后提交的版本與之前不同用戶編輯的版本進(jìn)行對(duì)比, 按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前不存在獲得高質(zhì)量版本標(biāo)識(shí)或優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前不同用戶編輯的版本進(jìn)行對(duì)比,可以按照?qǐng)D2所示的復(fù)雜編輯版本策略來統(tǒng)計(jì)分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。步驟416,選取該組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的版本進(jìn)行對(duì)比,按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前存在獲得高質(zhì)量版本標(biāo)識(shí)或優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前的標(biāo)記為高質(zhì)量版本或優(yōu)質(zhì)版本的版本進(jìn)行對(duì)比,可以按照?qǐng)D2所示的復(fù)雜編輯版本策略來統(tǒng)計(jì)分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)于通過連續(xù)版本過濾進(jìn)程中步驟414和416篩選出的版本變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量的備選復(fù)雜編輯版本,還可以進(jìn)一步判斷過濾后的百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。需要說明的是,如果該復(fù)雜編輯版本已經(jīng)被標(biāo)記為高質(zhì)量或優(yōu)質(zhì)版本的版本,直接過濾,不進(jìn)入高質(zhì)量待審區(qū)。通過以上過濾途徑獲得的編輯和創(chuàng)建版本,進(jìn)入高質(zhì)量審核區(qū)待審,并按照版本提交時(shí)間進(jìn)行順序排列。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)于進(jìn)入后臺(tái)“高質(zhì)量版本審核區(qū)”的待審百科版本,在“Diff對(duì)比區(qū)”進(jìn)行對(duì)比,以展示前后版本之間的變化,可以在后臺(tái)審核Diff策略中新增特殊詞的前后版本高亮顯示,當(dāng)前版本新增內(nèi)鏈高亮顯示, 敏感詞不高亮飄紅(同時(shí),修改后臺(tái)所有Diff區(qū)策略,不再顯示歷史版本中包含優(yōu)質(zhì)版本的灰色icon,只顯示當(dāng)前版本的優(yōu)質(zhì)/高質(zhì)量狀態(tài),icon與前臺(tái)展示icon相同)。在“版本變化量區(qū)”提示當(dāng)前版本的變化量,以幫助編審判斷版本(可以記錄的變化量包括但不限于字節(jié)數(shù)、內(nèi)鏈、開放分類、一級(jí)目錄、二級(jí)目錄、圖片數(shù)、參考資料、擴(kuò)展閱讀等)。變化量采用累加方式統(tǒng)計(jì),例如添加一張圖片,再刪除一張已有的圖片,變化量是2。在“版本標(biāo)記區(qū)”,由管理員標(biāo)記該審核的版本屬于“高質(zhì)量版本”或“非高質(zhì)量版本”,并在“評(píng)審建議區(qū)”由編審給出該高質(zhì)量版本后續(xù)可完善的建議,例如設(shè)置10個(gè)大項(xiàng)建議,每個(gè)大項(xiàng)設(shè)置若干可多選的小項(xiàng),包括(1)關(guān)于“詞條名”的建議涉及詞條名不規(guī)范或已存在同義詞條等;(2)關(guān)于“目錄章節(jié)”的建議涉及一二級(jí)目錄混編,章節(jié)劃分不當(dāng)或標(biāo)題歸納不正確等;⑶關(guān)于“概念定義”的建議涉及概念、定義缺失或不準(zhǔn)確,概念、定義信息矛盾等;⑷ 關(guān)于“正文”的建議涉及添加無效信息或刪除了有效信息,敘述重心偏離主題或詞條要素信息不完整,非第三方客觀表述,含有立場(chǎng)或時(shí)效性措辭,正文信息含不規(guī)范標(biāo)點(diǎn)、文字或亂碼等,正文內(nèi)容表述不當(dāng)?shù)龋? 關(guān)于“內(nèi)鏈”的建議涉及與主題關(guān)聯(lián)性差、添加位置不當(dāng)或內(nèi)鏈對(duì)象無相關(guān)闡述,內(nèi)鏈無效、斷鏈或者自鏈接等;(6)關(guān)于“圖片”的建議涉及圖片質(zhì)量低或與主題關(guān)聯(lián)性較差,圖片無注釋或注釋不準(zhǔn)確等;(7)關(guān)于“參考資料”的建議 涉及參考資料與主題無關(guān),參考資料為無效鏈接,角標(biāo)位置不正確等;(8)關(guān)于“擴(kuò)展閱讀” 的建議涉及擴(kuò)展閱讀與主題無關(guān),擴(kuò)展閱讀為無效鏈接等;(9)關(guān)于“排版”的建議涉及版面信息分布瑣碎或圖文排版不佳,無排版或錯(cuò)誤使用編輯功能等;(10)關(guān)于“其他”的建議涉及其他建議或建議申請(qǐng)優(yōu)質(zhì)版本等。已經(jīng)評(píng)為高質(zhì)量版本的百科版本進(jìn)入系統(tǒng)的高質(zhì)量版本管理區(qū),該管理區(qū)用于方便后續(xù)的版本復(fù)審和撤銷。其中高質(zhì)量版本審核區(qū)中按照高質(zhì)量版本的添加時(shí)間倒序排列,支持按照版本、編輯者id、添加者等標(biāo)引信息進(jìn)行搜索。高質(zhì)量版本管理區(qū)的數(shù)據(jù)項(xiàng)包括(1)高質(zhì)量詞條版本鏈接新窗口指向后臺(tái)該詞條版本;( 版本編輯者鏈接新窗口指向前臺(tái)passport profile頁;(3)編輯時(shí)間詞條版本提交時(shí)間;(3)添加者添加該版本為高質(zhì)量版本的編審;(4)添加時(shí)間編審標(biāo)記為該版本為高質(zhì)量版本的時(shí)間;( 評(píng)審建議編審給高質(zhì)量版本的評(píng)審建議;評(píng)審建議與后臺(tái)高質(zhì)量版本的反饋建議基本對(duì)應(yīng)。 評(píng)審建議為評(píng)選時(shí)勾選的選項(xiàng)+編審文本輸入內(nèi)容。評(píng)審建議對(duì)應(yīng)當(dāng)初標(biāo)記反饋模板體組成為一級(jí)模板名+序號(hào)+ 二級(jí)模板名+如+輸入內(nèi)容+建議+輸入內(nèi)容。序號(hào)按照排列選中的排列順序,不選則不分配序號(hào)。比如詞條名稱不規(guī)范的類型,其規(guī)范的詞條名為“2008年北京奧運(yùn)會(huì)”。建議建立標(biāo)準(zhǔn)詞詞條。正文內(nèi)容表述不當(dāng),如第一段主觀語氣,建議客觀闡述。(6)復(fù)審點(diǎn)擊“查看”本窗口打開標(biāo)記高質(zhì)量版本時(shí)的高質(zhì)量版本審核Diff 頁面,復(fù)審?fù)瓿珊笞员敬翱诨氐礁哔|(zhì)量版本管理區(qū)。點(diǎn)擊“復(fù)審”中的“查看”,進(jìn)入高質(zhì)量版本復(fù)審的新頁面,該頁面和當(dāng)初該版本進(jìn)入高質(zhì)量審核區(qū)的Diff對(duì)比版本一致。不同之處為評(píng)審建議以文本方式顯示在版本變化量之下,無“高質(zhì)量版本”按鈕。編審復(fù)審若發(fā)現(xiàn)改版本為誤審核,點(diǎn)擊“非高質(zhì)量版本”,彈出浮動(dòng)層,填寫取消原因。復(fù)雜編輯版本在高質(zhì)量版本審核區(qū)被標(biāo)記為非高質(zhì)量版本后進(jìn)入非高質(zhì)量版本管理區(qū),支持添加其他版本進(jìn)該區(qū)的功能(如支持按照任意的、與本區(qū)不重復(fù)的人工方式將已通過版本ID添加到該區(qū)),目的是回?fù)聘哔|(zhì)量版本。非高質(zhì)量版本按照添加時(shí)間倒序排列,可按照版本(即詞條名)、編輯者ID、添加者搜索版本。該區(qū)涉及的數(shù)據(jù)項(xiàng)包括(1) 非高質(zhì)量詞條版本鏈接新窗口指向后臺(tái)該詞條版本。(2)版本編輯者鏈接新窗口指向前臺(tái)passport profile頁。(3)編輯時(shí)間詞條版本成功提交時(shí)間。(4)添加者添加該版本為高質(zhì)量版本的管理員。(5)添加時(shí)間管理員標(biāo)記為該版本為高質(zhì)量版本的時(shí)間。(6) 復(fù)審點(diǎn)擊“查看”新窗口打開復(fù)審對(duì)比版本頁面。進(jìn)入復(fù)審DifT頁面(非高質(zhì)量版本復(fù)審)可采用如下策略進(jìn)行審核(1)非相同編輯者ID的連續(xù)版本,則當(dāng)前版本和上一個(gè)編輯者的版本進(jìn)行對(duì)比。(2)相同編輯者ID的連續(xù)版本,則當(dāng)前版本與該連續(xù)版本中最早版本的上一個(gè)用戶版本進(jìn)行比較。若連續(xù)版本有被標(biāo)記為優(yōu)質(zhì)版本或者高質(zhì)量版本,則當(dāng)前版本與連續(xù)版本中最近的一個(gè)標(biāo)記為優(yōu)質(zhì)版本或高質(zhì)量版本的版本進(jìn)行對(duì)比。非高質(zhì)量版本復(fù)審DifT頁面,默認(rèn)“高質(zhì)量版本”灰化不可以點(diǎn),無“非高質(zhì)量版本”按鈕。只有勾選評(píng)審建議后,“高質(zhì)量版本”按鈕才可用,勾選評(píng)審建議和高質(zhì)量審核區(qū)策略一致。有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫(kù)的建設(shè);同時(shí)還有利于挖掘具有較高編輯能力的用戶,完善對(duì)百科用戶的分級(jí)管理。具體體現(xiàn)在“個(gè)人中心區(qū)”對(duì)用戶的管理,在個(gè)人中心的查看積分中增加“高質(zhì)量版本”的詞條統(tǒng)計(jì),在我的貢獻(xiàn)中增加高質(zhì)量版本標(biāo)簽,用于展示“詞條名稱、提交時(shí)間、通過原因、評(píng)審建議”等。其中評(píng)審建議與后臺(tái)高質(zhì)量版本的反饋建議基本對(duì)應(yīng)。評(píng)審建議為評(píng)選時(shí)勾選的建議,具體反映在用戶的個(gè)人中心評(píng)審建議組成為一級(jí)模板+序號(hào)+ 二級(jí)模板+如+后臺(tái)標(biāo)記輸入內(nèi)容+ 建議后臺(tái)標(biāo)記輸入內(nèi)容(反饋模板十除外)。序號(hào)按照排列選中的排列順序,不選則不分配序號(hào)。關(guān)于評(píng)審建議,舉例說明如下您的版本已符合高質(zhì)量版本評(píng)選規(guī)則,如果您愿意在以下方面進(jìn)行后續(xù)完善,還有機(jī)會(huì)申請(qǐng)優(yōu)質(zhì)版本。關(guān)于“正文”U XX, :YYo 建議ΖΖ。2、XX,如YY。建議ΖΖ。關(guān)于“參考資料”U XX, :ΥΥο 建議ΖΖ。其中ΧΧ為后臺(tái)評(píng)審建議最細(xì)的一級(jí)模板內(nèi)容,YY為編審建議的示例子(如)的輸入內(nèi)容,ZZ為編審建議的建議輸入部分(建議)。若后臺(tái)評(píng)審建議的建議部分未填寫, 則個(gè)人中心反饋建議不顯示“建議ζζ”。若“其他”項(xiàng)中勾選了 “建議申請(qǐng)優(yōu)質(zhì)版本”,個(gè)人中心反饋內(nèi)容為如下您的版本已符合高質(zhì)量版本評(píng)選規(guī)則,甚至已經(jīng)達(dá)到優(yōu)質(zhì)版本標(biāo)準(zhǔn),因此建議您在百科優(yōu)質(zhì)版本吧, 根據(jù)規(guī)則申請(qǐng)優(yōu)質(zhì)版本。上述各頁面的icon展示中,優(yōu)質(zhì)版本的優(yōu)先級(jí)高于高質(zhì)量版本, 當(dāng)同一個(gè)版本同時(shí)具有高質(zhì)量版本和優(yōu)質(zhì)版本兩種屬性的時(shí)候,只顯示優(yōu)質(zhì)版本,不需要顯示高質(zhì)量版本。若“其他”項(xiàng)中該用戶無高質(zhì)量版本,文字內(nèi)容為“您目前還沒有高質(zhì)量版本記錄,建議您查看高質(zhì)量版本評(píng)選規(guī)則,之后在待完善詞條中查找感興趣的內(nèi)容并編輯)”。 待完善詞條新窗口鏈接至百科待完善詞條list頁。通過前述對(duì)百科版本的審核以及復(fù)審操作,有利于引導(dǎo)編輯用戶完善對(duì)相應(yīng)百科詞條信息的不斷完善,同時(shí)也有利于回?fù)瓢倏瓢姹?,真?shí)反映用戶編輯狀況,鼓勵(lì)并激勵(lì)用戶完善百科詞條信息,從而挖掘并培養(yǎng)編輯用戶,以達(dá)到有針對(duì)性地對(duì)編輯用戶的分級(jí)管理。本發(fā)明提供的高質(zhì)量版本的篩選方法,通過對(duì)簡(jiǎn)單編輯的百科版本進(jìn)行連續(xù)版本變化量的統(tǒng)計(jì)分析,從而以多維度的方式來篩選可能的復(fù)雜編輯版本,通過分級(jí)審核的方式避免了單一評(píng)估手段造成的誤判斷,通過快速準(zhǔn)確篩選出高質(zhì)量版本和非高質(zhì)量版本, 有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫(kù)的建設(shè);同時(shí)還有利于挖掘具有較高編輯能力的用戶,完善對(duì)百科用戶的分級(jí)管理。圖5示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖。如圖5所示,高質(zhì)量版本的篩選方法流程500包括步驟502-514,其中步驟 502-506可以執(zhí)行與圖1所示的步驟102-106相同或相似的技術(shù)內(nèi)容,為簡(jiǎn)潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖5所示,在步驟506后,依次執(zhí)行步驟508,判斷之前相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)。具體來說,對(duì)于用戶編輯的百科版本數(shù)據(jù),當(dāng)所述百科版本數(shù)據(jù)進(jìn)入復(fù)雜編輯版本進(jìn)程后,判斷之前的相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)。如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標(biāo)識(shí)或者優(yōu)質(zhì)標(biāo)識(shí),則執(zhí)行步驟510,否則執(zhí)行步驟512。步驟510,判斷過濾后的百科版本是否含有參考資料。例如,如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標(biāo)識(shí)或者優(yōu)質(zhì)標(biāo)識(shí),則判斷過濾后的百科版本是否含有參考資料。如果有參考資料,則將該百科版本數(shù)據(jù)轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則執(zhí)行步驟514。步驟512,如果之前相鄰版本是相同用戶編輯的同名詞條版本,或者之前相鄰版本不含有高質(zhì)量版本標(biāo)識(shí)或者優(yōu)質(zhì)標(biāo)識(shí),則執(zhí)行連續(xù)版本過濾進(jìn)程。也就是說,存在連續(xù)的, 由同一用戶ID編輯的、且連續(xù)被審核通過的同名詞條版本所形成的一組版本,系統(tǒng)需要判斷該同一用戶編輯的連續(xù)版本組的累積變化量是否達(dá)到復(fù)雜版本變化量閾值,如果達(dá)到了預(yù)先設(shè)定的變化量閾值,則有可能被篩選出來成為待審核的高質(zhì)量版本。稍后的其它實(shí)施例還將對(duì)連續(xù)版本過濾進(jìn)程作進(jìn)一步的詳細(xì)介紹。步驟514,執(zhí)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng),通過對(duì)用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進(jìn)行解析,對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程;其能夠在降低人工篩選投入的前提下,有效提高對(duì)復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。對(duì)進(jìn)入復(fù)雜編輯版本進(jìn)程的百科版本執(zhí)行連續(xù)版本過濾進(jìn)程,從而更加準(zhǔn)確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評(píng)選基礎(chǔ)。圖6示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖。如圖6所示,高質(zhì)量版本的篩選方法流程600包括步驟602-618,其中步驟 602-610、614可以執(zhí)行與圖5所示的步驟502-510、514相同或相似的技術(shù)內(nèi)容,為簡(jiǎn)潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖6所示,連續(xù)版本過濾進(jìn)程進(jìn)一步包括步驟612、616和618,具體來說,步驟 612,判斷之前是否存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本數(shù)據(jù)。如果不存在,則執(zhí)行步驟616 ;否則執(zhí)行步驟618。步驟616,選取該組版本中最后提交的版本與之前不同用戶編輯的版本進(jìn)行對(duì)比, 按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前不存在獲得高質(zhì)量版本標(biāo)識(shí)或優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前不同用戶編輯的版本進(jìn)行對(duì)比,可以按照?qǐng)D2所示的復(fù)雜編輯版本策略來統(tǒng)計(jì)分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。步驟618,選取該組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的版本進(jìn)行對(duì)比,按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前存在獲得高質(zhì)量版本標(biāo)識(shí)或優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前的標(biāo)記為高質(zhì)量版本或優(yōu)質(zhì)版本的版本進(jìn)行對(duì)比,可以按照?qǐng)D2所示的復(fù)雜編輯版本策略來統(tǒng)計(jì)分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)于通過連續(xù)版本過濾進(jìn)程中步驟616和618篩選出的版本變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量的備選復(fù)雜編輯版本,還可以進(jìn)一步判斷過濾后的百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。需要說明的是,如果該復(fù)雜編輯版本已經(jīng)被標(biāo)記為高質(zhì)量或優(yōu)質(zhì)版本的版本,直接過濾,不進(jìn)入高質(zhì)量待審區(qū)。通過以上過濾途徑獲得的編輯和創(chuàng)建版本,進(jìn)入高質(zhì)量審核區(qū)待審,并按照版本提交時(shí)間進(jìn)行順序排列。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個(gè)實(shí)施例中,對(duì)于進(jìn)入后臺(tái)“高質(zhì)量版本審核區(qū)”的待審百科版本,在“Diff對(duì)比區(qū)”進(jìn)行對(duì)比,以展示前后版本之間的變化,可以在原有后臺(tái)審核Diff策略中新增特殊詞的前后版本高亮顯示,當(dāng)前版本新增內(nèi)鏈高亮顯示,敏感詞不高亮飄紅(同時(shí),修改后臺(tái)所有Diff區(qū)策略,不再顯示歷史版本中包含優(yōu)質(zhì)版本的灰色icon,只顯示當(dāng)前版本的優(yōu)質(zhì)/高質(zhì)量狀態(tài),icon與前臺(tái)展示icon相同)。在 “版本變化量區(qū)”提示當(dāng)前版本的變化量,以幫助編審判斷版本(可以記錄的變化量包括但不限于字節(jié)數(shù)、內(nèi)鏈、開放分類、一級(jí)目錄、二級(jí)目錄、圖片數(shù)、參考資料、擴(kuò)展閱讀等)。變化量采用累加方式統(tǒng)計(jì),例如添加一張圖片,再刪除一張已有的圖片,變化量是2。在“版本標(biāo)記區(qū)”,由管理員標(biāo)記該審核的版本屬于“高質(zhì)量版本”或“非高質(zhì)量版本”,并在“評(píng)審建議區(qū)”由編審給出該高質(zhì)量版本后續(xù)可完善的建議,例如設(shè)置10個(gè)大項(xiàng)建議,每個(gè)大項(xiàng)設(shè)置若干可多選的小項(xiàng)。已經(jīng)評(píng)為高質(zhì)量版本的百科版本進(jìn)入系統(tǒng)的高質(zhì)量版本管理區(qū),該管理區(qū)用于方便后續(xù)的版本復(fù)審和撤銷。其中高質(zhì)量版本審核區(qū)中按照高質(zhì)量版本的添加時(shí)間倒序排列,支持按照版本、編輯者id、添加者等標(biāo)引信息進(jìn)行搜索。高質(zhì)量版本管理區(qū)的數(shù)據(jù)項(xiàng)包括(1)高質(zhì)量詞條版本鏈接新窗口指向后臺(tái)該詞條版本;(2)版本編輯者鏈接新窗口指向前臺(tái)passport profile頁;(3)編輯時(shí)間詞條版本提交時(shí)間;(3)添加者添加該版本為高質(zhì)量版本的編審;(4)添加時(shí)間編審標(biāo)記為該版本為高質(zhì)量版本的時(shí)間;(5)評(píng)審建議編審給高質(zhì)量版本的評(píng)審建議;評(píng)審建議與后臺(tái)高質(zhì)量版本的反饋建議基本對(duì)應(yīng)。 評(píng)審建議為評(píng)選時(shí)勾選的選項(xiàng)+編審文本輸入內(nèi)容。評(píng)審建議對(duì)應(yīng)當(dāng)初標(biāo)記反饋模板體組成為一級(jí)模板名+序號(hào)+ 二級(jí)模板名+如+輸入內(nèi)容+建議+輸入內(nèi)容。序號(hào)按照排列選中的排列順序,不選則不分配序號(hào)。比如詞條名稱不規(guī)范的類型,其規(guī)范的詞條名為 “2008年北京奧運(yùn)會(huì)”。建議建立標(biāo)準(zhǔn)詞詞條。正文內(nèi)容表述不當(dāng),如第一段主觀語氣,建議客觀闡述。(6)復(fù)審點(diǎn)擊“查看”本窗口打開標(biāo)記高質(zhì)量版本時(shí)的高質(zhì)量版本審核Diff 頁面,復(fù)審?fù)瓿珊笞员敬翱诨氐礁哔|(zhì)量版本管理區(qū)。點(diǎn)擊“復(fù)審”中的“查看”,進(jìn)入高質(zhì)量版本復(fù)審的新頁面,該頁面和當(dāng)初該版本進(jìn)入高質(zhì)量審核區(qū)的Diff對(duì)比版本一致。不同之處為評(píng)審建議以文本方式顯示在版本變化量之下,無“高質(zhì)量版本”按鈕。編審復(fù)審若發(fā)現(xiàn)改版本為誤審核,點(diǎn)擊“非高質(zhì)量版本”,彈出浮動(dòng)層,填寫取消原因。復(fù)雜編輯版本在高質(zhì)量版本審核區(qū)被標(biāo)記為非高質(zhì)量版本后進(jìn)入非高質(zhì)量版本管理區(qū),支持添加其他版本進(jìn)該區(qū)的功能(如支持按照任意的、與本區(qū)不重復(fù)的人工方式將已通過版本ID添加到該區(qū)),目的是回?fù)聘哔|(zhì)量版本。非高質(zhì)量版本按照添加時(shí)間倒序排列,可按照版本(即詞條名)、編輯者ID、添加者搜索版本。該區(qū)涉及的數(shù)據(jù)項(xiàng)包括(1) 非高質(zhì)量詞條版本鏈接新窗口指向后臺(tái)該詞條版本。(2)版本編輯者鏈接新窗口指向前臺(tái)passport profile頁。(3)編輯時(shí)間詞條版本成功提交時(shí)間。(4)添加者添加該版本為高質(zhì)量版本的管理員。(5)添加時(shí)間管理員標(biāo)記為該版本為高質(zhì)量版本的時(shí)間。(6) 復(fù)審點(diǎn)擊“查看”新窗口打開復(fù)審對(duì)比版本頁面。進(jìn)入復(fù)審DifT頁面(非高質(zhì)量版本復(fù)審)可采用如下策略進(jìn)行審核(1)非相同編輯者ID的連續(xù)版本,則當(dāng)前版本和上一個(gè)編輯者的版本進(jìn)行對(duì)比。(2)相同編輯者ID的連續(xù)版本,則當(dāng)前版本與該連續(xù)版本中最早版本的上一個(gè)用戶版本進(jìn)行比較。若連續(xù)版本有被標(biāo)記為優(yōu)質(zhì)版本或者高質(zhì)量版本,則當(dāng)前版本與連續(xù)版本中最近的一個(gè)標(biāo)記為優(yōu)質(zhì)版本或高質(zhì)量版本的版本進(jìn)行對(duì)比。非高質(zhì)量版本復(fù)審DifT頁面,默認(rèn)“高質(zhì)量版本”灰化不可以點(diǎn),無“非高質(zhì)量版本”按鈕。只有勾選評(píng)審建議后,“高質(zhì)量版本”按鈕才可用,勾選評(píng)審建議和高質(zhì)量審核區(qū)策略一致。本發(fā)明提供的高質(zhì)量版本的篩選方法,通過對(duì)復(fù)雜編輯的百科版本進(jìn)行連續(xù)版本變化量的統(tǒng)計(jì)分析,從而以多維度的方式進(jìn)一步來篩選符合條件的復(fù)雜編輯版本以有利于提高后續(xù)高質(zhì)量版本的審核效率,同時(shí)通過分級(jí)審核的方式避免了單一評(píng)估手段造成的誤判斷,通過快速準(zhǔn)確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫(kù)的建設(shè);同時(shí)還有利于挖掘具有較高編輯能力的用戶,完善對(duì)百科用戶的分級(jí)管理。圖7示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例的流程圖。如圖7所示,高質(zhì)量版本的篩選方法流程700包括步驟702-720,其中步驟702-716可以執(zhí)行與圖4所示的步驟402-416相同或相似的技術(shù)內(nèi)容,為簡(jiǎn)潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖7所示,在步驟716之后,依次執(zhí)行步驟718,判斷過濾后的百科版本是否含有參考資料。例如,如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標(biāo)識(shí)或者優(yōu)質(zhì)標(biāo)識(shí),則判斷過濾后的百科版本是否含有參考資料。如果有參考資料,則將該百科版本數(shù)據(jù)轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則執(zhí)行步驟720,進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。與圖7中的步驟718和720類似的,本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個(gè)實(shí)施例中,在圖6所示的流程圖中,在步驟616和618之后,還可以包括判斷過濾后的百科版本是否含有參考資料。例如,如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標(biāo)識(shí)或者優(yōu)質(zhì)標(biāo)識(shí),則判斷過濾后的百科版本是否含有參考資料。如果有參考資料,則將該百科版本數(shù)據(jù)轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。圖8示出本發(fā)明實(shí)施例提供的一種高質(zhì)量版本的篩選系統(tǒng)的結(jié)構(gòu)示意圖。如圖8所示,一種高質(zhì)量版本的篩選系統(tǒng)800包括數(shù)據(jù)解析模塊802、統(tǒng)計(jì)分析模塊804和版本過濾模塊806。其中,數(shù)據(jù)解析模塊802,用于讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)百科版本數(shù)據(jù)進(jìn)行解析。例如,用戶通過百科頻道創(chuàng)建詞條信息,詞條信息創(chuàng)建完畢后提交以供系統(tǒng)后續(xù)篩選審核。接收到用戶完成的創(chuàng)建詞條信息后,需要對(duì)該詞條信息中的百科版本數(shù)據(jù)進(jìn)行解析,以分解提取相關(guān)條目信息。統(tǒng)計(jì)分析模塊804,用于對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析和判斷。例如,對(duì)前述分解提取的相關(guān)條目信息進(jìn)行統(tǒng)計(jì)分析,具體來說,涉及統(tǒng)計(jì)百科版本段落數(shù),統(tǒng)計(jì)該版本中的總字節(jié)數(shù),并分析其中是否含有圖片、參考資料等相關(guān)信息。版本過濾模塊806,用于根據(jù)統(tǒng)計(jì)分析和判斷的結(jié)果,過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。例如,根據(jù)統(tǒng)計(jì)的段落數(shù)、字節(jié)數(shù)等相關(guān)信息對(duì)百科版本數(shù)據(jù)進(jìn)行過濾,對(duì)符合相應(yīng)預(yù)設(shè)條件的百科版本分別歸入簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜版本進(jìn)程,以便對(duì)復(fù)雜版本百科數(shù)據(jù)進(jìn)行高質(zhì)量版本的審核,并引導(dǎo)用戶進(jìn)一步完善該詞條信息等后續(xù)操作。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個(gè)實(shí)施例中,版本過濾模塊806還用于對(duì)過濾后的進(jìn)入簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜版本進(jìn)程的百科版本判斷其是否含有參考資料, 如果沒有,則進(jìn)行二次過濾;否則,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。通過以上過濾途徑獲得的編輯和創(chuàng)建版本,進(jìn)入高質(zhì)量審核區(qū)待審,并按照版本提交時(shí)間進(jìn)行順序排列。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個(gè)實(shí)施例中,對(duì)于進(jìn)入后臺(tái)“高質(zhì)量版本審核區(qū)”的待審百科版本,在“Diff對(duì)比區(qū)”進(jìn)行對(duì)比,以展示前后版本之間的變化,可以在原有后臺(tái)審核Diff策略中新增特殊詞的前后版本高亮顯示,當(dāng)前版本新增內(nèi)鏈高亮顯示,敏感詞不高亮飄紅(同時(shí),修改后臺(tái)所有Diff區(qū)策略,不再顯示歷史版本中包含優(yōu)質(zhì)版本的灰色icon,只顯示當(dāng)前版本的優(yōu)質(zhì)/高質(zhì)量狀態(tài),icon與前臺(tái)展示icon相同)。在 “版本變化量區(qū)”提示當(dāng)前版本的變化量,以幫助編審判斷版本(可以記錄的變化量包括但不限于字節(jié)數(shù)、內(nèi)鏈、開放分類、一級(jí)目錄、二級(jí)目錄、圖片數(shù)、參考資料、擴(kuò)展閱讀等)。變化量采用累加方式統(tǒng)計(jì),例如添加一張圖片,再刪除一張已有的圖片,變化量是2。在“版本標(biāo)記區(qū)”,由管理員標(biāo)記該審核的版本屬于“高質(zhì)量版本”或“非高質(zhì)量版本”,并在“評(píng)審建議區(qū)”由編審給出該高質(zhì)量版本后續(xù)可完善的建議,例如設(shè)置10個(gè)大項(xiàng)建議,每個(gè)大項(xiàng)設(shè)置若干可多選的小項(xiàng),包括(1)關(guān)于“詞條名”的建議涉及詞條名不規(guī)范或已存在同義詞條等;(2)關(guān)于“目錄章節(jié)”的建議涉及一二級(jí)目錄混編,章節(jié)劃分不當(dāng)或標(biāo)題歸納不正確等;(3)關(guān)于“概念定義”的建議涉及概念、定義缺失或不準(zhǔn)確,概念、定義信息矛盾等;(4) 關(guān)于“正文”的建議涉及添加無效信息或刪除了有效信息,敘述重心偏離主題或詞條要素信息不完整,非第三方客觀表述,含有立場(chǎng)或時(shí)效性措辭,正文信息含不規(guī)范標(biāo)點(diǎn)、文字或亂碼等,正文內(nèi)容表述不當(dāng)?shù)龋?5)關(guān)于“內(nèi)鏈”的建議涉及與主題關(guān)聯(lián)性差、添加位置不當(dāng)或內(nèi)鏈對(duì)象無相關(guān)闡述,內(nèi)鏈無效、斷鏈或者自鏈接等;(6)關(guān)于“圖片”的建議涉及圖片質(zhì)量低或與主題關(guān)聯(lián)性較差,圖片無注釋或注釋不準(zhǔn)確等;(7)關(guān)于“參考資料”的建議 涉及參考資料與主題無關(guān),參考資料為無效鏈接,角標(biāo)位置不正確等;(8)關(guān)于“擴(kuò)展閱讀” 的建議涉及擴(kuò)展閱讀與主題無關(guān),擴(kuò)展閱讀為無效鏈接等;(9)關(guān)于“排版”的建議涉及版面信息分布瑣碎或圖文排版不佳,無排版或錯(cuò)誤使用編輯功能等;(10)關(guān)于“其他”的建議涉及其他建議或建議申請(qǐng)優(yōu)質(zhì)版本等。已經(jīng)評(píng)為高質(zhì)量版本的百科版本進(jìn)入系統(tǒng)的高質(zhì)量版本管理區(qū),該管理區(qū)用于方便后續(xù)的版本復(fù)審和撤銷。其中高質(zhì)量版本審核區(qū)中按照高質(zhì)量版本的添加時(shí)間倒序排列,支持按照版本、編輯者id、添加者等標(biāo)引信息進(jìn)行搜索。高質(zhì)量版本管理區(qū)的數(shù)據(jù)項(xiàng)包括(1)高質(zhì)量詞條版本鏈接新窗口指向后臺(tái)該詞條版本;(2)版本編輯者鏈接新窗口指向前臺(tái)passport profile頁;(3)編輯時(shí)間詞條版本提交時(shí)間;(3)添加者添加該版本為高質(zhì)量版本的編審;(4)添加時(shí)間編審標(biāo)記為該版本為高質(zhì)量版本的時(shí)間;(5)評(píng)審建議編審給高質(zhì)量版本的評(píng)審建議;評(píng)審建議與后臺(tái)高質(zhì)量版本的反饋建議基本對(duì)應(yīng)。 評(píng)審建議為評(píng)選時(shí)勾選的選項(xiàng)+編審文本輸入內(nèi)容。評(píng)審建議對(duì)應(yīng)當(dāng)初標(biāo)記反饋模板體組成為一級(jí)模板名+序號(hào)+ 二級(jí)模板名+如+輸入內(nèi)容+建議+輸入內(nèi)容。序號(hào)按照排列選中的排列順序,不選則不分配序號(hào)。比如詞條名稱不規(guī)范的類型,其規(guī)范的詞條名為 “2008年北京奧運(yùn)會(huì)”。建議建立標(biāo)準(zhǔn)詞詞條。正文內(nèi)容表述不當(dāng),如第一段主觀語氣,建議客觀闡述。(6)復(fù)審點(diǎn)擊“查看”本窗口打開標(biāo)記高質(zhì)量版本時(shí)的高質(zhì)量版本審核Diff 頁面,復(fù)審?fù)瓿珊笞员敬翱诨氐礁哔|(zhì)量版本管理區(qū)。點(diǎn)擊“復(fù)審”中的“查看”,進(jìn)入高質(zhì)量版本復(fù)審的新頁面,該頁面和當(dāng)初該版本進(jìn)入高質(zhì)量審核區(qū)的Diff對(duì)比版本一致。不同之處為評(píng)審建議以文本方式顯示在版本變化量之下,無“高質(zhì)量版本”按鈕。編審復(fù)審若發(fā)現(xiàn)改版本為誤審核,點(diǎn)擊“非高質(zhì)量版本”,彈出浮動(dòng)層,填寫取消原因。復(fù)雜編輯版本在高質(zhì)量版本審核區(qū)被標(biāo)記為非高質(zhì)量版本后進(jìn)入非高質(zhì)量版本管理區(qū),支持添加其他版本進(jìn)該區(qū)的功能(如支持按照任意的、與本區(qū)不重復(fù)的人工方式將已通過版本ID添加到該區(qū)),目的是回?fù)聘哔|(zhì)量版本。非高質(zhì)量版本按照添加時(shí)間倒序排列,可按照版本(即詞條名)、編輯者ID、添加者搜索版本。該區(qū)涉及的數(shù)據(jù)項(xiàng)包括(1) 非高質(zhì)量詞條版本鏈接新窗口指向后臺(tái)該詞條版本。(2)版本編輯者鏈接新窗口指向前臺(tái)passport profile頁。(3)編輯時(shí)間詞條版本成功提交時(shí)間。(4)添加者添加該版本為高質(zhì)量版本的管理員。(5)添加時(shí)間管理員標(biāo)記為該版本為高質(zhì)量版本的時(shí)間。(6)復(fù)審點(diǎn)擊“查看”新窗口打開復(fù)審對(duì)比版本頁面。進(jìn)入復(fù)審DifT頁面(非高質(zhì)量版本復(fù)審)可采用如下策略進(jìn)行審核(1)非相同編輯者ID的連續(xù)版本,則當(dāng)前版本和上一個(gè)編輯者的版本進(jìn)行對(duì)比。(2)相同編輯者ID的連續(xù)版本,則當(dāng)前版本與該連續(xù)版本中最早版本的上一個(gè)用戶版本進(jìn)行比較。若連續(xù)版本有被標(biāo)記為優(yōu)質(zhì)版本或者高質(zhì)量版本,則當(dāng)前版本與連續(xù)版本中最近的一個(gè)標(biāo)記為優(yōu)質(zhì)版本或高質(zhì)量版本的版本進(jìn)行對(duì)比。非高質(zhì)量版本復(fù)審DifT頁面,默認(rèn)“高質(zhì)量版本”灰化不可以點(diǎn),無“非高質(zhì)量版本”按鈕。只有勾選評(píng)審建議后,“高質(zhì)量版本”按鈕才可用,勾選評(píng)審建議和高質(zhì)量審核區(qū)策略一致。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng),通過數(shù)據(jù)解析模塊對(duì)百科版本數(shù)據(jù)進(jìn)行解析,通過統(tǒng)計(jì)分析模塊統(tǒng)計(jì)分析,從而由版本過濾模塊篩選出復(fù)雜編輯版本和簡(jiǎn)單編輯版本,以減少人工篩選及審核的投入,在提高篩選效率的同時(shí),有利于后續(xù)評(píng)審高質(zhì)量版本更有針對(duì)性。圖9示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖9所示,一種高質(zhì)量版本的篩選系統(tǒng)900包括數(shù)據(jù)解析模塊902、統(tǒng)計(jì)分析模塊904、版本過濾模塊906和去重模塊908。其中數(shù)據(jù)解析模塊902、統(tǒng)計(jì)分析模塊904、 版本過濾模塊906可以是與圖8所示數(shù)據(jù)解析模塊802、統(tǒng)計(jì)分析模塊804、版本過濾模塊 806具有相同或相似的功能模塊。為簡(jiǎn)潔起見,這里不再贅述。如圖9所示,篩選系統(tǒng)900還包括去重模塊908,用于對(duì)同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進(jìn)行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動(dòng)過濾出評(píng)選區(qū),并選取最新進(jìn)入評(píng)選區(qū)的版本待審核。圖10示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖10所示,一種高質(zhì)量版本的篩選系統(tǒng)1000包括數(shù)據(jù)解析模塊1002、統(tǒng)計(jì)分析模塊1004、版本過濾模塊1006和去重模塊1008。其中數(shù)據(jù)解析模塊1002、版本過濾模塊1006、去重模塊1008可以是與圖9所示數(shù)據(jù)解析模塊902、版本過濾模塊906、去重模塊 908具有相同或相似的功能模塊。為簡(jiǎn)潔起見,這里不再贅述。統(tǒng)計(jì)分析模塊1004進(jìn)一步包括統(tǒng)計(jì)子模塊10042、分析子模塊10044和測(cè)算子模塊10046。其中,統(tǒng)計(jì)子模塊10042,用于統(tǒng)計(jì)信息的段落數(shù)、總字節(jié)數(shù)。例如,對(duì)解析后的百科版本數(shù)據(jù)進(jìn)行條目統(tǒng)計(jì),判斷該百科版本數(shù)據(jù)是否只有一條段落;統(tǒng)計(jì)百科版本數(shù)據(jù)的總字節(jié)數(shù)(其總字節(jié)數(shù)是否大于某一閾值,如600字節(jié),總字節(jié)數(shù)是否小于某一閾值,如300 字節(jié))。分析子模塊10044,用于分析信息是否含有圖片、參考資料和目錄信息。例如,對(duì)解析后的百科版本數(shù)據(jù)進(jìn)行條目統(tǒng)計(jì),判斷百科版本數(shù)據(jù)中是否沒有圖片、參考資料和目錄等條目信息。測(cè)算子模塊10046,用于根據(jù)預(yù)定規(guī)則計(jì)算并評(píng)估百科版本數(shù)據(jù)是否屬于復(fù)雜編輯版本。對(duì)前述統(tǒng)計(jì)的信息,依據(jù)具體的計(jì)算公式來測(cè)算版本變化量是否大于預(yù)先設(shè)置的閾值。舉例來說,如果統(tǒng)計(jì)分析的百科版本數(shù)據(jù)中含有內(nèi)鏈計(jì)1分,有圖片計(jì)2分(對(duì)于統(tǒng)計(jì)圖片變化量來說,對(duì)圖注文字的修改、添加,居左/居右屬性的變化不計(jì)入),有參考資料計(jì)1分,有N個(gè)目錄計(jì)N分;可以根據(jù)這4項(xiàng)得分相加求和,總分在2分以上的百科版本可視為復(fù)雜編輯版本。參考前述本發(fā)明示例性的描述,本領(lǐng)域技術(shù)人員可以清楚的知曉本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng)所具有的前述優(yōu)點(diǎn),本發(fā)明通過對(duì)用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進(jìn)行解析,對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程;其能夠在降低人工篩選投入的前提下,有效提高對(duì)復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。進(jìn)一步地, 對(duì)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程的百科版本執(zhí)行連續(xù)版本過濾進(jìn)程,從而更加準(zhǔn)確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評(píng)選基礎(chǔ)。此外,通過快速準(zhǔn)確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫(kù)的建設(shè);同時(shí)還有利于挖掘具有較高編輯能力的用戶,完善對(duì)百科用戶的分級(jí)管理。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對(duì)于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實(shí)施例是為了更好說明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。
權(quán)利要求
1.一種高質(zhì)量版本的篩選方法,其特征在于,所述方法包括讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)所述百科版本數(shù)據(jù)進(jìn)行解析;對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果,過濾所述百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行復(fù)雜編輯版本進(jìn)程的步驟進(jìn)一步包括判斷過濾后的所述百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析的步驟進(jìn)一步包括統(tǒng)計(jì)所述信息的段落數(shù)、總字節(jié)數(shù);分析所述信息是否含有圖片、參考資料和目錄信息;以及根據(jù)預(yù)定規(guī)則評(píng)估所述百科版本數(shù)據(jù)的變化量是否高于復(fù)雜版本變化量閾值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括對(duì)于用戶編輯的百科版本數(shù)據(jù)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程,判斷之前的版本是否存在連續(xù)的相同用戶編輯同名詞條版本,如果不存在,則直接過濾所述百科版本數(shù)據(jù);如果之前存在連續(xù)的、與所述版本數(shù)據(jù)具有相同編輯用戶的同名詞條版本,則執(zhí)行連續(xù)版本過濾進(jìn)程。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括對(duì)于用戶編輯的百科版本數(shù)據(jù)進(jìn)入復(fù)雜編輯版本進(jìn)程,判斷之前相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí),如果是,則判斷過濾后的百科版本是否含有參考資料;如果過濾后的所述百科版本不含有參考資料,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則,則執(zhí)行連續(xù)版本過濾進(jìn)程。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述連續(xù)版本過濾進(jìn)程針對(duì)由同一用戶編輯的連續(xù)同名詞條版本構(gòu)成的一組版本,判斷之前是否存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的百科版本數(shù)據(jù),如果不存在,則選取所述組版本中最后提交的版本數(shù)據(jù)與之前不同用戶編輯的版本進(jìn)行對(duì)比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料,如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);如果之前存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的版本,則選取所述組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標(biāo)識(shí)的版本進(jìn)行對(duì)比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料, 如果沒有,則進(jìn)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。
7.根據(jù)權(quán)利要求1-5中任意一項(xiàng)所述的方法,其特征在于,所述方法還包括對(duì)同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進(jìn)行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在所述版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動(dòng)過濾出評(píng)選區(qū),并選取最新進(jìn)入評(píng)選區(qū)的版本待審核。
8.一種高質(zhì)量版本的篩選系統(tǒng),其特征在于,系統(tǒng)包括數(shù)據(jù)解析模塊,用于讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)百科版本數(shù)據(jù)進(jìn)行解析;統(tǒng)計(jì)分析模塊,用于對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析和判斷;版本過濾模塊,用于根據(jù)統(tǒng)計(jì)分析和判斷的結(jié)果,過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。
9.根據(jù)權(quán)利要求8的系統(tǒng),其特征在于,系統(tǒng)還包括去重模塊,用于對(duì)同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進(jìn)行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動(dòng)過濾出評(píng)選區(qū), 并選取最新進(jìn)入評(píng)選區(qū)的版本待審核。
10.根據(jù)權(quán)利要求8的系統(tǒng),其特征在于,統(tǒng)計(jì)分析模塊進(jìn)一步包括統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)信息的段落數(shù)、總字節(jié)數(shù);分析子模塊,用于分析信息是否含有圖片、參考資料和目錄信息;以及測(cè)算子模塊,用于根據(jù)預(yù)定規(guī)則評(píng)估所述百科版本數(shù)據(jù)的變化量是否高于復(fù)雜版本變化量閾值。
全文摘要
本發(fā)明公開一種高質(zhì)量版本的篩選方法及系統(tǒng),該方法包括讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對(duì)百科版本數(shù)據(jù)進(jìn)行解析;對(duì)解析后得到的信息進(jìn)行統(tǒng)計(jì)分析;根據(jù)統(tǒng)計(jì)分析的結(jié)果,過濾百科版本數(shù)據(jù),并對(duì)符合預(yù)定標(biāo)準(zhǔn)的百科版本執(zhí)行簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程。發(fā)明能夠在降低人工篩選投入的前提下,有效提高對(duì)復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。進(jìn)一步地,對(duì)進(jìn)入簡(jiǎn)單編輯版本進(jìn)程或復(fù)雜編輯版本進(jìn)程的百科版本執(zhí)行連續(xù)版本過濾進(jìn)程,從而更加準(zhǔn)確地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本。通過快速準(zhǔn)確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對(duì)性地引導(dǎo)用戶持續(xù)完善詞條信息,同時(shí)還有利于完善對(duì)百科用戶的分級(jí)管理。
文檔編號(hào)G06F17/30GK102314453SQ201010222129
公開日2012年1月11日 申請(qǐng)日期2010年6月30日 優(yōu)先權(quán)日2010年6月30日
發(fā)明者支靜, 王龍, 陳興華 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司