亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

維基百科條目質(zhì)量評價方法

文檔序號:9217326閱讀:590來源:國知局
維基百科條目質(zhì)量評價方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)應(yīng)用技術(shù)的技術(shù)領(lǐng)域,具體地涉及維基百科條目質(zhì)量評價方 法。
【背景技術(shù)】
[0002] 自創(chuàng)建以來,維基百科已發(fā)展成為世界上最知名的互聯(lián)網(wǎng)百科全書。截至2014 年底,維基百科里包含了 288種語言撰寫的三千多萬個條目,同時擁有分布在世界各地的 五千多萬名編輯者。其中,規(guī)模最大的英語維基百科包含四百多萬個條目,編輯者人數(shù)超過 兩千萬。
[0003] 雖然維基百科條目數(shù)量要遠(yuǎn)遠(yuǎn)的超過《大英百科全書》等傳統(tǒng)的百科全書,但是條 目內(nèi)容的質(zhì)量卻無法與專家編纂的傳統(tǒng)百科全書相提并論。為了幫助用戶辨別高質(zhì)量的條 目,同時促進(jìn)編輯者改進(jìn)低質(zhì)量的條目,維基百科把條目按照質(zhì)量的優(yōu)劣分為七個等級:特 色、甲級、優(yōu)良、乙級、丙級、初級與小作品。同時采用同行評審的方式確定條目屬于哪個質(zhì) 量等級。但是,由于維基百科的條目數(shù)量增長過快,人工評價條目質(zhì)量的方法無法跟上維基 百科快速增長的節(jié)奏。實(shí)際上,在維基百科里僅有少數(shù)條目通過同行評審的方式確定了質(zhì) 量,大多數(shù)條目的質(zhì)量處于未知狀態(tài)。
[0004] 現(xiàn)在已有一些自動評價維基百科條目質(zhì)量的方法。這些方法大多數(shù)是基于分類的 方法,即把樣本里的條目簡單的分為高質(zhì)量條目與低質(zhì)量條目兩類。但是,維基百科里的條 目質(zhì)量千差萬別,簡單的分類無法反應(yīng)條目質(zhì)量的真實(shí)情況。
[0005] 因此,目前亟需一種自動化程度高、評價結(jié)果準(zhǔn)確的維基百科條目質(zhì)量評價方法, 能夠與同行評審的結(jié)果吻合,并自動評價未分等級的條目。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的一個目的是解決至少上述問題和/或缺陷,并提供至少后面將說明的優(yōu) 點(diǎn)。
[0007] 本發(fā)明還有一個目的是提供一種篩選維基百科的有意義的分類的方法,其能夠篩 選條目之間相互關(guān)聯(lián)度強(qiáng)的分類認(rèn)定為有意義的分類并作為領(lǐng)域,提高條目質(zhì)量評價的效 率。
[0008] 本發(fā)明還有一個目的是提供一種維基百科條目質(zhì)量評價方法,根據(jù)數(shù)據(jù)量化的方 式高效評價條目的質(zhì)量值和編輯者的信譽(yù)度值,解決維基百科知識質(zhì)量評價問題,更加準(zhǔn) 確、直觀。
[0009] 為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn),提供了一種維基百科條目質(zhì)量評價 方法,包括:
[0010] 步驟一、在維基百科選擇一個分類,讀取所述分類的全部的直接隸屬頁面,分析所 述直接隸屬頁面對應(yīng)的條目的鏈接關(guān)系網(wǎng)絡(luò)的相互性系數(shù),根據(jù)所述相互性系數(shù)篩選有意 義的分類作為領(lǐng)域;
[0011] 步驟二、采用迭代的方式計算所述領(lǐng)域里各條目的質(zhì)量值,以及編輯者在所述領(lǐng) 域的信譽(yù)度值。
[0012] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,在所述步驟一之前,還包括對維基 百科的原始數(shù)據(jù)預(yù)處理,包括:
[0013] S1、在維基百科的原始數(shù)據(jù)里的分類隸屬關(guān)系表categorylinks、條目鏈接關(guān)系 表pagelinks與條目重定向關(guān)系表redirect讀取包含的條目或分類的名稱title、名稱空 間namespace,并在維基百科的頁面基本信息數(shù)據(jù)表page查詢所述條目或分類相應(yīng)的編號 id,并將分類隸屬關(guān)系表categorylinks、條目鏈接關(guān)系表pagelinks和條目重定向關(guān)系表 redirect中的條目或分類的名稱title、名稱空間namespace更換為查詢到的條目或分類 相應(yīng)的編號id;
[0014] S2、在S1步驟得到的條目重定向關(guān)系表redirect里查詢更換后的條目的正式名 稱相應(yīng)的編號id后,把維基百科的原始數(shù)據(jù)里的條目鏈接關(guān)系表pagelinks、條目編輯歷 史記錄pagemetahistory包含的條目別名更換為條目正式名稱相應(yīng)的編號id,并去除冗余 只保留一個編號id。
[0015] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,所述步驟一具體包括:
[0016] 步驟a、在維基百科選擇一個分類,讀取所述分類的全部的直接隸屬頁面,建立所 述直接隸屬頁面對應(yīng)的條目的鏈接關(guān)系網(wǎng)絡(luò)有向圖G= (V,E),V為所述分類里的全部條目 集合,E為條目之間的鏈接關(guān)系的集合;
[0017] 步驟b、計算條目之間的相互性系數(shù):
,Lbd表示條目之間雙向鏈接的 數(shù)目;L表示全部鏈接的數(shù)目;6表示鏈接關(guān)系的密度,即6 =Z/_-l),N表示條目的數(shù) 目;
[0018] 步驟c、將步驟b計算得到的相互性系數(shù)與代表?xiàng)l目關(guān)聯(lián)度的閾值0進(jìn)行比較,若 相互性系數(shù)大于0,則判定條目之間相互關(guān)聯(lián)度較強(qiáng),該分類可以作為領(lǐng)域;若相互性系數(shù) 小于0,則判定條目之間相互關(guān)聯(lián)度較弱,該分類不可以作為領(lǐng)域。
[0019] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,所述步驟a中在維基百科選擇一 個分類,可以通過查詢所述頁面基本信息數(shù)據(jù)表page,讀取所述分類的編號id,然后通過 讀取的編號id在所述分類的分類隸屬關(guān)系表categorylinks查詢?nèi)康闹苯与`屬條目。
[0020] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,所述步驟b中的1^和L可以通過 統(tǒng)計所述分類的條目鏈接關(guān)系表pagelinks的超鏈接關(guān)系得到。
[0021] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,統(tǒng)計所述分類的條目鏈接關(guān)系表 pagelinks的超鏈接關(guān)系可以通過編寫SQL語句得到。
[0022] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,所述步驟二中:采用HITS算法和 向量標(biāo)準(zhǔn)化迭代計算所述領(lǐng)域里各條目的質(zhì)量值,以及編輯者在所述領(lǐng)域量的信譽(yù)度值。
[0023] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,所述步驟二具體包括:
[0024] 步驟d、構(gòu)建所述領(lǐng)域的全部的直接隸屬條目的集合Sa和所述領(lǐng)域的全部的編輯 者的集合預(yù)設(shè)迭代次數(shù);
[0025] 步驟e、對于Sa*的條目a,其質(zhì)量值
,對\里的每個編 輯者設(shè)置相同的初始信譽(yù)度值,按照這種方法計算出sa中的每個條目的質(zhì)量值;其中,n為 條目a的編輯者人數(shù),ei為條目a的第i個編輯者,Authority(eJ為第i個編輯者的信譽(yù) 度值;
[0026] 步驟f、將步驟e得到的&里的每個條目的質(zhì)量值作標(biāo)準(zhǔn)化處理
*其中,m為&里條目的數(shù)目;
[0027] 步驟g、對中的編輯者e,其信譽(yù)度值
,按照這種方法 計算出\中的每個編輯者的信譽(yù)度值;其中,n為編輯者e在所述領(lǐng)域里編輯的條目的數(shù) 目,%為編輯者e在所述領(lǐng)域里編輯的第i個條目,Quality(a)為步驟f?計算得到的編輯 者e編輯的第i個條目的質(zhì)量值;
[0028] 步驟h、將步驟g得到的Se里的每個編輯者的信譽(yù)度值做標(biāo)準(zhǔn)化處理
^其中,111為\里編輯者的數(shù)目;
[0029] 步驟i、把步驟h得到的\里的每個編輯者的信譽(yù)度值代入步驟e并重復(fù)步驟e 至步驟h至預(yù)設(shè)的迭代次數(shù),得到收斂的每個直接隸屬條目的質(zhì)量值Quality(a)和每一個 編輯者在所述領(lǐng)域的信譽(yù)度值A(chǔ)uthority(e)。
[0030] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,所述步驟e中,對里的每個編輯 者設(shè)置相同的初始信譽(yù)度值為1。
[0031] 優(yōu)選的是,所述的維基百科條目質(zhì)量評價方法,在對維基百科的原始數(shù)據(jù)預(yù)處理 之前,還包括:下載任一語言版本維基百科數(shù)據(jù),即頁面基本信息數(shù)據(jù)表page、條目重定向 關(guān)系表redirect、分類隸屬關(guān)系表categorylinks、條目鏈接關(guān)系表pagelinks和條目編輯 歷史記錄pagemetahistory。
[0032] 本發(fā)明至少包括以下有益效果:
[0033] 第一、本發(fā)明在限定的領(lǐng)域范圍內(nèi),迭代的計算領(lǐng)域里的條目的質(zhì)量值以及編輯 者的信譽(yù)度值,能夠?qū)崿F(xiàn)條目質(zhì)量的自動評價,該技術(shù)簡單高效;
[0034] 第二、本發(fā)明應(yīng)用復(fù)雜網(wǎng)絡(luò)技術(shù)分析維基百科里的分類的有效性,篩選有意義的 分類作為領(lǐng)域,限定迭代計算的范圍,提高條目質(zhì)量評價的效率;
[0035] 第三、引入編輯者與條目的關(guān)系計算條目的質(zhì)量,并把條目的質(zhì)量以精確的數(shù)值 表示出來,與其它條目質(zhì)量評價方法相比準(zhǔn)確度更高。
[0036] 本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本 發(fā)明的研宄和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。
【附圖說明】
[0037] 圖1為本發(fā)明所述的分類與所述的條目的關(guān)系的簡單示意圖;
[0038] 圖2為本發(fā)明英文維基百科數(shù)據(jù)下載頁面的示意圖;
[0039] 圖3為本發(fā)明中文維基百科數(shù)據(jù)下載頁面的示意圖;
[0040] 圖4為本發(fā)明所述的頁面基本信息數(shù)據(jù)表page的示意圖;
[0041] 圖5為本發(fā)明所述的條目重定向關(guān)系表redirect的示意圖;
[0042] 圖6為本發(fā)明所述的分類隸屬關(guān)系
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1