亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng)的制作方法

文檔序號(hào):6637029閱讀:351來源:國知局
一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于開放知識(shí)抽取【技術(shù)領(lǐng)域】,具體為一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng)。該系統(tǒng)分為以下幾個(gè)模塊:百科數(shù)據(jù)爬取模塊,百科數(shù)據(jù)預(yù)處理模塊,相關(guān)實(shí)體搜索及排序模塊和實(shí)體聚類模塊。本發(fā)明的有益效果在于:領(lǐng)域百科的構(gòu)建目前大多為手工構(gòu)建,費(fèi)時(shí)費(fèi)力,且人工不可能發(fā)現(xiàn)所有相關(guān)實(shí)體,因此覆蓋率低;而以本發(fā)明找出的領(lǐng)域相關(guān)實(shí)體為基礎(chǔ)建立領(lǐng)域百科,能極大地減少領(lǐng)域百科的構(gòu)建的人力,并大幅提升覆蓋率。同時(shí),利用本發(fā)明系統(tǒng)所構(gòu)建出的領(lǐng)域百科,將極大地方便用戶獲取特定領(lǐng)域的知識(shí),省去了繁瑣地搜索及篩選過程,把“用戶被動(dòng)地搜索信息”變成了“系統(tǒng)主動(dòng)地提供信息”。
【專利說明】-種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng),屬于開放知識(shí)抽取技術(shù) 領(lǐng)域。

【背景技術(shù)】
[0002] 如今,很多在線百科類網(wǎng)站,如百度百科、Wikipedia等近年來不斷出現(xiàn),它們極大 地方便了用戶獲得信息。用戶可以在上面通過內(nèi)置的搜索引擎搜索所需要的信息。通常 來說,當(dāng)一個(gè)用戶查詢一個(gè)實(shí)體時(shí),他常常對(duì)與該實(shí)體相關(guān)的實(shí)體感興趣,或者搜索的目的 就直接是與一個(gè)實(shí)體相關(guān)的所有實(shí)體,例如希望搜索到和復(fù)旦大學(xué)相關(guān)的所有人物。而現(xiàn) 在的百科類網(wǎng)站中,并不能實(shí)現(xiàn)這一目的,例如搜索和復(fù)旦大學(xué)相關(guān)的所有人物,只能在復(fù) 旦大學(xué)對(duì)應(yīng)的網(wǎng)頁中,自己查找其中出現(xiàn)的人物,并自己判斷是否是與復(fù)旦大學(xué)相關(guān),并瀏 覽,或者直接查找含有"復(fù)旦大學(xué)"標(biāo)簽的實(shí)體,并篩選出其中是人物的實(shí)體。這些方法都 不能快速且完整地找出所需實(shí)體,因此迫切需要一個(gè)領(lǐng)域百科來供查詢一個(gè)領(lǐng)域下的所有 實(shí)體,即與領(lǐng)域?qū)嶓w相關(guān)的所有實(shí)體。
[0003] 當(dāng)前存在一些人工構(gòu)建的領(lǐng)域百科,不僅費(fèi)時(shí)費(fèi)力,而且數(shù)據(jù)正在呈爆炸式的增 長,人工構(gòu)建的速度將無法追趕上數(shù)據(jù)增長的速度,因?yàn)榧毙枰环N機(jī)器自動(dòng)構(gòu)建的方法。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明針對(duì)現(xiàn)在有百科數(shù)據(jù)知識(shí)零散,而人工構(gòu)建領(lǐng)域百科代價(jià)過高,不能大量 構(gòu)建的缺點(diǎn),提出了一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng)。。利用本發(fā)明的系統(tǒng)進(jìn)行 領(lǐng)域百科網(wǎng)站構(gòu)建時(shí),其首先利用分布式網(wǎng)絡(luò)爬蟲將互聯(lián)網(wǎng)上的開放百科網(wǎng)站數(shù)據(jù)爬取到 本地,然后對(duì)所爬取的數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)能夠更好地被利用,之后再針對(duì)特定領(lǐng)域, 搜索與之相關(guān)的實(shí)體詞條,并進(jìn)行相關(guān)度排序、聚類。
[0005] 本發(fā)明提供的一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng),由四大模塊組成:百 科數(shù)據(jù)爬取模塊、百科數(shù)據(jù)預(yù)處理模塊、相關(guān)實(shí)體搜索及排序模塊、實(shí)體聚類模塊;其中:
[0006] 百科數(shù)據(jù)爬取模塊,利用分布式網(wǎng)絡(luò)爬蟲將海量在線百科數(shù)據(jù)爬取到本地;
[0007] 百科數(shù)據(jù)預(yù)處理模塊,對(duì)網(wǎng)絡(luò)爬蟲所爬取到的頁面預(yù)處理;所述預(yù)處理依次包括 去噪、文字區(qū)域提取、分詞及詞頻處理統(tǒng)計(jì)和構(gòu)建索引這幾個(gè)步驟;
[0008] 相關(guān)實(shí)體搜索及排序模塊,在預(yù)處理后的頁面中搜索和一個(gè)領(lǐng)域相關(guān)的實(shí)體并按 相關(guān)度排序;
[0009] 實(shí)體聚類模塊,根據(jù)相關(guān)實(shí)體搜索及排序模塊結(jié)果,聚類同一個(gè)領(lǐng)域下的相似實(shí) 體。
[0010] 本發(fā)明的技術(shù)方案具體介紹如下。
[0011] 一、百科數(shù)據(jù)爬取模塊
[0012] 1. 1利用分布式網(wǎng)絡(luò)爬蟲爬取在線百科數(shù)據(jù)
[0013] 網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本。利用 網(wǎng)絡(luò)爬蟲,可以自動(dòng)爬取指定網(wǎng)站的數(shù)據(jù)。由于本發(fā)明需要用到海量地在線百科數(shù)據(jù)以構(gòu) 建出高質(zhì)量的領(lǐng)域百科,因此利用分布式地爬蟲來高效地爬取海量的在線百科數(shù)據(jù)。
[0014] 二、百科數(shù)據(jù)預(yù)處理模塊
[0015] 2.1去噪子模塊
[0016] 利用網(wǎng)絡(luò)爬蟲所爬取到的頁面,往往是頁面的源文件,里面有很多的噪聲,如各種 html標(biāo)簽,標(biāo)點(diǎn)符號(hào),亂碼等。這些噪聲將嚴(yán)重地影響數(shù)據(jù)的有效利用,因此需要將數(shù)據(jù)中 的噪聲去除,用預(yù)先定義好的一些正則表達(dá)式匹配噪聲數(shù)據(jù),并將它們刪除。經(jīng)過去噪處理 的數(shù)據(jù),質(zhì)量比沒有經(jīng)過去噪處理的數(shù)據(jù)有顯著的提高。
[0017] 2. 2文字區(qū)域提取子模塊
[0018] 本發(fā)明充分利用百科頁面中各個(gè)文字區(qū)域的特點(diǎn),將文字按區(qū)域提取。所謂文字 區(qū)域是指一個(gè)百科頁面中的標(biāo)題、摘要、屬性框(infobox)、正文和分類信息等。這些文字區(qū) 域各有其特點(diǎn),不能一概而論,要區(qū)別對(duì)待,例如對(duì)一個(gè)領(lǐng)域?qū)嶓w"復(fù)旦大學(xué)",那些實(shí)體頁 面的標(biāo)題中包含"復(fù)旦大學(xué)"的實(shí)體將與"復(fù)旦大學(xué)"密切相關(guān),如"復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技 術(shù)學(xué)院"。又例如,如果一個(gè)實(shí)體的摘要中包含了"復(fù)旦大學(xué)",那么該實(shí)體將比那些僅在正 文中包含"復(fù)旦大學(xué)"的實(shí)體與"復(fù)旦大學(xué)"的關(guān)系更為緊密。因此,不同的文字區(qū)域的重要 性是不一樣的,這正是符合用戶寫實(shí)體詞條頁面的習(xí)慣,例如通常來說會(huì)把重要的信息寫 在摘要中,如果現(xiàn)代戰(zhàn)爭實(shí)體詞條頁面的摘要中出現(xiàn)了領(lǐng)域?qū)嶓w,則該實(shí)體與領(lǐng)域?qū)嶓w很 有可能是密切相關(guān)的。為了充分利用不通文字區(qū)域的重要性不同,本發(fā)明在數(shù)據(jù)預(yù)處理后, 對(duì)每個(gè)實(shí)體詞條頁面按標(biāo)題、摘要、infobox、正文、分類信息這些區(qū)域提取出其中的文本數(shù) 據(jù)。
[0019] 每一個(gè)實(shí)體詞條頁面對(duì)應(yīng)著百科數(shù)據(jù)中的一個(gè)詞條,對(duì)每一個(gè)實(shí)體詞條頁面進(jìn)行 實(shí)體提取,以獲取百科數(shù)據(jù)中的所有實(shí)體集合,構(gòu)成一個(gè)詞典,為后面利用實(shí)體進(jìn)行分詞 做好準(zhǔn)備,同時(shí)也為后面通過實(shí)體名稱或者其id找到其對(duì)應(yīng)的頁面文件提供了便利。在 一個(gè)實(shí)體詞條頁面中,一般來說標(biāo)題就是該實(shí)體的名字或者包含該實(shí)體的名字,例如在百 度百科中,實(shí)體詞條頁面的標(biāo)題是如下的形式〈title〉實(shí)體名稱_百度百科〈/title〉,如 〈title〉復(fù)旦大學(xué)_百度百科〈/title〉。由于在同一個(gè)百科數(shù)據(jù)集中,每一個(gè)實(shí)體詞條的 標(biāo)題都符合同一格式,因此可以用正則表達(dá)式提取出實(shí)體名稱,對(duì)一個(gè)百科數(shù)據(jù)集中所有 頁面都提取出實(shí)體名稱,這就構(gòu)建出了一個(gè)百科實(shí)體集合,也即是要用來分詞的詞典。
[0020] 實(shí)體的分類信息是指描述一個(gè)實(shí)體屬于哪個(gè)類別的信息,例如對(duì)于實(shí)體"復(fù)旦大 學(xué)",其在百度百科中的分類信息是教育、學(xué)校、上海、大學(xué)、機(jī)構(gòu)等,分集信息對(duì)實(shí)體聚類有 著重要作用,因?yàn)樗枋鰧?shí)體的類別,有利于聚類算法將相似類別的實(shí)體聚到一類中,因 此分類信息的提取也是至關(guān)重要一步。與實(shí)體名稱類似,實(shí)體的分類信息在實(shí)體詞條頁 面中的格式也是比較固定的,例如在百度百科中,實(shí)體的分類信息是如下的形式:〈ahref =Vfenlei/ % E6 % 95 % 99 % E8 % 82 % B2"target = 〃_blank"class = 〃open-tag nsl〇g:7336〃>教育</a>,用正則表達(dá)式可以方便地提取出每個(gè)實(shí)體所對(duì)應(yīng)的分類信息。
[0021] 2. 3分詞及詞頻統(tǒng)計(jì)子模塊
[0022] 由于實(shí)體詞條頁面中的文本都是純文本,因此要對(duì)其進(jìn)行分詞,分解出其中所包 含的實(shí)體。目前主要有兩種比較常用的處理方法,一種是直接在實(shí)體詞條頁面中提取被鏈 接的實(shí)體,例如在"復(fù)旦大學(xué)"這個(gè)實(shí)體詞條頁面中,"211工程"是一個(gè)被鏈接的實(shí)體(即點(diǎn) 擊"211工程"時(shí),會(huì)跳轉(zhuǎn)到"211工程"所對(duì)應(yīng)的實(shí)體詞條頁面),"211工程"即被當(dāng)作"復(fù) 旦大學(xué)"這個(gè)實(shí)體詞條頁面中所包含的實(shí)體提取出來。還有一種方法是用分詞工具對(duì)實(shí)體 詞條頁面中的文本進(jìn)行分詞,這時(shí)分詞的結(jié)果就取決于所采用的分詞工具。第一種方法完 全依賴于用戶在編寫詞條的時(shí)候給實(shí)體添加的超鏈接,而用戶不可能對(duì)一個(gè)頁面中所有的 實(shí)體都添加超鏈接,所以采用第一種方法對(duì)實(shí)體詞條頁面進(jìn)行分詞會(huì)造成很多遺漏。而第 二種方法由于分詞工具獨(dú)立于百科數(shù)據(jù)集,因此分詞工具不能很好地判斷分詞的位置,以 至于會(huì)把那些比較長的實(shí)體分割,例如對(duì)于"復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院"這個(gè)實(shí)體,分詞工具很 可能會(huì)將其分割成"復(fù)旦大學(xué)、計(jì)算機(jī)、學(xué)院"三個(gè)實(shí)體,從而不能發(fā)現(xiàn)名稱較長的實(shí)體。
[0023] 本發(fā)明所采用的分詞方法避免了以上兩個(gè)問題,本發(fā)明以從百科數(shù)據(jù)集中抽取出 的實(shí)體名稱作為詞庫,對(duì)實(shí)體詞條頁面上出現(xiàn)的所有實(shí)體進(jìn)行識(shí)別,保證了不遺漏實(shí)體。同 時(shí),采用逆向最大匹配的方法進(jìn)行分詞,例如對(duì)于"復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院"這個(gè)實(shí)體,由于 "復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院"是一個(gè)百科中的實(shí)體,因此存在于詞庫中,雖然"復(fù)旦大學(xué)、計(jì)算機(jī)、 學(xué)院"分別也是實(shí)體,同樣也在詞庫中,但是由于匹配字?jǐn)?shù)不及"復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院",因 此不會(huì)把它分割成為"復(fù)旦大學(xué)、計(jì)算機(jī)、學(xué)院",大大提高了實(shí)體詞條頁面的分詞準(zhǔn)確性。
[0024] 在計(jì)算實(shí)體相關(guān)性的算法中,要用到一個(gè)實(shí)體在一個(gè)實(shí)體詞條頁面中所出現(xiàn)的次 數(shù),為了高效地利用這些信息,先要預(yù)先對(duì)每個(gè)頁面統(tǒng)計(jì)詞頻。前面提到,一個(gè)頁面是由若 干個(gè)區(qū)域組成的,如標(biāo)題、摘要、屬性框(infobox)等,這些不同的區(qū)域的權(quán)重是不一樣的, 因此在對(duì)一個(gè)實(shí)體詞條頁面統(tǒng)計(jì)詞頻時(shí),也是各種區(qū)域分別統(tǒng)計(jì)。
[0025] 2. 4索引構(gòu)建子模塊
[0026] 本系統(tǒng)中要多次查詢某個(gè)實(shí)體在哪些頁面中出現(xiàn)及頁面中出現(xiàn)次數(shù)等等,為了有 效地支持這些類似的查詢,本系統(tǒng)中采用Iucene開源搜索引擎來對(duì)分詞后的整個(gè)百科數(shù) 據(jù)集建立索引,索引單位為每個(gè)文檔的每個(gè)詞,該索引可以實(shí)現(xiàn)快速查詢一個(gè)實(shí)體在多少 文檔中出現(xiàn)、在哪些文檔中出現(xiàn)、多個(gè)實(shí)體的共現(xiàn)次數(shù)等等功能。
[0027] 三、相關(guān)實(shí)體搜索排序模塊
[0028] 3. 1候選實(shí)體搜索子模塊
[0029] 為了找到和一個(gè)領(lǐng)域?qū)嶓w相關(guān)的其他實(shí)體,首先找到頁面中包含領(lǐng)域?qū)嶓w或者領(lǐng) 域?qū)嶓w的同義實(shí)體的頁面,例如對(duì)于領(lǐng)域?qū)嶓w"復(fù)旦大學(xué)",則與它相關(guān)的候選實(shí)體為實(shí)體 頁面中包含"復(fù)旦大學(xué)"或者"復(fù)旦"的頁面,將這些頁面對(duì)應(yīng)的實(shí)體稱作候選實(shí)體,本發(fā)明 中將不包含領(lǐng)域?qū)嶓w的頁面對(duì)應(yīng)的實(shí)體看作是和領(lǐng)域?qū)嶓w不相關(guān)的實(shí)體。
[0030] 3. 2相關(guān)性度量子模塊
[0031] 本模塊用一個(gè)相關(guān)性度量函數(shù)衡量一個(gè)實(shí)體與查詢實(shí)體的相關(guān)性,相關(guān)的實(shí)體對(duì) 之間有些某些特征可以表明它們是有關(guān)系的,本發(fā)明中采用了下列特征:
[0032]

【權(quán)利要求】
1. 一種基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng),其特征在于由四大模塊組成:百科數(shù) 據(jù)爬取模塊、百科數(shù)據(jù)預(yù)處理模塊、相關(guān)實(shí)體搜索及排序模塊、實(shí)體聚類模塊;其中: 百科數(shù)據(jù)爬取模塊,利用分布式網(wǎng)絡(luò)爬蟲將海量在線百科數(shù)據(jù)爬取到本地; 百科數(shù)據(jù)預(yù)處理模塊,對(duì)網(wǎng)絡(luò)爬蟲所爬取到的頁面預(yù)處理;所述預(yù)處理依次包括去噪、 文字區(qū)域提取、分詞及詞頻處理統(tǒng)計(jì)和構(gòu)建索引這幾個(gè)步驟; 相關(guān)實(shí)體搜索及排序模塊,在預(yù)處理后的頁面中搜索和一個(gè)領(lǐng)域相關(guān)的實(shí)體并按相關(guān) 度排序; 實(shí)體聚類模塊,根據(jù)相關(guān)實(shí)體搜索及排序模塊結(jié)果,聚類同一個(gè)領(lǐng)域下的相似實(shí)體。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述百科數(shù)據(jù)預(yù)處理模塊由去噪子模塊、 文字區(qū)域提取子模塊、分詞及詞頻統(tǒng)計(jì)子模塊和索引構(gòu)建子模塊構(gòu)成;其中: 所述去噪子模塊,利用正則表達(dá)式匹配爬取到的百科原始頁面中的噪聲,并將噪聲去 除;所述噪聲包括各種html標(biāo)簽,標(biāo)點(diǎn)符號(hào)和亂碼; 所述文字區(qū)域提取子模塊,利用正則表達(dá)式將百科原始頁面中的各個(gè)區(qū)域文字分開提 ?。豁撁嬷械母鱾€(gè)區(qū)域包括標(biāo)題、摘要、屬性框、正文和分類信息; 所述分詞及詞頻統(tǒng)計(jì)子模塊,依次進(jìn)行如下工作: a) 利用文字區(qū)域提取子模塊中提取到的百科實(shí)體集合作為分詞時(shí)的詞典,采用逆向最 大匹配算法對(duì)提取出的純文本進(jìn)行分詞; b) 對(duì)一個(gè)頁面的分詞完成后,對(duì)各區(qū)域進(jìn)行詞頻統(tǒng)計(jì); 所述索引構(gòu)建子模塊,利用分詞結(jié)果對(duì)百科頁面構(gòu)建倒排索引。
3. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述相關(guān)實(shí)體搜索及排序模塊包含以下四 個(gè)子模塊: (1) 搜索候選實(shí)體子模塊,該子模塊搜索包含領(lǐng)域?qū)嶓w或者領(lǐng)域?qū)嶓w的同義實(shí)體的頁 面; (2) 相關(guān)性度量子模塊,該模塊綜合了來度量兩個(gè)實(shí)體的相關(guān)性的特征,為每個(gè)候選實(shí) 體計(jì)算特征值,然后用logistic形式的函數(shù)整合特征值得到候選實(shí)體與查詢實(shí)體的相關(guān) 性; (3) 參數(shù)訓(xùn)練子模塊,該子模塊依次進(jìn)行如下工作: a) 通過網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)搜索引擎中爬取一個(gè)查詢實(shí)體與其候選實(shí)體的共現(xiàn)情況,通 過計(jì)算PMI值確定相關(guān)性,以此來作為訓(xùn)練相關(guān)性度量函數(shù)中參數(shù)的訓(xùn)練集; b) 將(a)中所涉及到的候選實(shí)體提取特征,供訓(xùn)練時(shí)計(jì)算使用; c) 讀取訓(xùn)練數(shù)據(jù),通過基于學(xué)習(xí)排序的方法訓(xùn)練出參數(shù),即通過一些已有的實(shí)體之間 相關(guān)性的數(shù)據(jù),去學(xué)習(xí)出如何給別的實(shí)體進(jìn)行相關(guān)度排序; (4) 實(shí)體相關(guān)度排序子模塊,該模塊根據(jù)上面參數(shù)訓(xùn)練子模塊中訓(xùn)練出的相關(guān)度函數(shù) 的參數(shù),確定候選實(shí)體與查詢實(shí)體的相關(guān)性,并按相關(guān)性從大到小排序。
4. 根據(jù)權(quán)利要求1所述的基于通用百科網(wǎng)站的領(lǐng)域百科構(gòu)建系統(tǒng),其特征在于所述實(shí) 體聚類模塊包含相似性度量子模塊、實(shí)體相似性約束構(gòu)建子模塊以及半監(jiān)督聚類子模塊組 成;其中: 所述相似性度量子模塊,依次進(jìn)行如下工作: a)將從實(shí)體頁面中提取到的分類信息進(jìn)行分解,使得一些原來不能被精確匹配的分類 信息被近似匹配,而不是完全無法匹配,充分利用了實(shí)體分類信息; b) 在原始頁面中抽取對(duì)應(yīng)實(shí)體的IsA模式,將抽取到的模式中描述實(shí)體類別的關(guān)鍵 字用于擴(kuò)充實(shí)體原有的分類信息,使得實(shí)體的分類信息盡可能的詳細(xì),有助于提高分類效 果; c) 將上述的分類信息按關(guān)鍵字出現(xiàn)頻率構(gòu)成一個(gè)向量,通過計(jì)算該向量的余弦相似度 來度量兩實(shí)體之間的相似性; 所述實(shí)體相似性約束構(gòu)建子模塊,依次進(jìn)行如下工作: a) 利用Washall算法從人工給出的約束中計(jì)算傳遞閉包,得到所有must-link的實(shí)體 對(duì); b) 從人工給出的約束中計(jì)算所有cannot-link實(shí)體對(duì); 所述半監(jiān)督聚類子模塊,以最小化違背約束的代價(jià)為原則,將實(shí)體聚類;該子模塊按參 數(shù)訓(xùn)練子模塊中所得到的實(shí)體相關(guān)度排序結(jié)果,按相關(guān)度從高到低將實(shí)體聚類,有利于形 成初始的高質(zhì)量簇;該子模塊依次進(jìn)行如下工作: a) 從約束集中讀取約束,并根據(jù)約束形成初始的類簇; b) 根據(jù)實(shí)體相關(guān)度排序結(jié)果,按相關(guān)度從高到低將讀入實(shí)體,將實(shí)體聚類,將實(shí)體聚到 這樣一個(gè)類中,使得聚到該類后,比聚到其它類的代價(jià)要??; c) 重新把實(shí)體聚類,即將一個(gè)實(shí)體先從當(dāng)前的類中排除,然后將它歸到當(dāng)前情況下,所 造成代價(jià)最小的那個(gè)類中; d) 重復(fù)c) 一定次數(shù)得到最終聚類結(jié)果。
【文檔編號(hào)】G06F17/30GK104408148SQ201410723613
【公開日】2015年3月11日 申請(qǐng)日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】覃華崢, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1