一種基于云計(jì)算的分布式搜索方法
【專利摘要】本發(fā)明公開一種基于云計(jì)算的分布式搜索方法,該方法包括通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件;通過分布式的并行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式;將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫(kù)中,建立文檔表數(shù)據(jù)庫(kù);由文檔表數(shù)據(jù)庫(kù)建立索引表也采用并行計(jì)算技術(shù),索引表格式也為自定義的格式;將索引文件導(dǎo)入索引數(shù)據(jù)庫(kù),為檢索器提供索引數(shù)據(jù);對(duì)檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。本發(fā)明的優(yōu)點(diǎn)是利用了分布式存儲(chǔ)和計(jì)算的特點(diǎn);改進(jìn)和優(yōu)化的排序算法,檢索結(jié)果更精準(zhǔn);采用了語義擴(kuò)展關(guān)鍵詞技術(shù),查詢結(jié)果更豐富。
【專利說明】一種基于云計(jì)算的分布式搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分布式的搜索方法,尤其是處理大數(shù)據(jù)下進(jìn)行快速檢索的基于云計(jì)算的分布式搜索方法。
【背景技術(shù)】
[0002]隨著Internet迅速發(fā)展,WWW(World Wide Web簡(jiǎn)稱WWW)已成為一個(gè)巨大的信息空間,為用戶提供了極具價(jià)值的信息資源。而面對(duì)大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準(zhǔn)確地從WWW上獲取所需信息,成為至關(guān)重要的問題。搜索引擎的出現(xiàn),大大提高了人們搜集信息的能力。然而,現(xiàn)有的搜索引擎在搜索效率、信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點(diǎn)、負(fù)載等方面還存在著問題和困難。
[0003]目前,從體系結(jié)構(gòu)上看,大部分搜索引擎是集中式的。即從Internet上取回頁面,經(jīng)過分析、處理后將所有的索引信息集中存儲(chǔ)在某個(gè)站點(diǎn),用戶通過訪問該站點(diǎn)實(shí)現(xiàn)查詢。它們之間通常沒有什么協(xié)作,各自獨(dú)立搜索和處理信息,造成了大量的重復(fù)工作和嚴(yán)重的帶寬浪費(fèi),有時(shí)甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴(kuò)大,業(yè)界已紛紛提出建立分布式搜索引擎的策略。
[0004]傳統(tǒng)的搜索引擎,即通用搜索引擎,在應(yīng)用中能夠?yàn)橛脩籼峁┐罅康乃阉鹘Y(jié)果,但是這些通用搜索引擎在追求返回更多信息的同時(shí),很難兼顧到搜索結(jié)果的準(zhǔn)確度和相關(guān)度,從而導(dǎo)致網(wǎng)頁覆蓋率較低、信息更新不及時(shí)等問題。由于傳統(tǒng)搜索引擎存在著覆蓋率有限,查準(zhǔn)率低,用戶相關(guān)性差的缺點(diǎn),而且行業(yè)用戶有著信息需求相對(duì)集中、分類更加精細(xì)的要求,通用搜索引擎缺乏足夠的導(dǎo)向作用。
[0005]傳統(tǒng)搜索引擎缺乏個(gè)性化的局限具體表現(xiàn)在:
(I)網(wǎng)絡(luò)數(shù)據(jù)海量性:網(wǎng)絡(luò)信息數(shù)量大覆蓋面廣,對(duì)這些數(shù)據(jù)的計(jì)算和存儲(chǔ)需要消耗很多的時(shí)間與存儲(chǔ)空間。
[0006](2)用戶差異性:用戶背景知識(shí)不同,各自對(duì)詞義的理解也不盡相同,對(duì)于相同的檢索詞不同用戶有不同的傾向。
[0007](3)檢索與時(shí)間相關(guān):用戶在不同時(shí)期或階段的同一檢索請(qǐng)求,所得到的仍是完全相同的檢索結(jié)果,對(duì)用戶不具有自適應(yīng)能力。
[0008](4)檢索詞的表達(dá):用戶由于領(lǐng)域知識(shí)的不足,而搜索引擎的查詢接口又具有局限性,從而無法準(zhǔn)確的實(shí)現(xiàn)用戶的搜索意圖。
[0009]因此,如何使用戶方便快捷的從海量的搜索結(jié)果中得到所需的信息,成為一個(gè)迫切需要解決的課題。
【發(fā)明內(nèi)容】
[0010]本發(fā)明所要解決的技術(shù)問題是要提供一種檢索結(jié)果更精準(zhǔn)的基于云計(jì)算的分布式搜索方法。
[0011]為了解決以上的技術(shù)問題,本發(fā)明提供了一種基于云計(jì)算的分布式搜索方法,該方法包括以下步驟:
步驟⑴:通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件,包括HTML、PPT、EXCEL、PDF文件;
步驟⑵:通過分布式的并行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式,提取其中的正文、標(biāo)題、作者等相關(guān)彳目息;
具體是:URL+標(biāo)題+解析時(shí)間+作者+來源+正文+pr值+類別+鏈接。
[0012]其中:url是網(wǎng)頁鏈接,標(biāo)題是網(wǎng)頁標(biāo)題,解析時(shí)間是指解析當(dāng)天日期,作者是指網(wǎng)頁作者,初始值為“未知”,來源是指網(wǎng)頁文檔來源,初始值為“未知”,正文是指網(wǎng)頁去掉html標(biāo)簽后的的正文內(nèi)容,Pr值指pagerank值,默認(rèn)為1,類別是指網(wǎng)頁的分類,默認(rèn)是0,鏈接是指網(wǎng)頁指向的鏈接,通過正則表達(dá)式篩選匹配,中間用空格連接。
[0013]步驟⑶:將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫(kù)中,建立文檔表數(shù)據(jù)庫(kù);
步驟⑷:由文檔表數(shù)據(jù)庫(kù)建立索引表也采用并行計(jì)算技術(shù),索引表格式也為自定義的
格式;
具體是:關(guān)鍵詞 +〃\007〃+url+” \t”+ 詞頻 +,,\t”+pr+” \t”+type。
[0014]其中:關(guān)鍵詞是倒排索引的檢索詞;url是文檔的鏈接;詞頻是關(guān)鍵詞在該文檔中出現(xiàn)的次數(shù);Pr值是文檔pagerank值;Time是解析時(shí)間;Type是文檔分類。
[0015]步驟(5):將索引文件導(dǎo)入索引數(shù)據(jù)庫(kù),為檢索器提供索引數(shù)據(jù);
步驟(6):對(duì)檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。
[0016]其中,所述的步驟⑴的爬取網(wǎng)絡(luò)文件包括以下步驟:
①設(shè)置初始爬取的網(wǎng)頁網(wǎng)址,由于網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁文件是一個(gè)遞歸的過程,為了取得更好的全網(wǎng)爬取效果,初始網(wǎng)頁url —般設(shè)置為導(dǎo)航網(wǎng)址;
②從步驟①中得到一個(gè)導(dǎo)航網(wǎng)站的頁面,通過解析該頁面,得到大量網(wǎng)站首頁;
③繼續(xù)解析這些首頁可以得到更多的網(wǎng)址,再重復(fù)此過程。
[0017]其中,所述的步驟⑷中的PageRank值計(jì)算方法如下:
R’(U)表示相似度,c=0.85 (這里的c為阻尼系數(shù)),Bv是指被研究的頁面,Nv是頁面V鏈出頁面的數(shù)量,N是指所有頁面,E(U)是指用戶停止點(diǎn)擊,跳轉(zhuǎn)到新URL的概率,計(jì)算方法如下:
【權(quán)利要求】
1.一種基于云計(jì)算的分布式搜索方法,該方法包括以下步驟: 步驟⑴:通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件; 步驟⑵:通過分布式的并行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式; 步驟⑶:將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫(kù)中,建立文檔表數(shù)據(jù)庫(kù); 步驟⑷:由文檔表數(shù)據(jù)庫(kù)建立索引表也采用并行計(jì)算技術(shù),索引表格式也為自定義的格式; 步驟(5):將索引文件導(dǎo)入索引數(shù)據(jù)庫(kù),為檢索器提供索引數(shù)據(jù); 步驟(6):對(duì)檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。
2.根據(jù)權(quán)利要求1所述的基于云計(jì)算的分布式搜索方法,其特征在于:所述的步驟⑴的爬取網(wǎng)絡(luò)文件包括以下步驟: ①設(shè)置初始爬取的網(wǎng)頁網(wǎng)址,由于網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁文件是一個(gè)遞歸的過程,為了取得更好的全網(wǎng)爬取效果,初始網(wǎng)頁url —般設(shè)置為導(dǎo)航網(wǎng)址; ②從步驟①中得到一個(gè)導(dǎo)航網(wǎng)站的頁面,通過解析該頁面,得到大量網(wǎng)站首頁; ③繼續(xù)解析這些首頁可以得到更多的網(wǎng)址,再重復(fù)此過程。
3.根據(jù)權(quán)利要求1所述的基于云計(jì)算的分布式搜索方法,其特征在于:所述的步驟⑷中的PageRank值計(jì)算方法如下: R’(U)表示相似度,c=0.85 (這里的c為阻尼系數(shù)),Bv是指被研究的頁面,Nv是頁面V鏈出頁面的數(shù)量,N是指所有頁面,E(U)是指用戶停止點(diǎn)擊,跳轉(zhuǎn)到新URL的概率,計(jì)算方法如下:
【文檔編號(hào)】G06F17/30GK103617174SQ201310536651
【公開日】2014年3月5日 申請(qǐng)日期:2013年11月4日 優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】向陽, 陳佑雄, 張依楊, 平宇, 張波, 袁書寒 申請(qǐng)人:同濟(jì)大學(xué)