一種基于云計(jì)算的分布式搜索方法

文檔序號(hào)：6517693閱讀：257來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于云計(jì)算的分布式搜索方法
【專利摘要】本發(fā)明公開一種基于云計(jì)算的分布式搜索方法，該方法包括通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件；通過分布式的并行抽取解析爬蟲所爬取到的文件，抽取格式為自定義的文檔表格式；將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫(kù)中，建立文檔表數(shù)據(jù)庫(kù)；由文檔表數(shù)據(jù)庫(kù)建立索引表也采用并行計(jì)算技術(shù)，索引表格式也為自定義的格式；將索引文件導(dǎo)入索引數(shù)據(jù)庫(kù)，為檢索器提供索引數(shù)據(jù)；對(duì)檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。本發(fā)明的優(yōu)點(diǎn)是利用了分布式存儲(chǔ)和計(jì)算的特點(diǎn)；改進(jìn)和優(yōu)化的排序算法，檢索結(jié)果更精準(zhǔn)；采用了語義擴(kuò)展關(guān)鍵詞技術(shù)，查詢結(jié)果更豐富。
【專利說明】一種基于云計(jì)算的分布式搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分布式的搜索方法，尤其是處理大數(shù)據(jù)下進(jìn)行快速檢索的基于云計(jì)算的分布式搜索方法。
【背景技術(shù)】
[0002]隨著Internet迅速發(fā)展,WWW(World Wide Web簡(jiǎn)稱WWW)已成為一個(gè)巨大的信息空間，為用戶提供了極具價(jià)值的信息資源。而面對(duì)大量的信息資源，通過瀏覽器一步步瀏覽已十分不便，如何快捷、準(zhǔn)確地從WWW上獲取所需信息，成為至關(guān)重要的問題。搜索引擎的出現(xiàn)，大大提高了人們搜集信息的能力。然而，現(xiàn)有的搜索引擎在搜索效率、信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點(diǎn)、負(fù)載等方面還存在著問題和困難。
[0003]目前，從體系結(jié)構(gòu)上看，大部分搜索引擎是集中式的。即從Internet上取回頁面，經(jīng)過分析、處理后將所有的索引信息集中存儲(chǔ)在某個(gè)站點(diǎn)，用戶通過訪問該站點(diǎn)實(shí)現(xiàn)查詢。它們之間通常沒有什么協(xié)作，各自獨(dú)立搜索和處理信息，造成了大量的重復(fù)工作和嚴(yán)重的帶寬浪費(fèi)，有時(shí)甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴(kuò)大，業(yè)界已紛紛提出建立分布式搜索引擎的策略。
[0004]傳統(tǒng)的搜索引擎，即通用搜索引擎，在應(yīng)用中能夠?yàn)橛脩籼峁┐罅康乃阉鹘Y(jié)果，但是這些通用搜索引擎在追求返回更多信息的同時(shí)，很難兼顧到搜索結(jié)果的準(zhǔn)確度和相關(guān)度，從而導(dǎo)致網(wǎng)頁覆蓋率較低、信息更新不及時(shí)等問題。由于傳統(tǒng)搜索引擎存在著覆蓋率有限，查準(zhǔn)率低，用戶相關(guān)性差的缺點(diǎn)，而且行業(yè)用戶有著信息需求相對(duì)集中、分類更加精細(xì)的要求，通用搜索引擎缺乏足夠的導(dǎo)向作用。
[0005]傳統(tǒng)搜索引擎缺乏個(gè)性化的局限具體表現(xiàn)在:
(I)網(wǎng)絡(luò)數(shù)據(jù)海量性:網(wǎng)絡(luò)信息數(shù)量大覆蓋面廣，對(duì)這些數(shù)據(jù)的計(jì)算和存儲(chǔ)需要消耗很多的時(shí)間與存儲(chǔ)空間。
[0006](2)用戶差異性:用戶背景知識(shí)不同，各自對(duì)詞義的理解也不盡相同，對(duì)于相同的檢索詞不同用戶有不同的傾向。
[0007](3)檢索與時(shí)間相關(guān):用戶在不同時(shí)期或階段的同一檢索請(qǐng)求，所得到的仍是完全相同的檢索結(jié)果，對(duì)用戶不具有自適應(yīng)能力。
[0008](4)檢索詞的表達(dá):用戶由于領(lǐng)域知識(shí)的不足，而搜索引擎的查詢接口又具有局限性，從而無法準(zhǔn)確的實(shí)現(xiàn)用戶的搜索意圖。
[0009]因此，如何使用戶方便快捷的從海量的搜索結(jié)果中得到所需的信息，成為一個(gè)迫切需要解決的課題。

【發(fā)明內(nèi)容】

[0010]本發(fā)明所要解決的技術(shù)問題是要提供一種檢索結(jié)果更精準(zhǔn)的基于云計(jì)算的分布式搜索方法。
[0011]為了解決以上的技術(shù)問題，本發(fā)明提供了一種基于云計(jì)算的分布式搜索方法，該方法包括以下步驟:
步驟⑴:通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件，包括HTML、PPT、EXCEL、PDF文件；
步驟⑵:通過分布式的并行抽取解析爬蟲所爬取到的文件，抽取格式為自定義的文檔表格式，提取其中的正文、標(biāo)題、作者等相關(guān)彳目息；
具體是:URL+標(biāo)題+解析時(shí)間+作者+來源+正文+pr值+類別+鏈接。
[0012]其中:url是網(wǎng)頁鏈接，標(biāo)題是網(wǎng)頁標(biāo)題，解析時(shí)間是指解析當(dāng)天日期，作者是指網(wǎng)頁作者，初始值為“未知”，來源是指網(wǎng)頁文檔來源，初始值為“未知”，正文是指網(wǎng)頁去掉html標(biāo)簽后的的正文內(nèi)容，Pr值指pagerank值，默認(rèn)為1，類別是指網(wǎng)頁的分類，默認(rèn)是0，鏈接是指網(wǎng)頁指向的鏈接，通過正則表達(dá)式篩選匹配，中間用空格連接。
[0013]步驟⑶:將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫(kù)中，建立文檔表數(shù)據(jù)庫(kù)；
步驟⑷:由文檔表數(shù)據(jù)庫(kù)建立索引表也采用并行計(jì)算技術(shù)，索引表格式也為自定義的
格式；
具體是:關(guān)鍵詞 +〃\007〃+url+” \t”+ 詞頻 +，，\t”+pr+” \t”+type。
[0014]其中:關(guān)鍵詞是倒排索引的檢索詞；url是文檔的鏈接；詞頻是關(guān)鍵詞在該文檔中出現(xiàn)的次數(shù)；Pr值是文檔pagerank值；Time是解析時(shí)間；Type是文檔分類。
[0015]步驟(5):將索引文件導(dǎo)入索引數(shù)據(jù)庫(kù)，為檢索器提供索引數(shù)據(jù)；
步驟(6):對(duì)檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。
[0016]其中，所述的步驟⑴的爬取網(wǎng)絡(luò)文件包括以下步驟:
①設(shè)置初始爬取的網(wǎng)頁網(wǎng)址，由于網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁文件是一個(gè)遞歸的過程，為了取得更好的全網(wǎng)爬取效果，初始網(wǎng)頁url —般設(shè)置為導(dǎo)航網(wǎng)址；
②從步驟①中得到一個(gè)導(dǎo)航網(wǎng)站的頁面，通過解析該頁面，得到大量網(wǎng)站首頁；
③繼續(xù)解析這些首頁可以得到更多的網(wǎng)址，再重復(fù)此過程。
[0017]其中,所述的步驟⑷中的PageRank值計(jì)算方法如下:
R’(U)表示相似度，c=0.85 (這里的c為阻尼系數(shù))，Bv是指被研究的頁面，Nv是頁面V鏈出頁面的數(shù)量，N是指所有頁面，E(U)是指用戶停止點(diǎn)擊，跳轉(zhuǎn)到新URL的概率，計(jì)算方法如下:
【權(quán)利要求】
1.一種基于云計(jì)算的分布式搜索方法，該方法包括以下步驟: 步驟⑴:通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件；步驟⑵:通過分布式的并行抽取解析爬蟲所爬取到的文件，抽取格式為自定義的文檔表格式；步驟⑶:將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫(kù)中，建立文檔表數(shù)據(jù)庫(kù)；步驟⑷:由文檔表數(shù)據(jù)庫(kù)建立索引表也采用并行計(jì)算技術(shù)，索引表格式也為自定義的格式；步驟(5):將索引文件導(dǎo)入索引數(shù)據(jù)庫(kù)，為檢索器提供索引數(shù)據(jù)；步驟(6):對(duì)檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。
2.根據(jù)權(quán)利要求1所述的基于云計(jì)算的分布式搜索方法，其特征在于:所述的步驟⑴的爬取網(wǎng)絡(luò)文件包括以下步驟: ①設(shè)置初始爬取的網(wǎng)頁網(wǎng)址，由于網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁文件是一個(gè)遞歸的過程，為了取得更好的全網(wǎng)爬取效果，初始網(wǎng)頁url —般設(shè)置為導(dǎo)航網(wǎng)址； ②從步驟①中得到一個(gè)導(dǎo)航網(wǎng)站的頁面，通過解析該頁面，得到大量網(wǎng)站首頁； ③繼續(xù)解析這些首頁可以得到更多的網(wǎng)址，再重復(fù)此過程。
3.根據(jù)權(quán)利要求1所述的基于云計(jì)算的分布式搜索方法，其特征在于:所述的步驟⑷中的PageRank值計(jì)算方法如下: R’(U)表示相似度，c=0.85 (這里的c為阻尼系數(shù))，Bv是指被研究的頁面，Nv是頁面V鏈出頁面的數(shù)量，N是指所有頁面，E(U)是指用戶停止點(diǎn)擊，跳轉(zhuǎn)到新URL的概率，計(jì)算方法如下:
【文檔編號(hào)】G06F17/30GK103617174SQ201310536651
【公開日】2014年3月5日申請(qǐng)日期:2013年11月4日優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】向陽, 陳佑雄, 張依楊, 平宇, 張波, 袁書寒申請(qǐng)人:同濟(jì)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：向陽;陳佑雄;張依楊;平宇;張波;袁書寒
技術(shù)所有人：同濟(jì)大學(xué)
我是此專利的發(fā)明人

上一篇：基于云計(jì)算的金融數(shù)據(jù)挖掘方法
上一篇：一種漢字編碼方法及輸入鍵盤的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

云計(jì)算與分布式系統(tǒng)相關(guān)技術(shù)

分布式云計(jì)算相關(guān)技術(shù)

分布式計(jì)算與云計(jì)算相關(guān)技術(shù)

云計(jì)算和分布式計(jì)算相關(guān)技術(shù)

云計(jì)算分布式存儲(chǔ)相關(guān)技術(shù)

分布式系統(tǒng)和云計(jì)算相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于云計(jì)算的分布式搜索方法