亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

私有云搜索系統(tǒng)及其實(shí)現(xiàn)方法

文檔序號(hào):6433329閱讀:244來(lái)源:國(guó)知局

專利名稱::私有云搜索系統(tǒng)及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域
:本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎技術(shù),尤其涉及一種私有云搜索系統(tǒng)及其實(shí)現(xiàn)方法。
背景技術(shù)
:當(dāng)前互聯(lián)網(wǎng)搜索服務(wù)基本以網(wǎng)站的方式來(lái)提供,且提供搜索服務(wù)的網(wǎng)站有兩類一類是專業(yè)的搜索引擎網(wǎng)站,這類網(wǎng)站為用戶準(zhǔn)備了所有網(wǎng)站的所有內(nèi)容,然后只需要用戶鍵入關(guān)鍵字后,即可得到搜索的結(jié)果。這種大海撈針式的搜索首先是利用網(wǎng)絡(luò)蜘蛛爬蟲技術(shù),抓取大量網(wǎng)頁(yè)為瀏覽者準(zhǔn)備海量的資料,然后對(duì)資料進(jìn)行內(nèi)容或行業(yè)分類,利用分詞技術(shù),按內(nèi)容新穎程度、點(diǎn)擊量分級(jí),將網(wǎng)頁(yè)保存在數(shù)據(jù)庫(kù)中供用戶搜索。這種搜索的特點(diǎn)是范圍廣泛、內(nèi)容龐雜,對(duì)技術(shù)的要求和硬件設(shè)備的要求較高,且資金投入大,雖能滿足所有人的基本需要,但搜索結(jié)果往往并不能令人滿意。由于其信息更新不夠及時(shí),搜索引擎對(duì)各個(gè)網(wǎng)站的搜索只能用統(tǒng)一的一個(gè)或多個(gè)關(guān)鍵字過(guò)濾,無(wú)法實(shí)現(xiàn)對(duì)不同網(wǎng)站個(gè)性化定制搜索。另一類是各種行業(yè)的專用網(wǎng)站,如商務(wù)網(wǎng)站、新聞網(wǎng)站等。這類專用網(wǎng)站大多都提供搜索入口,并提供多種不同的搜索過(guò)濾條件,其針對(duì)本網(wǎng)站的站內(nèi)搜索數(shù)據(jù)是準(zhǔn)確的,但是存在數(shù)據(jù)量有限、可比較選擇的范圍有限等不足,同樣難以令人滿意。所有搜索實(shí)質(zhì)上都是字符匹配,前者是在一個(gè)龐雜無(wú)序的緩存空間數(shù)據(jù)庫(kù)內(nèi)進(jìn)行檢索,而后者是在專業(yè)有序的數(shù)據(jù)庫(kù)內(nèi)進(jìn)行。
發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種私有云搜索系統(tǒng)及其實(shí)現(xiàn)方法,能夠根據(jù)用戶的需要,由用戶自己定制各網(wǎng)站的不同搜索條件或代為定制搜索條件然后再進(jìn)行搜索,以實(shí)現(xiàn)個(gè)性化的針對(duì)性搜索,提高搜索精準(zhǔn)度和提高搜索效率。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種私有云搜索系統(tǒng),包括瀏覽器,該私有云搜索系統(tǒng)還包括網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊和數(shù)據(jù)過(guò)濾篩選模塊;所述瀏覽器中,進(jìn)一步包括人工瀏覽網(wǎng)頁(yè)模塊和機(jī)器瀏覽網(wǎng)頁(yè)模塊,或者僅包括機(jī)器瀏覽網(wǎng)頁(yè)模塊;其中機(jī)器瀏覽網(wǎng)頁(yè)模塊,用于根據(jù)搜索的廣度在選擇的網(wǎng)址范圍內(nèi)抓取網(wǎng)頁(yè),或根據(jù)有無(wú)搜索關(guān)鍵字,選取不同的搜索鏈接,根據(jù)查詢模板生成搜索請(qǐng)求和抓取網(wǎng)頁(yè),并根據(jù)搜索結(jié)果設(shè)定搜索深度;網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊,根據(jù)需要提取網(wǎng)頁(yè)上的本站鏈接、站外鏈接、本站圖片鏈接并分類保存到數(shù)據(jù)庫(kù)中;用于判斷網(wǎng)頁(yè)上的是否有填充表單、表單如何設(shè)計(jì)組織,并根據(jù)用戶需要輸出能反映表單設(shè)計(jì)內(nèi)容的字串記錄,并根據(jù)需要保存到數(shù)據(jù)庫(kù)中;提供人工輔助提取當(dāng)前網(wǎng)頁(yè)上的網(wǎng)址并分類篩選網(wǎng)址功能,保存到數(shù)據(jù)庫(kù)中;自動(dòng)提取鼠標(biāo)點(diǎn)擊位置處的網(wǎng)址鏈接,以及在提交網(wǎng)頁(yè)請(qǐng)求時(shí),記錄提交請(qǐng)求的數(shù)據(jù)格式;數(shù)據(jù)過(guò)濾篩選模塊,根據(jù)行業(yè)信息的特點(diǎn),設(shè)定數(shù)據(jù)篩選條件和關(guān)鍵字集;分析網(wǎng)頁(yè)代碼特征分割代碼,提取文字段落;根據(jù)文字段落和多關(guān)鍵字查詢,實(shí)現(xiàn)語(yǔ)義塊有效性判斷;以及根據(jù)有效性大小,篩選保存數(shù)據(jù)。其中,所述網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊作為所述瀏覽器的插件進(jìn)行使用,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行分析和記憶功能;或與本系統(tǒng)自帶的專用瀏覽器作為一個(gè)整體安裝在各種不同的操作系統(tǒng)環(huán)境中使用。所述瀏覽器為通用瀏覽器,即為具有網(wǎng)頁(yè)下載,網(wǎng)頁(yè)渲染,網(wǎng)頁(yè)顯示等功能的網(wǎng)絡(luò)工具,可以是現(xiàn)有的任何一種網(wǎng)絡(luò)瀏覽器,如IE、Netscape、GoogleChrome、Mac、Firefox、Maxthon、Opera、TheWorlcUSogou、TT、baidu、360、用瀏覽器中的任一種或?yàn)樵谒鰹g覽器的基礎(chǔ)上開發(fā)的其他瀏覽器。一種私有云搜索系統(tǒng)的實(shí)現(xiàn)方法,該方法包括如下步驟A、用戶自選網(wǎng)站參與搜索,按行業(yè)和內(nèi)容選擇網(wǎng)站,并進(jìn)行分類,建立私有云信息源數(shù)據(jù)庫(kù);B、利用網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊,抓取信息源上的網(wǎng)頁(yè),并分析過(guò)濾網(wǎng)頁(yè)鏈接,通過(guò)鏈接文字找到搜索入口,進(jìn)一步通過(guò)模塊分析入口表單結(jié)構(gòu),然后根據(jù)上述的表單結(jié)構(gòu)的記錄生成查詢模板,在具體搜索查詢時(shí),依次替換關(guān)鍵字或搜索條件生成搜索請(qǐng)求,將此表單結(jié)構(gòu)或查詢模板保存到信息源查詢接口模板數(shù)據(jù)庫(kù)中,即建立私有云信息源搜索查詢接口模板數(shù)據(jù)庫(kù);C、在準(zhǔn)備好上述私有云信息源數(shù)據(jù)庫(kù)和信息源查詢接口模板數(shù)據(jù)庫(kù)后,設(shè)置搜索參數(shù)開始進(jìn)行搜索,并在用戶通過(guò)某個(gè)界面提交搜索請(qǐng)求后,系統(tǒng)直接根據(jù)用戶自己定制的搜索條件和用戶提供的關(guān)鍵字生成針對(duì)不同網(wǎng)站的搜索請(qǐng)求,按網(wǎng)站排序?qū)⒋怂阉髡?qǐng)求提交給不同的網(wǎng)站,這些網(wǎng)站通過(guò)他們各自開放的數(shù)據(jù)庫(kù)查詢功能進(jìn)行篩選搜索。較佳地,所述步驟C之后進(jìn)一步包括D、將此過(guò)程中對(duì)各網(wǎng)站的搜索做日志記錄,以便調(diào)整搜索條件和搜索范圍,根據(jù)日志的記錄,將搜索沒(méi)有結(jié)果的網(wǎng)站,重新進(jìn)行查詢接口設(shè)置,將實(shí)在沒(méi)有需要的內(nèi)容的網(wǎng)站刪除或排后,將結(jié)果中新記錄較少的網(wǎng)站排后,記錄多的排前,或增加抓取頻率。較佳地,所述步驟C或步驟D之后進(jìn)一步包括E、針對(duì)不同行業(yè)數(shù)據(jù)內(nèi)容及關(guān)鍵字提供不同的算法進(jìn)一步實(shí)現(xiàn)過(guò)濾,最終得到經(jīng)過(guò)嚴(yán)密篩選的數(shù)據(jù),然后將這些從不同網(wǎng)站上得到的數(shù)據(jù)按照統(tǒng)一的結(jié)構(gòu)保存到數(shù)據(jù)庫(kù)里,實(shí)現(xiàn)數(shù)據(jù)的聚合。其中,步驟C進(jìn)一步包括Cl、設(shè)置搜索參數(shù),包括通過(guò)系統(tǒng)界面提供的交互設(shè)置、用戶提供搜索范圍即搜索廣度、搜索模式、搜索關(guān)鍵字和搜索深度參數(shù);C2、啟動(dòng)搜索,該系統(tǒng)則根據(jù)搜索廣度參數(shù),按照優(yōu)先級(jí),依次提取私有云信息源URL;C3、然后通過(guò)信息源查詢接口模板數(shù)據(jù)庫(kù)查找相應(yīng)的查詢接口,根據(jù)設(shè)置的搜索模式和設(shè)置的關(guān)鍵字的有無(wú),生成針對(duì)信息源查詢的搜索請(qǐng)求,并提交給相應(yīng)的網(wǎng)站,若沒(méi)有關(guān)鍵字,則直接提交給信息源服務(wù)器;C4、利用網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)抓取網(wǎng)頁(yè),但限制爬蟲模塊抓取網(wǎng)頁(yè)范圍在用戶步驟A、步驟B里設(shè)定的范圍內(nèi),且不是全站抓取網(wǎng)頁(yè),而是有搜索條件的數(shù)據(jù)庫(kù)查詢,根據(jù)搜索深度參數(shù)設(shè)置來(lái)決定爬蟲抓取頁(yè)數(shù)的多少,其搜索結(jié)果均為經(jīng)過(guò)網(wǎng)站數(shù)據(jù)庫(kù)過(guò)濾后的查詢結(jié)果;C5、以先前搜索的結(jié)果為依據(jù),保留最新出現(xiàn)的信息鏈接;如果有關(guān)鍵字,對(duì)抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行關(guān)鍵字匹配,并保存最新的信息連接;若無(wú)沒(méi)關(guān)鍵字也直接保存,以備后續(xù)抓取鏈接內(nèi)容時(shí)進(jìn)一步判斷篩選;C6、根據(jù)行業(yè)內(nèi)容特征,進(jìn)行多關(guān)鍵字查詢,找到針對(duì)于該行業(yè)的數(shù)據(jù)過(guò)濾篩選規(guī)則,利用所述篩選規(guī)則產(chǎn)生相應(yīng)的算法對(duì)網(wǎng)頁(yè)編排結(jié)構(gòu)實(shí)現(xiàn)語(yǔ)義塊的判斷,利用多關(guān)鍵字實(shí)現(xiàn)語(yǔ)義篩選。本發(fā)明所提供的私有云搜索系統(tǒng)及其實(shí)現(xiàn)方法,具有以下優(yōu)點(diǎn)采用該云搜索系統(tǒng)及實(shí)現(xiàn)方法,能夠?qū)崿F(xiàn)精準(zhǔn)搜索、實(shí)時(shí)搜索的目的,實(shí)現(xiàn)不同網(wǎng)站相似內(nèi)容的數(shù)據(jù)整合、數(shù)據(jù)比較篩選以及數(shù)據(jù)統(tǒng)計(jì)分析。比如,某行業(yè)的大型企業(yè),可利用本發(fā)明的私有云搜索系統(tǒng)實(shí)現(xiàn)本行業(yè)全國(guó)或全球范圍內(nèi)的供求信息的數(shù)據(jù)采集、挖掘整合、實(shí)現(xiàn)本行業(yè)的新聞采集以及數(shù)據(jù)篩選過(guò)濾。對(duì)及時(shí)把握行業(yè)發(fā)展?fàn)顩r,市場(chǎng)行情分析提供極有價(jià)值的參考。圖1為本發(fā)明私有云搜索系統(tǒng)的各模塊的功能框圖2為本發(fā)明的云搜索系統(tǒng)對(duì)網(wǎng)頁(yè)分析記憶建立私有云信息源URL數(shù)據(jù)庫(kù)的過(guò)程圖;圖3為本發(fā)明的云搜索系統(tǒng)建立私有云信息源URL查詢接口模塊數(shù)據(jù)庫(kù)的過(guò)程圖;圖4為本發(fā)明的云搜索系統(tǒng)的搜索過(guò)程示意圖;圖5為根據(jù)搜索日志反饋調(diào)整搜索條件和范圍的方法示意圖;圖6為本發(fā)明私有云搜索的數(shù)據(jù)篩選過(guò)濾整合過(guò)程示意圖。具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的私有云搜索系統(tǒng)和方法作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明的基本思想是利用該私有云搜索系統(tǒng)為特定用戶提供的云搜索服務(wù),由用戶提供搜索范圍(即搜索什么網(wǎng)站),利用各網(wǎng)站提供的開放式搜索接口(即各網(wǎng)站提供的有搜索功能的頁(yè)面),由用戶定制搜索條件從這些有效范圍內(nèi)的網(wǎng)站中進(jìn)行數(shù)據(jù)庫(kù)搜索,再利用定制的行業(yè)專用的算法,實(shí)現(xiàn)不同網(wǎng)站的數(shù)據(jù)整合、數(shù)據(jù)比較篩選、數(shù)據(jù)統(tǒng)計(jì)分析等服務(wù)。為實(shí)現(xiàn)精準(zhǔn)、實(shí)時(shí)、全面的搜索,本發(fā)明將
背景技術(shù)
中所述的專業(yè)搜索引擎與行業(yè)商務(wù)網(wǎng)站的兩種搜索原理結(jié)合起來(lái),既保證用戶搜索的廣度,同時(shí)保證用戶搜索的精準(zhǔn)度。圖1為本發(fā)明私有云搜索系統(tǒng)的各模塊的功能框圖,如圖1所示,該云搜索系統(tǒng)主要包括瀏覽器、網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊和數(shù)據(jù)過(guò)濾篩選模塊;其中,瀏覽器包含人工瀏覽網(wǎng)頁(yè)模塊和/或機(jī)器瀏覽網(wǎng)頁(yè)模塊,所述機(jī)器瀏覽網(wǎng)頁(yè)模塊,又稱“爬蟲模塊”。這里,所述瀏覽器,即為具有網(wǎng)頁(yè)下載,網(wǎng)頁(yè)渲染,網(wǎng)頁(yè)顯示等功能的網(wǎng)絡(luò)工具軟件,所述瀏覽器可以是現(xiàn)有的任何一種網(wǎng)絡(luò)瀏覽器,如IE、Netscape,GoogleChrome,Mac、Firefox、Maxthon,Opera、ThefforId,Sogou、TT、Baidu、360、IQ瀏覽器等;也可以采用本發(fā)明自帶的專用瀏覽器。本發(fā)明的私有云搜索系統(tǒng)既可與上述現(xiàn)有的瀏覽器捆綁使用,如,可以利用所述網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊作為所述瀏覽器的插件,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行分析和記憶功能,還可以是在所述瀏覽器基礎(chǔ)上開發(fā)的其他瀏覽器;也可與本發(fā)明自帶的專用瀏覽器作為一個(gè)整體安裝在各種不同操作系統(tǒng)環(huán)境中使用。所述人工瀏覽網(wǎng)頁(yè)模塊、機(jī)器瀏覽網(wǎng)頁(yè)模塊與瀏覽器通過(guò)相應(yīng)的程序接口相連,即可通過(guò)與網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊和數(shù)據(jù)篩選過(guò)濾模塊的配合實(shí)現(xiàn)本發(fā)明的針對(duì)不同搜索需求進(jìn)行數(shù)據(jù)采集、挖掘、整合,進(jìn)而得到滿意的搜索結(jié)果的目的。所述機(jī)器瀏覽網(wǎng)頁(yè)模塊即爬蟲模塊,有以下特點(diǎn)能夠根據(jù)搜索的廣度,只在選擇的網(wǎng)址范圍內(nèi)抓取網(wǎng)頁(yè);能夠根據(jù)有無(wú)搜索關(guān)鍵字,選擇不同的搜索鏈接,根據(jù)查詢模板生成搜索請(qǐng)求和抓取網(wǎng)頁(yè);并根據(jù)搜索結(jié)果的有效性,設(shè)定搜索深度,不無(wú)限抓取。所述網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊的特點(diǎn)在于,其具有瀏覽器的基本瀏覽功能,即根據(jù)網(wǎng)址下載網(wǎng)頁(yè)、瀏覽網(wǎng)頁(yè)??梢愿鶕?jù)需要提取網(wǎng)頁(yè)上的本站鏈接,站外鏈接,本站圖片鏈接并分類保存到數(shù)據(jù)庫(kù)中??梢耘袛嗑W(wǎng)頁(yè)上的是否有填充表單,表單如何設(shè)計(jì)組織,并根據(jù)用戶需要輸出能反映表單設(shè)計(jì)內(nèi)容的字串記錄,并根據(jù)需要保存到數(shù)據(jù)庫(kù)中。提供人工輔助提取當(dāng)前網(wǎng)頁(yè)上的網(wǎng)址并分類篩選網(wǎng)址功能,保存到數(shù)據(jù)庫(kù)中。自動(dòng)提取鼠標(biāo)點(diǎn)擊位置處的網(wǎng)址鏈接。在提交網(wǎng)頁(yè)請(qǐng)求時(shí),還可以記錄提交請(qǐng)求的數(shù)據(jù)格式。所述數(shù)據(jù)過(guò)濾篩選模塊,具有如下特點(diǎn)根據(jù)行業(yè)信息的特點(diǎn),設(shè)定數(shù)據(jù)篩選條件和關(guān)鍵字集;分析網(wǎng)頁(yè)代碼特征如div,table等分割代碼,提取文字段落;根據(jù)文字段落和多關(guān)鍵字查詢,實(shí)現(xiàn)語(yǔ)義塊有效性判斷;以及根據(jù)有效性大小,篩選保存數(shù)據(jù)。私有云搜索,主要是通過(guò)網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊輕松實(shí)現(xiàn)用戶自定搜索范圍,搜索條件設(shè)置等,使得一個(gè)非常繁雜的計(jì)算的前期準(zhǔn)備工作,從操作上變得簡(jiǎn)單。然后利用爬蟲程序模塊抓取需要的網(wǎng)頁(yè),最后利用本發(fā)明的數(shù)據(jù)過(guò)濾篩選模塊對(duì)網(wǎng)頁(yè)代碼進(jìn)行結(jié)構(gòu)分割、多關(guān)鍵詞搜索等,實(shí)現(xiàn)語(yǔ)義塊判斷、過(guò)濾及篩選,最后再保存到數(shù)據(jù)庫(kù)中實(shí)現(xiàn)不同網(wǎng)站相似內(nèi)容的聚合。圖2為本發(fā)明的云搜索系統(tǒng)對(duì)網(wǎng)頁(yè)分析記憶建立私有云信息源URL數(shù)據(jù)庫(kù)的過(guò)程圖,如圖2所示,該過(guò)程主要包括步驟21、建立私有云信息源數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)保存可以參與搜索的所有可能的網(wǎng)站資源141。用戶根據(jù)自己的需要收集搜索信息源,可以使用瀏覽器及網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊101,通過(guò)搜索“XXX”行業(yè)關(guān)鍵字111,或打開相關(guān)行業(yè)分類導(dǎo)航網(wǎng)站112后,通過(guò)網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊的提取網(wǎng)頁(yè)鏈接功能提取該頁(yè)網(wǎng)址,并按行業(yè)分類或內(nèi)容關(guān)鍵字分類選擇網(wǎng)站,批量保存這些網(wǎng)站的網(wǎng)址121。例如,搜索服裝,就不會(huì)選擇電子行業(yè)的網(wǎng)站;搜索童裝,就不用選擇成人服裝的網(wǎng)站,或人工瀏覽某具體的網(wǎng)址113,根據(jù)網(wǎng)站數(shù)據(jù)量,新鮮程度,或按默認(rèn)的訪問(wèn)響應(yīng)速度排序等評(píng)估后,設(shè)置網(wǎng)站優(yōu)先級(jí)131,這部分操作只需要做一次,也可由服務(wù)提供方收藏好所有各行業(yè)的網(wǎng)站資源141,直接提供給用戶選擇使用。這里,用戶自選網(wǎng)站參與搜索,需要按行業(yè)和內(nèi)容選擇網(wǎng)站,并進(jìn)行分類,為保證分類專業(yè),用戶自己也可以自主添加刪除,什么網(wǎng)站重要就收錄什么網(wǎng)站,與搜索無(wú)關(guān)的網(wǎng)站不參與搜索,縮小搜索范圍,排除干擾。保證私有云搜索的開放性,海量性,靈活性,專業(yè)性,針對(duì)性。圖3為本發(fā)明的云搜索系統(tǒng)建立私有云信息源URL查詢接口模塊數(shù)據(jù)庫(kù)的過(guò)程圖,如圖3所示,該過(guò)程主要包括步驟31、建立私有云信息源搜索查詢接口模板數(shù)據(jù)庫(kù)231。類似的,利用網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊,抓取信息源上的網(wǎng)頁(yè),并分析過(guò)濾網(wǎng)頁(yè)鏈接,通過(guò)鏈接文字(如對(duì)“產(chǎn)品搜索”,“供求查詢”,“新聞信息”等文字進(jìn)行判別)找到搜索入口URL211(如http://XXX/search.asp),進(jìn)一步通過(guò)模塊分析入口表單結(jié)構(gòu),如(〈inputtype=textname=field>)。常見(jiàn)的幾種表單結(jié)構(gòu)分析結(jié)果記錄如下例1&text]key=[&radi0]Stype=[求購(gòu)$6…供應(yīng)$5…產(chǎn)品$4…企業(yè)$3…最新產(chǎn)品$2…最新企業(yè)$1…&button]Submit=求購(gòu)[搜索這樣的記錄可以取代人機(jī)交互,實(shí)現(xiàn)機(jī)器與機(jī)器的交互,該例子描述了表單的設(shè)計(jì)是由TEXT,RADIO,BUTTON等INPUT項(xiàng)構(gòu)成的,再通過(guò)相應(yīng)的解析程序處理后完全實(shí)現(xiàn)搜索條件的實(shí)例化。例2&key=""keyword""&stype=6&Submit=搜索.這樣的記錄直接替換關(guān)鍵字一keyworcf-就可以生成新的搜索條件。例3http//XXX/product/big-class/mid-class/small-class/search,htm這樣的URL是網(wǎng)站已經(jīng)精細(xì)化分類的搜索鏈接入口。可以不需要關(guān)鍵字,抓取該網(wǎng)頁(yè)即得到所需要的內(nèi)容。根據(jù)上述的表單結(jié)構(gòu)記錄生成查詢模板221,在具體搜索查詢時(shí),可以依此替換關(guān)鍵字或搜索條件生成搜索請(qǐng)求,將此表單結(jié)構(gòu)或查詢模板保存到信息源查詢接口模板數(shù)據(jù)庫(kù)231中以備后用,在沒(méi)有網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊或模塊失效的情況下,可以通過(guò)人工使用瀏覽器找到搜索入口212并保存該入口鏈接到數(shù)據(jù)庫(kù)中以備后用,再通過(guò)瀏覽器打開搜索入口人工分析表單結(jié)構(gòu)222也保存到數(shù)據(jù)庫(kù)中以備后用。這部分操作只需要做一次可由服務(wù)提供方收集好所有信息搜索接口模板直接提供給用戶使用。用戶也可以根據(jù)需要自由調(diào)整。由于各個(gè)網(wǎng)站搜索頁(yè)面的設(shè)計(jì)各不相同,但提供了用戶自定搜索條件過(guò)濾篩選信息的功能。這為精準(zhǔn)搜索提供了接口,用戶不必要在每次搜索前去定制條件,但只需要按照設(shè)計(jì)步驟,在不增加用戶操作上的麻煩的前提下,實(shí)現(xiàn)網(wǎng)頁(yè)搜索表單的結(jié)構(gòu)分析判斷,并記錄搜索條件設(shè)置,為精準(zhǔn)搜索做好前期準(zhǔn)備。私有云搜索就是根據(jù)用戶的自定條件實(shí)現(xiàn)精準(zhǔn)搜索的。自動(dòng)的對(duì)各網(wǎng)站的搜索網(wǎng)頁(yè)進(jìn)行表單的結(jié)構(gòu)分析和條件記憶。網(wǎng)頁(yè)表單結(jié)構(gòu)分析記憶讓用戶在同樣的使用瀏覽器的過(guò)程中,在不增加操作的情況下,使用戶自定搜索條件成為可能。圖4為本發(fā)明的云搜索系統(tǒng)的搜索過(guò)程示意圖,如圖4所示,該過(guò)程主要包括步驟41、在準(zhǔn)備好上述私有云信息源URL數(shù)據(jù)庫(kù)141和信息源查詢接口模板數(shù)據(jù)庫(kù)231后,即可進(jìn)行設(shè)置搜索參數(shù)開始搜索,在用戶通過(guò)某個(gè)界面提交搜索請(qǐng)求后,系統(tǒng)會(huì)直接根據(jù)用戶自己定制的搜索條件和用戶提供的關(guān)鍵字生成針對(duì)不同網(wǎng)站的搜索請(qǐng)求,按網(wǎng)站排序?qū)⒋怂阉髡?qǐng)求提交給不同的網(wǎng)站,這些網(wǎng)站通過(guò)他們各自開放的數(shù)據(jù)庫(kù)查詢功能進(jìn)行篩選搜索。利用網(wǎng)絡(luò)爬蟲技術(shù),從各網(wǎng)站抓回網(wǎng)頁(yè),用戶可以自定搜索深度,就是翻頁(yè)到多少頁(yè)后停止。其搜索步驟具體為步驟401、設(shè)置搜索參數(shù)。通過(guò)界面300提供交互設(shè)置,用戶提供搜索范圍,即搜索廣度301(如屬于什么行業(yè)的網(wǎng)站,網(wǎng)站數(shù)據(jù)量大的經(jīng)常更新的地方性網(wǎng)站等),搜索模式302(有關(guān)鍵字搜索,無(wú)關(guān)鍵字搜索),搜索關(guān)鍵字303,和搜索深度304(即搜索結(jié)果記錄需要查詢到多少頁(yè)以后)等參數(shù)。步驟402、啟動(dòng)搜索。系統(tǒng)會(huì)根據(jù)搜索廣度參數(shù)301,按照優(yōu)先級(jí),依次提取141私有云信息源URL141。步驟403、然后通過(guò)信息源查詢接口模板數(shù)據(jù)庫(kù)231查找相應(yīng)的查詢接口,根據(jù)設(shè)置的搜索模式302,和設(shè)置的關(guān)鍵字303的有無(wú),生成針對(duì)信息源查詢的搜索請(qǐng)求330并提交給相應(yīng)的網(wǎng)站,如果沒(méi)有關(guān)鍵字320,則直接提交給信息源服務(wù)器。步驟404、利用網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)抓取網(wǎng)頁(yè)。但限制爬蟲模塊抓取網(wǎng)頁(yè)范圍在用戶步驟21、步驟31里設(shè)定的范圍內(nèi),且不是全站抓取網(wǎng)頁(yè),而是有搜索條件的數(shù)據(jù)庫(kù)查詢,根據(jù)搜索深度參數(shù)304設(shè)置來(lái)決定爬蟲抓取頁(yè)數(shù)的多少,這些結(jié)果都是經(jīng)過(guò)網(wǎng)站數(shù)據(jù)庫(kù)過(guò)濾后的查詢結(jié)果340。步驟405、以先前搜索的結(jié)果為依據(jù),保留最新出現(xiàn)的信息鏈接,如果有關(guān)鍵字,對(duì)抓取的網(wǎng)頁(yè)內(nèi)容340進(jìn)行關(guān)鍵字匹配,保存最新的信息連接,沒(méi)關(guān)鍵字也可以直接保存,待后續(xù)抓取鏈接內(nèi)容進(jìn)一步判斷篩選。步驟406、根據(jù)行業(yè)內(nèi)容特征,如房地產(chǎn)行業(yè),二手房描述房型,價(jià)格,地段,面積,產(chǎn)權(quán),設(shè)備設(shè)施等,多關(guān)鍵字查詢,找到針對(duì)于該行業(yè)的數(shù)據(jù)過(guò)濾篩選規(guī)則350,利用這個(gè)篩選規(guī)則產(chǎn)生相應(yīng)的算法對(duì)網(wǎng)頁(yè)編排結(jié)構(gòu)實(shí)現(xiàn)語(yǔ)義塊的判斷,利用多關(guān)鍵字實(shí)現(xiàn)語(yǔ)義篩選360。如,若有下面幾句話“他是中介”;“他不是中介”;“舉報(bào)他是中介”;如果按“中介”為關(guān)鍵字,這三句都會(huì)被選中。如果用語(yǔ)義語(yǔ)境(多關(guān)鍵字聯(lián)合查詢)搜索,他們絕對(duì)不能同時(shí)選中。另網(wǎng)頁(yè)的呈現(xiàn),是設(shè)計(jì)者根據(jù)數(shù)據(jù)提取的結(jié)構(gòu)來(lái)編排的,比如按表結(jié)構(gòu)的一排<trX/tr>顯示一排記錄或記錄于整個(gè)<tableX/table>或〈divX/div〉中,可以通過(guò)程序獲取網(wǎng)頁(yè)代碼的編排結(jié)構(gòu),結(jié)合各行業(yè)數(shù)據(jù)內(nèi)容,利用多關(guān)鍵字實(shí)現(xiàn)語(yǔ)義判斷,網(wǎng)頁(yè)編排結(jié)構(gòu)的判斷鑒別。針對(duì)不同行業(yè)數(shù)據(jù)內(nèi)容及關(guān)鍵字提供不同的算法進(jìn)一步實(shí)現(xiàn)過(guò)濾(見(jiàn)圖6)。最終得到經(jīng)過(guò)嚴(yán)密篩選的數(shù)據(jù),將這些從不同網(wǎng)站上得到的數(shù)據(jù)按照統(tǒng)一的結(jié)構(gòu)保存到數(shù)據(jù)庫(kù)里,實(shí)現(xiàn)數(shù)據(jù)的聚合380。將此過(guò)程中對(duì)各網(wǎng)站的搜索做日志記錄370,以便調(diào)整搜索條件,搜索范圍等。根據(jù)日志的記錄,將搜索沒(méi)有結(jié)果的網(wǎng)站,重新進(jìn)行查詢接口設(shè)置212,將實(shí)在沒(méi)有需要的內(nèi)容的網(wǎng)站刪除113,或排后,將結(jié)果中新記錄較少的網(wǎng)站排后,記錄多的排前,或增加抓取頻率。如圖5所示。圖6為本發(fā)明私有云搜索的數(shù)據(jù)篩選過(guò)濾整合過(guò)程示意圖,如圖6所示,如果還需要實(shí)現(xiàn)相同行業(yè)不同網(wǎng)站相似內(nèi)容的數(shù)據(jù)整合,數(shù)據(jù)統(tǒng)計(jì)分析或還需要根據(jù)用戶的需要進(jìn)行特定數(shù)據(jù)比較篩選,可以根據(jù)各行業(yè)數(shù)據(jù)內(nèi)容,文字語(yǔ)義塊格式的不同以及網(wǎng)頁(yè)編排格式的不同,利用多關(guān)鍵字實(shí)現(xiàn)語(yǔ)義判斷,網(wǎng)頁(yè)編排框架的判斷鑒別。針對(duì)不同行業(yè)數(shù)據(jù)內(nèi)容及關(guān)鍵字提供不同的算法進(jìn)一步實(shí)現(xiàn)過(guò)濾。經(jīng)過(guò)上述搜索后,得到的鏈接已經(jīng)是非常精準(zhǔn)了,但最終還得用戶人工判斷是否是自己需要的內(nèi)容。最后還可通過(guò)查看搜索日志,根據(jù)日志記錄修改搜索參數(shù)設(shè)置,矯正查詢模板。保證搜索結(jié)果更精準(zhǔn),更實(shí)時(shí)。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。權(quán)利要求1.一種私有云搜索系統(tǒng),包括瀏覽器,其特征在于,該私有云搜索系統(tǒng)還包括網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊和數(shù)據(jù)過(guò)濾篩選模塊;所述瀏覽器中,進(jìn)一步包括人工瀏覽網(wǎng)頁(yè)模塊和機(jī)器瀏覽網(wǎng)頁(yè)模塊,或者僅包括機(jī)器瀏覽網(wǎng)頁(yè)模塊;其中機(jī)器瀏覽網(wǎng)頁(yè)模塊,用于根據(jù)搜索的廣度在選擇的網(wǎng)址范圍內(nèi)抓取網(wǎng)頁(yè),或根據(jù)有無(wú)搜索關(guān)鍵字,選取不同的搜索鏈接,根據(jù)查詢模板生成搜索請(qǐng)求和抓取網(wǎng)頁(yè),并根據(jù)搜索結(jié)果設(shè)定搜索深度;網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊,根據(jù)需要提取網(wǎng)頁(yè)上的本站鏈接、站外鏈接、本站圖片鏈接并分類保存到數(shù)據(jù)庫(kù)中;用于判斷網(wǎng)頁(yè)上的是否有填充表單、表單如何設(shè)計(jì)組織,并根據(jù)用戶需要輸出能反映表單設(shè)計(jì)內(nèi)容的字串記錄,并根據(jù)需要保存到數(shù)據(jù)庫(kù)中;提供人工輔助提取當(dāng)前網(wǎng)頁(yè)上的網(wǎng)址并分類篩選網(wǎng)址功能,保存到數(shù)據(jù)庫(kù)中;自動(dòng)提取鼠標(biāo)點(diǎn)擊位置處的網(wǎng)址鏈接,以及在提交網(wǎng)頁(yè)請(qǐng)求時(shí),記錄提交請(qǐng)求的數(shù)據(jù)格式;數(shù)據(jù)過(guò)濾篩選模塊,根據(jù)行業(yè)信息的特點(diǎn),設(shè)定數(shù)據(jù)篩選條件和關(guān)鍵字集;分析網(wǎng)頁(yè)代碼特征分割代碼,提取文字段落;根據(jù)文字段落和多關(guān)鍵字查詢,實(shí)現(xiàn)語(yǔ)義塊有效性判斷;以及根據(jù)有效性大小,篩選保存數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的私有云搜索系統(tǒng),其特征在于,所述網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊作為所述瀏覽器的插件進(jìn)行使用,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行分析和記憶功能;或與本系統(tǒng)自帶的專用瀏覽器作為一個(gè)整體安裝在各種不同的操作系統(tǒng)環(huán)境中使用。3.根據(jù)權(quán)利要求1或2所述的所述私有云搜索系統(tǒng),其特征在于,所述瀏覽器為通用瀏覽器,具體為IE、Netscape、GoogleChrome、Mac、Firefox、Maxthon>Opera、ThefforId,Sogou,TT、Baidu、360、W瀏覽器中的任一種或?yàn)樵谒鰹g覽器的基礎(chǔ)上開發(fā)的其他瀏覽器。4.一種私有云搜索系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,該方法包括如下步驟A、用戶自選網(wǎng)站參與搜索,按行業(yè)和內(nèi)容選擇網(wǎng)站,并進(jìn)行分類,建立私有云信息源數(shù)據(jù)庫(kù);B、利用網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊,抓取信息源上的網(wǎng)頁(yè),并分析過(guò)濾網(wǎng)頁(yè)鏈接,通過(guò)鏈接文字找到搜索入口,進(jìn)一步通過(guò)模塊分析入口表單結(jié)構(gòu),然后根據(jù)上述的表單結(jié)構(gòu)的記錄生成查詢模板,在具體搜索查詢時(shí),依次替換關(guān)鍵字或搜索條件生成搜索請(qǐng)求,將此表單結(jié)構(gòu)或查詢模板保存到信息源查詢接口模板數(shù)據(jù)庫(kù)中,即建立私有云信息源搜索查詢接口模板數(shù)據(jù)庫(kù);C、在準(zhǔn)備好上述私有云信息源數(shù)據(jù)庫(kù)和信息源查詢接口模板數(shù)據(jù)庫(kù)后,設(shè)置搜索參數(shù)開始進(jìn)行搜索,并在用戶通過(guò)某個(gè)界面提交搜索請(qǐng)求后,系統(tǒng)直接根據(jù)用戶自己定制的搜索條件和用戶提供的關(guān)鍵字生成針對(duì)不同網(wǎng)站的搜索請(qǐng)求,按網(wǎng)站排序?qū)⒋怂阉髡?qǐng)求提交給不同的網(wǎng)站,這些網(wǎng)站通過(guò)他們各自開放的數(shù)據(jù)庫(kù)查詢功能進(jìn)行篩選搜索。5.根據(jù)權(quán)利要求4所述的私有云搜索系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,所述步驟C之后進(jìn)一步包括D、將此過(guò)程中對(duì)各網(wǎng)站的搜索做日志記錄,以便調(diào)整搜索條件和搜索范圍,根據(jù)日志的記錄,將搜索沒(méi)有結(jié)果的網(wǎng)站,重新進(jìn)行查詢接口設(shè)置,將實(shí)在沒(méi)有需要的內(nèi)容的網(wǎng)站刪除或排后,將結(jié)果中新記錄較少的網(wǎng)站排后,記錄多的排前,或增加抓取頻率。6.根據(jù)權(quán)利要求4或5所述的私有云搜索系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,進(jìn)一步包括E、針對(duì)不同行業(yè)數(shù)據(jù)內(nèi)容及關(guān)鍵字提供不同的算法進(jìn)一步實(shí)現(xiàn)過(guò)濾,最終得到經(jīng)過(guò)嚴(yán)密篩選的數(shù)據(jù),然后將這些從不同網(wǎng)站上得到的數(shù)據(jù)按照統(tǒng)一的結(jié)構(gòu)保存到數(shù)據(jù)庫(kù)里,實(shí)現(xiàn)數(shù)據(jù)的聚合。7.根據(jù)權(quán)利要求4所述的私有云搜索系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,步驟C進(jìn)一步包括Cl、設(shè)置搜索參數(shù),包括通過(guò)系統(tǒng)界面提供的交互設(shè)置、用戶提供搜索范圍即搜索廣度、搜索模式、搜索關(guān)鍵字和搜索深度參數(shù);C2、啟動(dòng)搜索,該系統(tǒng)則根據(jù)搜索廣度參數(shù),按照優(yōu)先級(jí),依次提取私有云信息源URL;C3、然后通過(guò)信息源查詢接口模板數(shù)據(jù)庫(kù)查找相應(yīng)的查詢接口,根據(jù)設(shè)置的搜索模式和設(shè)置的關(guān)鍵字的有無(wú),生成針對(duì)信息源查詢的搜索請(qǐng)求,并提交給相應(yīng)的網(wǎng)站,若沒(méi)有關(guān)鍵字,則直接提交給信息源服務(wù)器;C4、利用網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)抓取網(wǎng)頁(yè),但限制爬蟲模塊抓取網(wǎng)頁(yè)范圍在用戶步驟A、步驟B里設(shè)定的范圍內(nèi),且不是全站抓取網(wǎng)頁(yè),而是有搜索條件的數(shù)據(jù)庫(kù)查詢,根據(jù)搜索深度參數(shù)設(shè)置來(lái)決定爬蟲抓取頁(yè)數(shù)的多少,其搜索結(jié)果均為經(jīng)過(guò)網(wǎng)站數(shù)據(jù)庫(kù)過(guò)濾后的查詢結(jié)果;C5、以先前搜索的結(jié)果為依據(jù),保留最新出現(xiàn)的信息鏈接;如果有關(guān)鍵字,對(duì)抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行關(guān)鍵字匹配,并保存最新的信息連接;若無(wú)沒(méi)關(guān)鍵字也直接保存,以備后續(xù)抓取鏈接內(nèi)容時(shí)進(jìn)一步判斷篩選;C6、根據(jù)行業(yè)內(nèi)容特征,進(jìn)行多關(guān)鍵字查詢,找到針對(duì)于該行業(yè)的數(shù)據(jù)過(guò)濾篩選規(guī)則,利用所述篩選規(guī)則產(chǎn)生相應(yīng)的算法對(duì)網(wǎng)頁(yè)編排結(jié)構(gòu)實(shí)現(xiàn)語(yǔ)義塊的判斷,利用多關(guān)鍵字實(shí)現(xiàn)語(yǔ)義篩選。全文摘要本發(fā)明公開了一種私有云搜索系統(tǒng)及其實(shí)現(xiàn)方法,該系統(tǒng)主要包括瀏覽器、網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊和數(shù)據(jù)過(guò)濾篩選模塊;所述瀏覽器中,還包括人工瀏覽網(wǎng)頁(yè)模塊和/或機(jī)器瀏覽網(wǎng)頁(yè)模塊。通過(guò)網(wǎng)頁(yè)結(jié)構(gòu)分析記憶模塊實(shí)現(xiàn)用戶自定搜索范圍,搜索條件設(shè)置等,能夠使一個(gè)非常繁雜的計(jì)算的前期準(zhǔn)備工作,從操作上變得簡(jiǎn)單,通過(guò)利用機(jī)器瀏覽網(wǎng)頁(yè)模塊抓取需要的網(wǎng)頁(yè),最后利用數(shù)據(jù)過(guò)濾篩選模塊對(duì)網(wǎng)頁(yè)代碼進(jìn)行結(jié)構(gòu)分割和多關(guān)鍵詞的搜索,從而實(shí)現(xiàn)語(yǔ)義塊判斷、過(guò)濾和篩選,再保存到數(shù)據(jù)庫(kù)中實(shí)現(xiàn)不同網(wǎng)站相似內(nèi)容的聚合。在現(xiàn)有瀏覽器中應(yīng)用本發(fā)明的系統(tǒng)及方法,可以實(shí)現(xiàn)個(gè)性化的針對(duì)性搜索,提高搜索精準(zhǔn)度和提高搜索效率。文檔編號(hào)G06F17/30GK102323955SQ201110275528公開日2012年1月18日申請(qǐng)日期2011年9月16日優(yōu)先權(quán)日2011年9月16日發(fā)明者鄒春城申請(qǐng)人:鄒春城
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1