亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置與流程

文檔序號(hào):12305583閱讀:498來(lái)源:國(guó)知局
一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其是涉及一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置。



背景技術(shù):

互聯(lián)網(wǎng)(internet)自20世紀(jì)90年代中期商業(yè)化運(yùn)作后,在全球得到迅速發(fā)展。隨著當(dāng)今社會(huì)互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲透到我們?nèi)粘I畹母鱾€(gè)領(lǐng)域。互聯(lián)網(wǎng)可以讓我們及時(shí)了解時(shí)事新聞,獲取各種最新的知識(shí)和信息,開(kāi)闊我們的視野,提高我們平時(shí)的娛樂(lè)生活。

然而,在我們感受互聯(lián)網(wǎng)的便利時(shí),我們也感受到互聯(lián)網(wǎng)內(nèi)容的紛繁復(fù)雜,互聯(lián)網(wǎng)內(nèi)容不僅涉獵內(nèi)容廣泛,而且更新較快,每時(shí)每刻都在不斷變化,具體體現(xiàn)在內(nèi)容的變換、內(nèi)容的增加、內(nèi)容的刪除等。并且,在內(nèi)容日新變換的情況下,互聯(lián)網(wǎng)中難免會(huì)有眾多重復(fù)的內(nèi)容。

針對(duì)上述情況,在現(xiàn)有的搜索技術(shù)背景下,當(dāng)用戶(hù)在網(wǎng)頁(yè)的搜索框中輸入搜索關(guān)鍵字后,將出現(xiàn)以下幾種情況:找不到要搜索的內(nèi)容,或者搜索到的內(nèi)容和搜索關(guān)鍵字不相關(guān),或者搜索到多個(gè)重復(fù)的內(nèi)容,因而通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),往往存在準(zhǔn)確性較差的技術(shù)問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置,以緩解通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),存在的準(zhǔn)確性較差的技術(shù)問(wèn)題。

第一方面,本發(fā)明實(shí)施例提供了一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法,包括:

獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,所述網(wǎng)站信息為當(dāng)前時(shí)刻所述目標(biāo)網(wǎng)站的最新網(wǎng)站信息,所述網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;

對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,所述搜索信息為對(duì)所述目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;

根據(jù)所述關(guān)聯(lián)信息中查找與所述搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向所述用戶(hù)推送所述網(wǎng)站內(nèi)容。

結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,在獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息之前,所述方法還包括:

獲取目標(biāo)爬取時(shí)間;

在所述目標(biāo)爬取時(shí)間控制爬蟲(chóng)執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息;

根據(jù)所述第一網(wǎng)站信息中包括的網(wǎng)站內(nèi)容確定預(yù)設(shè)搜索詞,并建立所述預(yù)設(shè)搜索詞和所述第一網(wǎng)站信息之間的關(guān)聯(lián)信息;

將所述關(guān)聯(lián)信息存儲(chǔ)在數(shù)據(jù)服務(wù)器中。

結(jié)合第一方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,在所述目標(biāo)爬取時(shí)間控制爬蟲(chóng)執(zhí)行當(dāng)前爬取任務(wù),以爬取所述目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息,包括:

在執(zhí)行所述當(dāng)前爬取任務(wù)時(shí),對(duì)所述目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,得到所述目標(biāo)網(wǎng)站的首頁(yè)內(nèi)容和所述目標(biāo)網(wǎng)站的首頁(yè)信息中包含的超鏈接接口;

對(duì)所述超鏈接接口進(jìn)行分析,確定所述超鏈接接口是否為目標(biāo)超鏈接接口,其中,所述目標(biāo)超鏈接接口為未被爬取過(guò)的接口,且所述目標(biāo)超鏈接接口為正確的超鏈接接口,且所述目標(biāo)超鏈接接口所對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含預(yù)先設(shè)置的網(wǎng)頁(yè)內(nèi)容;

在確定出所述目標(biāo)超鏈接接口的情況下,對(duì)所述超鏈接接口對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行遍歷,得到所述目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容;

將每個(gè)所述目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容和網(wǎng)站地址作為所述第一網(wǎng)站信息。

結(jié)合第一方面的第二種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,對(duì)所述目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,包括:

判斷對(duì)所述目標(biāo)網(wǎng)站是否為首次執(zhí)行爬取任務(wù);

在判斷出否的情況下,對(duì)第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過(guò)所述目標(biāo)網(wǎng)站對(duì)目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)進(jìn)行訪問(wèn),或所述目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)中是否存在網(wǎng)頁(yè)內(nèi)容,所述第二網(wǎng)站信息為所述爬蟲(chóng)執(zhí)行第一爬取任務(wù)時(shí)爬取到的信息,所述第一爬取任務(wù)為所述當(dāng)前爬取任務(wù)的上一個(gè)爬取任務(wù),所述目標(biāo)網(wǎng)址為所述第二網(wǎng)站信息中的任意一個(gè)網(wǎng)站地址,

其中,在確定出是的情況下,則對(duì)所述目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,以得到所述目標(biāo)網(wǎng)站的首頁(yè)內(nèi)容和所述首頁(yè)信息中包含的超鏈接接口;

在確定出否的情況下,將與所述目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從所述數(shù)據(jù)服務(wù)器中刪除。

結(jié)合第一方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例還提供了第一方面的第四種可能的實(shí)施方式,其中,所述方法還包括:

判斷對(duì)所述目標(biāo)網(wǎng)站是否為首次執(zhí)行所述當(dāng)前爬取任務(wù);

在判斷出否的情況下,對(duì)第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過(guò)所述目標(biāo)網(wǎng)站對(duì)目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)進(jìn)行訪問(wèn),或所述目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)中是否存在網(wǎng)頁(yè)內(nèi)容,所述第二網(wǎng)站信息為所述爬蟲(chóng)執(zhí)行第一爬取任務(wù)時(shí)爬取到的信息,所述第一爬取任務(wù)為所述當(dāng)前爬取任務(wù)的上一個(gè)爬取任務(wù),所述目標(biāo)網(wǎng)址為所述第二網(wǎng)站信息中的任意一個(gè)網(wǎng)站地址,

其中,在確定出是的情況下,則執(zhí)行對(duì)所述目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取的步驟;

在確定出否的情況下,將與所述目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從所述數(shù)據(jù)服務(wù)器中刪除。

結(jié)合第一方面的第二種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第五種可能的實(shí)施方式,其中,獲取目標(biāo)爬取時(shí)間,包括:

預(yù)先對(duì)java的定時(shí)器quartz進(jìn)行設(shè)置,以設(shè)置所述爬蟲(chóng)的爬取時(shí)間,其中,java的定時(shí)器quartz用于定時(shí)觸發(fā)所述爬蟲(chóng)執(zhí)行爬取任務(wù);

從所述爬取時(shí)間中提取目標(biāo)爬取時(shí)間。

結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第六種可能的實(shí)施方式,其中,對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,包括:

通過(guò)ikanalyzer分詞器,對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字。

結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第氣種可能的實(shí)施方式,其中,根據(jù)所述關(guān)聯(lián)信息查找與所述搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,包括:從所述關(guān)聯(lián)信息的搜索詞中查找所述搜索關(guān)鍵字;根據(jù)所述搜索詞和所述搜索關(guān)鍵字之間的匹配程度,確定與所述搜索詞相關(guān)聯(lián)的所述網(wǎng)站信息;

向所述用戶(hù)推送所述網(wǎng)站內(nèi)容包括:根據(jù)所述匹配程度,將所述網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給所述用戶(hù)。

第二方面,本發(fā)明實(shí)施例還提供一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置,包括:

第一獲取模塊,用于獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,所述網(wǎng)站信息為當(dāng)前時(shí)刻所述目標(biāo)網(wǎng)站的最新網(wǎng)站信息,所述網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;

分詞模塊,用于對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,所述搜索信息為對(duì)所述目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;

推送模塊,用于根據(jù)所述關(guān)聯(lián)信息查找與所述搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向所述用戶(hù)推送所述網(wǎng)站內(nèi)容。

第三方面,本發(fā)明實(shí)施例還提供一種具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),所述程序代碼使所述處理器執(zhí)行第一方面所述的提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法。

本發(fā)明實(shí)施例帶來(lái)了以下有益效果:獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶(hù)推送所述網(wǎng)站內(nèi)容。本發(fā)明實(shí)施例中,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時(shí)刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實(shí)時(shí)性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),存在的準(zhǔn)確性較差的技術(shù)問(wèn)題。

本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例一提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法流程圖;

圖2為本發(fā)明實(shí)施例一提供的對(duì)目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取的方法流程圖;

圖3為本發(fā)明實(shí)施例二提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置示意圖;

圖4為本發(fā)明實(shí)施例二提供的另一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置示意圖。

圖標(biāo):100-第一獲取模塊;200-分詞模塊;300-推送模塊;400-第二獲取模塊;500-爬取模塊;600-建立模塊;700-存儲(chǔ)模塊。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

互聯(lián)網(wǎng)內(nèi)容不僅涉獵內(nèi)容廣泛,而且更新較快,因而,在用戶(hù)輸入搜索關(guān)鍵字后,或者找不到要搜索的內(nèi)容,或者搜索的內(nèi)容和搜索關(guān)鍵字不相關(guān),或者搜索到多個(gè)重復(fù)的內(nèi)容,與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容往往存在準(zhǔn)確性較差的技術(shù)問(wèn)題?;诖?,本發(fā)明實(shí)施例提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置,可以緩解通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),存在的準(zhǔn)確性較差的技術(shù)問(wèn)題。

實(shí)施例一

本發(fā)明實(shí)施例提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法,如圖1所示,該方法包括如下步驟:

步驟s102,獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址。

具體地,目標(biāo)網(wǎng)站包括單個(gè)網(wǎng)站站點(diǎn)或多個(gè)網(wǎng)站站點(diǎn)。

此外,由于一些網(wǎng)站的信息都是在實(shí)時(shí)更新的,上述網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,因而網(wǎng)站信息為實(shí)時(shí)的網(wǎng)站信息。

步驟s104,對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息。

具體地,用戶(hù)輸入的搜索信息多為字符串,通過(guò)對(duì)字符串進(jìn)行分詞處理,得到搜索關(guān)鍵字。

步驟s106,根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶(hù)推送網(wǎng)站內(nèi)容。

需要說(shuō)明的是,上述步驟s102至步驟s106所描述的步驟可以通過(guò)一個(gè)執(zhí)行裝置來(lái)實(shí)行,該執(zhí)行裝置可設(shè)于公司內(nèi)網(wǎng)和目標(biāo)網(wǎng)站(目標(biāo)網(wǎng)站為公司的外網(wǎng))之間,執(zhí)行裝置通過(guò)和外網(wǎng)的通信而獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,并將關(guān)聯(lián)信息進(jìn)行保存。此外,執(zhí)行裝置預(yù)先設(shè)置了對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理的分詞規(guī)則。在公司內(nèi)網(wǎng)的用戶(hù)要對(duì)目標(biāo)網(wǎng)站的數(shù)據(jù)進(jìn)行搜索時(shí),執(zhí)行裝置通過(guò)和內(nèi)網(wǎng)中的客戶(hù)端通信而獲取用戶(hù)輸入的搜索信息,并獲取預(yù)先保存的關(guān)聯(lián)信息,然后根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶(hù)推送網(wǎng)站內(nèi)容。

需要強(qiáng)調(diào)的是,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時(shí)刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實(shí)時(shí)性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),存在的準(zhǔn)確性較差的技術(shù)問(wèn)題。

關(guān)于執(zhí)行裝置通過(guò)和外網(wǎng)的通信而獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,本發(fā)明實(shí)施例的一個(gè)可選實(shí)施方式中給出了詳細(xì)的實(shí)施方式,具體包括如下步驟:

在獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息之前,獲取目標(biāo)爬取時(shí)間;

在目標(biāo)爬取時(shí)間控制爬蟲(chóng)執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息;

根據(jù)第一網(wǎng)站信息中包括的網(wǎng)站內(nèi)容確定預(yù)設(shè)搜索詞,并建立預(yù)設(shè)搜索詞和第一網(wǎng)站信息之間的關(guān)聯(lián)信息;

將關(guān)聯(lián)信息存儲(chǔ)在數(shù)據(jù)服務(wù)器中。

具體地,還可以將網(wǎng)站站點(diǎn)的地址深度,以及用于判斷地址是否是目標(biāo)網(wǎng)站的地址等實(shí)體類(lèi)網(wǎng)頁(yè)信息存儲(chǔ)在數(shù)據(jù)服務(wù)器中,以便在以后的爬取任務(wù)中能更高效地爬取。

需要說(shuō)明的是,數(shù)據(jù)服務(wù)器中存儲(chǔ)的關(guān)聯(lián)信息包括以下兩種情況:第一種情況是網(wǎng)站內(nèi)容和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,第二種情況是網(wǎng)站地址和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息。對(duì)于第一種情況,在用戶(hù)輸入搜索信息后,直接從關(guān)聯(lián)信息中查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,并將網(wǎng)站內(nèi)容推送給用戶(hù);對(duì)于第二種情況,在用戶(hù)輸入搜索信息后,從關(guān)聯(lián)信息中查找與搜索關(guān)鍵字相匹配的網(wǎng)站地址,然后查找網(wǎng)站地址所指示網(wǎng)頁(yè)的網(wǎng)站內(nèi)容,并將網(wǎng)站內(nèi)容推送給用戶(hù)。

其中,在目標(biāo)爬取時(shí)間控制爬蟲(chóng)執(zhí)行當(dāng)前爬取任務(wù),而目標(biāo)爬取時(shí)間的詳細(xì)獲取方法,參見(jiàn)本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式,具體地,如下:

預(yù)先對(duì)java的定時(shí)器quartz進(jìn)行設(shè)置,以設(shè)置爬蟲(chóng)的爬取時(shí)間,其中,java的定時(shí)器quartz用于定時(shí)觸發(fā)爬蟲(chóng)執(zhí)行爬取任務(wù);然后從爬取時(shí)間中提取目標(biāo)爬取時(shí)間。

需要說(shuō)明的是,java的定時(shí)器quartz有觸發(fā)爬蟲(chóng)執(zhí)行爬取任務(wù)的預(yù)設(shè)時(shí)間,而執(zhí)行當(dāng)前爬取任務(wù)的目標(biāo)爬取時(shí)間為上述預(yù)設(shè)時(shí)間里距離當(dāng)前時(shí)刻最近的前一時(shí)間。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,在目標(biāo)爬取時(shí)間控制爬蟲(chóng)執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息,包括:

在執(zhí)行當(dāng)前爬取任務(wù)時(shí),對(duì)目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,得到目標(biāo)網(wǎng)站的首頁(yè)內(nèi)容和目標(biāo)網(wǎng)站的首頁(yè)信息中包含的超鏈接接口,例如,href接口、src接口。

對(duì)超鏈接接口進(jìn)行分析,確定超鏈接接口是否為目標(biāo)超鏈接接口,其中,目標(biāo)超鏈接接口為未被爬取過(guò)的接口,且目標(biāo)超鏈接接口為正確的超鏈接接口,且目標(biāo)超鏈接接口所對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含預(yù)先設(shè)置的網(wǎng)頁(yè)內(nèi)容。這里的預(yù)先設(shè)置的網(wǎng)頁(yè)內(nèi)容即預(yù)先想要獲得的網(wǎng)頁(yè)內(nèi)容,如果是不感興趣的網(wǎng)頁(yè)內(nèi)容則網(wǎng)頁(yè)的超鏈接接口不為上述目標(biāo)超鏈接接口。

在確定出目標(biāo)超鏈接接口的情況下,對(duì)超鏈接接口對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行遍歷,得到目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容;

將每個(gè)目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容和網(wǎng)站地址作為第一網(wǎng)站信息。

需要說(shuō)明的是,本發(fā)明實(shí)施例給出了爬蟲(chóng)對(duì)網(wǎng)站首頁(yè)進(jìn)行爬取的方式,對(duì)于不同深度的網(wǎng)站,爬蟲(chóng)對(duì)更深的網(wǎng)頁(yè)進(jìn)行爬取,同樣可以采取上述的爬取方式。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,如圖2所示,對(duì)目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,包括如下步驟:

步驟s201,判斷對(duì)目標(biāo)網(wǎng)站是否為首次執(zhí)行爬取任務(wù),其中,在判斷出否的情況下執(zhí)行步驟s202,在判斷出是的情況下執(zhí)行步驟s203;

步驟s202,對(duì)第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過(guò)目標(biāo)網(wǎng)站對(duì)目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)進(jìn)行訪問(wèn)(即,目標(biāo)網(wǎng)址的網(wǎng)頁(yè)是否存在),或目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)中是否存在網(wǎng)頁(yè)內(nèi)容(即,目標(biāo)網(wǎng)址的網(wǎng)頁(yè)信息是否存在),第二網(wǎng)站信息為爬蟲(chóng)執(zhí)行第一爬取任務(wù)時(shí)爬取到的信息,第一爬取任務(wù)為當(dāng)前爬取任務(wù)的上一個(gè)爬取任務(wù),目標(biāo)網(wǎng)址為第二網(wǎng)站信息中的任意一個(gè)網(wǎng)站地址。其中,在確定出是的情況下執(zhí)行步驟s203,在確定出否的情況下執(zhí)行步驟s204;

步驟s203,對(duì)目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,以得到目標(biāo)網(wǎng)站的首頁(yè)內(nèi)容和首頁(yè)信息中包含的超鏈接接口;

步驟s204,將與目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從數(shù)據(jù)服務(wù)器中刪除,然后返回繼續(xù)執(zhí)行步驟s203。

需要說(shuō)明的是,本發(fā)明實(shí)施例中,目標(biāo)網(wǎng)址為第二網(wǎng)站信息中的任意一個(gè)網(wǎng)站地址,第二網(wǎng)站信息為爬蟲(chóng)執(zhí)行第一爬取任務(wù)時(shí)爬取到的信息,通過(guò)上述步驟實(shí)現(xiàn)了對(duì)上一次爬取得到的網(wǎng)站信息進(jìn)行驗(yàn)證的目的,避免了搜索結(jié)果有出現(xiàn)目標(biāo)網(wǎng)址的信息,但點(diǎn)擊目標(biāo)網(wǎng)址的鏈接后沒(méi)有獲取到相關(guān)的網(wǎng)站內(nèi)容的現(xiàn)象,避免了因此而造成的后續(xù)搜索錯(cuò)誤。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,在將關(guān)聯(lián)信息存儲(chǔ)在數(shù)據(jù)服務(wù)器中之前,提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法還包括:

判斷數(shù)據(jù)服務(wù)器是否為首次存儲(chǔ)關(guān)聯(lián)信息;

在判斷出數(shù)據(jù)服務(wù)器為首次存儲(chǔ)關(guān)聯(lián)信息的情況下,將數(shù)據(jù)服務(wù)器中已存儲(chǔ)的數(shù)據(jù)進(jìn)行清空處理,從而避免了數(shù)據(jù)服務(wù)器中殘留有以前對(duì)目標(biāo)網(wǎng)站之外的網(wǎng)站進(jìn)行爬取而得到的關(guān)聯(lián)信息,或者避免數(shù)據(jù)服務(wù)器中殘留一些臟數(shù)據(jù)。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,包括:

通過(guò)ikanalyzer分詞器,對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字。

具體地,首先通過(guò)一個(gè)分詞的通用接口來(lái)管理分詞的共同方法。其中,對(duì)于分詞處理的返回結(jié)果,需要考慮到多種情況,包括:第一種,返回結(jié)果是以鍵值對(duì)map集合;第二種,返回結(jié)果是string字符串為標(biāo)識(shí)的set集合。

此外,通過(guò)ikanalyzer分詞器進(jìn)行分詞,可以添加兩種分詞類(lèi)型,一種是智能切分,還有一種是細(xì)粒度切分,這樣就可以根據(jù)需要去進(jìn)行不同方式的切分字符串。

此外,可以對(duì)ikanalyzer的詞庫(kù)進(jìn)行及時(shí)的更新,讓分詞能夠達(dá)到更理想的分詞效果。

本發(fā)明實(shí)施例采用ikanalyzer分詞器,采用基于文本匹配的方式,不需要投入大量人力進(jìn)行訓(xùn)練和標(biāo)注,可以自定詞典,方便加入domainspecific的詞語(yǔ),能分出多粒度的結(jié)果。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,包括:從關(guān)聯(lián)信息的搜索詞中查找搜索關(guān)鍵字;根據(jù)搜索詞和搜索關(guān)鍵字之間的匹配程度,確定與搜索詞相關(guān)聯(lián)的網(wǎng)站信息;

向用戶(hù)推送網(wǎng)站內(nèi)容包括:根據(jù)匹配程度,將網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給用戶(hù)。

具體地,可以通過(guò)搜索服務(wù)器來(lái)實(shí)施(例如solr,solr是一個(gè)獨(dú)立的數(shù)據(jù)服務(wù)器,solr可以根據(jù)用戶(hù)輸入的搜索信息,生成索引來(lái)快速地搜索到結(jié)果并返回);用戶(hù)也可以通過(guò)httpget提出包含搜索信息的搜索請(qǐng)求。

在搜索關(guān)鍵字為多詞組的情況下,可以通過(guò)or來(lái)把搜索關(guān)鍵字連接起來(lái),然后通過(guò)client去匹配預(yù)設(shè)搜索詞以得到網(wǎng)站內(nèi)容。其中,將網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給用戶(hù),可以把篩選出的網(wǎng)站內(nèi)容,按照網(wǎng)站內(nèi)容對(duì)應(yīng)的預(yù)設(shè)搜索詞含有搜索關(guān)鍵字的數(shù)量個(gè)數(shù)排序來(lái)進(jìn)行搜索結(jié)果的頁(yè)面展示。

實(shí)施例二

本發(fā)明實(shí)施例提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置,如圖3所示,包括:

第一獲取模塊100,用于獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;

分詞模塊200,用于對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;

推送模塊300,用于根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶(hù)推送網(wǎng)站內(nèi)容。

在本發(fā)明實(shí)施例中,第一獲取模塊100獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;分詞模塊200對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;推送模塊300根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶(hù)推送網(wǎng)站內(nèi)容。本發(fā)明實(shí)施例中,網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時(shí)刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實(shí)時(shí)性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),存在的準(zhǔn)確性較差的技術(shù)問(wèn)題。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,如圖4所示,提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置還包括:

第二獲取模塊400,用于獲取目標(biāo)爬取時(shí)間;

爬取模塊500,用于在目標(biāo)爬取時(shí)間控制爬蟲(chóng)執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息;

建立模塊600,用于根據(jù)第一網(wǎng)站信息中包括的網(wǎng)站內(nèi)容確定預(yù)設(shè)搜索詞,并建立預(yù)設(shè)搜索詞和第一網(wǎng)站信息之間的關(guān)聯(lián)信息;

存儲(chǔ)模塊700,用于將關(guān)聯(lián)信息存儲(chǔ)在數(shù)據(jù)服務(wù)器中。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,爬取模塊包括:

爬取單元,用于在執(zhí)行當(dāng)前爬取任務(wù)時(shí),對(duì)目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,得到目標(biāo)網(wǎng)站的首頁(yè)內(nèi)容和目標(biāo)網(wǎng)站的首頁(yè)信息中包含的超鏈接接口;

確定單元,用于對(duì)超鏈接接口進(jìn)行分析,確定超鏈接接口是否為目標(biāo)超鏈接接口,其中,目標(biāo)超鏈接接口為未被爬取過(guò)的接口,且目標(biāo)超鏈接接口為正確的超鏈接接口,且目標(biāo)超鏈接接口所對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中包含預(yù)先設(shè)置的網(wǎng)頁(yè)內(nèi)容;

遍歷單元,用于在確定出目標(biāo)超鏈接接口的情況下,對(duì)超鏈接接口對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行遍歷,得到目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容;

確定單元,用于將每個(gè)目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容和網(wǎng)站地址作為第一網(wǎng)站信息。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,爬取單元還用于:

判斷對(duì)目標(biāo)網(wǎng)站是否為首次執(zhí)行爬取任務(wù);

在判斷出否的情況下,對(duì)第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過(guò)目標(biāo)網(wǎng)站對(duì)目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)進(jìn)行訪問(wèn),或目標(biāo)網(wǎng)址所指示的網(wǎng)頁(yè)中是否存在網(wǎng)頁(yè)內(nèi)容,第二網(wǎng)站信息為爬蟲(chóng)執(zhí)行第一爬取任務(wù)時(shí)爬取到的信息,第一爬取任務(wù)為當(dāng)前爬取任務(wù)的上一個(gè)爬取任務(wù),目標(biāo)網(wǎng)址為第二網(wǎng)站信息中的任意一個(gè)網(wǎng)站地址,

其中,在確定出是的情況下,則對(duì)目標(biāo)網(wǎng)站的首頁(yè)進(jìn)行爬取,以得到目標(biāo)網(wǎng)站的首頁(yè)內(nèi)容和首頁(yè)信息中包含的超鏈接接口;

在確定出否的情況下,將與目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從數(shù)據(jù)服務(wù)器中刪除。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置還包括:

判斷模塊,用于判斷數(shù)據(jù)服務(wù)器是否為首次存儲(chǔ)關(guān)聯(lián)信息;

清空模塊,用于在判斷出數(shù)據(jù)服務(wù)器為首次存儲(chǔ)關(guān)聯(lián)信息的情況下,將數(shù)據(jù)服務(wù)器中已存儲(chǔ)的數(shù)據(jù)進(jìn)行清空處理。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,第二獲取模塊用于:

預(yù)先對(duì)java的定時(shí)器quartz進(jìn)行設(shè)置,以設(shè)置爬蟲(chóng)的爬取時(shí)間,其中,java的定時(shí)器quartz用于定時(shí)觸發(fā)爬蟲(chóng)執(zhí)行爬取任務(wù);

從爬取時(shí)間中提取目標(biāo)爬取時(shí)間。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,分詞模塊用于:

通過(guò)ikanalyzer分詞器,對(duì)用戶(hù)輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字。

本發(fā)明實(shí)施例的另一個(gè)可選實(shí)施方式中,推送模塊用于:

從關(guān)聯(lián)信息的搜索詞中查找搜索關(guān)鍵字;根據(jù)搜索詞和搜索關(guān)鍵字之間的匹配程度,確定與搜索詞相關(guān)聯(lián)的網(wǎng)站信息;

根據(jù)匹配程度,將網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給用戶(hù)。

實(shí)施例三

本發(fā)明實(shí)施例提供了一種具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),程序代碼使處理器執(zhí)行實(shí)施例一種的提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法,其中,由于網(wǎng)站信息為當(dāng)前時(shí)刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時(shí)刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實(shí)時(shí)性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過(guò)現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁(yè)內(nèi)容時(shí),存在的準(zhǔn)確性較差的技術(shù)問(wèn)題。

本發(fā)明實(shí)施例所提供的提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置的計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)了程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見(jiàn)方法實(shí)施例,在此不再贅述。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)和裝置的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。

另外,在本發(fā)明實(shí)施例的描述中,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。

所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

在本發(fā)明的描述中,需要說(shuō)明的是,術(shù)語(yǔ)“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對(duì)本發(fā)明的限制。

此外,術(shù)語(yǔ)“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。

最后應(yīng)說(shuō)明的是:以上所述實(shí)施例,僅為本發(fā)明的具體實(shí)施方式,用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制,本發(fā)明的保護(hù)范圍并不局限于此,盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對(duì)前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改或可輕易想到變化,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實(shí)施例技術(shù)方案的精神和范圍,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1