專利名稱:網(wǎng)絡(luò)信息檢索系統(tǒng)及檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)信息檢索系統(tǒng)及檢索方法。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,搜索引擎作為一個(gè)輔助用戶檢索信息的工具,在人們的日常生活中變得不可或缺。搜索引擎一般是將搜索到的所有與用戶輸入關(guān)鍵詞相關(guān)的資料全部顯示給用戶,從而使得搜索結(jié)果往往有數(shù)十頁(yè)甚至數(shù)百頁(yè)之多。在數(shù)量龐大的搜索結(jié)果中,由于不同資源之間的相互引用,或不同網(wǎng)頁(yè)之間相同內(nèi)容的復(fù)制導(dǎo)致搜索結(jié)果中存在大量重復(fù)信息,這些重復(fù)信息不但造成了資源的浪費(fèi),也給用戶的檢索工作帶來(lái)諸多不便。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明提供一種網(wǎng)絡(luò)信息檢索系統(tǒng),該網(wǎng)絡(luò)信息檢索系統(tǒng)包括一輸入確定模塊,用于響應(yīng)用戶的輸入操作,確認(rèn)用戶輸入的搜索關(guān)鍵字;一檢索模塊, 用于根據(jù)該用戶輸入的搜索關(guān)鍵字在網(wǎng)絡(luò)中搜索與該搜索關(guān)鍵字內(nèi)容相匹配的網(wǎng)頁(yè);一內(nèi)容提取模塊,用于從該檢索模塊檢索到的所有網(wǎng)頁(yè)中提取網(wǎng)頁(yè)的地址及網(wǎng)頁(yè)記載的文字信息和圖片信息;一去重處理模塊,用于獲取該內(nèi)容提取模塊提取的該些網(wǎng)頁(yè)的網(wǎng)址及該些網(wǎng)址對(duì)應(yīng)的文字信息和圖片信息,并根據(jù)該提取出的文字信息判斷該些網(wǎng)頁(yè)中的內(nèi)容是否引用了源地址,若確定該網(wǎng)頁(yè)中的內(nèi)容引用自一源地址,則該去重處理模塊將該引用了該源地址的網(wǎng)頁(yè)去除,只保留該源地址對(duì)應(yīng)的網(wǎng)頁(yè)。本發(fā)明還提供一種網(wǎng)絡(luò)信息檢索方法,包括步驟響應(yīng)用戶的輸入操作,確認(rèn)用戶輸入的搜索關(guān)鍵字;根據(jù)該用戶輸入的搜索關(guān)鍵字在網(wǎng)絡(luò)中搜索與該搜索關(guān)鍵字內(nèi)容相匹配的網(wǎng)頁(yè);對(duì)檢索到的所有網(wǎng)頁(yè)的地址及網(wǎng)頁(yè)記載的文字信息和圖片信息進(jìn)行提??;獲取提取的該些網(wǎng)頁(yè)的網(wǎng)址及該些網(wǎng)頁(yè)記載的文字信息和圖片信息,并根據(jù)該提取出的文字信息判斷該些網(wǎng)頁(yè)中的內(nèi)容是否引用了源地址;當(dāng)該些網(wǎng)頁(yè)引用了源地址時(shí),將引用該源地址的網(wǎng)頁(yè)去除,只保留該網(wǎng)頁(yè)內(nèi)容所引用的源地址對(duì)應(yīng)的網(wǎng)頁(yè)作為最終顯示的網(wǎng)頁(yè)。本發(fā)明中的網(wǎng)絡(luò)信息檢索系統(tǒng)及檢索方法,去除了檢索結(jié)果中大量的重復(fù)資源, 方便用戶快速的找到所需內(nèi)容。
圖1為本發(fā)明一實(shí)施方式中網(wǎng)絡(luò)信息檢索系統(tǒng)的功能模塊示意圖。圖2為本發(fā)明一實(shí)施方式中網(wǎng)絡(luò)信息檢索方法流程圖。主要元件符號(hào)說(shuō)明
權(quán)利要求
1.一種網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該網(wǎng)絡(luò)信息檢索系統(tǒng)包括一輸入確定模塊,用于響應(yīng)用戶的輸入操作,確認(rèn)用戶輸入的搜索關(guān)鍵字;一檢索模塊,用于根據(jù)該用戶輸入的搜索關(guān)鍵字在網(wǎng)絡(luò)中搜索與該搜索關(guān)鍵字內(nèi)容相匹配的網(wǎng)頁(yè);一內(nèi)容提取模塊,用于從該檢索模塊檢索到的所有網(wǎng)頁(yè)中提取網(wǎng)頁(yè)的地址及網(wǎng)頁(yè)記載的文字信息和圖片信息;一去重處理模塊,用于獲取該內(nèi)容提取模塊提取的該些網(wǎng)頁(yè)的網(wǎng)址及該些網(wǎng)址對(duì)應(yīng)的文字信息和圖片信息,并根據(jù)該提取出的文字信息判斷該些網(wǎng)頁(yè)中的內(nèi)容是否引用了源地址,若確定該網(wǎng)頁(yè)中的內(nèi)容引用自一源地址,則該去重處理模塊將該引用了該源地址的網(wǎng)頁(yè)去除,只保留該源地址對(duì)應(yīng)的網(wǎng)頁(yè)。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該去重處理模塊還用于將該些保留的網(wǎng)頁(yè)中的文字信息和圖片信息進(jìn)行比較,并判斷該些保留網(wǎng)頁(yè)中的文字信息和圖片信息的相似度是否超過(guò)一預(yù)先設(shè)定的閾值,所述的相似度以網(wǎng)頁(yè)中文字信息和圖片信息的重復(fù)程度來(lái)表征;當(dāng)該些保留的網(wǎng)頁(yè)中至少兩個(gè)網(wǎng)頁(yè)中文字信息和圖片信息的相似度超過(guò)該閾值時(shí),則顯示該些網(wǎng)頁(yè)中文字內(nèi)容最多的一個(gè)網(wǎng)頁(yè)或時(shí)間最早的一個(gè)網(wǎng)頁(yè),將其他與該網(wǎng)頁(yè)內(nèi)容相似的網(wǎng)頁(yè)去除;直到該些保留的網(wǎng)頁(yè)中任何兩個(gè)網(wǎng)頁(yè)內(nèi)容的相似度都沒(méi)有超過(guò)該閾值,則確定該些被保留的網(wǎng)頁(yè)為最終顯示的網(wǎng)頁(yè)。
3.如權(quán)利要求2所述的網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該網(wǎng)絡(luò)信息檢索系統(tǒng)還包括一顯示模塊用于顯示該去重處理模塊確定最終顯示的網(wǎng)頁(yè)。
4.如權(quán)利要求3所述的網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該網(wǎng)絡(luò)信息檢索系統(tǒng)為運(yùn)行于作為客戶終端的電子裝置中。
5.如權(quán)利要求3所述的網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該網(wǎng)絡(luò)信息檢索系統(tǒng)運(yùn)行于服務(wù)商的服務(wù)器中。
6.如權(quán)利要求1所述的網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該內(nèi)容提取模塊通過(guò)預(yù)先構(gòu)建的內(nèi)容解析器將網(wǎng)頁(yè)的地址、該網(wǎng)頁(yè)中的文字和圖片信息及該些信息引用的源地址提取出來(lái)。
7.如權(quán)利要求2所述的網(wǎng)絡(luò)信息檢索系統(tǒng),其特征在于,該去重處理模塊根據(jù)用戶的設(shè)置確定保留和去除網(wǎng)頁(yè)的條件。
8.—種網(wǎng)絡(luò)信息檢索方法,應(yīng)用于一網(wǎng)絡(luò)信息檢索系統(tǒng)中,其特征在于,該方法包括如下步驟響應(yīng)用戶的輸入操作,確認(rèn)用戶輸入的搜索關(guān)鍵字;根據(jù)該用戶輸入的搜索關(guān)鍵字在網(wǎng)絡(luò)中搜索與該搜索關(guān)鍵字內(nèi)容相匹配的網(wǎng)頁(yè);對(duì)檢索到的所有網(wǎng)頁(yè)的地址及網(wǎng)頁(yè)記載的文字信息和圖片信息進(jìn)行提?。猾@取提取的該些網(wǎng)頁(yè)的網(wǎng)址及該些網(wǎng)頁(yè)記載的文字信息和圖片信息,并根據(jù)該提取出的文字信息判斷該些網(wǎng)頁(yè)中的內(nèi)容是否引用了源地址;當(dāng)該些網(wǎng)頁(yè)引用了源地址時(shí),將引用該源地址的網(wǎng)頁(yè)去除,只保留該網(wǎng)頁(yè)內(nèi)容所引用的源地址對(duì)應(yīng)的網(wǎng)頁(yè)作為最終顯示的網(wǎng)頁(yè)。
9.如權(quán)利要求8所述的網(wǎng)絡(luò)信息檢索方法,其特征在于,該方法還包括步驟將該些保留的網(wǎng)頁(yè)中的文字信息和圖片信息進(jìn)行比較,并判斷該些保留網(wǎng)頁(yè)中的文字和圖片信息的相似度是否超過(guò)一預(yù)先設(shè)定的閾值,其中,所述的相似度以網(wǎng)頁(yè)中記載的文字信息和圖片信息的重復(fù)程度來(lái)表征;當(dāng)兩個(gè)或兩個(gè)以上網(wǎng)頁(yè)中文字信息和圖片信息的相似度超過(guò)該閾值時(shí),控制顯示該些網(wǎng)頁(yè)中文字內(nèi)容最多的一個(gè)網(wǎng)頁(yè)或時(shí)間最早的一個(gè)網(wǎng)頁(yè),將其他與該網(wǎng)頁(yè)內(nèi)容相似的網(wǎng)頁(yè)去除。
10.如權(quán)利要求9所述的網(wǎng)絡(luò)信息檢索方法,其特征在于,將確定最終顯示的網(wǎng)頁(yè)顯示給用戶。
全文摘要
本發(fā)明提供一種網(wǎng)絡(luò)信息檢索系統(tǒng)及檢索方法。該網(wǎng)絡(luò)信息檢索系統(tǒng)包括輸入確定模塊用于確認(rèn)用戶輸入的搜索關(guān)鍵字;檢索模塊在網(wǎng)絡(luò)中搜索與該搜索關(guān)鍵字內(nèi)容相匹配的網(wǎng)頁(yè);內(nèi)容提取模塊對(duì)檢索到的所有網(wǎng)頁(yè)的地址及網(wǎng)頁(yè)記載的文字信息和圖片信息進(jìn)行提取;去重處理模塊獲取該內(nèi)容提取模塊提取的該些網(wǎng)頁(yè)的地址及該些網(wǎng)頁(yè)記載的文字信息和圖片信息,并根據(jù)該提取出的文字信息判斷該些網(wǎng)頁(yè)是否引用了源地址,若確定該網(wǎng)頁(yè)中的文字信息和圖片信息引用自一源地址,則該去重處理模塊將該引用了源地址的網(wǎng)頁(yè)去除,只保留該源地址對(duì)應(yīng)的網(wǎng)頁(yè)。
文檔編號(hào)G06F17/30GK102567473SQ201110418140
公開(kāi)日2012年7月11日 申請(qǐng)日期2011年12月14日 優(yōu)先權(quán)日2011年12月14日
發(fā)明者楊宏宇 申請(qǐng)人:鴻富錦精密工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司