專利名稱:一種通過關鍵詞檢索頁面的方法及裝置的制作方法
技術領域:
本發(fā)明涉及計算機及互聯網領域,特別是涉及一種通過關鍵詞檢索頁面的方法及裝置。
背景技術:
在檢查互聯網信息或文本頁面的過程中,通常要分析頁面內容。有時遇到這樣的需求有些頁面雖然包含目標關鍵詞,但是卻不是要尋找的目的頁面。需要考慮如何剔除這樣的頁面。 現有技術提出了兩種方案,其一是通過設置URL過濾來剔除不需要的頁面;其二是通過設置剔除關鍵詞名單,將包含這些關鍵詞的頁面直接剔除。但是現有技術提出的兩種方案都較容易誤判一些頁面。
發(fā)明內容
本發(fā)明提供了一種通過關鍵詞檢索頁面的方法及裝置,用以降低檢索頁面的過程中對包含目標關鍵詞但不是目的頁面的誤判率。 本發(fā)明的一種通過關鍵詞檢索頁面的方法,包括下列步驟在頁面中檢索目標關鍵詞;根據目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落;在所述段落中檢索要剔除的關鍵詞;將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。 本發(fā)明的一種通過關鍵詞檢索頁面的裝置,包括第一檢索單元,用于在頁面中檢索目標關鍵詞;定位單元,用于根據目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落;第二檢索單元,用于在所述段落中檢索要剔除的關鍵詞;過濾單元,用于將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。 本發(fā)明有益效果如下由于本發(fā)明在包含目標關鍵詞的段落中針對要剔除關鍵詞進行了重檢索,并將任一段落中同時包含目標關鍵詞和要剔除關鍵詞的頁面過濾掉,所以提高了識別目標頁面的能力,同時降低誤判頁面的概率。
圖1為本發(fā)明實施例中的方法步驟流程 圖2為本發(fā)明實施例中的裝置結構示意圖。
具體實施例方式
為了降低檢索頁面的過程中對包含目標關鍵詞但不是目的頁面的誤判率,本發(fā)明
提供了一種通過關鍵詞檢索頁面的方法及裝置,主要思路是通過劃分目標關鍵詞所在段落,并通過重檢索要剔除的關鍵詞來過濾頁面。
參見圖1所示,實施例中的方法包括以下主要步驟
Sl、在頁面中檢索目標關鍵詞。
S2、根據目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落。 S3、在上述段落中檢索要剔除的關鍵詞。 S4 、將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。 更為具體的,在檢索過程中,需檢索至少一個目標關鍵詞,以及至少一個要剔除的關鍵詞,并且各目標關鍵詞與各要剔除的關鍵詞之間存在對應關系。例如目標關鍵詞與要剔除的關鍵詞之間存在一一對應關系;又例如一個目標關鍵詞與至少二個要剔除的關鍵詞之間存在對應關系。 如果一個目標關鍵詞與至少二個要剔除的關鍵詞之間存在對應關系,則步驟S4的判斷邏輯可以是在所述段落中檢索到目標關鍵詞對應的任一要剔除的關鍵詞,則將該頁面從檢索結果中過濾;也可以是在所述段落中檢索到目標關鍵詞對應的所有要剔除的關鍵詞,則將該頁面從檢索結果中過濾。 以下通過上述本發(fā)明背景技術記載的內容作為待檢索頁面的內容,目標關鍵詞與要剔除的關鍵詞之間存在一一對應關系為例,目標關鍵詞為"關鍵詞",要剔除的關鍵詞為"現有技術",描述在具體實現中的過程。 S101、按照文本順序以"關鍵詞"在本發(fā)明背景技術中檢索,在本發(fā)明背景技術第一段檢索到"關鍵詞"。 S102、定位檢索到的"關鍵詞"所在的段落為第一段。 S103、在第一段中檢索"現有技術",未檢索到,則按文本順序繼續(xù)檢索。 S104、在本發(fā)明背景技術第二段檢索到"關鍵詞"。 S105、定位檢索到的"關鍵詞"所在的段落為第二段。 S106、在第二段中檢索"現有技術",并且檢索到,則從檢索結果中過濾掉該頁面。
之后,如果還有其它待檢索頁面,則繼續(xù)檢索其它頁面。 參見圖2所示,實施例中的裝置包括第一檢索單元、定位單元、第二檢索單元和過濾單元。 第一檢索單元,用于在頁面中檢索目標關鍵詞。 定位單元,用于根據第一檢索單元檢索到的目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落。 第二檢索單元,用于在所述段落中檢索要剔除的關鍵詞。 過濾單元,用于將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。 更為具體的,還可包括數據庫單元,用于存儲各目標關鍵詞與各要剔除的關鍵詞
之間的對應關系,并在第一檢索單元需檢索至少一個目標關鍵詞,第二檢索單元需檢索至
少一個要剔除的關鍵詞時,調用所述對應關系。例如數據庫單元存儲的所述對應關系為目
標關鍵詞與要剔除的關鍵詞之間的一一對應關系;又例如數據庫單元存儲的所述對應關
系為一個目標關鍵詞與至少二個要剔除的關鍵詞之間的對應關系。 如果數據庫單元存儲的所述對應關系為一個目標關鍵詞與至少二個要剔除的關鍵詞之間的對應關系,則過濾邏輯可以是第二檢索單元在所述段落中檢索到目標關鍵詞對應的任一要剔除的關鍵詞,則過濾單元將該頁面從檢索結果中過濾;也可以是第二檢索單元在所述段落中檢索到目標關鍵詞對應的所有要剔除的關鍵詞,則過濾單元將該頁面從檢索結果中過濾。
以下通過上述本發(fā)明背景技術記載的內容作為待檢索頁面的內容,數據庫單元存儲的所述對應關系為一個目標關鍵詞與二個要剔除的關鍵詞之間的對應關系為例,過濾邏輯是第二檢索單元在所述段落中檢索到目標關鍵詞對應的任一要剔除的關鍵詞,則過濾單元將該頁面從檢索結果中過濾,目標關鍵詞為"關鍵詞",要剔除的關鍵詞為"剔除"和"現有技術",描述在具體實現中的過程。 首先、第一檢索單元按照文本順序以"關鍵詞"在本發(fā)明背景技術中檢索,在本發(fā)明背景技術第一段檢索到"關鍵詞"。 其次、定位單元定位第一檢索單元檢索到的"關鍵詞"所在的段落為第一段。
其后、第二檢索單元在第一段中檢索"剔除",并且檢索到,則過濾單元從檢索結果中過濾掉該頁面。不再對該頁面繼續(xù)檢索。 之后,如果還有其它待檢索頁面,則繼續(xù)檢索其它頁面。 顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,例如目標關鍵詞與要剔除的關鍵詞也可以是多對多的關系。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。
權利要求
一種通過關鍵詞檢索頁面的方法,其特征在于,包括下列步驟在頁面中檢索目標關鍵詞;根據目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落;在所述段落中檢索要剔除的關鍵詞;將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。
2. 如權利要求1所述通過關鍵詞檢索頁面的方法,其特征在于,在檢索過程中,需檢索 至少一個目標關鍵詞,以及至少一個要剔除的關鍵詞,并且各目標關鍵詞與各要剔除的關 鍵詞之間存在對應關系。
3. 如權利要求2所述通過關鍵詞檢索頁面的方法,其特征在于,目標關鍵詞與要剔除 的關鍵詞之間存在一一對應關系。
4. 如權利要求2所述通過關鍵詞檢索頁面的方法,其特征在于, 一個目標關鍵詞與至 少二個要剔除的關鍵詞之間存在對應關系。
5. 如權利要求4所述通過關鍵詞檢索頁面的方法,其特征在于,在所述段落中檢索到 目標關鍵詞對應的任一要剔除的關鍵詞,則將該頁面從檢索結果中過濾;或者在所述段落中檢索到目標關鍵詞對應的所有要剔除的關鍵詞,則將該頁面從檢索結果 中過濾。
6. —種通過關鍵詞檢索頁面的裝置,其特征在于,包括 第一檢索單元,用于在頁面中檢索目標關鍵詞;定位單元,用于根據目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落; 第二檢索單元,用于在所述段落中檢索要剔除的關鍵詞; 過濾單元,用于將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。
7. 如權利要求6所述通過關鍵詞檢索頁面的裝置,其特征在于,還包括 數據庫單元,用于存儲各目標關鍵詞與各要剔除的關鍵詞之間的對應關系,并在第一檢索單元需檢索至少一個目標關鍵詞,第二檢索單元需檢索至少一個要剔除的關鍵詞時, 調用所述對應關系。
8. 如權利要求7所述通過關鍵詞檢索頁面的裝置,其特征在于,數據庫單元存儲的所 述對應關系包括目標關鍵詞與要剔除的關鍵詞之間的一一對應關系。
9. 如權利要求7所述通過關鍵詞檢索頁面的裝置,其特征在于,數據庫單元存儲的所 述對應關系包括一個目標關鍵詞與至少二個要剔除的關鍵詞之間的對應關系。
10. 如權利要求9所述通過關鍵詞檢索頁面的裝置,其特征在于,第二檢索單元在所述 段落中檢索到目標關鍵詞對應的任一要剔除的關鍵詞,則過濾單元將該頁面從檢索結果中 過濾;或者第二檢索單元在所述段落中檢索到目標關鍵詞對應的所有要剔除的關鍵詞,則過濾單 元將該頁面從檢索結果中過濾。
全文摘要
本發(fā)明公開了一種通過關鍵詞檢索頁面的方法及裝置,涉及計算機及互聯網領域,用以降低檢索頁面的過程中對包含目標關鍵詞但不是目的頁面的誤判率。方法包括在頁面中檢索目標關鍵詞;根據目標關鍵詞在頁面中的位置確定該目標關鍵詞所在的段落;在所述段落中檢索要剔除的關鍵詞;將檢索到要剔除關鍵詞的頁面從檢索結果中過濾。裝置包括第一檢索單元,定位單元,第二檢索單元和過濾單元。由于本發(fā)明在包含目標關鍵詞的段落中針對要剔除關鍵詞進行了重檢索,并將任一段落中同時包含目標關鍵詞和要剔除關鍵詞的頁面過濾掉,所以提高了識別目標頁面的能力,同時降低誤判頁面的概率。
文檔編號G06F17/30GK101777074SQ20101010494
公開日2010年7月14日 申請日期2010年1月29日 優(yōu)先權日2010年1月29日
發(fā)明者柯宗慶, 柯宗貴 申請人:藍盾信息安全技術股份有限公司