專利名稱:網(wǎng)站信息提取系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種全文檢索系統(tǒng)與方法,特別涉及一種在環(huán)球信息網(wǎng)(world wide web)中的網(wǎng)頁(yè)全文檢索系統(tǒng)與方法。
背景技術(shù):
如今由于互聯(lián)網(wǎng)(Internet)的發(fā)展,信息的傳遞與共享也越發(fā)快速與便利。用戶只要經(jīng)由互聯(lián)網(wǎng)就可以連接到全球網(wǎng)站所組成的環(huán)球信息網(wǎng)(world wide web)上,并可使用環(huán)球信息網(wǎng)上的數(shù)據(jù)或信息。而目前,搜尋裝置(searchengine)或網(wǎng)頁(yè)全文檢索系統(tǒng)經(jīng)常被用戶用于在環(huán)球信息網(wǎng)上搜尋或檢索其所需要的數(shù)據(jù)。
請(qǐng)參考圖1,示出了傳統(tǒng)搜尋裝置搜尋環(huán)球信息網(wǎng)的方法流程示意圖。首先,用戶在搜尋裝置中輸入欲搜尋的關(guān)鍵字或主題,接著由搜尋裝置連接環(huán)球信息網(wǎng)并開(kāi)始檢索。隨即,搜尋裝置將符合所輸入的關(guān)鍵字或主題的網(wǎng)頁(yè)地址(URL)列給用戶,再由用戶連接至該些URL以瀏覽其內(nèi)容。而上述的傳統(tǒng)的方法雖然簡(jiǎn)便,但卻具有以下的缺點(diǎn)(1)雖然搜尋裝置已檢索出相關(guān)于關(guān)鍵字的URL,但仍須用戶再連接至該URL的網(wǎng)頁(yè)才能看到內(nèi)容。而且,網(wǎng)頁(yè)中常包括用戶所不需要的數(shù)據(jù),對(duì)用戶而言,非常的不方便,可能需要再利用一次文字搜尋才能找到所需要的數(shù)據(jù)。
(2)用戶無(wú)法針對(duì)搜尋裝置所檢索出的URL的網(wǎng)頁(yè)數(shù)據(jù),互相比較其相關(guān)性。例如,如果用戶搜尋的是一個(gè)產(chǎn)品的價(jià)格,則用戶無(wú)法根據(jù)圖1中搜尋裝置所檢索出的結(jié)果比較出哪個(gè)網(wǎng)站的產(chǎn)品價(jià)格最便宜。
發(fā)明內(nèi)容因此,本發(fā)明的目的在于提供一種網(wǎng)站信息提取系統(tǒng)與方法。用戶通過(guò)本發(fā)明的系統(tǒng)與方法,可從環(huán)球信息網(wǎng)中檢索出用戶所需要的數(shù)據(jù),并由本系統(tǒng)顯示所有的搜尋數(shù)據(jù),以利于用戶瀏覽不同網(wǎng)頁(yè)的檢索結(jié)果。
根據(jù)本發(fā)明的目的,提出一種網(wǎng)站信息提取系統(tǒng),此系統(tǒng)通過(guò)互聯(lián)網(wǎng)(lnternet)與環(huán)球信息網(wǎng)(world wide web)連接,用以瀏覽并過(guò)濾環(huán)球信息網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù)。此網(wǎng)站信息提取系統(tǒng)至少包括一個(gè)搜尋裝置、一個(gè)數(shù)據(jù)提取裝置以及一個(gè)存儲(chǔ)裝置。其中,搜尋裝置通過(guò)互聯(lián)網(wǎng)與環(huán)球信息網(wǎng)連接,用以依據(jù)用戶所設(shè)定的一個(gè)網(wǎng)頁(yè)搜尋條件來(lái)搜尋環(huán)球信息網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù),并將搜尋結(jié)果輸出到一個(gè)搜尋網(wǎng)頁(yè)文件中。而數(shù)據(jù)提取裝置用于接收搜尋網(wǎng)頁(yè)文件,并依據(jù)用戶所設(shè)定的一個(gè)網(wǎng)頁(yè)過(guò)濾條件來(lái)提取搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件。存儲(chǔ)裝置用于存儲(chǔ)網(wǎng)頁(yè)搜尋條件、網(wǎng)頁(yè)過(guò)濾條件、搜尋網(wǎng)頁(yè)文件以及提取文件。
其中,數(shù)據(jù)提取裝置還包括一個(gè)欄提取單元、一個(gè)標(biāo)記刪除單元以及一個(gè)段落提取單元。其中,欄提取單元用于提取出搜尋網(wǎng)頁(yè)文件中所設(shè)定的欄數(shù)據(jù)。而標(biāo)記刪除單元用于刪除搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記(tag)。段落提取單元用于刪除或保留搜尋網(wǎng)頁(yè)文件中整個(gè)段落,且可用于刪除搜尋網(wǎng)頁(yè)文件中的待刪除文字。
根據(jù)本發(fā)明的目的,另外提出一種網(wǎng)站信息提取方法,用以供用戶瀏覽并過(guò)濾環(huán)球信息網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù),此網(wǎng)站信息提取方法首先為用戶設(shè)定一個(gè)網(wǎng)頁(yè)搜尋條件和一個(gè)網(wǎng)頁(yè)過(guò)濾條件。接著依據(jù)網(wǎng)頁(yè)搜尋條件來(lái)搜尋環(huán)球信息網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù),并將搜尋結(jié)果輸出至一個(gè)搜尋網(wǎng)頁(yè)文件。接下來(lái),依據(jù)網(wǎng)頁(yè)過(guò)濾條件提取搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件。
其中,此網(wǎng)站信息提取方法的依據(jù)網(wǎng)頁(yè)過(guò)濾條件提取搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成提取文件的步驟還包括刪除或保留搜尋網(wǎng)頁(yè)文件中位于提取段落起始字與該提取段落結(jié)束字之間的數(shù)據(jù);提取搜尋網(wǎng)頁(yè)文件中位于提取欄起始字與提取欄結(jié)束字之間的數(shù)據(jù)以及刪除搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
為使本發(fā)明的上述目的、特征、和優(yōu)點(diǎn)能更明顯易懂,下文特舉一最佳實(shí)施例,并配合附圖,作詳細(xì)說(shuō)明如下。
圖1示出了傳統(tǒng)搜尋裝置搜尋環(huán)球信息網(wǎng)的方法流程示意圖。
圖2示出了依照本發(fā)明一個(gè)最佳實(shí)施例的一種網(wǎng)站信息提取系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。
圖3示出了圖2中的網(wǎng)站信息提取系統(tǒng)201的系統(tǒng)方框圖。
圖4示出了圖3中的數(shù)據(jù)提取裝置303的系統(tǒng)方框圖。
圖5示出了圖2中的網(wǎng)站信息提取系統(tǒng)201的提取網(wǎng)站信息的方法流程示意圖。
圖6示出了圖2中的網(wǎng)站信息提取系統(tǒng)201的網(wǎng)站信息提取方法的流程圖。
圖7示出了數(shù)據(jù)提取設(shè)定單元401設(shè)定段落提取的設(shè)定界面示意圖。
圖8示出了數(shù)據(jù)提取設(shè)定單元401設(shè)定欄提取的設(shè)定界面示意圖。
圖9示出了數(shù)據(jù)提取設(shè)定單元401設(shè)定標(biāo)記刪除的設(shè)定界面示意圖。
圖10示出了圖6中的步驟605的子步驟流程圖。
具體實(shí)施方式
請(qǐng)參照?qǐng)D2,其示出了依照本發(fā)明一個(gè)最佳實(shí)施例的一種網(wǎng)站信息提取系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。在圖2中,網(wǎng)站信息提取系統(tǒng)201通過(guò)互聯(lián)網(wǎng)(lnternet)203與環(huán)球信息網(wǎng)(world wide web)205連接。其中,環(huán)球信息網(wǎng)205包括多個(gè)網(wǎng)站(web site)207。而網(wǎng)站信息提取系統(tǒng)201可提供用戶用以瀏覽搜尋全球信息205的各網(wǎng)站207的網(wǎng)頁(yè),并可過(guò)濾掉多余的數(shù)據(jù)而提取出用戶所需要的網(wǎng)頁(yè)數(shù)據(jù)及欄數(shù)據(jù)。
接著請(qǐng)參考圖3,其示出了圖2中的網(wǎng)站信息提取系統(tǒng)201的系統(tǒng)方框圖。如圖3中所示,網(wǎng)站信息提取系統(tǒng)201包括搜尋裝置301、數(shù)據(jù)提取裝置303、存儲(chǔ)裝置305、搜尋裝置設(shè)定裝置307以及監(jiān)視器(monitor)309。其中,搜尋裝置設(shè)定裝置307提供用戶設(shè)定的一個(gè)網(wǎng)頁(yè)搜尋條件,而此網(wǎng)頁(yè)搜尋條件用以供搜尋裝置301判斷哪些網(wǎng)站的網(wǎng)頁(yè)需要被搜尋,哪些網(wǎng)頁(yè)不需要被檢索。而搜尋裝置301經(jīng)由互聯(lián)網(wǎng)203與環(huán)球信息網(wǎng)205連接,用以搜尋并提取環(huán)球信息網(wǎng)205的各網(wǎng)站207中符合網(wǎng)頁(yè)搜尋條件的網(wǎng)頁(yè)數(shù)據(jù)。搜尋裝置301將上述的搜尋結(jié)果輸出到一個(gè)搜尋網(wǎng)頁(yè)文件,并且將搜尋網(wǎng)頁(yè)文件存儲(chǔ)到存儲(chǔ)裝置305中。
此時(shí),此搜尋網(wǎng)頁(yè)文件為網(wǎng)頁(yè)原始數(shù)據(jù),其包括網(wǎng)頁(yè)顯示控制標(biāo)記(tag)以及用戶不需要的數(shù)據(jù)。而數(shù)據(jù)提取裝置用于依據(jù)用戶所設(shè)定的一個(gè)網(wǎng)頁(yè)過(guò)濾條件,從搜尋網(wǎng)頁(yè)文件中提取出用戶所需要的數(shù)據(jù)內(nèi)容或欄,并存儲(chǔ)成一個(gè)提取文件。此外,監(jiān)視器309用以顯示提取文件的內(nèi)容。而存儲(chǔ)裝置305用以存儲(chǔ)上述的網(wǎng)頁(yè)搜尋條件、網(wǎng)頁(yè)過(guò)濾條件、搜尋網(wǎng)頁(yè)文件以及提取文件。
接著請(qǐng)參考圖4,其示出了圖3中的數(shù)據(jù)提取裝置303的系統(tǒng)方框圖。如圖4所示,數(shù)據(jù)提取裝置303包括數(shù)據(jù)提取設(shè)定單元401、欄提取單元403、標(biāo)記刪除單元405以及段落提取單元407。其中,數(shù)據(jù)提取設(shè)定單元401用于供用戶設(shè)定上述的網(wǎng)頁(yè)過(guò)濾條件。而網(wǎng)頁(yè)過(guò)濾條件還可包括設(shè)定一個(gè)提取欄起始字、一個(gè)提取欄結(jié)束字、一個(gè)提取段落起始字、一個(gè)提取段落結(jié)束字以及一個(gè)待刪除文字。
欄提取單元403用于提取搜尋網(wǎng)頁(yè)文件中位于提取攔位起始字與提取欄結(jié)束字之間的數(shù)據(jù)或攔位。標(biāo)記刪除單元405用于刪除搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。而段落提取單元407可供用戶設(shè)定刪除或保留搜尋網(wǎng)頁(yè)文件中位于提取段落起始字與提取段落結(jié)束字之間的數(shù)據(jù),亦可用于刪除搜尋網(wǎng)頁(yè)文件中用戶所設(shè)定的待刪除文字。
此外,數(shù)據(jù)提取設(shè)定單元401亦可供用戶彈性設(shè)定欄提取單元403、標(biāo)記刪除單元405以及段落提取單元407的執(zhí)行順序,以便能夠順利提取出用戶所需要的數(shù)據(jù)。
請(qǐng)參考圖5,其示出了圖2中網(wǎng)站信息提取系統(tǒng)201的提取網(wǎng)站信息的方法流程示意圖。例如用戶想要檢索相關(guān)網(wǎng)站中PDA這個(gè)產(chǎn)品的價(jià)格。首先搜尋裝置301依據(jù)網(wǎng)頁(yè)搜尋條件在各網(wǎng)站207中檢索出內(nèi)容為原始網(wǎng)頁(yè)數(shù)據(jù)的搜尋網(wǎng)頁(yè)文件。接著由數(shù)據(jù)提取裝置303從搜尋網(wǎng)頁(yè)文件中提取出用戶所需要的數(shù)據(jù),并存儲(chǔ)為提取文件。如圖5中所示,用戶可直接從提取文件中看到各相關(guān)網(wǎng)站的商品與價(jià)格,毋須連接至各網(wǎng)站的網(wǎng)址才能看到內(nèi)容。
接著請(qǐng)參考圖6,其示出了圖2中網(wǎng)站信息提取系統(tǒng)201的網(wǎng)站信息提取方法的流程圖。在步驟601中,用戶在搜尋裝置設(shè)定裝置307與數(shù)據(jù)提取設(shè)定單元401中分別設(shè)定網(wǎng)頁(yè)搜尋條件與網(wǎng)頁(yè)過(guò)濾條件。而網(wǎng)頁(yè)搜尋條件的設(shè)定至少包括(1)搜尋網(wǎng)址設(shè)定用戶至少設(shè)定一個(gè)網(wǎng)址以供搜尋裝置301連接搜尋。
(2)全文檢索條件設(shè)定用戶至少設(shè)定一個(gè)檢索關(guān)鍵字,以供搜尋裝置301判斷是否要提取此網(wǎng)址的網(wǎng)頁(yè)內(nèi)容的數(shù)據(jù)。
(3)網(wǎng)址搜尋條件設(shè)定用戶可選擇設(shè)定一個(gè)特別字,以供搜尋裝置301判斷一個(gè)網(wǎng)址若包含此特別字,即決定提取該網(wǎng)頁(yè)內(nèi)容。
(4)搜尋網(wǎng)址路徑設(shè)定用戶可選擇設(shè)定一個(gè)路徑關(guān)鍵字,以供搜尋裝置301判斷一個(gè)網(wǎng)址中是否包含此路徑關(guān)鍵字,以決定是否繼續(xù)搜尋此網(wǎng)址的子目錄。
(5)帳號(hào)密碼設(shè)定用戶可選擇設(shè)定一個(gè)帳號(hào)及密碼,當(dāng)一個(gè)網(wǎng)址需要帳號(hào)與密碼才能檢視時(shí),搜尋裝置301將會(huì)以用戶預(yù)先設(shè)定的帳號(hào)與密碼登入。
(6)搜尋深度用戶可選擇設(shè)定搜尋網(wǎng)站時(shí)的深度。
此外,用戶利用數(shù)據(jù)提取設(shè)定單元401來(lái)設(shè)定是否執(zhí)行欄提取單元403、標(biāo)記刪除單元405以及段落提取單元407及其執(zhí)行順序。在此實(shí)施例的中,以段落提取單元407、欄提取單元403、標(biāo)記刪除單元405的順序?yàn)閳?zhí)行順序?yàn)槔M(jìn)行說(shuō)明,但本發(fā)明并不以此為限。同時(shí)請(qǐng)參考圖7,其示出了數(shù)據(jù)提取設(shè)定單元401設(shè)定段落提取的設(shè)定界面示意圖。圖8中的下拉選單701可供用戶選定段落提取、欄提取或標(biāo)記刪除選項(xiàng),借此可設(shè)定段落提取單元407、欄提取單元403、標(biāo)記刪除單元405的執(zhí)行順序。如圖7所示,用戶利用下拉選單701設(shè)定數(shù)據(jù)提取裝置303將首先執(zhí)行段落提取單元407,且用戶可選擇設(shè)定段落提取單元407的操作是段落提取或字串提取(1)段落提取用戶設(shè)定提取段落起始字與提取段落結(jié)束字,并在第一選項(xiàng)703設(shè)定是否刪除或保留位于提取段落起始字與提取段落結(jié)束字之間的文字。另外用戶可利用第二選項(xiàng)705設(shè)定所選取的段落是否包含提取段落起始字與提取段落結(jié)束字。
(2)字串提取用戶輸入待刪除文字。
接著請(qǐng)參考圖8,其示出了數(shù)據(jù)提取設(shè)定單元401設(shè)定欄提取的設(shè)定界面示意圖。在圖8中,用戶選取欄提取以設(shè)定數(shù)據(jù)提取裝置303依序執(zhí)行欄提取單元403。且用戶可輸入至少一組以上的提取欄起始字與提取欄結(jié)束字,以便欄提取單元403提取出位于提取欄起始字與提取欄結(jié)束字之間的欄數(shù)據(jù)。
請(qǐng)參考圖9,其示出了數(shù)據(jù)提取設(shè)定單元401設(shè)定標(biāo)記刪除的設(shè)定界面示意圖。在圖9中,用戶選取標(biāo)記刪除以設(shè)定數(shù)據(jù)提取裝置303在第三個(gè)步驟將執(zhí)行段落提取單元407。其中,用戶可選擇是否刪除空白行。
接著在圖6所示的步驟603中,搜尋裝置301依據(jù)網(wǎng)頁(yè)搜尋條件中的設(shè)定,搜尋環(huán)球信息網(wǎng)205中各網(wǎng)站207的網(wǎng)頁(yè)數(shù)據(jù),并提取符合網(wǎng)頁(yè)搜尋條件的網(wǎng)頁(yè)數(shù)據(jù)且輸出到搜尋網(wǎng)頁(yè)文件。接著進(jìn)行步驟605。
在步驟605中,數(shù)據(jù)提取裝置303依據(jù)設(shè)定的網(wǎng)頁(yè)過(guò)濾條件,從搜尋網(wǎng)頁(yè)文件中提取內(nèi)容而形成提取文件。而此步驟的詳細(xì)子步驟,請(qǐng)參考圖10。圖10示出了圖6中的步驟605的子步驟流程圖。在步驟1001中,段落提取單元407刪除或保留搜尋網(wǎng)頁(yè)文件中位于提取段落起始字與提取段落結(jié)束字之間的數(shù)據(jù),或者刪除用戶所設(shè)定的待刪除文字。
接著在步驟1003中,欄提取單元403提取網(wǎng)頁(yè)文件中位于提取欄起始字與提取欄結(jié)束字之間的數(shù)據(jù)。接著進(jìn)行步驟1005,標(biāo)記刪除單元405刪除搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。在步驟607中,監(jiān)視器309向用戶顯示提取文件的內(nèi)容。如此即完成了本發(fā)明的網(wǎng)站信息提取方法。
在上述實(shí)施例之中,以段落提取、欄提取、標(biāo)記刪除的順序?yàn)閿?shù)據(jù)提取裝置303從搜尋網(wǎng)頁(yè)文件中提取內(nèi)容形成提取文件的操作順序?yàn)槔M(jìn)行說(shuō)明,但本發(fā)明并不以此為限。用戶可以自行設(shè)定以便能夠達(dá)到提取出適當(dāng)?shù)臄?shù)據(jù)。
本發(fā)明上述實(shí)施例所披露的網(wǎng)站信息提取系統(tǒng)與方法,除通過(guò)上述的設(shè)定步驟,替代了人力處理數(shù)據(jù)搜尋提取與整理的大量工作負(fù)荷外,對(duì)于鎖定提取的目標(biāo)數(shù)據(jù),還可以通過(guò)提取系統(tǒng)流程的設(shè)定,達(dá)到及時(shí)更新的效果,相比于一般的搜尋裝置對(duì)于數(shù)據(jù)及時(shí)性的掌握也更有效率;此外,本發(fā)明還具有下列優(yōu)點(diǎn)(1)本發(fā)明的網(wǎng)站信息提取系統(tǒng)將用戶欲檢索的數(shù)據(jù)提取并顯示出來(lái),并過(guò)濾掉不需要的數(shù)據(jù),非常方便用戶的閱讀,節(jié)省了用戶再搜尋的時(shí)間。
(2)本發(fā)明的網(wǎng)站信息提取系統(tǒng)將環(huán)球信息網(wǎng)205中各網(wǎng)站207中符合用戶所需要的數(shù)據(jù)均并列顯示出來(lái),便于用戶比較不同網(wǎng)頁(yè)的數(shù)據(jù)相關(guān)性與差異性。
綜上所述,雖然本發(fā)明已以一最佳實(shí)施例披露如上,但其并非用以限定本發(fā)明,所屬領(lǐng)域的任何普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的前提下,應(yīng)當(dāng)可以做出各種的修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以后附的權(quán)利要求書(shū)所限定的范圍為準(zhǔn)。
權(quán)利要求
1.一種網(wǎng)站信息提取系統(tǒng),通過(guò)互聯(lián)網(wǎng)(Internet)與環(huán)球信息網(wǎng)(world wide web)連接,用以瀏覽并過(guò)濾該環(huán)球信息網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù),所述網(wǎng)站信息提取系統(tǒng)至少包括一個(gè)搜尋裝置,經(jīng)由互聯(lián)網(wǎng)與環(huán)球信息網(wǎng)連接,用以依據(jù)用戶所設(shè)定的一個(gè)網(wǎng)頁(yè)搜尋條件來(lái)搜尋該環(huán)球信息網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù),并將搜尋結(jié)果輸出到一個(gè)搜尋網(wǎng)頁(yè)文件中;一個(gè)數(shù)據(jù)提取裝置,用于接收所述搜尋網(wǎng)頁(yè)文件,并依據(jù)用戶所設(shè)定的一個(gè)網(wǎng)頁(yè)過(guò)濾條件來(lái)提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件;以及一個(gè)存儲(chǔ)裝置,用于存儲(chǔ)所述網(wǎng)頁(yè)搜尋條件、所述網(wǎng)頁(yè)過(guò)濾條件、所述搜尋網(wǎng)頁(yè)文件以及所述提取文件。
2.如權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還包括一個(gè)監(jiān)視器(monitor),所述監(jiān)視器用于顯示所述提取文件的內(nèi)容。
3.如權(quán)利要求1所述的系統(tǒng),其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字、一個(gè)提取欄結(jié)束字、一個(gè)提取段落起始字、一個(gè)提取段落結(jié)束字以及一個(gè)待刪除文字,且所述數(shù)據(jù)提取裝置還包括一個(gè)欄提取單元,用于提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);一個(gè)標(biāo)記刪除單元,用于刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記(tag);以及一個(gè)段落提取單元,用于刪除或保留所述搜尋網(wǎng)頁(yè)文件中位于所述提取段落起始字與所述提取段落結(jié)束字之間的數(shù)據(jù),還可用于刪除所述搜尋網(wǎng)頁(yè)文件中的所述待刪除文字。
4.如權(quán)利要求3所述的系統(tǒng),其中所述數(shù)據(jù)提取裝置還包括一個(gè)數(shù)據(jù)提取設(shè)定單元,所述數(shù)據(jù)提取設(shè)定單元用于供所述用戶設(shè)定所述網(wǎng)頁(yè)過(guò)濾條件。
5.如權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還包括一個(gè)搜尋裝置設(shè)定裝置,所述搜尋裝置設(shè)定裝置用于供所述用戶設(shè)定所述網(wǎng)頁(yè)搜尋條件。
6.一種網(wǎng)站信息提取方法,用于供一個(gè)用戶瀏覽并過(guò)濾環(huán)球信息網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù),所述網(wǎng)站信息提取方法包括所述用戶設(shè)定一個(gè)網(wǎng)頁(yè)搜尋條件與一個(gè)網(wǎng)頁(yè)過(guò)濾條件;依據(jù)所述網(wǎng)頁(yè)搜尋條件,搜尋所述環(huán)球信息網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù),并將搜尋結(jié)果輸出到一個(gè)搜尋網(wǎng)頁(yè)文件中;以及依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件,提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件。
7.如權(quán)利要求6所述的方法,其中所述方法還包括顯示所述提取文件的內(nèi)容。
8.如權(quán)利要求6所述的方法,其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字、一個(gè)提取欄結(jié)束字、一個(gè)提取段落起始字以及一個(gè)提取段落結(jié)束字,且依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件來(lái)提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件的步驟還包括刪除或保留所述搜尋網(wǎng)頁(yè)文件中位于所述提取段落起始字與所述提取段落結(jié)束字之間的數(shù)據(jù);提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);以及刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
9.如權(quán)利要求6所述的方法,其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字、一個(gè)提取欄結(jié)束字以及一個(gè)待刪除文字,且依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件的步驟還包括刪除所述搜尋網(wǎng)頁(yè)文件中的所述待刪除文字;提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);以及刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
10.如權(quán)利要求6所述的方法,其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字以及一個(gè)提取欄結(jié)束字,且依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件的步驟還包括提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);以及刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
11.一種計(jì)算機(jī)可讀的記錄媒體,包括一個(gè)用于執(zhí)行網(wǎng)站信息提取方法的程序,其中所述方法用于供用戶瀏覽并過(guò)濾環(huán)球信息網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù),所述網(wǎng)站信息提取方法包括所述用戶設(shè)定一個(gè)網(wǎng)頁(yè)搜尋條件與一個(gè)網(wǎng)頁(yè)過(guò)濾條件;依據(jù)所述網(wǎng)頁(yè)搜尋條件,搜尋所述環(huán)球信息網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù),并將搜尋結(jié)果輸出到一個(gè)搜尋網(wǎng)頁(yè)文件中;以及依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件,提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容并形成一個(gè)提取文件。
12.如權(quán)利要求11所述的計(jì)算機(jī)可讀記錄媒體,其中所述方法還包括顯示所述提取文件的內(nèi)容。
13.如權(quán)利要求11所述的計(jì)算機(jī)可讀記錄媒體,其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字、一個(gè)提取欄結(jié)束字、一個(gè)提取段落起始字以及一個(gè)提取段落結(jié)束字,且依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容形成一個(gè)提取文件的步驟還包括刪除或保留所述搜尋網(wǎng)頁(yè)文件中位于所述提取段落起始字與所述提取段落結(jié)束字之間的數(shù)據(jù);提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);以及刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
14.如權(quán)利要求11所述的計(jì)算機(jī)可讀記錄媒體,其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字、一個(gè)提取欄結(jié)束字以及一個(gè)待刪除文字,且依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容形成一個(gè)提取文件的步驟還包括刪除所述搜尋網(wǎng)頁(yè)文件中的所述待刪除文字;提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);以及刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
15.如權(quán)利要求11所述的計(jì)算機(jī)可讀記錄媒體,其中所述網(wǎng)頁(yè)過(guò)濾條件還包括一個(gè)提取欄起始字以及一個(gè)提取欄結(jié)束字,且依據(jù)所述網(wǎng)頁(yè)過(guò)濾條件提取所述搜尋網(wǎng)頁(yè)文件的內(nèi)容形成一個(gè)提取文件的步驟還包括提取所述搜尋網(wǎng)頁(yè)文件中位于所述提取欄起始字與所述提取欄結(jié)束字之間的數(shù)據(jù);以及刪除所述搜尋網(wǎng)頁(yè)文件中的所有網(wǎng)頁(yè)顯示控制標(biāo)記。
全文摘要
一種網(wǎng)站信息提取系統(tǒng),用以瀏覽并過(guò)濾環(huán)球信息網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù),其至少包括一個(gè)搜尋裝置、一個(gè)數(shù)據(jù)提取裝置以及一個(gè)存儲(chǔ)裝置。其中,搜尋裝置用于依據(jù)一個(gè)網(wǎng)頁(yè)搜尋條件,搜尋環(huán)球信息網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù),并將搜尋結(jié)果輸出到一個(gè)搜尋網(wǎng)頁(yè)文件。而數(shù)據(jù)提取裝置用于依據(jù)用戶所設(shè)定的一個(gè)網(wǎng)頁(yè)過(guò)濾條件,提取搜尋網(wǎng)頁(yè)文件的內(nèi)容而形成一個(gè)提取文件。存儲(chǔ)裝置用于存儲(chǔ)網(wǎng)頁(yè)搜尋條件、網(wǎng)頁(yè)過(guò)濾條件、搜尋網(wǎng)頁(yè)文件以及提取文件。此系統(tǒng)可顯示來(lái)自不同網(wǎng)站的搜尋數(shù)據(jù),以利于用戶瀏覽不同網(wǎng)頁(yè)的檢索結(jié)果。
文檔編號(hào)G06F17/30GK1402156SQ0112363
公開(kāi)日2003年3月12日 申請(qǐng)日期2001年8月22日 優(yōu)先權(quán)日2001年8月22日
發(fā)明者黃子癸 申請(qǐng)人:威瑟科技股份有限公司