亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

網(wǎng)頁下載解析系統(tǒng)及方法

文檔序號:6615330閱讀:209來源:國知局
專利名稱:網(wǎng)頁下載解析系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種網(wǎng)頁下載解析系統(tǒng)及方法。
背景技術(shù)
獲取商業(yè)新聞和行業(yè)資料以供決策者分析,是企業(yè)活動中的重要內(nèi)容。隨著互聯(lián)網(wǎng)的運(yùn) 用,企業(yè)(尤其是大型企業(yè))從公共網(wǎng)站下載各種資料保存到自己的數(shù)據(jù)庫中越來越普遍, 通常下載的網(wǎng)頁中包括各種資料(如文本、圖片),目前企業(yè)從公共網(wǎng)站上下載的資料數(shù) 量龐大,通常下載的方式是訪問網(wǎng)站上的每條資料頁面,之后判斷該條資料是否下載,如此 既費(fèi)時,效率不高,且浪費(fèi)網(wǎng)絡(luò)資源。

發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種網(wǎng)頁下載解析系統(tǒng),其可以通過在數(shù)據(jù)庫中査找資料的 標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址判斷該條資料是否存在,對數(shù)據(jù)庫中不存在該標(biāo)題及標(biāo)題對 應(yīng)的網(wǎng)頁鏈接地址的資料進(jìn)行下載。
此外,還有必要提供一種網(wǎng)頁下載解析方法,其可以通過在數(shù)據(jù)庫中査找資料的標(biāo)題及 標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址判斷資料是否存在,對數(shù)據(jù)庫中不存在該標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈 接地址的資料進(jìn)行下載。
一種網(wǎng)頁下載解析系統(tǒng),包括客戶端計算機(jī)、服務(wù)器及數(shù)據(jù)庫,所述客戶端計算機(jī)包括 訪問下載模塊、獲取模塊及截取生成模塊,所述服務(wù)器包括判斷模塊、解析模塊、保存模塊 及生成模塊,其中訪問下載模塊,用于訪問設(shè)置的網(wǎng)頁并將其以XML文件形式下載到客戶 端計算機(jī)的內(nèi)存中;獲取模塊,用于獲取所述XML文件中的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址 ;判斷模塊,用于判斷數(shù)據(jù)庫中是否存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址;所述訪問下 載模塊,還用于當(dāng)數(shù)據(jù)庫中不存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址時,根據(jù)上述標(biāo)題的 網(wǎng)頁鏈接地址訪問該標(biāo)題網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī)的內(nèi)存中;截取生 成模塊,用于根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽及存放位置,截取標(biāo)題網(wǎng)頁的XML文件中用戶 需要的資料,之后將用戶需要的資料生成新的XML文件;解析模塊,用于根據(jù)資料在XML文件 中對應(yīng)的標(biāo)簽,將所述新生成的XML文件中的相關(guān)資料解析出來,使其與數(shù)據(jù)庫中存放資料 的格式一致;保存模塊,用于將所述解析的資料保存到數(shù)據(jù)庫中,并對所述解析的資料建立 全文索引;所述判斷模塊,還用于判斷所述新生成的XML文件中是否存在圖片資料;所述訪問下載模塊,還用于當(dāng)所述新生成的XML文件中存在圖片資料時,用于根據(jù)圖片的鏈接地址 訪問該圖片并將該圖片下載到客戶端計算機(jī)的內(nèi)存中;生成模塊,用于在服務(wù)器中生成該圖 片的存放路徑;所述保存模塊,還用于根據(jù)所述圖片存放路徑將客戶端計算機(jī)內(nèi)存中的圖片 保存到服務(wù)器的存儲介質(zhì)中。
一種網(wǎng)頁下載解析方法,該方法包括如下步驟訪問設(shè)置的網(wǎng)頁并將其以XML文件形式 下載到客戶端計算機(jī)的內(nèi)存中;獲取所述XML文件中的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址;判 斷數(shù)據(jù)庫中是否存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址;當(dāng)數(shù)據(jù)庫中不存在所述標(biāo)題及標(biāo) 題對應(yīng)的網(wǎng)頁鏈接地址時,根據(jù)上述標(biāo)題的網(wǎng)頁鏈接地址訪問該標(biāo)題網(wǎng)頁并將其以XML文件 形式下載到客戶端計算機(jī)的內(nèi)存中;根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽及存放位置,截取該 標(biāo)題網(wǎng)頁的XML文件中用戶需要的資料,之后將用戶需要的資料生成新的XML文件;根據(jù)資料 在XML文件中對應(yīng)的標(biāo)簽,將所述新生成的XML文件中的相關(guān)資料解析出來,使其與數(shù)據(jù)庫中 存放資料的格式一致;將所述解析的資料保存到數(shù)據(jù)庫中,并對所述解析的資料建立全文索 引;當(dāng)所述新生成的XML文件中存在圖片資料時,根據(jù)圖片的鏈接地址訪問該圖片并將該圖 片下載到客戶端計算機(jī)的內(nèi)存中,在服務(wù)器中生成該圖片的存放路徑,根據(jù)所述圖片存放路 徑將客戶端計算機(jī)內(nèi)存中的圖片保存到服務(wù)器的存儲介質(zhì)中。
相較于現(xiàn)有技術(shù),其可以通過在數(shù)據(jù)庫中査找資料的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址判 斷該條資料是否存在,對數(shù)據(jù)庫中不存在該標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址的資料進(jìn)行下載 ,避免了系統(tǒng)對每條資料都進(jìn)行訪問,提高了下載效率,節(jié)約了網(wǎng)絡(luò)資源。


圖l是本發(fā)明網(wǎng)頁下載解析系統(tǒng)的較佳實(shí)施例的硬件框架圖。 圖2是本發(fā)明網(wǎng)頁下載解析系統(tǒng)較佳實(shí)施例的功能模塊圖。 圖3是本發(fā)明網(wǎng)頁下載解析方法較佳實(shí)施例的流程圖。
具體實(shí)施例方式
如圖1所示,是本發(fā)明一種網(wǎng)頁下載解析系統(tǒng)較佳實(shí)施例的硬件架構(gòu)圖。該系統(tǒng)包括互 聯(lián)網(wǎng)IO、客戶端計算機(jī)20、服務(wù)器30及數(shù)據(jù)庫40。該服務(wù)器30可以是個人計算機(jī)、網(wǎng)絡(luò)服務(wù) 器,還可以是任意其它適用的計算機(jī)。
該服務(wù)器30與數(shù)據(jù)庫40相連,該數(shù)據(jù)庫40用于存儲服務(wù)器30所保存的網(wǎng)頁文本資料及操 作過程中的各種信息,該數(shù)據(jù)庫40可以內(nèi)置于服務(wù)器30,也可以外置于服務(wù)器30。
此外,該服務(wù)器30與至少一客戶端計算機(jī)20相連,該客戶端計算機(jī)20用于提供一個互動 式界面給用戶,便于用戶進(jìn)行操作并將操作過程中的各種信息保存于服務(wù)器30中,客戶端計算機(jī)20通過互聯(lián)網(wǎng)訪問用戶設(shè)置的網(wǎng)站地址,并將訪問的網(wǎng)頁以XML (Extensible Markup Language,可擴(kuò)展標(biāo)記語言)文件形式下載到客戶端計算機(jī)20的內(nèi)存中。
如圖2所示,是本發(fā)明網(wǎng)頁下載解析系統(tǒng)較佳實(shí)施例的功能模塊圖。所述客戶端計算機(jī) 20包括訪問下載模塊201、獲取模塊202及截取生成模塊203。所述服務(wù)器30包括判斷模塊 301、解析模塊302、保存模塊303、修正模塊304、生成模塊305及增加模塊306。本發(fā)明所稱 的模塊是完成一特定功能的計算機(jī)程序段,比程序更適合于描述軟件在計算機(jī)中的執(zhí)行過程 ,因此在本發(fā)明以下對軟件描述中都以模塊描述。
所述訪問下載模塊201用于訪問設(shè)置的網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī) 20的內(nèi)存中。具體而言,用戶在進(jìn)行網(wǎng)頁下載之前會設(shè)置網(wǎng)頁的鏈接地址, 一般情況下,由 于下載的是新聞資料,通常用戶進(jìn)行設(shè)置的網(wǎng)頁鏈接地址是大型新聞網(wǎng)站的鏈接地址,訪問 下載模塊201根據(jù)用戶設(shè)置的網(wǎng)頁鏈接地址訪問該網(wǎng)頁,并將該網(wǎng)頁以XML文件形式下載到客 戶端計算機(jī)20的內(nèi)存中,下載的方式是通過腳本語言下載命令(如Xquery腳本語言下載命 令)將網(wǎng)頁以XML文件形式下載到客戶端計算機(jī)20的內(nèi)存中,要下載不同的網(wǎng)站上資料需要 設(shè)置對應(yīng)網(wǎng)站的鏈接地址。
所述獲取模塊202用于獲取所述XML文件中的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址。具體而言 ,通常用戶設(shè)置的網(wǎng)頁上每條新聞資料都有對應(yīng)的標(biāo)題,標(biāo)題下都有對應(yīng)的網(wǎng)頁鏈接地址。 網(wǎng)頁轉(zhuǎn)換成XML文件格式之后網(wǎng)頁上所有的資料都有對應(yīng)的標(biāo)簽,例如,網(wǎng)頁資料發(fā)布日期 的信息在XML文件中有對應(yīng)的標(biāo)簽"date",資料的標(biāo)題有對應(yīng)的標(biāo)簽"title",資料的內(nèi) 容有對應(yīng)的標(biāo)簽"content",獲取模塊202通過讀取XML文件中的標(biāo)簽"title"就可以直接 獲取該網(wǎng)頁下的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址。
所述判斷模塊301用于判斷數(shù)據(jù)庫40中是否存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址。
所述訪問下載模塊201用于當(dāng)數(shù)據(jù)庫40中不存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址時 ,根據(jù)上述標(biāo)題的網(wǎng)頁鏈接地址訪問該標(biāo)題網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī) 20的內(nèi)存中。
所述截取生成模塊203用于根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽及存放位置,截取標(biāo)題網(wǎng)頁 的XML文件中用戶需要的資料,之后將用戶需要的資料生成新的XML文件。具體而言,通常網(wǎng) 頁上除了用戶需要的資料(如新聞資料)之外,還有一些其它資料(如廣告等),網(wǎng)頁 上資料的排版是固定的,例如,新聞資料在某一個固定的位置,廣告在一個固定的位置,網(wǎng) 頁在轉(zhuǎn)換成XML文件形式之后,截取生成模塊203讀取XML文件中的標(biāo)簽"content"下所有資 料的內(nèi)容,之后在存放新聞資料的位置上截取所述新聞資料,并生成新的XML文件。所述新生成的XML文件中只包含用戶需要的資料。
所述解析模塊302用于根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽,將所述新生成的XML文件中的 相關(guān)資料解析出來,使其與數(shù)據(jù)庫中存放資料的格式一致。
所述保存模塊303用于將所述解析的資料保存到數(shù)據(jù)庫40中,并對所述解析的資料建立 全文索引。具體而言,在本較佳實(shí)施例中,通過一個用Java寫的全文索引引擎工具包( Lucene工具包,它可以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對應(yīng)用的全文索引及檢索功能)對所 述解析的資料建立全文索引,用戶通過全文索引可以很方便在數(shù)據(jù)庫40中査詢到所需要的資 料。
所述判斷模塊301還用于判斷所述新生成的XML文件中是否存在圖片資料。具體而言,判 斷XML文件中是否存在"image"的標(biāo)簽,若存在image"的標(biāo)簽,則存在圖片資料。
所述判斷模塊301還用于當(dāng)所述新生成的XML文件中存在圖片資料時,判斷該圖片的鏈接 地址是否齊全。具體而言,判斷圖片的鏈接地址是否存在"http"前綴,若存在,則說明圖 片的鏈接地址齊全,若不存在,則說明圖片的鏈接地址不齊全。
所述修正模塊304用于當(dāng)圖片的鏈接地址不齊全時,將所述不齊全的圖片的鏈接地址進(jìn) 行修正。具體而言,在本較佳實(shí)施例中,修正模塊304在所述不齊全的圖片的鏈接地址上增 加所述設(shè)置的網(wǎng)頁的鏈接地址,例如,圖片的鏈接地址為
/1204/U1235P2DT20071204084850. jpg,用戶設(shè)置鏈接地址為http:〃tech. com. cn/.則在 圖片的鏈接地址前加上設(shè)置的鏈接地址,修正后的圖片的鏈接地址為
http:〃tech. com. cn/1204/U1235P2DT20071204084850. jpg。然而,視不同情況,在其它實(shí) 施例中,也可以通過其它方式進(jìn)行修正。
所述保存模塊303用于將修正后圖片的鏈接地址及當(dāng)前時間保存到數(shù)據(jù)庫40中,以其作 為圖片的屬性信息。
所述訪問下載模塊201用于根據(jù)圖片的鏈接地址訪問該圖片并將該圖片下載到客戶端計 算機(jī)20的內(nèi)存中。下載的方式是以二進(jìn)制流的方式暫時存放在客戶端計算機(jī)20的內(nèi)存中。 所述生成模塊305用于在服務(wù)器30中生成圖片的存放路徑。
所述保存模塊303還用于根據(jù)上述圖片存放路徑將客戶端計算機(jī)20內(nèi)存中的圖片保存到 服務(wù)器30的存儲介質(zhì)中。所述的存儲介質(zhì)可以是閃存、隨機(jī)存儲器(RAM: Random Access Memory)、硬盤以及任意合適的能夠進(jìn)行文件保存的存儲介質(zhì),在本較佳實(shí)施例中,存儲介 質(zhì)為硬盤。
所述添加模塊306用于在所述圖片的屬性信息中增加圖片保存的路徑信息。如圖3所示,是本發(fā)明一種網(wǎng)頁下載解析方法的較佳實(shí)施例的流程圖。 首先,步驟SIO,訪問下載模塊201訪問設(shè)置的網(wǎng)頁并將其以XML文件形式下載到客戶端 計算機(jī)20的內(nèi)存中。具體而言,用戶在進(jìn)行網(wǎng)頁下載之前會設(shè)置網(wǎng)頁的鏈接地址, 一般情況 下,由于下載的是新聞資料,通常用戶進(jìn)行設(shè)置的網(wǎng)頁鏈接地址是大型新聞網(wǎng)站的鏈接地址 ,訪問下載模塊201根據(jù)用戶設(shè)置的網(wǎng)頁鏈接地址訪問該網(wǎng)頁,并將該網(wǎng)頁以XML文件形式 下載到客戶端計算機(jī)20的內(nèi)存中,下載的方式是通過腳本語言下載命令(如Xquery腳本語 言下載命令)將網(wǎng)頁以XML文件形式下載到客戶端計算機(jī)20的內(nèi)存中,要下載不同的網(wǎng)站上 資料需要設(shè)置對應(yīng)網(wǎng)站的鏈接地址。
步驟Sll,獲取模塊202獲取所述XML文件中的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址。具體而 言,通常用戶設(shè)置的網(wǎng)頁上每條新聞資料都有對應(yīng)的標(biāo)題,標(biāo)題下都有對應(yīng)的網(wǎng)頁鏈接地址 。網(wǎng)頁轉(zhuǎn)換成XML文件格式之后網(wǎng)頁上所有的資料都有對應(yīng)的標(biāo)簽,例如,網(wǎng)頁資料發(fā)布日 期的信息在XML文件中有對應(yīng)的標(biāo)簽"date",資料的標(biāo)題有對應(yīng)的標(biāo)簽"title",資料的 內(nèi)容有對應(yīng)的標(biāo)簽"content",獲取模塊202通過讀取XML文件中的標(biāo)簽"title"就可以直 接獲取該網(wǎng)頁下的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址。
步驟S12,判斷模塊301判斷數(shù)據(jù)庫40中是否存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址。 步驟S13,當(dāng)數(shù)據(jù)庫40中不存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址時,根據(jù)上述標(biāo)題 的網(wǎng)頁鏈接地址訪問下載模塊201訪問該標(biāo)題網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī) 20的內(nèi)存中。
步驟S14,根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽及存放位置,截取生成模塊203根據(jù)用戶的 需要截取標(biāo)題網(wǎng)頁的XML文件中用戶需要的資料,之后將用戶需要的資料生成新的XML文件。 具體而言,通常網(wǎng)頁上除了用戶需要的資料(如新聞資料)之外,還有一些等其它資料( 如廣告等),網(wǎng)頁上資料的排版是固定的,例如,新聞資料在某一個固定的位置,廣告在 一個固定的位置,網(wǎng)頁在轉(zhuǎn)換成XML文件形式之后,截取生成模塊203讀取XML文件中的標(biāo)簽 "content"下所有資料的內(nèi)容,之后在存放新聞資料的位置上截取所述新聞資料,并生成 新的XML文件。所述新生成的XML文件中只包含用戶需要的資料。
步驟S15,解析模塊302根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽,將所述新生成的XML文件中的 相關(guān)資料解析出來,使其與數(shù)據(jù)庫中存放資料的格式一致。
步驟S16,保存模塊303將所述解析的資料保存到數(shù)據(jù)庫40中,并對所述解析的資料建立 全文索引。具體而言,在本較佳實(shí)施例中,通過一個用Java寫的全文索引引擎工具包( Lucene工具包,它可以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對應(yīng)用的全文索引及檢索功能)對所述解析的資料建立全文索引,用戶通過全文索引可以很方便在數(shù)據(jù)庫40中査詢到所需要的資 料。
步驟S17,判斷模塊301判斷所述新生成的XML文件中是否存在圖片資料。具體而言,判 斷XML文件中是否存在"image"的標(biāo)簽,若存在image"的標(biāo)簽,則存在圖片資料。
步驟S18,當(dāng)所述新生成的XML文件中存在圖片資料時,判斷模塊301判斷該圖片的鏈接 地址是否齊全。具體而言,判斷圖片的鏈接地址是否存在"http"的前綴,若存在,則說明 圖片的鏈接地址齊全,若不存在,則說明圖片的鏈接地址不齊全。
步驟S19,當(dāng)圖片的鏈接地址不齊全時,修正模塊304將所述不齊全的圖片的鏈接地址進(jìn) 行修正。具體而言,在本較佳實(shí)施例中,修正模塊304在所述不齊全的圖片的鏈接地址上增 加所述設(shè)置的網(wǎng)頁的鏈接地址,例如,圖片的鏈接地址為
/1204/U1235P2DT20071204084850. jpg,用戶設(shè)置鏈接地址為http:〃tech. com. cn/.則在 圖片的鏈接地址前加上設(shè)置的鏈接地址,修正后的圖片的鏈接地址為
http:〃tech. com. cn/1204/U1235P2DT20071204084850. jpg。然而,視不同情況,在其它實(shí) 施例中,也可以通過其它方式進(jìn)行修正。
步驟S20,保存模塊303將修正后圖片的鏈接地址及當(dāng)前時間保存到數(shù)據(jù)庫40中,以其作 為圖片的屬性信息。
步驟S21 ,訪問下載模塊201根據(jù)圖片的鏈接地址訪問該圖片并將該圖片下載到客戶端計 算機(jī)20的內(nèi)存中。下載的方式是以二進(jìn)制流的方式暫時存放在客戶端計算機(jī)20的內(nèi)存中。 步驟S22,生成模塊305在服務(wù)器30中生成圖片的存放路徑。
步驟S23,根據(jù)上述圖片存放路徑,保存模塊303將客戶端計算機(jī)20內(nèi)存中的圖片保存
到服務(wù)器30的存儲介質(zhì)中。
步驟S24,添加模塊306在所述圖片的屬性信息中增加圖片保存的路徑信息。 在步驟S12中,當(dāng)數(shù)據(jù)庫40中存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址時,則直接結(jié)束流程。
在步驟S17中,當(dāng)所述新生成的XML文件中不存在圖片資料時,則直接結(jié)束流程。 在步驟S18中,當(dāng)圖片的鏈接地址齊全時,則轉(zhuǎn)到步驟S20。
最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照以上 較佳實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技 術(shù)方案進(jìn)行修改或等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍。
10
權(quán)利要求
權(quán)利要求1一種網(wǎng)頁下載解析系統(tǒng),包括客戶端計算機(jī)、服務(wù)器及數(shù)據(jù)庫,其特征在于,所述客戶端計算機(jī)包括訪問下載模塊、獲取模塊及截取生成模塊,所述服務(wù)器包括判斷模塊、解析模塊、保存模塊及生成模塊,其中訪問下載模塊,用于訪問設(shè)置的網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī)的內(nèi)存中;獲取模塊,用于獲取所述XML文件中的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址;判斷模塊,用于判斷數(shù)據(jù)庫中是否存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址;所述訪問下載模塊,還用于當(dāng)數(shù)據(jù)庫中不存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址時,根據(jù)上述標(biāo)題的網(wǎng)頁鏈接地址訪問該標(biāo)題網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī)的內(nèi)存中;截取生成模塊,用于根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽及存放位置,截取標(biāo)題網(wǎng)頁的XML文件中用戶需要的資料,之后將用戶需要的資料生成新的XML文件;解析模塊,用于根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽,將所述新生成的XML文件中的相關(guān)資料解析出來,使其與數(shù)據(jù)庫中存放資料的格式一致;保存模塊,用于將所述解析的資料保存到數(shù)據(jù)庫中,并對所述解析的資料建立全文索引;所述判斷模塊,還用于判斷所述新生成的XML文件中是否存在圖片資料;所述訪問下載模塊,還用于當(dāng)所述新生成的XML文件中存在圖片資料時,用于根據(jù)圖片的鏈接地址訪問該圖片并將該圖片下載到客戶端計算機(jī)的內(nèi)存中;生成模塊,用于在服務(wù)器中生成該圖片的存放路徑;及所述保存模塊,還用于根據(jù)所述圖片存放路徑將客戶端計算機(jī)內(nèi)存中的圖片保存到服務(wù)器的存儲介質(zhì)中。
2. 如權(quán)利要求l所述的網(wǎng)頁下載解析系統(tǒng),其特征在于,所述判斷模 塊還用于當(dāng)所述新生成的XML文件中存在圖片資料時,判斷該圖片的鏈接地址是否齊全;所述服務(wù)器還包括修正模塊,所述修正模塊用于當(dāng)圖片的鏈接地址不齊全時,將所述不齊全的 圖片的鏈接地址進(jìn)行修正。
3. 如權(quán)利要求2所述的網(wǎng)頁下載解析系統(tǒng),其特征在于,所述保存模 塊還用于將圖片的鏈接地址及當(dāng)前時間保存到數(shù)據(jù)庫中,以其作為圖片的屬性信息。
4. 如權(quán)利要求3所述的網(wǎng)頁下載解析系統(tǒng),其特征在于,所述服務(wù)器 還包括增加模塊,所述增加模塊用于在所述圖片的屬性信息中增加圖片保存的路徑信息。
5. 如權(quán)利要求l所述的網(wǎng)頁下載解析系統(tǒng),其特征在于,所述新生成 的XML文件中的相關(guān)資料包括資料的日期、作者、正文及資料來源。
6. 一種網(wǎng)頁下載解析方法,其特征在于,該方法包括如下步驟 訪問設(shè)置的網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī)的內(nèi)存中; 獲取所述XML文件中的標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址; 判斷數(shù)據(jù)庫中是否存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址;當(dāng)數(shù)據(jù)庫中不存在所述標(biāo)題及標(biāo)題對應(yīng)的網(wǎng)頁鏈接地址時,根據(jù)上述標(biāo)題的網(wǎng)頁鏈接 地址訪問該標(biāo)題網(wǎng)頁并將其以XML文件形式下載到客戶端計算機(jī)的內(nèi)存中;根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽及存放位置,截取該標(biāo)題網(wǎng)頁的XML文件中用戶需要 的資料,之后將用戶需要的資料生成新的XML文件;根據(jù)資料在XML文件中對應(yīng)的標(biāo)簽,將所述新生成的XML文件中的相關(guān)資料解析出來, 使其與數(shù)據(jù)庫中存放資料的格式一致;將所述解析的資料保存到數(shù)據(jù)庫中,并對所述解析的資料建立全文索引;當(dāng)所述新生成的XML文件中存在圖片資料時,根據(jù)圖片的鏈接地址訪問該圖片并將該圖 片下載到客戶端計算機(jī)的內(nèi)存中,在服務(wù)器中生成該圖片的存放路徑,根據(jù)所述圖片存放路 徑將客戶端計算機(jī)內(nèi)存中的圖片保存到服務(wù)器的存儲介質(zhì)中。
7. 如權(quán)利要求6所述的網(wǎng)頁下載解析方法,其特征在于,該方法在根 據(jù)圖片的鏈接地址訪問該圖片之前包括步驟當(dāng)所述新生成的XML文件中存在圖片資料時,判斷該圖片的鏈接地址是否齊全;當(dāng)圖片的鏈接地址不齊全時,則將所述不齊全的圖片的鏈接地址進(jìn)行修正。
8. 如權(quán)利要求7所述的網(wǎng)頁下載解析方法,其特征在于,該方法在根 據(jù)圖片的鏈接地址訪問該圖片之前還包括步驟將圖片的鏈接地址及當(dāng)前時間保存到數(shù)據(jù)庫中,以其作為圖片的屬性信息。
9. 如權(quán)利要求8所述的網(wǎng)頁下載解析方法,其特征在于,該方法還包括步驟在所述圖片的屬性信息中增加圖片保存的路徑信息。
10.如權(quán)利要求6所述的網(wǎng)頁下載解析方法,其特征在于,所述新生 成的XML文件中的相關(guān)資料包括資料的日期、作者、正文及資料來源。
全文摘要
一種網(wǎng)頁下載解析方法,該方法包括如下步驟訪問設(shè)置的網(wǎng)頁并將其以XML文件形式下載;獲取所述XML文件中的標(biāo)題及其鏈接地址;當(dāng)數(shù)據(jù)庫中不存在所述標(biāo)題及其鏈接地址時,訪問該標(biāo)題網(wǎng)頁并將其以XML文件形式下載;截取標(biāo)題網(wǎng)頁的XML文件中用戶需要的資料,生成新的XML文件;解析新生成的XML文件中的資料;將解析的資料保存到數(shù)據(jù)庫中;當(dāng)新生成的XML文件中存在圖片資料時,訪問該圖片并下載該圖片,在服務(wù)器中生成圖片的存放路徑,根據(jù)圖片存放路徑將圖片保存到服務(wù)器中。另外,本發(fā)明還提供一種網(wǎng)頁下載解析系統(tǒng)。
文檔編號G06F17/30GK101458693SQ200710203039
公開日2009年6月17日 申請日期2007年12月13日 優(yōu)先權(quán)日2007年12月13日
發(fā)明者葉建發(fā), 李大鵬, 李忠一, 李支紅 申請人:鴻富錦精密工業(yè)(深圳)有限公司;鴻海精密工業(yè)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1