一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法和系統(tǒng)的制作方法

文檔序號(hào)：6518765閱讀：254來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法和系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法和系統(tǒng)。其中，該方法包括如下步驟：（1）斷點(diǎn)信息加載步驟；（2）跳轉(zhuǎn)到相應(yīng)爬取位置步驟；（3）斷點(diǎn)信息保存步驟；（4）圖書(shū)信息的下載和處理步驟，重復(fù)執(zhí)行步驟（4）。還公開(kāi)了一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的系統(tǒng)，利用本發(fā)明實(shí)施例，能夠?qū)崿F(xiàn)斷點(diǎn)續(xù)采，提高采集的效率，具有很大的實(shí)用價(jià)值。
【專(zhuān)利說(shuō)明】一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本信息處理范疇中的網(wǎng)絡(luò)信息采集技術(shù)，尤其涉及一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著萬(wàn)維網(wǎng)的出現(xiàn)，人們開(kāi)始通過(guò)網(wǎng)絡(luò)傳播信息，網(wǎng)絡(luò)信息成幾何級(jí)增長(zhǎng)。隨著信息量的暴漲，如何快速搜集所需信息成為人們的關(guān)注點(diǎn)，此時(shí)網(wǎng)絡(luò)爬蟲(chóng)應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲(chóng)是通過(guò)一個(gè)入口，用圖的遍歷算法，抓取互聯(lián)網(wǎng)中的網(wǎng)頁(yè)信息，并對(duì)爬取的信息處理、存儲(chǔ)的程序。
[0003]圖書(shū)館，是搜集、整理、收藏圖書(shū)資料供人閱覽、參考的機(jī)構(gòu)。早期圖書(shū)館是由手工操作，隨著計(jì)算機(jī)的發(fā)展，圖書(shū)館逐漸趨向自動(dòng)化操作，圖書(shū)管理系統(tǒng)的誕生加速了這一發(fā)展。相對(duì)于幾何級(jí)非結(jié)構(gòu)化的網(wǎng)絡(luò)信息，圖書(shū)館中的信息是經(jīng)過(guò)組織的結(jié)構(gòu)化信息。
[0004]圖書(shū)館的藏書(shū)信息中蘊(yùn)含了大量的有價(jià)值的信息，如果能準(zhǔn)確高效地獲取館藏信息，將具有重要的現(xiàn)實(shí)意義。通過(guò)對(duì)不同圖書(shū)館的圖書(shū)資源對(duì)比，可以輔助元搜索；對(duì)各大高校的圖書(shū)信息進(jìn)行分析，可以得到各高校的館藏結(jié)構(gòu)，其中館藏結(jié)構(gòu)是圖書(shū)館文獻(xiàn)保障能力和服務(wù)水平的重要體現(xiàn)；分析高校各類(lèi)圖書(shū)所占的比例，可以預(yù)測(cè)該高校的學(xué)科性質(zhì)和重點(diǎn)學(xué)術(shù)方向。同時(shí)，通過(guò)對(duì)圖書(shū)信息分析可以獲得各類(lèi)圖書(shū)的出版情況，出版社的占有率情況以及各高校的圖書(shū)購(gòu)買(mǎi)情況等。
[0005]目前，獲取各大圖書(shū)館館藏信息的主流做法是構(gòu)建針對(duì)圖書(shū)系統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)可以自動(dòng)爬取該圖書(shū)館下的所有圖書(shū)信息，但是，由于網(wǎng)絡(luò)的不穩(wěn)定、服務(wù)器故障等原因會(huì)造成爬蟲(chóng)程序中斷。處理爬蟲(chóng)中斷的一般方法是重啟爬蟲(chóng)，由于程序沒(méi)有記憶上一次的中斷點(diǎn)，程序會(huì)從入口點(diǎn)重新爬取圖書(shū)信息，這樣造成了很多的重復(fù)性工作，降低了爬蟲(chóng)的效率。

【發(fā)明內(nèi)容】

[0006]針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題，本發(fā)明的目的是提供一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法。
[0007]為達(dá)到上述目的，本發(fā)明提出的針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采方法包括下列步驟:
[0008](I)斷點(diǎn)信息加載步驟；
[0009](2)跳轉(zhuǎn)到相應(yīng)爬取位置步驟；
[0010](3)斷點(diǎn)信息保存步驟；
[0011](4)圖書(shū)信息下載處理步驟，重復(fù)執(zhí)行步驟(2)；
[0012]上述方法中，步驟(I)進(jìn)一步包括:
[0013](11)讀取斷點(diǎn)信息文件步驟，斷點(diǎn)信息文件中保存了中斷點(diǎn)的索書(shū)號(hào)、頁(yè)碼和頁(yè)碼內(nèi)第幾項(xiàng)；[0014](12)獲取斷點(diǎn)信息步驟，處理讀入的信息，得到斷點(diǎn)處索書(shū)號(hào)S，頁(yè)碼P，頁(yè)內(nèi)第幾項(xiàng)N。
[0015]上述方法中，步驟(2)進(jìn)一步包括:
[0016](21)跳轉(zhuǎn)到檢索結(jié)果頁(yè)步驟，即根據(jù)索書(shū)號(hào)S和前一次爬取狀態(tài)，確定本次檢索號(hào)Sn，跳轉(zhuǎn)到對(duì)應(yīng)檢索結(jié)果頁(yè)；
[0017](22)下載解析結(jié)果頁(yè)步驟，下載結(jié)果頁(yè)并通過(guò)正則表達(dá)式獲取查詢(xún)結(jié)果信息；
[0018](23)判斷是否有最大顯示記錄限制步驟，若無(wú)數(shù)量限制，則執(zhí)行步驟(24);若有數(shù)量限制，判斷當(dāng)前檢索結(jié)果是否超過(guò)最大顯示數(shù)目，如果超過(guò)，則縮小索書(shū)號(hào)的范圍，即把當(dāng)前索書(shū)號(hào)作為首位不變，在其后添加子位以遍歷所有的情況，子位應(yīng)包含索書(shū)號(hào)中可能出現(xiàn)的所有字符，跳轉(zhuǎn)回步驟(21)，重新檢索；如果沒(méi)有超過(guò)，則執(zhí)行步驟(24)；
[0019](24)跳轉(zhuǎn)到列表頁(yè)步驟，根據(jù)頁(yè)碼P和前一次爬取狀態(tài)，確定本次采集頁(yè)碼Page，通過(guò)Sn、Page等信息拼裝待爬取列表頁(yè)url ；
[0020](25)下載解析列表頁(yè)步驟，即爬取列表頁(yè)，通過(guò)正則表達(dá)式匹配出列表頁(yè)內(nèi)的書(shū)目鏈接；
[0021](26)跳轉(zhuǎn)到爬取位置步驟，根據(jù)頁(yè)內(nèi)第幾項(xiàng)N，跳過(guò)已爬取書(shū)目，并確定本次爬取位置。
[0022]上述方法中，步驟(4)進(jìn)一步包括:
[0023](41)下載圖書(shū)信息步驟，即爬取圖書(shū)頁(yè)面；
[0024](42)獲取圖書(shū)信息步驟，如果系統(tǒng)提供圖書(shū)的MARC信息，則通過(guò)正則表達(dá)式匹配出MARC信息，如果不提供MARC信息，則通過(guò)正則表達(dá)式匹配出圖書(shū)的基本信息；
[0025](43)圖書(shū)彳目息存儲(chǔ)步驟，將獲取的圖書(shū)彳目息保存。
[0026]本發(fā)明提出的針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的系統(tǒng)，包括以下模塊:
[0027](I)斷點(diǎn)信息加載模塊；
[0028](2)跳轉(zhuǎn)到相應(yīng)爬取位置模塊；
[0029](3)斷點(diǎn)信息保存模塊；
[0030](4)圖書(shū)信息下載處理模塊。
[0031]上述方法中，模塊(I)進(jìn)一步包括:
[0032](11)讀取斷點(diǎn)信息文件模塊，斷點(diǎn)信息文件中保存了中斷點(diǎn)的索書(shū)號(hào)、頁(yè)碼和頁(yè)碼內(nèi)第幾項(xiàng)；
[0033](12)獲取斷點(diǎn)信息模塊，處理讀入的信息，得到斷點(diǎn)處索書(shū)號(hào)S，頁(yè)碼P，頁(yè)內(nèi)第幾項(xiàng)N。
[0034]上述方法中，模塊(2)進(jìn)一步包括:
[0035](21)跳轉(zhuǎn)到檢索結(jié)果頁(yè)模塊，即根據(jù)索書(shū)號(hào)S和前一次爬取狀態(tài)，確定本次檢索號(hào)Sn，跳轉(zhuǎn)到對(duì)應(yīng)檢索結(jié)果頁(yè)；
[0036](22)下載解析結(jié)果頁(yè)模塊，下載結(jié)果頁(yè)并通過(guò)正則表達(dá)式獲取查詢(xún)結(jié)果信息；
[0037](23)判斷是否有最大顯示記錄限制模塊，若無(wú)數(shù)量限制，則執(zhí)行模塊(24);若有數(shù)量限制，判斷當(dāng)前檢索結(jié)果是否超過(guò)最大顯示數(shù)目，如果超過(guò)，則縮小索書(shū)號(hào)的范圍，即把當(dāng)前索書(shū)號(hào)作為首位不變，在其后添加子位遍歷所有的情況，子位應(yīng)包含索書(shū)號(hào)中可能出現(xiàn)的所有字符，跳轉(zhuǎn)回模塊(21)，重新檢索；如果沒(méi)有超過(guò)，則執(zhí)行模塊(24)；[0038](24)跳轉(zhuǎn)到列表頁(yè)模塊，根據(jù)頁(yè)碼P和前一次爬取狀態(tài)，確定本次采集頁(yè)碼Page，通過(guò)Sn、Page等信息拼裝待爬取列表頁(yè)url ；
[0039](25)下載解析列表頁(yè)模塊，即爬取列表頁(yè)，通過(guò)正則表達(dá)式匹配出列表頁(yè)內(nèi)的書(shū)目鏈接；
[0040](26)跳轉(zhuǎn)到爬取位置模塊，根據(jù)頁(yè)內(nèi)第幾項(xiàng)N，跳過(guò)已爬取書(shū)目，并確定本次爬取位置。
[0041]上述方法中，模塊(4)進(jìn)一步包括:
[0042](41)下載圖書(shū)頁(yè)面模塊，即爬取圖書(shū)頁(yè)面；
[0043](42)獲取圖書(shū)信息模塊，如果系統(tǒng)提供圖書(shū)的MARC信息，則通過(guò)正則表達(dá)式匹配出MARC信息，如果不提供MARC信息，則通過(guò)正則表達(dá)式匹配出圖書(shū)的基本信息；
[0044](43)圖書(shū)信息存儲(chǔ)模塊，將獲取的圖書(shū)信息保存。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0045]圖1為本發(fā)明針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法的步驟流程圖；
[0046]圖2為斷點(diǎn)信息加載的步驟流程圖；
[0047]圖3為跳轉(zhuǎn)到相應(yīng)爬取位置的步驟流程圖；
[0048]圖4為圖書(shū)信息下載處理的步驟流程圖；
[0049]圖5為本發(fā)明針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0050]下面將結(jié)合附圖對(duì)本發(fā)明【具體實(shí)施方式】進(jìn)行詳細(xì)說(shuō)明。
[0051]圖1是本發(fā)明的一個(gè)實(shí)施方式的流程圖，包括以下步驟:
[0052]步驟S1:斷點(diǎn)信息加載，得到索書(shū)號(hào)S，頁(yè)碼S和頁(yè)內(nèi)第幾項(xiàng)N。
[0053]步驟S2:跳轉(zhuǎn)到相應(yīng)爬取位置，根據(jù)S、P、N逐步跳轉(zhuǎn)到采集位置。
[0054]步驟S3:斷點(diǎn)信息保存，在每次爬取圖書(shū)信息前將該書(shū)的索書(shū)號(hào)、頁(yè)碼和頁(yè)內(nèi)第幾項(xiàng)保存到文件中。
[0055]步驟S4:圖書(shū)信息的下載和處理，將處理后的圖書(shū)信息保存到文件系統(tǒng)中，重復(fù)執(zhí)行步驟S2。
[0056]下面將對(duì)每個(gè)步驟進(jìn)行具體的說(shuō)明:
[0057]步驟SI完成斷點(diǎn)信息加載，設(shè)置本次采集起始點(diǎn)。圖2給出了該方法的實(shí)施過(guò)程流程圖，具體操作步驟如下:
[0058]步驟11，讀取斷點(diǎn)信息文件。該文件中保存了采集中斷處的索書(shū)號(hào)、頁(yè)碼和頁(yè)內(nèi)第幾項(xiàng)。
[0059]步驟12，獲取斷點(diǎn)信息。從讀取的內(nèi)容中解析出索書(shū)號(hào)S、頁(yè)碼P和頁(yè)內(nèi)第幾項(xiàng)N。
[0060]步驟S2完成跳轉(zhuǎn)到爬取指定位置。圖3給出了該方法的實(shí)施過(guò)程流程圖，具體操作步驟如下:
[0061]步驟21，跳轉(zhuǎn)到檢索結(jié)果頁(yè)，根據(jù)斷點(diǎn)信息S和前一次爬取狀態(tài)，確定本次采集的索書(shū)號(hào)Sn,根據(jù)Sn拼裝檢索結(jié)果頁(yè)url。[0062]步驟22，下載結(jié)果頁(yè)，并通過(guò)正則表達(dá)式匹配得到總書(shū)數(shù)Count和顯示限制信息。
[0063]步驟23，判斷是否有最大顯示記錄限制，如果有執(zhí)行步驟24，沒(méi)有則執(zhí)行步驟26。
[0064]步驟24，判斷當(dāng)前檢索結(jié)果是否超過(guò)最大顯示數(shù)目，如果超過(guò)則執(zhí)行步驟25，沒(méi)有超過(guò)則執(zhí)行步驟26。
[0065]步驟25，縮小索書(shū)號(hào)的范圍，即把當(dāng)前索書(shū)號(hào)作為首位不變，在其后添加子位遍歷所有的情況，子位應(yīng)包含索書(shū)號(hào)中可能出現(xiàn)的所有字符，跳轉(zhuǎn)回步驟21，重新檢索。
[0066]步驟26，跳轉(zhuǎn)到列表頁(yè)，根據(jù)斷點(diǎn)信息P和前一次爬取狀態(tài)，確定本次采集的頁(yè)碼Page,根據(jù)Sn、Page和Count拼裝列表頁(yè)url。
[0067]步驟27，下載列表頁(yè)，并通過(guò)正則表達(dá)式匹配出書(shū)目鏈接。
[0068]步驟28，跳轉(zhuǎn)到列表頁(yè)，根據(jù)頁(yè)內(nèi)第幾項(xiàng)N，跳過(guò)已爬取書(shū)目，并確定本次爬取位置。
[0069]步驟S3完成斷點(diǎn)信息保存，在每次爬取圖書(shū)信息前將該書(shū)的索書(shū)號(hào)Sn、頁(yè)碼Page和頁(yè)內(nèi)第幾項(xiàng)Num寫(xiě)入到斷點(diǎn)信息文件中。
[0070]步驟S4完成圖書(shū)信息的下載和處理。圖4給出了該方法的實(shí)施過(guò)程流程圖，具體操作步驟如下:
[0071]步驟41,下載索書(shū)號(hào)Sn,頁(yè)碼Page和頁(yè)內(nèi)第幾項(xiàng)Num對(duì)應(yīng)的圖書(shū)頁(yè)面；
[0072]步驟42，判斷系統(tǒng)是否提供MARC信息，提供則執(zhí)行步驟43，否則執(zhí)行步驟44 ；
[0073]步驟43，通過(guò)正則表達(dá)式匹配出MARC信息；
[0074]步驟44，通過(guò)正則表達(dá)式匹配出圖書(shū)的基本信息，一種實(shí)施方式是匹配出作者、出版社、出版年份、ISDN號(hào)等，以上是圖書(shū)基本信息的一種實(shí)施例，其他不同的實(shí)施例不構(gòu)成對(duì)本發(fā)明的限制；
[0075]步驟45，存儲(chǔ)圖書(shū)信息，一種實(shí)施方式是將處理后的圖書(shū)信息寫(xiě)入以索書(shū)號(hào)命名的文件中。以上是圖書(shū)信息寫(xiě)入的一種實(shí)施例，其他不同的實(shí)施例不構(gòu)成對(duì)本發(fā)明的限制；
[0076]以上結(jié)合附圖對(duì)針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采方法各模塊的【具體實(shí)施方式】進(jìn)行了闡述。
[0077]另一方面，本發(fā)明還公開(kāi)了一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的系統(tǒng)。參照?qǐng)D
5,該系統(tǒng)包括如下模塊:
[0078]模塊(I):斷點(diǎn)信息加載，得到索書(shū)號(hào)S，頁(yè)碼P和頁(yè)內(nèi)第幾項(xiàng)N。
[0079]模塊(2):跳轉(zhuǎn)到相應(yīng)爬取位置，根據(jù)S、P、N逐步跳轉(zhuǎn)到采集位置。
[0080]模塊(3):斷點(diǎn)信息保存，在每次爬取圖書(shū)信息前將該書(shū)的索書(shū)號(hào)、頁(yè)碼和頁(yè)內(nèi)第幾項(xiàng)保存到文件中。
[0081]模塊(4):圖書(shū)信息的下載和處理，將處理后的圖書(shū)信息保存到文件系統(tǒng)中。
[0082]上述針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采系統(tǒng)各模塊的實(shí)施例具有與方法實(shí)施例相同的技術(shù)效果，在此不再重復(fù)闡述。
[0083]綜上，本發(fā)明的斷點(diǎn)續(xù)采的核心為在每次爬取前記錄待采集書(shū)目的索書(shū)號(hào)、頁(yè)碼和第幾項(xiàng)，在程序中斷后，通過(guò)讀取記錄的中斷點(diǎn)確定本次采集的起始點(diǎn)，避免重復(fù)性工作，提高了采集效率。依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處。綜上所述，本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。[0084]以上所述的本發(fā)明實(shí)施方式，并不構(gòu)成對(duì)發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法，其特征在于，包括以下步驟: (1)斷點(diǎn)信息加載步驟； (2)跳轉(zhuǎn)到相應(yīng)爬取位置步驟； (3)斷點(diǎn)信息保存步驟； (4)圖書(shū)信息下載處理步驟，重復(fù)執(zhí)行步驟(2)。
2.如權(quán)利要求1所述的方法，其特征在于，步驟(1)進(jìn)一步包括: (11)讀取斷點(diǎn)信息文件步驟，斷點(diǎn)信息文件中保存了中斷點(diǎn)的索書(shū)號(hào)、頁(yè)碼和頁(yè)碼內(nèi)第幾項(xiàng)； (12)獲取斷點(diǎn)信息步驟，處理讀入的信息，得到斷點(diǎn)處索書(shū)號(hào)S，頁(yè)碼P和頁(yè)內(nèi)第幾項(xiàng)N0
3.如權(quán)利要求1所述的方法，其特征在于，步驟(2)進(jìn)一步包括: (21)跳轉(zhuǎn)到檢索結(jié)果頁(yè)步驟，即根據(jù)索書(shū)號(hào)S和前一次爬取狀態(tài)，確定本次檢索號(hào)Sn，跳轉(zhuǎn)到對(duì)應(yīng)檢索結(jié)果頁(yè)； (22)下載解析結(jié)果頁(yè)步驟，下載結(jié)果頁(yè)并通過(guò)正則表達(dá)式匹配獲取查詢(xún)結(jié)果信息； (23)判斷是否限制顯示數(shù)量步驟，若無(wú)數(shù)量限制，則執(zhí)行步驟(24);若有數(shù)量限制，判斷當(dāng)前檢索結(jié)果是否超過(guò)最大顯示數(shù)目，如果超過(guò)，則縮小索書(shū)號(hào)的范圍，即把當(dāng)前索書(shū)號(hào)作為首位不變，在其后添加子位以遍歷所有的情況，子位應(yīng)包含索書(shū)號(hào)中可能出現(xiàn)的所有字符，跳轉(zhuǎn)回步驟(21)，重新檢索；如果沒(méi)有超過(guò)，則執(zhí)行步驟(24)； (24)跳轉(zhuǎn)到列表頁(yè)步驟，根據(jù)頁(yè)碼P和前一次爬取狀態(tài)，確定本次采集頁(yè)碼Page，通過(guò)Sn> Page等信息拼裝待爬取列表頁(yè)url ； (25)下載解析列表頁(yè)步驟，即爬取列表頁(yè)，通過(guò)正則表達(dá)式匹配出列表頁(yè)內(nèi)的書(shū)目鏈接; (26 )跳轉(zhuǎn)到爬取位置步驟，根據(jù)頁(yè)內(nèi)第幾項(xiàng)N，跳過(guò)已爬取書(shū)目，并確定本次爬取位置。
4.如權(quán)利要求1所述的方法，其特征在于，在步驟(3)中，將斷點(diǎn)信息寫(xiě)入斷點(diǎn)信息文件中，斷點(diǎn)信息包括索書(shū)號(hào)、頁(yè)碼和頁(yè)碼內(nèi)第幾項(xiàng)。
5.如權(quán)利要求1所述的方法，其特征在于，步驟(4)進(jìn)一步包括: (41)下載圖書(shū)信息步驟，即爬取圖書(shū)頁(yè)面； (42)獲取圖書(shū)信息步驟，如果系統(tǒng)提供圖書(shū)的MARC信息，則通過(guò)正則表達(dá)式匹配出MARC信息，如果不提供，則通過(guò)正則表達(dá)式匹配出圖書(shū)的基本信息； (43)圖書(shū)信息存儲(chǔ)步驟，將獲取的圖書(shū)信息保存。
6.一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的系統(tǒng)，其特征在于，包括以下模塊: (1)斷點(diǎn)信息加載模塊； (2)跳轉(zhuǎn)到相應(yīng)爬取位置模塊； (3)斷點(diǎn)信息保存模塊； (4)圖書(shū)信息下載處理模塊。
7.如權(quán)利要求6所述的系統(tǒng)，其特征在于，模塊(I)進(jìn)一步包括: (11)讀取斷點(diǎn)信息文件模塊，斷點(diǎn)信息文件中保存了中斷點(diǎn)的索書(shū)號(hào)、頁(yè)碼和頁(yè)碼內(nèi)第幾項(xiàng)； (12)獲取斷點(diǎn)信息模塊，完成獲取斷點(diǎn)信息索書(shū)號(hào)S，頁(yè)碼P，頁(yè)內(nèi)第幾項(xiàng)N。
8.如權(quán)利要求6所述的系統(tǒng)，其特征在于，模塊(2)進(jìn)一步包括: (21)跳轉(zhuǎn)到檢索結(jié)果頁(yè)模塊，即根據(jù)索書(shū)號(hào)S和前一次爬取狀態(tài)，確定本次檢索號(hào)Sn，跳轉(zhuǎn)到對(duì)應(yīng)檢索結(jié)果頁(yè)； (22)下載解析結(jié)果頁(yè)模塊，下載結(jié)果頁(yè)并通過(guò)正則表達(dá)式獲取查詢(xún)結(jié)果信息； (23)判斷是否限制顯示數(shù)量模塊，若無(wú)數(shù)量限制，則執(zhí)行模塊(24);若有數(shù)量限制，判斷當(dāng)前檢索結(jié)果是否超過(guò)最大顯示數(shù)目，如果超過(guò)，則縮小索書(shū)號(hào)的范圍，即把當(dāng)前索書(shū)號(hào)作為首位不變，在其后添加子位遍歷所有的情況，子位應(yīng)包含索書(shū)號(hào)中可能出現(xiàn)的所有字符，跳轉(zhuǎn)回模塊(21)，重新檢索；如果沒(méi)有超過(guò)，則執(zhí)行模塊(24)； (24)跳轉(zhuǎn)到列表頁(yè)模塊，根據(jù)頁(yè)碼P和前一次爬取狀態(tài)，確定本次采集頁(yè)碼Page，通過(guò)Sn> Page等信息拼裝待爬取列表頁(yè)url ； (25)下載解析列表頁(yè)模塊，即爬取列表頁(yè)，通過(guò)正則表達(dá)式匹配出列表頁(yè)內(nèi)的書(shū)目鏈接; (26)跳轉(zhuǎn)到爬取位置模塊，根據(jù)頁(yè)內(nèi)第幾項(xiàng)N，跳過(guò)已爬取書(shū)目，并確定本次爬取位置。
9.如權(quán)利要求6所述的方法，模塊(3)中，保存斷點(diǎn)信息，包括索書(shū)號(hào)、頁(yè)碼和頁(yè)碼內(nèi)第幾項(xiàng)。
10.如權(quán)利要求6所述的系統(tǒng)，其特征在于，模塊(4)進(jìn)一步包括: (41)下載圖書(shū)頁(yè)面模塊，即爬取圖書(shū)頁(yè)面； (42)獲取圖書(shū)信息模塊，如果系統(tǒng)提供圖書(shū)的MARC信息，則通過(guò)正則表達(dá)式匹配出MARC信息，如果不提供MARC信息，則通過(guò)正則表達(dá)式匹配出圖書(shū)的基本信息； (43)圖書(shū)信息存儲(chǔ)模塊，將獲取的圖書(shū)信息保存。
【文檔編號(hào)】G06F17/30GK103559297SQ201310562445
【公開(kāi)日】2014年2月5日申請(qǐng)日期:2013年11月12日優(yōu)先權(quán)日:2013年11月12日
【發(fā)明者】肖波, 趙琳, 藺志青, 陸月明申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖波;趙琳;藺志青;陸月明
技術(shù)所有人：北京郵電大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種利用相關(guān)主題模型識(shí)別社會(huì)群體行為的方法
上一篇：一種多聚焦圖像融合方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

斷點(diǎn)續(xù)傳相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種針對(duì)圖書(shū)檢索信息進(jìn)行斷點(diǎn)續(xù)采的方法和系統(tǒng)的制作方法