亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取url并索引及與關(guān)鍵幀映射的框架的制作方法

文檔序號(hào):9261372閱讀:238來(lái)源:國(guó)知局
一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取url并索引及與關(guān)鍵幀映射的框架的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架
【背景技術(shù)】
[0002]網(wǎng)絡(luò)爬蟲(chóng),也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它從因特網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲(chóng)利用標(biāo)準(zhǔn)的HTTP協(xié)議,根據(jù)超級(jí)鏈接和Web文檔檢索的方法遍歷因特網(wǎng)信息空間。
[0003]因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,HTTP給每種要通過(guò)Web傳輸?shù)膶?duì)象都打上了名為MIME類型的數(shù)據(jù)格式標(biāo)簽(常見(jiàn)視頻格式:video/MP4V-ES, video/mpeg, video/quicktime, video/vnd.mpegurl, video/x-msvideo)。統(tǒng)一資源定位符(URL)是資源標(biāo)識(shí)符最常見(jiàn)的形式。URL描述了一臺(tái)特定服務(wù)器上某資源的特定位置。元素文件(METAFILE)可提供有關(guān)頁(yè)面的元信息,如針對(duì)搜索引擎和更新頻度的描述和關(guān)鍵詞,可針對(duì)元素的關(guān)鍵詞進(jìn)行索引。
[0004]目前網(wǎng)絡(luò)爬蟲(chóng)只爬取文本,不能爬取音樂(lè)、圖片和視頻等多媒體文件,原因主要是多媒體數(shù)據(jù)量太大;如何索引多媒體文件;進(jìn)而對(duì)處理過(guò)的多媒體文件檢索?,F(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對(duì)多媒體文件進(jìn)行精準(zhǔn)檢索。
[0005]本發(fā)明提供了一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架,可在適當(dāng)增加數(shù)據(jù)量的前提下,通過(guò)METAFILE的關(guān)鍵詞對(duì)URL進(jìn)行索引,并與相關(guān)關(guān)鍵幀建立映射,利用關(guān)鍵詞對(duì)視頻格式文件進(jìn)行檢索,再對(duì)檢索結(jié)果進(jìn)行關(guān)鍵幀的精準(zhǔn)檢索。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于提供一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架。本發(fā)明包括以下特征:
[0007]發(fā)明技術(shù)方案
[0008]一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架,其具體步驟如下:
[0009]I)網(wǎng)絡(luò)爬蟲(chóng)從遍歷參數(shù)和起始URL開(kāi)始;
[0010]2)使用URL庫(kù)中的第一個(gè)URL從網(wǎng)絡(luò)上下載網(wǎng)頁(yè);
[0011]3)將其傳遞給重復(fù)網(wǎng)頁(yè)檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);
[0012]4)如果網(wǎng)頁(yè)沒(méi)有被拒絕,則將它保存到網(wǎng)頁(yè)庫(kù)中;
[0013]5)并傳遞給鏈接提取;
[0014]6)鏈接提取從網(wǎng)頁(yè)的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問(wèn)過(guò),或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;
[0015]7)同時(shí)提取關(guān)鍵幀,傳遞給關(guān)鍵幀庫(kù);
[0016]8)將沒(méi)有被拒絕的URL進(jìn)行索引,遞給URL庫(kù);并與相關(guān)關(guān)鍵幀建立映射;
[0017]9) URL庫(kù)然后將一個(gè)未被訪問(wèn)的URL傳遞給網(wǎng)頁(yè)提取。
【附圖說(shuō)明】
[0018]圖1是針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)框架圖。
【具體實(shí)施方式】
[0019]這種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架,包括如下步驟:
[0020]I)網(wǎng)絡(luò)爬蟲(chóng)從遍歷參數(shù)和起始URL開(kāi)始;
[0021]2)使用URL庫(kù)中的第一個(gè)URL從網(wǎng)絡(luò)上下載網(wǎng)頁(yè);
[0022]3)將其傳遞給重復(fù)網(wǎng)頁(yè)檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);
[0023]4)如果網(wǎng)頁(yè)沒(méi)有被拒絕,則將它保存到網(wǎng)頁(yè)庫(kù)中;
[0024]5)并傳遞給鏈接提??;
[0025]6)鏈接提取從網(wǎng)頁(yè)的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問(wèn)過(guò),或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;
[0026]7)同時(shí)提取關(guān)鍵幀,傳遞給關(guān)鍵幀庫(kù);
[0027]8)將沒(méi)有被拒絕的URL進(jìn)行索引,遞給URL庫(kù);并與相關(guān)關(guān)鍵幀建立映射;
[0028]9) URL庫(kù)然后將一個(gè)未被訪問(wèn)的URL傳遞給網(wǎng)頁(yè)提取。
【主權(quán)項(xiàng)】
1.針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架,其具體步驟如下: 1)網(wǎng)絡(luò)爬蟲(chóng)從遍歷參數(shù)和起始URL開(kāi)始; 2)使用URL庫(kù)中的第一個(gè)URL從網(wǎng)絡(luò)上下載網(wǎng)頁(yè); 3)將其傳遞給重復(fù)網(wǎng)頁(yè)檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù); 4)如果網(wǎng)頁(yè)沒(méi)有被拒絕,則將它保存到網(wǎng)頁(yè)庫(kù)中; 5)并傳遞給鏈接提??; 6)鏈接提取從網(wǎng)頁(yè)的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問(wèn)過(guò),或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載; 7)同時(shí)提取關(guān)鍵幀,傳遞給關(guān)鍵幀庫(kù); 8)將沒(méi)有被拒絕的URL進(jìn)行索引,遞給URL庫(kù);并與相關(guān)關(guān)鍵幀建立映射; 9)URL庫(kù)然后將一個(gè)未被訪問(wèn)的URL傳遞給網(wǎng)頁(yè)提取。
【專利摘要】本發(fā)明公開(kāi)一種針對(duì)視頻格式的網(wǎng)絡(luò)爬蟲(chóng)提取URL并索引及與關(guān)鍵幀映射的框架,其具體步驟如下:網(wǎng)絡(luò)爬蟲(chóng)從遍歷參數(shù)和起始URL開(kāi)始;使用URL庫(kù)中的第一個(gè)URL從網(wǎng)絡(luò)上下載網(wǎng)頁(yè);將其傳遞給重復(fù)網(wǎng)頁(yè)檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);如果網(wǎng)頁(yè)沒(méi)有被拒絕,則將它保存到網(wǎng)頁(yè)庫(kù)中;并傳遞給鏈接提??;鏈接提取從網(wǎng)頁(yè)的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問(wèn)過(guò),或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;同時(shí)提取關(guān)鍵幀,傳遞給關(guān)鍵幀庫(kù);將沒(méi)有被拒絕的URL進(jìn)行索引,遞給URL庫(kù);并與相關(guān)關(guān)鍵幀建立映射;URL庫(kù)然后將一個(gè)未被訪問(wèn)的URL傳遞給網(wǎng)頁(yè)提取。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN104978338
【申請(qǐng)?zhí)枴緾N201410138059
【發(fā)明人】宋惟忠
【申請(qǐng)人】宋惟忠
【公開(kāi)日】2015年10月14日
【申請(qǐng)日】2014年4月8日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1