一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法
【背景技術(shù)】
[0002]目前網(wǎng)絡(luò)爬蟲只爬取文本,不能爬取音樂、圖片和視頻等多媒體文件,原因主要是多媒體數(shù)據(jù)量巨大;如何下載傳輸多媒體文件;如何索引多媒體文件;進(jìn)而對(duì)處理過的多媒體文件進(jìn)行檢索?,F(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對(duì)多媒體文件進(jìn)行精準(zhǔn)檢索。
[0003]網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它從因特網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標(biāo)準(zhǔn)的HTTP協(xié)議,根據(jù)超級(jí)鏈接和Web文檔檢索的方法遍歷因特網(wǎng)信息空間。
[0004]因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,HTTP給每種要通過Web傳輸?shù)膶?duì)象都打上了名為MIME類型的數(shù)據(jù)格式標(biāo)簽(常見圖片格式:image/jpeg, image/gif)。統(tǒng)一資源定位符(URL)是資源標(biāo)識(shí)符最常見的形式。URL描述了一臺(tái)特定服務(wù)器上某資源的特定位置。元素文件(METAFILE)可提供有關(guān)頁(yè)面的元信息,如針對(duì)搜索引擎和更新頻度的描述和關(guān)鐘顯,可針對(duì)元素的關(guān)鍵詞進(jìn)行索引。
[0005]UDP是OSI參考模型中一種無(wú)連接的傳輸層協(xié)議,它主要用于不要求分組順序到達(dá)的傳輸中,分組傳輸順序的檢查與排序由應(yīng)用層完成,提供面向事務(wù)的簡(jiǎn)單不可靠信息傳送服務(wù)。網(wǎng)絡(luò)圖片可通過UDP進(jìn)行下載,因?yàn)閁DP具有TCP所望塵莫及的速度優(yōu)勢(shì)。
[0006]本發(fā)明提供了一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法,可在適當(dāng)增加數(shù)據(jù)量的前提下,通過URL確定網(wǎng)絡(luò)圖片格式文件的地址,利用UDP協(xié)議緩存下載網(wǎng)絡(luò)圖片格式文件,提取網(wǎng)絡(luò)圖片格式文件的直方圖,建立與URL的映射,然后存儲(chǔ)到服務(wù)器集成數(shù)據(jù)中心,以便對(duì)網(wǎng)絡(luò)圖片格式文件進(jìn)行精準(zhǔn)檢索。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于提供一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法。本發(fā)明包括以下特征:
[0008]發(fā)明技術(shù)方案
[0009]一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法,其具體步驟如下:
[0010]I)通過URL確定網(wǎng)絡(luò)圖片格式文件的地址;
[0011]2)利用UDP協(xié)議緩存下載網(wǎng)絡(luò)圖片格式文件;
[0012]3)提取網(wǎng)絡(luò)圖片格式文件的顏色和灰階直方圖,并建立與URL的映射;
[0013]4)然后存儲(chǔ)到服務(wù)器集成數(shù)據(jù)中心;
[0014]5)以便對(duì)網(wǎng)絡(luò)圖片格式文件,進(jìn)行關(guān)鍵詞基礎(chǔ)上的精準(zhǔn)檢索。
【附圖說明】
[0015]圖1是基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射流程圖。
【具體實(shí)施方式】
[0016]這種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法,包括如下步驟:
[0017]I)通過URL確定網(wǎng)絡(luò)圖片格式文件的地址;
[0018]2)利用UDP協(xié)議緩存下載網(wǎng)絡(luò)圖片格式文件;
[0019]3)提取網(wǎng)絡(luò)圖片格式文件的顏色和灰階直方圖,并建立與URL的映射;
[0020]4)然后存儲(chǔ)到服務(wù)器集成數(shù)據(jù)中心;
[0021]5)以便對(duì)網(wǎng)絡(luò)圖片格式文件,進(jìn)行關(guān)鍵詞基礎(chǔ)上的精準(zhǔn)檢索。
【主權(quán)項(xiàng)】
1.一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法,其具體步驟如下:1)通過URL確定網(wǎng)絡(luò)圖片格式文件的地址;2)利用UDP協(xié)議緩存下載網(wǎng)絡(luò)圖片格式文件;3)提取網(wǎng)絡(luò)圖片格式文件的顏色和灰階直方圖,并建立與URL的映射;4)然后存儲(chǔ)到服務(wù)器集成數(shù)據(jù)中心;5)以便對(duì)網(wǎng)絡(luò)圖片格式文件,進(jìn)行關(guān)鍵詞基礎(chǔ)上的精準(zhǔn)檢索。
【專利摘要】本發(fā)明公開了一種基于直方圖的網(wǎng)絡(luò)圖片格式文件提取及映射方法,其具體步驟如下:1)通過URL確定網(wǎng)絡(luò)圖片格式文件的地址;2)利用UDP協(xié)議緩存下載網(wǎng)絡(luò)圖片格式文件;3)提取網(wǎng)絡(luò)圖片格式文件的顏色和灰階直方圖,并建立與URL的映射;4)然后存儲(chǔ)到服務(wù)器集成數(shù)據(jù)中心;5)以便對(duì)網(wǎng)絡(luò)圖片格式文件,進(jìn)行關(guān)鍵詞基礎(chǔ)上的精準(zhǔn)檢索。
【IPC分類】G06F17/30
【公開號(hào)】CN105022738
【申請(qǐng)?zhí)枴緾N201410160165
【發(fā)明人】張軍, 宋惟忠
【申請(qǐng)人】上海京知信息科技有限公司
【公開日】2015年11月4日
【申請(qǐng)日】2014年4月21日