亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種針對網(wǎng)絡視頻格式文件的鏈接方法

文檔序號:9261399閱讀:277來源:國知局
一種針對網(wǎng)絡視頻格式文件的鏈接方法
【技術領域】
[0001]本發(fā)明涉及一種針對網(wǎng)絡視頻格式文件的鏈接方法
【背景技術】
[0002]網(wǎng)絡爬蟲,也稱網(wǎng)絡蜘蛛、網(wǎng)絡機器人,是一個自動提取網(wǎng)頁的程序,它從因特網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。網(wǎng)絡爬蟲利用標準的HTTP協(xié)議,根據(jù)超級鏈接和Web文檔檢索的方法遍歷因特網(wǎng)信息空間。
[0003]因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,HTTP給每種要通過Web傳輸?shù)膶ο蠖即蛏狭嗣麨镸IME類型的數(shù)據(jù)格式標簽(常見視頻格式:video/MP4V-ES, video/mpeg, video/quicktime, video/vnd.mpegurl, video/χ-msvideo) ? 統(tǒng)一資源定位符(URL)是資源標識符最常見的形式。URL描述了一臺特定服務器上某資源的特定位置。元素文件(METAFILE)可提供有關頁面的元信息,比如針對搜索引擎和更新頻度的描述和關鍵詞,可針對元素的關鍵詞進行索引。
[0004]目前網(wǎng)絡爬蟲只爬取文本,不能爬取音樂、圖片和視頻等多媒體文件,原因主要是多媒體數(shù)據(jù)量太大;如何爬取多媒體文件;如何索引多媒體文件;進而對處理過的多媒體文件檢索?,F(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對多媒體文件進行精準檢索。
[0005]本發(fā)明提供了一種針對網(wǎng)絡視頻格式文件的鏈接方法,通過METAFILE的關鍵詞對包含視頻格式文件的網(wǎng)頁進行查詢,初始化每個相關網(wǎng)頁的中心度和權威度,重復投票過程,報告排好序的包含視頻格式文件的網(wǎng)頁列表,即指向網(wǎng)絡視頻格式文件地址的URL庫,并且URL與網(wǎng)絡視頻格式文件的關鍵幀建立映射以便精準檢索。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于提供一種針對網(wǎng)絡視頻格式文件的鏈接方法。本發(fā)明包括以下特征:
[0007]發(fā)明技術方案
[0008]一種針對網(wǎng)絡視頻格式文件的鏈接方法,其具體步驟如下:
[0009]I)通過METAFILE的關鍵詞對包含視頻格式文件的網(wǎng)頁進行查詢,找出η個與該查詢最為相關的包含視頻格式文件的網(wǎng)頁集合,其中η是預先設定的參數(shù);
[0010]2)向網(wǎng)頁集合中添加所有與匹配網(wǎng)頁存在著鏈接關系的包含視頻格式文件的網(wǎng)頁;
[0011]3)移除所有的站內(nèi)鏈接;
[0012]4)基于被相關網(wǎng)頁鏈接的入鏈數(shù),為每個網(wǎng)頁賦予一個權威權重以及基于鏈向權威網(wǎng)頁的來源網(wǎng)頁,賦予一個中心權重;
[0013]5)統(tǒng)計每個網(wǎng)頁鏈接的入鏈數(shù)之和,計算出每個網(wǎng)頁的權威權重;
[0014]6)統(tǒng)計每個網(wǎng)頁的出鏈網(wǎng)頁的權威度之和,計算出每個網(wǎng)頁的中心權重;
[0015]7)將所有包含視頻格式文件的網(wǎng)頁的中心度除以最高中心度以將其標準化,將所有包含視頻格式文件的網(wǎng)頁的權威度除以最高權威度以將其標準化;
[0016]8)重復第5)步到第7)步20次;
[0017]9)返回一張排好序的包含視頻格式文件的網(wǎng)頁列表,即指向網(wǎng)絡視頻格式文件地址的URL庫,并且URL與網(wǎng)絡視頻格式文件的關鍵幀建立映射以便精準檢索。
【附圖說明】
[0018]圖1是針對網(wǎng)絡視頻格式文件鏈接的流程圖。
【具體實施方式】
[0019]這種針對網(wǎng)絡視頻格式文件的鏈接方法,包括如下步驟:
[0020]I)通過METAFILE的關鍵詞對包含視頻格式文件的網(wǎng)頁進行查詢,找出η個與該查詢最為相關的包含視頻格式文件的網(wǎng)頁集合,其中η是預先設定的參數(shù);
[0021]2)向網(wǎng)頁集合中添加所有與匹配網(wǎng)頁存在著鏈接關系的包含視頻格式文件的網(wǎng)頁;
[0022]3)移除所有的站內(nèi)鏈接;
[0023]4)基于被相關網(wǎng)頁鏈接的入鏈數(shù),為每個網(wǎng)頁賦予一個權威權重以及基于鏈向權威網(wǎng)頁的來源網(wǎng)頁,賦予一個中心權重;
[0024]5)統(tǒng)計每個網(wǎng)頁鏈接的入鏈數(shù)之和,計算出每個網(wǎng)頁的權威權重;
[0025]6)統(tǒng)計每個網(wǎng)頁的出鏈網(wǎng)頁的權威度之和,計算出每個網(wǎng)頁的中心權重;
[0026]7)將所有包含視頻格式文件的網(wǎng)頁的中心度除以最高中心度以將其標準化,將所有包含視頻格式文件的網(wǎng)頁的權威度除以最高權威度以將其標準化;
[0027]8)重復第5)步到第7)步20次;
[0028]9)返回一張排好序的包含視頻格式文件的網(wǎng)頁列表,即指向網(wǎng)絡視頻格式文件地址的URL庫,并且URL與網(wǎng)絡視頻格式文件的關鍵幀建立映射以便精準檢索。
【主權項】
1.一種針對網(wǎng)絡視頻格式文件的鏈接方法,其具體步驟如下: 1)通過METAFILE的關鍵詞對包含視頻格式文件的網(wǎng)頁進行查詢,找出η個與該查詢最為相關的包含視頻格式文件的網(wǎng)頁集合,其中η是預先設定的參數(shù); 2)向網(wǎng)頁集合中添加所有與匹配網(wǎng)頁存在著鏈接關系的包含視頻格式文件的網(wǎng)頁; 3)移除所有的站內(nèi)鏈接; 4)基于被相關網(wǎng)頁鏈接的入鏈數(shù),為每個網(wǎng)頁賦予一個權威權重以及基于鏈向權威網(wǎng)頁的來源網(wǎng)頁,賦予一個中心權重; 5)統(tǒng)計每個網(wǎng)頁鏈接的入鏈數(shù)之和,計算出每個網(wǎng)頁的權威權重; 6)統(tǒng)計每個網(wǎng)頁的出鏈網(wǎng)頁的權威度之和,計算出每個網(wǎng)頁的中心權重; 7)將所有包含視頻格式文件的網(wǎng)頁的中心度除以最高中心度以將其標準化,將所有包含視頻格式文件的網(wǎng)頁的權威度除以最高權威度以將其標準化; 8)重復第5)步到第7)步20次; 9)返回一張排好序的包含視頻格式文件的網(wǎng)頁列表,即指向網(wǎng)絡視頻格式文件地址的URL庫,并且URL與網(wǎng)絡視頻格式文件的關鍵幀建立映射以便精準檢索。
【專利摘要】本發(fā)明公開了一種針對網(wǎng)絡視頻格式文件的鏈接方法,通過METAFILE的關鍵詞對包含視頻格式文件的網(wǎng)頁進行查詢,初始化每個相關網(wǎng)頁的中心度和權威度,重復投票過程,報告排好序的包含視頻格式文件的網(wǎng)頁列表,即指向網(wǎng)絡視頻格式文件地址的URL庫,并且URL與網(wǎng)絡視頻格式文件的關鍵幀建立映射以便精準檢索。
【IPC分類】G06F17/30
【公開號】CN104978365
【申請?zhí)枴緾N201410147829
【發(fā)明人】張軍, 宋惟忠
【申請人】上海京知信息科技有限公司
【公開日】2015年10月14日
【申請日】2014年4月14日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1