專利名稱:面向廣域網(wǎng)的音視頻智能編目信息獲取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機應(yīng)用技術(shù)領(lǐng)域,涉及廣域網(wǎng)環(huán)境中數(shù)字音視頻資料的編目,為 廣域網(wǎng)環(huán)境中專業(yè)和非專業(yè)的內(nèi)容制作者及編目者提供高效、自動、智能的編目方法,能解 決目前編目系統(tǒng)面向局域網(wǎng)、專業(yè)性強、工作量大、重復(fù)勞動多、自動化程度低等問題,能顯 著提高編目效率,降低人工勞動量。
背景技術(shù):
數(shù)字音視頻資料的編目質(zhì)量與速度直接影響資源的管理水平、成本效益及資源再 利用。國內(nèi)從事的規(guī)?;曨l編目工作基本始于2002年。由于媒體資產(chǎn)管理平臺的建 立需要相當?shù)募夹g(shù)和物質(zhì)條件,所以在國內(nèi)僅有幾家單位建立了大規(guī)模媒體資產(chǎn)管理系統(tǒng) 和編目大規(guī)模生產(chǎn),其中規(guī)模最大、年產(chǎn)量最高的是中央電視臺音像資料館,現(xiàn)在它所使用 的編目軟件主要由索貝和中科大洋兩家公司制作。在已有文獻中,對圖書館、新聞等媒體形式的編目以及編目自動化技術(shù)進行了一 些研究,例如,中國科學院自動化研究所開發(fā)的“新聞視頻編目方法及系統(tǒng)”,基于新聞節(jié)目 中字幕條、主持人、音頻靜音點信息對新聞視頻進行了自動編目,該方法僅針對新聞視頻本 身的一些局部內(nèi)容進行分析、分離和匹配確定編目信息。其他還有針對自動抽幀、鏡頭分割 等方面的研究,例如,北京新岸線網(wǎng)絡(luò)技術(shù)有限公司開發(fā)的“網(wǎng)絡(luò)媒體智能編目系統(tǒng)”,其中 的“自動編目系統(tǒng)”,可以對媒體文件進行視頻結(jié)構(gòu)化分析、人臉分析、字幕分析、臺標分析、 聲音分析,從而形成相應(yīng)的編目信息。這些方法針對視頻內(nèi)容本身,算法比較復(fù)雜,適應(yīng)性 很弱,實現(xiàn)精度較低,受視頻內(nèi)容自身質(zhì)量的影響較大。目前數(shù)字音視頻資料的編目還存在以下主要問題一是編目項繁多,需要編目人 員根據(jù)專業(yè)知識逐項手工錄入,工作量大,且容易出錯;二是智能化和自動化程度低,不能 自動獲取編目信息,效率低下;三是編目環(huán)境一般為局域網(wǎng),限制了編目信息自動獲取的來 源和渠道;四是對編目人員的專業(yè)化程度要求高,而隨著音視頻采集設(shè)備的逐漸普及,內(nèi)容 制作開始走向個性化、公眾化,編目工作也逐漸趨向由非專業(yè)人員完成。
發(fā)明內(nèi)容
為了克服現(xiàn)有編目系統(tǒng)存在的上述問題,本發(fā)明提出了一種面向廣域網(wǎng)的音視頻 智能編目信息提取方法,能夠智能、自動地為編目者提供著錄項信息,減輕人工勞動量,提 高編目效率,而且能夠適應(yīng)專業(yè)和非專業(yè)編目者的不同需求,適應(yīng)廣域網(wǎng)環(huán)境。本發(fā)明的特征在于提出了基于關(guān)鍵詞特征項位置因素的權(quán)重算法,對文檔中不 同位置的特征項賦予不同的加權(quán)因子,進而更準確地計算網(wǎng)頁內(nèi)容的主題相似度;綜合利 用網(wǎng)頁內(nèi)容相似度、超鏈接的URL目錄層次信息、超鏈接的錨文本信息三方面因素,優(yōu)化選 擇主題相似度更高的鏈接。對搜索到的主題頁面,采用基于本體和HTML的信息提取方法自 動提取出編目信息。采用改進的語義相似度計算方法,對提取到的編目信息進行規(guī)范化。
本發(fā)明的總體流程如
圖1所示。本發(fā)明為用戶提供了友好的編目界面,打開界面 之后,選擇播放待編目的音視頻文件,之后開始在編目輸入框中進行著錄。在著錄過程中, 首先錄入正題名和關(guān)鍵詞作為輸入值,然后在計算機上依次按下列步驟實現(xiàn)編目信息的自 動提取1.主題爬蟲搜索網(wǎng)頁本發(fā)明針對目前傳統(tǒng)搜索引擎難以滿足對特定編目信息檢索的要求,采用垂直搜 索引擎搜索與特定主題相關(guān)的網(wǎng)絡(luò)資源。將編目者錄入的正題名和關(guān)鍵詞作為爬蟲的主題
皇A
朱口 ο本發(fā)明設(shè)計的主題爬蟲搜索網(wǎng)頁的過程如下(1)頁面文檔預(yù)處理獲取并解析初始種子URL對應(yīng)的網(wǎng)頁,將其中的標題文本和正文文本進行分詞, 形成關(guān)鍵詞特征項集合,并將其與主題集合進行匹配,得到與主題向量維數(shù)相等的特征項向量。(2)關(guān)鍵詞特征項權(quán)重計算本發(fā)明改進了傳統(tǒng)向量空間模型中的TF權(quán)重算法。傳統(tǒng)的TF權(quán)重算法只關(guān)注一 個網(wǎng)頁中關(guān)鍵詞特征項出現(xiàn)的頻率,但在瀏覽網(wǎng)頁時,標題文字和正文的重要性明顯是不 一樣的,TF權(quán)重算法忽略了關(guān)鍵詞特征項在網(wǎng)頁中的位置因素,導致關(guān)鍵詞向量與主題向 量的相似度存在誤差。本發(fā)明提出“基于關(guān)鍵詞特征項位置因素的權(quán)重算法”,計算方法如 下a)定義特征項出現(xiàn)的不同位置,并對不同位置的特征項賦予不同的位置權(quán)重因子。將關(guān)鍵詞特征項出現(xiàn)的位置定義為3類主題(Title)標簽,標題(H1-H6)標簽, 正文其他位置。這3類位置對于特征項的重要性是依次遞減的。然后引入位置權(quán)重因子PG表示特征項在不同位置的重要性,PG越大,表示該位置 的特征項越重要。定義PGi (i = 1,2,3)為特征項在不同位置所對應(yīng)的權(quán)重因子,i代表上 述3類位置。由于3類位置對于特征項的重要性是依次遞減的,因此規(guī)定=PGi >= PGi+1(l < =i < = 2)。定義TF’ Ji = 1,2,3)為特征項t在不同位置出現(xiàn)的頻率。b)計算基于位置因素的特征項權(quán)重。根據(jù)特征項的位置,計算頁面文檔D中某關(guān)鍵詞特征項t的權(quán)重DWeight (t),公式 為DWeight(J) = Y^i=l(TF\x PG1)(公式 1)(3)頁面內(nèi)容主題相似度計算根據(jù)各關(guān)鍵詞特征項的基于位置因素的權(quán)重,計算所搜索頁面文檔D中的關(guān)鍵詞 特征項與主題Topic的相似度Sim(D)如下
^z _xDWeight{j) χ TopicWeight(J)Sim(D)=廣一!(公式 2)
^ DWeightU)2 χ ^jJopicWeightUf
公式2中,所搜索頁面文檔D中的關(guān)鍵詞特征項與主題Topic的維數(shù)相等,用ζ表 示;DWeight (j)表示文檔D中第j個關(guān)鍵詞特征項的權(quán)重,TopicWeight (j)表示主題Topic 中的第j個主題項的權(quán)重,J^z0根據(jù)實驗分析,相似度閾值TH的取值范圍為0. 4 0. 6能更準確地得到主題相關(guān) 網(wǎng)頁。如果網(wǎng)頁文檔與主題的相似度值Sim(D)彡TH,則判定該網(wǎng)頁文檔與主題相似,否則 該文檔與主題不相似。(4)鏈接相似度計算該步驟決定主題爬蟲的搜索方向。通過本發(fā)明設(shè)計的主題搜索策略,對URL鏈接 進行相似度判定,并對URL優(yōu)先級進行排序,給爬蟲提供最優(yōu)的URL鏈接,提高爬行效率。本發(fā)明綜合利用以下三方面信息來計算候選URL的主題相似性本網(wǎng)頁內(nèi)容相似 度、本網(wǎng)頁內(nèi)超鏈接的URL目錄層次信息、本網(wǎng)頁中超鏈接的錨文本信息。具體計算步驟 為a)計算當前頁面內(nèi)容的主題相似度,即利用步驟(3)的計算結(jié)果;b)對于當前頁面的每個鏈接,通過URL目錄信息判斷該鏈接和當前頁面是否目錄 位置相鄰。如果是,根據(jù)當前頁面內(nèi)容的主題相似度來預(yù)估目標頁面的相似度,如果否,則 通過對錨文本的分析來評價鏈接的相似度。計算公式如下
…、\Sim(D),如果C與D相鄰 ^Sim(C) =(公式 3)其中D——當前網(wǎng)頁;L——D網(wǎng)頁中的超鏈接錨文本;C——L指向的目標網(wǎng)頁;Sim(D)——網(wǎng)頁D的主題相似度;Sim(L)——鏈接L的錨文本的主題相似度;Sim(C)——對L指向目標網(wǎng)頁C主題相似度的預(yù)估值; χ—影響系數(shù),x = 0~l, χ用于調(diào)節(jié)D和L兩個因素的主題相似度的權(quán)重分配, X越大,則公式更傾向于錨文本,X越小則更傾向于父網(wǎng)頁的主題相似度。根據(jù)實驗,X可設(shè) 定為0. 7 0. 8。如果鏈接與主題的相似度值Sim(C) ^ TH,則判定該鏈接與主題相似,否則與主題 不相似。(5)將與主題相似的網(wǎng)頁下載到數(shù)據(jù)庫并建立索引,用于下一步的編目信息提取。2.基于本體和HTML的編目信息提取針對步驟1中搜索到的相似度較高的主題頁面,采用基于本體和HTML的編目信息 提取方法,提取編目信息。通常的Web信息提取中,以HTML形式存在的網(wǎng)頁結(jié)構(gòu)易變化、網(wǎng)頁內(nèi)容缺乏語義 描述。本發(fā)明針對該問題,將基于HTML結(jié)構(gòu)的信息提取技術(shù)和基于本體的信息提取技術(shù)的 特點相結(jié)合,在定位提取信息所在信息塊的時候采用基于HTML結(jié)構(gòu)的提取原理,在具體提 取信息的時候采用基于本體的提取原理,解決提取項描述的語義問題。具體執(zhí)行過程如圖2所示,步驟如下
7
(1)構(gòu)建本體構(gòu)建多媒體內(nèi)容提取本體,本體中的概念定義為多媒體文件內(nèi)容 描述信息的編目著錄項,屬性定義為各概念之間的關(guān)系,概念的標簽屬性定義各提取數(shù)據(jù) 源中提取著錄項對應(yīng)的多義詞。(2)解析網(wǎng)頁清洗HTML頁面,改正頁面錯誤信息,去掉冗余信息,轉(zhuǎn)換成XHTML 文檔,然后將該文檔解析成DOM樹結(jié)構(gòu)。(3)生成提取規(guī)則通常情況下各個Web提取源中的提取信息都集中在一個連續(xù) 的信息塊中。系統(tǒng)根據(jù)基于樹路徑和文本內(nèi)容結(jié)合的定位方式來定位信息,生成XPath路 徑,生成提取規(guī)則。(4)讀取提取規(guī)則讀取步驟(3)生成的提取規(guī)則。(5)讀取本體讀取多媒體內(nèi)容提取本體,并對本體中的類、屬性和實例進行操作。(6)執(zhí)行提取算法將步驟(4)和(5)的提取規(guī)則和本體作為輸入,執(zhí)行提取 算法。具體步驟為將HTML解析形成的DOM樹中待提取信息塊中的具體信息分割成 key-value ;讀取多媒體文件提取本體中的概念以及概念的標簽屬性值;如果DOM樹中的 key與本體中的概念的標簽屬性值對應(yīng),則將本體的概念和對應(yīng)的value值保存到XML文件 中,即,將網(wǎng)頁信息塊中包含的所有數(shù)據(jù)提取出來。提取出來的具體信息可以作為本體中概 念的具體實例添加到提取本體中,擴展本體模型。(7)信息融合存儲根據(jù)每個網(wǎng)頁數(shù)據(jù)源提取出相應(yīng)的提取結(jié)果,多個數(shù)據(jù)源對 應(yīng)各提取結(jié)果文件,每個結(jié)果文件所包含的信息有相同的也有不同的。系統(tǒng)通過對比分析 各個提取結(jié)果文件中的信息,進行信息融合,最終生成一個提取結(jié)果文件。3.基于自然語言的編目信息規(guī)范化首先,本發(fā)明初始化一個著錄項規(guī)范詞庫;然后,針對步驟2中提取到的編目信 息,執(zhí)行基于知網(wǎng)的語義相似度計算算法,生成規(guī)范化的編目著錄項。系統(tǒng)讀入步驟2中提取到的編目項信息,以及知網(wǎng)詞庫和義原樹文件,找到匹配 的兩個詞語,之后計算兩個詞語的語義相似度。一個漢語詞語由一個或多個義項(概念) 組成,兩個詞語的相似度是各概念的語義相似度的最大值,把兩個漢語詞語之間的相似度 問題歸結(jié)到兩個概念之間的相似度問題,而所有的概念都最終用義原來表示,因此,將按照 下列步驟,從義原相似度計算開始,逐步計算兩個漢語詞語的語義相似度。1)計算義原的語義相似度在義原構(gòu)成的樹狀層次體系中,假設(shè)兩個義原X和Y在其中的路徑距離為dis ( — 個正整數(shù)),這兩個義原之間的語義相似度Sim(X,Y)按公式4計算
權(quán)利要求
一種面向廣域網(wǎng)的音視頻智能編目信息獲取方法,其特征在于,包括步驟(1)主題爬蟲搜索網(wǎng)頁采用基于關(guān)鍵詞特征項位置因素的權(quán)重算法,計算網(wǎng)頁內(nèi)容的主題相關(guān)度;綜合利用網(wǎng)頁內(nèi)容相似度、超鏈接的URL目錄層次信息、超鏈接的錨文本信息三方面因素,計算鏈接主題相似度;基于關(guān)鍵詞特征項位置因素的權(quán)重算法的具體步驟如下1)定義特征項出現(xiàn)的不同位置,并對不同位置的特征項賦予不同的位置權(quán)重因子;將關(guān)鍵詞特征項出現(xiàn)的位置定義為3類主題標簽,標題標簽,正文其他位置;這3類位置對于特征項的重要性是依次遞減的;然后引入位置權(quán)重因子PG表示特征項在不同位置的重要性,定義PGi(i=1,2,3)為特征項在不同位置所對應(yīng)的權(quán)重因子,i代表上述3類位置,規(guī)定PGi>=PGi+1(1<=i<=2);定義TF′i(i=1,2,3)為特征項t在不同位置出現(xiàn)的頻率;2)計算基于位置因素的特征項權(quán)重;根據(jù)特征項的位置,計算頁面文檔D中某關(guān)鍵詞特征項t的權(quán)重DWeight(t),公式為 <mrow><mi>DWeight</mi><mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo></mrow><mo>=</mo><msubsup> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mn>3</mn></msubsup><mrow> <mo>(</mo> <msub><msup> <mi>TF</mi> <mo>′</mo></msup><mi>i</mi> </msub> <mo>×</mo> <msub><mi>PG</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow>(公式1)鏈接主題相似度計算的步驟如下1)計算當前頁面內(nèi)容的主題相似度 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>z</mi></msubsup><mi>DWeight</mi><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><mo>×</mo><mi>TopicWeight</mi><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow> </mrow> <mrow><msqrt> <msubsup><mi>Σ</mi><mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn></mrow><mi>z</mi> </msubsup> <msup><mrow> <mi>DWeight</mi> <mrow><mo>(</mo><mi>j</mi><mo>)</mo> </mrow></mrow><mn>2</mn> </msup></msqrt><mo>×</mo><msqrt> <msubsup><mi>Σ</mi><mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn></mrow><mi>z</mi> </msubsup> <msup><mrow> <mi>TopicWeight</mi> <mrow><mo>(</mo><mi>j</mi><mo>)</mo> </mrow></mrow><mn>2</mn> </msup></msqrt> </mrow></mfrac> </mrow>(公式2)公式2中,D是所搜索頁面文檔,z表示主題Topic的維數(shù),DWeight(j)表示D中第j個關(guān)鍵詞特征項的權(quán)重,TopicWeight(j)表示主題Topic中的第j個主題項的權(quán)重,1≤j≤z;2)對于當前頁面的每個鏈接,通過URL目錄信息判斷該鏈接和當前頁面是否目錄位置相鄰,如果是,根據(jù)當前頁面內(nèi)容的主題相似度來預(yù)估目標頁面的相似度,如果否,則通過對錨文本的分析來評價鏈接的相似度;計算公式如下(公式3)其中D——當前網(wǎng)頁;L——D網(wǎng)頁中的超鏈接錨文本;C——L指向的目標網(wǎng)頁;Sim(D)——網(wǎng)頁D的主題相似度;Sim(L)——鏈接L的錨文本的主題相似度;Sim(C)——對L指向目標網(wǎng)頁C主題相似度的預(yù)估值;x——影響系數(shù),x=0~1,x用于調(diào)節(jié)D和錨L兩個因素的主題相似度的權(quán)重分配,x越大,則公式更傾向于錨文本,x越小則更傾向于父網(wǎng)頁的主題相似度;(2)基于本體和HTML的編目信息提取采用基于HTML結(jié)構(gòu)的信息提取方法對HTML頁面結(jié)構(gòu)進行分析定位,生成抽取規(guī)則,并通過基于本體的信息提取方法解決語義問題;具體處理步驟如下1)構(gòu)建本體構(gòu)建多媒體內(nèi)容提取本體,本體中的概念定義為多媒體文件內(nèi)容描述信息的編目著錄項,屬性定義為各概念之間的關(guān)系,概念的標簽屬性定義各提取數(shù)據(jù)源中提取著錄項對應(yīng)的多義詞;2)解析網(wǎng)頁清洗HTML頁面,改正頁面錯誤信息,去掉冗余信息,轉(zhuǎn)換成XHTML文檔,然后將該文檔解析成DOM樹結(jié)構(gòu);3)生成提取規(guī)則根據(jù)基于樹路徑和文本內(nèi)容結(jié)合的定位方式定位信息,生成XPath路徑,生成提取規(guī)則;4)讀取提取規(guī)則讀取步驟3)生成的提取規(guī)則;5)讀取本體讀取多媒體內(nèi)容提取本體,并對本體中的類、屬性和實例進行操作;6)執(zhí)行提取算法將步驟4)和5)的提取規(guī)則和本體作為輸入,執(zhí)行提取算法;具體步驟為將HTML解析形成的DOM樹中待提取信息塊中的具體信息分割成key value;讀取多媒體文件提取本體中的概念以及概念的標簽屬性值;如果DOM樹中的key與本體中的概念的標簽屬性值對應(yīng),則將本體的概念和對應(yīng)的value值保存到XML文件中,即,將網(wǎng)頁信息塊中包含的所有數(shù)據(jù)提取出來;提取出來的具體信息可以作為本體中概念的具體實例添加到提取本體中,擴展本體模型;7)信息融合存儲根據(jù)每個網(wǎng)頁數(shù)據(jù)源提取出相應(yīng)的提取結(jié)果,多個數(shù)據(jù)源對應(yīng)各提取結(jié)果文件,每個結(jié)果文件所包含的信息有相同的也有不同的;系統(tǒng)通過對比分析各個提取結(jié)果文件中的信息,進行信息融合,最終生成一個提取結(jié)果文件;(3)基于自然語言的編目信息規(guī)范化采用語義相似度算法,并給出了改進的概念語義表達式相似度的計算方法,對步驟(2)提取到的編目信息與規(guī)范詞庫的信息進行相似度計算,進而確定規(guī)范化的編目項內(nèi)容;具體過程為系統(tǒng)讀入步驟(2)中提取到的編目項信息,以及知網(wǎng)詞庫和義原樹文件,找到匹配的兩個詞語,之后計算兩個詞語的語義相似度;一個漢語詞語由一個或多個義項(概念)組成,兩個詞語的相似度是各概念的語義相似度的最大值,把兩個漢語詞語之間的相似度問題歸結(jié)到兩個概念之間的相似度問題,而所有的概念都最終用義原來表示,按照下列步驟,從義原相似度計算開始,逐步計算兩個漢語詞語的語義相似度;1)計算義原的語義相似度在義原構(gòu)成的樹狀層次體系中,假設(shè)兩個義原X和Y在其中的路徑距離為dis,dis為一個正整數(shù),這兩個義原之間的語義相似度Sim(X,Y)按公式4計算 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mi>α</mi> <mrow><mi>dis</mi><mo>+</mo><mi>α</mi> </mrow></mfrac> </mrow>(公式4)其中,α是表示相似度為0.5時的路徑長度參數(shù);分別按照公式4計算出第一獨立義原、其他獨立義原、關(guān)系義原和符號義原這四類義原的語義相似度;2)計算兩個概念的語義相似度兩個概念的相似度由上述四類義原的相似度加權(quán)平均得到;概念S1和概念S2之間的語義相似度Sim(S1,S2)按照公式5計算 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <msub><mi>S</mi><mn>1</mn> </msub> <mo>,</mo> <msub><mi>S</mi><mn>2</mn> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mn>4</mn></munderover><msub> <mi>β</mi> <mi>k</mi></msub><munderover> <mi>Π</mi> <mrow><mi>q</mi><mo>=</mo><mn>1</mn> </mrow> <mi>k</mi></munderover><msub> <mi>Sim</mi> <mi>q</mi></msub><mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo></mrow> </mrow>(公式5)其中,X和Y表示兩個義原,Simq(X,Y)表示第q類義原的語義相似度,1≤q≤4;βk(1≤k≤4)是四類義原的權(quán)重,代表了四類義原對概念語義相似度的影響程度,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4;公式5中,對于權(quán)重較小但有可能相似度較大的義原,用多個義原相似度乘積的方式,使得整體相似度降低,即,主要義原的相似度值對于次要義原的相似度值起到制約作用,如果主要義原相似度比較低,那么次要義原的相似度對于整體相似度所起到的作用也要降低;3)計算兩個漢語詞語的語義相似度對于兩個漢語詞語W1和W2,如果W1有n個概念S11,S12,……,S1n,W2有m個概念S21,S22,……,S2m,采用步驟1)和2)計算出兩個詞語的每對概念的語義相似度,然后取結(jié)果的最大值,即,詞語W1和詞語W2的語義相似度Sim(W1,W2)是各個概念的相似度之最大值,用公式6計算 <mrow><mi>Sim</mi><mrow> <mo>(</mo> <msub><mi>W</mi><mn>1</mn> </msub> <mo>,</mo> <msub><mi>W</mi><mn>2</mn> </msub> <mo>)</mo></mrow><mo>=</mo><munder> <mi>Max</mi> <mrow><mi>v</mi><mo>=</mo><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>n</mi><mo>;</mo><mi>w</mi><mo>=</mo><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>m</mi> </mrow></munder><mi>Sim</mi><mrow> <mo>(</mo> <msub><mi>S</mi><mrow> <mn>1</mn> <mi>v</mi></mrow> </msub> <mo>,</mo> <msub><mi>S</mi><mrow> <mn>2</mn> <mi>w</mi></mrow> </msub> <mo>)</mo></mrow> </mrow>(公式6)其中,S1v表示詞語W1中第v個概念,1≤v≤n,n是詞語W1中概念的個數(shù);S2w表示詞語W2中第w個概念,1≤w≤m,m是詞語W2中概念的個數(shù);Sim(S1v,S2w)表示概念S1v和S2w的語義相似度,取各對概念的相似度的最大值,便得到兩個詞語的語義相似度。FSA00000339766500013.tif
全文摘要
面向廣域網(wǎng)的音視頻智能編目信息獲取方法,屬計算機應(yīng)用領(lǐng)域。本發(fā)明特征在于,提出了基于關(guān)鍵詞特征項位置因素的權(quán)重算法,對文檔中不同位置的特征項賦予不同的加權(quán)因子,進而更準確地計算網(wǎng)頁內(nèi)容的主題相似度;綜合利用網(wǎng)頁內(nèi)容相似度、超鏈接的URL目錄層次信息、超鏈接的錨文本信息三方面因素,優(yōu)化選擇主題相似度更高的鏈接。對搜索到的主題頁面,采用基于本體和HTML的信息提取方法自動提取出編目信息。采用改進的語義相似度計算方法,對提取到的編目信息進行規(guī)范化。本發(fā)明能夠智能、自動地為編目者提供著錄項信息,減輕人工勞動量,提高編目效率,能夠適應(yīng)專業(yè)和非專業(yè)編目者的不同需求,也能適應(yīng)廣域網(wǎng)環(huán)境。
文檔編號G06F17/30GK101968819SQ20101053710
公開日2011年2月9日 申請日期2010年11月5日 優(yōu)先權(quán)日2010年11月5日
發(fā)明者伏文龍, 王永濱, 隋愛娜 申請人:中國傳媒大學