視頻定位方法和裝置的制造方法
【專利摘要】本發(fā)明提供了一種視頻定位方法和裝置,所述方法包括:解析待定位視頻生成聲紋庫集合;獲取用戶語音指令;依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合;獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。與傳統(tǒng)技術(shù)中用戶需要多次調(diào)整進度條進行幀預覽來定位方法比較而言,本發(fā)明通過聲紋匹配,直接顯示多個匹配的位置幀畫面,用戶可以直接選擇,簡化了視頻定位步驟,節(jié)省了視頻定位的時間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進度條預覽定位的過程。
【專利說明】
視頻定位方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,特別是涉及一種視頻定位方法和裝置。
【背景技術(shù)】
[0002]當下,觀看視頻已成為人們?nèi)粘I钪械谋仨殻窒硪曨l圖片的需求也越來越多,如何更便捷的將視頻定位到用戶想要的位置或者直接獲取用戶想要分享處的視頻圖片仍沒有太好的方法。
[0003]目前視頻定位主要方式是幀預覽加用戶選擇的方式,這樣的方式用戶一般需要多次調(diào)整進度條進行幀預覽來選擇,視頻定位耗時長,定位效率不高,操作繁瑣,用戶體驗差。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供了一種視頻定位方法和裝置,以解決視頻定位效率低的問題。
[0005]為了解決上述問題,本發(fā)明公開了一種視頻定位方法,包括:
[0006]解析待定位視頻生成聲紋庫集合;
[0007]獲取用戶語音指令;
[0008]依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合;
[0009]獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。
[0010]本發(fā)明還公開了一種視頻定位裝置,包括:
[0011]集合生成模塊,用于解析待定位視頻生成聲紋庫集合;
[0012]指令獲取模塊,用于獲取用戶語音指令;
[0013]匹配模塊,用于依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合;
[0014]顯示模塊,用于獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明至少包括以下優(yōu)點:
[0016]本發(fā)明首先解析待定位視頻生成聲紋庫集合,其次獲取用戶語音指令,再次依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,最后獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。與傳統(tǒng)的用戶需要多次調(diào)整進度條進行幀預覽來定位方法比較而言,本發(fā)明通過聲紋匹配,直接顯示多個匹配的位置幀畫面,用戶可以直接選擇,簡化了視頻定位步驟,節(jié)省了視頻定位的時間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進度條預覽定位的過程。并且依據(jù)用戶語音指令檢索所述聲紋庫集合進行匹配處理,提高了視頻定位的準確性。
【附圖說明】
[0017]圖1是本發(fā)明實施例一中一種視頻定位方法的流程圖;
[0018]圖2是本發(fā)明實施例二中一種視頻定位方法的流程圖;
[0019]圖3是本發(fā)明實施例三中一種視頻定位方法的流程圖;
[0020]圖4是本發(fā)明實施例四中一種視頻定位裝置的結(jié)構(gòu)框圖;
[0021]圖5是本發(fā)明實施例四中另一種視頻定位裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0022]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細的說明。
[0023]實施例一:
[0024]參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種視頻定位方法實施例的步驟流程圖,具體可以包括如下步驟:
[0025]步驟101,解析待定位視頻生成聲紋庫集合。
[0026]需要說明的是視頻中的音視頻通路本身就是分開的,本實施例可以通過解析待定位視頻,得到音頻通路信息,音頻通路信息具體可以包括時間戳、音頻波形等信息。其中時間戳通常是一個字符序列,唯一地標識某一刻的時間。音頻通路信息和視頻通路信息中的時間戳都和一個時間參考線對應(yīng),因此才能同步。具體實現(xiàn)時可以通過分割所述音頻通路信息得到聲紋庫集合,例如聲紋庫集合T {tl,t2,…tn},其中(tl+t2+*"+tn為完整音頻,tl中存儲O?t時間的音頻波形,t2中存儲t?2*t時間的音頻波形,以此類推。
[0027]步驟102,獲取用戶語音指令。
[0028]本實施例中用戶語音指令具體可以是待定位視頻的一段錄音,用戶啟動錄音開始聲音采集,用戶停止錄音結(jié)束聲音采集。采集到的音頻定義為X,將音頻X按步驟101中類似的分割方法處理為集合X 1x1,x2,…xn},然后將X作為用戶語音指令。需要說明的是,本步驟在獲取用戶語音指令時,對所采集的錄音進行分割時采用的單位時間,與步驟101中生成聲紋庫集合時采用的單位時間必須相同。
[0029]步驟103,依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合。
[0030]本步驟是將步驟102中獲取到的用戶語音指令,與步驟101中生成的聲紋庫集合進行匹配,在所述待定位視頻中將匹配到的視頻所對應(yīng)的時間坐標記錄下來,得到定位時間坐標集合。即將X{xl, x2,."Xnl與T{tl, t2,…tn}進行逐段比對(默認T>X)。
[0031]步驟104,獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。
[0032]本實施例可以通過開始時間從所述待定位視頻中獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示出來,用戶可以直接從中進行選擇。至于幀畫面的具體顯示方式,本實施例對此不做限制。
[0033]本實施例首先解析待定位視頻生成聲紋庫集合,其次獲取用戶語音指令,再次依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,最后獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。與傳統(tǒng)的用戶需要多次調(diào)整進度條進行幀預覽來定位方法比較而言,本實施例通過聲紋匹配,直接顯示多個匹配的位置幀畫面,用戶可以直接選擇,簡化了視頻定位步驟,節(jié)省了視頻定位的時間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進度條預覽定位的過程。并且依據(jù)用戶語音指令檢索所述聲紋庫集合進行匹配處理,提高了視頻定位的準確性。
[0034]實施例二:
[0035]在上述實施例的基礎(chǔ)上,本實施例繼續(xù)說明視頻定位方法。
[0036]參照圖2,示出了根據(jù)本發(fā)明一個實施例的一種視頻定位方法實施例的步驟流程圖,具體可以包括如下步驟:
[0037]步驟201,解析待定位視頻獲取音頻通路信息。
[0038]需要說明的是視頻中的音視頻通路本身就是分開的,本實施例可以通過解析待定位視頻,得到音頻通路信息,音頻通路信息具體可以包括時間戳、音頻波形等信息。其中時間戳通常是一個字符序列,唯一地標識某一刻的時間。音頻通路信息和視頻通路信息中的時間戳都和一個時間參考線對應(yīng),因此才能同步。
[0039]本實施例中所述解析待定位視頻獲取音頻通路信息,具體可以通過以下方式來實現(xiàn):首先,解析待定位視頻獲取時間戳和音頻波形;其次,將所述時間戳和音頻波形作為音頻通路信息。
[0040]步驟202,將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù)。
[0041]本實施例中所述將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù),具體可以通過以下方式來實現(xiàn):首先,根據(jù)所述時間戳將所述音頻波形按單位時間平均分割為聲紋集合;其次,記錄所述單位時間內(nèi)的聲紋集合對應(yīng)的時間數(shù)據(jù)。
[0042]本實施例實現(xiàn)時可以根據(jù)所述時間戳將所述音頻波形按單位時間平均分割為聲紋集合,例如:根據(jù)時間戳將音頻信息按單位時間t平均分割為集合T {tl,t2,…tn},其中(tl+t2+-+tn為完整音頻,tl中存儲O?t時間的音頻波形,t2中存儲t?2*t時間的音頻波形,以此類推。接著記錄所述單位時間內(nèi)的聲紋集合對應(yīng)的時間數(shù)據(jù)。
[0043]步驟203,將所述聲紋集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的聲紋庫集合。
[0044]本實施例中將步驟202中的聲紋集合與對應(yīng)的時間數(shù)據(jù)進行關(guān)聯(lián)處理,生成聲紋庫集合,其中所述聲紋庫集合中包括多個聲紋集合與其對應(yīng)的時間數(shù)據(jù),且所述聲紋集合與所述時間數(shù)據(jù)一一對應(yīng)。本實施例對于具體的關(guān)聯(lián)方式不做限制。需要說明的是,在本發(fā)明的可選實施例中,所述步驟202中的聲紋集合為對應(yīng)的視頻聲紋集合,關(guān)聯(lián)聲紋庫后,需要先在聲紋庫中根據(jù)視頻名稱進行檢索,若有匹配的項,則使用該項為該視頻的聲紋集合 Map0
[0045]步驟204,獲取用戶語音指令。
[0046]本實施例中所述獲取用戶語音指令,具體可以通過以下方式來實現(xiàn):首先,啟動錄音,采集語音信息;其次,將所述語音信息按單位時間平均分割為語音集合;再次,記錄所述單位時間內(nèi)的語音集合對應(yīng)的時間數(shù)據(jù);最后,將所述語音集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的語音庫集合,并將所述語音庫集合作為用戶語音指令。例如:用戶啟動錄音一開始聲音采集,用戶停止錄音一結(jié)束聲音采集。采集到的音頻定義為語音信息,將語音信息按步驟步驟202中類似的分割方法處理為語音集合X{xl,x2, -xn},即根據(jù)所述時間戳將所述語音信息按單位時間t平均分割為語音集合X {xl,x2,…xn},然后將語音集合X作為用戶語音指令。需要說明的是,本步驟在獲取用戶語音指令時,對所采集的錄音進行分割時采用的單位時間,與步驟202中生成聲紋庫集合時采用的單位時間必須相同。
[0047]需要說明的是,用戶語音指令具體可以是待定位視頻的一段錄音,用戶啟動錄音開始聲音采集,用戶停止錄音結(jié)束聲音采集。本實施例僅以用戶語音信息為例進行說明,并非對用戶語音指令的具體限定。
[0048]步驟205,依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合。
[0049]本實施例中所述依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,具體可以包括以下子步驟:子步驟一,將所述用戶語音指令與所述聲紋庫集合按照所述單位時間進行逐段比對。子步驟二,獲取每段比對后的相似度,將相似度達到相似閾值的聲紋集合對應(yīng)的時間數(shù)據(jù)保存為定位時間坐標集合。即將步驟204中獲取到的用戶語音指令,與步驟203中生成的聲紋庫集合進行匹配,在所述待定位視頻中將匹配到的視頻所對應(yīng)的時間坐標記錄下來,得到定位時間坐標集合。也就是說將X {xI,x2,…xn}與T{tl,t2,一tn}進行逐段比對(默認T>X)。當然也可以采取其他方式進行匹配,本實施例并非對具體匹配方式的限定。
[0050]在本發(fā)明的可選實施例中,將X{xl, x2,."Xnl與T {tl, t2,…tn}進行逐段比對之后,還可以獲取每段比對后的相似度,并通過開始時間從視頻中獲取對應(yīng)的視頻幀并保存為集合 M{(sl, yl), (s2, y2),…(sm, yn)} (yl 為第一段相似度)。
[0051]步驟206,獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。
[0052]本實施例可以通過開始時間從所述待定位視頻中獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示出來,用戶可以直接從中進行選擇。至于幀畫面的具體顯示方式,本實施例對此不做限制。
[0053]本實施例中所述獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇,具體可以通過以下方式來實現(xiàn):首先,獲取所述定位時間坐標集合對應(yīng)的幀畫面;其次,按照相似度從高到低的順序顯示所述幀畫面以供用戶進行選擇。例如,通過開始時間從視頻中獲取對應(yīng)的視頻幀并保存為集合M {(si, yl), (s2, y2),…(sm, yn)} (yl為第一段相似度),然后可以將M按相似度從高到低排序并劃分為N個等級,例如0%?100%分為10個等級,每10 %為一級。在顯示時可以按等級顯示,如70 %?80 %相似度有5段,則此等級下顯示5個視頻幀供用戶預覽選擇。需要說明的是,具體實現(xiàn)時,也可以采用其他方式對匹配到的視頻幀進行顯示,本實施例并非對具體顯示方式的限定。
[0054]本實施例通過解析待定位視頻獲取音頻通路信息,接著將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù),然后將所述聲紋集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的聲紋庫集合。然后獲取用戶語音指令,依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,最后獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。本實施例針對無字幕視頻的匹配問題,通過上述解析待定位視頻獲取音頻通路信息,接著將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù),然后將所述聲紋集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的聲紋庫集合的方式生成聲紋庫集合,然后將采集的語音信息與聲紋庫匹配來進行視頻定位和獲取視頻圖片,與傳統(tǒng)的用戶需要多次調(diào)整進度條進行幀預覽來定位方法比較而言,直接顯示多個匹配的位置幀畫面,用戶可以直接選擇,簡化了視頻定位步驟,節(jié)省了視頻定位的時間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進度條預覽定位的過程。并且依據(jù)用戶語音指令檢索所述聲紋庫集合進行匹配處理,提高了視頻定位的準確性。
[0055]實施例三:
[0056]在上述實施例的基礎(chǔ)上,本實施例針對已有聲紋的視頻繼續(xù)說明視頻定位方法。
[0057]參照圖3,示出了根據(jù)本發(fā)明一個實施例的一種視頻定位方法實施例的步驟流程圖,具體可以包括如下步驟:
[0058]步驟301,關(guān)聯(lián)聲紋庫,初始化聲紋集合Map (包含聲紋與時間信息)。
[0059]需要說明的是,本實施例是針對已有聲紋的視頻進行的視頻定位方法,本實施例中所述聲紋集合為對應(yīng)的視頻聲紋集合,關(guān)聯(lián)聲紋庫后,需要先在聲紋庫中根據(jù)視頻名稱進行檢索,若有匹配的項,則使用該項為該視頻的聲紋集合Map。
[0060]步驟302,獲取用戶語音指令。
[0061]本實施例中所述獲取用戶語音指令,具體可以通過以下方式來實現(xiàn):首先,啟動錄音,采集語音信息;其次,將所述語音信息按單位時間平均分割為語音集合;再次,記錄所述單位時間內(nèi)的語音集合對應(yīng)的時間數(shù)據(jù);最后,將所述語音集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的語音庫集合,并將所述語音庫集合作為用戶語音指令。需要說明的是,本步驟獲取用戶語音指令與步驟204獲取用戶語音指令的類似,具體內(nèi)容可參見步驟204的相關(guān)描述,本實施例在此不做贅述。
[0062]步驟303,依據(jù)所述用戶語音指令檢索Map進行匹配處理,得到定位時間坐標集入口 ο
[0063]本實施例中所述依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,具體可以包括以下子步驟:子步驟一,將所述用戶語音指令與所述聲紋庫集合按照所述單位時間進行逐段比對。子步驟二,獲取每段比對后的相似度,將相似度達到相似閾值的聲紋集合對應(yīng)的時間數(shù)據(jù)保存為定位時間坐標集合{Tl...Τη}。需要說明的是,本步驟進行匹配處理得到定位時間坐標集合與步驟205依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合類似,具體內(nèi)容可參見步驟205的相關(guān)描述,本實施例在此不做贅述。
[0064]步驟304,獲取定位時間坐標集合對應(yīng)的幀畫面并顯示供用戶選擇。
[0065]本實施例中所述獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇,具體可以通過以下方式來實現(xiàn):首先,獲取所述定位時間坐標集合對應(yīng)的幀畫面;其次,按照相似度從高到低的順序顯示所述幀畫面以供用戶進行選擇。例如,通過開始時間從視頻中獲取對應(yīng)的視頻幀并保存為集合M {(si, yl), (s2, y2),…(sm, yn)} (yl為第一段相似度),然后可以將M按相似度從高到低排序并劃分為N個等級,例如0%?100%分為10個等級,每10 %為一級。在顯示時可以按等級顯示,如70 %?80 %相似度有5段,則此等級下顯示5個視頻幀供用戶預覽選擇。需要說明的是,具體實現(xiàn)時,也可以采用其他方式對匹配到的視頻幀進行顯示,本實施例并非對具體顯示方式的限定。需要說明的是,本步驟獲取定位時間坐標集合對應(yīng)的幀畫面并顯示供用戶選擇與步驟206獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇類似,具體內(nèi)容可參見步驟206的相關(guān)描述,本實施例在此不做贅述。
[0066]本實施例對于已有聲紋的視頻,采用了首先關(guān)聯(lián)聲紋庫,初始化聲紋集合Map ;其次獲取用戶語音指令;再次依據(jù)所述用戶語音指令檢索Map進行匹配處理,得到定位時間坐標集合;最后獲取定位時間坐標集合對應(yīng)的幀畫面并顯示供用戶選擇的方式進行視頻定位,省去了生成聲紋庫集合的步驟,即簡化了視頻定位的步驟,節(jié)省了視頻定位的時間,從而提高了視頻定位效率,有定位時間短、匹配更準確的優(yōu)勢。
[0067]對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
[0068]實施例四:
[0069]在上述實施例的基礎(chǔ)上,本實施例還公開了一種視頻定位裝置。
[0070]參照圖4,示出了根據(jù)本發(fā)明一個實施例的一種視頻定位裝置實施例的結(jié)構(gòu)框圖,具體可以包括:集合生成模塊401、指令獲取模塊402、匹配模塊403和顯示模塊404,其中,
[0071]集合生成模塊401,用于解析待定位視頻生成聲紋庫集合。
[0072]指令獲取模塊402,用于獲取用戶語音指令。
[0073]匹配模塊403,用于依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合。
[0074]顯示模塊404,用于獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。
[0075]在本發(fā)明如圖5所示的一種可選實施例中,所述集合生成模塊401包括:解析子模塊4011,用于解析待定位視頻獲取音頻通路信息;收集子模塊4012,用于將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù);生成子模塊4013,用于將所述聲紋集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的聲紋庫集合。
[0076]在本發(fā)明的一種可選實施例中,所述解析子模塊,具體用于解析待定位視頻獲取時間戳和音頻波形;將所述時間戳和音頻波形作為音頻通路信息。
[0077]在本發(fā)明的一種可選實施例中,所述收集子模塊,具體用于根據(jù)所述時間戳將所述音頻波形按單位時間平均分割為聲紋集合;記錄所述單位時間內(nèi)的聲紋集合對應(yīng)的時間數(shù)據(jù)。
[0078]在本發(fā)明的一種可選實施例中,所述指令獲取模塊,具體用于啟動錄音,采集語音信息;將所述語音信息按單位時間平均分割為語音集合;記錄所述單位時間內(nèi)的語音集合對應(yīng)的時間數(shù)據(jù);將所述語音集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的語音庫集合,并將所述語音庫集合作為用戶語音指令。
[0079]在本發(fā)明的一種可選實施例中,所述匹配模塊,具體用于將所述用戶語音指令與所述聲紋庫集合按照所述單位時間進行逐段比對;獲取每段比對后的相似度,將相似度達到相似閾值的聲紋集合對應(yīng)的時間數(shù)據(jù)保存為定位時間坐標集合。
[0080]在本發(fā)明的一種可選實施例中,所述顯示模塊,具體用于獲取所述定位時間坐標集合對應(yīng)的幀畫面;按照相似度從高到低的順序顯示所述幀畫面以供用戶進行選擇。
[0081]本實施例提供的視頻定位裝置,首先通過集合生成模塊401解析待定位視頻生成聲紋庫集合,其次指令獲取模塊402獲取用戶語音指令,再次匹配模塊403依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,最后顯示模塊404獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。與傳統(tǒng)的用戶需要多次調(diào)整進度條進行幀預覽來定位方法比較而言,本實施例通過聲紋匹配,直接顯示多個匹配的位置幀畫面,用戶可以直接選擇,簡化了視頻定位步驟,節(jié)省了視頻定位的時間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進度條預覽定位的過程。并且依據(jù)用戶語音指令檢索所述聲紋庫集合進行匹配處理,提高了視頻定位的準確性。
[0082]對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
[0083]本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
[0084]本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。
[0085]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
[0086]以上對本發(fā)明所提供的一種視頻定位方法和裝置,進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【主權(quán)項】
1.一種視頻定位方法,其特征在于,包括: 解析待定位視頻生成聲紋庫集合; 獲取用戶語音指令; 依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合; 獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述解析待定位視頻生成聲紋庫集合,包括: 解析待定位視頻獲取音頻通路信息; 將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù); 將所述聲紋集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的聲紋庫集合。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述解析待定位視頻獲取音頻通路信息,包括: 解析待定位視頻獲取時間戳和音頻波形; 將所述時間戳和音頻波形作為音頻通路信息。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù),包括: 根據(jù)所述時間戳將所述音頻波形按單位時間平均分割為聲紋集合; 記錄所述單位時間內(nèi)的聲紋集合對應(yīng)的時間數(shù)據(jù)。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取用戶語音指令包括: 啟動錄音,采集語音信息; 將所述語音信息按單位時間平均分割為語音集合; 記錄所述單位時間內(nèi)的語音集合對應(yīng)的時間數(shù)據(jù); 將所述語音集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的語音庫集合,并將所述語音庫集合作為用戶語音指令。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合,包括: 將所述用戶語音指令與所述聲紋庫集合按照所述單位時間進行逐段比對; 獲取每段比對后的相似度,將相似度達到相似閾值的聲紋集合對應(yīng)的時間數(shù)據(jù)保存為定位時間坐標集合。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇,包括: 獲取所述定位時間坐標集合對應(yīng)的幀畫面; 按照相似度從高到低的順序顯示所述幀畫面以供用戶進行選擇。8.一種視頻定位裝置,其特征在于,包括: 集合生成模塊,用于解析待定位視頻生成聲紋庫集合; 指令獲取模塊,用于獲取用戶語音指令; 匹配模塊,用于依據(jù)所述用戶語音指令檢索所述聲紋庫集合進行匹配處理,得到定位時間坐標集合; 顯示模塊,用于獲取所述定位時間坐標集合對應(yīng)的幀畫面并顯示以供用戶進行選擇。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述集合生成模塊包括: 解析子模塊,用于解析待定位視頻獲取音頻通路信息; 收集子模塊,用于將所述音頻通路信息收集成聲紋集合并記錄對應(yīng)的時間數(shù)據(jù); 生成子模塊,用于將所述聲紋集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的聲紋庫集合。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于: 所述解析子模塊,具體用于解析待定位視頻獲取時間戳和音頻波形;將所述時間戳和音頻波形作為音頻通路信息。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于: 所述收集子模塊,具體用于根據(jù)所述時間戳將所述音頻波形按單位時間平均分割為聲紋集合;記錄所述單位時間內(nèi)的聲紋集合對應(yīng)的時間數(shù)據(jù)。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于: 所述指令獲取模塊,具體用于啟動錄音,采集語音信息;將所述語音信息按單位時間平均分割為語音集合;記錄所述單位時間內(nèi)的語音集合對應(yīng)的時間數(shù)據(jù);將所述語音集合與對應(yīng)的時間數(shù)據(jù)關(guān)聯(lián)生成對應(yīng)的語音庫集合,并將所述語音庫集合作為用戶語音指令。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于: 所述匹配模塊,具體用于將所述用戶語音指令與所述聲紋庫集合按照所述單位時間進行逐段比對;獲取每段比對后的相似度,將相似度達到相似閾值的聲紋集合對應(yīng)的時間數(shù)據(jù)保存為定位時間坐標集合。14.根據(jù)權(quán)利要求13所述的裝置,其特征在于: 所述顯示模塊,具體用于獲取所述定位時間坐標集合對應(yīng)的幀畫面;按照相似度從高到低的順序顯示所述幀畫面以供用戶進行選擇。
【文檔編號】H04N21/44GK105828179SQ201510359341
【公開日】2016年8月3日
【申請日】2015年6月24日
【發(fā)明人】張哲楠
【申請人】維沃移動通信有限公司