亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種搜索系列性數(shù)據(jù)的方法、裝置及一種搜索引擎系統(tǒng)的制作方法

文檔序號:6464691閱讀:137來源:國知局

專利名稱::一種搜索系列性數(shù)據(jù)的方法、裝置及一種搜索引擎系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及搜索引擎
技術(shù)領(lǐng)域
,特別是涉及一種搜索系列性數(shù)據(jù)的方法、裝置及一種搜索引擎系統(tǒng)。
背景技術(shù)
:系列性數(shù)據(jù)是指數(shù)據(jù)之間具有關(guān)聯(lián)關(guān)系的數(shù)據(jù),如連續(xù)劇視頻文件,每個連續(xù)劇可以包含多個部或季,每個部或季又常常包含多集,每一集又常常區(qū)分為幾個視頻段落,但是系列性數(shù)據(jù)不限于連續(xù)劇視頻文件。目前,在搜索引擎中搜索系列性數(shù)據(jù)的方法是基于用戶的搜索關(guān)鍵詞,在搜索引擎系統(tǒng)中查找匹配包含該搜索關(guān)鍵詞的相關(guān)數(shù)據(jù),即基于一種"完全匹配"的搜索方法。以連續(xù)劇視頻搜索為例,"連續(xù)劇搜索請求"一般由兩部分組成"連續(xù)劇名"和"劇集信息"。"連續(xù)劇名"表示用戶需要哪個連續(xù)劇,"劇集信息"表示用戶需要連續(xù)劇的哪一部分。例如,搜索請求是"還珠格格第一部第三集,,,其中"還珠格格,,為"連續(xù)劇名,,,"第一部第三集,,為"劇集信息"。當(dāng)然,"連續(xù)劇搜索請求,,可能只包含"連續(xù)劇名"如"越獄",然而形如"連續(xù)劇名+劇集信息,,的搜索請求更為典型。但是,由于目前的網(wǎng)絡(luò)資源豐富而繁亂,使得連續(xù)劇的"劇集信息"表達(dá)形式很不規(guī)范,大大影響了連續(xù)劇查詢的搜索質(zhì)量。例如,"第二部第三集"、"第2部第3集"、"第二季第3集"、"2-3"、"II-3"都表示連續(xù)劇的同一部分內(nèi)容,但是表達(dá)形式差別很大。當(dāng)用戶輸入"連續(xù)劇名劇集信息"的搜索請求后,視頻搜索引擎的"完全匹配方法"只能返回給用戶具有"特定劇集信息形式"的搜索結(jié)果,而無法給出"其他形式"的連續(xù)劇。如輸入查詢詞"還珠格格第二部第三集,,,只能返回與"還珠格格,,和"第二部第三集,,精確匹配的結(jié)果,而不能返回"還珠格格2-3"、"還珠格格第2部第3集"等形式的視頻。因此,所述"完全匹配方法"導(dǎo)致搜索結(jié)果的查全率不高。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種搜索系列性數(shù)據(jù)的方法、裝置及一種搜索引擎系統(tǒng),以解決目前的搜索引擎基于"完全匹配方法"導(dǎo)致搜索結(jié)果的查全率不高的問題。為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)方案一種搜索系列性數(shù)據(jù)的方法,包括接收搜索請求;分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);根據(jù)所述請求參數(shù)與預(yù)置的系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。其中,所述預(yù)置具體包括預(yù)先分析待搜索數(shù)據(jù),提取出系列性數(shù)據(jù)參數(shù)。其中,所述查找具體包括將所述請求參數(shù)與所述系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性數(shù)據(jù)作為查找結(jié)果。優(yōu)選的,當(dāng)所述請求參數(shù)包括請求的系列性數(shù)據(jù)名稱和請求的系列性數(shù)據(jù)標(biāo)識參數(shù)時,所述查找具體包括對請求參數(shù)中的系列性數(shù)據(jù)名稱進(jìn)行分詞;將所述分詞結(jié)果與系列性數(shù)據(jù)的倒排索引結(jié)果進(jìn)行求交,獲得候選集合;將請求參數(shù)中的系列性數(shù)據(jù)標(biāo)識參數(shù)與候選集合中的系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性數(shù)據(jù)作為查找結(jié)果。優(yōu)選的,查找與所述搜索請求相匹配的系列性數(shù)據(jù)之后,還包括對查找到的系列性數(shù)據(jù)進(jìn)行相關(guān)性排序后輸出。優(yōu)選的,所述提取出系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù)之前,還包括根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述待搜索數(shù)據(jù)是否為系列性數(shù)據(jù),如果是,則執(zhí)行提取出系列性數(shù)據(jù)參數(shù)的步驟;或者,根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述搜索請求是否為搜索系列性數(shù)據(jù)的請求,如果是,則執(zhí)行提取出表示系列性數(shù)據(jù)的請求參數(shù)的步驟;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性凄t據(jù)的相關(guān)信息。其中,所述判斷具體包括將所述待搜索數(shù)據(jù)/搜索請求的描述信息轉(zhuǎn)換為字符串;對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述待搜索數(shù)據(jù)為系列性數(shù)據(jù),或者所述搜索請求為搜索系列性數(shù)據(jù)的請求。優(yōu)選的,所述提取出系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù),具體包括將待搜索數(shù)據(jù)/搜索請求的描述信息輸入狀態(tài)機(jī);根據(jù)狀態(tài)機(jī)中預(yù)置的由當(dāng)前狀態(tài)和當(dāng)前輸入轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,在各個狀態(tài)間跳轉(zhuǎn);當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù)提取出。優(yōu)選的,所述提取出系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù),具體包括使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù)提取出。其中,所述系列性數(shù)據(jù)為連續(xù)劇視頻文件,則所述系列性數(shù)據(jù)參數(shù)包括視頻文件的連續(xù)劇編號、和/或視頻文件的連續(xù)劇部序號、和/或視頻文件的連續(xù)劇集序號,所述表示系列性數(shù)據(jù)的請求參數(shù)包括請求的連續(xù)劇名稱、和/或請求的連續(xù)劇編號、和/或請求的連續(xù)劇部序號、和/或請求的連續(xù)劇集序號。其中,所述系列性數(shù)據(jù)為連續(xù)網(wǎng)絡(luò)資源信息,所述連續(xù)網(wǎng)絡(luò)資源信息包括連續(xù)劇信息、連續(xù)講座信息、連續(xù)音頻信息、連續(xù)視頻信息、連續(xù)多媒體信息、連續(xù)電子書信息。一種搜索系列性數(shù)據(jù)的裝置,包括接收單元,用于接收搜索請求;在線識別單元,用于分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);智能匹配單元,用于根據(jù)所述請求參數(shù)與預(yù)置的系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。優(yōu)選的,所述裝置還包括離線數(shù)據(jù)處理單元,用于預(yù)先分析待搜索數(shù)據(jù),提取出系列性數(shù)據(jù)參數(shù)。優(yōu)選的,當(dāng)所述請求參數(shù)包括請求的系列性數(shù)據(jù)名稱和請求的系列性數(shù)據(jù)標(biāo)識參數(shù)時,所述智能匹配單元具體包括分詞子單元,用于對請求參數(shù)中的系列性數(shù)據(jù)名稱進(jìn)行分詞;一次匹配子單元,用于將所述分詞結(jié)果與系列性數(shù)據(jù)的倒排索引結(jié)果進(jìn)行求交,獲得候選集合;二次匹配子單元,用于將請求參數(shù)中的系列性數(shù)據(jù)標(biāo)識參數(shù)與候選集合中的系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性凄t據(jù)作為查找結(jié)果。優(yōu)選的,所述裝置還包括輸出單元,用于對查找到的系列性數(shù)據(jù)進(jìn)行相關(guān)性排序后輸出。優(yōu)選的,所述離線數(shù)據(jù)處理單元具體包括離線預(yù)處理模塊,用于將待搜索數(shù)據(jù)的描述信息轉(zhuǎn)換為字符串。優(yōu)選的,所述離線數(shù)據(jù)處理單元還包括離線掃描模塊,用于使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;離線跳轉(zhuǎn)模塊,用于根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);離線提取模塊,用于當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)提取出。優(yōu)選的,所述離線數(shù)據(jù)處理單元還包括離線判斷模塊,用于根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述待搜索數(shù)據(jù)是否為系列性數(shù)據(jù),如果是,則觸發(fā)所述離線掃描模塊;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)4言息。其中,所述離線判斷模塊通過以下方式進(jìn)行判斷對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述待搜索數(shù)據(jù)為系列性數(shù)據(jù)。優(yōu)選的,所述在線識別單元具體包括在線預(yù)處理模塊,用于將搜索請求的描述信息轉(zhuǎn)換為字符串。優(yōu)選的,所述在線識別單元還包括在線掃描模塊,用于使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;在線跳轉(zhuǎn)模塊,用于根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);在線提取模塊,用于當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的表示系列性數(shù)據(jù)的請求參數(shù)提取出。優(yōu)選的,所述在線識別單元還包括在線判斷模塊,用于根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述搜索請求是否為搜索系列性數(shù)據(jù)的請求,如果是,則觸發(fā)所述在線掃描模塊;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)信息。其中,所述在線判斷模塊通過以下方式進(jìn)行判斷對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述搜索請求為搜索系列性數(shù)據(jù)的請求。其中,所述系列性數(shù)據(jù)為連續(xù)劇視頻文件,則所述系列性數(shù)據(jù)參數(shù)包括視頻文件的連續(xù)劇編號、和/或視頻文件的連續(xù)劇部序號、和/或視頻文件的連續(xù)劇集序號,所述表示系列性數(shù)據(jù)的請求參數(shù)包括請求的連續(xù)劇名稱、和/或請求的連續(xù)劇編號、和/或請求的連續(xù)劇部序號、和/或請求的連續(xù)劇集序號。其中,所述系列性數(shù)據(jù)為連續(xù)網(wǎng)絡(luò)資源信息,所述連續(xù)網(wǎng)絡(luò)資源信息包括連續(xù)劇信息、連續(xù)講座信息、連續(xù)音頻信息、連續(xù)視頻信息、連續(xù)多媒體信息、連續(xù)電子書信息。本發(fā)明還提供了一種搜索引擎系統(tǒng),包括上述任一裝置實(shí)施例所提供的裝置。才艮據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明具有以下技術(shù)效果本發(fā)明在離線狀態(tài)下對搜索引擎數(shù)據(jù)庫中的所有系列性數(shù)據(jù)進(jìn)行了處理,提取出系列性數(shù)據(jù)參數(shù),當(dāng)用戶查詢其中的某個數(shù)據(jù)時,本發(fā)明還會對用戶的搜索請求進(jìn)行在線識別處理,提取出表示系列性數(shù)據(jù)的請求參數(shù),然后根據(jù)所述請求參數(shù)與所述系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。這樣得到的搜索結(jié)果,包括各種描述方式的系列性數(shù)據(jù),不同于現(xiàn)有技術(shù)搜索到的僅包含查詢詞的結(jié)果。因此,本發(fā)明顯著提高了搜索的查全率,提高了搜索引擎的搜索性能。例如,對于連續(xù)劇查詢,本發(fā)明提取出連續(xù)劇視頻的標(biāo)準(zhǔn)劇集信息,然后根據(jù)標(biāo)準(zhǔn)的劇集信息建立視頻索引鏈接(可使用倒排索引技術(shù))。當(dāng)用戶查詢某一連續(xù)劇視頻,輸入"連續(xù)劇名+劇集信息"的搜索請求時,通過對所述請求進(jìn)行在線識別和智能匹配,可以直接向用戶返回具有相同標(biāo)準(zhǔn)劇集信息的視頻("劇集信息,,的表達(dá)形式可能與用戶的輸入不同)。這種基于"模糊匹配方法"的搜索,克服了現(xiàn)有技術(shù)中"完全匹配方法"必須精確匹配搜索請求的缺點(diǎn),有效提高了連續(xù)劇查詢的查全率和結(jié)果數(shù),同時顯著提升了用戶體驗(yàn)。圖1是本發(fā)明實(shí)施例一所述一種搜索系列性數(shù)據(jù)的方法流程圖;圖2是本發(fā)明實(shí)施例二所述一種搜索連續(xù)劇視頻的方法流程圖;圖3是本發(fā)明實(shí)施例二的處理示意圖4是本發(fā)明實(shí)施例三所述一種提取連續(xù)劇視頻參數(shù)的方法流程圖5是本發(fā)明實(shí)施例三中狀態(tài)機(jī)的一種基本結(jié)構(gòu)示意圖6是本發(fā)明實(shí)施例三所述一種提取搜索請求參數(shù)的方法流程圖7U)和圖8(a)是現(xiàn)有技術(shù)的完全匹配效果圖7(b)和圖8(b)是本發(fā)明智能匹配的效果圖9是本發(fā)明實(shí)施例所述一種搜索系列性數(shù)據(jù)的裝置結(jié)構(gòu)圖。具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。實(shí)施例一參照圖1,是本發(fā)明實(shí)施例一所述一種搜索系列性數(shù)據(jù)的方法流程圖。其中,所述系列性數(shù)據(jù)為連續(xù)網(wǎng)絡(luò)資源信息,所述連續(xù)網(wǎng)絡(luò)資源信息包括連續(xù)劇信息、連續(xù)講座信息、連續(xù)音頻信息、連續(xù)視頻信息、連續(xù)多媒體信息、連續(xù)電子書信息等。5101,預(yù)置系列性數(shù)據(jù)參數(shù);預(yù)置的方式可以為預(yù)先分析待搜索數(shù)據(jù),提取出系列性數(shù)據(jù)參數(shù)。但預(yù)置方式不限于此。所述系列性數(shù)據(jù)參數(shù)用于表示數(shù)據(jù)的系列性特性,可以包括多個參數(shù)。通過對系列性數(shù)據(jù)中的每個數(shù)據(jù)進(jìn)行分析,提取出該數(shù)據(jù)的參數(shù)后,就可以確定該數(shù)據(jù)是系列性數(shù)據(jù)中的哪一個。具體的提取方法在實(shí)施例三中進(jìn)行詳細(xì)介紹。5102,接收搜索請求;5103,分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);通過與S101相同的提取方法,在線提取請求參數(shù)。同樣,該請求參數(shù)也用于表示數(shù)據(jù)的系列性特性,該請求表示用戶需要搜索系列性數(shù)據(jù)中的哪些數(shù)據(jù)。5104,根據(jù)所述請求參數(shù)與所述系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù);根據(jù)提取的參數(shù)情況,可以有兩種查找方式一種是S101提取的參數(shù)與S103提取的參數(shù)相對應(yīng),則查找時,可以直接將所述請求參數(shù)與所述系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,如果存在相匹配的系列性數(shù)據(jù)參數(shù),則將對應(yīng)的系列性數(shù)據(jù)作為查找結(jié)果。還有一種更優(yōu)選的方式前提是在S103中不僅提取出上述第一種查找方式需要的參數(shù)(在此稱為系列性數(shù)據(jù)標(biāo)識參數(shù)),同時還提取出請求的系列性數(shù)據(jù)名稱。查找過程為對請求參數(shù)中的系列性數(shù)據(jù)名稱進(jìn)行分詞,并將所述分詞結(jié)果與系列性數(shù)據(jù)的倒排索引結(jié)果進(jìn)行求交,獲得候選集合,即從所有的系列性數(shù)據(jù)中篩選出第一次匹配的結(jié)果;然后,在所述候選集合中,將請求參數(shù)中的系列性數(shù)據(jù)標(biāo)識與候選集合中的系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,如果存在相匹配的系列性數(shù)據(jù)參數(shù),則將匹配到的系列性數(shù)據(jù)作為查找結(jié)果,完成第二次匹配。這種二次匹配的方式可以在第一次匹配時濾除大量不相關(guān)的數(shù)據(jù),從而提高查找效率。5105,是優(yōu)選步驟,對查找到的系列性數(shù)據(jù)進(jìn)行相關(guān)性排序后輸出,提供給用戶。與現(xiàn)有技術(shù)相比,現(xiàn)有技術(shù)中搜索引擎系統(tǒng)是根據(jù)系列性數(shù)據(jù)描述文本的關(guān)鍵詞,對系列性數(shù)據(jù)建立索引,當(dāng)用戶查詢其中的某個數(shù)據(jù)時,系統(tǒng)會直接返回關(guān)4囊詞索引的查詢結(jié)果,即只返回包含查詢詞的查詢結(jié)果。而對于其他相關(guān)數(shù)據(jù),由于不包含該查詢詞,所有沒有被檢索到。但本發(fā)明由于對離線的所有系列性數(shù)據(jù)進(jìn)行了處理,提取出了系列性數(shù)據(jù)參數(shù),這樣在查詢時,根據(jù)在線識別搜索請求得到的請求參數(shù),就可以查找到與請求參數(shù)相匹配的系列性數(shù)據(jù)參數(shù),從而將對應(yīng)該系列性數(shù)據(jù)參數(shù)的所有系列性數(shù)據(jù)(可能不包含查詢詞)作為查詢結(jié)果提供給用戶。因此,本發(fā)明顯著提高了搜索的查全率,提高了搜索引擎的搜索性能。下面結(jié)合優(yōu)選實(shí)施例進(jìn)行詳細(xì)說明,參照實(shí)施例二,以系列性數(shù)據(jù)為連續(xù)劇視頻文件為例進(jìn)行說明。實(shí)施例二參照圖2,是本發(fā)明實(shí)施例二所述一種搜索連續(xù)劇視頻的方法流程圖。其中,實(shí)施例一所述的系列性數(shù)據(jù)參數(shù)在本實(shí)施例中包括搜索引擎數(shù)據(jù)庫中連續(xù)劇視頻的連續(xù)劇編號、連續(xù)劇部序號、連續(xù)劇集序號,所述請求參數(shù)包括請求的連續(xù)劇名稱、請求的連續(xù)劇編號、請求的連續(xù)劇部序號、請求的連續(xù)劇集序號。5201,離線處理搜索引擎數(shù)據(jù)庫中的所有視頻數(shù)據(jù);離線處理數(shù)據(jù)中所有視頻的描述文本(如視頻標(biāo)題),找出視頻數(shù)據(jù)庫中屬于連續(xù)劇的視頻,為每個連續(xù)劇視頻寫入三個參數(shù)字段TelelD—video,Season—video和Episode—video。其中,TelelD—video是連續(xù)劇編號,表明這段視頻屬于哪個連續(xù)?。籗eason—video是連續(xù)劇部序號,Episode—video是連續(xù)劇集序號,Season—video和Episode_video分別表示該視頻是連續(xù)劇的第幾部和第幾集。對于非連續(xù)劇視頻,上述三個參數(shù)字段全部置0。通過離線處理所有視頻數(shù)據(jù),獲得"帶連續(xù)劇參數(shù)的視頻數(shù)據(jù)"供在線智能匹配使用。5202,接收用戶的搜索請求;用戶可能輸入形如"連續(xù)劇名"的搜索請求,但更典型的應(yīng)用是輸入形如"連續(xù)劇名+劇集信息,,的搜索請求,下面的匹配過程以后面一種典型應(yīng)用的搜索請求為例進(jìn)行說明。5203,在線識別所述搜索請求;采用與S201相同的參數(shù)提取方法,在線識別用戶輸入的搜索請求。對于連續(xù)劇搜索請求,不僅提取出請求的連續(xù)劇編號、請求的連續(xù)劇部序號、請求的連續(xù)劇集序號三個參數(shù),同時還提取出請求的連續(xù)劇名稱,并進(jìn)行以下操作將請求的連續(xù)劇編號、請求的連續(xù)劇部序號、請求的連續(xù)劇集序號分別填入搜索請求對應(yīng)的三個參數(shù)字段TelelD—query、Season—query和Episode—query;將請求的連續(xù)劇名稱代替原連續(xù)劇搜索請求,進(jìn)行后續(xù)的分詞和求交操作。對于非連續(xù)劇搜索請求,上述三個參數(shù)字段全部置0,但搜索請求不變。S204,進(jìn)行連續(xù)劇智能匹配;對于連續(xù)劇搜索請求,進(jìn)行二次匹配第一次匹配過程是將請求的連續(xù)劇名稱進(jìn)行分詞,并使用分詞結(jié)果在連續(xù)劇視頻的倒排索引數(shù)據(jù)中求交,獲得候選視頻集合。該候選視頻集合為符合所述請求的連續(xù)劇名稱的視頻集合,不受部集信息形式的限制。其中,所述連續(xù)劇視頻的倒排索引數(shù)據(jù)是指對經(jīng)過S201處理后的連續(xù)劇視頻進(jìn)行倒排索引的數(shù)據(jù);第二次匹配過程是將連續(xù)劇搜索請求的參數(shù)字段(TelelD—query、Season—query和Episode—query)分別與各個候選視頻對象的參數(shù)字段(TelelD—video、Season—video和Episode—video)進(jìn)4亍匹配。如果三個字孚史都正確匹配,則表示該候選視頻的視頻名稱和部集信息全部滿足用戶的需求(其中部集形式可能與用戶輸入有所不同)。濾除不匹配的視頻對象,獲得結(jié)果集合。當(dāng)然,也可以釆用一次匹配的方法,此時在線識別時僅提耳又出TelelD—query、Season—query和Episode—query,即可直接與TelelD—video、Season—video和Episode—video進(jìn)行匹配,但這種方式耗費(fèi)的時間和系統(tǒng)資源較多。S205,將匹配結(jié)果排序輸出。最后對結(jié)果集合進(jìn)行相關(guān)性排序后返回給用戶。需要說明的是,如果搜索請求為"連續(xù)劇名"的形式,則向用戶提示該連續(xù)劇的所有部、集的鏈接;當(dāng)用戶點(diǎn)擊某一鏈接時,將該索引項(xiàng)的所有視頻作為結(jié)果返回。如果搜索請求為"連續(xù)劇名劇集信息"的形式,由于對該請求進(jìn)行了在線識別,所以用戶點(diǎn)擊一次搜索按鈕,就可以直接返回具有相同參數(shù)(TelelD—video、Season—video和Episode—video)的所有連續(xù)居'J視頻(其中部集形式可能與用戶輸入有所不同)。上述流程還可參照圖3的示意圖。本發(fā)明實(shí)施例所述連續(xù)劇查詢方法,通過提取出連續(xù)劇視頻的標(biāo)準(zhǔn)劇集信息,然后根據(jù)標(biāo)準(zhǔn)的劇集信息建立視頻索引鏈接(可使用倒排索引技術(shù))?;谶@種索引的搜索是一種"模糊匹配方法"的搜索,克服了現(xiàn)有技術(shù)中"完全匹配方法,,必須精確匹配搜索請求的缺點(diǎn),有效提高了連續(xù)劇查詢的查全率和結(jié)果數(shù),同時顯著提升了用戶體驗(yàn)。而現(xiàn)有搜索引擎是將連續(xù)劇視頻作為普通視頻處理,沒有提取標(biāo)準(zhǔn)的劇集信息而直接根據(jù)描述文本中的關(guān)鍵詞對其進(jìn)行索引;當(dāng)用戶查詢連續(xù)劇時,只能直接返回連續(xù)劇名索引的視頻數(shù)據(jù),而不能按照該連續(xù)劇的劇集信息向用戶提示索引鏈接。上述實(shí)施例一和實(shí)施例二中涉及到提取參數(shù)的方法,下面通過實(shí)施例三進(jìn)行說明。實(shí)施例三以連續(xù)劇視頻查詢?yōu)槔陔x線處理數(shù)據(jù)庫中的所有視頻時,需要提取出TelelD—video,Season—video和Episode—video三個參數(shù)字段的數(shù)值;當(dāng)在線識別搜索請求時,也需要提耳又出TelelD—query、Season—query和Episode—query三個參數(shù)字段的數(shù)值以及請求的連續(xù)劇名稱。所述兩種情況下,使用相同的方法提取參數(shù)。下面將以提取連續(xù)劇視頻參數(shù)TelelD—video,Season—video和Episode—video為例進(jìn)4亍詳細(xì)i兌明。參照圖4,是本發(fā)明實(shí)施例三所述一種提取連續(xù)劇視頻參數(shù)的方法流程圖。S401,讀取連續(xù)劇信息文件;連續(xù)劇信息文件為人工編輯的文本文件,(編輯人員通過分析凝:據(jù)庫中的連續(xù)劇數(shù)據(jù),得到庫中所包含的連續(xù)劇的名稱及其別名、部數(shù)和集數(shù)等信息,人工編輯得到連續(xù)劇信息文本),記錄了視頻數(shù)據(jù)庫中包含的所有連續(xù)劇視頻的信息。當(dāng)然,對于所屬領(lǐng)域的技術(shù)人員而言,可以明白,連續(xù)劇信息文件也可以通過軟件自動提取數(shù)據(jù)庫中的連續(xù)劇數(shù)據(jù)的方式來自動生成。所述連續(xù)劇信息可以包括連續(xù)劇的名稱、別名、部數(shù)和集數(shù)等。S402,生成連續(xù)劇信息映射表;通過將接收到的所述連續(xù)劇信息文件進(jìn)行讀取分析,就能夠生成連續(xù)劇信息映射表Videolnfo,供后續(xù)使用。映射表Videolnfo可以由"Key-Value"對組成,其中Key為連續(xù)劇名稱,Value為該連續(xù)劇的相關(guān)信息(別名數(shù)、部數(shù)、集數(shù)等),同一連續(xù)劇的不同別名單獨(dú)為Key。即將輸入的連續(xù)劇信息文本文件,生成為連續(xù)劇信息映射表。連續(xù)劇信息映射表實(shí)現(xiàn)了將連續(xù)劇名稱與連續(xù)劇信息的對應(yīng)關(guān)系,實(shí)現(xiàn)了將經(jīng)由連續(xù)劇名稱來查詢連續(xù)劇所包含的多種信臺S403,進(jìn)行視頻描述文本的預(yù)處理,輸出標(biāo)準(zhǔn)字符串;視頻描述文本是用來表示視頻文件的有關(guān)信息的載體,視頻描述文本預(yù)處理是將描述文本轉(zhuǎn)換為符合規(guī)范的標(biāo)準(zhǔn)字符串,以方便后續(xù)分析處理,具體過程分為格式轉(zhuǎn)換和信息過濾。首先,將描述文本全部轉(zhuǎn)換為"全角小寫"格式;然后過濾描述文本中的網(wǎng)站來源等無關(guān)信息,如"_56"、"-Mobile"、"-視頻"、"-六間房"、"酷6"等。本步驟輸入視頻描述文本,濾除部分無關(guān)信息的全角小寫標(biāo)準(zhǔn)字符串,輸出為標(biāo)準(zhǔn)字符串,供后續(xù)流程分析識別。5404,根據(jù)處理后生成的標(biāo)準(zhǔn)字符串以及連續(xù)劇信息映射表,判斷該視頻是否屬于連續(xù)??;通過分析前述流程處理后生成的標(biāo)準(zhǔn)字符串,判斷描述文本是否描述了連續(xù)劇信息,該視頻是否是連續(xù)劇視頻,并決定后續(xù)的處理過程。判斷方法是對標(biāo)準(zhǔn)字符串進(jìn)行逐字掃描,同時搜索連續(xù)劇映射表中是否存在名為當(dāng)前子字符串的連續(xù)劇。如果標(biāo)準(zhǔn)字符串中包含映射表內(nèi)的連續(xù)劇名,則此標(biāo)準(zhǔn)字符串為用來描述連續(xù)劇信息,而且數(shù)據(jù)庫中也存儲了相應(yīng)的連續(xù)劇視頻文件,則進(jìn)入S405,繼續(xù)后續(xù)操作;否則,作為非連續(xù)劇直接返回。5405,使用"狀態(tài)機(jī)算法",提取連續(xù)劇視頻的標(biāo)準(zhǔn)劇集信息。狀態(tài)機(jī)是由不同狀態(tài)組成的集合系統(tǒng),其中包括一個初態(tài),若干個中間態(tài)和若干個終態(tài),各個狀態(tài)之間由"轉(zhuǎn)換關(guān)系"相連接。狀態(tài)機(jī)從初態(tài)開始,當(dāng)特定事件發(fā)生時,根據(jù)相應(yīng)的轉(zhuǎn)換關(guān)系從當(dāng)前狀態(tài)跳轉(zhuǎn)到新的狀態(tài),直到到達(dá)某終態(tài)后退出。狀態(tài)機(jī)可分為"有限狀態(tài)機(jī)"和"無限狀態(tài)機(jī)"。有限狀態(tài)機(jī)由狀態(tài)集(包括初態(tài)、中間態(tài)和終態(tài))、輸入符號集、轉(zhuǎn)換關(guān)系模型組成。其中,轉(zhuǎn)換關(guān)系模型表示由輸入符號和當(dāng)前狀態(tài)到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系。當(dāng)輸入符號串時,狀態(tài)機(jī)進(jìn)入初始狀態(tài)開始運(yùn)行,隨后根據(jù)輸入符號、當(dāng)前狀態(tài)和轉(zhuǎn)換關(guān)系才莫型決定下一個狀態(tài),直至運(yùn)行到終態(tài)結(jié)束。狀態(tài)機(jī)算法在人工智能技術(shù)、數(shù)字電路設(shè)計、編譯原理等多領(lǐng)域得到了廣泛應(yīng)用。本發(fā)明實(shí)施例中使用"有限狀態(tài)機(jī)"對描述連續(xù)劇視頻的標(biāo)準(zhǔn)字符串進(jìn)行逐字掃描,當(dāng)掃描到特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn)。通過不同狀態(tài)間的跳轉(zhuǎn)來處理劇集信息不同的表達(dá)形式,最后根據(jù)狀態(tài)機(jī)的終態(tài),可以獲得包括連續(xù)劇劇集信息在內(nèi)的連續(xù)劇信息(即TelelD—video,Season—video和Episode—video三個參數(shù)字段的數(shù)值)。引發(fā)狀態(tài)跳轉(zhuǎn)的特定字符包括連續(xù)劇名稱、數(shù)字、關(guān)鍵字"第"、"部"、"集"等,具體跳轉(zhuǎn)字符見下表l。表1<table>tableseeoriginaldocumentpage18</column></row><table>根據(jù)上述表l,以及實(shí)際的可能需要,設(shè)計了圖5所示的本發(fā)明中狀態(tài)機(jī)的一種基本設(shè)計結(jié)構(gòu)示意圖,具體實(shí)現(xiàn)時,可以將其他更為復(fù)雜的跳轉(zhuǎn)關(guān)系也設(shè)計進(jìn)去。這種根據(jù)各個狀態(tài)的跳轉(zhuǎn)來進(jìn)行連續(xù)劇信息的匹配設(shè)計,沒有超出本發(fā)明的保護(hù)范圍。參照圖5,該狀態(tài)機(jī)的輸入為描述連續(xù)劇視頻的標(biāo)準(zhǔn)字符串,輸出為該視頻的標(biāo)準(zhǔn)劇集信息。當(dāng)輸入標(biāo)準(zhǔn)字符串時,狀態(tài)機(jī)處于初態(tài)A,隨后對字符串進(jìn)行逐字掃描,根據(jù)跳轉(zhuǎn)條件運(yùn)行狀態(tài)機(jī);G、D、F、H、I等狀態(tài)可作為終態(tài),且一段視頻只能到達(dá)一個終態(tài)。如圖所示,A狀態(tài)掃描到具體連續(xù)劇名后跳到B狀態(tài);B狀態(tài)具有三個跳轉(zhuǎn)分支掃描到"第"跳到C狀態(tài),掃描到"season"+數(shù)字跳到D狀態(tài),掃描到數(shù)字到G狀態(tài);C狀態(tài)掃描到數(shù)字+部信息跳到D狀態(tài),掃描到數(shù)字+集信息跳到F狀態(tài);D狀態(tài)表示視頻的標(biāo)準(zhǔn)字符串具有"部"層次的劇集信息,隨后掃描到"第"跳到E狀態(tài),掃描到數(shù)字或"ep,,+數(shù)字跳到F狀態(tài);F狀態(tài)表示視頻具有"集"層次的劇集信息,繼續(xù)掃描到數(shù)字跳到I狀態(tài),掃描到"段"信息跳到H狀態(tài);I狀態(tài)和H狀態(tài)表式視頻具有"段"層次的劇集信息;G狀態(tài)表示連續(xù)劇名之后最近的相關(guān)字符為數(shù)字,該狀態(tài)可跳到E、F、H狀態(tài)。通過上述"狀態(tài)機(jī)"算法,提取出了每個連續(xù)劇視頻的連續(xù)劇編號、連續(xù)劇部序號和連續(xù)劇集序號。更進(jìn)一步,還可以使用所述標(biāo)準(zhǔn)劇集信息,建立索引。在視頻搜索引擎中,根據(jù)狀態(tài)機(jī)輸出的連續(xù)劇視頻劇集信息,以劇集信息為Key建立索引(可使用倒排索引等通用技術(shù));當(dāng)用戶查詢連續(xù)劇時,搜索引擎將向用戶展現(xiàn)該連續(xù)劇的基本信息及所有劇集信息的索引鏈接,方便用戶點(diǎn)擊查詢。這樣可以有效的優(yōu)化搜索性能,顯著的提升用戶體驗(yàn)。類似的,針對搜索請求中的參數(shù)提取,也釆用同樣的方法。參照圖6,是所述提取搜索請求參數(shù)的方法流程圖。S601,讀取連續(xù)劇信息文件;S602,生成連續(xù)劇信息映射表;S603,進(jìn)行搜索請求的預(yù)處理,輸出標(biāo)準(zhǔn)字符串;請求是否為搜索連續(xù)劇視頻的請求;如果是,則繼續(xù)S605;如果否,則作為非連續(xù)劇請求進(jìn)行處理;S605,使用"狀態(tài)機(jī)算法",提取連續(xù)劇搜索請求參數(shù),具體包括請求的連續(xù)劇名稱、請求的連續(xù)劇編號、請求的連續(xù)劇部序號、請求的連續(xù)劇集序號。圖4和圖6處理流程的不同之處在于第一,使用環(huán)境不同離線識別是在線下定期的對視頻數(shù)據(jù)進(jìn)行識別;在線識別是在搜索引擎線上進(jìn)行的實(shí)時識別;第二,識別對象不同離線識別的對象是數(shù)據(jù)庫中的全部數(shù)據(jù);在線識別的對象是用戶輸入的搜索請求;第三,輸出結(jié)果不同離線識別對每條連續(xù)劇視頻輸出三個參數(shù)-TelelD—video、Season—video和Episode—video;在線識別對每條連續(xù)劇搜索請求輸出四個參數(shù)-TelelD—query、Season—query、Episode—query和連續(xù)劇名稱,其中前三個參數(shù)用于和離線輸出的三個參數(shù)進(jìn)行匹配,連續(xù)劇名稱用于代替原"連續(xù)劇搜索請求",進(jìn)行后續(xù)的分詞和求交才喿作,獲得候選視頻集合。采用本發(fā)明上述方法的效果圖可參照圖7和圖8所示。圖7(a)和圖7(b)分別為"劉老根第二部第二集"的完全匹配效果和智能匹配效果。如圖7(a)所示,完全匹配的結(jié)果彩:僅為3。圖7(b)智能匹配效果除了精確匹配上的視頻"劉老根第二部第二集,,夕卜,還檢索出"劉老根11-02上"、"[劉老根第二部].2"等視頻,使結(jié)果數(shù)增加到42。在本例中,智能匹配方法使結(jié)果數(shù)大大增加,顯著提升了查全率和用戶體驗(yàn)。圖8(a)和圖8(b)分別為"還珠格格第二部第三集,,的完全匹配效果和智能匹配效果。如圖8(a)所示,完全匹配的結(jié)果數(shù)為0。圖8(b)智能匹配檢索出"還珠格格第二部03"、"還珠格格II03A"等相關(guān)視頻,使結(jié)果數(shù)增加到83。在本例中,智能匹配方法使結(jié)果數(shù)從O增加到83,顯著提升了查全率和用戶體驗(yàn)。針對上述搜索系列性數(shù)據(jù)的方法,本發(fā)明還提供了一種搜索系列性數(shù)據(jù)的裝置實(shí)施例。參照圖9,是實(shí)施例所述一種搜索系列性數(shù)據(jù)的裝置結(jié)構(gòu)圖。所述裝置主要包括接收單元U92,用于接收搜索請求;在線識別單元U93,用于分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);智能匹配單元U94,用于根據(jù)所述請求參數(shù)與預(yù)置的系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。優(yōu)選的,所述裝置還包括離線數(shù)據(jù)處理單元U91,用于預(yù)置所述系列性數(shù)據(jù)參數(shù),預(yù)置的方式可以為預(yù)先分析待搜索數(shù)據(jù),提取出系列性數(shù)據(jù)參數(shù),但不限于此。其中,所述系列性數(shù)據(jù)為連續(xù)網(wǎng)絡(luò)資源信息,所述連續(xù)網(wǎng)絡(luò)資源信息包括連續(xù)劇信息、連續(xù)講座信息、連續(xù)音頻信息、連續(xù)視頻信息、連續(xù)多媒體信息、連續(xù)電子書信息。當(dāng)所述系列性數(shù)據(jù)為連續(xù)劇視頻文件時,所述系列性數(shù)據(jù)參數(shù)包括視頻文件的連續(xù)劇編號、和/或視頻文件的連續(xù)劇部序號、和/或視頻文件的連續(xù)劇集序號,所述表示系列性數(shù)據(jù)的請求參數(shù)包括請求的連續(xù)劇名稱、和/或請求的連續(xù)劇編號、和/或請求的連續(xù)劇部序號、和/或請求的連續(xù)劇集序號。本發(fā)明由于對離線的所有系列性數(shù)據(jù)進(jìn)行了處理,提取出了系列性數(shù)據(jù)參數(shù),這樣在查詢時,根據(jù)在線識別搜索請求得到的請求參數(shù),就可以查找到與請求參數(shù)相匹配的系列性數(shù)據(jù)參數(shù),從而將對應(yīng)該系列性數(shù)據(jù)參數(shù)的所有系列性數(shù)據(jù)(可能不包含查詢詞)作為查詢結(jié)果提供給用戶。因此,本發(fā)明顯著提高了搜索的查全率,提高了搜索引擎的搜索性能。例如,搜索請求為"還珠格格第二部第三集,,,則搜索引擎返回的結(jié)果是"還珠格格第二部03"、"還珠格格II03A"等更多的相關(guān)視頻。優(yōu)選的,當(dāng)所述請求參數(shù)包括請求的系列性數(shù)據(jù)名稱和請求的系列性數(shù)據(jù)標(biāo)識參數(shù)(如請求的連續(xù)劇編號、請求的連續(xù)劇部序號、請求的連續(xù)劇集序號)時,所述智能匹配單元U94具體包括分詞子單元,用于對請求參數(shù)中的系列性數(shù)據(jù)名稱進(jìn)行分詞;一次匹配子單元,用于將所述分詞結(jié)果與系列性數(shù)據(jù)的倒排索引結(jié)果進(jìn)行求交,獲得候選集合;二次匹配子單元,用于將請求參數(shù)中的系列性數(shù)據(jù)標(biāo)識參數(shù)與候選集合中的系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性數(shù)據(jù)作為查找結(jié)果。優(yōu)選的,所述裝置還包括輸出單元U95,用于對查找到的系列性數(shù)據(jù)進(jìn)行相關(guān)性排序后輸出。優(yōu)選的,所述離線數(shù)據(jù)處理單元U91具體包括離線預(yù)處理模塊,用于將待搜索數(shù)據(jù)的描述信息轉(zhuǎn)換為字符串。所述離線婆:據(jù)處理單元U91還包括離線掃描模塊,用于使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;離線跳轉(zhuǎn)模塊,用于根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);離線提取模塊,用于當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)提取出。所述離線數(shù)據(jù)處理單元U91還包括離線判斷模塊,用于根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述待搜索數(shù)據(jù)是否為系列性數(shù)據(jù),如果是,則觸發(fā)所述離線掃描模塊;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)"息。其中,所述離線判斷模塊通過以下方式進(jìn)行判斷對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述待搜索數(shù)據(jù)為系列性數(shù)據(jù)。優(yōu)選的,所述在線識別單元U93具體包括在線預(yù)處理模塊,用于將搜索請求的描述信息轉(zhuǎn)換為字符串。所述在線識別單元U93還包括在線掃描模塊,用于使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;在線跳轉(zhuǎn)模塊,用于根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);在線提取模塊,用于當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的表示系列性數(shù)據(jù)的請求參數(shù)提取出。所述在線識別單元U93還包括在線判斷模塊,用于根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述搜索請求是否為搜索系列性數(shù)據(jù)的請求,如果是,則觸發(fā)所述在線掃描模塊;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)信息。其中,所述在線判斷模塊通過以下方式進(jìn)行判斷對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述搜索請求為搜索系列性數(shù)據(jù)的請求。圖9所示裝置中未詳述的部分可以參見圖l一圖6所示方法的相關(guān)部分,為了篇幅考慮,在此不再詳述。在實(shí)際應(yīng)用中,上述實(shí)施例所提供的搜索系列性數(shù)據(jù)的裝置更多的是應(yīng)用到搜索引擎系統(tǒng)中,進(jìn)行連續(xù)劇、連載小說等系列性數(shù)據(jù)的搜索。因此,本發(fā)明還4是供了一種搜索引擎系統(tǒng)的實(shí)施例,該系統(tǒng)實(shí)施例包括圖9所示任一裝置實(shí)施例所提供的裝置。當(dāng)然,所述搜索引擎系統(tǒng)還包括完成搜索功能的其他功能模塊,再次不再詳述。以上對本發(fā)明所提供的一種搜索系列性數(shù)據(jù)的方法、裝置及一種搜索引擎行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。權(quán)利要求1、一種搜索系列性數(shù)據(jù)的方法,其特征在于,包括接收搜索請求;分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);根據(jù)所述請求參數(shù)與預(yù)置的系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。2、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)置具體包括預(yù)先分析待搜索數(shù)據(jù),提取出系列性數(shù)據(jù)參數(shù)。3、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述查找具體包括將所述請求參數(shù)與所述系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性數(shù)據(jù)作為查找結(jié)果。4、根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述請求參數(shù)包括請求的系列性數(shù)據(jù)名稱和請求的系列性數(shù)據(jù)標(biāo)識參數(shù)時,所述查找具體包括對請求參數(shù)中的系列性數(shù)據(jù)名稱進(jìn)行分詞;將所述分詞結(jié)果與系列性數(shù)據(jù)的倒排索引結(jié)果進(jìn)行求交,獲得候選集合;將請求參數(shù)中的系列性數(shù)據(jù)標(biāo)識參數(shù)與候選集合中的系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性數(shù)據(jù)作為查找結(jié)果。5、根據(jù)權(quán)利要求1所述的方法,其特征在于,查找與所述搜索請求相匹配的系列性數(shù)據(jù)之后,還包括對查找到的系列性數(shù)據(jù)進(jìn)行相關(guān)性排序后輸出。6、根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述提取出系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù)之前,還包括根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述待搜索數(shù)據(jù)是否為系列性數(shù)據(jù),如果是,則執(zhí)行提取出系列性數(shù)據(jù)參數(shù)的步驟;或者,根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述搜索請求是否為搜索系列性數(shù)據(jù)的請求,如果是,則執(zhí)行提取出表示系列性數(shù)據(jù)的請求參數(shù)的步驟;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)信息。7、根據(jù)權(quán)利要求6所述的方法,其特征在于,所述判斷具體包括將所述待搜索數(shù)據(jù)/搜索請求的描述信息轉(zhuǎn)換為字符串;對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述待搜索數(shù)據(jù)為系列性數(shù)據(jù),或者所述搜索請求為搜索系列性數(shù)據(jù)的請求。8、根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述提取出系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù),具體包括將待搜索數(shù)據(jù)/搜索請求的描述信息輸入狀態(tài)機(jī);根據(jù)狀態(tài)機(jī)中預(yù)置的由當(dāng)前狀態(tài)和當(dāng)前輸入轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,在各個狀態(tài)間跳轉(zhuǎn);當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù)提取出。9、根據(jù)權(quán)利要求7所述的方法,其特征在于,所述提取出系列性數(shù)據(jù)參凄^/表示系列性數(shù)據(jù)的請求參數(shù),具體包括使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)/表示系列性數(shù)據(jù)的請求參數(shù)提取出。10、根據(jù)權(quán)利要求1所述的方法,其特征在于所述系列性數(shù)據(jù)為連續(xù)劇浮見頻文件,則所述系列性數(shù)據(jù)參數(shù)包括視頻文件的連續(xù)劇編號、和/或視頻文件的連續(xù)劇部序號、和/或視頻文件的連續(xù)劇集序號,所述表示系列性數(shù)據(jù)的請求參^:包括請求的連續(xù)劇名稱、和/或請求的連續(xù)劇編號、和/或請求的連續(xù)劇部序號、和/或請求的連續(xù)劇集序號。11、根據(jù)權(quán)利要求1所述的方法,其特征在于所述系列性數(shù)據(jù)為連續(xù)網(wǎng)絡(luò)資源信息,所述連續(xù)網(wǎng)絡(luò)資源信息包括連續(xù)劇信息、連續(xù)講座信息、連續(xù)音頻信息、連續(xù)視頻信息、連續(xù)多媒體信息、連續(xù)電子書信息。12、一種搜索系列性數(shù)據(jù)的裝置,其特征在于,包括接收單元,用于接收搜索請求;在線識別單元,用于分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);智能匹配單元,用于根據(jù)所述請求參數(shù)與預(yù)置的系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。13、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括離線數(shù)據(jù)處理單元,用于預(yù)先分析待搜索數(shù)據(jù),提取出系列性數(shù)據(jù)參數(shù)。14、根據(jù)權(quán)利要求12所述的裝置,其特征在于,當(dāng)所述請求參數(shù)包括請求的系列性數(shù)據(jù)名稱和請求的系列性數(shù)據(jù)標(biāo)識參數(shù)時,所述智能匹配單元具體包括分詞子單元,用于對請求參數(shù)中的系列性數(shù)據(jù)名稱進(jìn)行分詞;一次匹配子單元,用于將所述分詞結(jié)果與系列性數(shù)據(jù)的倒排索引結(jié)果進(jìn)行求交,獲得候選集合;二次匹配子單元,用于將請求參數(shù)中的系列性數(shù)據(jù)標(biāo)識參數(shù)與候選集合中的系列性數(shù)據(jù)參數(shù)進(jìn)行匹配,并將匹配到的系列性數(shù)據(jù)作為查找結(jié)果。15、才艮據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括輸出單元,用于對查找到的系列性數(shù)據(jù)進(jìn)行相關(guān)性排序后輸出。16、根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述離線數(shù)據(jù)處理單元具體包括離線預(yù)處理模塊,用于將待搜索數(shù)據(jù)的描述信息轉(zhuǎn)換為字符串。17、根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述離線數(shù)據(jù)處理單元還包括離線掃描模塊,用于使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;離線跳轉(zhuǎn)模塊,用于根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);離線提取模塊,用于當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的系列性數(shù)據(jù)參數(shù)提取出。18、根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述離線數(shù)據(jù)處理單元還包括離線判斷模塊,用于根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述待搜索數(shù)據(jù)是否為系列性數(shù)據(jù),如果是,則觸發(fā)所述離線掃描模塊;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)信息。19、根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述離線判斷模塊通過以下方式進(jìn)行判斷對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述待搜索數(shù)據(jù)為系列性數(shù)據(jù)。20、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述在線識別單元具體包括在線預(yù)處理模塊,用于將搜索請求的描述信息轉(zhuǎn)換為字符串。21、根據(jù)權(quán)利要求20所述的裝置,其特征在于,所述在線識別單元還包括在線掃描模塊,用于使用狀態(tài)機(jī)對所述字符串進(jìn)行逐字掃描;在線跳轉(zhuǎn)模塊,用于根據(jù)狀態(tài)機(jī)中預(yù)置的由輸入字符和當(dāng)前狀態(tài)轉(zhuǎn)換到下一狀態(tài)的轉(zhuǎn)換映射關(guān)系,當(dāng)掃描到轉(zhuǎn)換映射關(guān)系定義的特定字符時進(jìn)行狀態(tài)跳轉(zhuǎn);在線提取模塊,用于當(dāng)跳轉(zhuǎn)到狀態(tài)機(jī)的最終狀態(tài)時,將所述最終狀態(tài)對應(yīng)的表示系列性數(shù)據(jù)的請求參數(shù)提^^出。22、根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述在線識別單元還包括在線判斷模塊,用于根據(jù)預(yù)置的系列性數(shù)據(jù)映射表,判斷所述搜索請求是否為搜索系列性數(shù)據(jù)的請求,如果是,則觸發(fā)所述在線掃描模塊;其中,所述系列性數(shù)據(jù)映射表記錄了所有系列性數(shù)據(jù)的相關(guān)信息。23、根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述在線判斷模塊通過以下方式進(jìn)^"判斷對所述字符串進(jìn)行逐字掃描,并搜索所述系列性數(shù)據(jù)映射表中是否存在與當(dāng)前字符串相匹配的系列性數(shù)據(jù)相關(guān)信息,如果存在,則所述搜索請求為搜索系列性數(shù)據(jù)的請求。24、根據(jù)權(quán)利要求12所述的裝置,其特征在于所述系列性數(shù)據(jù)為連續(xù)劇視頻文件,則所述系列性數(shù)據(jù)參數(shù)包括視頻文件的連續(xù)劇編號、和/或視頻文件的連續(xù)劇部序號、和/或視頻文件的連續(xù)劇集序號,所述表示系列性數(shù)據(jù)的請求參數(shù)包括請求的連續(xù)劇名稱、和/或請求的連續(xù)劇編號、和/或請求的連續(xù)劇部序號、和/或請求的連續(xù)劇集序號。25、根據(jù)權(quán)利要求12所述的裝置,其特征在于所述系列性數(shù)據(jù)為連續(xù)網(wǎng)絡(luò)資源信息,所述連續(xù)網(wǎng)絡(luò)資源信息包括連續(xù)劇信息、連續(xù)講座信息、連續(xù)音頻信息、連續(xù)視頻信息、連續(xù)多媒體信息、連續(xù)電子書信息。26、一種搜索引擎系統(tǒng),其特征在于包括權(quán)利要求12至25任一權(quán)利要求所述的裝置。全文摘要本發(fā)明公開了一種搜索系列性數(shù)據(jù)的方法、裝置及一種搜索引擎系統(tǒng),以解決目前的搜索引擎基于“完全匹配方法”導(dǎo)致搜索結(jié)果的查全率不高的問題。所述方法包括接收搜索請求;分析所述搜索請求,提取出表示系列性數(shù)據(jù)的請求參數(shù);根據(jù)所述請求參數(shù)與預(yù)置的系列性數(shù)據(jù)參數(shù)的對應(yīng)關(guān)系,查找與所述搜索請求相匹配的系列性數(shù)據(jù)。本發(fā)明得到的搜索結(jié)果,包括各種描述方式的系列性數(shù)據(jù),不同于現(xiàn)有技術(shù)搜索到的僅包含查詢詞的結(jié)果。因此,本發(fā)明顯著提高了搜索的查全率,提高了搜索引擎的搜索性能。文檔編號G06F17/30GK101339560SQ20081011808公開日2009年1月7日申請日期2008年8月11日優(yōu)先權(quán)日2008年8月11日發(fā)明者闊張,李華北申請人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1