本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種節(jié)目數(shù)據(jù)入庫(kù)方法及裝置。
背景技術(shù):
目前,多媒體節(jié)目數(shù)據(jù)存入后臺(tái)數(shù)據(jù)庫(kù)的過(guò)程中,存在著較為嚴(yán)重的數(shù)據(jù)重復(fù)入庫(kù)的問(wèn)題。例如,后臺(tái)獲取到的爬蟲數(shù)據(jù)中通??赡馨糠衷跀?shù)據(jù)庫(kù)中已存儲(chǔ)的節(jié)目數(shù)據(jù),當(dāng)將上述爬蟲數(shù)據(jù)全部進(jìn)行入庫(kù)處理后,就會(huì)導(dǎo)致有些節(jié)目數(shù)據(jù)在數(shù)據(jù)庫(kù)中進(jìn)行了重復(fù)存儲(chǔ),造成數(shù)據(jù)庫(kù)存儲(chǔ)空間的嚴(yán)重浪費(fèi)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種節(jié)目數(shù)據(jù)入庫(kù)方法及裝置,以改善上述問(wèn)題。
本發(fā)明較佳實(shí)施例提供一種節(jié)目數(shù)據(jù)入庫(kù)方法,該方法包括:
分別計(jì)算數(shù)據(jù)庫(kù)中已存儲(chǔ)的節(jié)目數(shù)據(jù)與當(dāng)前一待入庫(kù)的節(jié)目數(shù)據(jù)之間的相似度;
根據(jù)計(jì)算出的所有相似度中的最大值和預(yù)設(shè)的隸屬度函數(shù)對(duì)該待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定;
根據(jù)所述入庫(kù)判定的結(jié)果對(duì)所述待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行處理,其中,所述入庫(kù)判定的結(jié)果包括入庫(kù)、不入庫(kù)兩種判定結(jié)果。
本發(fā)明另一較佳實(shí)施例提供一種節(jié)目數(shù)據(jù)入庫(kù)裝置,該裝置包括:
相似度計(jì)算模塊,用于分別計(jì)算數(shù)據(jù)庫(kù)中已存儲(chǔ)的節(jié)目數(shù)據(jù)與當(dāng)前一待入庫(kù)的節(jié)目數(shù)據(jù)之間的相似度;
入庫(kù)判定模塊,用于根據(jù)計(jì)算出的所有相似度中的最大值和預(yù)設(shè)的隸屬度函數(shù)對(duì)該待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定;
節(jié)目處理模塊,用于根據(jù)所述入庫(kù)判定的結(jié)果對(duì)所述待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行處理,其中,所述入庫(kù)判定的結(jié)果包括入庫(kù)、不入庫(kù)兩種判定結(jié)果。
本發(fā)明實(shí)施例提供的節(jié)目數(shù)據(jù)入庫(kù)方法及裝置,首先計(jì)算待入庫(kù)的節(jié)目數(shù)據(jù)與當(dāng)前數(shù)據(jù)庫(kù)中已存儲(chǔ)的節(jié)目數(shù)據(jù)之間的最大相似度,然后根據(jù)該最大相似度和預(yù)先設(shè)定的隸屬度函數(shù)對(duì)上述待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定。該種節(jié)目數(shù)據(jù)入庫(kù)方法能夠較好的解決節(jié)目數(shù)據(jù)重復(fù)入庫(kù)的問(wèn)題,明顯減少相同節(jié)目在數(shù)據(jù)庫(kù)中重復(fù)存儲(chǔ)的現(xiàn)象,有效避免數(shù)據(jù)庫(kù)存儲(chǔ)空間的浪費(fèi)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明實(shí)施例提供的一種節(jié)目存儲(chǔ)設(shè)備的方框示意圖;
圖2為本發(fā)明實(shí)施例提供的一種節(jié)目數(shù)據(jù)入庫(kù)方法的流程示意圖;
圖3為本發(fā)明實(shí)施例提供的圖2中步驟S101的一種子步驟流程圖;
圖4為本發(fā)明實(shí)施例提供的一種預(yù)先構(gòu)造的函數(shù)模型的示意圖;
圖5為本發(fā)明實(shí)施例提供的另一種預(yù)先構(gòu)造的函數(shù)模型的示意圖;
圖6為本發(fā)明實(shí)施例提供的另一種預(yù)先構(gòu)造的函數(shù)模型的示意圖;
圖7為本發(fā)明實(shí)施例提供的一種節(jié)目數(shù)據(jù)入庫(kù)裝置的功能模塊框圖。
圖標(biāo):100-節(jié)目存儲(chǔ)設(shè)備;110-節(jié)目數(shù)據(jù)入庫(kù)裝置;120-存儲(chǔ)器;130-處理器;140-數(shù)據(jù)庫(kù);1102-相似度計(jì)算模塊;1104-入庫(kù)判定模塊;1106-節(jié)目處理模塊。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1,是本發(fā)明實(shí)施例提供的一種節(jié)目存儲(chǔ)設(shè)備100的方框示意圖。所述節(jié)目存儲(chǔ)設(shè)備100可以是,但不限于,智能電視、網(wǎng)絡(luò)服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器等。本發(fā)明實(shí)施例所涉及的節(jié)目數(shù)據(jù)入庫(kù)方法可應(yīng)用于該節(jié)目存儲(chǔ)設(shè)備100中。
如圖1所示,該節(jié)目存儲(chǔ)設(shè)備100包括節(jié)目數(shù)據(jù)入庫(kù)裝置110、存儲(chǔ)器120、處理器130以及數(shù)據(jù)庫(kù)140。其中,所述節(jié)目數(shù)據(jù)入庫(kù)裝置110包括至少一個(gè)可以軟件或固件的形式存儲(chǔ)于所述存儲(chǔ)器120中或固化在所述節(jié)目存儲(chǔ)設(shè)備100的操作系統(tǒng)中的軟件功能模塊。所述存儲(chǔ)器120和處理器130之間直接或間接地電性連接,以進(jìn)行數(shù)據(jù)的傳輸或交互。更為具體地,所述處理器130可以用于執(zhí)行存儲(chǔ)器120中存儲(chǔ)的可執(zhí)行模塊,例如所述節(jié)目數(shù)據(jù)入庫(kù)裝置110包括的軟件功能模塊或計(jì)算機(jī)程序。下述本發(fā)明任一實(shí)施例揭示的流過(guò)程定義的節(jié)目存儲(chǔ)設(shè)備100所執(zhí)行的方法可以應(yīng)用于處理器130中,或者由處理器130實(shí)現(xiàn)。
所述數(shù)據(jù)庫(kù)140用于存放節(jié)目數(shù)據(jù)。本實(shí)施例中,每一所述節(jié)目數(shù)據(jù)至少可以包括標(biāo)簽信息和內(nèi)容信息兩個(gè)部分。其中,所述標(biāo)簽信息可以是指節(jié)目數(shù)據(jù)中對(duì)應(yīng)節(jié)目標(biāo)識(shí)部分的數(shù)據(jù),例如包括節(jié)目標(biāo)題、導(dǎo)演、地區(qū)、演員(或歌手)中的一種或多種等。所述內(nèi)容信息可以是指節(jié)目數(shù)據(jù)中對(duì)應(yīng)節(jié)目?jī)?nèi)容部分的數(shù)據(jù)。所述節(jié)目數(shù)據(jù)可以是,但不限于,多媒體節(jié)目數(shù)據(jù),如電視、電影、綜藝、音樂(lè)以及動(dòng)畫等。本發(fā)明實(shí)施例中,該數(shù)據(jù)庫(kù)140可以是位于上述存儲(chǔ)器120中的一數(shù)據(jù)存儲(chǔ)空間。
請(qǐng)參閱圖2,是本發(fā)明實(shí)施例提供的一種節(jié)目數(shù)據(jù)入庫(kù)方法的流程示意圖。所應(yīng)說(shuō)明的是,本發(fā)明提供的方法不以圖2及以下所述的具體順序?yàn)橄拗?。下面將?duì)圖2中示出的各步驟進(jìn)行詳細(xì)說(shuō)明。
步驟S101,分別計(jì)算數(shù)據(jù)庫(kù)140中已存儲(chǔ)的節(jié)目數(shù)據(jù)與當(dāng)前一待入庫(kù)的節(jié)目數(shù)據(jù)之間的相似度。
本實(shí)施例中,對(duì)于一當(dāng)前待入庫(kù)的節(jié)目數(shù)據(jù),需要首先分別計(jì)算出數(shù)據(jù)庫(kù)140中已存儲(chǔ)的各個(gè)節(jié)目數(shù)據(jù)與該待入庫(kù)的節(jié)目數(shù)據(jù)之間的相似度。然后比較計(jì)算出的所有相似度值,獲得其中的最大值。
作為一種實(shí)施方式,如圖3所示,本實(shí)施例中的步驟S101可以包括如下子步驟。
子步驟S111:獲取該待入庫(kù)的節(jié)目數(shù)據(jù)的標(biāo)簽信息以及一存儲(chǔ)在所述數(shù)據(jù)庫(kù)140中的節(jié)目數(shù)據(jù)的標(biāo)簽信息。
可以理解的是,同一類型的多媒體節(jié)目不同的數(shù)據(jù)存儲(chǔ)格式可能導(dǎo)致標(biāo)簽信息存儲(chǔ)位置的不同。如以音樂(lè)節(jié)目為例,其節(jié)目數(shù)據(jù)中的標(biāo)簽信息可能存儲(chǔ)于文件頭,也可能存儲(chǔ)于文件尾,甚至還可能是分別在文件頭和文件尾中各存儲(chǔ)一部分。所以,本實(shí)施例中,在獲取上述兩個(gè)節(jié)目數(shù)據(jù)的標(biāo)簽信息時(shí),可以根據(jù)節(jié)目數(shù)據(jù)的類型、存儲(chǔ)格式等信息判斷標(biāo)簽信息可能的存儲(chǔ)位置后再進(jìn)行獲取操作,以提高標(biāo)簽信息的獲取效率。當(dāng)在上述可能的存儲(chǔ)位置未獲取到所述標(biāo)簽信息時(shí),再對(duì)節(jié)目數(shù)據(jù)進(jìn)行遍歷搜索。
子步驟S113:分別去除上述兩個(gè)標(biāo)簽信息中的無(wú)效字符。
本實(shí)施方式中,所述“無(wú)效字符”主要是指預(yù)先設(shè)定的可能會(huì)對(duì)相似度的計(jì)算產(chǎn)生干擾的一些字符,如部分標(biāo)點(diǎn)符號(hào)、亂碼字符、連續(xù)多個(gè)空格等等。不難理解,將無(wú)效字符去除的目的是為了提高相似度計(jì)算結(jié)果的準(zhǔn)確性。
子步驟S115:將去除無(wú)效字符后的兩個(gè)標(biāo)簽信息進(jìn)行字符匹配,根據(jù)匹配結(jié)果計(jì)算兩個(gè)節(jié)目數(shù)據(jù)之間的相似度。
按照上述子步驟S111至S115描述的方法,逐一計(jì)算該待入庫(kù)的節(jié)目數(shù)據(jù)與數(shù)據(jù)庫(kù)140中已存儲(chǔ)的各節(jié)目數(shù)據(jù)之間的相似度即為本實(shí)施例提供的步驟S101的一種可能實(shí)現(xiàn)方式。
為了更為具體的說(shuō)明本實(shí)施方式中相似度的計(jì)算過(guò)程,以下述表1中的兩個(gè)節(jié)目的標(biāo)簽信息為示例作進(jìn)一步闡述,其中,節(jié)目一已存儲(chǔ)于所述數(shù)據(jù)庫(kù)140中,節(jié)目二為當(dāng)前一待入庫(kù)的節(jié)目數(shù)據(jù)。
表1
首先,計(jì)算兩個(gè)節(jié)目標(biāo)題間的相似度。先將節(jié)目一標(biāo)題中的末尾句號(hào)(在該示例中為預(yù)先設(shè)定的無(wú)效字符之一)去除后,采用動(dòng)態(tài)規(guī)劃算法,從兩個(gè)節(jié)目標(biāo)題的最左側(cè)字符開(kāi)始進(jìn)行依次匹配,并記錄匹配結(jié)果。經(jīng)統(tǒng)計(jì),兩個(gè)節(jié)目標(biāo)題中的第5個(gè)字符不匹配,其余8個(gè)字符均匹配。所以,標(biāo)題間的相似度為
其次,采用同樣的方法計(jì)算兩個(gè)節(jié)目導(dǎo)演之間的相似度。不難看出,兩者之間的相似度為1。
再次,計(jì)算兩個(gè)節(jié)目地區(qū)之間的相似度。同理地,兩者之間的相似度也為1。
最后,根據(jù)上述兩個(gè)節(jié)目標(biāo)題、導(dǎo)演以及地區(qū)之間的相似度值,計(jì)算兩個(gè)節(jié)目間的相似度。具體計(jì)算方式可以是,對(duì)標(biāo)題、導(dǎo)演以及地區(qū)三部分標(biāo)簽信息分別設(shè)置權(quán)重系數(shù),然后將上述三者的相似度值乘以各自對(duì)應(yīng)的權(quán)重系數(shù)后相加,得到兩個(gè)節(jié)目之間的相似度。例如,可以設(shè)置標(biāo)題、導(dǎo)演以及地區(qū)的權(quán)重系數(shù)分別為0.8、0.1和0.1,則兩個(gè)節(jié)目之間的相似度為0.889×0.8+1×0.1+1×0.1=0.9112。
接著,步驟S103,根據(jù)計(jì)算出的所有相似度中的最大值和預(yù)設(shè)的隸屬度函數(shù)對(duì)該待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定。
本實(shí)施例中,所述入庫(kù)判定的結(jié)果可以包括入庫(kù)、不入庫(kù)兩種形式。當(dāng)待入庫(kù)的節(jié)目數(shù)據(jù)被判定為入庫(kù)時(shí),則可以將該節(jié)目數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)140中,反之,該節(jié)目數(shù)據(jù)則不能作入庫(kù)處理。
關(guān)于所述預(yù)設(shè)的隸屬度函數(shù),作為一種可能的實(shí)施方式,其可以是通過(guò)對(duì)預(yù)先構(gòu)造的函數(shù)模型進(jìn)行參數(shù)訓(xùn)練所得到的。也就是說(shuō),預(yù)先構(gòu)造一函數(shù)模型,然后依照選定的訓(xùn)練集對(duì)該函數(shù)模型中的參數(shù)進(jìn)行參數(shù)訓(xùn)練,最后根據(jù)訓(xùn)練結(jié)果得到所述隸屬度函數(shù)。
可以理解的是,上述預(yù)先構(gòu)造的函數(shù)模型可以有多種,只要滿足經(jīng)參數(shù)訓(xùn)練后獲得的隸屬度函數(shù)能夠根據(jù)相似度值對(duì)節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定即可。
例如,在一實(shí)施方式中,所述函數(shù)模型可以包括第一函數(shù)和第二函數(shù),經(jīng)參數(shù)訓(xùn)練后得到的隸屬度函數(shù)對(duì)應(yīng)包括第一概率函數(shù)和第二概率函數(shù)。詳細(xì)地,所述第一概率函數(shù)為待入庫(kù)的節(jié)目數(shù)據(jù)被判定為入庫(kù)的概率隨相似度的變化函數(shù),所述第二概率函數(shù)為待入庫(kù)的節(jié)目數(shù)據(jù)被判定為不入庫(kù)的概率隨相似度的變化函數(shù),其中,自變量“相似度”的取值為[0,1],因變量“概率”的取值同樣為[0,1]。
請(qǐng)參照?qǐng)D4,作為一種示例,所述第一函數(shù)可以是:
其中,x表示自變量“相似度”,P1(x)表示因變量“被判定入庫(kù)的概率”。
相對(duì)應(yīng)地,所述第二函數(shù)可以是:
x表示自變量“相似度”,P2(x)表示因變量“被判定不入庫(kù)的概率”。
假設(shè)基于此示例中的函數(shù)模型,某次參數(shù)訓(xùn)練后a1、c1、a2、c2的訓(xùn)練結(jié)果分別為0.08、0.75、0.61、0.93,則與該訓(xùn)練結(jié)果相對(duì)應(yīng)的隸屬度函數(shù)所包括的第一概率函數(shù)和第二概率函數(shù)依次為:
以及,
請(qǐng)參閱圖5,作為另一種示例,所述第一函數(shù)還可以是:
相對(duì)應(yīng)地,所述第二函數(shù)還可以是:
在此實(shí)施方式中,根據(jù)計(jì)算出的所有相似度中的最大值(下述簡(jiǎn)稱最大相似度值)和上述隸屬度函數(shù)對(duì)待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定的具體過(guò)程為,將所述最大相似度值分別代入第一概率函數(shù)和第二概率函數(shù)計(jì)算相應(yīng)的函數(shù)值,然后將獲得的兩個(gè)函數(shù)值進(jìn)行比較。如果第一概率函數(shù)的函數(shù)值較大,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)入庫(kù);如果第二概率函數(shù)的函數(shù)值較大,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)不入庫(kù);如果兩個(gè)函數(shù)值相等,則可以根據(jù)預(yù)先設(shè)定的針對(duì)該種情形的判定規(guī)則進(jìn)行處理,例如直接判定為不入庫(kù),或者在所述最大相似度值大于等于設(shè)定閾值(如0.5)時(shí)判定為不入庫(kù),否則判定為入庫(kù)。
特別的是,當(dāng)?shù)谝桓怕屎瘮?shù)與第二概率函數(shù)存在且僅存在一個(gè)因變量非零的交點(diǎn)時(shí)(如圖4或圖5所示),還可以采用另一種判定方法對(duì)節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定。具體為,計(jì)算該交點(diǎn)的自變量取值,并將該取值設(shè)定為判定閾值。然后將所述最大相似度值直接與該判定閾值進(jìn)行比較,若小于該閾值,則判定為入庫(kù),大于則判定為不入庫(kù),相等則可以根據(jù)預(yù)定的規(guī)則進(jìn)行判定處理。
當(dāng)然,如果第一概率函數(shù)與第二概率函數(shù)存在多個(gè)因變量非零的交點(diǎn),上述方法也可以適用。只是在確定所述判定閾值時(shí)需要在多個(gè)交點(diǎn)對(duì)應(yīng)的自變量取值中進(jìn)行選擇,而具體的選擇方式又可以有多種,例如直接選定最小(或最大)的自變量取值,或者根據(jù)預(yù)定的某種加權(quán)規(guī)則進(jìn)行加權(quán)換算得到判定閾值等。
作為一種優(yōu)選,本實(shí)施例中,所述入庫(kù)判定的結(jié)果除了入庫(kù)或不入庫(kù)以外,還可以包括第三種判定結(jié)果,如待定入庫(kù)。
此時(shí),所述預(yù)先構(gòu)造的函數(shù)模型包括第一函數(shù)、第二函數(shù)以及第三函數(shù)。該函數(shù)模型經(jīng)參數(shù)訓(xùn)練后得到的隸屬度函數(shù)對(duì)應(yīng)包括第一概率函數(shù)、第二概率函數(shù)和第三概率函數(shù)。其中,所述第一概率函數(shù)為待入庫(kù)的節(jié)目數(shù)據(jù)被判定為入庫(kù)的概率隨相似度的變化函數(shù),所述第二概率函數(shù)為該待入庫(kù)的節(jié)目數(shù)據(jù)被判定為待定入庫(kù)的概率隨相似度的變化函數(shù),所述第三概率函數(shù)為該待入庫(kù)的節(jié)目數(shù)據(jù)被判定為不入庫(kù)的概率隨相似度的變化函數(shù)。
請(qǐng)參照?qǐng)D6,作為一種示例,所述第一函數(shù)可以是:
相對(duì)應(yīng)地,所述第二函數(shù)可以是:
以及,所述第三函數(shù)可以是:
基于該示例中的函數(shù)模型,假設(shè)某次參數(shù)訓(xùn)練后上述第一、第二以及第三函數(shù)中的參數(shù)a1,b1,c1,a21,b21,c21,a22,b22,c22,a3,b3,c3的訓(xùn)練結(jié)果為0.1,0.375,0.65,0.6,0.65,0.7,0.748,0.752,0.751,0.75,0.8,0.95。將上述訓(xùn)練結(jié)果代入函數(shù)模型中即得到本次參數(shù)訓(xùn)練對(duì)應(yīng)的隸屬度函數(shù)。
在該優(yōu)選實(shí)施方式中,根據(jù)所述最大相似度值和隸屬度函數(shù)對(duì)待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定的具體過(guò)程可以是,將所述最大相似度值分別代入隸屬度函數(shù)包括的三個(gè)概率函數(shù)中,計(jì)算相應(yīng)的函數(shù)值。然后將獲得的三個(gè)函數(shù)值進(jìn)行比較。若第一概率函數(shù)的函數(shù)值最大,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)入庫(kù);若第二概率函數(shù)的函數(shù)值最大或者該三個(gè)函數(shù)值中存在著兩個(gè)相等的最大函數(shù)值時(shí),則判定該待入庫(kù)的節(jié)目數(shù)據(jù)待定入庫(kù);若所述第三概率函數(shù)的函數(shù)值最大,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)不入庫(kù)。
或者是,在第一概率函數(shù)與第二概率函數(shù)之間存在且僅存在一個(gè)因變量非零的交點(diǎn),同樣地,第二概率函數(shù)與第三概率函數(shù)之間也存在且僅存在一個(gè)因變量非零的交點(diǎn)時(shí),將上述兩個(gè)交點(diǎn)的自變量取值依次設(shè)定為第一判定閾值和第二判定閾值。通常,第二判定閾值大于第一判定閾值,但并不排除在其他實(shí)施方式中,兩者可以相等。然后,將所述最大相似度值與所述第一判定閾值和第二判定閾值進(jìn)行比較。如果小于所述第一判定閾值,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)入庫(kù);若大于或等于所述第一判定閾值,且小于或等于所述第二判定閾值,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)待定入庫(kù);若大于所述第二判定閾值,則判定該待入庫(kù)的節(jié)目數(shù)據(jù)不入庫(kù)。
如果第一、第二概率函數(shù)之間和/或第二、第三概率函數(shù)之間存在多個(gè)因變量非零的交點(diǎn),可以根據(jù)預(yù)設(shè)的判定閾值確定方法在多個(gè)因變量非零的交點(diǎn)所對(duì)應(yīng)的自變量取值中確定出所述第一判定閾值和第二判定閾值,然后按照與上述相同的方法進(jìn)行入庫(kù)判定。
更進(jìn)一步地,本實(shí)施方式中,當(dāng)待入庫(kù)的節(jié)目數(shù)據(jù)被判定為待定入庫(kù)后,可以將該待入庫(kù)的節(jié)目數(shù)據(jù)的內(nèi)容信息和已存儲(chǔ)在數(shù)據(jù)庫(kù)140中的與其具有最大相似度值的節(jié)目數(shù)據(jù)的內(nèi)容信息進(jìn)行比對(duì)。若兩個(gè)節(jié)目數(shù)據(jù)的內(nèi)容信息的相似度小于設(shè)定閾值(如0.4),則判定該待入庫(kù)的節(jié)目數(shù)據(jù)入庫(kù),否則,判定該待入庫(kù)的節(jié)目數(shù)據(jù)不入庫(kù)。當(dāng)然,在其他實(shí)施方式中,也可以采取其他比對(duì)方式,并不限制于此。
此外,需要強(qiáng)調(diào)的一點(diǎn)是,對(duì)于相同的函數(shù)模型,選定的訓(xùn)練集不同,其對(duì)應(yīng)的訓(xùn)練結(jié)果可能也不同,進(jìn)而得到的隸屬度函數(shù)也就不同。而隸屬度函數(shù)又直接影響著入庫(kù)判定的結(jié)果,所以,為了提高入庫(kù)判定的準(zhǔn)確率,本實(shí)施例中,對(duì)函數(shù)模型進(jìn)行參數(shù)訓(xùn)練的方式可以是:選取當(dāng)前所有待入庫(kù)的節(jié)目數(shù)據(jù)中的一部分節(jié)目數(shù)據(jù)作為訓(xùn)練集對(duì)所述預(yù)先構(gòu)造的函數(shù)模型進(jìn)行參數(shù)訓(xùn)練,得到所述隸屬度函數(shù),然后再應(yīng)用該隸屬度函數(shù)對(duì)其余待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定。
這里需要說(shuō)明的是,通常情況下,節(jié)目數(shù)據(jù)是分批次進(jìn)行入庫(kù)處理的。示例性地,假設(shè)當(dāng)前批次共包括一千個(gè)待入庫(kù)的節(jié)目數(shù)據(jù),則可以選擇其中一部分(如一百個(gè))節(jié)目數(shù)據(jù)構(gòu)成訓(xùn)練集,對(duì)函數(shù)模型進(jìn)行參數(shù)訓(xùn)練,得到隸屬度函數(shù)。然后,應(yīng)用該隸屬度函數(shù)對(duì)剩余的九百個(gè)節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定。
最后,步驟S105,根據(jù)所述入庫(kù)判定的結(jié)果對(duì)所述待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行處理。
本實(shí)施例中,根據(jù)判定結(jié)果對(duì)節(jié)目數(shù)據(jù)進(jìn)行處理是指,如果判定結(jié)果為入庫(kù),則將節(jié)目數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)140中;若判定結(jié)果為待定入庫(kù),則需要進(jìn)行進(jìn)一步的判定(如上述比對(duì)內(nèi)容信息),然后根據(jù)進(jìn)一步判定結(jié)果對(duì)節(jié)目數(shù)據(jù)進(jìn)行處理;若判定結(jié)果為不入庫(kù),則放棄該節(jié)目數(shù)據(jù),不進(jìn)行存儲(chǔ)操作。
如圖7所示,是本發(fā)明實(shí)施例提供的一種節(jié)目數(shù)據(jù)入庫(kù)裝置110的功能模塊框圖。該裝置包括相似度計(jì)算模塊1102、入庫(kù)判定模塊1104以及節(jié)目處理模塊1106。
所述相似度計(jì)算模塊1102,用于分別計(jì)算數(shù)據(jù)庫(kù)140中已存儲(chǔ)的節(jié)目數(shù)據(jù)與當(dāng)前一待入庫(kù)的節(jié)目數(shù)據(jù)之間的相似度。
所述入庫(kù)判定模塊1104,用于根據(jù)計(jì)算出的所有相似度中的最大值和預(yù)設(shè)的隸屬度函數(shù)對(duì)該待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定。
所述節(jié)目處理模塊1106,用于根據(jù)所述入庫(kù)判定的結(jié)果對(duì)所述待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行處理。
本實(shí)施例中的各功能模塊的具體操作方法可參照上述方法實(shí)施例中相應(yīng)步驟的詳細(xì)描述,在此不再重復(fù)贅述。
綜上所述,本發(fā)明實(shí)施例提供的節(jié)目數(shù)據(jù)入庫(kù)方法及裝置,是根據(jù)計(jì)算出的所述最大相似度值和對(duì)預(yù)先構(gòu)造的函數(shù)模型進(jìn)行參數(shù)學(xué)習(xí)得到的隸屬度函數(shù)對(duì)待入庫(kù)的節(jié)目數(shù)據(jù)進(jìn)行入庫(kù)判定,即模擬人腦的模糊邏輯思維來(lái)判斷節(jié)目是否已經(jīng)在數(shù)據(jù)庫(kù)中存在,與現(xiàn)有的一些僅通過(guò)人為設(shè)定一個(gè)相似度閾值進(jìn)行入庫(kù)判定的技術(shù)相比,判定結(jié)果更加客觀準(zhǔn)確,極大的降低了人為主觀因素的影響。應(yīng)用該種節(jié)目數(shù)據(jù)入庫(kù)方法能夠很好的解決節(jié)目數(shù)據(jù)重復(fù)入庫(kù)的問(wèn)題,明顯減少相同節(jié)目在數(shù)據(jù)庫(kù)中重復(fù)存儲(chǔ)的現(xiàn)象,有效避免數(shù)據(jù)庫(kù)存儲(chǔ)空間的浪費(fèi)。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過(guò)其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能模塊可以集成在一起形成一個(gè)獨(dú)立的部分,也可以是各個(gè)模塊單獨(dú)存在,也可以兩個(gè)或兩個(gè)以上模塊集成形成一個(gè)獨(dú)立的部分。
所述功能如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)執(zhí)行設(shè)備(可以是智能電視、個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。
需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。