亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種語義段的轉(zhuǎn)換方法及裝置與流程

文檔序號:11155005閱讀:1269來源:國知局
本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域
,尤其涉及一種語義段的轉(zhuǎn)換方法及裝置。
背景技術(shù)
:對于現(xiàn)在很多手機(jī)、信息提醒類APP和第三方平臺的運(yùn)營商,為了提高用戶的使用感受,都會推出類似于卡片式短信、通知提醒類業(yè)務(wù)等應(yīng)用,當(dāng)用戶授權(quán)讀取本機(jī)短信和服務(wù)推送信息后,會解析短信、APP應(yīng)用、站內(nèi)推送等通知信息中的有效內(nèi)容,并把其內(nèi)容項(xiàng)顯示在手機(jī)短信系統(tǒng)或手機(jī)應(yīng)用頁面上。另一方面,企業(yè)為了更好的推廣自己,會在通知信息中出現(xiàn)很多廣告,而廣告信息對于本條信息中有效特征的提取具有很大的干擾作用。因此,如何對用戶手機(jī)中的通知短信、推送文本等通知信息去除廣告噪聲,以便可以更準(zhǔn)確的提取通知信息中對用戶有意義的特征信息,對于手機(jī)開發(fā)商、APP開發(fā)者、第三方平臺是非常重要的。目前大多數(shù)廣告過濾方法都是采用預(yù)設(shè)設(shè)置一個廣告模板庫,其中存儲的是被定義為廣告信息的語義段,在實(shí)際過濾時,若一個通知信息中的一個語義段與廣告模板庫中的某個語義段具有超過一定程度的相似度,則將該語義段確定為廣告信息并過濾掉。上述方法存在的問題是:首先,由于在廣告模板庫中存儲的是被定義為廣告信息的語義段,因此造成要存儲的信息量比較大,浪費(fèi)存儲空間;其次,在具體對語義段進(jìn)行判斷時,將語義段與廣告模塊庫中的語義段進(jìn)行比對,由于是文本比對,效率比較低。綜上所述,現(xiàn)有技術(shù)對通知信息進(jìn)行廣告過濾時,存在浪費(fèi)存儲空間及廣告過濾效率低的技術(shù)問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種語義段的轉(zhuǎn)換方法及裝置,用以對通知信息進(jìn)行廣告過濾時,節(jié)約存儲空間及提高廣告過濾的效率。一方面,本發(fā)明實(shí)施例提供一種語義段的轉(zhuǎn)換方法,包括:根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值??蛇x地,所述每個語義段中的每個詞語對應(yīng)的哈希值為包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值,包括:針對所述語義段中的任意一個詞語,將所述詞語對應(yīng)的哈希值中的0替換為-1,得到所述詞語對應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述詞語對應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對應(yīng)的第二目標(biāo)值;將所述語義段中每個詞語對應(yīng)的第二目標(biāo)值在對應(yīng)的位上相加,得到所述語義段對應(yīng)的目標(biāo)值;針對所述語義段對應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對應(yīng)的數(shù)值大于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對應(yīng)的數(shù)值小于或等于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0??蛇x地,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大??蛇x地,對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值,包括:根據(jù)下列方式確定所述語義段中的每個詞語對應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對應(yīng)的第一權(quán)重值及對應(yīng)的第二權(quán)重值,確定詞語對應(yīng)的權(quán)重值??蛇x地,對所述語義段進(jìn)行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值之前,還包括:將所述語義段中的每個詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對應(yīng)的預(yù)設(shè)名詞。一方面,本發(fā)明實(shí)施例提供一種語義段的轉(zhuǎn)換裝置,包括:語義段權(quán)重值確定單元,用于根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;詞語權(quán)重值確定單元,用于對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;哈希值確定單元,用于根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。可選地,所述每個語義段中的每個詞語對應(yīng)的哈希值為包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值;所述哈希值確定單元,具體用于:針對所述語義段中的任意一個詞語,將所述詞語對應(yīng)的哈希值中的0替換為-1,得到所述詞語對應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述詞語對應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對應(yīng)的第二目標(biāo)值;將所述語義段中每個詞語對應(yīng)的第二目標(biāo)值在對應(yīng)的位上相加,得到所述語義段對應(yīng)的目標(biāo)值;針對所述語義段對應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對應(yīng)的數(shù)值大于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對應(yīng)的數(shù)值小于或等于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。可選地,所述語義段權(quán)重值確定裝置,具體用于:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大。可選地,所述詞語權(quán)重值確定單元,具體用于根據(jù)下列方式確定所述語義段中的每個詞語對應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對應(yīng)的第一權(quán)重值及對應(yīng)的第二權(quán)重值,確定詞語對應(yīng)的權(quán)重值??蛇x地,所述詞語權(quán)重值確定單元,還用于:對所述語義段進(jìn)行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值之前,將所述語義段中的每個詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對應(yīng)的預(yù)設(shè)名詞。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。從而在廣告模板庫中存儲的均為語義段對應(yīng)的哈希值,比較節(jié)約空間;以及在對通知信息進(jìn)行廣告過濾時,將通知信息中語義段對應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高。附圖說明為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種更新模板庫的方法流程圖;圖2為本發(fā)明實(shí)施例提供的一種通知信息過濾方法流程圖;圖3為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法流程圖;圖4為本發(fā)明實(shí)施例提供的一種更新模板庫的方法詳細(xì)流程圖;圖5為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法詳細(xì)流程圖;圖6為本發(fā)明實(shí)施例提供的一種更新模板庫的裝置示意圖;圖7為本發(fā)明實(shí)施例提供的一種通知信息過濾裝置示意圖;圖8為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換裝置示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。服務(wù)類行業(yè)公司主要包括金融機(jī)構(gòu)類、運(yùn)營商類、電商類、商旅類等網(wǎng)站,對客戶發(fā)的通知信息主要有以下幾個類型:一.純通知類短信①尾號1234儲蓄卡賬戶12:40在ATM機(jī)取款300元。(銀行)②溫馨提示:截止03月07日24時,您當(dāng)月累計(jì)使用流量150.6MB。其中,國內(nèi)流量已使用21.6MB,剩余979.4MB;國內(nèi)流量半年流量包已使用1.064GB,剩余1.936GB。(運(yùn)營商)③您購買的訂單號879885554已經(jīng)從倉庫運(yùn)出,大概3天后到您手中,請注意查收。(電商類)④您購買的7月8日CA1819次航班已經(jīng)出票,請準(zhǔn)時到達(dá)機(jī)場。(商旅類)二.通知+廣告類⑤您賬戶5678于01月02日11:21發(fā)生網(wǎng)銀快捷支付扣款30元。當(dāng)月交易滿100元送100積分。(銀行)⑥您好:您的手機(jī)(130****7787)上月消費(fèi)金額56元,現(xiàn)賬戶余額為12元,如果有欠費(fèi),請及時充值。溫馨提示:現(xiàn)在充值滿100元可以享受送400M流量包優(yōu)惠。(運(yùn)營商)⑦本次交易驗(yàn)證碼456421,請勿向任何人泄露收到的驗(yàn)證碼。猛戳t.xxx.com/GFDG立馬領(lǐng)取億萬理財(cái)券。(電商類)⑧您在本網(wǎng)站購買的7月12日的MU5028航班預(yù)計(jì)將延遲2個小時以上,對您旅程的影響深表歉意。雷雨季節(jié)使用延誤險(xiǎn),出行不擔(dān)憂,現(xiàn)在通過手機(jī)端購買保險(xiǎn)立馬享受隨機(jī)減的優(yōu)惠。(航旅類)三.純廣告類⑨本行將于3月16日至18日起售一年期保本保收益定期存款產(chǎn)品,5萬起年收益5,相比定期存款,100000元多2600元收益,額度有限,速速搶購。(銀行)⑩【中國石油】積分商城(http://www.jf.95504.net、中油好客e站微信號)6月17日鉅惠啟航!積分兌換電子充值卡,兌換+油卡充值=積分加油!多種面值可選!新客戶記得注冊綁卡喲.......。(電商類)最便宜的打折機(jī)票哪里有?訪問www.ddd.com獲得最新打折機(jī)票信息,注冊就有獎。(航旅類)下面結(jié)合說明書附圖對本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)描述。如圖1所示,本發(fā)明實(shí)施例提供的一種更新模板庫的方法,包括:步驟101、根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;步驟102、針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段;步驟103、根據(jù)所述目標(biāo)語義段,更新模板庫,所述模板庫用于存儲滿足預(yù)設(shè)條件的語義段。在上述步驟101中,根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。可選地,根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集,可以有多種方式,下列例舉幾種方式作為說明:第一種方式:根據(jù)通知信息對應(yīng)的應(yīng)用名稱、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。第二種方式:根據(jù)通知信息對應(yīng)的應(yīng)用名稱、渠道,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。第三種方式、根據(jù)通知信息對應(yīng)的應(yīng)用名稱、渠道、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。其中,之所以按照以上的劃分方式對通知信息進(jìn)行分類,主要是基于以下理由:通知信息中的廣告信息具有具有時間歸屬性、應(yīng)用歸屬性及渠道歸屬性。例如某種廣告信息在某個應(yīng)用下在某個時間段或者某天內(nèi)發(fā)送給了所有用戶,則可以使用上述第一種方式,來將通知信息進(jìn)行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個數(shù)據(jù)集中存儲的是來自于同一個應(yīng)用在同樣時間段的通知信息;或者是某種廣告信息在某個應(yīng)用的某個渠道下具有重復(fù)性,則可以使用上述第二種方式,來將通知信息進(jìn)行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個數(shù)據(jù)集中存儲的是來自于同一個應(yīng)用及同一渠道下的通知信息;或者是某種廣告信息在某個應(yīng)用的某個渠道下具有重復(fù)性和連續(xù)性,則可以使用上述第三種方式對通知信息進(jìn)行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個數(shù)據(jù)集中存儲的是來自于同一個應(yīng)用及同一渠道下,且屬于同一時間的通知信息。下面以上述第三種方式為例進(jìn)行舉例說明。服務(wù)端將授權(quán)用戶(即只有經(jīng)過用戶授權(quán)后,服務(wù)端才可以獲取到這些通知類信息)的所有通知類信息按照應(yīng)用名稱、渠道和日期分隔開,形成數(shù)據(jù)集,每個數(shù)據(jù)集合以應(yīng)用名稱、渠道、日期命名,例如形成以下數(shù)據(jù)集:數(shù)據(jù)集1:移動-短信-2016.05.08數(shù)據(jù)集2:移動-短信-2016.05.09數(shù)據(jù)集3:移動-短信-2016.05.10……數(shù)據(jù)集k:移動-APP通知-2016.05.08數(shù)據(jù)集k+1:移動-APP通知-2016.05.09數(shù)據(jù)集k+2:移動-APP通知-2016.05.10……數(shù)據(jù)集l:電商-APP通知-2016.05.08數(shù)據(jù)集l+1:電商-APP通知-2016.05.09數(shù)據(jù)集l+2:電商-APP通知-2016.05.10……數(shù)據(jù)集m:電商-微信通知-2016.05.08數(shù)據(jù)集m+1:電商-微信通知-2016.05.09數(shù)據(jù)集m+2:電商-微信通知-2016.05.10……從而,根據(jù)上述方法,將獲取到的通知信息劃分到了多個數(shù)據(jù)集中,每個數(shù)據(jù)集中的通知信息是來源于同一應(yīng)用、同一渠道及同一時間,并且同一個數(shù)據(jù)集中的通知信息具有高度關(guān)聯(lián)性,也就是說,同一個數(shù)據(jù)集中的通知信息具有相同語義段的概率要更高。上述步驟102中,針對根據(jù)步驟101中得到的多個數(shù)據(jù)集,針對其中的每一個數(shù)據(jù)集,都會得到一些目標(biāo)語義段,下面針對其中任意一個數(shù)據(jù)集,來說明書如何得到該數(shù)據(jù)集中的目標(biāo)語義段。步驟A、根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段??紤]到廣告本身具有典型的時間、渠道及應(yīng)用特性,為了盡可能擴(kuò)大廣告影響力和營銷效果,同一個應(yīng)用在某個渠道在某個時間段(例如一天內(nèi))發(fā)送的廣告信息應(yīng)該是相同的。一般會采取在用戶正常通知信息最后面添加廣告、或直接給用戶推送廣告信息兩種方式??紤]到上述情況,我們對通知信息處理不是采用整條信息處理的方式,而是對原始信息用預(yù)設(shè)的劃分標(biāo)識符進(jìn)行分割(本發(fā)明實(shí)施例中,預(yù)設(shè)的劃分標(biāo)識符為句號、問號、感嘆號),形成一個個具有完整意義的語義段。在切分后,上述完整的信息就可以劃分成不同的語義段,以下是舉例:舉例1、信息⑤按照句號切割,原文就變成“您賬戶5678于01月02日11:21發(fā)生網(wǎng)銀快捷支付扣款30元。”和“當(dāng)月交易滿100元送100積分。”兩個語義段。舉例2、信息⑧按照句號切割,原文就可以得到“雷雨季節(jié)使用延誤險(xiǎn),出行不擔(dān)憂,現(xiàn)在通過手機(jī)端購買保險(xiǎn)立馬享受隨機(jī)減的優(yōu)惠?!?,“您在本網(wǎng)站購買的7月12日的MU5028航班預(yù)計(jì)將延遲2個小時以上,對您旅程的影響深表歉意?!眱蓚€語義段。舉例3、信息⑩按照句號和感嘆號切割,原文就可以得到“中國石油】積分商城(http://www.jf.95504.net、中油好客e站微信號)6月17日鉅惠啟航!”,“積分兌換電子充值卡,兌換+油卡充值=積分加油!”,“多種面值可選!”,“新客戶記得注冊綁卡喲.......?!彼膫€語義段。舉例4、信息按照問號和句號進(jìn)行分割,原文就可以得到“最便宜的打折機(jī)票哪里有?”,“訪問www.ddd.com獲得最新打折機(jī)票信息,注冊就有獎?!眱蓚€語義段。步驟B、對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段。將每個數(shù)據(jù)集中每條通知信息都按照如上原則切分成不同的語義段,并統(tǒng)計(jì)相同語義段出現(xiàn)的次數(shù),注意這里一定要是完全相同,因?yàn)檫@樣可以把信息中的有效部分區(qū)別開來,比如以下是電商類發(fā)貨通知信息:(1)您購買的訂單號87885554已經(jīng)從倉庫運(yùn)出,大概3天后到您手中,請注意查收。(2)您購買的訂單號98766876已經(jīng)從倉庫運(yùn)出,大概3天后到您手中,請注意查收。以上兩條通知信息結(jié)構(gòu)一樣,但是因?yàn)槠渲嘘P(guān)鍵的信息訂單號不一樣,說明這其實(shí)可能是有效信息。按照我們上述的原則,即使有很多條類似結(jié)構(gòu)的短信,出現(xiàn)次數(shù)也不會相加。將語義段出現(xiàn)的次數(shù)按照倒序排序,得到每個數(shù)據(jù)集的相同語義段出現(xiàn)次數(shù)的倒序集合,按照以下格式以待下一步處理,舉例來說,表1為數(shù)據(jù)集(移動-短信-2016.05.08)中的所有通知信息劃分為語義段之后的統(tǒng)計(jì)結(jié)果表;表2為數(shù)據(jù)集(銀行-APP通知-2016.07.03)中的所有通知信息劃分為語義段之后的統(tǒng)計(jì)結(jié)果表。表1移動-短信-2016.05.08語義段出現(xiàn)次數(shù)溫馨提示:現(xiàn)在充值滿100元可以享受送400M流量包優(yōu)惠。1098現(xiàn)在安裝家庭寬帶,6月1日之前可以享受8折優(yōu)惠876……表2銀行-APP通知-2016.07.03語義段出現(xiàn)次數(shù)當(dāng)月交易滿100元送100積分8765…876恭喜你當(dāng)期賬單已經(jīng)還清。342對于每個數(shù)據(jù)集,在統(tǒng)計(jì)出其中的所有不同語義段出現(xiàn)的次數(shù)之后,再從中選出目標(biāo)語義段,可選地,對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,包括:針對一個數(shù)據(jù)集劃分得到的所有語義段中的任意一個語義段,若所述任意一個語義段滿足下列條件中的至少一個,則確定所述任意一個語義段為目標(biāo)語義段,否則,確定所述任意一個語義段不為目標(biāo)語義段。其中:條件一:所述任意一個語義段的權(quán)重大于或等于第一閾值,所述任意一個語義段的權(quán)重為所述任意一個語義段在所述任意一個數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個數(shù)據(jù)集對應(yīng)的通知信息的數(shù)量的比值。舉例來說,假設(shè)數(shù)據(jù)集A中一共有1000個不同的語義段,且這1000個語義段是來源于400條通知信息,針對其中的語義段a,假設(shè)語義段a出現(xiàn)的次數(shù)為500次,則語義段a的權(quán)重為500/400=1.25;再比如語義段b,其出現(xiàn)的次數(shù)為200此,則語義段b的權(quán)重為200/400=0.5。如果預(yù)設(shè)的第一閾值為1,則語義段a被確定為目標(biāo)語義段,而語義段b被確定為不是目標(biāo)語義段;如果預(yù)設(shè)的第一閾值為0.4,則語義段a和語義段b都被確定為目標(biāo)語義段。條件二:所述任意一個語義段屬于目標(biāo)集合,所述目標(biāo)集合由所述至少一個數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預(yù)設(shè)比例的語義段構(gòu)成。舉例來說,數(shù)據(jù)集B中一共有2000個不同的語義段,第二閾值預(yù)設(shè)為500,且數(shù)據(jù)集B中出現(xiàn)次數(shù)超過500的語義段共有800個(即數(shù)據(jù)集B的2000個語義段中有800個語義段的出現(xiàn)次數(shù)超過500次),然后從這500個語義段中選出排名前預(yù)設(shè)比例(例如40%)的語義段,構(gòu)成目標(biāo)集合,即目標(biāo)集合中有200個語義段。對于數(shù)據(jù)集B中的任意一個語義段,假設(shè)其屬于該目標(biāo)集合,則該語義段就是目標(biāo)語義段;換句話說,目標(biāo)集合中的任意一個語義段均為目標(biāo)語義段。對于一個數(shù)據(jù)集中的任意一個語義段,只要其滿足上面的兩個條件中的任意一個,則該語義段就是目標(biāo)語義段。上述步驟103中,在針對每個數(shù)據(jù)集都得到了目標(biāo)語義段之后,在利用這些目標(biāo)語義段來更新模板庫,所述模板庫用于存儲滿足預(yù)設(shè)條件的語義段。在實(shí)際應(yīng)用中,模板庫可以只有一個,例如模板庫為廣告模板庫,用于存儲為廣告信息的語義段;模板庫也可以由多個庫組成,例如在本發(fā)明實(shí)施例中,模板庫包含兩個庫,具體地,所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲廣告類語義段,所述非廣告模板庫用于存儲非廣告類語義段。舉例來說,廣告模板庫中存儲的出現(xiàn)次數(shù)較多的廣告類語義段,例如“當(dāng)月交易滿100元送100積分”;但是也還有一些語義段,其出現(xiàn)次數(shù)也非常多,但這類語義段其實(shí)并不是廣告類語義段,而是一些特定信息,例如銀行發(fā)送的特定信息“恭喜你當(dāng)期賬單已經(jīng)還清”??蛇x地,根據(jù)所述目標(biāo)語義段,更新模板庫,具體包括:針對所述目標(biāo)語義段中的任意一個語義段,將所述任意一個語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫??蛇x地,根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫,包括:若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個語義段加入所述非廣告模板庫;若所述第一匹配度為高匹配度且所述第二匹配度為高匹配度,則輸出由人工判斷所述任意一個語義段是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入;若所述第一匹配度為低匹配度且所述第二匹配度為低匹配度,則輸出由人工判斷所述任意一個語義段是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入。上述根據(jù)所述目標(biāo)語義段,更新模板庫的方法用表3來表示,為:表3通過上面步驟的處理,可以大大減少人工查看語義段的數(shù)量,快速得到新的廣告類的語義段。由于非廣告模板一般比較穩(wěn)定,不會隨著時間快速增加,同時,隨著廣告模板庫的增大,上述表3中的第2種情形會相對比較多一些,而上述表3中的第1和第4種情形會越來越少,直至最后需要人工介入的情況也會越來越少,最后甚至是無需人工接入。對于表3中的第1和第4種情形,其中在第1種情形下,人工判斷的結(jié)果一般為:要么將該需要人工判斷的語義段加入到廣告模板庫,要么加入到非廣告模板庫;而對于第4種情形,則一般經(jīng)人工確認(rèn)后,是兩個模板庫都不加入。當(dāng)然,具體經(jīng)人工判斷后是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入,則是視實(shí)際情況而定。下面對上述過程中,確定所述任意一個語義段與所述廣告模板庫的第一匹配度,以及確定所述任意一個語義段與所述非廣告模板庫的第二匹配度。可選地,將所述任意一個語義段與廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度,包括:若所述任意一個語義段與所述廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為低匹配度。其中:條件一:所述任意一個語義段與所述廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值;舉例來說,假設(shè)廣告模板庫中當(dāng)前已經(jīng)存儲有100個語義段了,這些語義段均為廣告類語義段。那么條件一指的是,對于目標(biāo)語義段中的任意一個語義段,將該語義段與廣告模板庫中的100個語義段從前往后進(jìn)行比較,如果該語義段與廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值,則確定滿足上述條件一;如果該語義段與廣告模板庫中的所有語義段的相似度均小于第一相似閾值,則確定不滿足上述條件一。條件二:所述任意一個語義段與所述廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù)。舉例來說,假設(shè)廣告模板庫中當(dāng)前已經(jīng)存儲有100個語義段了,這些語義段均為廣告類語義段。那么條件二指的是,對于目標(biāo)語義段中的任意一個語義段,將該語義段與廣告模板庫中的100個語義段從前往后進(jìn)行比較,如果該語義段與廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,并且,M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,則確定滿足上述條件二;如果M與所述廣告模板庫中語義段的總數(shù)量的比值小于所述預(yù)設(shè)的第一比例,則確定不滿足上述條件二。例如預(yù)設(shè)的第一比例為30%,當(dāng)M等于50時,則表明該語義段滿足條件二,當(dāng)M=20時,則表明該語義段不滿足條件二,等等。對于目標(biāo)語義段中的任意一個語義段,如果滿足上述條件一和上述條件二中的至少一個,則將所述該語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將該語義段與所述廣告模板庫的第一匹配度確定為低匹配度。對于將目標(biāo)語義段中的任意一個語義段與非廣告模板庫進(jìn)行比較,確定該語義段與非模板廣告庫的第二匹配度的方法,與上述確定第一匹配度的方法類似,只是其中使用到了不同的閾值,例如下述方法使用到的是第三相似閾值,第四相似閾值以及預(yù)設(shè)的第二比例,具體方法為:若所述任意一個語義段與所述非廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個語義段與所述非廣告模板庫中的任意一個語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個語義段與所述非廣告模板庫中的N個語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)。通過上述方法,使用到了兩個模板庫,廣告模板庫和非廣告模板庫,從而在對目標(biāo)語義段進(jìn)行判斷時,將確實(shí)是廣告信息的語義段加入到廣告模板庫中,而將那些只是多次出現(xiàn)的基本信息加入到非廣告模板庫,這么設(shè)計(jì)的好處在于,如果按照傳統(tǒng)的方法,一般只會設(shè)置一個廣告模板庫,而沒有非廣告模板庫,將會導(dǎo)致將多次出現(xiàn)的基本信息也會被加入到廣告模板庫中,這其實(shí)是一種錯誤。而使用本發(fā)明實(shí)施例中的方法,則會對目標(biāo)語義段進(jìn)行正確的劃分,不會造成誤判。此外,在上述步驟中,具體描述了如何確定一個目標(biāo)語義段是要加入廣告模板庫還是加入非廣告模板庫,還是都不加入。其中,主要使用到了匹配度的確定,具體地,包括將所述任意一個語義段與廣告模板庫進(jìn)行比較得到第一匹配度,以及將所述任意一個語義段與非廣告模板庫進(jìn)行比較,得到第二匹配度。本發(fā)明實(shí)施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,由此可以看出,本發(fā)明實(shí)施例可以實(shí)現(xiàn)自動地從大量的通知信息中找出目標(biāo)語義段,這些目標(biāo)語義段中包含疑似廣告信息,進(jìn)而根據(jù)目標(biāo)語義段,更新模板庫,因而本發(fā)明實(shí)施例在更新模板庫時可以實(shí)現(xiàn)自動化地更新模板庫,提高了模板庫的更新效率。另一方面,本發(fā)明實(shí)施例提供根據(jù)一種上述任一項(xiàng)所述的更新模板庫的方法的通知信息過濾方法,如圖2所示,包括:步驟201、根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將待處理通知信息劃分為至少一個語義段;步驟202、針對所述至少一個語義段中的任意一個語義段,確定所述任意一個語義段是否為廣告語義段;具體地,包括以下步驟:步驟2021、將所述任意一個語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述非廣告模板庫的第三匹配度;步驟2022、若所述第三匹配度為高匹配度,則確定所述任意一個語義段為非廣告語義段;步驟2023、若所述第三匹配度為低匹配度,則將所述任意一個語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述廣告模板庫的第四匹配度;步驟2024、若所述第四匹配度為高匹配度,則確定所述任意一個語義段為廣告語義段,否則,確定所述任意一個語義段為非廣告語義段。步驟203、若確定所述任意一個語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個語義段。上述過程,首先將待處理通知信息劃分為多個語義段,針對其中任意一個語義段,如果確定該語義段是廣告語義段,則將該語義段從通知信息中刪除;如果確定該語義段是非廣告語義段,則不刪除,即保留該語義段,從而最終可以將一個待處理通知信息中的廣告語義段過濾掉。此外,在上述實(shí)施例中,對于匹配度的具體確定方式,主要是依據(jù)廣告模板庫及非廣告模板庫中語義段的存儲方式,例如,一種存儲方式為,對語義段進(jìn)行分詞,存儲語義段對應(yīng)的分詞特征。舉例來說,假設(shè)一個目標(biāo)語義段為:如果在本月底消費(fèi)100元,將有機(jī)會抽取iphone6。則分詞后的分詞特征A為:如果,在,本月,底,消費(fèi),100,元,將有,機(jī)會,抽取,iphone6。假設(shè)廣告模板庫中已有一條語義段,其存儲的分詞特征B為:如果,您,在,本月,30,日,之前,消費(fèi),200,元,有,機(jī)會,抽取,大獎。那么,確定目標(biāo)語義段與廣告模板庫的第一匹配度的具體方式為:首先需要從A找到“如果”,然后從B中搜索是否有“如果”,如果存在,則表示第一個有相同的詞語,然后再看“您”在B中是否出現(xiàn),剩下類似,直到A中所有的詞語都判斷完畢,然后將A和B中同時出現(xiàn)的詞語的數(shù)量/A、B不重復(fù)出現(xiàn)的所有詞語的數(shù)量作為目標(biāo)語義段與廣告模板庫的相似度。上述過程可以實(shí)現(xiàn)確定一個目標(biāo)語義段與廣告模板庫的相似度,使用相同的方法,也可以確定一個目標(biāo)語義段與非廣告模板庫的相似度。但以上的處理過程由于只考慮了詞語的絕對相似性,沒考慮該詞在原來信息段中的位置和重要程度;并且從處理過程來看,該方法中模板庫中存儲的是分詞特征,將會占據(jù)較大的存儲空間,并且計(jì)算模板相似度的時間復(fù)雜度也比較高,而且匹配的準(zhǔn)確性卻不高,因而上述方法具有極大的改進(jìn)空間。下面給出一種語義段的轉(zhuǎn)換方法,具體地,通過該方法,可以計(jì)算每個語義段對應(yīng)的哈希值。因而基于這種轉(zhuǎn)換方法,在廣告模板庫中,存儲的每個廣告類語義段都是以哈希值的形式進(jìn)行存儲的,并且在對某個語義段與廣告模板庫進(jìn)行匹配時,也是首先將該語義段轉(zhuǎn)換為哈希值,然后與廣告模板庫進(jìn)行匹配。舉例來說,假設(shè)廣告模板中有某個廣告類語義段為:如果您在本月30日之前消費(fèi)200元,有機(jī)會抽取大獎,并且該廣告類語義段被轉(zhuǎn)換后,對應(yīng)的哈希值為:110110011110(假設(shè)每個語義段是以12位二進(jìn)制數(shù)來表示)。因而,按照上述方法,在廣告類模板庫中存儲的將是每個廣告類語義段對應(yīng)的哈希值,而不是廣告類語義段內(nèi)容本身,這種存儲方式,一方面比較節(jié)省空間;另一方面,在對廣告模板庫進(jìn)行更新時,是將待判斷的目標(biāo)語義段對應(yīng)的哈希值與廣告模板庫中存儲的哈希值進(jìn)行比較,效率將提高很多。上述只是以廣告模板庫為例進(jìn)行說明,對于非廣告模板庫,其處理方式與廣告模板庫相同,不再贅述。下面結(jié)合附圖進(jìn)行詳細(xì)說明。參照附圖3,為本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法,包括:步驟301、根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;步驟302、對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;步驟303、根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。在本發(fā)明實(shí)施例中,每個語義段使用一個包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值來表示,并且對一個語義段進(jìn)行分詞后得到的每個詞語,也使用一個具有相同預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值來表示。舉例來說,一個語義段使用12位的二進(jìn)制數(shù)值來表示,則該語義段中的每個詞語也使用12位的二進(jìn)制數(shù)值來表示。在上述步驟301中,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值,可選地,具體為:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;例如,如果一個通知信息中只包含一個語義段,則將該語義段對應(yīng)的權(quán)重值統(tǒng)一設(shè)置為1.5,或者是設(shè)置為2等等,具體視實(shí)際情況而定。若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大。例如,將一個語義段對應(yīng)的權(quán)重值用W1來說表示。一個通知信息中包含3個語義段,則可以依次將第1個語義段的權(quán)重設(shè)置為0.7,將第2個語義段的權(quán)重設(shè)置為0.8,將第3個語義段的權(quán)重設(shè)置為1,因而一般情況下,廣告類語義段一般是出現(xiàn)在一條通知信息中比較靠后的位置,因?yàn)橐粭l通知信息一般是在開始的位置給出正常的信息內(nèi)容,后面才會是加上廣告信息,因此根據(jù)通知信息的這個特點(diǎn),本發(fā)明在對語義段設(shè)置權(quán)重時,如果通知信息中包含多個語義段,則將靠后位置的語義段的權(quán)重值設(shè)置的要大于靠前位置的語義段的權(quán)重值。上述步驟302中,對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值,可選地,根據(jù)下列方式確定所述語義段中的每個詞語對應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對應(yīng)的第一權(quán)重值及對應(yīng)的第二權(quán)重值,確定詞語對應(yīng)的權(quán)重值。可選地,對所述語義段進(jìn)行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值之前,還包括:將所述語義段中的每個詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對應(yīng)的預(yù)設(shè)名詞。下面舉例說明。例如對于以下是三條語義段:①當(dāng)月交易滿100元送100積分。②3月30日前訪問www.ddd.com獲得最新打折機(jī)票信息,注冊就有獎。③立即回復(fù)hd即可享受充值滿100元送400M流量包優(yōu)惠。分詞結(jié)構(gòu)如下:①當(dāng)月|交易|滿|A|元|送|A|積分|。②D|前|訪問|U|獲得|最新|打折|機(jī)票|信息|,|注冊|就|有獎|。③立即回復(fù)|hd|即可|享受|充值|滿|A|元|送|A|M|流量包|優(yōu)惠|。首先,對待分析語義段進(jìn)行分詞,并且對于日期、金額、網(wǎng)頁類等專有名詞,都轉(zhuǎn)化成統(tǒng)一的類型詞。例如,將上述①中的100轉(zhuǎn)成了A,②中的日期轉(zhuǎn)成了D,②中的具體url轉(zhuǎn)成了U等等。這樣做的目的是盡可能和廣告模板庫和非廣告模板進(jìn)行匹配,而且可以排除變化特征的影響。例如,經(jīng)過上面處理后,以下2個模板在對比中是一模一樣的:①當(dāng)月交易滿100元送100積分。②當(dāng)月交易滿200元送150積分。分詞后將每個詞語設(shè)定不同的權(quán)重系數(shù),權(quán)重的設(shè)定和該詞在語義段出現(xiàn)的位置和業(yè)務(wù)屬性、該詞與廣告屬性的相關(guān)度相關(guān)。具體地,可以根據(jù)詞語的業(yè)務(wù)屬性及詞語在語義段中的位置,確定詞語對應(yīng)的第一權(quán)重值W2;例如對于業(yè)務(wù)相關(guān)詞語,如果出現(xiàn)語義段開頭,那么其表示業(yè)務(wù)含義的可能性較高;如果出現(xiàn)在語義段中后部,那么則更可能為廣告中的附帶信息。因而一個業(yè)務(wù)類詞語,如果出現(xiàn)在語義段的中后部,則相應(yīng)的權(quán)重W2將會設(shè)置的要高一些。根據(jù)詞語與廣告屬性詞庫的匹配度,確定詞語對應(yīng)的第二權(quán)重值W3。W3的含義則表示該字符與廣告屬性的接近程度,例如③中的“立即回復(fù)”一般為廣告中出現(xiàn)的特有特征詞語,所以它的權(quán)重值相對較高。上述步驟303中,根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值??蛇x地,根據(jù)下列方式來確定語義段對應(yīng)的哈希值:針對所述語義段中的任意一個詞語,將所述詞語對應(yīng)的哈希值中的0替換為-1,得到所述詞語對應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述詞語對應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對應(yīng)的第二目標(biāo)值;將所述語義段中每個詞語對應(yīng)的第二目標(biāo)值在對應(yīng)的位上相加,得到所述語義段對應(yīng)的目標(biāo)值;針對所述語義段對應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對應(yīng)的數(shù)值大于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對應(yīng)的數(shù)值小于或等于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。下面結(jié)合具體的例子進(jìn)行說明。以“D|前|訪問|U|獲得|最新|打折|機(jī)票|信息|,|注冊|就|有獎|?!睘槔?,假設(shè)該語義段對應(yīng)的權(quán)重值為W1,每個詞語對應(yīng)一個第一權(quán)重值W2和一個第二權(quán)重值W3,即每個詞語對應(yīng)的W2和W3相互之間是沒有聯(lián)系的。并且,為下面說明方便,假設(shè)每次詞語及一個語義段用5位來表示,實(shí)際應(yīng)用中一般是大于128位。具體計(jì)算過程如下:(1)、計(jì)算語義段對應(yīng)的權(quán)重值W1;(2)、計(jì)算每個詞語的哈希值,例如:“D”計(jì)算的值為10001“前”計(jì)算的值為01100…..“有獎”計(jì)算的值為00110(3)、將每個詞語對應(yīng)的哈希值中的1設(shè)為1,0設(shè)為-1,乘以自己的W1,W2,W3,則有:“D”計(jì)算的值為5-5-5-55(假設(shè)W1*W2*W3=5)“前”計(jì)算的值為-444-4-4(假設(shè)W1*W2*W3=4)……“有獎”計(jì)算的值為-9-999-9(假設(shè)W1*W2*W3=9)(4)、將該語義段的所有詞語的每位數(shù)值相加,并將>0的結(jié)果設(shè)為1,<=0的結(jié)果設(shè)置為0。假設(shè)該語義段的最終計(jì)算值為89-3-41,則該語義段對應(yīng)的哈希值為11001。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。從而在廣告模板庫中存儲的均為語義段對應(yīng)的哈希值,比較節(jié)約空間;以及在對通知信息進(jìn)行廣告過濾時,將通知信息中語義段對應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高。下面結(jié)合圖2所示的通知信息過濾方法和圖3所示的語義段的轉(zhuǎn)換方法,舉例說明本發(fā)明實(shí)施例的通知信息過濾的具體方法:假設(shè)廣告模板庫,其中存儲了廣告語義段的哈希值(每個哈希值例如使用10位二進(jìn)制數(shù)來表示,當(dāng)然,這里只是為方便舉例說明,實(shí)際應(yīng)用中,一般需要大于128位),例如廣告模板庫當(dāng)前包含5個哈希值,分別為:1101101110,1010111000,1111100000,1110000001,1100110011。假設(shè)非廣告模板庫,其中存儲了非廣告語義段的哈希值,每個哈希值也使用10位二進(jìn)制數(shù)來表示,例如非廣告模板庫當(dāng)前包含4個哈希值,分別為:0000111100,0000011111,0001110011,1000000001。假設(shè)當(dāng)前有一個待處理通知信息,首先根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將該待處理通知信息劃分為多個語義段,例如劃分為了2個語義段,然后根據(jù)上述圖3所示的語義段轉(zhuǎn)換方法,將每個語義段轉(zhuǎn)換為10位的二進(jìn)制哈希值,例如分別被轉(zhuǎn)換為:1101101111,0000011110。然后針對這兩個語義段中的任意一個,通過下列方法判斷是否需要過濾該語義段,例如以1101101111為例進(jìn)行說明:步驟A、將1101101111與非廣告模板庫進(jìn)行比較,確定第三匹配度(其方法與更新模板庫時確定目標(biāo)語義段與非廣告模板庫的匹配度的方法相同,即確定是否滿足兩個條件中的一個,若是則確定為高匹配度,否則確定為低匹配度,這里不重復(fù)說明,可參照上面的描述),假設(shè)第五相似閾值為90%,第六相似閾值為80%,則計(jì)算過程具體包括:首先依次確定1101101111與非廣告模板庫中的語義段對應(yīng)的哈希值之間的相似度(即在相同位上具有形同數(shù)值的個數(shù)),直至找到一個相似度大于或等于90%的哈希值或均小于90%為止。通過計(jì)算得到:1101101111與0000111100的相似度為30%,(1101101111與0000111100在3個位上具有相同的數(shù)值,因此相似度為3/10=30%);1101101111與0000011111的相似度為40%;1101101111與0001110011的相似度為40%;1101101111與1000000001的相似度為40%。由此可知,1101101111與非廣告模板庫不滿足條件一,即1101101111與非廣告模板庫中的任意一個語義段的相似度大于或等于90%;并且1101101111與非廣告模板庫中的語義段大于80%且小于90%的個數(shù)為0,假設(shè)條件二下要求預(yù)設(shè)比例為80%,則1101101111與非廣告模板庫不滿足條件二。因此最終,確定1101101111與非廣告模板庫的第三匹配度為低匹配度。步驟B、將1101101111與廣告模板庫進(jìn)行比較,確定第四匹配度(其方法與更新模板庫時確定目標(biāo)語義段與非廣告模板庫的匹配度的方法相同,即確定是否滿足兩個條件中的一個,若是則確定為高匹配度,否則確定為低匹配度,這里不重復(fù)說明,可參照上面的描述),假設(shè)第七相似閾值為90%,第八相似閾值為80%,則計(jì)算過程與上述步驟A中計(jì)算1101101111與非廣告模板庫的過程類似,這里不再贅述,最終結(jié)果為:1101101111與1101101110的相似度為90%。由于直接在廣告模板庫中找到了一個與1101101111的相似度大于或等于90%的語義段對應(yīng)的哈希值,因此可以直接確定1101101111與廣告模板庫的第四匹配度為高匹配度。步驟C、從待處理通知信息中刪除1101101111對應(yīng)的語義段。即從待處理通知信息中刪除1101101111對應(yīng)的語義段。此外,對于待處理通知信息中的另一個語義段對應(yīng)的哈希值0000011110,其由于與非廣告模板庫的第三匹配度為高匹配度,因此不對其進(jìn)行刪除,而是保留。這里不對其計(jì)算過程進(jìn)行贅述。下面對本發(fā)明實(shí)施例提供的一種更新模板庫的方法做詳細(xì)描述,如圖4所示,包括:步驟401、根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;可選地,根據(jù)通知信息對應(yīng)的應(yīng)用名稱、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應(yīng)的應(yīng)用名稱、渠道,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應(yīng)的應(yīng)用名稱、渠道、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。步驟402、針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段;可選地,針對劃分得到的所有語義段中的任意一個語義段,若所述任意一個語義段滿足下列條件中的至少一個,則確定所述任意一個語義段為目標(biāo)語義段,否則,確定所述任意一個語義段不為目標(biāo)語義段:條件一:所述任意一個語義段的權(quán)重大于或等于第一閾值,所述任意一個語義段的權(quán)重為所述任意一個語義段在所述任意一個數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個數(shù)據(jù)集對應(yīng)的通知信息的數(shù)量的比值;條件二:所述任意一個語義段屬于目標(biāo)集合,所述目標(biāo)集合由所述至少一個數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預(yù)設(shè)比例的語義段構(gòu)成。步驟403、所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲廣告類語義段,所述非廣告模板庫用于存儲非廣告類語義段;針對所述目標(biāo)語義段中的任意一個語義段,將所述任意一個語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫??蛇x地,若所述任意一個語義段與所述廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為低匹配度:條件一:所述任意一個語義段與所述廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個語義段與所述廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例,M為正整數(shù);可選地,若所述任意一個語義段與所述非廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個語義段與所述非廣告模板庫中的任意一個語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個語義段與所述非廣告模板庫中的N個語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例,N為正整數(shù)??蛇x地,若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個語義段加入所述非廣告模板庫。本發(fā)明實(shí)施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,由此可以看出,本發(fā)明實(shí)施例可以實(shí)現(xiàn)自動地從大量的通知信息中找出目標(biāo)語義段,這些目標(biāo)語義段中包含疑似廣告信息,進(jìn)而根據(jù)目標(biāo)語義段,更新模板庫,因而本發(fā)明實(shí)施例在更新模板庫時可以實(shí)現(xiàn)自動化地更新模板庫,提高了模板庫的更新效率。下面對本發(fā)明實(shí)施例提供的一種語義段的轉(zhuǎn)換方法做詳細(xì)描述,如圖5所示,包括:步驟501、根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;具體為,若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大。步驟502、將所述語義段中的每個詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對應(yīng)的預(yù)設(shè)名詞;步驟503、確定所述語義段中的每個詞語對應(yīng)的權(quán)重值;具體為,根據(jù)下列方式確定所述語義段中的每個詞語對應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對應(yīng)的第一權(quán)重值及對應(yīng)的第二權(quán)重值,確定詞語對應(yīng)的權(quán)重值。步驟504、根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。具體為,所述每個語義段中的每個詞語對應(yīng)的哈希值為包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值;針對所述語義段中的任意一個詞語,將所述詞語對應(yīng)的哈希值中的0替換為-1,得到所述詞語對應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述詞語對應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對應(yīng)的第二目標(biāo)值;將所述語義段中每個詞語對應(yīng)的第二目標(biāo)值在對應(yīng)的位上相加,得到所述語義段對應(yīng)的目標(biāo)值;針對所述語義段對應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對應(yīng)的數(shù)值大于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對應(yīng)的數(shù)值小于或等于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。從而在廣告模板庫中存儲的均為語義段對應(yīng)的哈希值,比較節(jié)約空間;以及在對通知信息進(jìn)行廣告過濾時,將通知信息中語義段對應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高?;谙嗤募夹g(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種更新模板庫的裝置,如圖6所示,包括:數(shù)據(jù)集劃分單元601,用于根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;目標(biāo)語義段選取單元602,用于針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段;更新單元603,用于根據(jù)所述目標(biāo)語義段,更新模板庫,所述模板庫用于存儲滿足預(yù)設(shè)條件的語義段。可選地,所述數(shù)據(jù)集劃分單元601,具體用于:根據(jù)通知信息對應(yīng)的應(yīng)用名稱、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應(yīng)的應(yīng)用名稱、渠道,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應(yīng)的應(yīng)用名稱、渠道、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。可選地,所述目標(biāo)語義段選取單元602,具體用于:針對劃分得到的所有語義段中的任意一個語義段,若所述任意一個語義段滿足下列條件中的至少一個,則確定所述任意一個語義段為目標(biāo)語義段,否則,確定所述任意一個語義段不為目標(biāo)語義段:條件一:所述任意一個語義段的權(quán)重大于或等于第一閾值,所述任意一個語義段的權(quán)重為所述任意一個語義段在所述任意一個數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個數(shù)據(jù)集對應(yīng)的通知信息的數(shù)量的比值;條件二:所述任意一個語義段屬于目標(biāo)集合,所述目標(biāo)集合由所述至少一個數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預(yù)設(shè)比例的語義段構(gòu)成。可選地,所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲廣告類語義段,所述非廣告模板庫用于存儲非廣告類語義段;所述更新單元603,具體用于:針對所述目標(biāo)語義段中的任意一個語義段,將所述任意一個語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫。可選地,所述更新單元603,具體用于:若所述任意一個語義段與所述廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為低匹配度:條件一:所述任意一個語義段與所述廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個語義段與所述廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第一比例;將所述任意一個語義段與非廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度,包括:若所述任意一個語義段與所述非廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個語義段與所述非廣告模板庫中的任意一個語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個語義段與所述非廣告模板庫中的N個語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預(yù)設(shè)的第二比例??蛇x地,所述更新單元603,具體用于:若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個語義段加入所述非廣告模板庫。可選地,所述預(yù)設(shè)的劃分標(biāo)識符為句號、問號以及感嘆號。本發(fā)明實(shí)施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并選取出現(xiàn)次數(shù)滿足預(yù)設(shè)條件的語義段作為目標(biāo)語義段,由此可以看出,本發(fā)明實(shí)施例可以實(shí)現(xiàn)自動地從大量的通知信息中找出目標(biāo)語義段,這些目標(biāo)語義段中包含疑似廣告信息,進(jìn)而根據(jù)目標(biāo)語義段,更新模板庫,因而本發(fā)明實(shí)施例在更新模板庫時可以實(shí)現(xiàn)自動化地更新模板庫,提高了模板庫的更新效率。基于相同的技術(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種通知信息過濾裝置,如圖7所示,包括:語義段劃分單元701,用于根據(jù)預(yù)設(shè)的劃分標(biāo)識符,將待處理通知信息劃分為至少一個語義段;過濾單元702,用于針對所述至少一個語義段中的任意一個語義段,若確定所述任意一個語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個語義段;廣告語義段確定單元703,用于通過下述過程確定所述任意一個語義段是否為廣告語義段:將所述任意一個語義段與所述非廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述非廣告模板庫的第三匹配度;若所述第三匹配度為高匹配度,則確定所述任意一個語義段為非廣告語義段;若所述第三匹配度為低匹配度,則將所述任意一個語義段與所述廣告模板庫進(jìn)行比較,確定所述任意一個語義段與所述廣告模板庫的第四匹配度;若所述第四匹配度為高匹配度,則確定所述任意一個語義段為廣告語義段,否則,確定所述任意一個語義段為非廣告語義段?;谙嗤募夹g(shù)構(gòu)思,本發(fā)明實(shí)施例還提供一種語義段的轉(zhuǎn)換裝置,如圖8所示,包括:語義段權(quán)重值確定單元801,用于根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;詞語權(quán)重值確定單元802,用于對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;哈希值確定單元803,用于根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值??蛇x地,所述每個語義段中的每個詞語對應(yīng)的哈希值為包含預(yù)設(shè)位數(shù)的二進(jìn)制數(shù)值;所述哈希值確定單元803,具體用于:針對所述語義段中的任意一個詞語,將所述詞語對應(yīng)的哈希值中的0替換為-1,得到所述詞語對應(yīng)的第一目標(biāo)值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述詞語對應(yīng)的權(quán)重值及所述第一目標(biāo)值,得到所述詞語對應(yīng)的第二目標(biāo)值;將所述語義段中每個詞語對應(yīng)的第二目標(biāo)值在對應(yīng)的位上相加,得到所述語義段對應(yīng)的目標(biāo)值;針對所述語義段對應(yīng)的目標(biāo)值中的任意一位,若所述任意一位對應(yīng)的數(shù)值大于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為1;若所述任意一位對應(yīng)的數(shù)值小于或等于0,則將所述語義段對應(yīng)的哈希值在所述任意一位的數(shù)值設(shè)置為0。可選地,所述語義段權(quán)重值確定裝置801,具體用于:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應(yīng)的權(quán)重設(shè)置為第一預(yù)設(shè)權(quán)重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應(yīng)的權(quán)重值按照所述語義段在所述通知信息中的位置進(jìn)行設(shè)置,其中,距離所述通知信息的首部越遠(yuǎn)的語義段的權(quán)重值越大??蛇x地,所述詞語權(quán)重值確定單元802,具體用于根據(jù)下列方式確定所述語義段中的每個詞語對應(yīng)的權(quán)重值:根據(jù)所述詞語的業(yè)務(wù)屬性及所述詞語在所述語義段中的位置,確定所述詞語對應(yīng)的第一權(quán)重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應(yīng)的第二權(quán)重值;根據(jù)確定的所述詞語對應(yīng)的第一權(quán)重值及對應(yīng)的第二權(quán)重值,確定詞語對應(yīng)的權(quán)重值??蛇x地,所述詞語權(quán)重值確定單元802,還用于:對所述語義段進(jìn)行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值之前,將所述語義段中的每個詞語與專有名詞庫進(jìn)行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉(zhuǎn)換為與所述詞語的屬性對應(yīng)的預(yù)設(shè)名詞。本發(fā)明實(shí)施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設(shè)置對應(yīng)的權(quán)重值;對所述語義段進(jìn)行分詞得到多個詞語,并為所述多個詞語中的每個詞語設(shè)置對應(yīng)的權(quán)重值;根據(jù)所述語義段對應(yīng)的權(quán)重值、所述語義段中的每個詞語對應(yīng)的權(quán)重值以及所述語義段中的每個詞語對應(yīng)的哈希值,為所述語義段確定對應(yīng)的哈希值。從而在廣告模板庫中存儲的均為語義段對應(yīng)的哈希值,比較節(jié)約空間;以及在對通知信息進(jìn)行廣告過濾時,將通知信息中語義段對應(yīng)的哈希值與廣告模板庫中的哈希值進(jìn)行比較,效率比較高。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1