亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于語義分析的智能媒介推薦方法與流程

文檔序號:11386705閱讀:266來源:國知局

本發(fā)明涉及廣告領(lǐng)域,特別涉及一種基于語義分析的智能媒介推薦方法。



背景技術(shù):

數(shù)字營銷市場發(fā)生了巨變,程序化購買飛速發(fā)展,在這樣的環(huán)境下,實(shí)現(xiàn)廣告的精準(zhǔn)投放成為越來越多品牌主的首要需求。在穩(wěn)中求進(jìn)的經(jīng)濟(jì)環(huán)境下,廣告投放必然更需要深思熟慮,力求達(dá)到更高的投入產(chǎn)出比。

例如權(quán)威數(shù)據(jù)營銷技術(shù)公司admaster推出的《2017年數(shù)字營銷趨勢報告》,為廣告主和市場從業(yè)人員提供了投放建議。在該報告中,2017年數(shù)字營銷花費(fèi)預(yù)計平均增長17%,投放進(jìn)一步傾斜移動端:根據(jù)admaster數(shù)據(jù)顯示,80%以上的廣告主表示將在2017年繼續(xù)增加數(shù)字營銷領(lǐng)域的預(yù)算,平均預(yù)算的增長量為17%,其中預(yù)算增長量預(yù)計達(dá)到10%以上的品牌達(dá)59%,發(fā)展態(tài)勢積極,僅有3%的廣告主表示將縮減預(yù)算。在營銷預(yù)算分配上,廣告主一致同意向移動端傾斜將是2017年的一大趨勢,87%的廣告主表示明年將進(jìn)一步增加移動營銷預(yù)算。相反,pc端的投放趨勢則逐年走低,約六成品牌主選擇減少投放甚至不投放。

目前媒介環(huán)境越來越碎片化,消費(fèi)者可選擇的平臺、消費(fèi)行為都越來越多元化。品牌主在投放廣告時,需要通過不同渠道、終端、區(qū)域和平臺之間進(jìn)行組合,以此實(shí)現(xiàn)投放收益最大化。

而無論是投放在移動端還是pc端,常常都會采用以下兩種方法之一:

(1)人工選號。平臺明碼實(shí)價的標(biāo)明媒體號的價格,提供媒體號的相關(guān)信息,如粉絲數(shù)、閱讀數(shù)、媒體類別、價格等信息,任廣告主自主在平臺進(jìn)行挑選。

(2)公開競價。廣告主將投放的廣告素材、關(guān)鍵詞、投放時間、投放價格等公開放在廣告平臺上,由媒體號來競標(biāo)。

對于人工選號,盡管廣告平臺提供了專業(yè)運(yùn)營人員輔助選號,但由于媒體號眾多,分布較散,往往很多廣告主都無法挑選到合適的媒體號;對于公開競價,需要媒體號主動競標(biāo),效率不高。

同時社媒廣告平臺提供在微信公眾號、微博大v等社交媒體賬號上進(jìn)行廣告投放的服務(wù)。在社媒平臺投放廣告中重要的步驟是選擇合適的賬號(選號)作為投放媒體。目前市場上絕大多數(shù)平臺都是明碼實(shí)價的標(biāo)明媒體號的價格,提供媒體號的相關(guān)信息,如粉絲數(shù)、閱讀數(shù)、媒體類別、價格等信息,任廣告主自主在平臺進(jìn)行挑選,盡管廣告平臺提供了人工輔助選號的功能,但往往很多廣告主都無法挑選到合適的媒體號。

因此有必要提供一種新的媒介推薦方法來解決上述問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于語義分析的智能媒介推薦方法,其根據(jù)廣告主的關(guān)鍵詞和預(yù)算,利用語義分析技術(shù)自動篩選出適合投放的媒體號,精準(zhǔn)觸達(dá)用戶群。

本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):

一種基于語義分析的智能媒介推薦方法,包含以下步驟:

s1、抓取媒體號的文章內(nèi)容并進(jìn)行預(yù)處理;所述預(yù)處理是對每個媒體號,利用自然語言處理工具將其每篇文章分句、分詞,最終將這個媒體號的所有文章合并成一個大文章,文章中的每句是分完詞的句子;

s2、使用gensim工具訓(xùn)練詞向量模型;

采用基于negativesampling的cbow模型訓(xùn)練詞向量,給定語料庫c,詞w的上下文是context(w),詞為正樣本,其他詞則為負(fù)樣本;負(fù)樣本子集neg(w)包含若干負(fù)樣本,對于(即對于任意屬于語料庫c的詞),定義損失函數(shù):

整體的目標(biāo)函數(shù)obj定義為:

其中σ(·)為sigmoid函數(shù),t為轉(zhuǎn)置運(yùn)算符號,xw表示context(w)中各詞的詞向量之和,即其中表示詞的詞向量;θu表示詞u對應(yīng)的一個輔助向量,為待訓(xùn)練參數(shù);詞向量和輔助向量都是長度為9的實(shí)數(shù)向量;利用梯度上升方法對上述目標(biāo)函數(shù)進(jìn)行優(yōu)化,從而訓(xùn)練出語料庫中每個詞的詞向量;

s3、計算每個詞的逆文檔頻率idf,對于詞w來說,

其中n代表媒體號的總數(shù),n(w)表示文章內(nèi)容中含有詞w的媒體號總數(shù);

s4、計算媒體號語義向量:對于媒體號mj,利用tf-idf模型對其詞向量加權(quán),得到媒體號的語義向量sj;計算方法如下:

其中vw為詞w的詞向量,count(w,mj)代表詞w在媒體號mj的文章中出現(xiàn)的次數(shù),|mj|表示媒體號mj文章的總詞數(shù);

s5、媒體號初篩:通過人工設(shè)定的篩選條件,初篩出一批待挑選的媒體號;

s6、計算關(guān)鍵詞列表語義向量:對于長度為k的廣告關(guān)鍵詞列表l=[w1,w2,…,wk],其語義向量a計算方式為:

其中vw是詞w的詞向量;

s7、計算關(guān)鍵詞列表語義向量a與初篩之后的媒體號語義向量s的相似度:

其中a·s表示兩個向量的內(nèi)積,為向量a的l2范數(shù),為向量s的l2范數(shù);

s8、基于語義的媒體號細(xì)篩選:綜合步驟s7算出的相似度以及設(shè)定的篩選條件,利用預(yù)先設(shè)定的每個篩選條件的權(quán)重,算出最終的媒體匹配值,從高到低取前k個形成待選媒體號列表。

步驟s1中,所述媒體號的文章內(nèi)容是通過網(wǎng)絡(luò)爬蟲和官方api爬取的。

所述步驟s1、s2、s3、s4是離線計算,定期更新即可;所述步驟s5、s6、s7、s8是在線計算,對每個新的廣告推廣實(shí)時自動推薦出待選媒體號列表。

步驟s5、s8中,所述篩選條件包括媒體號價位、檔期、廣告類別。

步驟s1中,所述自然語言處理工具包括opennlp、ltp。

本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:

將本發(fā)明應(yīng)用在微信公眾號投放的選號上,測試了5個廣告。首先人工為每個廣告選擇了10個待選的公眾號,然后應(yīng)用該技術(shù)為每個廣告自動選出前20個公眾號。對比結(jié)果發(fā)現(xiàn),人工選出的公眾號80%被自動選出的前20個公眾號覆蓋,證明了該技術(shù)的有效性。

相比人工選號,本發(fā)明在5秒之內(nèi)即可提供前20個待選公眾號,速度大幅提升。

附圖說明

圖1為本發(fā)明所述一種基于語義分析的智能媒介推薦方法的流程圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。

如圖1,一種基于語義分析的智能媒介推薦方法的流程圖,包含以下順序的步驟:

(1)利用網(wǎng)絡(luò)爬蟲爬取微信10萬個媒體號發(fā)布的文章內(nèi)容。

(2)對每個媒體號,利用ltp-cloud工具包將其每篇文章分段、分句、分詞。最終將這個媒體號的所有文章合并成一個大文章,文章中的每句是分完詞的句子。

(3)使用gensim工具訓(xùn)練詞向量模型,選取隱藏層大小為100,詞的上下文窗口為5,負(fù)例樣本數(shù)為5。

(4)計算每個詞的逆文檔頻率(idf),將上一步的詞向量模型以及此步的idf模型保存。

(5)計算媒體號文章語義向量。

(6)媒體號初篩。通過對媒體號價位、檔期、廣告類別等條件的選擇,初篩出前50個待挑選的媒體號。

(7)計算關(guān)鍵詞列表語義向量,與前50個媒體號的文章語義向量計算余弦相似度。

(8)給語義相似度、媒體號價位匹配度、檔期匹配度設(shè)定權(quán)重,分別是0.6,0.2,0.2,算出最終的加權(quán)媒體匹配值,從高到低取前20個形成待選媒體號列表。

上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1