本發(fā)明涉及廣告領(lǐng)域,特別涉及一種基于語義分析的智能媒介推薦方法。
背景技術(shù):
數(shù)字營銷市場發(fā)生了巨變,程序化購買飛速發(fā)展,在這樣的環(huán)境下,實(shí)現(xiàn)廣告的精準(zhǔn)投放成為越來越多品牌主的首要需求。在穩(wěn)中求進(jìn)的經(jīng)濟(jì)環(huán)境下,廣告投放必然更需要深思熟慮,力求達(dá)到更高的投入產(chǎn)出比。
例如權(quán)威數(shù)據(jù)營銷技術(shù)公司admaster推出的《2017年數(shù)字營銷趨勢報告》,為廣告主和市場從業(yè)人員提供了投放建議。在該報告中,2017年數(shù)字營銷花費(fèi)預(yù)計平均增長17%,投放進(jìn)一步傾斜移動端:根據(jù)admaster數(shù)據(jù)顯示,80%以上的廣告主表示將在2017年繼續(xù)增加數(shù)字營銷領(lǐng)域的預(yù)算,平均預(yù)算的增長量為17%,其中預(yù)算增長量預(yù)計達(dá)到10%以上的品牌達(dá)59%,發(fā)展態(tài)勢積極,僅有3%的廣告主表示將縮減預(yù)算。在營銷預(yù)算分配上,廣告主一致同意向移動端傾斜將是2017年的一大趨勢,87%的廣告主表示明年將進(jìn)一步增加移動營銷預(yù)算。相反,pc端的投放趨勢則逐年走低,約六成品牌主選擇減少投放甚至不投放。
目前媒介環(huán)境越來越碎片化,消費(fèi)者可選擇的平臺、消費(fèi)行為都越來越多元化。品牌主在投放廣告時,需要通過不同渠道、終端、區(qū)域和平臺之間進(jìn)行組合,以此實(shí)現(xiàn)投放收益最大化。
而無論是投放在移動端還是pc端,常常都會采用以下兩種方法之一:
(1)人工選號。平臺明碼實(shí)價的標(biāo)明媒體號的價格,提供媒體號的相關(guān)信息,如粉絲數(shù)、閱讀數(shù)、媒體類別、價格等信息,任廣告主自主在平臺進(jìn)行挑選。
(2)公開競價。廣告主將投放的廣告素材、關(guān)鍵詞、投放時間、投放價格等公開放在廣告平臺上,由媒體號來競標(biāo)。
對于人工選號,盡管廣告平臺提供了專業(yè)運(yùn)營人員輔助選號,但由于媒體號眾多,分布較散,往往很多廣告主都無法挑選到合適的媒體號;對于公開競價,需要媒體號主動競標(biāo),效率不高。
同時社媒廣告平臺提供在微信公眾號、微博大v等社交媒體賬號上進(jìn)行廣告投放的服務(wù)。在社媒平臺投放廣告中重要的步驟是選擇合適的賬號(選號)作為投放媒體。目前市場上絕大多數(shù)平臺都是明碼實(shí)價的標(biāo)明媒體號的價格,提供媒體號的相關(guān)信息,如粉絲數(shù)、閱讀數(shù)、媒體類別、價格等信息,任廣告主自主在平臺進(jìn)行挑選,盡管廣告平臺提供了人工輔助選號的功能,但往往很多廣告主都無法挑選到合適的媒體號。
因此有必要提供一種新的媒介推薦方法來解決上述問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于語義分析的智能媒介推薦方法,其根據(jù)廣告主的關(guān)鍵詞和預(yù)算,利用語義分析技術(shù)自動篩選出適合投放的媒體號,精準(zhǔn)觸達(dá)用戶群。
本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):
一種基于語義分析的智能媒介推薦方法,包含以下步驟:
s1、抓取媒體號的文章內(nèi)容并進(jìn)行預(yù)處理;所述預(yù)處理是對每個媒體號,利用自然語言處理工具將其每篇文章分句、分詞,最終將這個媒體號的所有文章合并成一個大文章,文章中的每句是分完詞的句子;
s2、使用gensim工具訓(xùn)練詞向量模型;
采用基于negativesampling的cbow模型訓(xùn)練詞向量,給定語料庫c,詞w的上下文是context(w),詞為正樣本,其他詞則為負(fù)樣本;負(fù)樣本子集neg(w)包含若干負(fù)樣本,對于
整體的目標(biāo)函數(shù)obj定義為:
其中σ(·)為sigmoid函數(shù),t為轉(zhuǎn)置運(yùn)算符號,
s3、計算每個詞的逆文檔頻率idf,對于詞w來說,
其中n代表媒體號的總數(shù),n(w)表示文章內(nèi)容中含有詞w的媒體號總數(shù);
s4、計算媒體號語義向量:對于媒體號mj,利用tf-idf模型對其詞向量加權(quán),得到媒體號的語義向量sj;計算方法如下:
其中vw為詞w的詞向量,
s5、媒體號初篩:通過人工設(shè)定的篩選條件,初篩出一批待挑選的媒體號;
s6、計算關(guān)鍵詞列表語義向量:對于長度為k的廣告關(guān)鍵詞列表l=[w1,w2,…,wk],其語義向量a計算方式為:
其中vw是詞w的詞向量;
s7、計算關(guān)鍵詞列表語義向量a與初篩之后的媒體號語義向量s的相似度:
其中a·s表示兩個向量的內(nèi)積,
s8、基于語義的媒體號細(xì)篩選:綜合步驟s7算出的相似度以及設(shè)定的篩選條件,利用預(yù)先設(shè)定的每個篩選條件的權(quán)重,算出最終的媒體匹配值,從高到低取前k個形成待選媒體號列表。
步驟s1中,所述媒體號的文章內(nèi)容是通過網(wǎng)絡(luò)爬蟲和官方api爬取的。
所述步驟s1、s2、s3、s4是離線計算,定期更新即可;所述步驟s5、s6、s7、s8是在線計算,對每個新的廣告推廣實(shí)時自動推薦出待選媒體號列表。
步驟s5、s8中,所述篩選條件包括媒體號價位、檔期、廣告類別。
步驟s1中,所述自然語言處理工具包括opennlp、ltp。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
將本發(fā)明應(yīng)用在微信公眾號投放的選號上,測試了5個廣告。首先人工為每個廣告選擇了10個待選的公眾號,然后應(yīng)用該技術(shù)為每個廣告自動選出前20個公眾號。對比結(jié)果發(fā)現(xiàn),人工選出的公眾號80%被自動選出的前20個公眾號覆蓋,證明了該技術(shù)的有效性。
相比人工選號,本發(fā)明在5秒之內(nèi)即可提供前20個待選公眾號,速度大幅提升。
附圖說明
圖1為本發(fā)明所述一種基于語義分析的智能媒介推薦方法的流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
如圖1,一種基于語義分析的智能媒介推薦方法的流程圖,包含以下順序的步驟:
(1)利用網(wǎng)絡(luò)爬蟲爬取微信10萬個媒體號發(fā)布的文章內(nèi)容。
(2)對每個媒體號,利用ltp-cloud工具包將其每篇文章分段、分句、分詞。最終將這個媒體號的所有文章合并成一個大文章,文章中的每句是分完詞的句子。
(3)使用gensim工具訓(xùn)練詞向量模型,選取隱藏層大小為100,詞的上下文窗口為5,負(fù)例樣本數(shù)為5。
(4)計算每個詞的逆文檔頻率(idf),將上一步的詞向量模型以及此步的idf模型保存。
(5)計算媒體號文章語義向量。
(6)媒體號初篩。通過對媒體號價位、檔期、廣告類別等條件的選擇,初篩出前50個待挑選的媒體號。
(7)計算關(guān)鍵詞列表語義向量,與前50個媒體號的文章語義向量計算余弦相似度。
(8)給語義相似度、媒體號價位匹配度、檔期匹配度設(shè)定權(quán)重,分別是0.6,0.2,0.2,算出最終的加權(quán)媒體匹配值,從高到低取前20個形成待選媒體號列表。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。