亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置制造方法

文檔序號(hào):6524277閱讀:250來源:國知局
一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置,所述方法包括:將待處理的各文本信息順序排列,且拆分為單字;根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;從合并的各字符串中提取核心關(guān)鍵詞。通過本發(fā)明公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置,可以解決確定關(guān)鍵詞的正確率低,且確定關(guān)鍵詞的成本高問題,實(shí)現(xiàn)提高確定關(guān)鍵詞的正確率,且降低確定關(guān)鍵詞的成本的技術(shù)效果。
【專利說明】一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及計(jì)算機(jī)數(shù)據(jù)處理技術(shù),尤其涉及一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置。
【背景技術(shù)】
[0002]付費(fèi)搜索廣告是目前互聯(lián)網(wǎng)上最重要的廣告投放方式。若將所有企業(yè)在互聯(lián)網(wǎng)上的廣告預(yù)算記作100%,則付費(fèi)搜索廣告方面投入占據(jù)50%以上的份額。在國內(nèi),主要的投放平臺(tái)例如有百度推廣平臺(tái)等。
[0003]付費(fèi)搜索廣告的實(shí)現(xiàn)機(jī)制是由廣告投放者確定待投放的關(guān)鍵詞,以及關(guān)鍵詞對(duì)應(yīng)的創(chuàng)意推薦信息和鏈接廣告網(wǎng)頁等。廣告投放者從付費(fèi)搜索廣告服務(wù)商處購買待投放的關(guān)鍵詞,當(dāng)瀏覽用戶輸入檢索式時(shí),就會(huì)通過與關(guān)鍵詞匹配而搜索到相應(yīng)的創(chuàng)意推薦信息和鏈接廣告網(wǎng)頁,供用戶瀏覽和點(diǎn)擊。搜索引擎系統(tǒng)會(huì)記錄展現(xiàn)量、點(diǎn)擊量等數(shù)據(jù),用于按照設(shè)定規(guī)則進(jìn)行計(jì)費(fèi)。
[0004]基于上述機(jī)制,對(duì)于廣告投放者而言,一個(gè)成功的付費(fèi)搜索廣告需要完成以下幾個(gè)重要的步驟:
[0005]第一、選取正確的關(guān)鍵詞。例如一個(gè)機(jī)票代理機(jī)構(gòu),應(yīng)該購買“航空客票”,“電子客票”等能夠匹配其業(yè)務(wù)的關(guān)鍵詞,類似“嬰兒奶粉”這樣與其從事的行業(yè)完全無關(guān)的關(guān)鍵詞是不適用的。第二、為購買的關(guān)鍵詞寫作簡明而富有吸引力的創(chuàng)意推薦信息,以吸引客戶關(guān)注,提升廣告點(diǎn)擊率,進(jìn)而提升關(guān)鍵詞質(zhì)量度。第三、為每個(gè)關(guān)鍵詞設(shè)定合理的最高出價(jià)及匹配方式等。
[0006]其中,選取正確的關(guān)鍵詞尤為重要,待投放的關(guān)鍵詞可以不斷的修改和新增,現(xiàn)有技術(shù)對(duì)推廣關(guān)鍵詞的新增方式是人工通過經(jīng)驗(yàn)的判斷等進(jìn)行更新。主要依靠對(duì)行業(yè)和付費(fèi)廣告推廣都比較了解的人員,或者經(jīng)驗(yàn)豐富的咨詢師提取行業(yè)核心關(guān)鍵詞進(jìn)行拓詞,對(duì)拓詞結(jié)果進(jìn)行人工過濾、分組,然后上線推廣,用效果對(duì)關(guān)鍵詞做進(jìn)一步的篩選。具體地說,一個(gè)典型的優(yōu)化過程可概括如下:首先,咨詢師會(huì)根據(jù)自己的經(jīng)驗(yàn)和相關(guān)業(yè)務(wù)知識(shí)為挑選核心關(guān)鍵詞進(jìn)行拓詞;然后,根據(jù)相關(guān)業(yè)務(wù)知識(shí)對(duì)拓詞結(jié)果進(jìn)行人工過濾,刪除掉自身認(rèn)為不相關(guān)的關(guān)鍵詞;接下來,將關(guān)鍵詞分組上線,如果關(guān)鍵詞帶來大量無效花費(fèi),則刪除該關(guān)鍵 詞。
[0007]但是,現(xiàn)有的基于人工方式處理關(guān)鍵詞過程有如下缺點(diǎn):
[0008]第一、由于這種方法主要依賴人的主觀判斷,很容易出現(xiàn)對(duì)于同一個(gè)關(guān)鍵詞,不同咨詢師對(duì)行業(yè)核心關(guān)鍵詞、拓詞結(jié)果的過濾以及分組的意見不相一致。這使得推廣的質(zhì)量嚴(yán)重受限于咨詢師的專業(yè)技能水平及對(duì)行業(yè)的了解,如果咨詢師對(duì)行業(yè)了解不夠,很容易造成大量無效花費(fèi)。
[0009]第二、通過語義的方式挑選核心關(guān)鍵詞、進(jìn)行關(guān)鍵詞過濾和分組,結(jié)果比較準(zhǔn)確,因?yàn)檫@是對(duì)真實(shí)語義分析的結(jié)果。但是卻要消耗大量的時(shí)間成本:
[0010](1)咨詢師需要根據(jù)經(jīng)驗(yàn)和對(duì)相關(guān)行業(yè)的了解,根據(jù)賬戶已有關(guān)鍵詞提取行業(yè)核心關(guān)鍵詞,這會(huì)花費(fèi)咨詢師很多時(shí)間;
[0011](2)根據(jù)核心關(guān)鍵詞進(jìn)行拓詞,拓詞結(jié)果一般較多,咨詢師對(duì)逐個(gè)關(guān)鍵詞進(jìn)行分析過濾、分組,會(huì)花費(fèi)咨詢師大量寶貴的時(shí)間。
[0012](3)大型企業(yè)的推廣賬戶中包含的關(guān)鍵詞可能達(dá)到十萬或百萬量級(jí),當(dāng)賬戶規(guī)模超過一定程度時(shí)挑選賬戶核心詞工作已經(jīng)超越人力可及的范圍,當(dāng)賬戶需要增加的關(guān)鍵詞超過一定量時(shí),人工對(duì)關(guān)鍵詞進(jìn)行過濾和分組也會(huì)顯得力不從心。

【發(fā)明內(nèi)容】

[0013]本發(fā)明實(shí)施例提供一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法和裝置,以提高所確定關(guān)鍵詞的正確率,且降低確定關(guān)鍵詞的成本。
[0014]一方面,本發(fā)明實(shí)施例提供了 一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法,包括:
[0015]將待處理的各文本信息順序排列,且拆分為單字;
[0016]根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;
[0017]從合并的各字符串中提取核心關(guān)鍵詞。
[0018]另一方面,本發(fā)明實(shí)施例還提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置,包括:
[0019]單字拆分模塊,用于將待處理的各文本信息順序排列,且拆分為單字;
[0020]字符串合并模塊,用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;
[0021]關(guān)鍵詞提取|吳塊,用于從合并的各字符串中提取核心關(guān)鍵詞。
[0022]本發(fā)明實(shí)施例通過將待處理的各文本信息順序排列,且拆分為單字;根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;從合并的各字符串中提取核心關(guān)鍵詞,解決確定關(guān)鍵詞的正確率低,且確定關(guān)鍵詞的成本聞問題,實(shí)現(xiàn)提聞確定關(guān)鍵詞的正確率,且降低確定關(guān)鍵詞的成本的技術(shù)效果。
【專利附圖】

【附圖說明】
[0023]圖1是本發(fā)明實(shí)施例一中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖;
[0024]圖2是本發(fā)明實(shí)施例二中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖;
[0025]圖3是本發(fā)明實(shí)施例三中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖;
[0026]圖4是本發(fā)明實(shí)施例四中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖;
[0027]圖5是本發(fā)明實(shí)施例五中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置的結(jié)構(gòu)示意圖;
[0028]圖6是本發(fā)明實(shí)施例六中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置的結(jié)構(gòu)示意圖。【具體實(shí)施方式】
[0029]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0030]實(shí)施例一
[0031]圖1是本發(fā)明實(shí)施例一中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖,該處理方法可以由基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置來執(zhí)行,如圖1所示,包括以下步驟:
[0032]步驟S101,將待處理的各文本信息順序排列,且拆分為單字。
[0033]待處理的各文本信息可以是在初始投放關(guān)鍵詞時(shí)初定的多個(gè)文本信息,也可以是在后續(xù)添加關(guān)鍵詞時(shí),賬戶中原有投放的關(guān)鍵詞。
[0034]本步驟中將文本信息首先拆分為單字,以便后續(xù)處理。將待處理的各文本信息順序排列,且拆分為單字的操作優(yōu)選包括:將待處理的各文本信息順序排列,每個(gè)文本信息之間設(shè)置間隔符;依據(jù)間隔符,將每個(gè)文本信息拆分為單字。
[0035]需要進(jìn)行說明的是,各文本信息可以是包括字母、數(shù)字、漢字和符號(hào)任意組合的字符串。具體的,單字可以包括一個(gè)字母、一個(gè)數(shù)字、一個(gè)漢字或一個(gè)符號(hào)。
[0036]步驟S102,根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;
[0037]本步驟按照單字的頻率進(jìn)行去除,單字的頻率即每個(gè)單字在所有單字中的出現(xiàn)比例,例如共出現(xiàn)100個(gè)單字,而其中10個(gè)出現(xiàn)的單字是相同的,則該單字的頻率為10%。本步驟可以將出現(xiàn)頻率過高或過低的單字去除,具體的設(shè)定頻率值可以根據(jù)需要或經(jīng)驗(yàn)進(jìn)行設(shè)置。剩余的單字合并為符合一定規(guī)律的字符串,從而篩選掉一些過于生僻或冗余的單字。在步驟S102中,根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串可以具體包括:
[0038]首先,根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,去除的單字以間隔符替換。然后,在剩余的單字中,將間隔符之間的連續(xù)單字合并為一個(gè)字符串。
[0039]步驟S103,從合并的各字符串中提取核心關(guān)鍵詞。
[0040]提取核心關(guān)鍵詞的操作可按照設(shè)定規(guī)則來進(jìn)行,由于剩余的字符串已經(jīng)經(jīng)過了單字的過濾篩選,所以剩余的字符串本身已經(jīng)是出現(xiàn)頻率較高的字符串,特殊情況下可以全部提取作為核心關(guān)鍵詞。
[0041]優(yōu)選的提取操作,從合并的各字符串中提取核心關(guān)鍵詞具體可包括:
[0042]從合并的各字符串中,將字符的數(shù)量小于設(shè)定閾值的字符串刪除;從而可以保留字符數(shù)量大于設(shè)定閾值的字符串,其中,設(shè)定閾值可以是正整數(shù),例如1,從而可以刪除字符數(shù)量為I的字符串。該操作實(shí)際上將只有一個(gè)單字的字符串進(jìn)行了刪除。
[0043]在剩余的字符串中,提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞。
[0044]從待處理的各文本信息中以間隔符替換核心關(guān)鍵詞,重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作。
[0045]需要進(jìn)行說明的是,也可以是在剩余的字符串中,一次提取滿足設(shè)定最高頻率的多個(gè)核心關(guān)鍵詞。但是,采用上述循環(huán)提取的操作,可以使得每次提取一個(gè)核心關(guān)鍵詞,剩余文本信息就不再受到此核心關(guān)鍵詞的干擾,而可在其中繼續(xù)提取其他核心關(guān)鍵詞,這樣的準(zhǔn)確率更高。
[0046]通過本發(fā)明實(shí)施例一公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法,其中以對(duì)單字的篩選處理來自動(dòng)過濾文本信息,減少甚至無需人工的干預(yù),自動(dòng)完成,也能適用于海量文本信息的處理。可以提高針對(duì)大量、復(fù)雜數(shù)據(jù)來確定關(guān)鍵詞的正確率,且降低確定關(guān)鍵詞的成本。
[0047]實(shí)施例二
[0048]本發(fā)明實(shí)施例二基于本發(fā)明實(shí)施例一公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法,提供了一種關(guān)鍵詞優(yōu)化處理方法的優(yōu)選實(shí)例,如圖2所示,包括如下步驟:
[0049]步驟S201、假設(shè)在文本信息中具體包括以下詞組,將各文本信息順序排列,且在各文本信息之間設(shè)置間隔符“ ! ”,如下:
[0050]諾基亞手機(jī)!三星手機(jī)!蘋果手機(jī)!諾基亞手機(jī)怎么樣!IPH0NE5s!智能手機(jī)! IPH0NE4! IPH0NE5! IPH0NE4s!三星S4!三星S3!三星S2!蘋果手機(jī)怎么樣!三星手機(jī)好用嗎!諾基亞手機(jī)好用嗎!智能大屏手機(jī)
[0051]步驟S202、將上述文本信息中的所有詞組拆成單字,拆分結(jié)果為:
[0052]諾基亞手機(jī)!三星手機(jī)!蘋果手機(jī)!諾基亞手機(jī)怎么樣!IPH0NE5s!智能手機(jī)! IPH0NE4! IPH0NE5! IPH0NE4s!三星S4!三星S3!三星S2!蘋果手機(jī)怎么樣!三星手機(jī)好用嗎!諾基亞手機(jī)好用嗎!智能大屏手機(jī)
[0053]步驟S203、將單字的頻率低于平均值的字符用間隔符“ ! ”替換,該平均值是所有單字頻率的平均值,替換結(jié)果為:
[0054]! ! !手機(jī)!三星 手機(jī)! ?。∈謾C(jī)??! ??!手機(jī)! ! ! ! IPHONE! ! !手機(jī)! IPHONE! ! IPHONE! ! IPHONE! ! !三星! ! !三星! ! !三星! ! ! ! !手機(jī)! ! ! !三星手機(jī)?。。。。。。∈謾C(jī)!?。。。。。?!手機(jī)
[0055]步驟S204、保留上述詞組中字符數(shù)大于I的詞組,結(jié)果為:
[0056]手機(jī)!三星手機(jī)!手機(jī)!手機(jī)! IPHONE!手機(jī)! IPHONE! IPHONE! IPHONE!三星!三星!二星!手機(jī)!二星手機(jī)!手機(jī)!手機(jī)
[0057]步驟S205、提取出現(xiàn)頻率最高的字符串,其中出現(xiàn)頻數(shù)最高的詞語為“手機(jī)”,出現(xiàn)7次,此處提取核心關(guān)鍵詞“手機(jī)”。
[0058]步驟S206、在原始文本信息中去掉“手機(jī)”,以間隔符替換,結(jié)果為:
[0059]諾基亞!三星!蘋果!諾基亞!怎么樣!IPH0NE5s!智能! IPH0NE4! IPH0NE5! IPH0NE4s!三星S4!三星S3!三星S2!蘋果!怎么樣!三星!好用嗎!諾基亞!好用嗎!智能大屏!
[0060]步驟S207、重復(fù)上述步驟S202-S206,提取頻數(shù)最高的字符串為“三星”,出現(xiàn)5次,此處提取核心關(guān)鍵詞“三星”。
[0061]步驟S208、在原文本信息中去掉“三星”,以間隔符替換,結(jié)果為:
[0062]諾基亞!蘋果!諾基亞!怎么樣!IPH0NE5s!智能! IPH0NE4! IPH0NE5! IPH0NE4s! S4!S3!S2!蘋果!怎么樣!好用嗎!諾基亞!好用嗎!智能大屏!
[0063]步驟S209、提取其中頻數(shù)最高的為ΙΡΗ0ΝΕ,出現(xiàn)4次,此處提取核心關(guān)鍵詞“IPHONE”。[0064]可重復(fù)執(zhí)行上述操作,直至獲得設(shè)定數(shù)量的核心關(guān)鍵詞,或者最高頻率設(shè)定閾值。本實(shí)例中,核心關(guān)鍵詞提取結(jié)果為:手機(jī)、三星、IPHONE、諾基亞。
[0065]通過本發(fā)明實(shí)施例二提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法,能夠正確從詞組中提取到關(guān)鍵詞,提聞確定關(guān)鍵詞的正確率,且降低確定關(guān)鍵詞的成本。
[0066]實(shí)施例三
[0067]圖3為本發(fā)明實(shí)施例三提供的基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程圖,本實(shí)施例以前述實(shí)施例為基礎(chǔ),提供了一種核心關(guān)鍵詞提取后的應(yīng)用場景。在付費(fèi)搜索廣告的應(yīng)用過程中,會(huì)根據(jù)廣告效果來更新投放的關(guān)鍵詞,則需要先確定新增的文本信息,再從中篩選關(guān)鍵字來投放,本實(shí)施例可以基于賬戶中已投放的核心關(guān)鍵詞來確定新增關(guān)鍵詞。如圖3所示,在前述實(shí)施例基礎(chǔ)上,從合并的各字符串中提取核心關(guān)鍵詞之后,還包括以下步驟:
[0068]步驟S301、從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息;
[0069]步驟S302、在剩余的每個(gè)文本信息中,確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例,且刪除比例低于設(shè)定比例值的文本信息,以得到過濾后的文本信息。
[0070]舉例說明如下,新增的文本信息為:
[0071]三星、諾基亞手機(jī)貴嗎、三星手機(jī)好不好、移動(dòng)手機(jī)號(hào)碼、諾基亞手機(jī)如何、三星大屏手機(jī)。
[0072]從新增文本信息中刪除核心關(guān)鍵詞,前述實(shí)例確定的核心關(guān)鍵詞為手機(jī)、三星、IPHONE、諾基亞,均包含核心關(guān)鍵詞。但是,其中可見,“移動(dòng)手機(jī)號(hào)碼”中出現(xiàn)的核心關(guān)鍵詞的比例較低,若低于設(shè)定比例值,則將其刪除過濾。過濾后的結(jié)果為:三星、諾基亞手機(jī)貴嗎、三星手機(jī)好不好、諾基亞手機(jī)如何、三星大屏手機(jī)。過濾后的結(jié)果可作為投放新增關(guān)鍵詞的依據(jù),或者直接作為投放關(guān)鍵詞。
[0073]上述方案中,優(yōu)選是在得到過濾后的文本信息之后,還包括:
[0074]步驟S303、提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞,確定為文本信息的標(biāo)簽;
[0075]步驟S304、根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
[0076]仍通過上述實(shí)例來說明,過濾后文本信息的標(biāo)簽對(duì)應(yīng)情況如下:
[0077]三星——三星
[0078]諾基亞手機(jī)貴嗎——諾基亞+手機(jī)
[0079]三星手機(jī)好不好一三星+手機(jī)
[0080]諾基亞手機(jī)如何——諾基亞+手機(jī)[0081 ] 三星大屏手機(jī)一三星+手機(jī)
[0082]上述的標(biāo)簽有三種:三星、諾基亞+手機(jī)、三星+手機(jī),可據(jù)此將文本信息分為三組。分組后的關(guān)鍵詞更易于進(jìn)行分組投放。
[0083]新增關(guān)鍵詞的過程可以多次執(zhí)行,當(dāng)新增關(guān)鍵詞被投放到賬戶中,則下次增加關(guān)鍵詞時(shí),可以對(duì)賬戶中的關(guān)鍵詞重新進(jìn)行核心關(guān)鍵詞的提取,而后再根據(jù)核心關(guān)鍵詞進(jìn)行新增關(guān)鍵詞的篩選。
[0084]實(shí)施例四
[0085]圖4為本發(fā)明實(shí)施例四提供的基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程圖,本實(shí)施例以前述實(shí)施例為基礎(chǔ),提供了另一種核心關(guān)鍵詞提取后的應(yīng)用場景,即可對(duì)關(guān)鍵詞與屬性之間的敏感度進(jìn)行識(shí)別。在將待處理的各文本信息順序排列,且拆分為單字之前還包括:
[0086]步驟S401、根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類,形成至少兩組待處理的文本信息;
[0087]屬性的設(shè)置可以按照需求來完成,文本信息的屬性可以是文本信息所對(duì)應(yīng)的【技術(shù)領(lǐng)域】、地域、時(shí)限、人物和事件。優(yōu)選是按照創(chuàng)意推薦信息來分類。其中一個(gè)實(shí)例為,可以從廣告服務(wù)商反饋的展現(xiàn)量和點(diǎn)擊量等數(shù)據(jù)中確定各個(gè)創(chuàng)意推薦信息的優(yōu)先級(jí)排序,或分類為較優(yōu)和較差的創(chuàng)意推薦信息。分類后的創(chuàng)意推薦信息所對(duì)應(yīng)的關(guān)鍵詞,即為符合該屬性的待處理文本信息。
[0088]步驟S402、將待處理的各文本信息順序排列,且拆分為單字;
[0089]步驟S403、根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;
[0090]步驟S404、從合并的各字符串中提取核心關(guān)鍵詞。
[0091]上述步驟S402-404可參照前述實(shí)施例來執(zhí)行,對(duì)每組的待處理文本信息分別執(zhí)行。
[0092]步驟S405、比較各組待處理文本信息的核心關(guān)鍵詞是否相同,將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
[0093]如果每組屬性對(duì)應(yīng)的核心關(guān)鍵詞不同,則說明該不同的核心關(guān)鍵詞更能代表兩組屬性的差異。例如,可能是使創(chuàng)意推薦信息差異更敏感的關(guān)鍵詞,則可以設(shè)置這些關(guān)鍵詞的權(quán)重值,以做投放的參考依據(jù)。
[0094]通過本發(fā)明實(shí)施例公開的基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法,可以自動(dòng)實(shí)現(xiàn)屬性核心關(guān)鍵詞的提取,且提取成本低,可靠性高。
[0095]實(shí)施例五
[0096]本發(fā)明實(shí)施例五提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置,如圖5所示,具體包括:單字拆分模塊51、字符串合并模塊52和關(guān)鍵詞提取模塊53。
[0097]其中,單字拆分模塊51用于將待處理的各文本信息順序排列,且拆分為單字;字符串合并模塊52用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串;關(guān)鍵詞提取1?塊53用于從合并的各字符串中提取核心關(guān)鍵詞。
[0098]上述方案中,單字拆分模塊51可具體包括:間隔符設(shè)置單元511和拆分單元512。間隔符設(shè)置單元511用于將待處理的各文本信息順序排列,每個(gè)文本信息之間設(shè)置間隔符;拆分單元512,用于依據(jù)間隔符將每個(gè)文本信息拆分為單字。
[0099]字符串合并模塊52可具體包括:間隔符替換單元521和合并單元522。間隔符替換單元521,用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,去除的單字以間隔符替換;合并單元522,用于在剩余的單字中,將間隔符之間的連續(xù)單字合并為一個(gè)字符串。
[0100]關(guān)鍵字提取模塊53可具體包括:字符串刪除單元531和提取單元532。其中,字符串刪除單元531,用于從合并的各字符串中,將字符的數(shù)量小于設(shè)定閾值的字符串刪除;提取單兀532,用于在剩余的字符串中,提取頻率最聞的一個(gè)字符串作為核心關(guān)鍵詞。
[0101]所述裝置還可包括:重復(fù)執(zhí)行模塊533,用于在提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞之后,從待處理的各文本信息中以間隔符替換核心關(guān)鍵詞,觸發(fā)重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作。
[0102]通過本發(fā)明實(shí)施例五公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置,可以提高確定關(guān)鍵詞的正確率,且降低確定關(guān)鍵詞的成本。
[0103]實(shí)施例六
[0104]本發(fā)明實(shí)施例六提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置,如圖6所示,包括:單字拆分模塊61、字符串合并模塊62和關(guān)鍵詞提取模塊63,還包括:文本信息刪除模塊64,用于在從合并的各字符串中提取核心關(guān)鍵詞之后,從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息;
[0105]過濾文本信息模塊65,用于在剩余的每個(gè)文本信息中,確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例,且刪除比例低于設(shè)定比例值的文本信息,以得到過濾后的文本信息。
[0106]標(biāo)簽確定模塊66,用于在得到過濾后的文本信息之后,提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞,確定為文本彳目息的標(biāo)簽;
[0107]分組模塊67,用于根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
[0108]上述裝置可實(shí)現(xiàn)對(duì)于投放關(guān)鍵詞的新增功能。
[0109]或者,該裝置中,還可以包括文本信息處理模塊,用于在將待處理的各文本信息順序排列,且拆分為單字之前,根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類,形成至少兩組待處理的文本信息;
[0110]核心關(guān)鍵詞確定模塊,用于在從合并的各字符串中提取核心關(guān)鍵詞之后,比較各組待處理文本信息的核心關(guān)鍵詞是否相同,將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
[0111]通過本發(fā)明實(shí)施例五提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置,可以將新增文本信息中正確的提取關(guān)鍵字,添加到原有的關(guān)鍵字組中。
[0112]上述產(chǎn)品可執(zhí)行本發(fā)明任意實(shí)施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0113]本發(fā)明實(shí)施例的技術(shù)方案,結(jié)合統(tǒng)計(jì)知識(shí)和文本挖掘知識(shí),選定一定頻數(shù)的單字復(fù)原原文本信息中,簡化了考慮詞語組成機(jī)構(gòu)等的復(fù)雜程度,為該方法的實(shí)現(xiàn)提供了基礎(chǔ);在詞語發(fā)現(xiàn)過程中,兼顧了文本的頻率和簡單的位置信息,為詞語發(fā)現(xiàn)的準(zhǔn)確行提供了保證;在詞語選擇過程中,每次只取出現(xiàn)頻率最高的詞語,采取循環(huán)機(jī)制不間斷的選取,將不可控因素的干擾降到最低,提高了詞語發(fā)現(xiàn)的準(zhǔn)確度。
[0114]本發(fā)明實(shí)施例方案相較于現(xiàn)有的人工方式處理關(guān)鍵詞過程,優(yōu)勢和好處在于:
[0115]第一、對(duì)于核心關(guān)鍵詞的提取、關(guān)鍵詞的過濾和分組標(biāo)準(zhǔn)是統(tǒng)一的,不存在因人而異的情況。算法會(huì)針對(duì)每個(gè)推廣賬戶相關(guān)的文本信息進(jìn)行分析,提取的核心關(guān)鍵詞與推廣賬戶緊密相關(guān),很大程度上減小了對(duì)推廣行業(yè)等不了解帶來的偏差,統(tǒng)一的過濾和分組方式對(duì)推廣賬戶的后續(xù)優(yōu)化也帶來的很大的便利;
[0116]第二、在處理關(guān)鍵詞過程中,人工比較費(fèi)時(shí)費(fèi)力甚至不能完成的核心詞提取、過濾、分組過程均由算法自動(dòng)學(xué)習(xí)完成,節(jié)省了咨詢師寶貴的時(shí)間。
[0117]注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1.一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法,其特征在于,包括: 將待處理的各文本信息順序排列,且拆分為單字; 根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串; 從合并的各字符串中提取核心關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待處理的各文本信息順序排列,且拆分為單字具體包括: 將待處理的各文本信息順序排列,每個(gè)文本信息之間設(shè)置間隔符; 依據(jù)所述間隔符,將每個(gè)文本信息拆分為單字; 所述根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串具體包括: 根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,去除的單字以間隔符替換; 在剩余的單字中,將間隔符之間的連續(xù)單字合并為一個(gè)字符串。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從合并的各字符串中提取核心關(guān)鍵詞具體包括: 從合并的各字符串中,將字符的數(shù)量小于設(shè)定閾值的字符串刪除; 在剩余的字符串中,提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞; 在提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞之后,所述方法還包括: 從待處理的各文本信息中以間隔符替換所述核心關(guān)鍵詞,重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,在所述從合并的各字符串中提取核心關(guān)鍵詞之后,還包括: 從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息; 在剩余的每個(gè)文本信息中,確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例,且刪除比例低于設(shè)定比例值的文本信息,以得到過濾后的文本信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述得到過濾后的文本信息之后,還包括: 提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞,確定為所述文本信息的標(biāo)簽; 根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述將待處理的各文本信息順序排列,且拆分為單字之前還包括: 根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類,形成至少兩組待處理的文本信息; 在所述則在從合并的各字符串中提取核心關(guān)鍵詞之后,還包括: 比較各組待處理文本信息的核心關(guān)鍵詞是否相同,將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
7.一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置,其特征在于,包括: 單字拆分模塊,用于將待處理的各文本信息順序排列,且拆分為單字; 字符串合并模塊,用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,且將剩余的單字合并為字符串; 關(guān)鍵詞提取|吳塊,用于從合并的各字符串中提取核心關(guān)鍵詞。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述單字拆分模塊包括: 間隔符設(shè)置單元,用于將待處理的各文本信息順序排列,每個(gè)文本信息之間設(shè)置間隔符; 拆分單元,用于依據(jù)所述間隔符將每個(gè)文本信息拆分為單字; 所述字符串合并模塊包括: 間隔符替換單元,用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除,去除的單字以間隔符替換; 合并單元,用于在剩余的單字中,將間隔符之間的連續(xù)單字合并為一個(gè)字符串; 所述關(guān)鍵字提取模塊包括: 字符串刪除單元,用于從合并的各字符串中,將字符的數(shù)量小于設(shè)定閾值的字符串刪除; 提取單兀,用于在剩余的字符串中,提取頻率最聞的一個(gè)字符串作為核心關(guān)鍵詞; 所述裝置還包括:重復(fù)執(zhí)行模塊,用于在提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞之后,從待處理的各文本信息中以間隔符替換所述核心關(guān)鍵詞,觸發(fā)重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作; 所述裝置還包括:文本信息刪除模塊,用于在從合并的各字符串中提取核心關(guān)鍵詞之后,從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息;` 過濾文本信息模塊,用于在剩余的每個(gè)文本信息中,確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例,且刪除比例低于設(shè)定比例值的文本信息,以得到過濾后的文本信息。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括: 標(biāo)簽確定模塊,用于在得到過濾后的文本信息之后,提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞,確定為所述文本信息的標(biāo)簽; 分組模塊,用于根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 文本信息處理模塊,用于在所述將待處理的各文本信息順序排列,且拆分為單字之前,根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類,形成至少兩組待處理的文本信息; 核心關(guān)鍵詞確定模塊,用于在所述從合并的各字符串中提取核心關(guān)鍵詞之后,比較各組待處理文本信息的核心關(guān)鍵詞是否相同,將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
【文檔編號(hào)】G06F17/27GK103631963SQ201310696077
【公開日】2014年3月12日 申請(qǐng)日期:2013年12月18日 優(yōu)先權(quán)日:2013年12月18日
【發(fā)明者】裴向宇, 田傳釗, 王漢生, 李紅波, ?,? 申請(qǐng)人:北京博雅立方科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1