一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置制造方法

文檔序號(hào)：6524277閱讀：250來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置，所述方法包括：將待處理的各文本信息順序排列，且拆分為單字；根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；從合并的各字符串中提取核心關(guān)鍵詞。通過本發(fā)明公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置，可以解決確定關(guān)鍵詞的正確率低，且確定關(guān)鍵詞的成本高問題，實(shí)現(xiàn)提高確定關(guān)鍵詞的正確率，且降低確定關(guān)鍵詞的成本的技術(shù)效果。
【專利說明】一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及計(jì)算機(jī)數(shù)據(jù)處理技術(shù)，尤其涉及一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置。
【背景技術(shù)】
[0002]付費(fèi)搜索廣告是目前互聯(lián)網(wǎng)上最重要的廣告投放方式。若將所有企業(yè)在互聯(lián)網(wǎng)上的廣告預(yù)算記作100%，則付費(fèi)搜索廣告方面投入占據(jù)50%以上的份額。在國內(nèi)，主要的投放平臺(tái)例如有百度推廣平臺(tái)等。
[0003]付費(fèi)搜索廣告的實(shí)現(xiàn)機(jī)制是由廣告投放者確定待投放的關(guān)鍵詞，以及關(guān)鍵詞對(duì)應(yīng)的創(chuàng)意推薦信息和鏈接廣告網(wǎng)頁等。廣告投放者從付費(fèi)搜索廣告服務(wù)商處購買待投放的關(guān)鍵詞，當(dāng)瀏覽用戶輸入檢索式時(shí)，就會(huì)通過與關(guān)鍵詞匹配而搜索到相應(yīng)的創(chuàng)意推薦信息和鏈接廣告網(wǎng)頁，供用戶瀏覽和點(diǎn)擊。搜索引擎系統(tǒng)會(huì)記錄展現(xiàn)量、點(diǎn)擊量等數(shù)據(jù)，用于按照設(shè)定規(guī)則進(jìn)行計(jì)費(fèi)。
[0004]基于上述機(jī)制，對(duì)于廣告投放者而言，一個(gè)成功的付費(fèi)搜索廣告需要完成以下幾個(gè)重要的步驟:
[0005]第一、選取正確的關(guān)鍵詞。例如一個(gè)機(jī)票代理機(jī)構(gòu)，應(yīng)該購買“航空客票”，“電子客票”等能夠匹配其業(yè)務(wù)的關(guān)鍵詞，類似“嬰兒奶粉”這樣與其從事的行業(yè)完全無關(guān)的關(guān)鍵詞是不適用的。第二、為購買的關(guān)鍵詞寫作簡明而富有吸引力的創(chuàng)意推薦信息，以吸引客戶關(guān)注，提升廣告點(diǎn)擊率，進(jìn)而提升關(guān)鍵詞質(zhì)量度。第三、為每個(gè)關(guān)鍵詞設(shè)定合理的最高出價(jià)及匹配方式等。
[0006]其中，選取正確的關(guān)鍵詞尤為重要，待投放的關(guān)鍵詞可以不斷的修改和新增，現(xiàn)有技術(shù)對(duì)推廣關(guān)鍵詞的新增方式是人工通過經(jīng)驗(yàn)的判斷等進(jìn)行更新。主要依靠對(duì)行業(yè)和付費(fèi)廣告推廣都比較了解的人員，或者經(jīng)驗(yàn)豐富的咨詢師提取行業(yè)核心關(guān)鍵詞進(jìn)行拓詞，對(duì)拓詞結(jié)果進(jìn)行人工過濾、分組，然后上線推廣，用效果對(duì)關(guān)鍵詞做進(jìn)一步的篩選。具體地說，一個(gè)典型的優(yōu)化過程可概括如下:首先，咨詢師會(huì)根據(jù)自己的經(jīng)驗(yàn)和相關(guān)業(yè)務(wù)知識(shí)為挑選核心關(guān)鍵詞進(jìn)行拓詞；然后，根據(jù)相關(guān)業(yè)務(wù)知識(shí)對(duì)拓詞結(jié)果進(jìn)行人工過濾，刪除掉自身認(rèn)為不相關(guān)的關(guān)鍵詞；接下來，將關(guān)鍵詞分組上線，如果關(guān)鍵詞帶來大量無效花費(fèi)，則刪除該關(guān)鍵詞。
[0007]但是，現(xiàn)有的基于人工方式處理關(guān)鍵詞過程有如下缺點(diǎn):
[0008]第一、由于這種方法主要依賴人的主觀判斷，很容易出現(xiàn)對(duì)于同一個(gè)關(guān)鍵詞，不同咨詢師對(duì)行業(yè)核心關(guān)鍵詞、拓詞結(jié)果的過濾以及分組的意見不相一致。這使得推廣的質(zhì)量嚴(yán)重受限于咨詢師的專業(yè)技能水平及對(duì)行業(yè)的了解，如果咨詢師對(duì)行業(yè)了解不夠，很容易造成大量無效花費(fèi)。
[0009]第二、通過語義的方式挑選核心關(guān)鍵詞、進(jìn)行關(guān)鍵詞過濾和分組，結(jié)果比較準(zhǔn)確，因?yàn)檫@是對(duì)真實(shí)語義分析的結(jié)果。但是卻要消耗大量的時(shí)間成本:
[0010](1)咨詢師需要根據(jù)經(jīng)驗(yàn)和對(duì)相關(guān)行業(yè)的了解，根據(jù)賬戶已有關(guān)鍵詞提取行業(yè)核心關(guān)鍵詞，這會(huì)花費(fèi)咨詢師很多時(shí)間；
[0011](2)根據(jù)核心關(guān)鍵詞進(jìn)行拓詞，拓詞結(jié)果一般較多，咨詢師對(duì)逐個(gè)關(guān)鍵詞進(jìn)行分析過濾、分組，會(huì)花費(fèi)咨詢師大量寶貴的時(shí)間。
[0012](3)大型企業(yè)的推廣賬戶中包含的關(guān)鍵詞可能達(dá)到十萬或百萬量級(jí)，當(dāng)賬戶規(guī)模超過一定程度時(shí)挑選賬戶核心詞工作已經(jīng)超越人力可及的范圍，當(dāng)賬戶需要增加的關(guān)鍵詞超過一定量時(shí)，人工對(duì)關(guān)鍵詞進(jìn)行過濾和分組也會(huì)顯得力不從心。

【發(fā)明內(nèi)容】

[0013]本發(fā)明實(shí)施例提供一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法和裝置，以提高所確定關(guān)鍵詞的正確率，且降低確定關(guān)鍵詞的成本。
[0014]一方面，本發(fā)明實(shí)施例提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法，包括:
[0015]將待處理的各文本信息順序排列，且拆分為單字；
[0016]根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；
[0017]從合并的各字符串中提取核心關(guān)鍵詞。
[0018]另一方面，本發(fā)明實(shí)施例還提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置，包括:
[0019]單字拆分模塊，用于將待處理的各文本信息順序排列，且拆分為單字；
[0020]字符串合并模塊，用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；
[0021]關(guān)鍵詞提取|吳塊，用于從合并的各字符串中提取核心關(guān)鍵詞。
[0022]本發(fā)明實(shí)施例通過將待處理的各文本信息順序排列，且拆分為單字；根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；從合并的各字符串中提取核心關(guān)鍵詞，解決確定關(guān)鍵詞的正確率低，且確定關(guān)鍵詞的成本聞問題，實(shí)現(xiàn)提聞確定關(guān)鍵詞的正確率，且降低確定關(guān)鍵詞的成本的技術(shù)效果。
【專利附圖】

【附圖說明】
[0023]圖1是本發(fā)明實(shí)施例一中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖；
[0024]圖2是本發(fā)明實(shí)施例二中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖；
[0025]圖3是本發(fā)明實(shí)施例三中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖；
[0026]圖4是本發(fā)明實(shí)施例四中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖；
[0027]圖5是本發(fā)明實(shí)施例五中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置的結(jié)構(gòu)示意圖；
[0028]圖6是本發(fā)明實(shí)施例六中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置的結(jié)構(gòu)示意圖。【具體實(shí)施方式】
[0029]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是，此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明，而非對(duì)本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0030]實(shí)施例一
[0031]圖1是本發(fā)明實(shí)施例一中提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程示意圖，該處理方法可以由基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置來執(zhí)行，如圖1所示，包括以下步驟:
[0032]步驟S101，將待處理的各文本信息順序排列，且拆分為單字。
[0033]待處理的各文本信息可以是在初始投放關(guān)鍵詞時(shí)初定的多個(gè)文本信息，也可以是在后續(xù)添加關(guān)鍵詞時(shí)，賬戶中原有投放的關(guān)鍵詞。
[0034]本步驟中將文本信息首先拆分為單字，以便后續(xù)處理。將待處理的各文本信息順序排列，且拆分為單字的操作優(yōu)選包括:將待處理的各文本信息順序排列，每個(gè)文本信息之間設(shè)置間隔符；依據(jù)間隔符，將每個(gè)文本信息拆分為單字。
[0035]需要進(jìn)行說明的是，各文本信息可以是包括字母、數(shù)字、漢字和符號(hào)任意組合的字符串。具體的，單字可以包括一個(gè)字母、一個(gè)數(shù)字、一個(gè)漢字或一個(gè)符號(hào)。
[0036]步驟S102，根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；
[0037]本步驟按照單字的頻率進(jìn)行去除，單字的頻率即每個(gè)單字在所有單字中的出現(xiàn)比例，例如共出現(xiàn)100個(gè)單字，而其中10個(gè)出現(xiàn)的單字是相同的，則該單字的頻率為10%。本步驟可以將出現(xiàn)頻率過高或過低的單字去除，具體的設(shè)定頻率值可以根據(jù)需要或經(jīng)驗(yàn)進(jìn)行設(shè)置。剩余的單字合并為符合一定規(guī)律的字符串，從而篩選掉一些過于生僻或冗余的單字。在步驟S102中，根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串可以具體包括:
[0038]首先，根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，去除的單字以間隔符替換。然后，在剩余的單字中，將間隔符之間的連續(xù)單字合并為一個(gè)字符串。
[0039]步驟S103，從合并的各字符串中提取核心關(guān)鍵詞。
[0040]提取核心關(guān)鍵詞的操作可按照設(shè)定規(guī)則來進(jìn)行，由于剩余的字符串已經(jīng)經(jīng)過了單字的過濾篩選，所以剩余的字符串本身已經(jīng)是出現(xiàn)頻率較高的字符串，特殊情況下可以全部提取作為核心關(guān)鍵詞。
[0041]優(yōu)選的提取操作，從合并的各字符串中提取核心關(guān)鍵詞具體可包括:
[0042]從合并的各字符串中，將字符的數(shù)量小于設(shè)定閾值的字符串刪除；從而可以保留字符數(shù)量大于設(shè)定閾值的字符串，其中，設(shè)定閾值可以是正整數(shù)，例如1，從而可以刪除字符數(shù)量為I的字符串。該操作實(shí)際上將只有一個(gè)單字的字符串進(jìn)行了刪除。
[0043]在剩余的字符串中，提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞。
[0044]從待處理的各文本信息中以間隔符替換核心關(guān)鍵詞，重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作。
[0045]需要進(jìn)行說明的是，也可以是在剩余的字符串中，一次提取滿足設(shè)定最高頻率的多個(gè)核心關(guān)鍵詞。但是，采用上述循環(huán)提取的操作，可以使得每次提取一個(gè)核心關(guān)鍵詞，剩余文本信息就不再受到此核心關(guān)鍵詞的干擾，而可在其中繼續(xù)提取其他核心關(guān)鍵詞，這樣的準(zhǔn)確率更高。
[0046]通過本發(fā)明實(shí)施例一公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法，其中以對(duì)單字的篩選處理來自動(dòng)過濾文本信息，減少甚至無需人工的干預(yù)，自動(dòng)完成，也能適用于海量文本信息的處理。可以提高針對(duì)大量、復(fù)雜數(shù)據(jù)來確定關(guān)鍵詞的正確率，且降低確定關(guān)鍵詞的成本。
[0047]實(shí)施例二
[0048]本發(fā)明實(shí)施例二基于本發(fā)明實(shí)施例一公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法，提供了一種關(guān)鍵詞優(yōu)化處理方法的優(yōu)選實(shí)例，如圖2所示，包括如下步驟:
[0049]步驟S201、假設(shè)在文本信息中具體包括以下詞組，將各文本信息順序排列，且在各文本信息之間設(shè)置間隔符“ ！ ”，如下:
[0050]諾基亞手機(jī)！三星手機(jī)！蘋果手機(jī)！諾基亞手機(jī)怎么樣！IPH0NE5s!智能手機(jī)！ IPH0NE4! IPH0NE5! IPH0NE4s!三星S4!三星S3!三星S2!蘋果手機(jī)怎么樣！三星手機(jī)好用嗎！諾基亞手機(jī)好用嗎！智能大屏手機(jī)
[0051]步驟S202、將上述文本信息中的所有詞組拆成單字，拆分結(jié)果為:
[0052]諾基亞手機(jī)！三星手機(jī)！蘋果手機(jī)！諾基亞手機(jī)怎么樣！IPH0NE5s!智能手機(jī)！ IPH0NE4! IPH0NE5! IPH0NE4s!三星S4!三星S3!三星S2!蘋果手機(jī)怎么樣！三星手機(jī)好用嗎！諾基亞手機(jī)好用嗎！智能大屏手機(jī)
[0053]步驟S203、將單字的頻率低于平均值的字符用間隔符“ ！ ”替換，該平均值是所有單字頻率的平均值，替換結(jié)果為:
[0054]! ! !手機(jī)！三星手機(jī)！ ?。∈謾C(jī)??！ ??！手機(jī)！！！！ IPHONE! ! !手機(jī)！ IPHONE! ! IPHONE! ! IPHONE! ! !三星！！！三星！！！三星！！！！！手機(jī)！！！！三星手機(jī)?。。。。。。∈謾C(jī)！?。。。。。?！手機(jī)
[0055]步驟S204、保留上述詞組中字符數(shù)大于I的詞組，結(jié)果為:
[0056]手機(jī)！三星手機(jī)！手機(jī)！手機(jī)！ IPHONE!手機(jī)！ IPHONE! IPHONE! IPHONE!三星！三星！二星！手機(jī)！二星手機(jī)！手機(jī)！手機(jī)
[0057]步驟S205、提取出現(xiàn)頻率最高的字符串，其中出現(xiàn)頻數(shù)最高的詞語為“手機(jī)”，出現(xiàn)7次，此處提取核心關(guān)鍵詞“手機(jī)”。
[0058]步驟S206、在原始文本信息中去掉“手機(jī)”，以間隔符替換，結(jié)果為:
[0059]諾基亞！三星！蘋果！諾基亞！怎么樣！IPH0NE5s!智能！ IPH0NE4! IPH0NE5! IPH0NE4s!三星S4!三星S3!三星S2!蘋果！怎么樣！三星！好用嗎！諾基亞！好用嗎！智能大屏！
[0060]步驟S207、重復(fù)上述步驟S202-S206，提取頻數(shù)最高的字符串為“三星”，出現(xiàn)5次，此處提取核心關(guān)鍵詞“三星”。
[0061]步驟S208、在原文本信息中去掉“三星”，以間隔符替換，結(jié)果為:
[0062]諾基亞！蘋果！諾基亞！怎么樣！IPH0NE5s!智能！ IPH0NE4! IPH0NE5! IPH0NE4s! S4!S3!S2!蘋果！怎么樣！好用嗎！諾基亞！好用嗎！智能大屏！
[0063]步驟S209、提取其中頻數(shù)最高的為ΙΡΗ0ΝΕ，出現(xiàn)4次，此處提取核心關(guān)鍵詞“IPHONE”。[0064]可重復(fù)執(zhí)行上述操作，直至獲得設(shè)定數(shù)量的核心關(guān)鍵詞，或者最高頻率設(shè)定閾值。本實(shí)例中，核心關(guān)鍵詞提取結(jié)果為:手機(jī)、三星、IPHONE、諾基亞。
[0065]通過本發(fā)明實(shí)施例二提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法，能夠正確從詞組中提取到關(guān)鍵詞，提聞確定關(guān)鍵詞的正確率，且降低確定關(guān)鍵詞的成本。
[0066]實(shí)施例三
[0067]圖3為本發(fā)明實(shí)施例三提供的基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程圖，本實(shí)施例以前述實(shí)施例為基礎(chǔ)，提供了一種核心關(guān)鍵詞提取后的應(yīng)用場景。在付費(fèi)搜索廣告的應(yīng)用過程中，會(huì)根據(jù)廣告效果來更新投放的關(guān)鍵詞，則需要先確定新增的文本信息，再從中篩選關(guān)鍵字來投放，本實(shí)施例可以基于賬戶中已投放的核心關(guān)鍵詞來確定新增關(guān)鍵詞。如圖3所示，在前述實(shí)施例基礎(chǔ)上，從合并的各字符串中提取核心關(guān)鍵詞之后，還包括以下步驟:
[0068]步驟S301、從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息；
[0069]步驟S302、在剩余的每個(gè)文本信息中，確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例，且刪除比例低于設(shè)定比例值的文本信息，以得到過濾后的文本信息。
[0070]舉例說明如下，新增的文本信息為:
[0071]三星、諾基亞手機(jī)貴嗎、三星手機(jī)好不好、移動(dòng)手機(jī)號(hào)碼、諾基亞手機(jī)如何、三星大屏手機(jī)。
[0072]從新增文本信息中刪除核心關(guān)鍵詞，前述實(shí)例確定的核心關(guān)鍵詞為手機(jī)、三星、IPHONE、諾基亞，均包含核心關(guān)鍵詞。但是，其中可見，“移動(dòng)手機(jī)號(hào)碼”中出現(xiàn)的核心關(guān)鍵詞的比例較低，若低于設(shè)定比例值，則將其刪除過濾。過濾后的結(jié)果為:三星、諾基亞手機(jī)貴嗎、三星手機(jī)好不好、諾基亞手機(jī)如何、三星大屏手機(jī)。過濾后的結(jié)果可作為投放新增關(guān)鍵詞的依據(jù)，或者直接作為投放關(guān)鍵詞。
[0073]上述方案中，優(yōu)選是在得到過濾后的文本信息之后，還包括:
[0074]步驟S303、提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞，確定為文本信息的標(biāo)簽；
[0075]步驟S304、根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
[0076]仍通過上述實(shí)例來說明，過濾后文本信息的標(biāo)簽對(duì)應(yīng)情況如下:
[0077]三星——三星
[0078]諾基亞手機(jī)貴嗎——諾基亞+手機(jī)
[0079]三星手機(jī)好不好一三星+手機(jī)
[0080]諾基亞手機(jī)如何——諾基亞+手機(jī)[0081 ] 三星大屏手機(jī)一三星+手機(jī)
[0082]上述的標(biāo)簽有三種:三星、諾基亞+手機(jī)、三星+手機(jī)，可據(jù)此將文本信息分為三組。分組后的關(guān)鍵詞更易于進(jìn)行分組投放。
[0083]新增關(guān)鍵詞的過程可以多次執(zhí)行，當(dāng)新增關(guān)鍵詞被投放到賬戶中，則下次增加關(guān)鍵詞時(shí)，可以對(duì)賬戶中的關(guān)鍵詞重新進(jìn)行核心關(guān)鍵詞的提取，而后再根據(jù)核心關(guān)鍵詞進(jìn)行新增關(guān)鍵詞的篩選。
[0084]實(shí)施例四
[0085]圖4為本發(fā)明實(shí)施例四提供的基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法的流程圖，本實(shí)施例以前述實(shí)施例為基礎(chǔ)，提供了另一種核心關(guān)鍵詞提取后的應(yīng)用場景，即可對(duì)關(guān)鍵詞與屬性之間的敏感度進(jìn)行識(shí)別。在將待處理的各文本信息順序排列，且拆分為單字之前還包括:
[0086]步驟S401、根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類，形成至少兩組待處理的文本信息；
[0087]屬性的設(shè)置可以按照需求來完成，文本信息的屬性可以是文本信息所對(duì)應(yīng)的【技術(shù)領(lǐng)域】、地域、時(shí)限、人物和事件。優(yōu)選是按照創(chuàng)意推薦信息來分類。其中一個(gè)實(shí)例為，可以從廣告服務(wù)商反饋的展現(xiàn)量和點(diǎn)擊量等數(shù)據(jù)中確定各個(gè)創(chuàng)意推薦信息的優(yōu)先級(jí)排序，或分類為較優(yōu)和較差的創(chuàng)意推薦信息。分類后的創(chuàng)意推薦信息所對(duì)應(yīng)的關(guān)鍵詞，即為符合該屬性的待處理文本信息。
[0088]步驟S402、將待處理的各文本信息順序排列，且拆分為單字；
[0089]步驟S403、根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；
[0090]步驟S404、從合并的各字符串中提取核心關(guān)鍵詞。
[0091]上述步驟S402-404可參照前述實(shí)施例來執(zhí)行，對(duì)每組的待處理文本信息分別執(zhí)行。
[0092]步驟S405、比較各組待處理文本信息的核心關(guān)鍵詞是否相同，將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
[0093]如果每組屬性對(duì)應(yīng)的核心關(guān)鍵詞不同，則說明該不同的核心關(guān)鍵詞更能代表兩組屬性的差異。例如，可能是使創(chuàng)意推薦信息差異更敏感的關(guān)鍵詞，則可以設(shè)置這些關(guān)鍵詞的權(quán)重值，以做投放的參考依據(jù)。
[0094]通過本發(fā)明實(shí)施例公開的基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法，可以自動(dòng)實(shí)現(xiàn)屬性核心關(guān)鍵詞的提取，且提取成本低，可靠性高。
[0095]實(shí)施例五
[0096]本發(fā)明實(shí)施例五提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置，如圖5所示，具體包括:單字拆分模塊51、字符串合并模塊52和關(guān)鍵詞提取模塊53。
[0097]其中，單字拆分模塊51用于將待處理的各文本信息順序排列，且拆分為單字；字符串合并模塊52用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；關(guān)鍵詞提取1?塊53用于從合并的各字符串中提取核心關(guān)鍵詞。
[0098]上述方案中，單字拆分模塊51可具體包括:間隔符設(shè)置單元511和拆分單元512。間隔符設(shè)置單元511用于將待處理的各文本信息順序排列，每個(gè)文本信息之間設(shè)置間隔符；拆分單元512，用于依據(jù)間隔符將每個(gè)文本信息拆分為單字。
[0099]字符串合并模塊52可具體包括:間隔符替換單元521和合并單元522。間隔符替換單元521，用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，去除的單字以間隔符替換；合并單元522，用于在剩余的單字中，將間隔符之間的連續(xù)單字合并為一個(gè)字符串。
[0100]關(guān)鍵字提取模塊53可具體包括:字符串刪除單元531和提取單元532。其中，字符串刪除單元531，用于從合并的各字符串中，將字符的數(shù)量小于設(shè)定閾值的字符串刪除；提取單兀532,用于在剩余的字符串中，提取頻率最聞的一個(gè)字符串作為核心關(guān)鍵詞。
[0101]所述裝置還可包括:重復(fù)執(zhí)行模塊533，用于在提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞之后，從待處理的各文本信息中以間隔符替換核心關(guān)鍵詞，觸發(fā)重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作。
[0102]通過本發(fā)明實(shí)施例五公開的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置，可以提高確定關(guān)鍵詞的正確率，且降低確定關(guān)鍵詞的成本。
[0103]實(shí)施例六
[0104]本發(fā)明實(shí)施例六提供了一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置，如圖6所示，包括:單字拆分模塊61、字符串合并模塊62和關(guān)鍵詞提取模塊63，還包括:文本信息刪除模塊64，用于在從合并的各字符串中提取核心關(guān)鍵詞之后，從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息；
[0105]過濾文本信息模塊65，用于在剩余的每個(gè)文本信息中，確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例，且刪除比例低于設(shè)定比例值的文本信息，以得到過濾后的文本信息。
[0106]標(biāo)簽確定模塊66，用于在得到過濾后的文本信息之后，提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞，確定為文本彳目息的標(biāo)簽；
[0107]分組模塊67，用于根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
[0108]上述裝置可實(shí)現(xiàn)對(duì)于投放關(guān)鍵詞的新增功能。
[0109]或者，該裝置中，還可以包括文本信息處理模塊，用于在將待處理的各文本信息順序排列，且拆分為單字之前，根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類，形成至少兩組待處理的文本信息；
[0110]核心關(guān)鍵詞確定模塊，用于在從合并的各字符串中提取核心關(guān)鍵詞之后，比較各組待處理文本信息的核心關(guān)鍵詞是否相同，將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
[0111]通過本發(fā)明實(shí)施例五提供的一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置，可以將新增文本信息中正確的提取關(guān)鍵字，添加到原有的關(guān)鍵字組中。
[0112]上述產(chǎn)品可執(zhí)行本發(fā)明任意實(shí)施例所提供的方法，具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0113]本發(fā)明實(shí)施例的技術(shù)方案，結(jié)合統(tǒng)計(jì)知識(shí)和文本挖掘知識(shí)，選定一定頻數(shù)的單字復(fù)原原文本信息中，簡化了考慮詞語組成機(jī)構(gòu)等的復(fù)雜程度，為該方法的實(shí)現(xiàn)提供了基礎(chǔ)；在詞語發(fā)現(xiàn)過程中，兼顧了文本的頻率和簡單的位置信息，為詞語發(fā)現(xiàn)的準(zhǔn)確行提供了保證；在詞語選擇過程中，每次只取出現(xiàn)頻率最高的詞語，采取循環(huán)機(jī)制不間斷的選取，將不可控因素的干擾降到最低，提高了詞語發(fā)現(xiàn)的準(zhǔn)確度。
[0114]本發(fā)明實(shí)施例方案相較于現(xiàn)有的人工方式處理關(guān)鍵詞過程，優(yōu)勢和好處在于:
[0115]第一、對(duì)于核心關(guān)鍵詞的提取、關(guān)鍵詞的過濾和分組標(biāo)準(zhǔn)是統(tǒng)一的，不存在因人而異的情況。算法會(huì)針對(duì)每個(gè)推廣賬戶相關(guān)的文本信息進(jìn)行分析，提取的核心關(guān)鍵詞與推廣賬戶緊密相關(guān)，很大程度上減小了對(duì)推廣行業(yè)等不了解帶來的偏差，統(tǒng)一的過濾和分組方式對(duì)推廣賬戶的后續(xù)優(yōu)化也帶來的很大的便利；
[0116]第二、在處理關(guān)鍵詞過程中，人工比較費(fèi)時(shí)費(fèi)力甚至不能完成的核心詞提取、過濾、分組過程均由算法自動(dòng)學(xué)習(xí)完成，節(jié)省了咨詢師寶貴的時(shí)間。
[0117]注意，上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解，本發(fā)明不限于這里所述的特定實(shí)施例，對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此，雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明，但是本發(fā)明不僅僅限于以上實(shí)施例，在不脫離本發(fā)明構(gòu)思的情況下，還可以包括更多其他等效實(shí)施例，而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1.一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法，其特征在于，包括: 將待處理的各文本信息順序排列，且拆分為單字；根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；從合并的各字符串中提取核心關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將待處理的各文本信息順序排列，且拆分為單字具體包括: 將待處理的各文本信息順序排列，每個(gè)文本信息之間設(shè)置間隔符；依據(jù)所述間隔符，將每個(gè)文本信息拆分為單字；所述根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串具體包括: 根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，去除的單字以間隔符替換；在剩余的單字中，將間隔符之間的連續(xù)單字合并為一個(gè)字符串。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述從合并的各字符串中提取核心關(guān)鍵詞具體包括: 從合并的各字符串中，將字符的數(shù)量小于設(shè)定閾值的字符串刪除；在剩余的字符串中，提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞；在提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞之后，所述方法還包括: 從待處理的各文本信息中以間隔符替換所述核心關(guān)鍵詞，重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法，其特征在于，在所述從合并的各字符串中提取核心關(guān)鍵詞之后，還包括: 從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息；在剩余的每個(gè)文本信息中，確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例，且刪除比例低于設(shè)定比例值的文本信息，以得到過濾后的文本信息。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，在所述得到過濾后的文本信息之后，還包括: 提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞，確定為所述文本信息的標(biāo)簽；根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述將待處理的各文本信息順序排列，且拆分為單字之前還包括: 根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類，形成至少兩組待處理的文本信息；在所述則在從合并的各字符串中提取核心關(guān)鍵詞之后，還包括: 比較各組待處理文本信息的核心關(guān)鍵詞是否相同，將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
7.一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理裝置，其特征在于，包括: 單字拆分模塊，用于將待處理的各文本信息順序排列，且拆分為單字；字符串合并模塊，用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，且將剩余的單字合并為字符串；關(guān)鍵詞提取|吳塊，用于從合并的各字符串中提取核心關(guān)鍵詞。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述單字拆分模塊包括: 間隔符設(shè)置單元，用于將待處理的各文本信息順序排列，每個(gè)文本信息之間設(shè)置間隔符; 拆分單元，用于依據(jù)所述間隔符將每個(gè)文本信息拆分為單字；所述字符串合并模塊包括: 間隔符替換單元，用于根據(jù)每個(gè)單字的頻率將設(shè)定頻率的單字去除，去除的單字以間隔符替換；合并單元，用于在剩余的單字中，將間隔符之間的連續(xù)單字合并為一個(gè)字符串；所述關(guān)鍵字提取模塊包括: 字符串刪除單元，用于從合并的各字符串中，將字符的數(shù)量小于設(shè)定閾值的字符串刪除；提取單兀，用于在剩余的字符串中，提取頻率最聞的一個(gè)字符串作為核心關(guān)鍵詞；所述裝置還包括:重復(fù)執(zhí)行模塊，用于在提取頻率最高的一個(gè)字符串作為核心關(guān)鍵詞之后，從待處理的各文本信息中以間隔符替換所述核心關(guān)鍵詞，觸發(fā)重復(fù)執(zhí)行上述拆分單字、合并字符串和提取核心關(guān)鍵詞的操作；所述裝置還包括:文本信息刪除模塊，用于在從合并的各字符串中提取核心關(guān)鍵詞之后，從新增文本信息中刪除未包含核心關(guān)鍵詞的文本信息；` 過濾文本信息模塊，用于在剩余的每個(gè)文本信息中，確定非核心關(guān)鍵詞與核心關(guān)鍵詞的出現(xiàn)比例，且刪除比例低于設(shè)定比例值的文本信息，以得到過濾后的文本信息。
9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，還包括: 標(biāo)簽確定模塊，用于在得到過濾后的文本信息之后，提取每個(gè)過濾后文本信息中的核心關(guān)鍵詞，確定為所述文本信息的標(biāo)簽；分組模塊，用于根據(jù)標(biāo)簽將各過濾后的文本信息進(jìn)行分組。
10.根據(jù)權(quán)利要求7所述的裝置，其特征在于，還包括: 文本信息處理模塊，用于在所述將待處理的各文本信息順序排列，且拆分為單字之前，根據(jù)待處理文本信息的屬性將文本信息進(jìn)行分類，形成至少兩組待處理的文本信息；核心關(guān)鍵詞確定模塊，用于在所述從合并的各字符串中提取核心關(guān)鍵詞之后，比較各組待處理文本信息的核心關(guān)鍵詞是否相同，將不同的核心關(guān)鍵詞確定為該組待處理文本信息所對(duì)應(yīng)屬性的核心關(guān)鍵詞。
【文檔編號(hào)】G06F17/27GK103631963SQ201310696077
【公開日】2014年3月12日申請(qǐng)日期:2013年12月18日優(yōu)先權(quán)日:2013年12月18日
【發(fā)明者】裴向宇, 田傳釗, 王漢生, 李紅波, ?，? 申請(qǐng)人:北京博雅立方科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：裴向宇;田傳釗;王漢生;李紅波;?，?/span>
技術(shù)所有人：北京博雅立方科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

關(guān)鍵詞優(yōu)化方法相關(guān)技術(shù)

web關(guān)鍵詞優(yōu)化方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于大數(shù)據(jù)的關(guān)鍵詞優(yōu)化處理方法及裝置制造方法