關(guān)鍵詞分組方法及系統(tǒng)的制作方法

文檔序號：6441397閱讀：461來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：關(guān)鍵詞分組方法及系統(tǒng)的制作方法
關(guān)鍵詞分組方法及系統(tǒng)
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)，尤其涉及一種關(guān)鍵詞分組方法及系統(tǒng)。
背景技術(shù)：
網(wǎng)絡(luò)推廣技術(shù)是隨搜索引擎的發(fā)展而發(fā)展起來的一種技術(shù)，例如百度推廣、Google關(guān)鍵字廣告(AdWords)和廣告聯(lián)盟(AdSense)等。在網(wǎng)絡(luò)推廣中,推廣單元是管理關(guān)鍵詞和創(chuàng)意的小單位。關(guān)鍵詞可以是產(chǎn)品詞、通俗詞、地域詞、品牌詞等，在建立推廣單元時，一般將意義相近、結(jié)構(gòu)相同的關(guān)鍵詞納入同一個推廣單元中，以便有針對性地撰寫創(chuàng)意。創(chuàng)意是指用于在網(wǎng)民利用搜索詞搜索得到推廣結(jié)果后觸發(fā)時，展現(xiàn)在網(wǎng)民面前的推廣內(nèi)容，創(chuàng)意的內(nèi)容是針對關(guān)鍵詞撰寫，一般包括標(biāo)題、描述，以及訪問URL和顯示URL。關(guān)鍵詞用來定位潛在客戶，創(chuàng)意則用來吸引潛在客戶訪問網(wǎng)站，并在瀏覽網(wǎng)站的基礎(chǔ)上進一步了解所提供的產(chǎn)品/服務(wù)，進而采取轉(zhuǎn)化行為，如注冊，在線提交訂單，電話咨詢，上門訪問等。創(chuàng)意質(zhì)量將在很大程度上影響關(guān)鍵詞的點擊率，并通過質(zhì)量度進一步影響推廣費用和推廣效果。由此可見，關(guān)鍵詞與推廣創(chuàng)意的對應(yīng)關(guān)系是影響搜索推廣賬戶質(zhì)量的重要因素，建立準(zhǔn)確的關(guān)鍵詞與創(chuàng)意的對應(yīng)關(guān)系可以有效的提聞廣告質(zhì)量，從而進一步提聞廣告的點擊率以及轉(zhuǎn)化效率，增強客戶的推廣效果。然而，推廣賬戶的用戶在選擇關(guān)鍵詞時，由于缺乏經(jīng)驗等因素，可能會選擇到不符合網(wǎng)民搜索行為和點擊習(xí)慣的關(guān)鍵詞，無法很好地與相關(guān)創(chuàng)意進行匹配。而現(xiàn)有技術(shù)并不會對推廣單元的關(guān)鍵詞與創(chuàng)意的對應(yīng)關(guān)系進行調(diào)整，當(dāng)在搜索引擎中輸入搜索詞檢索信息時，系統(tǒng)根據(jù)輸入的搜索詞來投放與該搜索詞命中的關(guān)鍵詞相匹配的網(wǎng)絡(luò)廣告(創(chuàng)意)，如果推廣賬戶內(nèi)的關(guān)鍵詞不能與搜索詞相匹配，與該關(guān)鍵詞對應(yīng)的創(chuàng)意則不能被顯示出來。由于現(xiàn)有技術(shù)不會對關(guān)鍵詞進行自動分組，當(dāng)關(guān)鍵詞選得不好或者關(guān)鍵詞分組不符合網(wǎng)民搜索行為和點擊習(xí)慣，則將使得搜索詞始終無法匹配到相關(guān)創(chuàng)意內(nèi)容，導(dǎo)致廣告投放的效果不佳。

發(fā)明內(nèi)容為了解決上述問題，本發(fā)明提供了一種關(guān)鍵詞分組方法及系統(tǒng)，對推廣賬戶內(nèi)的關(guān)鍵詞進行重組，建立新的關(guān)鍵詞與創(chuàng)意的對應(yīng)關(guān)系，提聞關(guān)鍵詞與創(chuàng)意之間匹配關(guān)系的準(zhǔn)確度。具體技術(shù)方案如下:本發(fā)明實施例提供的一種關(guān)鍵詞分組方法，預(yù)先從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型，所述關(guān)鍵詞分類模型包括關(guān)鍵詞的屬性及屬性的權(quán)值；所述方法包括:A、利用關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值；
B、根據(jù)關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞；C、分別以各分類的種子詞為核心，基于各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實施例，預(yù)先從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型具體包括:S101、獲取搜索日志的搜索詞，并對搜索詞進行分詞處理和過濾處理得到關(guān)鍵詞；S102、提取步驟SlOl所得到的關(guān)鍵詞的屬性作為分類特征，所述關(guān)鍵詞的屬性包括關(guān)鍵詞的字面、詞義和詞性；S103、為提取得到的各分類特征賦予對應(yīng)的權(quán)值，建立所述關(guān)鍵詞分類模型。根據(jù)本發(fā)明之一優(yōu)選實施例，所述關(guān)鍵詞的權(quán)值為:關(guān)鍵詞的屬性以及關(guān)鍵詞的各屬性的權(quán)值構(gòu)成的特征向量。根據(jù)本發(fā)明之一優(yōu)選實施例，所述關(guān)鍵詞與創(chuàng)意之間語義匹配度由關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度以及關(guān)鍵詞與創(chuàng)意在語義上的搭配度中的一種或組合確定；其中所述關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度通過該關(guān)鍵詞與創(chuàng)意中各詞語的語義相關(guān)性，或者通過該關(guān)鍵詞與創(chuàng)意中詞語的共現(xiàn)概率來計算；所述關(guān)鍵詞與創(chuàng)意在語義上的搭配度通過關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率來計算。根據(jù)本發(fā)明之一優(yōu)選實施例，在執(zhí)行所述步驟B之前，還包括:對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞；其中關(guān)鍵詞的商業(yè)價值通過關(guān)鍵詞在搜索日志中的檢索量、點擊率、平均點擊價格以及展現(xiàn)量中的至少一種體現(xiàn)。根據(jù)本發(fā)明之一優(yōu)選實施例，所述聚類是計算當(dāng)前推廣賬戶中剩余的關(guān)鍵詞與各個種子詞之間的差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中；其中關(guān)鍵詞與種子詞之間的差異度為:關(guān)鍵詞與種子詞之間各屬性的權(quán)值之差，或者，關(guān)鍵詞的屬性和屬性的權(quán)值構(gòu)成的特征向量與種子詞的屬性和屬性的權(quán)值構(gòu)成的特征向量之間的相似度。根據(jù)本發(fā)明之一優(yōu)選實施例，所述預(yù)設(shè)匹配度要求包括:與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度排在前NI個，NI為預(yù)設(shè)正整數(shù)；或者，與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度大于預(yù)設(shè)閾值。相應(yīng)地，本發(fā)明實施例提供一種關(guān)鍵詞分組系統(tǒng)，包括:分類模型建立模塊，用于從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型，所述關(guān)鍵詞分類模型包括關(guān)鍵詞的屬性及屬性的權(quán)值；分類模塊，用于利用分類模型建立模塊得到的關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值；種子詞模塊，用于根據(jù)關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞；
聚類模塊，用于以所述種子詞模塊得到的種子詞為核心，基于各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實施例，所述分類模型建立模塊包括:獲取搜索詞子模塊，用于獲取搜索日志的搜索詞，并對搜索詞進行分詞處理和過濾處理得到關(guān)鍵詞；特征提取子模塊，用于提取所述獲取搜索詞子模塊所得到的關(guān)鍵詞的屬性作為分類特征，所述關(guān)鍵詞的屬性包括關(guān)鍵詞的字面、詞義和詞性；權(quán)值計算子模塊，用于為提取得到的各分類特征賦予對應(yīng)的權(quán)值，建立所述關(guān)鍵詞分類模型。根據(jù)本發(fā)明之一優(yōu)選實施例，所述分類模塊確定的各關(guān)鍵詞的權(quán)值為:關(guān)鍵詞的屬性以及各屬性的權(quán)值構(gòu)成的特征向量。根據(jù)本發(fā)明之一優(yōu)選實施例，該系統(tǒng)還包括語義匹配度模塊，用于計算關(guān)鍵詞與創(chuàng)意之間語義匹配度，所述關(guān)鍵詞與創(chuàng)意之間語義匹配度由關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度以及關(guān)鍵詞與創(chuàng)意在語義上的搭配度中的一種或組合確定；其中所述關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度通過該關(guān)鍵詞與創(chuàng)意中各詞語的語義相關(guān)性，或者通過該關(guān)鍵詞與創(chuàng)意中詞語的共現(xiàn)概率來計算；所述關(guān)鍵詞與創(chuàng)意在語義上的搭配度通過關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率來計算。根據(jù)本發(fā)明之一優(yōu)選實施例，該系統(tǒng)還包括:關(guān)鍵詞過濾模塊，用于對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞，將過濾后的關(guān)鍵詞為所述種子詞模塊所用；其中關(guān)鍵詞的商業(yè)價值通過關(guān)鍵詞在搜索日志中的檢索量、點擊率、平均點擊價格以及展現(xiàn)量中的至少一種體現(xiàn)。根據(jù)本發(fā)明之一優(yōu)選實施例，所述聚類模塊通過計算所述關(guān)鍵詞與各個種子詞之間的差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中或者最相似的種子詞所屬分類中；其中關(guān)鍵詞與種子詞之間的差異度為:關(guān)鍵詞與種子詞之間各屬性的權(quán)值之差，或者，關(guān)鍵詞的屬性和屬性的權(quán)值構(gòu)成的特征向量與種子詞的屬性和屬性的權(quán)值構(gòu)成的特征向量之間的相似度。根據(jù)本發(fā)明之一優(yōu)選實施例，所述預(yù)設(shè)匹配度要求包括:與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度排在前NI個，NI為預(yù)設(shè)正整數(shù)；或者，與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度大于預(yù)設(shè)閾值。由以上技術(shù)方案可以看出，本發(fā)明提供的一種關(guān)鍵詞分組方法及系統(tǒng)，篩選出推廣賬戶中與創(chuàng)意對應(yīng)表現(xiàn)最好的關(guān)鍵詞作為分組種子詞，基于種子詞的詞型和詞義進行賬戶內(nèi)的關(guān)鍵詞重組，建立新的關(guān)鍵詞與創(chuàng)意的對應(yīng)關(guān)系，提聞了關(guān)鍵詞與創(chuàng)意之間匹配關(guān)系的準(zhǔn)確度，更符合網(wǎng)民的搜索行為和點擊習(xí)慣，從而更進一步提高客戶網(wǎng)頁的點擊率和轉(zhuǎn)化效率。

圖1是本發(fā)明實施例提供的關(guān)鍵詞分組方法的流程圖；圖2是本發(fā)明實施例提供的建立關(guān)鍵詞分類模型的流程圖；圖3是本發(fā)明實施例2的關(guān)鍵詞分組結(jié)果示意圖；圖4是本發(fā)明實施例提供的關(guān)鍵詞分組系統(tǒng)的框圖；圖5是本發(fā)明實施例提供的關(guān)鍵詞分類模型的框圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。種子詞是指描述產(chǎn)品或服務(wù)特征最常使用、最相關(guān)的詞或短語，是核心關(guān)鍵詞。例如對于英語培訓(xùn)業(yè)務(wù)，網(wǎng)民在表達需求時所用的搜索詞中很可能會包含“英語”這個關(guān)鍵詞，可以將“英語”作為種子詞。推廣賬戶的一般結(jié)構(gòu)模型為:一個推廣賬戶包括多個推廣計劃，一個推廣計劃里包括多個推廣單元，每個推廣單元內(nèi)包括多個關(guān)鍵詞，每個推廣單元中可以包括多條與關(guān)鍵詞相關(guān)的創(chuàng)意。將意義相近(如:雅思培訓(xùn)-雅思英語培訓(xùn))、結(jié)構(gòu)相同(如:學(xué)英語-提高英語)的關(guān)鍵詞劃分到同一推廣單元。關(guān)鍵詞與創(chuàng)意的相關(guān)性越強，說明推廣結(jié)果的針對性越強，越能滿足網(wǎng)民的搜索需求，推廣質(zhì)量越高。從統(tǒng)計意義上來說，相關(guān)性和通順度聞的結(jié)果，關(guān)鍵詞的質(zhì)量度會聞。本發(fā)明提供的關(guān)鍵詞分組方法及系統(tǒng)，從推廣賬戶中篩選出與創(chuàng)意對應(yīng)表現(xiàn)最好的關(guān)鍵詞作為分組種子詞，基于種子詞的詞型和詞義進行賬戶內(nèi)的關(guān)鍵詞重組，建立新的關(guān)鍵詞與創(chuàng)意的對應(yīng)關(guān)系，以便于更符合網(wǎng)民的搜索行為和點擊習(xí)慣。

如圖1所示，圖1為本發(fā)明實施例提供的關(guān)鍵詞分組方法的流程圖，具體包括以下步驟:S1、預(yù)先從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型，所述關(guān)鍵詞分類模型包括關(guān)鍵詞的屬性及屬性的權(quán)值。建立關(guān)鍵詞分類模型主要是構(gòu)造分類器，將一定規(guī)模的搜索日志作為輸入的訓(xùn)練樣本集，提取訓(xùn)練樣本集中的屬性或特征組成特征向量，通過統(tǒng)計方法、機器學(xué)習(xí)方法或神經(jīng)網(wǎng)絡(luò)方法進行訓(xùn)練，得到特征向量對應(yīng)的權(quán)值。在建立好的關(guān)鍵詞分類模型后，則可以利用該關(guān)鍵詞分類模型對新的關(guān)鍵詞進行分類。如圖2所示，圖2為本發(fā)明實施例提供的建立關(guān)鍵詞分類模型的流程圖，具體包括:S101、獲取搜索日志的搜索詞，并對搜索詞進行分詞處理和過濾處理得到關(guān)鍵詞。獲取搜索日志的搜索詞，首先進行分詞得到詞項集合，并對詞項集合進行過濾，去掉集合中的停用詞，如助詞、介詞等，得到關(guān)鍵詞。S102、提取步驟SlOl所得到的關(guān)鍵詞的屬性作為分類特征，所述關(guān)鍵詞的屬性包括關(guān)鍵詞的字面、詞義和詞性。關(guān)鍵詞的字面是指經(jīng)過分詞處理直接得到的詞項，比如，對于搜索詞“世界杯足球賽”可以提取得到“世界杯” “足球賽”詞項。對于搜索詞“復(fù)讀真的好嗎”可以提取得到“復(fù)讀” “好”詞項。
關(guān)鍵詞的詞義是指根據(jù)語義關(guān)系確定與關(guān)鍵詞相關(guān)聯(lián)的詞項，包括關(guān)鍵詞的同義詞。比如，“電腦”是“計算機”的同義詞，在分類時，可以利用同義詞詞典進行判別，將關(guān)鍵詞“計算機”的同義詞“電腦”也作為分類特征。另外，在自然語言中，能夠起到特性標(biāo)識作用的往往是關(guān)鍵詞或文本中的實詞，如名詞、動詞、形容詞等，而一些虛詞，如感嘆詞、介詞、連詞等，對于特性標(biāo)識并沒有貢獻，對確定關(guān)鍵詞分類沒有意義。因此，在提取關(guān)鍵詞時，主要提取對于類別特性表現(xiàn)力強的名詞和動詞。因而，將關(guān)鍵詞的詞性作為分類特征。S103、為提取得到的各分類特征賦予對應(yīng)的權(quán)值，建立關(guān)鍵詞分類模型。在選取訓(xùn)練樣本集后，根據(jù)步驟S102中提取的分類特征包括關(guān)鍵詞的字面、詞義和詞性，可以根據(jù)不同的計算方法，如統(tǒng)計方法、機器學(xué)習(xí)方法或神經(jīng)網(wǎng)絡(luò)方法等進行計算，得到關(guān)鍵詞字面、語義、詞性對應(yīng)的權(quán)值，從而建立關(guān)鍵詞分類模型。比如，采用BM25概率模型、詞頻-倒文檔率(TF-1DF)等計算方法得到關(guān)鍵詞的字面和詞義特征對應(yīng)的權(quán)值，采用經(jīng)驗統(tǒng)計的方法得到關(guān)鍵詞的詞性特征對應(yīng)的權(quán)值，還可以采用機器學(xué)習(xí)方法，如貝葉斯方法、最大熵方法或SVM(Support Vector Machine,支持向量機)等,來計算關(guān)鍵詞的各個特征對應(yīng)的權(quán)值。例如，在本發(fā)明一實施例中，采用概率潛在語義分析(PLSA)通過機器訓(xùn)練得到各分類特征對應(yīng)的權(quán)值，得到關(guān)鍵詞分類模型。PLSA是基于多項式分布和條件分布的混合來建模共現(xiàn)的概率，通過計算關(guān)鍵詞的共現(xiàn)關(guān)系，與潛在主題詞(潛在類)相關(guān)聯(lián)的概率來計算的。PLSA模型中的潛在主題體現(xiàn)了關(guān)鍵詞(可以看成短文本)的語義類別信息，可以求解得到詞與詞之間共現(xiàn)的概率值，得到相關(guān)度矩陣。例如，“初三復(fù)讀” “中考復(fù)讀”、“我想復(fù)讀”這些關(guān)鍵詞，與“中學(xué)” “考試” “學(xué)?！钡葷撛谥黝}詞有不同的概率分布，經(jīng)過訓(xùn)練可以得到各個關(guān)鍵詞與潛在主題詞相關(guān)聯(lián)的概率，形成相關(guān)度矩陣。利用PLSA的訓(xùn)練結(jié)果得到的概率值作為關(guān)鍵詞各個分類特征對應(yīng)的權(quán)值，即得到了關(guān)鍵詞分類模型。建立的關(guān)鍵詞分類模型可以采用現(xiàn)有的boost或SVM或KNN分類器等分類器實現(xiàn)。繼續(xù)參見圖1S2、利用關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值。選取任意推廣賬戶，對選取的當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞，利用建立好的關(guān)鍵詞分類模型進行分類，基于關(guān)鍵詞的屬性從關(guān)鍵詞分類模型中得到關(guān)鍵詞的權(quán)值。所述關(guān)鍵詞的權(quán)值包括:對應(yīng)于關(guān)鍵詞的屬性，由各個屬性的權(quán)值構(gòu)成特征向量，采用特征向量的表示形式，如，表示為{terml,權(quán)值I, term2,權(quán)值2,......}。另外，在建立關(guān)鍵詞分類模型時，也可以只選取字面、詞義或詞性中的一種或兩種屬性作為分類特征，經(jīng)過訓(xùn)練得到屬性的權(quán)值。例如，僅以關(guān)鍵詞的詞義為分類特征時，利用TF-1DF等計算方法得到對應(yīng)的權(quán)值，建立關(guān)鍵詞分類模型。經(jīng)過本步驟S2時，利用該關(guān)鍵詞分類模型可以得到詞義這一屬性的權(quán)值，則直接將該屬性的權(quán)值作為關(guān)鍵詞的權(quán)值。對于選取多個分類特征的情形，也可以先對關(guān)鍵詞的屬性和屬性的權(quán)值采用加權(quán)的方式得到加權(quán)值，用該加權(quán)值作為關(guān)鍵詞的權(quán)值。S3、對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞。
其中，關(guān)鍵詞的商業(yè)價值通過關(guān)鍵詞在搜索日志中的檢索量、點擊率、平均點擊價格以及展現(xiàn)量中的至少一種體現(xiàn)。所述對推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾的方式包括:根據(jù)關(guān)鍵詞檢索量，選取符合預(yù)設(shè)檢索量要求的關(guān)鍵詞。檢索量是在一段時間內(nèi)，網(wǎng)民用該關(guān)鍵詞進行檢索的次數(shù)。關(guān)鍵詞檢索量越大，越受到網(wǎng)民的關(guān)注，其包含商業(yè)價值通常較大。比如，“哈利波特7” 一天的檢索量可能就有幾十萬。可以選擇檢索量符合預(yù)設(shè)檢索量要求的關(guān)鍵詞，例如可以選擇當(dāng)天的檢索量大于或等于預(yù)設(shè)的檢索量閾值的關(guān)鍵詞，比如，當(dāng)天預(yù)設(shè)的檢索量閾值是I萬，則選擇日檢索量大于或等于I萬的關(guān)鍵詞，去掉日檢索量小于I萬的關(guān)鍵詞。根據(jù)關(guān)鍵詞的點擊率，選取符合預(yù)設(shè)點擊率要求的關(guān)鍵詞。點擊率是指與關(guān)鍵詞相對應(yīng)的創(chuàng)意被網(wǎng)民點擊的次數(shù)與關(guān)鍵詞出現(xiàn)在搜索結(jié)果頁上的次數(shù)的比值，即點擊量與展現(xiàn)量的比值。通常，點擊率越大，表明越能吸引網(wǎng)民的注意，其蘊含的商業(yè)價值通常較高。同樣地，可以選擇點擊率符合預(yù)設(shè)點擊率要求的關(guān)鍵詞，例如可以選擇點擊率大于或等于預(yù)設(shè)的點擊率閾值的關(guān)鍵詞，比如，設(shè)定點擊率閾值為30%，則選擇點擊率大于或等于30%的關(guān)鍵詞，去掉點擊率小于30%的關(guān)鍵詞。根據(jù)關(guān)鍵詞的平均點擊價格，選取符合預(yù)設(shè)點擊價格要求的關(guān)鍵詞。平均點擊價格是指一段時間內(nèi)關(guān)鍵詞對應(yīng)的創(chuàng)意被點擊時支付給搜索引擎供應(yīng)商的價格的平均值。隨著競爭關(guān)系趨于一個穩(wěn)定的范圍，關(guān)鍵詞的平均點擊價格通常在一定區(qū)間范圍內(nèi)波動。出現(xiàn)平均點擊價格過高或者過低，可能是由于競爭太激烈或者有其他非正常的原因?qū)е曼c擊價格出現(xiàn)極端。平均點擊價格太高，用戶花費與其實際回報不能對應(yīng)；平均點擊價格太低，通常是由于關(guān)鍵詞設(shè)置得不夠合理。因而，可以選擇平均點擊價格在一個預(yù)設(shè)區(qū)間內(nèi)的關(guān)鍵詞，去掉平均點擊價格處于兩端的關(guān)鍵詞，選擇商業(yè)價值較高的關(guān)鍵詞。或者，根據(jù)關(guān)鍵詞的展現(xiàn)量，選取符合預(yù)設(shè)展現(xiàn)量要求的關(guān)鍵詞。關(guān)鍵詞的展現(xiàn)量指在網(wǎng)民進行搜索查詢時，與關(guān)鍵詞相對應(yīng)的創(chuàng)意出現(xiàn)在搜索結(jié)果頁上的次數(shù)。出現(xiàn)的次數(shù)越多，即展現(xiàn)量越大時，關(guān)鍵詞對應(yīng)的創(chuàng)意才越有可能被網(wǎng)民點擊，才能吸引網(wǎng)民的關(guān)注，其商業(yè)價值通常較高。同樣地，可以選擇展現(xiàn)量符合預(yù)設(shè)展現(xiàn)量要求的關(guān)鍵詞，例如可以選擇展現(xiàn)量大于或等于預(yù)設(shè)的展現(xiàn)量閾值的關(guān)鍵詞，比如，設(shè)定展現(xiàn)量閾值為5千次，則選擇展現(xiàn)量大于或等于5千次的關(guān)鍵詞，去掉展現(xiàn)量少于5千次的關(guān)鍵詞。值得一提的是，上述的商業(yè)價值過濾方式可以采用多種方式結(jié)合使用，也可以只采用其中的一種。針對不同應(yīng)用場景中，可以先確定其影響因素，比如對于某購物類的網(wǎng)站，其主要關(guān)注的可能是關(guān)鍵詞的展現(xiàn)量以及點擊率，因而選取關(guān)鍵詞的展現(xiàn)量和點擊率作為影響因素；再根據(jù)影響因素確定商業(yè)價值過濾標(biāo)準(zhǔn)。對應(yīng)不同應(yīng)用場景的關(guān)鍵詞數(shù)據(jù)，得到不同商業(yè)價值過濾標(biāo)準(zhǔn)。該步驟是對選取種子詞的預(yù)處理，只有商業(yè)價值高的關(guān)鍵詞，才能被選為種子詞，可以避免選擇到一些商業(yè)價值較低的關(guān)鍵詞作為種子詞。值得一提的是，步驟S3的商業(yè)價值過濾操作也可先于步驟S2執(zhí)行，即先對關(guān)鍵詞進行商業(yè)價值過濾后，再利用關(guān)鍵詞分類模型進行分類。S4、根據(jù)關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞。
創(chuàng)意要求語句通順、符合邏輯，當(dāng)關(guān)鍵詞與創(chuàng)意搭配不當(dāng)時，就會產(chǎn)生創(chuàng)意不通順，表明關(guān)鍵詞與創(chuàng)意的相關(guān)性較差，可能導(dǎo)致不能獲得好的搜索結(jié)果，甚至完全不出現(xiàn)在搜索結(jié)果中。關(guān)鍵詞經(jīng)過商業(yè)價值過濾后，則選取關(guān)鍵詞與創(chuàng)意語義匹配度較好的關(guān)鍵詞作為種子詞。所述語義匹配度是指關(guān)鍵詞與創(chuàng)意在句法分析中的匹配模式中詞與詞之間語義搭配的概率，可以通過以下兩種計算方法中的一種或組合形式得到:第一、計算關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度。關(guān)鍵詞代入到創(chuàng)意通配符中的通順度的計算方式是基于通順度計算模型來計算的，即通過該關(guān)鍵詞與創(chuàng)意中各詞語的語義相關(guān)性來計算，或者通過該關(guān)鍵詞與創(chuàng)意中詞語的共現(xiàn)概率來計算。舉個例子，推廣單元中有關(guān)鍵詞“ 口語培訓(xùn)班” “口語班” “英語外教班”，其對應(yīng)的創(chuàng)意為“H幫你成就流利口語——北京H，快來***英語培訓(xùn)機構(gòu)，獨創(chuàng) ο大英語學(xué)習(xí)模式，幫助上萬學(xué)員成就流利口語夢想。”其中“ {} ”為通配符，可以將關(guān)鍵詞代入到所有通配符中，形成創(chuàng)意。可以看出，該創(chuàng)意是針對口語班進行描述的，計算得到關(guān)鍵詞“ 口語培訓(xùn)班” “口語班”與創(chuàng)意中各詞語的語義相關(guān)性較好，因而對于該創(chuàng)意來說，關(guān)鍵詞“口語培訓(xùn)班” “ 口語班”是通順的關(guān)鍵詞。計算得到關(guān)鍵詞“英語外教班”與該創(chuàng)意中各詞語的語義相關(guān)性較差，可以預(yù)先設(shè)定一個相關(guān)性閾值，當(dāng)計算得到的語義相關(guān)性小于該閾值時，可以認(rèn)為“英語外教班”為不通順的關(guān)鍵詞。第二、計算關(guān)鍵詞與對應(yīng)創(chuàng)意在語義上的搭配度。計算關(guān)鍵詞與對應(yīng)創(chuàng)意在語義上的搭配度是利用語義處理模型，通過關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率來計算。利用關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率對該關(guān)鍵詞進行打分，通過該打分值體現(xiàn)搭配度。語義處理模型是根據(jù)漢語實詞的語義分類體系建立的表征詞與詞之間語義搭配關(guān)系的通用字典。它是基于本位語法，利用漢語實詞的語義分類體系，將所有的詞組織成一定的層次結(jié)構(gòu)中，形成一個像樹一樣的分類體系。語義處理模型中對具體實詞逐個進行了語義類屬性標(biāo)記，并根據(jù)語義類屬性標(biāo)記確定詞與詞之間的語義搭配關(guān)系。一個詞允許分屬于不同的語義類，在描述詞與詞之間語義搭配關(guān)系時，對于用法受限的詞語，描述則具體到詞，以詞對詞的方式進行描述；對于不好確定具體搭配詞項的詞語，描述則采用上層語義類，以詞對類的方式進行描述。因而有描述動詞與受其支配的名詞、形容詞與受其支配的名詞、名詞與受其支配的其他名詞之間的語義搭配關(guān)系。比如，教師屬于人，也屬于職位，還屬于教育等不同的類別。通過關(guān)鍵詞與其對應(yīng)創(chuàng)意的搭配與語義處理模型的語義搭配關(guān)系，來對關(guān)鍵詞進行打分。如果關(guān)鍵詞與創(chuàng)意的搭配有在該機器字典中出現(xiàn)過，說明該拍賣詞與創(chuàng)意的搭配符合語義處理模型規(guī)則，打分就高，通過該打分值體現(xiàn)語義搭配度。通過上述任一方法或其結(jié)合，可以得到關(guān)鍵詞與創(chuàng)意語義匹配度，從各個分類的關(guān)鍵詞中選出賬戶內(nèi)關(guān)鍵詞與創(chuàng)意的語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞。所述預(yù)設(shè)匹配度要求包括:與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度排在前NI個的關(guān)鍵詞，NI為預(yù)設(shè)正整數(shù)，比如，當(dāng)NI = I時，則在一個關(guān)鍵詞分類中只選取與其對應(yīng)創(chuàng)意的語義匹配度最好的關(guān)鍵詞作為種子詞；或者，與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度大于預(yù)設(shè)閾值。
值得一提的是，關(guān)鍵詞與創(chuàng)意語義匹配度也可以采用預(yù)先計算的方式，根據(jù)語義處理模型，預(yù)先計算出廣告庫中所有關(guān)鍵詞與對應(yīng)創(chuàng)意的語義匹配度，如圖中步驟S41。S5、分別以各分類的種子詞為核心，基于各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。所述聚類是通過計算關(guān)鍵詞與各個種子詞之間的差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中或者最相似的種子詞所屬分類中。其中，關(guān)鍵詞與種子詞之間的差異度為:關(guān)鍵詞與種子詞之間各屬性的權(quán)值之差，或者，關(guān)鍵詞的屬性和屬性的權(quán)值組成的特征向量與種子詞的屬性和屬性的權(quán)值構(gòu)成的特征向量之間的相似度。該關(guān)鍵詞與種子詞的特征向量之間的相似度可以通過內(nèi)積或余弦相似度的方法進行計算，得到關(guān)鍵詞與種子詞的相似度，用該相似度的倒數(shù)來表示關(guān)鍵詞與種子詞之間的差異度，相似度越大，差異度越小。值得一提的是，所述任意推廣賬戶內(nèi)的關(guān)鍵詞包括拍賣詞和擴展得到的新增的關(guān)鍵詞。拍賣詞是指曾有用戶購買過的關(guān)鍵詞，只要是有用戶買過的關(guān)鍵詞都屬于拍賣詞。對于系統(tǒng)根據(jù)推廣賬戶內(nèi)的關(guān)鍵詞(或拍賣詞)進行相應(yīng)地擴展得到的新增的關(guān)鍵詞也可以采用本發(fā)明提供的關(guān)鍵詞分組方法，完成新增的關(guān)鍵詞分組過程。這個過程是將新增的關(guān)鍵詞添加到所選取的推廣賬戶中去，而后根據(jù)關(guān)鍵詞分類模型進行分類，對每一類關(guān)鍵詞進行商業(yè)價值過濾，根據(jù)語義處理模型選取種子詞，最后以種子詞為核心，以關(guān)鍵詞與種子詞之間的差異度來進行聚類，完成關(guān)鍵詞分組。這個過程可以通過機器自動完成，替代人工進行關(guān)鍵詞分組，可以節(jié)約系統(tǒng)時間，提高效率。例1:某一推廣賬戶內(nèi)包括2個推廣單元，其中:推廣單元I的關(guān)鍵詞為“ 口語培訓(xùn)班” “口語班” “英語外教班”，對應(yīng)的創(chuàng)意I為:“H幫你成就流利口語一北京H，快來***英語培訓(xùn)機構(gòu)，獨創(chuàng)10大英語學(xué)習(xí)模式，幫助上萬學(xué)員成就流利口語夢想?！蓖茝V單元2的關(guān)鍵詞為“外教班”，對應(yīng)的創(chuàng)意2為:“ {} 100%純正英語環(huán)境一北京H，快選***外教英語，資深外籍教師，純正英語，教學(xué)經(jīng)驗豐富，一周免費試聽外教課！ ”擴展詞包括“進階口語班” “基礎(chǔ)口語班” “暑期外教班”。首先，對推廣賬戶內(nèi)的關(guān)鍵詞利用關(guān)鍵詞分類模型進行分類，確定關(guān)鍵詞的屬性和權(quán)值。擴展后推廣賬戶內(nèi)的關(guān)鍵詞包括“ 口語培訓(xùn)班” “口語班” “進階口語班” “基礎(chǔ)口語班” “英語外教班” “外教班” “暑期外教班”，利用關(guān)鍵詞分類模型進行分類，確定關(guān)鍵詞的屬性和權(quán)值。最后分類為:關(guān)鍵詞“ 口語培訓(xùn)班”對應(yīng)權(quán)值1，“ 口語班”對應(yīng)權(quán)值2，“進階口語班”對應(yīng)權(quán)值3，“基礎(chǔ)口語班”對應(yīng)權(quán)值4，“英語外教班”對應(yīng)權(quán)值5，“外教班”對應(yīng)權(quán)值6，“暑期外教班”對應(yīng)權(quán)值6。第二，對推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞。比如，假設(shè)“進階口語班”的點擊率非常小，在進行商業(yè)價值過濾時，則會被過濾掉。比如，“基礎(chǔ)口語班”“暑期外教班”的檢索量可能非常小，則也會被過濾掉。最后得到的關(guān)鍵詞有:“ 口語培訓(xùn)班” “口語班” “英語外教班” “外教班”。第三，根據(jù)關(guān)鍵詞與創(chuàng)意語義匹配度，從過濾后的各分類中選出與創(chuàng)意語義匹配度滿足預(yù)設(shè)匹配符要求的關(guān)鍵詞作為種子詞，比如選取語義匹配度最好的關(guān)鍵詞作為種子
ο對應(yīng)于創(chuàng)意1，與其語義匹配度最好的關(guān)鍵詞是“ 口語班”，則將“ 口語班”作為第一類的種子詞。對應(yīng)于創(chuàng)意2，與其語義匹配度最好的關(guān)鍵詞是“外教班”，則將“外教班”作為第三類的種子詞。最后，以種子詞為核心，對推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。計算剩余的各個關(guān)鍵詞與2個種子詞之間差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中或者最相似的種子詞所屬分類中。關(guān)鍵詞與各個種子詞之間的差異度，通過對應(yīng)的權(quán)值之差來表示。例如，當(dāng)計算得到“ 口語培訓(xùn)班”與種子詞“ 口語班”的差異度比“ 口語培訓(xùn)班”與種子詞“外教班”的差異度小，則將“ 口語培訓(xùn)班”聚類到種子詞“ 口語班”所屬分類中。最終，得到的關(guān)鍵詞分類結(jié)果為:組I包括關(guān)鍵詞“ 口語培訓(xùn)班” “口語班” “進階口語班” “基礎(chǔ)口語班”對應(yīng)于創(chuàng)意I ;組2包括關(guān)鍵詞“英語外教班” “外教班” “暑期外教班”對應(yīng)于創(chuàng)意2。原來對應(yīng)創(chuàng)意I的關(guān)鍵詞“英語外教班”經(jīng)過本發(fā)明的分組方法后已對應(yīng)于創(chuàng)意2，更符合用戶的搜索行為。另外對于新增的擴展詞，本發(fā)明可以自動完成分組，無需人工進行匹配操作。例2.
假定用戶的推廣賬戶內(nèi)的關(guān)鍵詞為“初三復(fù)讀”，“中考復(fù)讀”，“我想復(fù)讀”，“復(fù)讀真漫長”，“復(fù)讀真的好嗎 ”，“復(fù)讀應(yīng)該去哪里”這些關(guān)鍵詞對應(yīng)有兩個創(chuàng)意:創(chuàng)意I為“選擇哪所學(xué)校最好？考重點高中！讀XX中復(fù)！ ”和創(chuàng)意2為“首選XX，2011中復(fù)成績又創(chuàng)新
高?！笔紫?，對推廣賬戶內(nèi)的關(guān)鍵詞利用關(guān)鍵詞分類模型進行分類，確定關(guān)鍵詞的屬性及對應(yīng)的權(quán)值，其分類結(jié)果為6個類別，分別是:類別系數(shù)為A的“初三復(fù)讀”，類別系數(shù)為B的“中考復(fù)讀”，類別系數(shù)為C的“我想復(fù)讀”，類別系數(shù)為D的“復(fù)讀真的好嗎”，類別系數(shù)為E的“復(fù)讀應(yīng)該去哪里”以及類別系數(shù)為F的“復(fù)讀真漫長”。從關(guān)鍵詞分類模型中得到關(guān)鍵詞的屬性和對應(yīng)的權(quán)值，并采用特征向量的形式表示。然后，對該推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞。其中，商業(yè)價值過濾是根據(jù)關(guān)鍵詞的檢索量、點擊率、展現(xiàn)量和/或點擊平均價格進行過濾。t匕如，類別系數(shù)為F的“復(fù)讀真漫長”可能因為點擊率差，沒有滿足預(yù)設(shè)的點擊率要求而被過濾掉了。因而，過濾得到的結(jié)果包括:類別系數(shù)為A的“初三復(fù)讀”，類別系數(shù)為B的“中考復(fù)讀”，類別系數(shù)為C的“我想復(fù)讀”，類別系數(shù)為D的“復(fù)讀真的好嗎”以及類別系數(shù)為E的“復(fù)讀應(yīng)該去哪里”。接著，根據(jù)關(guān)鍵詞與創(chuàng)意語義匹配度，從各分類的關(guān)鍵詞中選出與創(chuàng)意語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞。本實施例中，得到與創(chuàng)意I和創(chuàng)意2語義匹配度最好的關(guān)鍵詞，為“中考復(fù)讀”和“復(fù)讀真的好嗎？ ”，作為種子詞。最后，以選取的種子詞為核心，對推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。
先計算每個關(guān)鍵詞與選取的各個種子詞之間的差異度，可以利用關(guān)鍵詞與種子詞的特征向量通過內(nèi)積或余弦相似度進行計算，得到關(guān)鍵詞與種子詞的相似度，該關(guān)鍵詞歸類到相似度最大的種子詞所屬分類中，重復(fù)聚類的過程，直到完成分組。如圖3所示，得到聚類結(jié)果為:聚類I包括“初三復(fù)讀”，“中考復(fù)讀”對應(yīng)于創(chuàng)意2，聚類2包括“我想復(fù)讀”，“復(fù)讀真漫長”，“復(fù)讀真的好嗎”，“復(fù)讀應(yīng)該去哪里”對應(yīng)于創(chuàng)意I。如圖4所示，為本發(fā)明實施例提供的關(guān)鍵詞分組系統(tǒng)的框圖，包括:分類模型建立模塊101，用于從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型，所述關(guān)鍵詞分類模型包括關(guān)鍵詞的屬性及屬性的權(quán)值。建立關(guān)鍵詞分類模型主要是構(gòu)造分類器，將一定規(guī)模的搜索日志作為輸入的訓(xùn)練樣本集，提取訓(xùn)練樣本集中的屬性或特征組成特征向量，通過統(tǒng)計方法、機器學(xué)習(xí)方法或神經(jīng)網(wǎng)絡(luò)方法進行訓(xùn)練，得到特征向量對應(yīng)的權(quán)值。在建立好的關(guān)鍵詞分類模型后，則可以利用該關(guān)鍵詞分類模型對新的關(guān)鍵詞進行分類。如圖5所示，圖5為本發(fā)明實施例提供的關(guān)鍵詞分類模型的框圖，分類模型建立模塊101包括:獲取搜索詞子模塊201，用于獲取搜索日志的搜索詞，并對搜索詞進行分詞處理和過濾處理得到關(guān)鍵詞。獲取搜索詞子模塊201獲取搜索日志的搜索詞，首先進行分詞得到詞項集合，并對詞項集合進行過濾，去掉集合中的停用詞，如助詞、介詞等，得到關(guān)鍵詞。特征提取子模塊202，用于提取獲取搜索詞子模塊201所得到的關(guān)鍵詞的屬性作為分類特征，所述關(guān)鍵詞的屬性包括關(guān)鍵詞的字面、詞義和詞性。其中，關(guān)鍵詞的字面是指經(jīng)過分詞處理直接得到的詞項，比如，對于搜索詞“世界杯足球賽”可以提取得到“世界杯” “足球賽”詞項。對于搜索詞“復(fù)讀真的好嗎”可以提取得到“復(fù)讀” “好”詞項。關(guān)鍵詞的詞義是指根據(jù)語義關(guān)系確定與關(guān)鍵詞相關(guān)聯(lián)的詞項，包括關(guān)鍵詞的同義詞。比如，“電腦”是“計算機”的同義詞，在分類時，可以利用同義詞詞典進行判別，將關(guān)鍵詞“計算機”的同義詞“電腦”也作為分類特征。另外，在自然語言中，能夠起到特性標(biāo)識作用的往往是關(guān)鍵詞或文本中的實詞，如名詞、動詞、形容詞等，而一些虛詞，如感嘆詞、介詞、連詞等，對于特性標(biāo)識并沒有貢獻，對確定關(guān)鍵詞分類沒有意義。因此，在提取關(guān)鍵詞時，主要提取對于類別特性表現(xiàn)力強的名詞和動詞。因而，將關(guān)鍵詞的詞性作為分類特征。權(quán)值計算子模塊203，用于為特征提取子模塊202中提取得到的各分類特征賦予對應(yīng)的權(quán)值，建立關(guān)鍵詞分類模型。在選取訓(xùn)練樣本集后，根據(jù)特征提取子模塊202中提取的分類特征包括關(guān)鍵詞的字面、詞義和詞性，可以根據(jù)不同的計算方法，如統(tǒng)計方法、機器學(xué)習(xí)方法或神經(jīng)網(wǎng)絡(luò)方法等進行計算，得到關(guān)鍵詞字面、語義、詞性對應(yīng)的權(quán)值，從而建立關(guān)鍵詞分類模型。比如，采用BM25概率模型、詞頻-倒文檔率(TF-1DF)等計算方法得到關(guān)鍵詞的字面和詞義特征對應(yīng)的權(quán)值，采用經(jīng)驗統(tǒng)計的方法得到關(guān)鍵詞的詞性特征對應(yīng)的權(quán)值，還可以采用機器學(xué)習(xí)方法，如貝葉斯方法、最大熵方法或SVM(Support Vector Machine,支持向量機)等,來計算關(guān)鍵詞的各個特征對應(yīng)的權(quán)值。
例如，在本發(fā)明一實施例中，采用概率潛在語義分析(PLSA)通過機器訓(xùn)練得到各分類特征對應(yīng)的權(quán)值，得到關(guān)鍵詞分類模型。PLSA是基于多項式分布和條件分布的混合來建模共現(xiàn)的概率，通過計算關(guān)鍵詞的共現(xiàn)關(guān)系，與潛在主題詞(潛在類)相關(guān)聯(lián)的概率來計算的。PLSA模型中的潛在主題體現(xiàn)了關(guān)鍵詞(可以看成短文本)的語義類別信息，可以求解得到詞與詞之間共現(xiàn)的概率值，得到相關(guān)度矩陣。例如，“初三復(fù)讀” “中考復(fù)讀”、“我想復(fù)讀”這些關(guān)鍵詞，與“中學(xué)” “考試” “學(xué)?！钡葷撛谥黝}詞有不同的概率分布，經(jīng)過訓(xùn)練可以得到各個關(guān)鍵詞與潛在主題詞相關(guān)聯(lián)的概率，形成相關(guān)度矩陣。利用PLSA的訓(xùn)練結(jié)果得到的概率值作為關(guān)鍵詞各個分類特征對應(yīng)的權(quán)值，即得到了關(guān)鍵詞分類模型。建立的關(guān)鍵詞分類模型可以采用現(xiàn)有的boost或SVM或KNN分類器等分類器實現(xiàn)。繼續(xù)參見圖4分類模塊103，用于利用分類模型建立模塊得到的關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值。選取任意推廣賬戶，對選取的當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞，利用建立好的關(guān)鍵詞分類模型進行分類，基于關(guān)鍵詞的屬性從關(guān)鍵詞分類模型中得到關(guān)鍵詞的權(quán)值。所述關(guān)鍵詞的權(quán)值為關(guān)鍵詞的屬性以及各屬性的權(quán)值構(gòu)成的特征向量，采用特征向量的表示形式，如，表示為{terml,權(quán)值I, term2,權(quán)值2,......}。另外，在建立關(guān)鍵詞分類模型時，也可以只選取字面、詞義或詞性中的一種或兩種屬性作為分類特征，經(jīng)過訓(xùn)練得到屬性的權(quán)值。例如，僅以關(guān)鍵詞的詞義為分類特征時，利用TF-1DF等計算方法得到對應(yīng)的權(quán)值，建立關(guān)鍵詞分類模型。經(jīng)過本步驟S2時，利用該關(guān)鍵詞分類模型可以得到詞義這一屬性的權(quán)值，則直接將該屬性的權(quán)值作為關(guān)鍵詞的權(quán)值。對于選取多個分類特征的情形，也可以先對關(guān)鍵詞的屬性和屬性的權(quán)值采用加權(quán)的方式得到加權(quán)值，用該加權(quán)值作為關(guān)鍵詞的權(quán)值。關(guān)鍵詞過濾模塊104，用于對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞，將過濾后的關(guān)鍵詞為種子詞模塊105所用。其中，關(guān)鍵詞的商業(yè)價值通過關(guān)鍵詞在搜索日志中的檢索量、點擊率、平均點擊價格以及展現(xiàn)量中的至少一種體現(xiàn)。關(guān)鍵詞過濾模塊104對推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾的方式包括:根據(jù)關(guān)鍵詞檢索量，選取符合預(yù)設(shè)檢索量要求的關(guān)鍵詞。檢索量是在一段時間內(nèi)，網(wǎng)民用該關(guān)鍵詞進行檢索的次數(shù)。關(guān)鍵詞檢索量越大，越受到網(wǎng)民的關(guān)注，其包含商業(yè)價值通常較大。比如，“哈利波特7” 一天的檢索量可能就有幾十萬。可以選擇檢索量符合預(yù)設(shè)檢索量要求的關(guān)鍵詞，例如可以選擇當(dāng)天的檢索量大于或等于預(yù)設(shè)的檢索量閾值的關(guān)鍵詞，比如，當(dāng)天預(yù)設(shè)的檢索量閾值是I萬，則選擇日檢索量大于或等于I萬的關(guān)鍵詞，去掉日檢索量小于I萬的關(guān)鍵詞。根據(jù)關(guān)鍵詞的點擊率，選取符合預(yù)設(shè)點擊率要求的關(guān)鍵詞。點擊率是指與關(guān)鍵詞相對應(yīng)的創(chuàng)意被網(wǎng)民點擊的次數(shù)與關(guān)鍵詞出現(xiàn)在搜索結(jié)果頁上的次數(shù)的比值，即點擊量與展現(xiàn)量的比值。通常，點擊率越大，表明越能吸引網(wǎng)民的注意，其蘊含的商業(yè)價值通常較高。同樣地，可以選擇點擊率符合預(yù)設(shè)點擊率要求的關(guān)鍵詞，例如可以選擇點擊率大于或等于預(yù)設(shè)的點擊率閾值的關(guān)鍵詞，比如，設(shè)定點擊率閾值為30%，則選擇點擊率大于或等于30%的關(guān)鍵詞，去掉點擊率小于30%的關(guān)鍵詞。根據(jù)關(guān)鍵詞的平均點擊價格，選取符合預(yù)設(shè)點擊價格要求的關(guān)鍵詞。平均點擊價格是指一段時間內(nèi)關(guān)鍵詞對應(yīng)的創(chuàng)意被點擊時支付給搜索引擎供應(yīng)商的價格的平均值。隨著競爭關(guān)系趨于一個穩(wěn)定的范圍，關(guān)鍵詞的平均點擊價格通常在一定區(qū)間范圍內(nèi)波動。出現(xiàn)平均點擊價格過高或者過低，可能是由于競爭太激烈或者有其他非正常的原因?qū)е曼c擊價格出現(xiàn)極端。平均點擊價格太高，用戶花費與其實際回報不能對應(yīng)；平均點擊價格太低，通常是由于關(guān)鍵詞設(shè)置得不夠合理。因而，可以選擇平均點擊價格在一個預(yù)設(shè)區(qū)間內(nèi)的關(guān)鍵詞，去掉平均點擊價格處于兩端的關(guān)鍵詞，選擇商業(yè)價值較高的關(guān)鍵詞?；蛘撸鶕?jù)關(guān)鍵詞的展現(xiàn)量，選取符合預(yù)設(shè)展現(xiàn)量要求的關(guān)鍵詞。關(guān)鍵詞的展現(xiàn)量指在網(wǎng)民進行搜索查詢時，與關(guān)鍵詞相對應(yīng)的創(chuàng)意出現(xiàn)在搜索結(jié)果頁上的次數(shù)。出現(xiàn)的次數(shù)越多，即展現(xiàn)量越大時，關(guān)鍵詞對應(yīng)的創(chuàng)意才越有可能被網(wǎng)民點擊，才能吸引網(wǎng)民的關(guān)注，其商業(yè)價值通常較高。同樣地，可以選擇展現(xiàn)量符合預(yù)設(shè)展現(xiàn)量要求的關(guān)鍵詞，例如可以選擇展現(xiàn)量大于或等于預(yù)設(shè)的展現(xiàn)量閾值的關(guān)鍵詞，比如，設(shè)定展現(xiàn)量閾值為5千次，則選擇展現(xiàn)量大于或等于5千次的關(guān)鍵詞，去掉展現(xiàn)量少于5千次的關(guān)鍵詞。值得一提的是，在實際應(yīng)用中，關(guān)鍵詞過濾模塊104可以采用上述多種商業(yè)價值過濾方式結(jié)合使用，也可以只采用其中的一種進行關(guān)鍵詞過濾。針對不同應(yīng)用場景中，可以先確定其影響因素，比如對于某購物類的網(wǎng)站，其主要關(guān)注的可能是關(guān)鍵詞的展現(xiàn)量以及點擊率，因而選取關(guān)鍵詞的展現(xiàn)量和點擊率作為影響因素；再根據(jù)影響因素確定商業(yè)價值過濾標(biāo)準(zhǔn)。對應(yīng)不同應(yīng)用場景的關(guān)鍵詞數(shù)據(jù)，得到不同商業(yè)價值過濾標(biāo)準(zhǔn)。另外，關(guān)鍵詞過濾模塊104也可以設(shè)置于分類模塊103之前，將關(guān)鍵詞過濾模塊104過濾后的關(guān)鍵詞為分類模塊103所用。種子詞模塊105，用于根據(jù)關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子。創(chuàng)意要求語句通順、符合邏輯，當(dāng)關(guān)鍵詞與創(chuàng)意搭配不當(dāng)時，就會產(chǎn)生創(chuàng)意不通順，表明關(guān)鍵詞與創(chuàng)意的相關(guān)性較差，可能導(dǎo)致不能獲得好的搜索結(jié)果，甚至完全不出現(xiàn)在搜索結(jié)果中。關(guān)鍵詞經(jīng)過商業(yè)價值過濾后，則選取關(guān)鍵詞與創(chuàng)意語義匹配度較好的關(guān)鍵詞作為種子詞。為了方便選取種子詞，本發(fā)明的分組系統(tǒng)通過設(shè)置語義匹配度模塊102，用于根據(jù)語義處理模型，計算廣告庫中的關(guān)鍵詞與其對應(yīng)創(chuàng)意的語義匹配度，將所得的計算結(jié)果為種子詞模塊105使用。所述語義匹配度是指關(guān)鍵詞與創(chuàng)意在句法分析中的匹配模式中詞與詞之間語義搭配的概率，語義匹配度模塊102計算關(guān)鍵詞與創(chuàng)意的語義匹配度，是通過以下兩種計算方法中的一種或組合進行計算:第一，計算關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度。關(guān)鍵詞代入到創(chuàng)意通配符中的通順度的計算方式是基于通順度計算模型來計算的，即通過該關(guān)鍵詞與創(chuàng)意中各詞語的語義相關(guān)性來計算，或者通過該關(guān)鍵詞與創(chuàng)意中詞語的共現(xiàn)概率來計算。舉個例子，推廣單元中有關(guān)鍵詞“ 口語培訓(xùn)班” “口語班” “英語外教班”，其對應(yīng)的創(chuàng)意為“H幫你成就流利口語——北京H，快來***英語培訓(xùn)機構(gòu)，獨創(chuàng) ο大英語學(xué)習(xí)模式，幫助上萬學(xué)員成就流利口語夢想?！逼渲小?{} ”為通配符，可以將關(guān)鍵詞代入到所有通配符中，形成創(chuàng)意?？梢钥闯?，該創(chuàng)意是針對口語班進行描述的，計算得到關(guān)鍵詞“ 口語培訓(xùn)班” “口語班”與創(chuàng)意中各詞語的語義相關(guān)性較好，因而對于該創(chuàng)意來說，關(guān)鍵詞“口語培訓(xùn)班” “ 口語班”是通順的關(guān)鍵詞。計算得到關(guān)鍵詞“英語外教班”與該創(chuàng)意中各詞語的語義相關(guān)性較差，可以預(yù)先設(shè)定一個相關(guān)性閾值，當(dāng)計算得到的語義相關(guān)性小于該閾值時，可以認(rèn)為“英語外教班”為不通順的關(guān)鍵詞。第二、計算關(guān)鍵詞與對應(yīng)創(chuàng)意在語義上的搭配度。計算關(guān)鍵詞與對應(yīng)創(chuàng)意在語義上的搭配度是利用語義處理模型，通過關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率來計算。利用關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率對該關(guān)鍵詞進行打分，通過該打分值體現(xiàn)搭配度。語義處理模型是根據(jù)漢語實詞的語義分類體系建立的表征詞與詞之間語義搭配關(guān)系的通用字典。它是基于本位語法，利用漢語實詞的語義分類體系，將所有的詞組織成一定的層次結(jié)構(gòu)中，形成一個像樹一樣的分類體系。語義處理模型中對具體實詞逐個進行了語義類屬性標(biāo)記，并根據(jù)語義·類屬性標(biāo)記確定詞與詞之間的語義搭配關(guān)系。一個詞允許分屬于不同的語義類，在描述詞與詞之間語義搭配關(guān)系時，對于用法受限的詞語，描述則具體到詞，以詞對詞的方式進行描述；對于不好確定具體搭配詞項的詞語，描述則采用上層語義類，以詞對類的方式進行描述。因而有描述動詞與受其支配的名詞、形容詞與受其支配的名詞、名詞與受其支配的其他名詞之間的語義搭配關(guān)系。比如，教師屬于人，也屬于職位，還屬于教育等不同的類別。通過關(guān)鍵詞與其對應(yīng)創(chuàng)意的搭配與語義處理模型的語義搭配關(guān)系，來對關(guān)鍵詞進行打分。如果關(guān)鍵詞與創(chuàng)意的搭配有在該機器字典中出現(xiàn)過，說明該拍賣詞與創(chuàng)意的搭配符合語義處理模型規(guī)則，打分就高，通過該打分值體現(xiàn)語義搭配度。語義匹配度模塊102通過上述任一方法或其結(jié)合，可以得到關(guān)鍵詞與創(chuàng)意語義匹配度，種子詞模塊105則利用語義匹配度模塊102的計算結(jié)果，從各個分類的關(guān)鍵詞中選出賬戶內(nèi)關(guān)鍵詞與創(chuàng)意的語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞。所述預(yù)設(shè)匹配度要求包括:與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度排在前NI個，NI為預(yù)設(shè)正整數(shù)，比如，當(dāng)NI = I時，則在一個關(guān)鍵詞分類中只選取與其對應(yīng)創(chuàng)意的語義匹配度最好的關(guān)鍵詞作為種子詞；或者，與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度大于預(yù)設(shè)閾值。聚類模塊106，用于以種子詞模塊105得到的種子詞為核心，基于分類模塊103得到的各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。所述聚類是計算所述關(guān)鍵詞與各個種子詞之間的差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中或者最相似的種子詞所屬分類中。其中，關(guān)鍵詞與各個種子詞之間的差異度為:關(guān)鍵詞與種子詞之間各屬性的權(quán)值之差，或者，關(guān)鍵詞的屬性和屬性的權(quán)值組成的特征向量與種子詞的屬性和屬性的權(quán)值構(gòu)成的特征向量之間的相似度。該關(guān)鍵詞與種子詞的特征向量之間的相似度可以通過內(nèi)積或余弦相似度的方法進行計算，得到關(guān)鍵詞與種子詞的相似度，用該相似度的倒數(shù)來表示關(guān)鍵詞與種子詞之間的差異度，相似度越大，差異度越小。
值得一提的是，所述任意推廣賬戶內(nèi)的關(guān)鍵詞包括拍賣詞和擴展得到的新增的關(guān)鍵詞。拍賣詞是指曾有用戶購買過的關(guān)鍵詞，只要是有用戶買過的關(guān)鍵詞都屬于拍賣詞。對于系統(tǒng)根據(jù)推廣賬戶內(nèi)的關(guān)鍵詞(或拍賣詞)進行相應(yīng)地擴展得到的新增的關(guān)鍵詞也可以采用本發(fā)明提供的關(guān)鍵詞分組方法，完成新增的關(guān)鍵詞分組過程。這個過程是將新增的關(guān)鍵詞添加到所選取的推廣賬戶中去，而后根據(jù)關(guān)鍵詞分類模型進行分類，對每一類關(guān)鍵詞進行商業(yè)價值過濾，根據(jù)語義處理模型選取種子詞，最后以種子詞為核心，以關(guān)鍵詞與種子詞之間的差異度來進行聚類，完成關(guān)鍵詞分組。這個過程可以通過機器自動完成，替代人工進行關(guān)鍵詞分組，可以節(jié)約系統(tǒng)時間，提高效率。本發(fā)明提供的一種關(guān)鍵詞分組方法及系統(tǒng)，從推廣賬戶的關(guān)鍵詞中篩選出與創(chuàng)意對應(yīng)表現(xiàn)最好的關(guān)鍵詞作為分組種子詞，基于種子詞的詞型和詞義進行賬戶內(nèi)的關(guān)鍵詞重組，建立新的關(guān)鍵詞與創(chuàng)意的對應(yīng)關(guān)系，提聞了關(guān)鍵詞與創(chuàng)意之間匹配關(guān)系的準(zhǔn)確度，更符合網(wǎng)民的搜索行為和點擊習(xí)慣，幫助客戶進行更為有效的廣告投放，從而更進一步提高客戶網(wǎng)頁的點擊率和轉(zhuǎn)化效率。以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種關(guān)鍵詞分組方法，其特征在于，預(yù)先從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型，所述關(guān)鍵詞分類模型包括關(guān)鍵詞的屬性及屬性的權(quán)值；所述方法包括: A、利用關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值； B、根據(jù)關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞； C、分別以各分類的種子詞為核心，基于各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，預(yù)先從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型具體包括: 5101、獲取搜索日志的搜索詞，并對搜索詞進行分詞處理和過濾處理得到關(guān)鍵詞； 5102、提取步驟SlOl所得到的關(guān)鍵詞的屬性作為分類特征，所述關(guān)鍵詞的屬性包括關(guān)鍵詞的字面、詞義和詞性； 5103、為提取得到的各分類特征賦予對應(yīng)的權(quán)值，建立所述關(guān)鍵詞分類模型。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述關(guān)鍵詞的權(quán)值為:關(guān)鍵詞的屬性以及關(guān)鍵詞的各屬性的權(quán)值構(gòu)成的特征向量`。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述關(guān)鍵詞與創(chuàng)意之間語義匹配度由關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度以及關(guān)鍵詞與創(chuàng)意在語義上的搭配度中的一種或組合確定；其中所述關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度通過該關(guān)鍵詞與創(chuàng)意中各詞語的語義相關(guān)性，或者通過該關(guān)鍵詞與創(chuàng)意中詞語的共現(xiàn)概率來計算；所述關(guān)鍵詞與創(chuàng)意在語義上的搭配度通過關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率來計算。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，在執(zhí)行所述步驟B之前，還包括: 對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞；其中關(guān)鍵詞的商業(yè)價值通過關(guān)鍵詞在搜索日志中的檢索量、點擊率、平均點擊價格以及展現(xiàn)量中的至少一種體現(xiàn)。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述聚類是計算當(dāng)前推廣賬戶中剩余的關(guān)鍵詞與各個種子詞之間的差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中；其中關(guān)鍵詞與種子詞之間的差異度為:關(guān)鍵詞與種子詞之間各屬性的權(quán)值之差，或者，關(guān)鍵詞的屬性和屬性的權(quán)值構(gòu)成的特征向量與種子詞的屬性和屬性的權(quán)值構(gòu)成的特征向量之間的相似度。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述預(yù)設(shè)匹配度要求包括: 與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度排在前NI個，NI為預(yù)設(shè)正整數(shù)；或者，與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度大于預(yù)設(shè)閾值。
8.一種關(guān)鍵詞分組系統(tǒng)，其特征在于，包括: 分類模型建立模塊，用于從搜索日志的搜索詞中提取關(guān)鍵詞建立關(guān)鍵詞分類模型，所述關(guān)鍵詞分類模型包括關(guān)鍵詞的屬性及屬性的權(quán)值；分類模塊，用于利用分類模型建立模塊得到的關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值；種子詞模塊，用于根據(jù)關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞；聚類模塊，用于以所述種子詞模塊得到的種子詞為核心，基于各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果。
9.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述分類模型建立模塊包括: 獲取搜索詞子模塊，用于獲取搜索日志的搜索詞，并對搜索詞進行分詞處理和過濾處理得到關(guān)鍵詞；特征提取子模塊，用于提取所述獲取搜索詞子模塊所得到的關(guān)鍵詞的屬性作為分類特征，所述關(guān)鍵詞的屬性包括關(guān)鍵詞的字面、詞義和詞性；權(quán)值計算子模塊，用于為提取得到的各分類特征賦予對應(yīng)的權(quán)值，建立所述關(guān)鍵詞分類模型。
10.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述分類模塊確定的各關(guān)鍵詞的權(quán)值為:關(guān)鍵詞的屬性以及各屬性的權(quán)值構(gòu)成的特征向量。
11.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，該系統(tǒng)還包括語義匹配度模塊，用于計算關(guān)鍵詞與創(chuàng)意之間語義匹配度，所述關(guān)鍵詞與創(chuàng)意之間語義匹配度由關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度以及關(guān)鍵詞與創(chuàng)意在語義上的搭配度中的一種或組合確定；其中所述關(guān)鍵詞代入到創(chuàng)意通配符中時的通順度通過該關(guān)鍵詞與創(chuàng)意中各詞語的語義相關(guān)性，或者通過該關(guān)鍵詞與創(chuàng)意中詞語的共現(xiàn)概率來計算；所述關(guān)鍵詞與創(chuàng)意在語義上的搭配度通過關(guān)鍵詞與創(chuàng)意中各詞語的搭配概率來計算。
12.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，該系統(tǒng)還包括: 關(guān)鍵詞過濾模塊，用于對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行商業(yè)價值過濾，去掉商業(yè)價值低的關(guān)鍵詞，將過濾后的關(guān)鍵詞為所述種子詞模塊所用；其中關(guān)鍵詞的商業(yè)價值通過關(guān)鍵詞在搜索日志中的檢索量、點擊率、平均點擊價格以及展現(xiàn)量中的至少一種體現(xiàn)。
13.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述聚類模塊通過計算所述關(guān)鍵詞與各個種子詞之間的差異度，把關(guān)鍵詞聚類到差異度最小的種子詞所屬分類中或者最相似的種子詞所屬分類中；其中關(guān)鍵詞與種子詞之間的差異度為:關(guān)鍵詞與種子詞之間各屬性的權(quán)值之差，或者，關(guān)鍵詞的屬性和屬性的權(quán)值構(gòu)成的特征向量與種子詞的屬性和屬性的權(quán)值構(gòu)成的特征向量之間的相似度。
14.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述預(yù)設(shè)匹配度要求包括:與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度排在前NI個，NI為預(yù)設(shè)正整數(shù)；或者，與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度大于預(yù)設(shè)閾值。
全文摘要
本發(fā)明提供了一種關(guān)鍵詞分組方法及系統(tǒng)，該方法包括A、利用預(yù)先建立的關(guān)鍵詞分類模型，基于關(guān)鍵詞的屬性對當(dāng)前推廣賬戶內(nèi)的關(guān)鍵詞進行分類，并確定各關(guān)鍵詞的權(quán)值；B、根據(jù)所述關(guān)鍵詞與創(chuàng)意之間語義匹配度，分別從各分類的關(guān)鍵詞中選出與當(dāng)前推廣賬戶內(nèi)的創(chuàng)意之間語義匹配度滿足預(yù)設(shè)匹配度要求的關(guān)鍵詞作為種子詞；C、分別以各分類的種子詞為核心，基于各關(guān)鍵詞的權(quán)值對當(dāng)前推廣賬戶中剩余的關(guān)鍵詞進行聚類，得到關(guān)鍵詞的分組結(jié)果，所述聚類是計算所述關(guān)鍵詞與種子詞之間差異度，把關(guān)鍵詞聚類到滿足預(yù)設(shè)差異度要求的類別中。本發(fā)明提供的關(guān)鍵詞分組方法及系統(tǒng)，提高了關(guān)鍵詞與創(chuàng)意之間匹配關(guān)系的準(zhǔn)確度。
文檔編號G06F17/27GK103164454SQ20111042112
公開日2013年6月19日申請日期2011年12月15日優(yōu)先權(quán)日2011年12月15日
發(fā)明者葛幼姿, 于驚濤, 廣宇昊申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葛幼姿;于驚濤;廣宇昊
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
我是此專利的發(fā)明人

上一篇：基于互聯(lián)網(wǎng)用戶虛擬身份的微代言系統(tǒng)及其構(gòu)建方法
上一篇：一種基于遙感影像的識別方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

關(guān)鍵詞分組方法及系統(tǒng)的制作方法