一種關(guān)鍵詞的擴充方法及裝置制造方法

文檔序號：6537325閱讀：254來源：國知局

一種關(guān)鍵詞的擴充方法及裝置制造方法
【專利摘要】本申請?zhí)峁┝艘环N關(guān)鍵詞的擴充方法及裝置，其中的方法具體包括：獲取網(wǎng)頁樣本及對應的關(guān)鍵詞；依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別；對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益；選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。本申請能夠針對某一特定范疇進行關(guān)鍵詞的擴充，得到具有確定性的擴充結(jié)果。
【專利說明】—種關(guān)鍵詞的擴充方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】，特別是涉及一種關(guān)鍵詞的擴充方法及裝置。
【背景技術(shù)】
[0002]目前，隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，關(guān)鍵詞技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應用也變得愈加廣泛，例如其可以應用于互聯(lián)網(wǎng)營銷、搜索引擎的優(yōu)化排名等各種互聯(lián)網(wǎng)領(lǐng)域。
[0003]以應用于互聯(lián)網(wǎng)營銷領(lǐng)域為例，如果能找到某一范疇內(nèi)的關(guān)鍵詞，就能在互聯(lián)網(wǎng)上鎖定對該范疇感興趣的用戶，從而可以針對鎖定的用戶進行精準營銷。而關(guān)鍵詞的擴充就是用于找到某一范疇內(nèi)的關(guān)鍵詞。例如，廣告公司需要將某皮膚病的廣告投放給互聯(lián)網(wǎng)上特定的用戶，為了鎖定欲投放的特定用戶，需要針對“皮膚病”這一范疇進行關(guān)鍵詞的擴充，例如，擴充結(jié)果具體可以包括:“溢脂性皮炎、疥瘡、腳氣、手足癬”等關(guān)鍵詞，當有用戶在搜索引擎上搜索這些關(guān)鍵詞時，可以認定該用戶對“皮膚病”感興趣，于是可以針對該用戶投放上述皮膚病的廣告。
[0004]現(xiàn)有關(guān)鍵詞的擴充方法主要包括主題模型算法、simrank算法等。其中，主題模型的本質(zhì)是一種基于文本概率建立的模型，給該模型一堆文檔，并指定一個參數(shù)K，該模型會輸出K組詞，其中每組內(nèi)的詞為相似的、用于描述相同事物的詞語，K越大，每一組詞的數(shù)量就越大；Simrank算法輸出的結(jié)果包括一個詞和一組跟該詞相關(guān)的詞。然而，主題模型算法、simrank算法均是無監(jiān)督機器學習算法，其無法給出某組詞所屬的類別，因此不能針對某一特定范疇進行關(guān)鍵詞的擴充，也即其擴充結(jié)果具有不確定性。

【發(fā)明內(nèi)容】

[0005]本申請所要解決的技術(shù)問題是提供一種關(guān)鍵詞的擴充方法及裝置，能夠針對某一特定范疇進行關(guān)鍵詞的擴充，得到具有確定性的擴充結(jié)果。
[0006]為了解決上述問題，本申請公開了一種關(guān)鍵詞的擴充方法，包括:
[0007]獲取網(wǎng)頁樣本及對應的關(guān)鍵詞；
[0008]依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別；
[0009]對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益；
[0010]選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
[0011]優(yōu)選的，所述對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益的步驟，包括:
[0012]分別統(tǒng)計所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目；
[0013]依據(jù)所述所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目，分別計算每個關(guān)鍵詞在分類前后的信息熵；
[0014]以每個關(guān)鍵詞在分類前后的信息熵的差值作為所述每個關(guān)鍵詞的信息增益。[0015]優(yōu)選的，所述選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞的步驟，包括:
[0016]依據(jù)信息增益對所有關(guān)鍵詞進行排序，并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
[0017]優(yōu)選的，所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟，包括:
[0018]針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達到預設(shè)次數(shù)，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別；或者
[0019]針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對于該網(wǎng)頁樣本所有關(guān)鍵詞的數(shù)目的比例是否達到預設(shè)比例，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別。
[0020]優(yōu)選的，所述獲取網(wǎng)頁樣本及對應的關(guān)鍵詞的步驟，包括:
[0021]通過網(wǎng)頁爬蟲在互聯(lián)網(wǎng)上抓取網(wǎng)頁和網(wǎng)頁內(nèi)容，對網(wǎng)頁內(nèi)容進行分析并依據(jù)分析結(jié)果提取相應的關(guān)鍵詞；和/或
[0022]從運營商的流量中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞；和/或
[0023]從搜索引擎服務器記錄的搜索行為數(shù)據(jù)中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞。
[0024]優(yōu)選的，所述方法還包括:返回執(zhí)行所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟；
[0025]所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟為，依據(jù)本次擴充前的范疇內(nèi)已知關(guān)鍵詞和本次擴充得到的范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別。
[0026]另一方面，本申請還公開了一種關(guān)鍵詞的擴充裝置，包括:
[0027]獲取模塊，用于獲取網(wǎng)頁樣本及對應的關(guān)鍵詞；
[0028]分類模塊，用于依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別；
[0029]統(tǒng)計模塊，用于對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益 '及
[0030]選取模塊，用于選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
[0031]優(yōu)選的，所述統(tǒng)計模塊包括:
[0032]數(shù)目統(tǒng)計子模塊，用于分別統(tǒng)計所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目；
[0033]信息熵計算子模塊，用于依據(jù)所述所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目，分別計算每個關(guān)鍵詞在分類前后的信息熵；及
[0034]差值計算子模塊，用于以每個關(guān)鍵詞在分類前后的信息熵的差值作為所述每個關(guān)鍵詞的信息增益。[0035]優(yōu)選的，所述選取模塊，具體用于依據(jù)信息增益對所有關(guān)鍵詞進行排序，并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
[0036]優(yōu)選的，所述分類模塊包括:
[0037]第一分類子模塊，用于針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達到預設(shè)次數(shù)，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別；或者
[0038]第二分類子模塊，用于針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對于該網(wǎng)頁樣本所有關(guān)鍵詞的數(shù)目的比例是否達到預設(shè)比例，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別。
[0039]與現(xiàn)有技術(shù)相比，本申請具有以下優(yōu)點:
[0040]本申請依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別，對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益，并選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞；
[0041]一方面，由于依據(jù)范疇內(nèi)已知關(guān)鍵詞進行關(guān)鍵詞的擴充，相當于引導計算機針對該范疇進行擴詞，故能夠得到具有確定性的擴充結(jié)果；
[0042]另一方面，關(guān)鍵詞的信息增益可用于衡量關(guān)鍵詞分類能力的強弱，本申請選取的信息增益最大的若干關(guān)鍵詞為網(wǎng)頁中分類能力最強的關(guān)鍵詞，而本申請實施例中，網(wǎng)頁分類的目的是將網(wǎng)頁分類為范疇類別或非范疇類別，因此，網(wǎng)頁中分類能力最強的關(guān)鍵詞也即為與范疇相關(guān)度最聞的關(guān)鍵詞；
[0043]總之，本申請能夠針對特定范疇，從眾多網(wǎng)頁樣本中選取出與該特定范疇相關(guān)度最高的關(guān)鍵詞，相對于現(xiàn)有技術(shù)，能夠針對某一特定范疇進行關(guān)鍵詞的擴充，得到更具有確定性的擴充結(jié)果。
【專利附圖】

【附圖說明】
[0044]圖1是本申請一種關(guān)鍵詞的擴充方法實施例1的流程圖；
[0045]圖2是本申請實施例一種對分類前后的網(wǎng)頁樣本進行統(tǒng)計的流程示例；
[0046]圖3是本申請一種關(guān)鍵詞的擴充方法實施例2的流程圖；
[0047]圖4是本申請一種關(guān)鍵詞的擴充裝置實施例的結(jié)構(gòu)圖。
【具體實施方式】
[0048]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0049]參照圖1，示出了本申請一種關(guān)鍵詞的擴充方法實施例1的流程圖，具體可以包括:
[0050]步驟101、獲取網(wǎng)頁樣本及對應的關(guān)鍵詞；
[0051]本申請實施例可以針對各種特定范疇進行關(guān)鍵詞的擴充，以將擴充得到關(guān)鍵詞應用于互聯(lián)網(wǎng)營銷、搜索引擎的優(yōu)化排名等各種互聯(lián)網(wǎng)領(lǐng)域。
[0052]以應用于互聯(lián)網(wǎng)營銷領(lǐng)域為例，如果廣告公司需要將某皮膚病的廣告投放給互聯(lián)網(wǎng)上特定的用戶，為了鎖定欲投放的特定用戶，那么需要針對“皮膚病”這一范疇進行關(guān)鍵詞的擴充；如果廣告公司需要將銀行理財廣告投放給互聯(lián)網(wǎng)上特定的用戶，那么需要針對“金融理財”這一范疇進行關(guān)鍵詞的擴充。
[0053]本申請可以提供如下獲取網(wǎng)頁樣本及對應的關(guān)鍵詞的技術(shù)方案:
[0054]技術(shù)方案Al
[0055]技術(shù)方案Al可以通過網(wǎng)頁爬蟲在互聯(lián)網(wǎng)上抓取網(wǎng)頁和網(wǎng)頁內(nèi)容，對網(wǎng)頁內(nèi)容進行分析并依據(jù)分析結(jié)果提取相應的關(guān)鍵詞。
[0056]在實際應用中，可以選擇與特定范疇相關(guān)的網(wǎng)站進行抓取，并且，可以首先對所抓取網(wǎng)頁對應的網(wǎng)頁正文進行分析，這里的網(wǎng)頁正文具體可以包括去掉廣告等多余信息的網(wǎng)頁內(nèi)容；然后依據(jù)網(wǎng)頁正文對應的分析結(jié)果，提取所述網(wǎng)頁正文中的特征內(nèi)容；所述特征內(nèi)容具體可以包括:標題、子標題、表格、摘要和加粗文字中的一項或多項；最后從所提取的特征內(nèi)容中提取相應的關(guān)鍵詞。
[0057]技術(shù)方案A2
[0058]技術(shù)方案A2可以從運營商的流量中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞。
[0059]通常情況下用戶在搜索引擎下搜索某個關(guān)鍵詞并點擊相應搜索結(jié)果以訪問對應跳轉(zhuǎn)網(wǎng)頁的時候，會產(chǎn)生相關(guān)的網(wǎng)絡報文，而這些網(wǎng)絡報文會被攜帶在電信、聯(lián)通等運營商的流量中；故技術(shù)方案A2可以通過分析這些網(wǎng)絡報文以提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞。
[0060]技術(shù)方案A3
[0061]技術(shù)方案A3可以從搜索引擎服務器記錄的搜索行為數(shù)據(jù)中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞。
[0062]搜索引擎服務器記錄的搜索行為數(shù)據(jù)中通常會包括用戶在搜索引擎下搜索某個關(guān)鍵詞并點擊相應搜索結(jié)果以訪問對應跳轉(zhuǎn)網(wǎng)頁的相應數(shù)據(jù)，故技術(shù)方案A3可以通過分析這些搜索行為數(shù)據(jù)以提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞。
[0063]在具體實施中，本領(lǐng)域技術(shù)人員可以根據(jù)實際需要，采用所述技術(shù)方案A1-A3中的一種或多種，或者，可以根據(jù)實際需求采用其它技術(shù)方案以獲取網(wǎng)頁樣本及對應的關(guān)鍵詞，如人工收集等等，本申請實施例對具體的獲取網(wǎng)頁樣本及對應的關(guān)鍵詞的方案不加以限制。
[0064]在實際應用中，可以方便維護和運算，可以依據(jù)所獲取的網(wǎng)頁樣本及對應的關(guān)鍵詞建立語料庫，該語料庫可以理解為所獲取的網(wǎng)頁樣本及對應的關(guān)鍵詞的集合。
[0065]在此提供一種語料庫中每個網(wǎng)頁樣本及對應的關(guān)鍵詞的存儲格式示例:url (大分隔符)queryl (小分隔符)frequentl (中分隔符)query2 (小分隔符)frequent2 (中分隔
符)query3 (小分隔符)frequent3 (中分隔符)......，其中，url用于表示網(wǎng)頁樣本的統(tǒng)一
資源定位符(Uniform Resource Locator), query I > query 2 > query 3分別表不該網(wǎng)頁樣本對應的關(guān)鍵詞，frequently frequent2、frequent3 分別表不 queryl、query2、query3 在該網(wǎng)頁樣本中出現(xiàn)的次數(shù)。
[0066]在此提供一種采用上述存儲格式存儲的某網(wǎng)頁樣本的信息的示例:http://www.haodf.com/jibing/pifubing/daifu.htm (\x01)濕疫(\x03) 23 (\x02)銀屑病(\x03) 32(\x02)痤瘡(\x03) 11 ;在實際中，可以在語料庫對應的數(shù)據(jù)倉庫中存放上千萬行這樣的信肩、O
[0067]步驟102、依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別；
[0068]本申請實施例針對特定范疇進行關(guān)鍵詞的擴充，故需要給出一些范疇內(nèi)已知關(guān)鍵詞，在實際中可以通過各種方式獲取所述范疇內(nèi)已知關(guān)鍵詞，在此給出一些獲取所述范疇內(nèi)已知關(guān)鍵詞的示例:
[0069]方式一:人工獲??；
[0070]方式二:首先采用現(xiàn)有的主題模型、simrank等算法收集一些相似的關(guān)鍵詞，然后通過人工方式從所收集的關(guān)鍵詞中篩選出所述范疇內(nèi)已知關(guān)鍵詞。
[0071]在具體實現(xiàn)中，所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟，具體可以包括:
[0072]子步驟B1、針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達到預設(shè)次數(shù)，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別；或者
[0073]子步驟B2、針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對于該網(wǎng)頁樣本所有關(guān)鍵詞的數(shù)目的比例是否達到預設(shè)比例，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別。
[0074]其中，本領(lǐng)域技術(shù)人員可以根據(jù)實際需求采用所述子步驟BI和子步驟B2中的任一；所述子步驟BI中的預設(shè)次數(shù)可以為一次、兩次、三次、四次等；所述子步驟B2中的預設(shè)比例可以為1/4等數(shù)值，例如，某個url后面有8個關(guān)鍵詞，那么所述范疇內(nèi)已知關(guān)鍵詞在該url對應網(wǎng)頁中出現(xiàn)兩次及兩次以上就可以將該網(wǎng)頁分類為范疇類別?？傊?，本領(lǐng)域技術(shù)人員可以靈活地利用范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率對所述網(wǎng)頁樣本進行分類。
[0075]在本申請的一種應用示例中，可以對分類結(jié)果進行機器標注，例如，可以將范疇類別的網(wǎng)頁樣本標注為Y，同時將非范疇類別的網(wǎng)頁樣本標注為N等等。
[0076]由于較長的關(guān)鍵詞在語料庫中出現(xiàn)的頻率過低，而且包含的語義過于豐富，不利于語料庫中網(wǎng)頁樣本的分類，故在本申請的一種優(yōu)選實施例中，在依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟之前，還可以首先對所有網(wǎng)頁樣本的關(guān)鍵詞進行分詞的步驟。
[0077]步驟103、對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益；
[0078]步驟104、選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
[0079]本申請實施例在基于信息論知識進行關(guān)鍵詞的擴充的過程中，可以將每個網(wǎng)頁樣本看作一個對象，將每個網(wǎng)頁樣本對應的每個關(guān)鍵詞看作對象的屬性。
[0080]由于步驟101獲取了眾多網(wǎng)頁樣本對象的集合，有的網(wǎng)頁樣本對象屬于范疇類別，有的網(wǎng)頁樣本對象不屬于范疇類別，也即，網(wǎng)頁樣本對象的集合在分類前是混亂的故需要較多的信息熵去描述，故需要依據(jù)網(wǎng)頁樣本的關(guān)鍵詞屬性進行分類。
[0081]而每個網(wǎng)頁樣本具有對應的至少一個關(guān)鍵詞，這導致網(wǎng)頁樣本對象的集合中包括多個關(guān)鍵詞，依據(jù)其中哪個關(guān)鍵詞分類后導致對象的混亂度變得最小需要最少的信息熵去描述，則說明該關(guān)鍵詞的分類能力最強。
[0082]在信息增益中，衡量標準是看屬性能夠為分類系統(tǒng)帶來多少信息，帶來的信息越多，該屬性越重要，則該屬性的分類能力越強；因此，本申請選取的信息增益最大的若干關(guān)鍵詞為網(wǎng)頁中分類能力最強的關(guān)鍵詞。而本申請實施例中，網(wǎng)頁分類的目的是將網(wǎng)頁分類為范疇類別或非范疇類別，因此，網(wǎng)頁中分類能力最強的關(guān)鍵詞也即為與范疇相關(guān)度最高的關(guān)鍵詞?？傊旧暾埬軌蜥槍μ囟ǚ懂?，從眾多網(wǎng)頁樣本中選取出與該特定范疇相關(guān)度最高的關(guān)鍵詞，相對于現(xiàn)有技術(shù)，能夠針對某一特定范疇進行關(guān)鍵詞的擴充，得到更具有確定性的擴充結(jié)果。
[0083]需要說明的是，已有技術(shù)中也存在計算信息增益的方案，然而已有技術(shù)中計算信息增益需要對對象集合進行人工分類，而本申請實施例中創(chuàng)造性地依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本自動分類為范疇類別或者非范疇類別，而所述網(wǎng)頁樣本和對應的關(guān)鍵詞可以反映廣大網(wǎng)民的上網(wǎng)行為，例如，用戶在存在“如何治療感冒”的信息需求時，會在搜索引擎的搜索框中輸入“感冒”關(guān)鍵詞進行搜索，搜索引擎會提供眾多網(wǎng)頁對應的搜索結(jié)果，如果用戶點擊了其中某網(wǎng)頁，那么該網(wǎng)頁及對應的關(guān)鍵詞都會被收集到步驟101中，例如可以形成一條“url+query (query是關(guān)鍵詞“感冒”，url是點擊的網(wǎng)頁，中間是分隔符)”的數(shù)據(jù)記錄，該數(shù)據(jù)記錄可以相當于搜索引擎和網(wǎng)民共同標記了該網(wǎng)頁就是“感冒”有關(guān)的網(wǎng)頁，本申請實施例正是利用眾多的上述數(shù)據(jù)記錄中的范疇內(nèi)已知關(guān)鍵詞對網(wǎng)頁樣本集合進行自動分類的。
[0084]在本申請的一種優(yōu)選實施例中，所述對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到每個關(guān)鍵詞的信息增益的步驟，具體可以包括:
[0085]子步驟Cl、分別統(tǒng)計所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目；
[0086]參照圖2，給出了本申請實施例一種對分類前后的網(wǎng)頁樣本進行統(tǒng)計的流程示例，該示例涉及語料庫中存放有T個網(wǎng)頁樣本，其中每個網(wǎng)頁樣本的信息具體可以包括:url+query,其中，query可用于表示該url對應的至少一個關(guān)鍵詞,其中，不同網(wǎng)頁樣本對應關(guān)鍵詞的數(shù)目可以相同可以不同，且不同網(wǎng)頁樣本對應關(guān)鍵詞可以相同可以不同，在實際中可針對所有網(wǎng)頁樣本中關(guān)鍵詞進行統(tǒng)計，為方便起見，本文采用queryi表示所有網(wǎng)頁樣本中的第i個關(guān)鍵詞；
[0087]圖2所述示例中還依據(jù)分類結(jié)果對語料庫中的T個網(wǎng)頁樣本進行了機器標注，其中,將范疇類別的網(wǎng)頁樣本標注為Y,將非范疇類別的網(wǎng)頁樣本標注為N，經(jīng)統(tǒng)計可知，標注為Y的網(wǎng)頁樣本的數(shù)目為M，標注為N的網(wǎng)頁樣本的數(shù)目為T-M ;
[0088]進一步，圖2所述示例中還統(tǒng)計了 queryi對應所有網(wǎng)頁樣本的數(shù)目Ni，也即T個網(wǎng)頁樣本中有Ni個網(wǎng)頁樣本包括有queryi;圖2所述示例中還統(tǒng)計了 Queryi對應范疇類別網(wǎng)頁樣本的數(shù)目叫，也即，M個網(wǎng)頁樣本中有Iii個網(wǎng)頁樣本包括有query1.。
[0089]子步驟C2、依據(jù)所述所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目，分別計算每個關(guān)鍵詞在分類前后的信息熵；
[0090]子步驟C3、以每個關(guān)鍵詞在分類前后的信息熵的差值作為所述每個關(guān)鍵詞的信息增益。[0091]在具體實現(xiàn)中，本領(lǐng)域技術(shù)人員可以采用信息熵、基尼系數(shù)或者卡方檢驗等信息度量方法計算得到上述信息增益。
[0092]其中，信息熵是信息論中量度信息多少的一個物理量，它從量上反映具有確定概率的事件發(fā)生時所傳遞的信息，具體到本申請實施例，每個關(guān)鍵詞的信息熵則用于表示屬性能夠為網(wǎng)頁樣本這個對象帶來的信息。
[0093]換個說法，信息熵可用于表示對象集合所攜帶的信息量，也可以認為是對象集合的混亂度。網(wǎng)頁樣本對象的集合中包括多個關(guān)鍵詞，依據(jù)其中哪個關(guān)鍵詞分類后導致對象的混亂度變得最小則說明該關(guān)鍵詞具有最強的分類能力，故在實際應用中，可以每個關(guān)鍵詞在分類前后的信息熵的差值作為所述每個關(guān)鍵詞的信息增益。
[0094]由于本申請涉及網(wǎng)頁樣本對象的兩類分類，兩類分類的信息熵公式可以為:
[0095]InfoQ (p)=_plog2 (P)-(1-p) log2(l-p) (I)
[0096]其中，p表示網(wǎng)頁樣本對象屬于范疇類別的概率；
[0097]在使用公式(I)計算關(guān)鍵詞query在分類前的信息熵時，P可以表示為M/T，故公式(I)可以表示為:
【權(quán)利要求】
1.一種關(guān)鍵詞的擴充方法，其特征在于，包括: 獲取網(wǎng)頁樣本及對應的關(guān)鍵詞；依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別；對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益；選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
2.如權(quán)利要求1所述的方法，其特征在于，所述對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益的步驟，包括: 分別統(tǒng)計所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目；依據(jù)所述所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目，分別計算每個關(guān)鍵詞在分類前后的信息熵；以每個關(guān)鍵詞在分類前后的信息熵的差值作為所述每個關(guān)鍵詞的信息增益。
3.如權(quán)利要求1所述的方法，其特征在于，所述選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞的步驟，包括: 依據(jù)信息增益對所有關(guān)鍵詞進行排序，并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
4.如權(quán)利要求1或2或3所述的方法，其特征在于，所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將`所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟，包括: 針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達到預設(shè)次數(shù)，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別；或者針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對于該網(wǎng)頁樣本所有關(guān)鍵詞的數(shù)目的比例是否達到預設(shè)比例，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別。
5.如權(quán)利要求1或2或3所述的方法，其特征在于，所述獲取網(wǎng)頁樣本及對應的關(guān)鍵詞的步驟，包括: 通過網(wǎng)頁爬蟲在互聯(lián)網(wǎng)上抓取網(wǎng)頁和網(wǎng)頁內(nèi)容，對網(wǎng)頁內(nèi)容進行分析并依據(jù)分析結(jié)果提取相應的關(guān)鍵詞；和/或從運營商的流量中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞；和/或從搜索引擎服務器記錄的搜索行為數(shù)據(jù)中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁及對應的關(guān)鍵詞。
6.如權(quán)利要求1或2或3所述的方法，其特征在于，還包括:返回執(zhí)行所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟；所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別的步驟為，依據(jù)本次擴充前的范疇內(nèi)已知關(guān)鍵詞和本次擴充得到的范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別。
7.—種關(guān)鍵詞的擴充裝置，其特征在于，包括: 獲取模塊，用于獲取網(wǎng)頁樣本及對應的關(guān)鍵詞；分類模塊，用于依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)頻率，將所述網(wǎng)頁樣本分類為范疇類別或者非范疇類別；統(tǒng)計模塊，用于對分類前后的網(wǎng)頁樣本進行統(tǒng)計，得到所有網(wǎng)頁樣本中每個關(guān)鍵詞的信息增益 '及選取模塊，用于選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
8.如權(quán)利要求7所述的裝置，其特征在于，所述統(tǒng)計模塊包括: 數(shù)目統(tǒng)計子模塊，用于分別統(tǒng)計所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目；信息熵計算子模塊，用于依據(jù)所述所有網(wǎng)頁樣本、范疇類別網(wǎng)頁樣本、每個關(guān)鍵詞對應所有網(wǎng)頁樣本和每個關(guān)鍵詞對應范疇類別網(wǎng)頁樣本的數(shù)目，分別計算每個關(guān)鍵詞在分類前后的信息熵；及差值計算子模塊，用于以每個關(guān)鍵詞在分類前后的信息熵的差值作為所述每個關(guān)鍵詞的信息增益。
9.如權(quán)利要求8所述的裝置，其特征在于，所述選取模塊，具體用于依據(jù)信息增益對所有關(guān)鍵詞進行排序，并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴充得到的范疇內(nèi)關(guān)鍵詞。
10.如權(quán)利要求·7或8或9所述的裝置，其特征在于，所述分類模塊包括: 第一分類子模塊，用于針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達到預設(shè)次數(shù)，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別；或者第二分類子模塊，用于針對某網(wǎng)頁樣本，判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對于該網(wǎng)頁樣本所有關(guān)鍵詞的數(shù)目的比例是否達到預設(shè)比例，若是則將該網(wǎng)頁樣本分類為范疇類別，否則將該網(wǎng)頁樣本分類為非范疇類別。
【文檔編號】G06F17/30GK103823847SQ201410042385
【公開日】2014年5月28日申請日期:2014年1月28日優(yōu)先權(quán)日:2014年1月28日
【發(fā)明者】李鵬, 羅峰, 黃蘇支, 李娜申請人:億贊普(北京)科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李鵬;羅峰;黃蘇支;李娜
技術(shù)所有人：億贊普（北京）科技有限公司
我是此專利的發(fā)明人

上一篇：智能終端及其操作方法和移動終端的制作方法
上一篇：數(shù)據(jù)管理方法和裝置及移動終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)鍵詞組合的三種方法相關(guān)技術(shù)

關(guān)鍵詞優(yōu)化方法相關(guān)技術(shù)

web關(guān)鍵詞優(yōu)化方法相關(guān)技術(shù)

找關(guān)鍵詞的方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種關(guān)鍵詞的擴充方法及裝置制造方法