關(guān)鍵詞的分類方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種關(guān)鍵詞的分類方法及裝置。其中,關(guān)鍵詞的分類方法包括:對(duì)關(guān)鍵詞進(jìn)行劃分,得到關(guān)鍵詞的構(gòu)詞成分;提取構(gòu)詞成分中的多個(gè)構(gòu)詞要件;查詢每個(gè)構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別;計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率;確定多個(gè)歸屬概率中的最大概率所表示的類別為關(guān)鍵詞的類別。通過本發(fā)明,解決了現(xiàn)有技術(shù)中確定關(guān)鍵詞類型的精度比較低的問題,進(jìn)而達(dá)到了提高關(guān)鍵詞類型確定準(zhǔn)確度的效果。
【專利說明】關(guān)鍵詞的分類方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種關(guān)鍵詞的分類方法及裝置。
【背景技術(shù)】
[0002] 搜索引擎關(guān)鍵詞是用戶在使用搜索引擎時(shí)輸入的關(guān)鍵詞。每個(gè)關(guān)鍵詞都代表了用 戶的一個(gè)需求。對(duì)海量用戶關(guān)鍵詞的分類有助于剖析群體的需求分布?,F(xiàn)有的搜索關(guān)鍵詞 分類方法有兩種,一種是基于訪問路徑的分類方法,另一種是基于形式的分類方法。
[0003] 基于訪問路徑的分類方法基于一種假設(shè),即在搜索引擎中多次發(fā)起的查詢 (Query)關(guān)鍵詞具有相似性。具體方式是記錄一個(gè)會(huì)話(Session)中用戶的所有查詢關(guān)鍵 詞,記錄每個(gè)關(guān)鍵詞的相關(guān)詞以及共同出現(xiàn)在一個(gè)會(huì)話中的頻次,為所有會(huì)話重復(fù)統(tǒng)計(jì)相 關(guān)關(guān)鍵詞,最終實(shí)現(xiàn)聚類。
[0004] 基于訪問路徑的會(huì)話的假設(shè)存在一定問題,一次會(huì)話的所有查詢關(guān)鍵詞不一定均 是相似的,有可能是相關(guān)的,因此該方法聚類得到的關(guān)鍵詞大多為相關(guān)的,不一定是相似 的;關(guān)鍵詞類別多為事件性的,不易于分析用戶需求。
[0005] 基于字符串形式的分類以字符串的字符重合度為分類指標(biāo),分別計(jì)算字符串的交 集和并集,再以交集和并集的比值確定是否歸為一類,如果歸為一類,則以兩個(gè)字符串的并 集作為該類的字符串繼續(xù)比較,否則單獨(dú)建立一類,以完成分類。
[0006] 基于字符串的分類沒有考慮查詢關(guān)鍵詞的詞語關(guān)系,簡單的字符切分會(huì)導(dǎo)致大量 錯(cuò)誤的產(chǎn)生,分類效果較差。
[0007] 針對(duì)相關(guān)技術(shù)中確定關(guān)鍵詞類型的精度比較低的問題,目前尚未提出有效的解決 方案。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的主要目的在于提供一種關(guān)鍵詞的分類方法及裝置,以解決現(xiàn)有技術(shù)中確 定關(guān)鍵詞類型的精度比較低的問題。
[0009] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種關(guān)鍵詞的分類方法。
[0010] 根據(jù)本發(fā)明的關(guān)鍵詞的分類方法包括:對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述關(guān)鍵詞 的構(gòu)詞成分;提取所述構(gòu)詞成分中的多個(gè)構(gòu)詞要件;查詢每個(gè)所述構(gòu)詞要件所歸屬的預(yù)設(shè) 類別,得到多個(gè)歸屬類別;計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率;以及確定所 述多個(gè)歸屬概率中的最大概率所表示的類別為所述關(guān)鍵詞的類別。
[0011] 進(jìn)一步地,在計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率之前,所述分類方 法還包括:接收每個(gè)所述構(gòu)詞要件的權(quán)重賦值,其中,計(jì)算每個(gè)所述歸屬類別的概率,得到 多個(gè)歸屬概率包括:按照每個(gè)所述構(gòu)詞要件的權(quán)重賦值和每個(gè)所述構(gòu)詞要件的歸屬類別計(jì) 算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率。
[0012] 進(jìn)一步地,按照每個(gè)所述構(gòu)詞要件的權(quán)重賦值和每個(gè)所述構(gòu)詞要件的歸屬類別計(jì) 算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率包括:按照公式 /-1 計(jì)算每個(gè)所述歸屬類別的概率,得到所述多個(gè)歸屬概率,其中,P (B」Ai)為構(gòu)詞要件Ai歸屬 于歸屬類別h的預(yù)設(shè)概率,Qi為構(gòu)詞要件Ai的權(quán)重賦值,V (Bp為所述歸屬類別&的概率, j依次取1至m,η為所述構(gòu)詞要件的數(shù)量,m為所述歸屬類別的數(shù)量。
[0013] 進(jìn)一步地,Qk+1 > Qk,其中,k依次取1至n-1。
[0014] 進(jìn)一步地,在對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述關(guān)鍵詞的構(gòu)詞成分之前,所述分類 方法還包括:設(shè)定所述預(yù)設(shè)類別;以及設(shè)定歸屬于所述預(yù)設(shè)類別的構(gòu)詞要件。
[0015] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種關(guān)鍵詞的分類裝置。
[0016] 根據(jù)本發(fā)明的關(guān)鍵詞的分類裝置包括:劃分單元,用于對(duì)所述關(guān)鍵詞進(jìn)行劃分,得 到所述關(guān)鍵詞的構(gòu)詞成分;提取單元,用于提取所述構(gòu)詞成分中的多個(gè)構(gòu)詞要件;查詢單 元,用于查詢每個(gè)所述構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別;計(jì)算單元,用于計(jì) 算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率;以及確定單元,用于確定所述多個(gè)歸屬概 率中的最大概率所表示的類別為所述關(guān)鍵詞的類別。
[0017] 進(jìn)一步地,所述分類方法還包括:接收單元,用于在計(jì)算每個(gè)所述歸屬類別的概 率,得到多個(gè)歸屬概率之前,接收每個(gè)所述構(gòu)詞要件的權(quán)重賦值,其中,所述計(jì)算單元包括: 計(jì)算子單元,用于按照每個(gè)所述構(gòu)詞要件的權(quán)重賦值和每個(gè)所述構(gòu)詞要件的歸屬類別計(jì)算 每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率。
[0018] 進(jìn)一步地,所述計(jì)算子單元包括:計(jì)算模塊,用于按照公式 計(jì)算每個(gè)所述歸屬類別的概率,得到所述多個(gè)歸屬概率,其中, i=l P (B」Ai)為構(gòu)詞要件Ai歸屬于歸屬類別h的預(yù)設(shè)概率,Qi為構(gòu)詞要件A i的權(quán)重賦值,V (Bj) 為所述歸屬類別h的概率,」依次取1至!11,11為所述構(gòu)詞要件的數(shù)量,111為所述歸屬類別的 數(shù)量。
[0019] 進(jìn)一步地,Qk+1 > Qk,其中,k依次取1至n-1。
[0020] 進(jìn)一步地,所述分類裝置還包括:第一設(shè)定單元,用于在對(duì)所述關(guān)鍵詞進(jìn)行劃分, 得到所述關(guān)鍵詞的構(gòu)詞成分之前,設(shè)定所述預(yù)設(shè)類別;以及第二設(shè)定單元,用于設(shè)定歸屬于 所述預(yù)設(shè)類別的構(gòu)詞要件。
[0021] 通過本發(fā)明,采用對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述關(guān)鍵詞的構(gòu)詞成分;提取所述 構(gòu)詞成分中的多個(gè)構(gòu)詞要件;查詢每個(gè)所述構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類 另Ij ;計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率;以及確定所述多個(gè)歸屬概率中的 最大概率所表示的類別為所述關(guān)鍵詞的類別。通過對(duì)關(guān)鍵詞進(jìn)行劃分,并從構(gòu)詞成分中提 取構(gòu)詞要件,進(jìn)而基于構(gòu)詞要件所歸屬的類別的概率高低來確定關(guān)鍵詞的類別,實(shí)現(xiàn)了以 構(gòu)詞要件分類作為基礎(chǔ),充分結(jié)合關(guān)鍵詞的語義特征和構(gòu)詞特征進(jìn)行關(guān)鍵詞類別的確定, 解決了現(xiàn)有技術(shù)中確定關(guān)鍵詞類型的精度比較低的問題,進(jìn)而達(dá)到了提高關(guān)鍵詞類型確定 準(zhǔn)確度的效果。
【專利附圖】
【附圖說明】
[0022] 構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0023] 圖1是根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞的分類方法的流程圖;以及
[0024] 圖2是根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞的分類裝置的示意圖。
[0025] 實(shí)施例1
[0026] 根據(jù)本發(fā)明實(shí)施例,提供了一種可以用于實(shí)施本申請(qǐng)裝置實(shí)施例的方法實(shí)施例, 需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系 統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處 的順序執(zhí)行所示出或描述的步驟。
[0027] 根據(jù)本發(fā)明實(shí)施例,提供了一種關(guān)鍵詞的分類方法,圖1是根據(jù)本發(fā)明實(shí)施例的 關(guān)鍵詞的分類方法的流程圖,如圖1所示,該方法包括如下的步驟S102至步驟SllO :
[0028] S102:對(duì)關(guān)鍵詞進(jìn)行劃分,得到關(guān)鍵詞的構(gòu)詞成分,具體地,對(duì)關(guān)鍵詞進(jìn)行劃分為 對(duì)關(guān)鍵詞進(jìn)行細(xì)粒度切分,得到關(guān)鍵詞的構(gòu)詞成分。
[0029] S104:提取構(gòu)詞成分中的多個(gè)構(gòu)詞要件,具體地,構(gòu)詞要件可以是短語、詞或者語 素,比如:關(guān)鍵詞為"辦理駕駛證北京",對(duì)該關(guān)鍵詞進(jìn)行劃分后,可以得到構(gòu)詞成分"辦理"、 "北京"和"駕駛證",其中,構(gòu)詞要件是構(gòu)詞成分的一部分,具體地,由各個(gè)構(gòu)詞成分歸屬類 別的概率高低來確定,比如"北京"歸屬每個(gè)類別的概率均較低,識(shí)別度較低,則確定"北京" 是非構(gòu)詞要件,"辦理"和"駕駛證"的歸屬對(duì)應(yīng)類別的概率較高,則確定"辦理"和"駕駛證" 是構(gòu)詞要件。
[0030] S106 :查詢每個(gè)構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別。例如:步驟S104 中提取了 10個(gè)構(gòu)詞要件,在查詢這10個(gè)構(gòu)詞要件所歸屬的預(yù)設(shè)類別后,有2個(gè)構(gòu)詞要件單 一歸屬于同一個(gè)預(yù)設(shè)類別,另外8個(gè)構(gòu)詞要件分別單一歸屬于其它8個(gè)預(yù)設(shè)類別,那么最終 得到歸屬類別的個(gè)數(shù)為9個(gè);也有一種情況是,一個(gè)構(gòu)詞要件同時(shí)歸屬于多個(gè)預(yù)設(shè)類別,仍 然以步驟S104中提取了 10個(gè)構(gòu)詞要件為例說明,假如在查詢這10個(gè)構(gòu)詞要件所歸屬的預(yù) 設(shè)類別后,有1個(gè)構(gòu)詞要件歸屬于兩個(gè)不同的預(yù)設(shè)類別,有1個(gè)構(gòu)詞要件歸屬于另外三個(gè)不 同的預(yù)設(shè)類別,另外8個(gè)構(gòu)詞要件分別單一歸屬于其它8個(gè)與前面查詢出的預(yù)設(shè)類別不同 的預(yù)設(shè)類別,那么最終得到歸屬類別的個(gè)數(shù)為13個(gè)。
[0031] S108 :計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率。
[0032] SllO :確定多個(gè)歸屬概率中的最大概率所表示的類別為關(guān)鍵詞的類別。
[0033] 在本發(fā)明實(shí)施例中,通過對(duì)關(guān)鍵詞進(jìn)行劃分,并從構(gòu)詞成分中提取構(gòu)詞要件,進(jìn)而 基于構(gòu)詞要件所歸屬的類別的概率高低來確定關(guān)鍵詞的類別,實(shí)現(xiàn)了以構(gòu)詞要件分類作為 基礎(chǔ),充分結(jié)合關(guān)鍵詞的語義特征和構(gòu)詞特征進(jìn)行關(guān)鍵詞類別的確定,解決了現(xiàn)有技術(shù)中 確定關(guān)鍵詞類型的精度比較低的問題,進(jìn)而達(dá)到了提高關(guān)鍵詞類型確定準(zhǔn)確度的效果。 [0034] 優(yōu)選地,在計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率之前,本發(fā)明實(shí)施例所提 供的關(guān)鍵詞的分類方法還包括:接收每個(gè)構(gòu)詞要件的權(quán)重賦值,具體地,預(yù)先對(duì)多個(gè)構(gòu)詞要 件從前向后依次賦予由低到高的權(quán)重賦值。此時(shí),計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬 概率包括:按照每個(gè)構(gòu)詞要件的權(quán)重賦值和每個(gè)構(gòu)詞要件的歸屬類別計(jì)算每個(gè)歸屬類別的 概率,得到多個(gè)歸屬概率。
[0035] 在本發(fā)明實(shí)施例中,通過根據(jù)接收的每個(gè)構(gòu)詞要件的權(quán)重賦值和每個(gè)構(gòu)詞要件的 歸屬類別共同計(jì)算出多個(gè)歸屬概率,提高了計(jì)算的歸屬概率的結(jié)果的準(zhǔn)確性,進(jìn)一步達(dá)到 了提高關(guān)鍵詞類型確定準(zhǔn)確度的效果。
[0036] 具體地,在本發(fā)明實(shí)施例中,根據(jù)每個(gè)構(gòu)詞要件的權(quán)重賦值和每個(gè)構(gòu)詞要件的歸 屬類,按照公式4 = Σβ_ * |4?計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率,其 /-1 中,P(BjIAi)為構(gòu)詞要件Ai歸屬于歸屬類別h的預(yù)設(shè)概率,Q i為構(gòu)詞要件Ai的權(quán)重賦值, V(Bp為歸屬類別h的概率,j依次取1至m,η為構(gòu)詞要件的數(shù)量,m為歸屬類別的數(shù)量。
[0037] 優(yōu)選地,在本發(fā)明實(shí)施例中,相鄰的兩個(gè)構(gòu)詞要件之間的權(quán)重賦值的關(guān)系為Qk+1 > Qk,具體地,可以為Qk+1 = Qk+〇. 2,即,后一個(gè)構(gòu)詞要件的權(quán)重賦值比前一個(gè)構(gòu)詞要件的權(quán)重 賦值高0. 2,其中,k依次取1至n-1。
[0038] 對(duì)于關(guān)鍵詞而言,排在前面的構(gòu)詞要件相對(duì)排在后面的構(gòu)詞要件而言,后者對(duì)關(guān) 鍵詞的影響程度更大,通過預(yù)先對(duì)多個(gè)構(gòu)詞要件從前向后依次賦予由低到高的權(quán)重賦值, 并結(jié)合權(quán)重值計(jì)算歸屬概率,能夠進(jìn)一步提高關(guān)鍵詞分類的精確度。
[0039] 具體地,在查詢每個(gè)構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別之前,本發(fā)明 實(shí)施例所提供的關(guān)鍵詞的分類方法還包括:設(shè)定預(yù)設(shè)類別,并設(shè)定歸屬于預(yù)設(shè)類別的構(gòu)詞 要件,其中,設(shè)定的預(yù)設(shè)類別的個(gè)數(shù)至少為一個(gè)。需要說明的是,在一個(gè)預(yù)設(shè)類別中,可以只 設(shè)定一個(gè)歸屬其的構(gòu)詞要件,也可以設(shè)定多個(gè)歸屬其的構(gòu)詞要件。
[0040] 在本發(fā)明實(shí)施例中,通過設(shè)定預(yù)設(shè)類別以及設(shè)定歸屬類別的構(gòu)詞要件,為查詢構(gòu) 詞要件所歸屬的預(yù)設(shè)類別提供了基礎(chǔ)。
[0041] 需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列 的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)?依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知 悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明 所必須的。
[0042] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施 例的方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多 情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有 技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ) 介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì) 算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0043] 實(shí)施例2
[0044] 根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述關(guān)鍵詞的分類方法的關(guān)鍵詞的分 類裝置,該分類裝置主要用于執(zhí)行本發(fā)明實(shí)施例上述內(nèi)容所提供的分類方法,以下對(duì)本發(fā) 明實(shí)施例所提供的關(guān)鍵詞的分類裝置做具體介紹:
[0045] 根據(jù)本發(fā)明實(shí)施例,提供了一種關(guān)鍵詞的分類裝置,圖2是根據(jù)本發(fā)明實(shí)施例的 關(guān)鍵詞的分類裝置的示意圖,如圖2所示,該裝置主要包括劃分單元10、提取單元20、查詢 單元30、計(jì)算單元40和確定單元50,其中:
[0046] 劃分單元10用于對(duì)關(guān)鍵詞進(jìn)行劃分,得到關(guān)鍵詞的構(gòu)詞成分,具體地,對(duì)關(guān)鍵詞 進(jìn)行劃分為對(duì)關(guān)鍵詞進(jìn)行細(xì)粒度切分,得到關(guān)鍵詞的構(gòu)詞成分。
[0047] 提取單元20用于提取構(gòu)詞成分中的多個(gè)構(gòu)詞要件,具體地,構(gòu)詞要件可以是短 語、詞或者語素,比如:關(guān)鍵詞為"辦理駕駛證北京",對(duì)該關(guān)鍵詞進(jìn)行劃分后,可以得到構(gòu)詞 成分"辦理"、"北京"和"駕駛證",其中,構(gòu)詞要件是構(gòu)詞成分的一部分,具體地,由各個(gè)構(gòu)詞 成分歸屬類別的概率高低來確定,比如"北京"歸屬每個(gè)類別的概率均較低,識(shí)別度較低,則 確定"北京"是非構(gòu)詞要件,"辦理"和"駕駛證"的歸屬對(duì)應(yīng)類別的概率較高,則確定"辦理" 和"駕駛證"是構(gòu)詞要件。
[0048] 查詢單元30用于查詢每個(gè)構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別。例 如:提取單元20中提取了 10個(gè)構(gòu)詞要件,在查詢這10個(gè)構(gòu)詞要件所歸屬的預(yù)設(shè)類別后,有 2個(gè)構(gòu)詞要件單一歸屬于同一個(gè)預(yù)設(shè)類別,另外8個(gè)構(gòu)詞要件分別單一歸屬于其它8個(gè)預(yù)設(shè) 類別,那么最終得到歸屬類別的個(gè)數(shù)為9個(gè);也有一種情況是,一個(gè)構(gòu)詞要件同時(shí)歸屬于多 個(gè)預(yù)設(shè)類別,仍然以提取單元20中提取了 10個(gè)構(gòu)詞要件為例說明,假如在查詢這10個(gè)構(gòu) 詞要件所歸屬的預(yù)設(shè)類別后,有1個(gè)構(gòu)詞要件歸屬于兩個(gè)不同的預(yù)設(shè)類別,有1個(gè)構(gòu)詞要件 歸屬于另外三個(gè)不同的預(yù)設(shè)類別,另外8個(gè)構(gòu)詞要件分別單一歸屬于其它8個(gè)與前面查詢 出的預(yù)設(shè)類別不同的預(yù)設(shè)類別,那么最終得到歸屬類別的個(gè)數(shù)為13個(gè)。
[0049] 計(jì)算單元40用于計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率。
[0050] 確定單元50用于確定多個(gè)歸屬概率中的最大概率所表示的類別為關(guān)鍵詞的類 別。
[0051] 在本發(fā)明實(shí)施例中,通過對(duì)關(guān)鍵詞進(jìn)行劃分,并從構(gòu)詞成分中提取構(gòu)詞要件,進(jìn)而 基于構(gòu)詞要件所歸屬的類別的概率高低來確定關(guān)鍵詞的類別,實(shí)現(xiàn)了以構(gòu)詞要件分類作為 基礎(chǔ),充分結(jié)合關(guān)鍵詞的語義特征和構(gòu)詞特征進(jìn)行關(guān)鍵詞類別的確定,解決了現(xiàn)有技術(shù)中 確定關(guān)鍵詞類型的精度比較低的問題,進(jìn)而達(dá)到了提高關(guān)鍵詞類型確定準(zhǔn)確度的效果。
[0052] 優(yōu)選地,本發(fā)明實(shí)施例所提供的關(guān)鍵詞的分類裝置還包括接收單元,接收單元用 于在計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率之前,接收每個(gè)構(gòu)詞要件的權(quán)重賦值,具 體地,預(yù)先對(duì)多個(gè)構(gòu)詞要件從前向后依次賦予由低到高的權(quán)重賦值。此時(shí),計(jì)算單元40包 括計(jì)算子單元,計(jì)算子單元用于按照每個(gè)構(gòu)詞要件的權(quán)重賦值和每個(gè)構(gòu)詞要件的歸屬類別 計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率。
[0053] 在本發(fā)明實(shí)施例中,通過根據(jù)接收的每個(gè)構(gòu)詞要件的權(quán)重賦值和每個(gè)構(gòu)詞要件的 歸屬類別共同計(jì)算出多個(gè)歸屬概率,提高了計(jì)算的歸屬概率的結(jié)果的準(zhǔn)確性,進(jìn)一步達(dá)到 了提高關(guān)鍵詞類型確定準(zhǔn)確度的效果。
[0054] 具體地,在本發(fā)明實(shí)施例中,計(jì)算子單元包括計(jì)算模塊,計(jì)算模塊用于按照公式 η W計(jì)算每個(gè)歸屬類別的概率,得到多個(gè)歸屬概率,其中,P(B^Ai)為構(gòu) i=l 詞要件Ai歸屬于歸屬類別h的預(yù)設(shè)概率,Qi為構(gòu)詞要件Ai的權(quán)重賦值,V (Bp為歸屬類別 Bj的概率,j依次取1至m,η為構(gòu)詞要件的數(shù)量,m為歸屬類別的數(shù)量。
[0055] 優(yōu)選地,在本發(fā)明實(shí)施例中,相鄰的兩個(gè)構(gòu)詞要件之間的權(quán)重賦值的關(guān)系為Qk+1 > Qk,具體地,可以為Qk+1 = Qk+〇. 2,即,后一個(gè)構(gòu)詞要件的權(quán)重賦值比前一個(gè)構(gòu)詞要件的權(quán)重 賦值高0. 2,其中,k依次取1至n-1。
[0056] 對(duì)于關(guān)鍵詞而言,排在前面的構(gòu)詞要件相對(duì)排在后面的構(gòu)詞要件而言,后者對(duì)關(guān) 鍵詞的影響程度更大,通過預(yù)先對(duì)多個(gè)構(gòu)詞要件從前向后依次賦予由低到高的權(quán)重賦值, 并結(jié)合權(quán)重值計(jì)算歸屬概率,能夠進(jìn)一步提高關(guān)鍵詞分類的精確度。
[0057] 優(yōu)選地,在本發(fā)明實(shí)施例中,分類裝置還包括第一設(shè)定單元和第二設(shè)定單元,其 中,第一設(shè)定單元用于在對(duì)關(guān)鍵詞進(jìn)行劃分,得到關(guān)鍵詞的構(gòu)詞成分之前,設(shè)定預(yù)設(shè)類別, 其中,設(shè)定的預(yù)設(shè)類別的個(gè)數(shù)至少為一個(gè);第二設(shè)定單元用于設(shè)定歸屬于預(yù)設(shè)類別的構(gòu)詞 要件。需要說明的是,對(duì)于一個(gè)預(yù)設(shè)類別,可以只設(shè)定一個(gè)歸屬其的構(gòu)詞要件,也可以設(shè)定 多個(gè)歸屬其的構(gòu)詞要件,具體根據(jù)需求設(shè)定。
[0058] 在本發(fā)明實(shí)施例中,通過設(shè)定預(yù)設(shè)類別以及設(shè)定歸屬類別的構(gòu)詞要件,為查詢構(gòu) 詞要件所歸屬的預(yù)設(shè)類別提供了基礎(chǔ)。
[0059] 從以上的描述中,可以看出,本發(fā)明解決了現(xiàn)有技術(shù)中確定關(guān)鍵詞類型的精度比 較低的問題,進(jìn)而達(dá)到了提高關(guān)鍵詞類型確定準(zhǔn)確度的效果。
[0060] 上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0061] 在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有 詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0062] 在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的客戶端,可通過其它的方 式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一 種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者 可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之 間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連 接,可以是電性或其它的形式。
[0063] 所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0064] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0065] 所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用 時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上 或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式 體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī) 設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部 或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、只讀存儲(chǔ)器(ROM, Read-Only Memory)、隨機(jī)存 取存儲(chǔ)器(RAM, Random Access Memory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代 碼的介質(zhì)。
[0066] 以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1. 一種關(guān)鍵詞的分類方法,其特征在于,包括: 對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述關(guān)鍵詞的構(gòu)詞成分; 提取所述構(gòu)詞成分中的多個(gè)構(gòu)詞要件; 查詢每個(gè)所述構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別; 計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率;以及 確定所述多個(gè)歸屬概率中的最大概率所表示的類別為所述關(guān)鍵詞的類別。
2. 根據(jù)權(quán)利要求1所述的分類方法,其特征在于,在計(jì)算每個(gè)所述歸屬類別的概率,得 到多個(gè)歸屬概率之前,所述分類方法還包括: 接收每個(gè)所述構(gòu)詞要件的權(quán)重賦值, 其中,計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率包括:按照每個(gè)所述構(gòu)詞要件 的權(quán)重賦值和每個(gè)所述構(gòu)詞要件的歸屬類別計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬 概率。
3. 根據(jù)權(quán)利要求2所述的分類方法,其特征在于,按照每個(gè)所述構(gòu)詞要件的權(quán)重賦值 和每個(gè)所述構(gòu)詞要件的歸屬類別計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率包括: 按照公式十算每個(gè)所述歸屬類別的概率,得到所述多個(gè)歸屬 概率,其中,P(BjIAi)為構(gòu)詞要件Ai歸屬于歸屬類別h的預(yù)設(shè)概率,Qi為構(gòu)詞要件Ai的權(quán) 重賦值,V(Bj)為所述歸屬類別Bj的概率,j依次取1至m,η為所述構(gòu)詞要件的數(shù)量,m為 所述歸屬類別的數(shù)量。
4. 根據(jù)權(quán)利要求3所述的分類方法,其特征在于:Qk+1 >Qk,其中,k依次取1至n-1。
5. 根據(jù)權(quán)利要求1所述的分類方法,其特征在于,在對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述 關(guān)鍵詞的構(gòu)詞成分之前,所述分類方法還包括: 設(shè)定所述預(yù)設(shè)類別;以及 設(shè)定歸屬于所述預(yù)設(shè)類別的構(gòu)詞要件。
6. -種關(guān)鍵詞的分類裝置,其特征在于, 劃分單元,用于對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述關(guān)鍵詞的構(gòu)詞成分; 提取單元,用于提取所述構(gòu)詞成分中的多個(gè)構(gòu)詞要件; 查詢單元,用于查詢每個(gè)所述構(gòu)詞要件所歸屬的預(yù)設(shè)類別,得到多個(gè)歸屬類別; 計(jì)算單元,用于計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率;以及 確定單元,用于確定所述多個(gè)歸屬概率中的最大概率所表示的類別為所述關(guān)鍵詞的類 別。
7. 根據(jù)權(quán)利要求6所述的分類裝置,其特征在于,所述分類裝置還包括: 接收單元,用于在計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率之前,接收每個(gè)所 述構(gòu)詞要件的權(quán)重賦值, 其中,所述計(jì)算單元包括:計(jì)算子單元,用于按照每個(gè)所述構(gòu)詞要件的權(quán)重賦值和每個(gè) 所述構(gòu)詞要件的歸屬類別計(jì)算每個(gè)所述歸屬類別的概率,得到多個(gè)歸屬概率。
8. 根據(jù)權(quán)利要求7所述的分類裝置,其特征在于,所述計(jì)算子單元包括: 計(jì)算模塊,用于按照公式ζ?A) = A|4_yU十算每個(gè)所述歸屬類別的概率,得到 /-1 所述多個(gè)歸屬概率,其中,P(BjIAi)為構(gòu)詞要件Ai歸屬于歸屬類別h的預(yù)設(shè)概率,Qi為構(gòu)詞 要件Ai的權(quán)重賦值,V(Bj)為所述歸屬類別Bj的概率,j依次取1至m,η為所述構(gòu)詞要件的 數(shù)量,m為所述歸屬類別的數(shù)量。
9. 根據(jù)權(quán)利要求8所述的分類裝置,其特征在于:Qk+1 >Qk,其中,k依次取1至n-1。
10. 根據(jù)權(quán)利要求6所述的分類裝置,其特征在于,所述分類裝置還包括: 第一設(shè)定單元,用于在對(duì)所述關(guān)鍵詞進(jìn)行劃分,得到所述關(guān)鍵詞的構(gòu)詞成分之前,設(shè)定 所述預(yù)設(shè)類別;以及 第二設(shè)定單元,用于設(shè)定歸屬于所述預(yù)設(shè)類別的構(gòu)詞要件。
【文檔編號(hào)】G06F17/30GK104462347SQ201410736469
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月4日 優(yōu)先權(quán)日:2014年12月4日
【發(fā)明者】侯明午 申請(qǐng)人:北京國雙科技有限公司