訓(xùn)練分類(lèi)模型的方法及裝置、對(duì)搜索詞分類(lèi)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及訓(xùn)練分類(lèi)模型的方法及裝置、對(duì)搜索詞分類(lèi)的 方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)站平臺(tái)(例如汽車(chē)之家)可以提供大量的例如資訊、新 聞、廣告等內(nèi)容,以滿足用戶對(duì)信息的需求。然而,用戶在面對(duì)大量信息時(shí),經(jīng)常需要輸入搜 索詞并通過(guò)搜索引擎進(jìn)行搜索,以獲取用戶所需要的內(nèi)容。在根據(jù)搜索詞進(jìn)行搜索時(shí),一個(gè) 重要的環(huán)節(jié)是對(duì)搜索詞進(jìn)行分類(lèi),以確定用戶的搜索意圖?,F(xiàn)有的搜索方案中,通常采用規(guī) 則分類(lèi)的方式,以判斷搜索詞是否與關(guān)鍵詞表匹配。
[0003] 然而,規(guī)則分類(lèi)方式的識(shí)別范圍很有限,分類(lèi)的召回率較低。
【發(fā)明內(nèi)容】
[0004] 為此,本發(fā)明提供一種新的分類(lèi)方案,有效的解決了上面至少一個(gè)問(wèn)題。
[0005] 根據(jù)本發(fā)明的一個(gè)方面,提供一種訓(xùn)練搜索詞分類(lèi)模型的方法,適于在計(jì)算設(shè)備 中執(zhí)行。該計(jì)算設(shè)備包括關(guān)鍵詞存儲(chǔ)器,適于存儲(chǔ)關(guān)鍵詞分類(lèi)詞典。該詞典中每個(gè)關(guān)鍵詞具 有代表用戶搜索意圖的類(lèi)別信息,該方法包括以下步驟。從用戶歷史搜索記錄中獲取搜索 詞的集合,并獲取該集合中每個(gè)搜索詞的類(lèi)別。其中每個(gè)搜索詞的類(lèi)別是基于關(guān)鍵詞分類(lèi) 詞典得到的。獲取每個(gè)搜索詞中類(lèi)別與其相同的分詞。所獲取的每個(gè)分詞的屬性包括該分 詞的分類(lèi)貢獻(xiàn)度特征。獲取每個(gè)搜索詞中類(lèi)別與其相同的每個(gè)分詞的關(guān)聯(lián)詞。所獲取的每 個(gè)關(guān)聯(lián)詞的屬性包括表示這個(gè)關(guān)聯(lián)詞與相關(guān)聯(lián)分詞語(yǔ)義相似度的特征。利用每個(gè)搜索詞的 類(lèi)別、每個(gè)搜索詞中類(lèi)別與其相同的分詞和每個(gè)分詞的關(guān)聯(lián)詞來(lái)訓(xùn)練分類(lèi)模型。
[0006] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,獲取該搜索詞的集合中 每個(gè)搜索詞的類(lèi)別的步驟包括:如果這個(gè)搜索詞包括所述關(guān)鍵詞分類(lèi)詞典中一個(gè)關(guān)鍵詞, 則將這個(gè)關(guān)鍵詞的類(lèi)別作為這個(gè)搜索詞的類(lèi)別;如果這個(gè)搜索詞包括所述關(guān)鍵詞分類(lèi)詞典 中多個(gè)關(guān)鍵詞,則將這多個(gè)關(guān)鍵詞中優(yōu)先級(jí)最高的關(guān)鍵詞的類(lèi)別作為該搜索詞的類(lèi)別。
[0007] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,獲取每個(gè)搜索詞中與其 類(lèi)別相同的分詞的步驟包括:利用所述關(guān)鍵詞分類(lèi)詞典對(duì)每個(gè)搜索詞執(zhí)行分詞操作,并提 取類(lèi)別與這個(gè)搜索詞相同的分詞;利用下述公式計(jì)算所提取的每個(gè)分詞的分類(lèi)貢獻(xiàn)特征:t = l/(n+x)其中,t為該分詞的分類(lèi)貢獻(xiàn)值,η表示類(lèi)別與這個(gè)搜索詞相同的分詞總數(shù),X的取 值范圍為0.01-0.5。
[0008] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,獲取每個(gè)搜索詞中類(lèi)別 與其相同的每個(gè)分詞的關(guān)聯(lián)詞的步驟包括:獲取預(yù)定網(wǎng)站的至少一部分網(wǎng)頁(yè)信息;利用所 述關(guān)鍵詞分類(lèi)詞典對(duì)所獲取的網(wǎng)頁(yè)信息執(zhí)行分詞操作,以生成分詞集合;對(duì)該分詞集合執(zhí) 行詞聚類(lèi)操作,以獲取所獲取的網(wǎng)頁(yè)信息對(duì)應(yīng)的詞聚類(lèi)模型;基于該詞聚類(lèi)模型,對(duì)所述每 個(gè)分詞執(zhí)行詞擴(kuò)展操作,以獲取每個(gè)分詞的關(guān)聯(lián)詞。
[0009] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,利用所述關(guān)鍵詞分類(lèi)詞 典對(duì)所獲取的網(wǎng)頁(yè)信息執(zhí)行分詞操作,以生成分詞集合的步驟包括:對(duì)執(zhí)行分詞操作所獲 取的分詞執(zhí)行去重操作,并將去重后的所有分詞作為所述分詞集合。
[0010] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,對(duì)所述分詞集合執(zhí)行詞 聚類(lèi)操作的步驟包括:利用w〇rd2VeC對(duì)該分詞集合執(zhí)行詞聚類(lèi)操作。
[0011] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,表示這個(gè)關(guān)聯(lián)詞與相關(guān) 聯(lián)分詞語(yǔ)義相似度的特征為余弦距離。分類(lèi)模型為SVM模型。
[0012] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的方法中,利用每個(gè)搜索詞的類(lèi)別、 每個(gè)搜索詞中類(lèi)別與其相同的分詞和每個(gè)分詞的關(guān)聯(lián)詞來(lái)訓(xùn)練分類(lèi)模型的步驟包括:將每 個(gè)搜索詞的類(lèi)別、類(lèi)別與這個(gè)搜索詞相同的分詞和類(lèi)別與這個(gè)搜索詞相同的每個(gè)分詞的關(guān) 聯(lián)詞轉(zhuǎn)化為用向量表示的一條樣本;利用所生成的每條樣本對(duì)分類(lèi)模型的參數(shù)進(jìn)行訓(xùn)練。
[0013] 根據(jù)本發(fā)明又一個(gè)方面,提供一種對(duì)搜索詞分類(lèi)的方法,適于在計(jì)算設(shè)備中執(zhí)行。 該方法包括以下步驟。對(duì)搜索詞執(zhí)行分詞操作以生成一個(gè)或多個(gè)分詞。將所生成的每個(gè)分 詞作為該搜索詞的一個(gè)第一特征項(xiàng),每個(gè)第一特征項(xiàng)的屬性包括這個(gè)第一特征項(xiàng)的權(quán)重特 征。查詢(xún)每個(gè)第一特征項(xiàng)的關(guān)聯(lián)詞,并將這個(gè)第一特征項(xiàng)的每個(gè)關(guān)聯(lián)詞作為這個(gè)搜索詞的 一個(gè)第二特征項(xiàng)。每個(gè)第二特征項(xiàng)的屬性包括該第二特征項(xiàng)與相關(guān)聯(lián)的第一特征項(xiàng)的相似 度特征值。將該搜索詞的第一特征項(xiàng)和第二特征項(xiàng)代入到分類(lèi)模型中,以返回這個(gè)搜索詞 的類(lèi)別。
[0014] 可選地,在根據(jù)本發(fā)明的對(duì)搜索詞分類(lèi)的方法中,每個(gè)第一特征項(xiàng)的權(quán)重特征為 詞頻權(quán)重,該詞頻權(quán)重為這個(gè)第一特征項(xiàng)在所述搜索詞中出現(xiàn)的次數(shù)與該搜索詞的分詞總 數(shù)的比值。
[0015] 可選地,在根據(jù)本發(fā)明的對(duì)搜索詞分類(lèi)的方法中,計(jì)算設(shè)備包括關(guān)鍵詞存儲(chǔ)器,適 于存儲(chǔ)關(guān)鍵詞分類(lèi)詞典。該詞典中每個(gè)關(guān)鍵詞具有代表用戶搜索意圖的類(lèi)別信息,在對(duì)搜 索詞執(zhí)行分詞操作之前,該方法還包括:對(duì)用戶輸入的搜索詞進(jìn)行歸一化操作;根據(jù)關(guān)鍵詞 分類(lèi)詞典對(duì)經(jīng)過(guò)歸一化處理的搜索詞執(zhí)行分類(lèi)查詢(xún),并返回所查詢(xún)到的第一分類(lèi)結(jié)果;如 果未查詢(xún)到該搜索詞的第一分類(lèi)結(jié)果,對(duì)該搜索詞執(zhí)行糾錯(cuò)操作,并對(duì)經(jīng)過(guò)糾錯(cuò)的搜索詞 再次執(zhí)行分類(lèi)查詢(xún)以返回第二分類(lèi)結(jié)果;如果成功返回對(duì)搜索詞的第一分類(lèi)結(jié)果或第二分 類(lèi)結(jié)果,則不再執(zhí)行對(duì)搜索詞的分詞操作。
[0016] 可選地,根據(jù)本發(fā)明的對(duì)搜索詞分類(lèi)的方法還包括:如果對(duì)經(jīng)過(guò)糾錯(cuò)的搜索詞執(zhí) 行分類(lèi)查詢(xún)未返回第二分類(lèi)結(jié)果,則對(duì)該搜索詞執(zhí)行模式串提取操作,以獲取該搜索詞的 第三分類(lèi)結(jié)果,并在獲取第三分類(lèi)結(jié)果成功時(shí)不再執(zhí)行所述分詞操作。
[0017] 可選地,在根據(jù)本發(fā)明的對(duì)搜索詞分類(lèi)的方法中,在對(duì)所述搜索詞執(zhí)行分詞操作 之后,且生成所述第一特征項(xiàng)和第二特征項(xiàng)之前,該方法還包括:基于該分詞操作得到的所 有分詞,如果所有分詞包括所述關(guān)鍵詞分類(lèi)詞典中一個(gè)關(guān)鍵詞,則將這個(gè)關(guān)鍵詞的類(lèi)別作 為這個(gè)搜索詞的類(lèi)別;如果所有分詞包括所述關(guān)鍵詞分類(lèi)詞典中多個(gè)關(guān)鍵詞,則將這多個(gè) 關(guān)鍵詞中優(yōu)先級(jí)最高的關(guān)鍵詞的類(lèi)別作為該搜索詞的類(lèi)別;在基于所有分詞得到這個(gè)搜索 詞的類(lèi)別時(shí),不再生成所述第一特征項(xiàng)和所述第二特征項(xiàng)。
[0018] 可選地,在根據(jù)本發(fā)明的對(duì)搜索詞分類(lèi)的方法中,分類(lèi)模型是通過(guò)根據(jù)本發(fā)明的 訓(xùn)練搜索詞分類(lèi)模型的方法得到的。
[0019] 根據(jù)本發(fā)明又一個(gè)方面,提供一種訓(xùn)練搜索詞分類(lèi)模型的裝置,適于在計(jì)算設(shè)備 中駐留。該裝置包括關(guān)鍵詞存儲(chǔ)器、第一獲取單元、第二獲取單元、第三獲取單元和訓(xùn)練單 元。關(guān)鍵詞存儲(chǔ)器適于存儲(chǔ)關(guān)鍵詞分類(lèi)詞典。該詞典中每個(gè)關(guān)鍵詞具有代表用戶搜索意圖 的類(lèi)別信息。第一獲取單元適于從用戶歷史搜索記錄中獲取搜索詞的集合,并獲取該集合 中每個(gè)搜索詞的類(lèi)別。其中每個(gè)搜索詞的類(lèi)別是基于關(guān)鍵詞分類(lèi)詞典得到的。第二獲取單 元適于獲取每個(gè)搜索詞中類(lèi)別與其相同的分詞。所獲取的每個(gè)分詞的屬性包括該分詞的分 類(lèi)貢獻(xiàn)度特征。第三獲取單元適于獲取每個(gè)搜索詞中類(lèi)別與其相同的每個(gè)分詞的關(guān)聯(lián)詞。 所獲取的每個(gè)關(guān)聯(lián)詞的屬性包括表示這個(gè)關(guān)聯(lián)詞與相關(guān)聯(lián)分詞語(yǔ)義相似度的特征。訓(xùn)練單 元適于利用每個(gè)搜索詞的類(lèi)別、每個(gè)搜索詞中類(lèi)別與其相同的分詞和每個(gè)分詞的關(guān)聯(lián)詞來(lái) 訓(xùn)練分類(lèi)模型。
[0020] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,第一獲取單元適于根據(jù) 下述方式獲取該搜索詞的集合中每個(gè)搜索詞的類(lèi)別:如果這個(gè)搜索詞包括所述關(guān)鍵詞分類(lèi) 詞典中一個(gè)關(guān)鍵詞,則將這個(gè)關(guān)鍵詞的類(lèi)別作為這個(gè)搜索詞的類(lèi)別;如果這個(gè)搜索詞包括 所述關(guān)鍵詞分類(lèi)詞典中多個(gè)關(guān)鍵詞,則將這多個(gè)關(guān)鍵詞中優(yōu)先級(jí)最高的關(guān)鍵詞的類(lèi)別作為 該搜索詞的類(lèi)別。
[0021] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,第二獲取單元適于根據(jù) 下述方式獲取每個(gè)搜索詞中與其類(lèi)別相同的分詞:利用所述關(guān)鍵詞分類(lèi)詞典對(duì)每個(gè)搜索詞 執(zhí)行分詞操作,并提取類(lèi)別與這個(gè)搜索詞相同的分詞;利用下述公式計(jì)算所提取的每個(gè)分 詞的分類(lèi)貢獻(xiàn)特征:t = l/(n+x)其中,t為該分詞的分類(lèi)貢獻(xiàn)值,η表示類(lèi)別與這個(gè)搜索詞相 同的分詞總數(shù),X的取值范圍為0.01-0.5。
[0022]可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,第三獲取單元適于根據(jù) 下述方式獲取每個(gè)搜索詞中類(lèi)別與其相同的每個(gè)分詞的關(guān)聯(lián)詞:獲取預(yù)定網(wǎng)站的至少一部 分網(wǎng)頁(yè)信息;利用所述關(guān)鍵詞分類(lèi)詞典對(duì)所獲取的網(wǎng)頁(yè)信息執(zhí)行分詞操作,以生成分詞集 合;對(duì)該分詞集合執(zhí)行詞聚類(lèi)操作,以獲取所獲取的網(wǎng)頁(yè)信息對(duì)應(yīng)的詞聚類(lèi)模型;基于該詞 聚類(lèi)模型,對(duì)所述每個(gè)分詞執(zhí)行詞擴(kuò)展操作,以獲取每個(gè)分詞的關(guān)聯(lián)詞。
[0023] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,第三獲取單元根據(jù)下述 方式利用所述關(guān)鍵詞分類(lèi)詞典對(duì)所獲取的網(wǎng)頁(yè)信息執(zhí)行分詞操作,以生成分詞集合:對(duì)執(zhí) 行分詞操作所獲取的分詞執(zhí)行去重操作,并將去重后的所有分詞作為所述分詞集合。
[0024] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,第三獲取單元根據(jù)下述 方式對(duì)所述分詞集合執(zhí)行詞聚類(lèi)操作:利用w〇rd2 VeC對(duì)該分詞集合執(zhí)行詞聚類(lèi)操作。
[0025] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,表示一個(gè)關(guān)聯(lián)詞與相關(guān) 聯(lián)分詞語(yǔ)義相似度的特征為余弦距離。分類(lèi)模型為SVM模型。
[0026] 可選地,在根據(jù)本發(fā)明的訓(xùn)練搜索詞分類(lèi)模型的裝置中,訓(xùn)練單元適于根據(jù)下述 方式利用每個(gè)搜索詞的類(lèi)別、每個(gè)搜索詞中類(lèi)別與其相同的分詞和每個(gè)分詞的關(guān)聯(lián)詞來(lái)訓(xùn) 練分類(lèi)模型:將每個(gè)搜索詞的類(lèi)別、類(lèi)別與這個(gè)搜索詞相同的分詞和類(lèi)別與這個(gè)搜索詞相 同的每個(gè)分詞的關(guān)聯(lián)詞轉(zhuǎn)化為用向量表不的一條樣本;利用所生成的每條樣本對(duì)分類(lèi)模型 的參數(shù)進(jìn)行訓(xùn)練。
[0027] 根據(jù)本發(fā)明又一個(gè)方面,提供一種對(duì)搜索詞分類(lèi)的裝置,適于在計(jì)算設(shè)備中駐留。 該裝置包括分詞單元、擴(kuò)展單元和第一分類(lèi)單元。分詞單元適于對(duì)搜索詞執(zhí)行分詞操作,并 將所生成的每個(gè)分詞作為該搜索詞的一個(gè)第一特征項(xiàng)。每個(gè)第一特征項(xiàng)的屬性包括這個(gè)第 一特征項(xiàng)的權(quán)重特征。擴(kuò)展單元適于查詢(xún)每個(gè)第一特征項(xiàng)的關(guān)聯(lián)詞,并將這個(gè)第一特征項(xiàng) 的每個(gè)關(guān)聯(lián)詞作為這個(gè)搜索詞的一個(gè)第二特征項(xiàng)。每個(gè)第二特征項(xiàng)的屬性包括該第二特征 項(xiàng)與相關(guān)聯(lián)的第一特征項(xiàng)的相似度特征值。第一分類(lèi)單元適于將該搜索詞的第一特征項(xiàng)和 第二特征項(xiàng)代入到分類(lèi)模型中,以返回這個(gè)搜索詞的類(lèi)別。
當(dāng)前第1頁(yè)
1 
2 
3 
4 
5