同義詞挖掘方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種同義詞挖掘方法,上述方法為:提取類似對齊語料;對每對類似對齊語句S1、S2分別進行分詞處理,得到詞語序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);在每對詞語序列的S2(T2[1],T2[2],…,T2[j])中自適應挖掘S1(T1[1],T1[2],…,T1[i])的詞語的同義詞,并計算S1(T1[1],T1[2],…,T1[i])的詞語相對S2(T2[1],T2[2],…,T2[j])的詞語的同義概率;對NT1[i]相對于NT2[j]的同義概率進行迭代運算;計算NT1[i]相對于NT2[j]的全局同義置信度,并將置信度大于預設的置信度閾值的詞對作為同義詞輸出;本發(fā)明同時公開了一種同義詞挖掘裝置。本發(fā)明提升了同義詞挖掘的準確率,易于操作實現(xiàn)。
【專利說明】同義詞挖掘方法及裝置
【技術領域】
[0001]本發(fā)明涉及信息檢索領域,尤其涉及一種同義詞挖掘方法及裝置。
【背景技術】
[0002]互聯(lián)網(wǎng)搜索引擎已經(jīng)成為人們獲取信息的主流工具?,F(xiàn)有的搜索一般仍是基于檢索詞的搜索,即用戶輸入檢索詞讓搜索引擎進行查詢,搜索引擎返回包含這些檢索詞的相關網(wǎng)頁結(jié)果。實際上,并非每個用戶都了解搜索引擎的原理,而且用戶的教育背景、語言習慣、使用規(guī)范的不同,使得他們在使用中,經(jīng)常會使用一些意思相似而表達方式不同的檢索詞,如“腹瀉”和“拉肚子”。如果搜索引擎沒有識別同義詞的功能,則當用戶搜索“小孩腹瀉怎么辦”,一些含“小孩拉肚子”的優(yōu)質(zhì)的結(jié)果可能也就無法返回。
[0003]同義詞是自然語言中的一個獨特現(xiàn)象,同義詞挖掘在自然語言處理中是一項非常重要的基礎工作,也是一項非常重要有意義的工作,它的實現(xiàn)對于搜索查詢替換,改寫,豐富搜索結(jié)果,提升查詢體驗有很大的幫助。截止目前,有關同義詞挖掘的方法,主要有以下幾種:
[0004]1、手工方式獲取,一般是基于語言學家的知識積累,編寫的各類同義詞典,如hownet,wordnet之類的詞典。但這樣一是會耗費很大的人力、物力、資源來收集編寫,二是在實際應用中,使用這類的同義詞典成本較大,因為這類詞典偏學術型研究,在某些語境下才可同義(“泰山”和“岳父”),而無法直接應用。
[0005]2、基于同義模板的挖掘,如在百科、文獻、以及各類文章中,利用“又名”,“又稱”等關鍵字挖掘出同類的詞語,準確率會較高,但模板有限,挖掘出的數(shù)目也有限,且如此挖出的同義詞對,不容易確定詞之間的置信等級。
[0006]3、基于語料庫中各詞語之間的相關概率計算;計算語料庫中各詞語之間的相關概率進行同義詞挖掘,這種方式需要對語料庫中的詞語兩兩進行計算,效率很低。
[0007]4、利用互聯(lián)網(wǎng)搜索引擎結(jié)果的挖掘,是利用互聯(lián)網(wǎng)大數(shù)據(jù),結(jié)合用戶使用習慣與實際網(wǎng)頁文章來挖掘同義詞對。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是,提供一種同義詞挖掘方法及裝置,以改善現(xiàn)有的同義詞挖掘準確性差、效率低的問題。
[0009]本發(fā)明公開了一種同義詞挖掘方法,上述方法周期性執(zhí)行以下步驟:
[0010]步驟A:根據(jù)搜索日志,提取類似對齊語料,假設上述類似對齊語料中包含Q對類似對齊語句;
[0011]步驟B:對每對類似對齊語句S1、S2分別進行分詞處理,得到Q對詞語序列SI (Tl [I] ,Tl [2],...,Tl[i])、S2(T2[l],T2[2],...,T2[j]);
[0012]步驟C:在每對詞語序列的S2(T2[1],T2[2],- ,T2[j])中自適應挖掘
SI(Tl [1],Tl [2],...,Tl [i])的詞語的同義詞,并計算 Sl(Tl[l],Tl[2],*",Tl[i])的詞語相對S2(T2[l],T2[2],一,T2[j])的詞語的同義概率,最終得到Q個同義概率矩陣S(NTl[i],NT2[j]);
[0013]步驟D:以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎,對NTl[i]相對于NT2[j]的同義概率進行迭代運算;
[0014]步驟E:以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎,計算NTl [i]相對于NT2[j]的全局同義置信度,并將置信度大于預設的置信度閾值的詞對作為同義詞輸出。
[0015]優(yōu)選地,上述步驟A具體包括以下步驟:
[0016]依次提取搜索日志中使用次數(shù)大于預設次數(shù)的檢索詞;
[0017]提取根據(jù)當前檢索詞檢索到的網(wǎng)頁中,有點擊的網(wǎng)頁的標題;[0018]當前檢索詞與每個標題形成一對類似對其語句;
[0019]所有類似語句組成類似對齊語料。
[0020]優(yōu)選地,上述步驟B還對每對詞語序列執(zhí)行以下步驟:
[0021]為S1(T1[1],T1[2],…,Tl[i])、S2 (T2 [I],T2 [2],…,T2[j])的每個詞語設置初始值為O的標記flag[i]、flag[j];
[0022]遍歷上述S1(T1[1],T1[2],…Tl[i]);
[0023]若Tl[i]為地名,則令 flag[i] = ADDRESS_LABEL ;
[0024]若Tl[i]為英文,則令 flag[i] = ENG_LABEL ;
[0025]若Tl[i]為數(shù)字,則令 flag[i] = NUM_LABEL ;
[0026]若Tl[i]未出現(xiàn)在 S2(T2[1],T2[2],...,T2[j])中,則令 flag[i] = DIFF_LABEL ;
[0027]遍歷完成后,得到標記后的詞語序列SI (NT1[1],NTl [2],...,NTl [i]);
[0028]同時遍歷S2(T2[1],T2[2],…T2[j]);
[0029]若T2 [j]為地名,則令 flag[j] = ADDRESS_LABEL ;
[0030]若T2 [j]為英文,則令 flag[j] = ENG_LABEL ;
[0031]若T2[j]為數(shù)字,則令 flag[j] = NUM_LABEL ;
[0032]若丁2[」]未出現(xiàn)在51(1'1[1],1'1[2],...,11[1])中,則令flag [j] = DIFF_LABEL ;
[0033]遍歷完成后,得到標記后的詞語序列S2(NT2[1],NT2[2], - ,NT2[j]) ?
[0034]優(yōu)選地,上述步驟C在對詞語序列進行挖掘同義詞前,還執(zhí)行以下步驟:
[0035]刪除SI (NTl [I],NTl [2],…,NTl [i])、S2 (NT2[I],NT2[2],...,NT2[j])中標記為 O的詞語及其標記。
[0036]優(yōu)選地,上述步驟C針對每對詞語序列,具體執(zhí)行以下步驟:
[0037]Cl:根據(jù)最大熵原貝U,初始化NTl [i]相對于NT2[j]的同義概率P(NT2[j] INTl [i]),得到同義概率矩陣 S(NTl [i],NT2[j]);
[0038]C2:根據(jù)NTl[i]相對于NT2[j]的相似度,調(diào)整上述同義概率矩陣S(NTl[i],NT2[j])中相應的概率值;
[0039]C3:將 SI (NTl [I] ,NTl [2],...,NTl [i])、S2 (NT2 [I],NT2 [2],...,NT2[j])中標記為NUM_LABEL的非阿拉伯類型的詞語轉(zhuǎn)換成阿拉伯類型的詞語;
[0040]C4:根據(jù) SI (NTl [I], NTl [2],...,NTl[i])中標記為 NUM_LABEL 的詞語與
S2(NT2 [I],NT2 [2],…,NT2 [j])中標記為NUM_LABEL的詞語是否相同,調(diào)整上述同義概率矩陣S(NTl [i],NT2[j])中相應的概率值。[0041]優(yōu)選地,上述NTl [i]相對于NT2[j]的同義概率滿足如下公式:
[0042]
【權(quán)利要求】
1.一種同義詞挖掘方法,其特征在于,所述方法周期性執(zhí)行以下步驟: 步驟A:根據(jù)搜索日志,提取類似對齊語料,假設所述類似對齊語料中包含Q對類似對齊語句; 步驟B:對每對類似對齊語句S1、S2分別進行分詞處理,得到Q對詞語序列SI (Tl [I] ,Tl [2],...,Tl[i])、S2(T2[l],T2[2],...,T2[j]); 步驟C:在每對詞語序列的S2(T2[1],T2[2],一52^])中自適應挖掘SI (Tl [1],Tl [2],...,Tl [i])的詞語的同義詞,并計算 Sl(Tl[l],Tl[2],*",Tl[i])的詞語相對S2(T2[l],T2[2],一,T2[j])的詞語的同義概率,最終得到Q個同義概率矩陣S(NTl[i],NT2[j]); 步驟0:以所有的同義概率矩陣5(階1[1],階2[」])為基礎,對NTl [i]相對于NT2[j]的同義概率進行迭代運算; 步驟E:以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎,計算NTl [i]相對于NT2[j]的全局同義置信度, 并將置信度大于預設的置信度閾值的詞對作為同義詞輸出。
2.如權(quán)利要求1所述的同義詞挖掘方法,其特征在于,所述步驟A具體包括以下步驟: 依次提取搜索日志中使用次數(shù)大于預設次數(shù)的檢索詞; 提取根據(jù)當前檢索詞檢索到的網(wǎng)頁中,有點擊的網(wǎng)頁的標題; 當前檢索詞與每個標題形成一對類似對其語句; 所有類似語句組成類似對齊語料。
3.如權(quán)利要求1所述的同義詞挖掘方法,其特征在于,所述步驟B還對每對詞語序列執(zhí)行以下步驟: 為 SI (Tl [I] ,Tl [2],…,Tl[i])、S2(T2[1],T2[2],…,T2[j])的每個詞語設置初始值為 O 的標記 flag[i]、flag[j]; 遍歷所述 S1(T1[1],T1[2],…Tl[i]); 若 Tl[i]為地名,則令 flag[i] =ADDRESSJjmEL; 若 Tl[i]為英文,則令 flag[i] = ENG_LABEL ; 若 Tl[i]為數(shù)字,則令 flag[i] = NUM_LABEL ; 若 Tl[i]未出現(xiàn)在 S2(T2[l],T2[2],一,T2[j])中,則令 flag[i] = DIFF_LABEL ; 遍歷完成后,得到標記后的詞語序列SI (NTl [I], NTl [2], -,NTl[i]); 同時遍歷 S2(T2[1],T2[2],…T2[j]); 若 T2[j]為地名,則令 flag[j] = ADDRESS_LABEL ; 若 T2[j]為英文,則令 flag[j] = ENG_LABEL ; 若 T2[j]為數(shù)字,則令 flag[j] = NUM_LABEL ; 若 T2[j]未出現(xiàn)在 SI (Tl [1],Tl [2],...,!! [i])中,則令 flag[j] = DIFF_LABEL ; 遍歷完成后,得到標記后的詞語序列S2(NT2[1],NT2[2],…,NT2[j])。
4.如權(quán)利要求3所述的同義詞挖掘方法,其特征在于,所述步驟C在對詞語序列進行挖掘同義詞前,還執(zhí)行以下步驟:
刪除 SI (NTl [I], NTl [2],...,NTl[i])、S2 (NT2[I],NT2[2],...,NT2[j])中標記為 O 的詞語及其標記。
5.如權(quán)利要求4所述的同義詞挖掘方法,其特征在于,所述步驟C針對每對詞語序列,具體執(zhí)行以下步驟: Cl:根據(jù)最大熵原則,初始化NTl [i]相對于NT2[j]的同義概率P(NT2[j] NTl[i]),得到同義概率矩陣3(見'1[丨],見'2[」]); C2:根據(jù)NTl[i]相對于NT2[j]的相似度,調(diào)整所述同義概率矩陣S(NTl[i],NT2[j])中相應的概率值;
C3:將 SI (NTl [I],NTl [2],…,NTl [i])、S2 (NT2[I],NT2[2],...,NT2[j])中標記為 NUM_LABEL的非阿拉伯類型的詞語轉(zhuǎn)換成阿拉伯類型的詞語; C4:根據(jù) SI (NTl [1],NTl [2],...,NT1 [i])中標記為 NUM_LABEL 的詞語與S2(NT2[1],NT2[2],…,NT2[j])中標記為NUM_LABEL的詞語是否相同,調(diào)整所述同義概率^^$S(NTl[i],NT2[j])中相應的概率值。
6.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述NTl[i]相對于NT2[j]的同義概率滿足如下公式:
7.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述根據(jù)NTl[i]相對于NT2[j]的相似度,調(diào)整所述同義概率矩陣S(NTl[i],NT2[j])中相應的概率值步驟具體為: 通過如下公式計算NTl [i]相對于NT2[j]的相似度:
8.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述根據(jù)SI(NTl [I],NTl [2],…,NTl[i])中標記為 NUM_LABEL 的詞語與 S2 (NT2 [I],NT2 [2],...,NT2[j])中標記為 NUM_LABEL的詞語是否相同,調(diào)整所述同義概率矩陣S(NTl[i],NT2[j])中相應的概率值步驟具體為: 判斷 SI (NTl [I], NTl [2],...,NT1 [i])中標記為 NUM_LABEL 的詞語 NTl[k]與S2(NT2[1],NT2[2],...,NT2[j])中標記為 NUM_LABEL 的詞語 NT2[h]是否相同; 若相同,則 為同義概率矩陣3(見'1[丨],見'2[」])中NTl[k]相對于NT2[h]的同義概率值加上Pl ;為同義概率矩陣 S (NTl [i],NT2 [j])中 NTl [k]相對于 S2 (NT2 [I],NT2 [2],...,NT2 [j])中NT2[h]以外的詞語的同義概率值減去Pl/(I NS2 1-1); 為同義概率矩陣3(見1[丨],見'2[].])中,SI (NTl [1],NTl [2],...,NTl[i]) Φ NTl [k]以外的詞語相對于NT2[h]的同義概率值減去Pl/(INSl |-1); 為同義概率矩陣3(見'1[丨],見'2[」])中,SI (NTl [1],NTl [2],...,NTl[i]) Φ NTl [k]以外的詞語相對于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的詞語的同義概率值加上P1/(|NS1|-1)/(|NS2|-1)。
9.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述步驟D包括以下步驟: 步驟Dl:設置迭代次數(shù); 步驟D2:通過如下公式計算從類似對齊語料中挖掘出的NTl [i]相對于NT2[j]的同義概率 P(NT2[j] NTl [i])之和:
10.如權(quán)利要求1所述的同義詞挖掘方法,其特征在于,所述步驟E具體包括如下步驟: 以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎,通過如下公式計算NTl[i]相對于NT2[j]的全局同義置信度:
conf(NT2[j]I NTl[i]) = Pgl(NT2[j]|NTl[i])/M 其中,M為從類似對齊語料中挖掘出的NTl [i]相對于NT2[j]的次數(shù); 提取并保存置信度大于預設的置信度閾值的詞對的上下文; 將所述詞對作為同義詞輸出,同時輸出其同義替換語境及語境等級。
11.一種同義詞挖掘裝置,其特征在于,所述裝置包括類似對齊語料提取模塊、分詞處理模塊、自適應挖掘模塊、迭代模塊以及同義詞對輸出模塊,所述 類似對齊語料提取模塊,用于根據(jù)搜索日志,提取類似對齊語料; 分詞處理模塊,用于對類似對齊語句S1、S2進行分詞處理,得到詞語序列SI (Tl [I] ,Tl [2],...,Tl[i])、S2(T2[l],T2[2],...,T2[j]); 自適應挖掘模塊,用于在S2(T2[1],T2[2],一52^])中自適應挖掘Sl(Tl[l],Tl[2],-,Tl[i])的詞語的同義詞,并計算 Sl(Tl[l],Tl[2],一,Tl[i])的詞語相對S2(T2[1],T2[2],…T2[j])的詞語的同義概率,得到同義概率矩陣S(NTl[i],NT2[j]); 迭代模塊,用于對NTl [i]相對于NT2[j]的同義概率進行迭代運算; 同義詞對輸出模塊,用于計算NTl[i]相對于NT2[j]的全局同義置信度,并將置信度大于預設的置信度閾值的詞對作為同義詞輸出。
12.如權(quán)利要求11所述的同義詞挖掘裝置,其特征在于, 所述分詞處理模塊,用于對詞語序列SI (Tl [I],Tl [2],…,Tl [i])、S2 (T2 [I],T2 [2],…,T2[j])的每個詞語設置初始值為O的標記flag[i]、flag[j],并遍歷所述S1(T1[1],T1[2],...,Tl[i])及 S2(T2[1],T2[2],...,T2[j]);將 SI (Tl [I],Tl [2],…,Tl [i])中為地名的詞語的標記flag[i]置為ADDRESS_LABEL ;為英文的詞語的flag[i]置為ENG_LABEL ;為數(shù)字的詞語的flag[i]置為NUM_LABEL ;將未出現(xiàn)在S2(T2[1],T2[2],…,T2[j])中的詞語的標記flag[i]置為DIFF_LABEL,得到標記后的詞語序列 SI (NTl [I], NTl [2],...,NTl[i]);將 S2 (T2 [I],T2 [2],...,T2[j])中為地名的詞語的標記flag[j]置為ADDRESS_LABEL ;為英文的詞語的flag[j]置為ENG_LABEL ;為數(shù)字的詞語的flag[j]置為NUM_LABEL ;將未出現(xiàn)在SI (Tl [I],Tl [2],…,Tl[i])中的詞語的標記flag[j]置為 DIFF_LABEL,得到標記后的詞語序列 S2 (NT2 [I],NT2 [2],...,NT2[j]); 所述自適應挖掘模塊,用于刪除S1(NT1[1],NT1[2],".,ΝΤ1[?])、S2(NT2[1],NT2[2],…,NT2[j])中標記為O的詞語及其標記;并根據(jù)最大熵原則,初始化NTl [i]相對于NT2[j]的同義概率P(NT2[j]|NTl[i]);計算NTl[i]相對于NT2[j]的相似度,并根據(jù)所述相似度,調(diào)整NTl [i]相對于NT2[j]的概率值;將SI (NTl [I],NTl [2],...,NTl[i])、S2(NT2[1],NT2[2],...,NT2[j])中標記為 NUM_LABEL 的非阿拉伯類型的詞語轉(zhuǎn)換成阿拉伯類型的詞語;根據(jù)SI (NTl [I], NTl [2],...,NTl [i])中標記為NUM_LABEL的詞語與S2(NT2[1],NT2[2],…,NT2[j])中標記為NUM_LABEL的詞語是否相同,調(diào)整相應的概率值; 所述迭代模塊,用于保存預設的迭代次數(shù);計算從類似對齊語料中挖掘出的NTl [i]相對于NT2[j]的同義概率P(NT2[j] NTl [i])之和Pgl(NT2[j] NTl [i]);并根據(jù)Pgl(NT2[j] |NTl[i]),計算 NTl[i]相對于 NT2[j]的全局同義概率 Pg (NT2 [ j] NTl[i]);并在當前迭代不是最后一次迭代時,將NTl [i]相對于NT2[j]的同義概率值初始化為本次迭代得到的NTl [i]相對于NT2[j]的全局同義概率值; 所述同義詞對輸出模塊,用于提取并保存置信度大于預設的置信度閾值的詞對的上下文,以及在輸出同義詞對的同時,輸出其同義替換語境及語境等級。
【文檔編號】G06F17/30GK103942339SQ201410193704
【公開日】2014年7月23日 申請日期:2014年5月8日 優(yōu)先權(quán)日:2014年5月8日
【發(fā)明者】車天文, 王更生, 劉捷, 雷大偉 申請人:深圳市宜搜科技發(fā)展有限公司