同義詞挖掘方法及裝置制造方法

文檔序號：6545958閱讀：141來源：國知局

同義詞挖掘方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種同義詞挖掘方法，上述方法為：提取類似對齊語料；對每對類似對齊語句S1、S2分別進行分詞處理，得到詞語序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j])；在每對詞語序列的S2(T2[1],T2[2],…,T2[j])中自適應挖掘S1(T1[1],T1[2],…,T1[i])的詞語的同義詞，并計算S1(T1[1],T1[2],…,T1[i])的詞語相對S2(T2[1],T2[2],…,T2[j])的詞語的同義概率；對NT1[i]相對于NT2[j]的同義概率進行迭代運算；計算NT1[i]相對于NT2[j]的全局同義置信度，并將置信度大于預設的置信度閾值的詞對作為同義詞輸出；本發(fā)明同時公開了一種同義詞挖掘裝置。本發(fā)明提升了同義詞挖掘的準確率，易于操作實現(xiàn)。
【專利說明】同義詞挖掘方法及裝置
【技術領域】
[0001]本發(fā)明涉及信息檢索領域，尤其涉及一種同義詞挖掘方法及裝置。
【背景技術】
[0002]互聯(lián)網(wǎng)搜索引擎已經(jīng)成為人們獲取信息的主流工具?，F(xiàn)有的搜索一般仍是基于檢索詞的搜索，即用戶輸入檢索詞讓搜索引擎進行查詢，搜索引擎返回包含這些檢索詞的相關網(wǎng)頁結(jié)果。實際上，并非每個用戶都了解搜索引擎的原理，而且用戶的教育背景、語言習慣、使用規(guī)范的不同，使得他們在使用中，經(jīng)常會使用一些意思相似而表達方式不同的檢索詞，如“腹瀉”和“拉肚子”。如果搜索引擎沒有識別同義詞的功能，則當用戶搜索“小孩腹瀉怎么辦”，一些含“小孩拉肚子”的優(yōu)質(zhì)的結(jié)果可能也就無法返回。
[0003]同義詞是自然語言中的一個獨特現(xiàn)象，同義詞挖掘在自然語言處理中是一項非常重要的基礎工作，也是一項非常重要有意義的工作，它的實現(xiàn)對于搜索查詢替換，改寫，豐富搜索結(jié)果，提升查詢體驗有很大的幫助。截止目前，有關同義詞挖掘的方法，主要有以下幾種:
[0004]1、手工方式獲取，一般是基于語言學家的知識積累，編寫的各類同義詞典，如hownet,wordnet之類的詞典。但這樣一是會耗費很大的人力、物力、資源來收集編寫，二是在實際應用中，使用這類的同義詞典成本較大，因為這類詞典偏學術型研究，在某些語境下才可同義(“泰山”和“岳父”)，而無法直接應用。
[0005]2、基于同義模板的挖掘，如在百科、文獻、以及各類文章中，利用“又名”，“又稱”等關鍵字挖掘出同類的詞語，準確率會較高，但模板有限，挖掘出的數(shù)目也有限，且如此挖出的同義詞對，不容易確定詞之間的置信等級。
[0006]3、基于語料庫中各詞語之間的相關概率計算；計算語料庫中各詞語之間的相關概率進行同義詞挖掘，這種方式需要對語料庫中的詞語兩兩進行計算，效率很低。
[0007]4、利用互聯(lián)網(wǎng)搜索引擎結(jié)果的挖掘，是利用互聯(lián)網(wǎng)大數(shù)據(jù)，結(jié)合用戶使用習慣與實際網(wǎng)頁文章來挖掘同義詞對。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的是，提供一種同義詞挖掘方法及裝置，以改善現(xiàn)有的同義詞挖掘準確性差、效率低的問題。
[0009]本發(fā)明公開了一種同義詞挖掘方法，上述方法周期性執(zhí)行以下步驟:
[0010]步驟A:根據(jù)搜索日志，提取類似對齊語料，假設上述類似對齊語料中包含Q對類似對齊語句；
[0011]步驟B:對每對類似對齊語句S1、S2分別進行分詞處理，得到Q對詞語序列SI (Tl [I] ,Tl [2]，...，Tl[i])、S2(T2[l]，T2[2]，...，T2[j])；
[0012]步驟C:在每對詞語序列的S2(T2[1]，T2[2]，- ,T2[j])中自適應挖掘
SI(Tl [1]，Tl [2]，...，Tl [i])的詞語的同義詞，并計算 Sl(Tl[l]，Tl[2]，*"，Tl[i])的詞語相對S2(T2[l]，T2[2]，一，T2[j])的詞語的同義概率，最終得到Q個同義概率矩陣S(NTl[i]，NT2[j])；
[0013]步驟D:以所有的同義概率矩陣S(NTl[i]，NT2[j])為基礎，對NTl[i]相對于NT2[j]的同義概率進行迭代運算；
[0014]步驟E:以所有的同義概率矩陣S(NTl[i]，NT2[j])為基礎，計算NTl [i]相對于NT2[j]的全局同義置信度，并將置信度大于預設的置信度閾值的詞對作為同義詞輸出。
[0015]優(yōu)選地，上述步驟A具體包括以下步驟:
[0016]依次提取搜索日志中使用次數(shù)大于預設次數(shù)的檢索詞；
[0017]提取根據(jù)當前檢索詞檢索到的網(wǎng)頁中，有點擊的網(wǎng)頁的標題；[0018]當前檢索詞與每個標題形成一對類似對其語句；
[0019]所有類似語句組成類似對齊語料。
[0020]優(yōu)選地，上述步驟B還對每對詞語序列執(zhí)行以下步驟:
[0021]為S1(T1[1]，T1[2]，…，Tl[i])、S2 (T2 [I]，T2 [2]，…，T2[j])的每個詞語設置初始值為O的標記flag[i]、flag[j]；
[0022]遍歷上述S1(T1[1]，T1[2]，…Tl[i])；
[0023]若Tl[i]為地名，則令 flag[i] = ADDRESS_LABEL ；
[0024]若Tl[i]為英文，則令 flag[i] = ENG_LABEL ；
[0025]若Tl[i]為數(shù)字，則令 flag[i] = NUM_LABEL ；
[0026]若Tl[i]未出現(xiàn)在 S2(T2[1]，T2[2]，...，T2[j])中，則令 flag[i] = DIFF_LABEL ；
[0027]遍歷完成后，得到標記后的詞語序列SI (NT1[1]，NTl [2]，...，NTl [i])；
[0028]同時遍歷S2(T2[1]，T2[2]，…T2[j])；
[0029]若T2 [j]為地名，則令 flag[j] = ADDRESS_LABEL ；
[0030]若T2 [j]為英文，則令 flag[j] = ENG_LABEL ；
[0031]若T2[j]為數(shù)字，則令 flag[j] = NUM_LABEL ；
[0032]若丁2[」]未出現(xiàn)在51(1'1[1]，1'1[2]，...，11[1])中，則令flag [j] = DIFF_LABEL ；
[0033]遍歷完成后，得到標記后的詞語序列S2(NT2[1]，NT2[2], - ,NT2[j]) ?
[0034]優(yōu)選地，上述步驟C在對詞語序列進行挖掘同義詞前，還執(zhí)行以下步驟:
[0035]刪除SI (NTl [I],NTl [2]，…，NTl [i])、S2 (NT2[I]，NT2[2]，...，NT2[j])中標記為 O的詞語及其標記。
[0036]優(yōu)選地，上述步驟C針對每對詞語序列，具體執(zhí)行以下步驟:
[0037]Cl:根據(jù)最大熵原貝U，初始化NTl [i]相對于NT2[j]的同義概率P(NT2[j] INTl [i])，得到同義概率矩陣 S(NTl [i]，NT2[j])；
[0038]C2:根據(jù)NTl[i]相對于NT2[j]的相似度，調(diào)整上述同義概率矩陣S(NTl[i]，NT2[j])中相應的概率值；
[0039]C3:將 SI (NTl [I] ,NTl [2],...，NTl [i])、S2 (NT2 [I]，NT2 [2]，...，NT2[j])中標記為NUM_LABEL的非阿拉伯類型的詞語轉(zhuǎn)換成阿拉伯類型的詞語；
[0040]C4:根據(jù) SI (NTl [I], NTl [2],...，NTl[i])中標記為 NUM_LABEL 的詞語與
S2(NT2 [I]，NT2 [2]，…，NT2 [j])中標記為NUM_LABEL的詞語是否相同，調(diào)整上述同義概率矩陣S(NTl [i]，NT2[j])中相應的概率值。[0041]優(yōu)選地，上述NTl [i]相對于NT2[j]的同義概率滿足如下公式:
[0042]
【權(quán)利要求】
1.一種同義詞挖掘方法，其特征在于，所述方法周期性執(zhí)行以下步驟: 步驟A:根據(jù)搜索日志，提取類似對齊語料，假設所述類似對齊語料中包含Q對類似對齊語句；步驟B:對每對類似對齊語句S1、S2分別進行分詞處理，得到Q對詞語序列SI (Tl [I] ,Tl [2]，...，Tl[i])、S2(T2[l]，T2[2]，...，T2[j])；步驟C:在每對詞語序列的S2(T2[1]，T2[2]，一52^])中自適應挖掘SI (Tl [1]，Tl [2]，...，Tl [i])的詞語的同義詞，并計算 Sl(Tl[l]，Tl[2]，*"，Tl[i])的詞語相對S2(T2[l]，T2[2]，一，T2[j])的詞語的同義概率，最終得到Q個同義概率矩陣S(NTl[i]，NT2[j])；步驟0:以所有的同義概率矩陣5(階1[1]，階2[」])為基礎，對NTl [i]相對于NT2[j]的同義概率進行迭代運算；步驟E:以所有的同義概率矩陣S(NTl[i]，NT2[j])為基礎，計算NTl [i]相對于NT2[j]的全局同義置信度，并將置信度大于預設的置信度閾值的詞對作為同義詞輸出。
2.如權(quán)利要求1所述的同義詞挖掘方法，其特征在于，所述步驟A具體包括以下步驟: 依次提取搜索日志中使用次數(shù)大于預設次數(shù)的檢索詞；提取根據(jù)當前檢索詞檢索到的網(wǎng)頁中，有點擊的網(wǎng)頁的標題；當前檢索詞與每個標題形成一對類似對其語句；所有類似語句組成類似對齊語料。
3.如權(quán)利要求1所述的同義詞挖掘方法，其特征在于，所述步驟B還對每對詞語序列執(zhí)行以下步驟: 為 SI (Tl [I] ,Tl [2]，…，Tl[i])、S2(T2[1]，T2[2]，…，T2[j])的每個詞語設置初始值為 O 的標記 flag[i]、flag[j]；遍歷所述 S1(T1[1]，T1[2]，…Tl[i])；若 Tl[i]為地名，則令 flag[i] =ADDRESSJjmEL; 若 Tl[i]為英文，則令 flag[i] = ENG_LABEL ；若 Tl[i]為數(shù)字，則令 flag[i] = NUM_LABEL ；若 Tl[i]未出現(xiàn)在 S2(T2[l]，T2[2]，一，T2[j])中，則令 flag[i] = DIFF_LABEL ；遍歷完成后，得到標記后的詞語序列SI (NTl [I], NTl [2], -,NTl[i])；同時遍歷 S2(T2[1]，T2[2]，…T2[j])；若 T2[j]為地名，則令 flag[j] = ADDRESS_LABEL ；若 T2[j]為英文，則令 flag[j] = ENG_LABEL ；若 T2[j]為數(shù)字，則令 flag[j] = NUM_LABEL ；若 T2[j]未出現(xiàn)在 SI (Tl [1]，Tl [2]，...，!！ [i])中，則令 flag[j] = DIFF_LABEL ；遍歷完成后，得到標記后的詞語序列S2(NT2[1],NT2[2],…，NT2[j])。
4.如權(quán)利要求3所述的同義詞挖掘方法，其特征在于，所述步驟C在對詞語序列進行挖掘同義詞前，還執(zhí)行以下步驟:
刪除 SI (NTl [I], NTl [2],...，NTl[i])、S2 (NT2[I]，NT2[2]，...，NT2[j])中標記為 O 的詞語及其標記。
5.如權(quán)利要求4所述的同義詞挖掘方法，其特征在于，所述步驟C針對每對詞語序列，具體執(zhí)行以下步驟: Cl:根據(jù)最大熵原則，初始化NTl [i]相對于NT2[j]的同義概率P(NT2[j] NTl[i])，得到同義概率矩陣3(見'1[丨]，見'2[」])； C2:根據(jù)NTl[i]相對于NT2[j]的相似度，調(diào)整所述同義概率矩陣S(NTl[i]，NT2[j])中相應的概率值；
C3:將 SI (NTl [I],NTl [2],…，NTl [i])、S2 (NT2[I]，NT2[2]，...，NT2[j])中標記為 NUM_LABEL的非阿拉伯類型的詞語轉(zhuǎn)換成阿拉伯類型的詞語； C4:根據(jù) SI (NTl [1]，NTl [2]，...，NT1 [i])中標記為 NUM_LABEL 的詞語與S2(NT2[1],NT2[2],…，NT2[j])中標記為NUM_LABEL的詞語是否相同，調(diào)整所述同義概率^^$S(NTl[i]，NT2[j])中相應的概率值。
6.如權(quán)利要求5所述的同義詞挖掘方法，其特征在于，所述NTl[i]相對于NT2[j]的同義概率滿足如下公式:

7.如權(quán)利要求5所述的同義詞挖掘方法，其特征在于，所述根據(jù)NTl[i]相對于NT2[j]的相似度，調(diào)整所述同義概率矩陣S(NTl[i]，NT2[j])中相應的概率值步驟具體為: 通過如下公式計算NTl [i]相對于NT2[j]的相似度:
8.如權(quán)利要求5所述的同義詞挖掘方法，其特征在于，所述根據(jù)SI(NTl [I]，NTl [2]，…，NTl[i])中標記為 NUM_LABEL 的詞語與 S2 (NT2 [I]，NT2 [2]，...，NT2[j])中標記為 NUM_LABEL的詞語是否相同，調(diào)整所述同義概率矩陣S(NTl[i]，NT2[j])中相應的概率值步驟具體為: 判斷 SI (NTl [I], NTl [2],...，NT1 [i])中標記為 NUM_LABEL 的詞語 NTl[k]與S2(NT2[1]，NT2[2]，...，NT2[j])中標記為 NUM_LABEL 的詞語 NT2[h]是否相同；若相同，則為同義概率矩陣3(見'1[丨]，見'2[」])中NTl[k]相對于NT2[h]的同義概率值加上Pl ；為同義概率矩陣 S (NTl [i]，NT2 [j])中 NTl [k]相對于 S2 (NT2 [I]，NT2 [2]，...，NT2 [j])中NT2[h]以外的詞語的同義概率值減去Pl/(I NS2 1-1)；為同義概率矩陣3(見1[丨]，見'2[].])中，SI (NTl [1]，NTl [2]，...，NTl[i]) Φ NTl [k]以外的詞語相對于NT2[h]的同義概率值減去Pl/(INSl |-1)；為同義概率矩陣3(見'1[丨]，見'2[」])中，SI (NTl [1]，NTl [2]，...，NTl[i]) Φ NTl [k]以外的詞語相對于S2(NT2[1],NT2[2],…，NT2[j])中NT2[h]以外的詞語的同義概率值加上P1/(|NS1|-1)/(|NS2|-1)。
9.如權(quán)利要求5所述的同義詞挖掘方法，其特征在于，所述步驟D包括以下步驟: 步驟Dl:設置迭代次數(shù)；步驟D2:通過如下公式計算從類似對齊語料中挖掘出的NTl [i]相對于NT2[j]的同義概率 P(NT2[j] NTl [i])之和:
10.如權(quán)利要求1所述的同義詞挖掘方法，其特征在于，所述步驟E具體包括如下步驟: 以所有的同義概率矩陣S(NTl[i]，NT2[j])為基礎，通過如下公式計算NTl[i]相對于NT2[j]的全局同義置信度:
conf(NT2[j]I NTl[i]) = Pgl(NT2[j]|NTl[i])/M 其中，M為從類似對齊語料中挖掘出的NTl [i]相對于NT2[j]的次數(shù)；提取并保存置信度大于預設的置信度閾值的詞對的上下文；將所述詞對作為同義詞輸出，同時輸出其同義替換語境及語境等級。
11.一種同義詞挖掘裝置，其特征在于，所述裝置包括類似對齊語料提取模塊、分詞處理模塊、自適應挖掘模塊、迭代模塊以及同義詞對輸出模塊，所述類似對齊語料提取模塊，用于根據(jù)搜索日志，提取類似對齊語料；分詞處理模塊，用于對類似對齊語句S1、S2進行分詞處理，得到詞語序列SI (Tl [I] ,Tl [2]，...，Tl[i])、S2(T2[l]，T2[2]，...，T2[j])；自適應挖掘模塊，用于在S2(T2[1]，T2[2]，一52^])中自適應挖掘Sl(Tl[l],Tl[2],-,Tl[i])的詞語的同義詞，并計算 Sl(Tl[l]，Tl[2]，一，Tl[i])的詞語相對S2(T2[1]，T2[2]，…T2[j])的詞語的同義概率，得到同義概率矩陣S(NTl[i]，NT2[j])；迭代模塊，用于對NTl [i]相對于NT2[j]的同義概率進行迭代運算；同義詞對輸出模塊，用于計算NTl[i]相對于NT2[j]的全局同義置信度，并將置信度大于預設的置信度閾值的詞對作為同義詞輸出。
12.如權(quán)利要求11所述的同義詞挖掘裝置，其特征在于，所述分詞處理模塊，用于對詞語序列SI (Tl [I]，Tl [2]，…，Tl [i])、S2 (T2 [I]，T2 [2]，…，T2[j])的每個詞語設置初始值為O的標記flag[i]、flag[j]，并遍歷所述S1(T1[1]，T1[2]，...，Tl[i])及 S2(T2[1]，T2[2]，...，T2[j])；將 SI (Tl [I]，Tl [2]，…，Tl [i])中為地名的詞語的標記flag[i]置為ADDRESS_LABEL ;為英文的詞語的flag[i]置為ENG_LABEL ;為數(shù)字的詞語的flag[i]置為NUM_LABEL ;將未出現(xiàn)在S2(T2[1]，T2[2]，…，T2[j])中的詞語的標記flag[i]置為DIFF_LABEL，得到標記后的詞語序列 SI (NTl [I], NTl [2],...，NTl[i]);將 S2 (T2 [I]，T2 [2]，...，T2[j])中為地名的詞語的標記flag[j]置為ADDRESS_LABEL ;為英文的詞語的flag[j]置為ENG_LABEL ;為數(shù)字的詞語的flag[j]置為NUM_LABEL ;將未出現(xiàn)在SI (Tl [I]，Tl [2]，…，Tl[i])中的詞語的標記flag[j]置為 DIFF_LABEL，得到標記后的詞語序列 S2 (NT2 [I]，NT2 [2]，...，NT2[j])；所述自適應挖掘模塊，用于刪除S1(NT1[1]，NT1[2]，".，ΝΤ1[?])、S2(NT2[1],NT2[2],…，NT2[j])中標記為O的詞語及其標記；并根據(jù)最大熵原則，初始化NTl [i]相對于NT2[j]的同義概率P(NT2[j]|NTl[i]);計算NTl[i]相對于NT2[j]的相似度，并根據(jù)所述相似度，調(diào)整NTl [i]相對于NT2[j]的概率值;將SI (NTl [I]，NTl [2]，...，NTl[i])、S2(NT2[1]，NT2[2]，...，NT2[j])中標記為 NUM_LABEL 的非阿拉伯類型的詞語轉(zhuǎn)換成阿拉伯類型的詞語；根據(jù)SI (NTl [I], NTl [2],...，NTl [i])中標記為NUM_LABEL的詞語與S2(NT2[1]，NT2[2]，…，NT2[j])中標記為NUM_LABEL的詞語是否相同，調(diào)整相應的概率值；所述迭代模塊，用于保存預設的迭代次數(shù)；計算從類似對齊語料中挖掘出的NTl [i]相對于NT2[j]的同義概率P(NT2[j] NTl [i])之和Pgl(NT2[j] NTl [i]);并根據(jù)Pgl(NT2[j] |NTl[i])，計算 NTl[i]相對于 NT2[j]的全局同義概率 Pg (NT2 [ j] NTl[i]);并在當前迭代不是最后一次迭代時，將NTl [i]相對于NT2[j]的同義概率值初始化為本次迭代得到的NTl [i]相對于NT2[j]的全局同義概率值；所述同義詞對輸出模塊，用于提取并保存置信度大于預設的置信度閾值的詞對的上下文，以及在輸出同義詞對的同時，輸出其同義替換語境及語境等級。
【文檔編號】G06F17/30GK103942339SQ201410193704
【公開日】2014年7月23日申請日期:2014年5月8日優(yōu)先權(quán)日:2014年5月8日
【發(fā)明者】車天文, 王更生, 劉捷, 雷大偉申請人:深圳市宜搜科技發(fā)展有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：車天文;王更生;劉捷;雷大偉
技術所有人：深圳市宜搜科技發(fā)展有限公司
我是此專利的發(fā)明人

上一篇：基于種子詞的微博文本層次主題發(fā)現(xiàn)方法及系統(tǒng)的制作方法
上一篇：詩詞漢字平仄檢索方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

同義詞挖掘方法及裝置制造方法