確定漢語詞匯相似度的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別涉及一種確定漢語詞匯相似度的方法和
目.0
【背景技術(shù)】
[0002]目前,在需要計算漢語詞匯相似度時所采用的方法主要是基于根據(jù)漢字上下文進行判斷的方法(如word2vec模型等),這種做法的核心思想是以漢字為基本單位進行訓(xùn)練,從而得到漢字的相似度。然而,在采用基于漢字上下文的方法(如word2vec模型等)存在一定的缺陷,主要體現(xiàn)在當(dāng)一些語言單位出現(xiàn)頻率較低時,通常準(zhǔn)確性有限,無法得到令人滿意結(jié)果。
【發(fā)明內(nèi)容】
[0003]為此,需要提供一種快速高效且具有較高準(zhǔn)確性的確定漢語詞匯相似度的技術(shù)方案。
[0004]為實現(xiàn)上述目的,發(fā)明人提供了一種確定漢語詞匯相似度的方法,包括如下步驟:
[0005]給定待確定相似度的第一詞匯和第二詞匯,所述第一詞匯含有Ml個漢字,所述第二詞匯含有M2個漢字;
[0006]將第一詞匯中的各個漢字分別與第二詞匯中的各個漢字配對,形成P個待判單字對;
[0007]比對各待判單字對是否位于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫中,并根據(jù)P個待判單字對中的位于所述預(yù)設(shè)相近語義漢字對數(shù)據(jù)庫中的待判單字對的數(shù)量確定第一詞匯和第二詞匯的相似度。
[0008]進一步地,所述的確定漢語詞匯相似度的方法中,給定的第一詞匯和第二詞匯中含有的漢字數(shù)目滿足條件= M2。
[0009]進一步地,所述的確定漢語詞匯相似度的方法中,步驟“將第一詞匯中的各個漢字分別與第二詞匯中的各個漢字配對”具體為:
[0010]將第一詞匯中的Ml個漢字分別與第二詞匯中的M2個漢字進行有序配對,形成P=M1*M2個待判單字對。
[0011 ] 進一步地,所述的確定漢語詞匯相似度的方法中,步驟“將第一詞匯中的各個漢字分別與第二詞匯中的各個漢字配對,形成若干個待判單字對”后還包括步驟:
[0012]遍歷所述形成的P個待判單字對,從中刪去實質(zhì)重復(fù)的Pl個待判單字對,得到P-Pl個待判單字對。
[0013]進一步地,所述的確定漢語詞匯相似度的方法中,獲取所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫的方法具體包括如下步驟:
[0014]從給定的語料庫中獲取一待判單詞,所述待判單詞含有四個漢字,依次為Z1、Z2、Z3、Z4 ;
[0015]判斷Zl與Z3是否為相同漢字,如是則輸出Z2和Z4為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫。
[0016]進一步地,所述的確定漢語詞匯相似度的方法中,判斷Zl與Z3是否為相同漢字,如是則輸出Z2和TA為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫;否則:
[0017]判斷是否Zl與Z2為相同漢字且Z3與Z4為相同漢字,如是則輸出Zl和Z3為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫。
[0018]進一步地,所述的確定漢語詞匯相似度的方法中,判斷是否Zl與Z2為相同漢字且Z3與TA為相同漢字,如是則輸出Zl和Z3為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫,否則:
[0019]根據(jù)預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫比對Zl與Z3是否為相近語義漢字對,如是則輸出Z2和TA為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫。
[0020]進一步地,所述的確定漢語詞匯相似度的方法中,步驟“從給定的語料庫中獲取一待判單詞”具體包括:
[0021]從給定的語料庫中獲取一含有四個漢字的單詞,并根據(jù)預(yù)設(shè)的音譯單詞數(shù)據(jù)庫比對該含有四個漢字的單詞是否為音譯單詞,否則將其確定為待判單詞。
[0022]進一步地,所述的確定漢語詞匯相似度的方法中,所述給定的語料庫為經(jīng)過分詞或詞性標(biāo)注處理的語料庫。
[0023]同時,發(fā)明人還提供了一種確定漢語詞匯相似度的裝置,包括輸入單元、配對單元、比對單元和計算單元;
[0024]所述輸入單元用于給定待確定相似度的第一詞匯和第二詞匯,所述第一詞匯含有Ml個漢字,所述第二詞匯含有M2個漢字;
[0025]所述配對單元用于將第一詞匯中的各個漢字分別與第二詞匯中的各個漢字配對,形成P個待判單字對;
[0026]所述比對單元用于比對各待判單字對是否位于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫中;
[0027]所述計算單元用于根據(jù)P個待判單字對中的位于所述預(yù)設(shè)相近語義漢字對數(shù)據(jù)庫中的待判單字對的數(shù)量確定第一詞匯和第二詞匯的相似度。
[0028]進一步地,所述的確定漢語詞匯相似度的裝置中,給定的第一詞匯和第二詞匯中含有的漢字數(shù)目滿足條件= M2。
[0029]進一步地,所述的確定漢語詞匯相似度的裝置中,配對單元將第一詞匯中的各個漢字分別與第二詞匯中的各個漢字配對具體為:
[0030]將第一詞匯中的Ml個漢字分別與第二詞匯中的M2個漢字進行有序配對,形成P=M1*M2個待判單字對。
[0031]進一步地,所述的確定漢語詞匯相似度的裝置中,配對單元將第一詞匯中的各個漢字分別與第二詞匯中的各個漢字配對,形成若干個待判單字對后,遍歷所述形成的P個待判單字對,從中刪去實質(zhì)重復(fù)的Pl個待判單字對,得到P-Pl個待判單字對。
[0032]進一步地,所述的確定漢語詞匯相似度的裝置中,還包括數(shù)據(jù)獲取單元,用于構(gòu)建所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫,所述數(shù)據(jù)獲取單元構(gòu)建所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫的具體方式為:
[0033]從給定的語料庫中獲取一待判單詞,所述待判單詞含有四個漢字,依次為Z1、Z2、Z3、Z4 ;
[0034]判斷Zl與Z3是否為相同漢字,如是則輸出Z2和Z4為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫。
[0035]進一步地,所述的確定漢語詞匯相似度的裝置中,數(shù)據(jù)獲取單元判斷Zl與Z3是否為相同漢字,如是則輸出Z2和TA為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫;否則:
[0036]判斷是否Zl與Z2為相同漢字且Z3與Z4為相同漢字,如是則輸出Zl和Z3為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫。
[0037]進一步地,所述的確定漢語詞匯相似度的裝置中,數(shù)據(jù)獲取單元判斷是否Zl與Z2為相同漢字且Z3與TA為相同漢字,如是則輸出Zl和Z3為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫,否則:
[0038]根據(jù)預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫比對Zl與Z3是否為相近語義漢字對,如是則輸出Z2和TA為相近語義漢字對并保存于所述預(yù)設(shè)的相近語義漢字對數(shù)據(jù)庫。
[0039]進一步地,所述的確定漢語詞匯相似度的裝置中,從給定的語料庫中獲取一待判單詞具體包括:
[0040]從給定的語料庫中獲取一含有四個漢字的單詞,并根據(jù)預(yù)設(shè)的音譯單詞數(shù)據(jù)庫比對該含有四個漢字的單詞是否為音譯單詞,否則將其確定為待判單詞。
[0041]進一步地,所述的確定漢語詞匯相似度的裝置中,所述給定的語料庫為經(jīng)過分詞或詞性標(biāo)注處理的語料庫。
[0042]區(qū)別于現(xiàn)有技術(shù),上述技術(shù)方案可以快速高效且具有較高準(zhǔn)確性地獲取漢字相似度的漢字相似度,并可將計算結(jié)果進一步應(yīng)用于文本分類、自動問答系統(tǒng)、情感分析、詞表構(gòu)建等文本分析任務(wù)。
【附圖說明】
[0043]圖1為本發(fā)明一實施方式所述確定漢語詞匯相似度的方法的流程圖;
[0044]圖2為本發(fā)明一實施方式所述確定漢語詞匯相似度的裝置的結(jié)構(gòu)示意圖。
[0045]附圖標(biāo)記說明:
[0046]1-輸入單元
[0047]2-配對單元
[0048]3-比對單元
[0049]4-計算單元
[0050]5-數(shù)據(jù)獲取單元
【具體實施方式】
[0051]為詳細說明技術(shù)方案的技術(shù)內(nèi)容、構(gòu)造特征、所實現(xiàn)目的及效果,以下結(jié)合具體實施例并配合附圖詳予說明。
[0052]請參閱圖1,為本發(fā)明一實施方式所述確定漢語詞匯相似度的方法的流程圖;所述方法包括如下步驟:
[0053]S1、給定待確定相似度的第一詞匯和第二詞匯;
[0054]所述第一詞匯含有Ml個漢字,所述第二詞匯含有M2個漢字;
[0055]此處,Ml與M2可以相等也可以不相等