一種漢語離合詞的自動識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能計算機領(lǐng)域中的自然語言處理,特別涉及漢語離合詞的語言 處理領(lǐng)域。
【背景技術(shù)】
[0002] 漢語中的離合詞是一種特殊的語言現(xiàn)象,其不僅可以作為一個詞使用,還可以拆 開不緊挨著出現(xiàn)。漢語離合詞在自然語言中的使用越來越廣泛,有些詞隨著時間的變化,原 先不是離合詞,現(xiàn)在變成離合詞了,這對自然語言處理帶來了更多的挑戰(zhàn)。比如在中文文本 自動校對領(lǐng)域,有字詞插入錯誤的校對判斷,但由于漢語離合詞的存在,在錯別字識別的過 程中經(jīng)過統(tǒng)計分析可能會將離合詞中間的插入的詞或字當(dāng)做成插入錯誤。例如,"開一車", 由于"開車"是離合詞,因此"一"不是字插入錯誤,是一種合理的語言現(xiàn)象,而"短一信"中的 "一"是字插入錯,因為"短信"不是離合詞。
[0003]在離合詞自動識別中,常遇到幾個難題需要解決:
[0004] 1)離合詞自動識別是一個自然語言處理的問題,因此在獲取前需要進行中文分 詞,如何對離合詞的特點進行分析,如何對滿足離合詞候選模式的進行統(tǒng)計和存儲。
[0005] 2)如何來對離合詞進行識別?滿足模式不一定代表就是離合詞,如何用統(tǒng)計量來 判斷離合詞?
[0006] 因此想要實現(xiàn)離合詞的自動識別并獲得較高的準(zhǔn)確率,需要考慮如下有待解決的 問題:
[0007] 技術(shù)問題1:離合詞的模式以及大規(guī)模語料統(tǒng)計。對漢語文本分詞后進行分析,對 離合詞的模式進行歸類,如何設(shè)計一種合理的結(jié)構(gòu)對大規(guī)模語料進行統(tǒng)計?
[0008] 技術(shù)問題2:離合詞的量化問題。怎么根據(jù)統(tǒng)計信息來量化地判斷一個離合詞候選 是否是一個真正的離合詞?
[0009 ]針對上述難題和問題,本發(fā)明提供一種漢語離合詞的自動識別方法。
【發(fā)明內(nèi)容】
[0010] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種漢語離合詞的自動 識別方法。
[0011] 技術(shù)方案:
[0012] 為解決上述技術(shù)問題,本發(fā)明提供一種漢語離合詞的自動識別方法,包括以下步 驟:
[0013] 1)利用帶距離信息的Gram對分詞后的語料進行統(tǒng)計的步驟:對分詞后的語料,結(jié) 合離合詞的定義和特點,利用帶距離的Gram來統(tǒng)計分詞后語料庫中的統(tǒng)計信息;
[0014] 2)離合詞模式候選庫的生成步驟:根據(jù)離合詞的特點,將滿足離合模式的離合詞 候選,及其對應(yīng)的離合詞候選模式串加入到離合詞模式候選庫中;
[0015] 3)離合詞自動識別的步驟:遍歷離合詞模式候選庫,計算得到滿足離合模式的離 合詞候選的離合置信度和離合支持度,并根據(jù)所述離合置信度和離合支持度與對應(yīng)預(yù)設(shè)閾 值的比較,實現(xiàn)離合詞的自動識別。
[0016] 優(yōu)選的,所述步驟1)利用帶距離信息的Gram對分詞后的語料進行統(tǒng)計的步驟中: 所述帶距離信息的Gram結(jié)構(gòu)為:Gram= (Wi,disi,W2,dis2,W3,F(xiàn)req),其中Wi、W2、W3分別表示 分詞后的詞,disi是Wi和W2在句子中的距尚,dis2為詞W2與W3在句子中的距尚,F(xiàn)req為(Wi, d i s 1,W2,d i S2,W3)在語料中出現(xiàn)的頻次;
[0017] 所述步驟2)離合詞模式候選庫的生成步驟中:對于步驟1)中統(tǒng)計得到的某Gram = (Wi,disi,W2,dis2,W3,F(xiàn)req)滿足以下幾種情況之一時,詞W為一離合詞候選,將該Gram串作 為離合詞候選W對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫中:
[0018] (1)將W3拼接在1末尾是詞典中的一個詞W;
[0019] (2)將1拼接在W2末尾是詞典中的一個詞W;
[0020] (3)將1拼接在W3末尾是詞典中的一個詞W。
[0021] 進一步優(yōu)選的,所述步驟3)離合詞自動識別的步驟中:對離合詞模式候選庫中滿 足離合模式的離合詞候選而言,遍歷離合詞模式候選庫中該離合詞候選對應(yīng)的離合詞候選 模式串,得到該離合詞候選W對應(yīng)的離合置信度為:
[00·79?
[0023]其中ConcatWiJj)為字符連接函數(shù),表示將Wj拼接在Wi末尾,F(xiàn)req為該離合詞候 選W對應(yīng)的各離合詞候選模式串Gram= (?1,(1181,12,(1182,13,?^9)中?代9項,表示各離合詞 候選模式串在語料中出現(xiàn)的頻次;
[0024]該離合詞候選W對應(yīng)的離合支持度DCount(W)為:在離合詞候選W對應(yīng)的離合詞候 選模式串中,滿足ConcatdWjzW中所有不同W2的個數(shù),與ConcatdWihW中所有不同 W2的個數(shù),以及與ConcatWjOzW中所有不同W3的個數(shù)的總和。
[0025] 優(yōu)選的,所述步驟3)離合詞自動識別的步驟中:對離合詞模式候選庫中的各離合 詞候選,遍歷離合詞模式候選庫中該離合詞候選對應(yīng)的離合詞候選模式串,計算得到該離 合詞候選的離合置信度和離合支持度,如離合置信度大于預(yù)設(shè)離合置信度閾值或離合支持 度大于預(yù)設(shè)離合支持度閾值,則將該離合詞候選識別為一個離合詞,從而實現(xiàn)離合詞的自 動識別。
[0026] 有益效果:本發(fā)明利用帶距離的Gram對分詞后的語料進行統(tǒng)計以獲得離合詞侯選 庫模式;并在此基礎(chǔ)上,通過詞的離合置信度和離合支持度來判斷和識別詞是否是一個離 合詞,經(jīng)實驗證明,本發(fā)明準(zhǔn)確率高,有利于更為精準(zhǔn)的開展自然語言的信息化處理工作, 可廣泛推廣使用。如結(jié)合到中文文本自動校對領(lǐng)域中進行離合詞的自動識別,可以有效改 善"將離合詞中間的插入的字或詞當(dāng)做插入錯誤"的誤判,也可以避免矯枉過正,將"不是離 合詞卻類似離合詞式的插入錯誤"被全部過濾掉而產(chǎn)生的漏判,在自然語言處理領(lǐng)域中具 有十分顯著的實用意義。
[0027] 對本發(fā)明進行大規(guī)模語料(8G)中自動識別離合詞的實驗,實驗結(jié)果表明:本發(fā)明 提供的漢語離合詞的自動識別方法能有效的識別離合詞,本發(fā)明在試驗語料中識別出離合 詞3011個,其中正確的離合詞2891個。統(tǒng)計分析后得知,本發(fā)明提供的漢語離合詞的自動識 別方法,其識別的準(zhǔn)確率高達96%。
【附圖說明】
[0028]圖1為實施例提供的漢語離合詞的自動識別方法的流程圖。
【具體實施方式】
[0029]下面結(jié)合附圖和實施例對本發(fā)明作更進一步的說明。
[0030] 如圖1所示,本實施例提供的漢語離合詞的自動識別方法,包括以下步驟:
[0031] 1)利用帶距離信息的Gram對分詞后的語料進行統(tǒng)計的步驟:
[0032]離合詞自動識別需要對離合詞模式串進行統(tǒng)計,為了便于對大規(guī)模語料進行統(tǒng)計 和存儲,以方便后面離合詞的識別,本發(fā)明對分詞后的語料,結(jié)合離合詞的定義和特點,利 用帶距離的Gram結(jié)構(gòu)來統(tǒng)計存放分詞后語料庫中的統(tǒng)計信息。
[0033 ] 上述帶距離信息的Gram結(jié)構(gòu)用于表示并統(tǒng)計詞與詞之間的關(guān)系,為:Gram =( Wi, disi,W2,dis2,W3,F(xiàn)req),其中W1U3分別表不分詞后的詞,disi是Wi和W2在句子中的距尚, dis2為詞W2與W3在句子中的距離,F(xiàn)req為(Wi,disi,W2,dis2,W3)在語料中出現(xiàn)的頻次;
[0034] 2)離合詞模式候選庫的生成步驟:根據(jù)離合詞的特點,將滿足離合模式的離合詞 候選,及其對應(yīng)的離合詞候選模式串加入到離合詞模式候選庫中;BP :
[0035]對于步驟1)中統(tǒng)計得到的、滿足離合詞的分離模式的某Gram= (Wi,disi,W2,dis2, W3,F(xiàn)req),當(dāng)該Gram滿足以下幾種情況之一時,詞W為一離合詞候選,將該Gram串作為離合 詞候選W對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫中:
[0036] (1)將W3拼接在1末尾是詞典中的一個詞W;
[0037] 即如果Concat(Wi,W3)是詞典中的一個詞W,那么該詞W可能是一個離合詞,將Gram =(>1,(1181,¥2,(1182,13,?^9)作為離合詞候選¥對應(yīng)的離合詞候選模式串之一增加到離合 詞模式候選庫candidateList中;
[0038] (2)將1拼接在W2末尾是詞典中的一個詞W;
[0039] 即如果(3〇11〇31:(¥2,11)是詞典中的一個詞W,則該詞W可能是一個離合詞,Gram = (評1,(1181,¥2,(1182,13,?^9)作為離合詞候選¥對應(yīng)的離合詞候選模式串之一增加到離合詞 模式候選庫candidateList中;
[0040] (3)將1拼接在W3末尾是詞典中的一個詞W;
[0041 ] 即如果&311〇31:(¥3,11)是詞典中的一個詞W,則該詞W可能是一個離合詞,將Gram = (評1,(1181,¥2,(1182,13,?^9)作為離合詞候選¥對應(yīng)的離合詞候選模式串之一增加到離合詞 模式候選庫candidateList中。
[0042]舉例說明1:不失一般性的舉例說明:
[0043] 對于步驟1)中統(tǒng)計得到的滿足離合詞的分離模式的如下Gram串:
[0044] Graml = (吃,1,次,0,飯,F(xiàn)reql);
[0045] Gram2 = (飯,0,吃,0, 了,F(xiàn)req2);
[0046] Gram3 = (飯,0,怎么,0,吃,F(xiàn)req3);
[0047] Gram4=(飯,2,你,0,吃,F(xiàn)req4);
[0048] 其中:
[0049] Graml滿足Concat(Wi,W3)是詞典中的一個詞W=吃飯,
[0050] Gram2滿足Concat(W2,Wi)是詞典中的一個詞W=吃飯,
[0051 ] Gram3滿足Concat(W3,Wi)是詞典中的一個詞W=吃飯,
[0052] Gram4滿足&311〇31:(¥3,11)是詞典中的一個詞W=吃飯,
[0053] 由此可見Gram 1、Gram2、Gram3和Gram4均對應(yīng)于離合詞候選W,即對應(yīng)"吃飯"這一 候選離合詞,將該Graml、Gram2、Gram3和Gram4均作為離合詞候選W =吃飯所對應(yīng)的離合詞 候選模式串,一并增加到離合詞模式候選庫candidateList中去。
[0054] 3)離合