一種漢語離合詞的自動識別方法

文檔序號：9750785閱讀：883來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種漢語離合詞的自動識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能計算機領(lǐng)域中的自然語言處理，特別涉及漢語離合詞的語言處理領(lǐng)域。
【背景技術(shù)】
[0002] 漢語中的離合詞是一種特殊的語言現(xiàn)象，其不僅可以作為一個詞使用，還可以拆開不緊挨著出現(xiàn)。漢語離合詞在自然語言中的使用越來越廣泛，有些詞隨著時間的變化，原先不是離合詞，現(xiàn)在變成離合詞了，這對自然語言處理帶來了更多的挑戰(zhàn)。比如在中文文本自動校對領(lǐng)域，有字詞插入錯誤的校對判斷，但由于漢語離合詞的存在，在錯別字識別的過程中經(jīng)過統(tǒng)計分析可能會將離合詞中間的插入的詞或字當(dāng)做成插入錯誤。例如，"開一車"，由于"開車"是離合詞，因此"一"不是字插入錯誤，是一種合理的語言現(xiàn)象，而"短一信"中的 "一"是字插入錯，因為"短信"不是離合詞。
[0003]在離合詞自動識別中，常遇到幾個難題需要解決：
[0004] 1)離合詞自動識別是一個自然語言處理的問題，因此在獲取前需要進行中文分詞，如何對離合詞的特點進行分析，如何對滿足離合詞候選模式的進行統(tǒng)計和存儲。
[0005] 2)如何來對離合詞進行識別？滿足模式不一定代表就是離合詞，如何用統(tǒng)計量來判斷離合詞？
[0006] 因此想要實現(xiàn)離合詞的自動識別并獲得較高的準(zhǔn)確率，需要考慮如下有待解決的問題：
[0007] 技術(shù)問題1:離合詞的模式以及大規(guī)模語料統(tǒng)計。對漢語文本分詞后進行分析，對離合詞的模式進行歸類，如何設(shè)計一種合理的結(jié)構(gòu)對大規(guī)模語料進行統(tǒng)計？
[0008] 技術(shù)問題2:離合詞的量化問題。怎么根據(jù)統(tǒng)計信息來量化地判斷一個離合詞候選是否是一個真正的離合詞？
[0009 ]針對上述難題和問題，本發(fā)明提供一種漢語離合詞的自動識別方法。

【發(fā)明內(nèi)容】

[0010] 發(fā)明目的：為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明提供一種漢語離合詞的自動識別方法。
[0011] 技術(shù)方案：
[0012] 為解決上述技術(shù)問題，本發(fā)明提供一種漢語離合詞的自動識別方法，包括以下步驟：
[0013] 1)利用帶距離信息的Gram對分詞后的語料進行統(tǒng)計的步驟:對分詞后的語料，結(jié) 合離合詞的定義和特點，利用帶距離的Gram來統(tǒng)計分詞后語料庫中的統(tǒng)計信息；
[0014] 2)離合詞模式候選庫的生成步驟:根據(jù)離合詞的特點，將滿足離合模式的離合詞候選，及其對應(yīng)的離合詞候選模式串加入到離合詞模式候選庫中；
[0015] 3)離合詞自動識別的步驟:遍歷離合詞模式候選庫，計算得到滿足離合模式的離合詞候選的離合置信度和離合支持度，并根據(jù)所述離合置信度和離合支持度與對應(yīng)預(yù)設(shè)閾值的比較，實現(xiàn)離合詞的自動識別。
[0016] 優(yōu)選的，所述步驟1)利用帶距離信息的Gram對分詞后的語料進行統(tǒng)計的步驟中：所述帶距離信息的Gram結(jié)構(gòu)為:Gram= (Wi，disi，W2，dis2，W3，F(xiàn)req)，其中Wi、W2、W3分別表示分詞后的詞，disi是Wi和W2在句子中的距尚，dis2為詞W2與W3在句子中的距尚，F(xiàn)req為(Wi， d i s 1，W2，d i S2，W3)在語料中出現(xiàn)的頻次；
[0017] 所述步驟2)離合詞模式候選庫的生成步驟中：對于步驟1)中統(tǒng)計得到的某Gram = (Wi，disi，W2，dis2，W3，F(xiàn)req)滿足以下幾種情況之一時，詞W為一離合詞候選，將該Gram串作為離合詞候選W對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫中：
[0018] (1)將W3拼接在1末尾是詞典中的一個詞W;
[0019] (2)將1拼接在W2末尾是詞典中的一個詞W;
[0020] (3)將1拼接在W3末尾是詞典中的一個詞W。
[0021] 進一步優(yōu)選的，所述步驟3)離合詞自動識別的步驟中：對離合詞模式候選庫中滿足離合模式的離合詞候選而言，遍歷離合詞模式候選庫中該離合詞候選對應(yīng)的離合詞候選模式串，得到該離合詞候選W對應(yīng)的離合置信度為：
[00·79?
[0023]其中ConcatWiJj)為字符連接函數(shù)，表示將Wj拼接在Wi末尾，F(xiàn)req為該離合詞候選W對應(yīng)的各離合詞候選模式串Gram= (?1，(1181，12，(1182，13，？^9)中？代9項，表示各離合詞候選模式串在語料中出現(xiàn)的頻次；
[0024]該離合詞候選W對應(yīng)的離合支持度DCount(W)為:在離合詞候選W對應(yīng)的離合詞候選模式串中，滿足ConcatdWjzW中所有不同W2的個數(shù)，與ConcatdWihW中所有不同 W2的個數(shù)，以及與ConcatWjOzW中所有不同W3的個數(shù)的總和。
[0025] 優(yōu)選的，所述步驟3)離合詞自動識別的步驟中：對離合詞模式候選庫中的各離合詞候選，遍歷離合詞模式候選庫中該離合詞候選對應(yīng)的離合詞候選模式串，計算得到該離合詞候選的離合置信度和離合支持度，如離合置信度大于預(yù)設(shè)離合置信度閾值或離合支持度大于預(yù)設(shè)離合支持度閾值，則將該離合詞候選識別為一個離合詞，從而實現(xiàn)離合詞的自動識別。
[0026] 有益效果:本發(fā)明利用帶距離的Gram對分詞后的語料進行統(tǒng)計以獲得離合詞侯選庫模式;并在此基礎(chǔ)上，通過詞的離合置信度和離合支持度來判斷和識別詞是否是一個離合詞，經(jīng)實驗證明，本發(fā)明準(zhǔn)確率高，有利于更為精準(zhǔn)的開展自然語言的信息化處理工作，可廣泛推廣使用。如結(jié)合到中文文本自動校對領(lǐng)域中進行離合詞的自動識別，可以有效改善"將離合詞中間的插入的字或詞當(dāng)做插入錯誤"的誤判，也可以避免矯枉過正，將"不是離合詞卻類似離合詞式的插入錯誤"被全部過濾掉而產(chǎn)生的漏判，在自然語言處理領(lǐng)域中具有十分顯著的實用意義。
[0027] 對本發(fā)明進行大規(guī)模語料(8G)中自動識別離合詞的實驗，實驗結(jié)果表明：本發(fā)明提供的漢語離合詞的自動識別方法能有效的識別離合詞，本發(fā)明在試驗語料中識別出離合詞3011個，其中正確的離合詞2891個。統(tǒng)計分析后得知，本發(fā)明提供的漢語離合詞的自動識別方法，其識別的準(zhǔn)確率高達96%。
【附圖說明】
[0028]圖1為實施例提供的漢語離合詞的自動識別方法的流程圖。
【具體實施方式】
[0029]下面結(jié)合附圖和實施例對本發(fā)明作更進一步的說明。
[0030] 如圖1所示，本實施例提供的漢語離合詞的自動識別方法，包括以下步驟：
[0031] 1)利用帶距離信息的Gram對分詞后的語料進行統(tǒng)計的步驟：
[0032]離合詞自動識別需要對離合詞模式串進行統(tǒng)計，為了便于對大規(guī)模語料進行統(tǒng)計和存儲，以方便后面離合詞的識別，本發(fā)明對分詞后的語料，結(jié)合離合詞的定義和特點，利用帶距離的Gram結(jié)構(gòu)來統(tǒng)計存放分詞后語料庫中的統(tǒng)計信息。
[0033 ] 上述帶距離信息的Gram結(jié)構(gòu)用于表示并統(tǒng)計詞與詞之間的關(guān)系，為:Gram =( Wi， disi，W2，dis2，W3，F(xiàn)req)，其中W1U3分別表不分詞后的詞，disi是Wi和W2在句子中的距尚， dis2為詞W2與W3在句子中的距離，F(xiàn)req為(Wi，disi，W2，dis2，W3)在語料中出現(xiàn)的頻次；
[0034] 2)離合詞模式候選庫的生成步驟:根據(jù)離合詞的特點，將滿足離合模式的離合詞候選，及其對應(yīng)的離合詞候選模式串加入到離合詞模式候選庫中；BP :
[0035]對于步驟1)中統(tǒng)計得到的、滿足離合詞的分離模式的某Gram= (Wi，disi，W2，dis2， W3，F(xiàn)req)，當(dāng)該Gram滿足以下幾種情況之一時，詞W為一離合詞候選，將該Gram串作為離合詞候選W對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫中：
[0036] (1)將W3拼接在1末尾是詞典中的一個詞W;
[0037] 即如果Concat(Wi，W3)是詞典中的一個詞W，那么該詞W可能是一個離合詞，將Gram =(>1，(1181，￥2，(1182，13，？^9)作為離合詞候選￥對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫candidateList中；
[0038] (2)將1拼接在W2末尾是詞典中的一個詞W;
[0039] 即如果(3〇11〇31:(￥2,11)是詞典中的一個詞W，則該詞W可能是一個離合詞，Gram = (評1，(1181，￥2，(1182，13，？^9)作為離合詞候選￥對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫candidateList中；
[0040] (3)將1拼接在W3末尾是詞典中的一個詞W;
[0041 ] 即如果&311〇31:(￥3，11)是詞典中的一個詞W，則該詞W可能是一個離合詞，將Gram = (評1，(1181，￥2，(1182，13，？^9)作為離合詞候選￥對應(yīng)的離合詞候選模式串之一增加到離合詞模式候選庫candidateList中。
[0042]舉例說明1:不失一般性的舉例說明：
[0043] 對于步驟1)中統(tǒng)計得到的滿足離合詞的分離模式的如下Gram串：
[0044] Graml = (吃，1，次，0,飯，F(xiàn)reql);
[0045] Gram2 = (飯，0,吃，0, 了，F(xiàn)req2);
[0046] Gram3 = (飯，0,怎么，0,吃，F(xiàn)req3);
[0047] Gram4=(飯，2,你，0,吃，F(xiàn)req4);
[0048] 其中：
[0049] Graml滿足Concat(Wi，W3)是詞典中的一個詞W=吃飯，
[0050] Gram2滿足Concat(W2,Wi)是詞典中的一個詞W=吃飯，
[0051 ] Gram3滿足Concat(W3，Wi)是詞典中的一個詞W=吃飯，
[0052] Gram4滿足&311〇31:(￥3，11)是詞典中的一個詞W=吃飯，
[0053] 由此可見Gram 1、Gram2、Gram3和Gram4均對應(yīng)于離合詞候選W，即對應(yīng)"吃飯"這一候選離合詞，將該Graml、Gram2、Gram3和Gram4均作為離合詞候選W =吃飯所對應(yīng)的離合詞候選模式串，一并增加到離合詞模式候選庫candidateList中去。
[0054] 3)離合

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉亮亮;吳健康;嚴熙;王亞楠;朱潤;
技術(shù)所有人：江蘇科技大學(xué);
我是此專利的發(fā)明人

上一篇：基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識別方法
上一篇：語義解析方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

漢語語音識別相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種漢語離合詞的自動識別方法