亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于模糊匹配與統(tǒng)計的錯字詞知識庫構(gòu)建方法

文檔序號:9750789閱讀:711來源:國知局
一種基于模糊匹配與統(tǒng)計的錯字詞知識庫構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能計算機(jī)領(lǐng)域中的自然語言處理,特別涉及中文文本自動校對 領(lǐng)域,具體涉及一種基于模糊匹配與統(tǒng)計的錯字詞知識庫構(gòu)建方法。
【背景技術(shù)】
[0002] 隨著信息處理技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展,傳統(tǒng)的文本工作幾乎全部被計算機(jī)所取 代,電子書、電子報紙、電子郵件、辦公文件等電子文本、博客、微博等都成為人們?nèi)粘I?的一部分,然而文本中的錯誤也越來越多,這給校對工作帶來了很大的挑戰(zhàn)。傳統(tǒng)的人工校 對效率低、強(qiáng)度大、周期長顯然不能滿足文本校對的需求。
[0003] 文本自動校對是自然語言處理的主要應(yīng)用之一,也是自然語言理解的難題。漢語 是通過輸入法輸入到計算機(jī)中,既有五筆輸入法又有拼音輸入法。因此在文本中既會出現(xiàn) 音似錯誤又會出現(xiàn)形似錯誤,從而導(dǎo)致原本是詞語的詞串變成由多個字詞組合的串。這種 錯誤屬于非詞錯誤的范疇。隨著大數(shù)據(jù)時代的來臨,文本中出現(xiàn)越來越多的非詞錯誤,因此 需要利用方法獲取文本中的非詞錯誤,構(gòu)成錯字詞知識庫,將錯字詞知識應(yīng)用到漢語文本 校對系統(tǒng)中,能快速有效的提高查錯效率和查錯的精度。

【發(fā)明內(nèi)容】

[0004] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于模糊匹配與統(tǒng) 計的錯字詞知識庫構(gòu)建方法,達(dá)到提高中文文本自動校對效率的效果。
[0005] 技術(shù)方案:為了實現(xiàn)上述目的,本發(fā)明提供一種基于模糊匹配與統(tǒng)計的錯字詞知 識庫構(gòu)建方法,其特征在于,包括以下步驟:
[0006] (1)對語料句子進(jìn)行分詞得到若干個詞語散串,所述詞語散串按其在所述語料句 子中的順序進(jìn)行排列,按照預(yù)先設(shè)置的散串合并規(guī)則對詞語散串進(jìn)行合并得到若干個合并 詞串,根據(jù)漢語詞典利用模糊匹配算法獲取合并詞串的相似詞候選集;
[0007] (2)對某一合并詞,利用所述詞語散串獲取該合并詞串的鄰接元集合以及其相似 詞候選集中所有相似詞的鄰接元集合;
[0008] (3)根據(jù)合并詞串的鄰接元集合元素在語料中出現(xiàn)的頻次判斷某一合并詞串是否 為錯字詞串,若該合并詞串是錯字詞串,則根據(jù)其相似詞的鄰接元集合元素在語料中出現(xiàn) 的頻次建立該合并詞串的錯詞對。
[0009] 其中,所述預(yù)先設(shè)置的散串合并規(guī)則為:從第二個詞語散串開始,每次取一個詞語 散串與前面的詞語散串進(jìn)行合并,并且只有當(dāng)相鄰的兩個詞語散串中至少存在一個單字詞 才合并。
[0010] 進(jìn)一步地,利用模糊匹配算法獲取某一合并詞串的相似詞候選集包括以下步驟:
[0011] 1)根據(jù)漢字拼音、拼音相似度和字形相似度得到漢字相似度詞典,所述漢字相似 度詞典存儲有漢字和其相似字以及兩者的相似度;
[0012] 2)找出漢語詞典中以該合并詞中的首個字或其相似字為首字的詞語作為該合并 詞串的相似詞,計算合并詞串與這些相似詞的模糊相似度,若該合并詞串與某一相似詞的 相似度小于預(yù)先設(shè)定的相似度閾值,則去掉該相似詞,反之,保留該相似詞,將保留的相似 詞組成的集合作為該合并詞串的相似詞候選集合。
[0013] 其中,某一合并詞串的鄰接元集合包括外部左鄰接二元、外部右鄰接二元和內(nèi)部 鄰接元;
[0014] 所述外部左鄰接二元,由排列在該合并詞串之前的相鄰詞語散串與該合并詞的第 一個分詞組成;
[0015] 所述外部右鄰接二元由排列在該合并詞串之后的相鄰詞語散串與該合并詞的最 后一個分詞組成;
[0016] 所述內(nèi)部鄰接元與該合并詞串的分詞項長度相關(guān):
[0017] 若該合并詞串的分詞項長度為2,則其內(nèi)部鄰接元為自身二元;
[0018] 若該合并詞串的分詞項長度為3,則其內(nèi)部鄰接元包括:該合并詞串中任意兩個相 鄰分詞組成的內(nèi)部鄰接二元和自身三元;
[0019] 若該合并詞串的分詞項長度大于3,則其內(nèi)部鄰接元包括:該合并詞串中任意兩個 相鄰分詞組成的內(nèi)部鄰接二元、該合并詞串中任意三個相鄰分詞組成的內(nèi)部鄰接三元。
[0020] 其中,步驟(3)中判斷某一合并詞串是否為錯字詞串,包括以下步驟:
[0021] 若該合并詞串的分詞項長度為2,若其自身二元在語料中出現(xiàn)頻次大于第一閾值, 則該合并詞串不是錯字詞,否則為錯字詞;
[0022] 若該合并詞串的分詞項長度為3,若其自身三元在語料中出現(xiàn)頻次大于第二閾值, 則該合并詞串不是錯字詞;否則,若其每個內(nèi)部鄰接二元在語料中的共現(xiàn)頻次均大于第三 閾值,則該合并詞串不是錯字詞,否則為錯字詞;
[0023]若該合并詞串的分詞項長度大于3,若其每個內(nèi)部鄰接二元在語料中的共現(xiàn)頻次 均大于所述第三閾值,則該合并詞串不是錯字詞;否則,若其每個內(nèi)部鄰接三元在語料中的 共現(xiàn)頻次大于第二閾值,則該合并詞串不是錯字詞,否則為錯字詞。
[0024] 進(jìn)一步地,某一合并詞串的某一相似詞的鄰接元集合包括左鄰接二元和右鄰接二 元;
[0025] 所述左鄰接二元由排列在該合并詞串之前的相鄰詞語散串與該相似詞組成;
[0026] 所述相似詞的右鄰接二元由排列在該合并詞串之后的相鄰詞語散串與該相似詞 組成。
[0027] 其中,步驟(3)中建立某一合并詞串的錯詞對包括以下步驟:
[0028] 若該合并詞串的外部左鄰接二元在語料中的共現(xiàn)頻次大于0且該相似詞的左鄰接 二元在語料中的共現(xiàn)頻次大于第一閾值,或者該合并詞串的外部左鄰接二元在語料中的共 現(xiàn)頻次等于〇則認(rèn)為該相似詞與語料的上下文左連續(xù);否則認(rèn)為該相似詞與語料的上下文 不連續(xù);
[0029] 若該合并詞串的外部右鄰接二元在語料中的共現(xiàn)頻次大于0且該相似詞的右鄰接 二元在語料中的共現(xiàn)頻次大于第一閾值,或者該合并詞串的外部右鄰接二元在語料中的共 現(xiàn)頻次等于〇則認(rèn)為該相似詞與語料的上下文右連續(xù);否則認(rèn)為該相似詞與語料的上下文 不連續(xù);
[0030] 若該相似詞與語料的上下文左連續(xù)且右連續(xù),則將該合并詞串與該相似詞形成錯 詞對。
[0031] 有益效果:利用本發(fā)明的基于模糊匹配與統(tǒng)計的錯字詞知識庫構(gòu)建方法建立錯字 詞知識庫,由于利用了合并詞串在語料中的出現(xiàn)頻次統(tǒng)計,綜合合并詞串是否符合上、下文 的語境,以及對應(yīng)正確相似詞是否符合上下文中的語境,解決了現(xiàn)有技術(shù)中數(shù)據(jù)稀疏且僅 根據(jù)漢語詞典的錯詞判斷所帶來的校正準(zhǔn)確率低的問題。實驗表明,本發(fā)明提供的漢語錯 字詞知識庫自動構(gòu)建方法在確保召回率的情況下,精度達(dá)到86.1 %,錯字詞知識中四字詞 準(zhǔn)確率達(dá)到96 %。系統(tǒng)響應(yīng)快、精度符合實際應(yīng)用需求,有效性和準(zhǔn)確性高,具有較高的實 用性。
【附圖說明】
[0032] 圖1是本發(fā)明中基于模糊匹配與統(tǒng)計的錯字詞知識庫構(gòu)建方法的流程圖。
【具體實施方式】
[0033]下面結(jié)合附圖對本發(fā)明作更進(jìn)一步的說明。
[0034] 圖1中,本發(fā)明的基于模糊匹配與統(tǒng)計的錯字詞知識庫構(gòu)建方法包括以下步驟:
[0035] (1)對語料句子進(jìn)行分詞得到若干個詞語散串,這些詞語散串按其在原語料句子 中的順序進(jìn)行排列,按照預(yù)先設(shè)置的散串合并規(guī)則對詞語散串進(jìn)行合并得到若干個合并詞 串,根據(jù)漢語詞典和模糊匹配算法獲取合并詞串的相似詞候選集;
[0036] (2)對某一合并詞,利用上述詞語散串獲取該合并詞串的鄰接元集合以及其相似 詞候選集中所有相似詞的鄰接元集合;
[0037] (3)根據(jù)合并詞串的鄰接元集合元素在語料中出現(xiàn)的頻次判斷某一合并詞串是否 為錯字詞串,若該合并詞串是錯字詞串,則根據(jù)其相似詞的鄰接元集合元素在語料中出現(xiàn) 的頻次建立該合并詞串的錯詞對。
[0038] 上述步驟(1)中對語料句子進(jìn)行分詞,如對句子L進(jìn)行分詞得到L = WiW2…Wi-Hi+i…Wn,預(yù)設(shè)的散串合并的規(guī)則如下:
[0039] ①以分詞
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1