詞語提取方法及提取裝置制造方法
【專利摘要】本發(fā)明公開了一種詞語提取方法及提取裝置。其中,該詞語提取方法包括:對待處理語料進行字頻計算,得到待處理語料中的每個字在待處理語料中出現(xiàn)的第一概率;接收預(yù)設(shè)詞長,并計算長度小于或等于預(yù)設(shè)詞長的每個候選串在待處理語料中出現(xiàn)的第二概率,以及記錄每個候選串的邊界;根據(jù)第一概率和第二概率計算每個候選串的第一指標(biāo),并根據(jù)記錄每個候選串的邊界計算每個候選串的第二指標(biāo);提取第一指標(biāo)大于第一預(yù)設(shè)閾值,并且第二指標(biāo)大于第二預(yù)設(shè)閾值的候選串,得到待處理語料的詞語集合。通過本發(fā)明,解決了現(xiàn)有技術(shù)中詞語提取方式的準確度低的問題,進而達到了提高詞語提取準確度的效果。
【專利說明】詞語提取方法及提取裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種詞語提取方法及提取裝置。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)技術(shù)的發(fā)展推進了語言的多樣性,大量的新詞為自然語言處理和大數(shù)據(jù)分 析帶來了困難,目前尚無一種可以完全覆蓋所有新詞語的詞典供分析使用,現(xiàn)有研究中有 多種新詞語技術(shù),其中主要的有兩種,一種是基于全切分的,另一種是基于分詞的。
[0003] 基于全切分的方法是指以字符為單位,對所有的可能組合進行統(tǒng)計,統(tǒng)計組合的 使用率并對比背景使用率,提取出所有新出現(xiàn)的候選串,使用字符串合并,將使用率相同, 相互緊密聯(lián)系的候選串合并;使用其它規(guī)則過濾,去除噪聲,最終得到新詞語。
[0004] 基于全切分的方法不拘泥于詞典,考慮到所有詞語組合,但該方案運算消耗量大, 分析結(jié)果存在大量垃圾串,剔除垃圾信息的規(guī)則繁復(fù),準確率和效率均較低。
[0005] 基于分詞的方案首先對語料進行分詞,由于新詞不存在詞典當(dāng)中,故會被切分為 連續(xù)的單字?;诮y(tǒng)計模型,對連續(xù)單字的搭配關(guān)系進行最優(yōu)路徑分析,最終得到新詞語。
[0006] 分詞錯誤往往產(chǎn)生連鎖效應(yīng),未登錄詞在分詞中造成的影響大多會超過自身,甚 至影響整個句子。因此分詞后對連續(xù)單字的組合不能完全解決新詞語問題,準確度較低。
[0007] 針對相關(guān)技術(shù)中詞語提取方式的準確度低的問題,目前尚未提出有效的解決方 案。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的主要目的在于提供一種詞語提取方法及提取裝置,以解決現(xiàn)有技術(shù)中詞 語提取方式的準確度低的問題。
[0009] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了 一種詞語提取方法。
[0010] 根據(jù)本發(fā)明的詞語提取方法包括:對待處理語料進行字頻計算,得到所述待處理 語料中的每個字在所述待處理語料中出現(xiàn)的第一概率;接收預(yù)設(shè)詞長,并計算長度小于或 等于所述預(yù)設(shè)詞長的每個候選串在所述待處理語料中出現(xiàn)的第二概率,以及記錄每個所述 候選串的邊界;根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo),并根 據(jù)記錄每個所述候選串的邊界計算每個所述候選串的第二指標(biāo);以及提取所述第一指標(biāo)大 于第一預(yù)設(shè)閾值,并且所述第二指標(biāo)大于第二預(yù)設(shè)閾值的所述候選串,得到所述待處理語 料的詞語集合。
[0011] 進一步地,根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo)包 括:獲取屬于候選串Sj的字Cjk的第一概率P (Ck),其中,j依次取1至m,k依次取j 1至jn, m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù),jn為所述候選串Sj中字的 個數(shù);以及根據(jù)第一概率P (Cjl)至第一概率P (Cjn)和所述候選串Sj的第二概率P (Sj)計 算所述候選串Sj的第一指標(biāo)I (Sj)。
[0012] 進一步地,根據(jù)第一概率P(Cjl)至第一概率P(Cjn)和所述候選串Sj的第二概率 P(Sj)計算所述候選串Sj的所述第一指標(biāo)包括:按照公式
【權(quán)利要求】
1. 一種詞語提取方法,其特征在于,包括: 對待處理語料進行字頻計算,得到所述待處理語料中的每個字在所述待處理語料中出 現(xiàn)的第一概率; 接收預(yù)設(shè)詞長,并計算長度小于或等于所述預(yù)設(shè)詞長的每個候選串在所述待處理語料 中出現(xiàn)的第二概率,以及記錄每個所述候選串的邊界; 根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo),并根據(jù)記錄每個 所述候選串的邊界計算每個所述候選串的第二指標(biāo);以及 提取所述第一指標(biāo)大于第一預(yù)設(shè)閾值,并且所述第二指標(biāo)大于第二預(yù)設(shè)閾值的所述候 選串,得到所述待處理語料的詞語集合。
2. 根據(jù)權(quán)利要求1所述的提取方法,其特征在于,根據(jù)所述第一概率和所述第二概率 計算每個所述候選串的第一指標(biāo)包括: 獲取屬于候選串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取jl至jn,m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù),jn為所述候選串Sj中 字的個數(shù);以及 根據(jù)第一概率P(Cjl)至第一概率P(Cjn)和所述候選串Sj的第二概率P(Sj)計算所 述候選串Sj的第一指標(biāo)I(Sj)。
3.根據(jù)權(quán)利要求2所述的提取方法,其特征在于,根據(jù)第一概率P(Cjl)至第一概率 P(Cjn)和所述候選串Sj的第二概率P(Sj)計算所述候選串Sj的所述第一指標(biāo)包括: 按照公¥
)十算所述第一指標(biāo)I(Sj)。
4.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,根據(jù)記錄每個所述候選串的邊界計 算每個所述候選串的第二指標(biāo)包括: 根據(jù)記錄每個所述候選串的邊界計算候選串Sj的第一熵值和第二熵值,其中,所述第 一熵值為與字CjL相鄰的字的熵值,所述第二熵值為與字CjR相鄰的字的熵值,所述字CjL 為位于所述候選串Sj的第一邊界的字,所述字CjR為位于所述候選串Sj的第二邊界的字, j依次取1至m,m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù);以及 確定所述候選串Sj的第二指標(biāo)為所述候選串Sj的所述第一熵值和所述第二熵值。
5.根據(jù)權(quán)利要求4所述的提取方法,其特征在于,根據(jù)記錄每個所述候選串的邊界計 算候選串Sj的第一熵值和第二熵值包括: 從記錄每個所述候選串的邊界中獲取與所述字CjL相鄰的字的第一集合Sj(L),并獲 取與所述字CjR相鄰的字的第二集合Sj(R);
計算所述第一集合Sj(L)中的每個第一元素在所述第一集合Sj(L)中出現(xiàn)的概率P(L),并計算所述第二集合Sj(R)中的每個第二元素在所述第二集合Sj(R)中出現(xiàn)的概率 P(R);以及 按照公式 算所述候選串Sj的第一熵值L(sp,并按照 公式叫)= ,,Σ/⑷*人叩2(廠⑷)計算所述候選串Sj的第二熵值R(Sj)。 RgSj(R)j
6. 根據(jù)權(quán)利要求1所述的提取方法,其特征在于,在提取所述第一指標(biāo)和所述第二指 標(biāo)均大于預(yù)設(shè)閾值的所述候選串,得到所述待處理語料的詞語集合之后,所述提取方法還 包括: 比較所述詞語集合與預(yù)設(shè)詞典,得到非目標(biāo)詞語,其中,所述非目標(biāo)詞語為所述詞語集 合和所述預(yù)設(shè)詞典中相同的詞語;以及 從所述詞語集合中刪除所述非目標(biāo)詞語。
7. -種詞語提取裝置,其特征在于,包括: 第一計算單元,用于對待處理語料進行字頻計算,得到所述待處理語料中的每個字在 所述待處理語料中出現(xiàn)的第一概率; 處理單元,用于接收預(yù)設(shè)詞長,并計算長度小于或等于所述預(yù)設(shè)詞長的每個候選串在 所述待處理語料中出現(xiàn)的第二概率,以及記錄每個所述候選串的邊界; 第二計算單元,用于根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指 標(biāo),并根據(jù)記錄每個所述候選串的邊界計算每個所述候選串的第二指標(biāo);以及 提取單元,用于提取所述第一指標(biāo)大于第一預(yù)設(shè)閾值,并且所述第二指標(biāo)大于第二預(yù) 設(shè)閾值的所述候選串,得到所述待處理語料的詞語集合。
8. 根據(jù)權(quán)利要求7所述的提取裝置,其特征在于,所述第二計算單元包括: 第一獲取模塊,用于獲取屬于候選串Sj的字Cjk的第一概率P(Ck),其中,j依次取1 至m,k依次取jl至jn,m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù),jn 為所述候選串Sj中字的個數(shù);以及 第一計算模塊,用于根據(jù)第一概率P(Cjl)至第一概率P(Cjn)和所述候選串Sj的第二 概率P(Sj)計算所述候選串Sj的第一指標(biāo)I(Sj)。
9. 根據(jù)權(quán)利要求8所述的提取裝置,其特征在于,所述第一計算模塊包括: 計算子模塊,用于按照公式
卜算所述第一指標(biāo)I(Sj)。
10. 根據(jù)權(quán)利要求7所述的提取裝置,其特征在于,所述第二計算單元包括: 第二計算模塊,用于根據(jù)記錄每個所述候選串的邊界計算候選串Sj的第一熵值和第 二熵值,其中,所述第一熵值為與字CjL相鄰的字的熵值,所述第二熵值為與字CjR相鄰的 字的熵值,所述字CjL為位于所述候選串Sj的第一邊界的字,所述字CjR為位于所述候選 串Sj的第二邊界的字,j依次取1至m,m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候 選串的個數(shù);以及 確定模塊,用于確定所述候選串Sj的第二指標(biāo)為所述候選串Sj的所述第一熵值和所 述第二熵值。
11. 根據(jù)權(quán)利要求10所述的提取裝置,其特征在于,所述第二計算模塊包括: 第二獲取模塊,用于從記錄每個所述候選串的邊界中獲取與所述字CjL相鄰的字的第 一集合Sj(L),并獲取與所述字CjR相鄰的字的第二集合Sj(R); 第三計算模塊,用于計算所述第一集合Sj(L)中的每個第一元素在所述第一集合 Sj(L)中出現(xiàn)的概率P(L),并計算所述第二集合Sj(R)中的每個第二元素在所述第二集合Sj(R)中出現(xiàn)的概率P(R);以及 第四計算模塊,用于按照公式MM'計算所述候選串Sj的第 一熵值L(Sj),并按照公式計算所述候選串Sj的第二熵值 JRgS (R) R(Sj)0
12.根據(jù)權(quán)利要求7所述的提取裝置,其特征在于,所述提取裝置還包括: 比較單元,用于在提取所述第一指標(biāo)和所述第二指標(biāo)均大于預(yù)設(shè)閾值的所述候選串, 得到所述待處理語料的詞語集合之后,比較所述詞語集合與預(yù)設(shè)詞典,得到非目標(biāo)詞語,其 中,所述非目標(biāo)詞語為所述詞語集合和所述預(yù)設(shè)詞典中相同的詞語;以及 刪除單元,用于從所述詞語集合中刪除所述非目標(biāo)詞語。
【文檔編號】G06F17/27GK104462061SQ201410738661
【公開日】2015年3月25日 申請日期:2014年12月5日 優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】侯明午 申請人:北京國雙科技有限公司