詞語提取方法及提取裝置制造方法

文檔序號：6637568閱讀：302來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

詞語提取方法及提取裝置制造方法
【專利摘要】本發(fā)明公開了一種詞語提取方法及提取裝置。其中，該詞語提取方法包括：對待處理語料進行字頻計算，得到待處理語料中的每個字在待處理語料中出現(xiàn)的第一概率；接收預(yù)設(shè)詞長，并計算長度小于或等于預(yù)設(shè)詞長的每個候選串在待處理語料中出現(xiàn)的第二概率，以及記錄每個候選串的邊界；根據(jù)第一概率和第二概率計算每個候選串的第一指標(biāo)，并根據(jù)記錄每個候選串的邊界計算每個候選串的第二指標(biāo)；提取第一指標(biāo)大于第一預(yù)設(shè)閾值，并且第二指標(biāo)大于第二預(yù)設(shè)閾值的候選串，得到待處理語料的詞語集合。通過本發(fā)明，解決了現(xiàn)有技術(shù)中詞語提取方式的準確度低的問題，進而達到了提高詞語提取準確度的效果。
【專利說明】詞語提取方法及提取裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，具體而言，涉及一種詞語提取方法及提取裝置。

【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)技術(shù)的發(fā)展推進了語言的多樣性，大量的新詞為自然語言處理和大數(shù)據(jù)分析帶來了困難，目前尚無一種可以完全覆蓋所有新詞語的詞典供分析使用，現(xiàn)有研究中有多種新詞語技術(shù)，其中主要的有兩種，一種是基于全切分的，另一種是基于分詞的。
[0003] 基于全切分的方法是指以字符為單位，對所有的可能組合進行統(tǒng)計，統(tǒng)計組合的使用率并對比背景使用率，提取出所有新出現(xiàn)的候選串，使用字符串合并，將使用率相同，相互緊密聯(lián)系的候選串合并；使用其它規(guī)則過濾，去除噪聲，最終得到新詞語。
[0004] 基于全切分的方法不拘泥于詞典，考慮到所有詞語組合，但該方案運算消耗量大，分析結(jié)果存在大量垃圾串，剔除垃圾信息的規(guī)則繁復(fù)，準確率和效率均較低。
[0005] 基于分詞的方案首先對語料進行分詞，由于新詞不存在詞典當(dāng)中，故會被切分為連續(xù)的單字?；诮y(tǒng)計模型，對連續(xù)單字的搭配關(guān)系進行最優(yōu)路徑分析，最終得到新詞語。
[0006] 分詞錯誤往往產(chǎn)生連鎖效應(yīng)，未登錄詞在分詞中造成的影響大多會超過自身，甚至影響整個句子。因此分詞后對連續(xù)單字的組合不能完全解決新詞語問題，準確度較低。
[0007] 針對相關(guān)技術(shù)中詞語提取方式的準確度低的問題，目前尚未提出有效的解決方案。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明的主要目的在于提供一種詞語提取方法及提取裝置，以解決現(xiàn)有技術(shù)中詞語提取方式的準確度低的問題。
[0009] 為了實現(xiàn)上述目的，根據(jù)本發(fā)明的一個方面，提供了一種詞語提取方法。
[0010] 根據(jù)本發(fā)明的詞語提取方法包括：對待處理語料進行字頻計算，得到所述待處理語料中的每個字在所述待處理語料中出現(xiàn)的第一概率；接收預(yù)設(shè)詞長，并計算長度小于或等于所述預(yù)設(shè)詞長的每個候選串在所述待處理語料中出現(xiàn)的第二概率，以及記錄每個所述候選串的邊界；根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo)，并根據(jù)記錄每個所述候選串的邊界計算每個所述候選串的第二指標(biāo)；以及提取所述第一指標(biāo)大于第一預(yù)設(shè)閾值，并且所述第二指標(biāo)大于第二預(yù)設(shè)閾值的所述候選串，得到所述待處理語料的詞語集合。
[0011] 進一步地，根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo)包括：獲取屬于候選串Sj的字Cjk的第一概率P (Ck)，其中，j依次取1至m，k依次取j 1至jn， m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù)，jn為所述候選串Sj中字的個數(shù)；以及根據(jù)第一概率P (Cjl)至第一概率P (Cjn)和所述候選串Sj的第二概率P (Sj)計算所述候選串Sj的第一指標(biāo)I (Sj)。
[0012] 進一步地，根據(jù)第一概率P(Cjl)至第一概率P(Cjn)和所述候選串Sj的第二概率 P(Sj)計算所述候選串Sj的所述第一指標(biāo)包括：按照公式

【權(quán)利要求】
1. 一種詞語提取方法，其特征在于，包括：對待處理語料進行字頻計算，得到所述待處理語料中的每個字在所述待處理語料中出現(xiàn)的第一概率；接收預(yù)設(shè)詞長，并計算長度小于或等于所述預(yù)設(shè)詞長的每個候選串在所述待處理語料中出現(xiàn)的第二概率，以及記錄每個所述候選串的邊界；根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo)，并根據(jù)記錄每個所述候選串的邊界計算每個所述候選串的第二指標(biāo)；以及提取所述第一指標(biāo)大于第一預(yù)設(shè)閾值，并且所述第二指標(biāo)大于第二預(yù)設(shè)閾值的所述候選串，得到所述待處理語料的詞語集合。
2. 根據(jù)權(quán)利要求1所述的提取方法，其特征在于，根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo)包括：獲取屬于候選串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1至m，k依次取jl至jn，m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù)，jn為所述候選串Sj中字的個數(shù)；以及根據(jù)第一概率P(Cjl)至第一概率P(Cjn)和所述候選串Sj的第二概率P(Sj)計算所述候選串Sj的第一指標(biāo)I(Sj)。
3.根據(jù)權(quán)利要求2所述的提取方法，其特征在于，根據(jù)第一概率P(Cjl)至第一概率 P(Cjn)和所述候選串Sj的第二概率P(Sj)計算所述候選串Sj的所述第一指標(biāo)包括：按照公￥
)十算所述第一指標(biāo)I(Sj)。
4.根據(jù)權(quán)利要求1所述的提取方法，其特征在于，根據(jù)記錄每個所述候選串的邊界計算每個所述候選串的第二指標(biāo)包括：根據(jù)記錄每個所述候選串的邊界計算候選串Sj的第一熵值和第二熵值，其中，所述第一熵值為與字CjL相鄰的字的熵值，所述第二熵值為與字CjR相鄰的字的熵值，所述字CjL 為位于所述候選串Sj的第一邊界的字，所述字CjR為位于所述候選串Sj的第二邊界的字， j依次取1至m，m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù)；以及確定所述候選串Sj的第二指標(biāo)為所述候選串Sj的所述第一熵值和所述第二熵值。
5.根據(jù)權(quán)利要求4所述的提取方法，其特征在于，根據(jù)記錄每個所述候選串的邊界計算候選串Sj的第一熵值和第二熵值包括：從記錄每個所述候選串的邊界中獲取與所述字CjL相鄰的字的第一集合Sj(L)，并獲取與所述字CjR相鄰的字的第二集合Sj(R);
計算所述第一集合Sj(L)中的每個第一元素在所述第一集合Sj(L)中出現(xiàn)的概率P(L)，并計算所述第二集合Sj(R)中的每個第二元素在所述第二集合Sj(R)中出現(xiàn)的概率 P(R);以及按照公式算所述候選串Sj的第一熵值L(sp，并按照公式叫）= ,,Σ/⑷*人叩2(廠⑷)計算所述候選串Sj的第二熵值R(Sj)。 RgSj(R)j
6. 根據(jù)權(quán)利要求1所述的提取方法，其特征在于，在提取所述第一指標(biāo)和所述第二指標(biāo)均大于預(yù)設(shè)閾值的所述候選串，得到所述待處理語料的詞語集合之后，所述提取方法還包括：比較所述詞語集合與預(yù)設(shè)詞典，得到非目標(biāo)詞語，其中，所述非目標(biāo)詞語為所述詞語集合和所述預(yù)設(shè)詞典中相同的詞語；以及從所述詞語集合中刪除所述非目標(biāo)詞語。
7. -種詞語提取裝置，其特征在于，包括：第一計算單元，用于對待處理語料進行字頻計算，得到所述待處理語料中的每個字在所述待處理語料中出現(xiàn)的第一概率；處理單元，用于接收預(yù)設(shè)詞長，并計算長度小于或等于所述預(yù)設(shè)詞長的每個候選串在所述待處理語料中出現(xiàn)的第二概率，以及記錄每個所述候選串的邊界；第二計算單元，用于根據(jù)所述第一概率和所述第二概率計算每個所述候選串的第一指標(biāo)，并根據(jù)記錄每個所述候選串的邊界計算每個所述候選串的第二指標(biāo)；以及提取單元，用于提取所述第一指標(biāo)大于第一預(yù)設(shè)閾值，并且所述第二指標(biāo)大于第二預(yù) 設(shè)閾值的所述候選串，得到所述待處理語料的詞語集合。
8. 根據(jù)權(quán)利要求7所述的提取裝置，其特征在于，所述第二計算單元包括：第一獲取模塊，用于獲取屬于候選串Sj的字Cjk的第一概率P(Ck)，其中，j依次取1 至m，k依次取jl至jn，m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù)，jn 為所述候選串Sj中字的個數(shù)；以及第一計算模塊，用于根據(jù)第一概率P(Cjl)至第一概率P(Cjn)和所述候選串Sj的第二概率P(Sj)計算所述候選串Sj的第一指標(biāo)I(Sj)。
9. 根據(jù)權(quán)利要求8所述的提取裝置，其特征在于，所述第一計算模塊包括：計算子模塊，用于按照公式
卜算所述第一指標(biāo)I(Sj)。
10. 根據(jù)權(quán)利要求7所述的提取裝置，其特征在于，所述第二計算單元包括：第二計算模塊，用于根據(jù)記錄每個所述候選串的邊界計算候選串Sj的第一熵值和第二熵值，其中，所述第一熵值為與字CjL相鄰的字的熵值，所述第二熵值為與字CjR相鄰的字的熵值，所述字CjL為位于所述候選串Sj的第一邊界的字，所述字CjR為位于所述候選串Sj的第二邊界的字，j依次取1至m，m為所述待處理語料中長度等于所述預(yù)設(shè)詞長的候選串的個數(shù)；以及確定模塊，用于確定所述候選串Sj的第二指標(biāo)為所述候選串Sj的所述第一熵值和所述第二熵值。
11. 根據(jù)權(quán)利要求10所述的提取裝置，其特征在于，所述第二計算模塊包括：第二獲取模塊，用于從記錄每個所述候選串的邊界中獲取與所述字CjL相鄰的字的第一集合Sj(L)，并獲取與所述字CjR相鄰的字的第二集合Sj(R); 第三計算模塊，用于計算所述第一集合Sj(L)中的每個第一元素在所述第一集合 Sj(L)中出現(xiàn)的概率P(L)，并計算所述第二集合Sj(R)中的每個第二元素在所述第二集合Sj(R)中出現(xiàn)的概率P(R);以及第四計算模塊，用于按照公式MM'計算所述候選串Sj的第一熵值L(Sj),并按照公式計算所述候選串Sj的第二熵值 JRgS (R) R(Sj)0
12.根據(jù)權(quán)利要求7所述的提取裝置，其特征在于，所述提取裝置還包括：比較單元，用于在提取所述第一指標(biāo)和所述第二指標(biāo)均大于預(yù)設(shè)閾值的所述候選串，得到所述待處理語料的詞語集合之后，比較所述詞語集合與預(yù)設(shè)詞典，得到非目標(biāo)詞語，其中，所述非目標(biāo)詞語為所述詞語集合和所述預(yù)設(shè)詞典中相同的詞語；以及刪除單元，用于從所述詞語集合中刪除所述非目標(biāo)詞語。
【文檔編號】G06F17/27GK104462061SQ201410738661
【公開日】2015年3月25日申請日期:2014年12月5日優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】侯明午申請人:北京國雙科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：侯明午;
技術(shù)所有人：北京國雙科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

索氏提取裝置相關(guān)技術(shù)

索氏提取器裝置圖相關(guān)技術(shù)

回流提取裝置圖相關(guān)技術(shù)

揮發(fā)油提取裝置相關(guān)技術(shù)

揮發(fā)油提取裝置圖相關(guān)技術(shù)

溜冰過濾水提取裝置圖相關(guān)技術(shù)

索氏提取裝置圖相關(guān)技術(shù)

乙醇回流提取裝置圖相關(guān)技術(shù)

回流提取裝置相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

詞語提取方法及提取裝置制造方法