亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)頁文本的中文分詞方法和裝置的制造方法

文檔序號:10612781閱讀:296來源:國知局
一種網(wǎng)頁文本的中文分詞方法和裝置的制造方法
【專利摘要】本發(fā)明提供了一種網(wǎng)頁文本的中文分詞裝置及方法。該裝置包括:前期處理模塊、最大匹配模塊、神經(jīng)網(wǎng)絡(luò)消歧模塊和文本輸出模塊。與現(xiàn)有技術(shù)比較本發(fā)明的有益效果在于:本申請?zhí)峁┑囊环N網(wǎng)頁文本的中文分詞裝置及方法,通過根據(jù)正、反向最大匹配得到一部分的分詞結(jié)果,一部分帶有歧義的語句,然后運(yùn)用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、并行處理等優(yōu)點處理歧義語句,結(jié)合雙向最大匹配和神經(jīng)網(wǎng)絡(luò)的優(yōu)點,互相補(bǔ)充,能高效快速地處理網(wǎng)頁文本分詞。
【專利說明】
一種網(wǎng)頁文本的中文分詞方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及網(wǎng)頁文本分詞技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁文本的中文分詞方法和裝 置。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)的快速發(fā)展,人們的日常生活與互聯(lián)網(wǎng)緊密相連,互聯(lián)網(wǎng)信息成 為信息獲取的主要來源,已經(jīng)廣泛滲透到各個領(lǐng)域。因而運(yùn)營商積累了越來越多的用戶上 網(wǎng)行為和相關(guān)信息,實時營銷的廣泛應(yīng)用,使得對用戶需求分析成為及其重要的一部分。為 了從大量的資源信息中獲取有價值的信息,自然語言處理技術(shù)得到了廣大互聯(lián)網(wǎng)公司的重 視,中文分詞是中文信息處理的前提和基礎(chǔ),是自然語言處理技中至關(guān)重要的步驟。中文分 詞指的是將一個漢字序列切分成一個個單獨的詞,將連續(xù)的字序列按照一定的規(guī)范重新組 合成詞序列的過程。對于一段話,人們閱讀后很快就可以理解劃分詞語,對于計算機(jī)而言, 并不能理解這段話的意思。因此涌現(xiàn)了很多中文分詞方法,大致可分為三種:基于字符串匹 配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。
[0003] 由于中文語句的復(fù)雜性和多樣性,分詞技術(shù)的難點表現(xiàn)在歧義識別和消歧、未登 錄詞識別。現(xiàn)有的解決交集型歧義識別和消除的文本分詞方法處理速度較慢。
[0004] 鑒于上述缺陷,本發(fā)明創(chuàng)作者經(jīng)過長時間的研究和試驗,最終獲得了本發(fā)明。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種網(wǎng)頁文本的中文分詞方法和裝置用以克服上述技術(shù) 缺陷。
[0006] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案在于:
[0007] -方面提供了一種網(wǎng)頁文本的中文分詞方法,該方法包括以下步驟:
[0008] 步驟S1,提取網(wǎng)頁文本并對所述網(wǎng)頁文本進(jìn)行預(yù)處理;
[0009] 步驟S2,利用正向最大匹配中文分詞方法和反向最大匹配中文分詞方法對短語句 的文本內(nèi)容進(jìn)行切分,得出兩種分詞結(jié)果,并判斷兩種分詞結(jié)果是否相同,若相同,執(zhí)行步 驟S4,若不相同,執(zhí)行步驟S3;
[0010]步驟S3,利用已經(jīng)訓(xùn)練完畢的BP神經(jīng)網(wǎng)絡(luò)對歧義字段分詞,得到相應(yīng)的分詞結(jié)果;
[0011] 步驟S4,對未登錄詞識別并輸出最終的網(wǎng)頁文本分詞結(jié)果。
[0012] 較佳的,所述步驟S1包括以下步驟:
[0013] 步驟S11,利用網(wǎng)頁爬蟲獲取網(wǎng)頁文本;
[0014] 步驟S12,將所述網(wǎng)頁文本分割成一段段的短語句,縮減網(wǎng)頁文本字符的長度;
[0015] 步驟S13,對所述短語句進(jìn)行詞性標(biāo)注;
[0016] 步驟S14,對詞性標(biāo)注后的短語句轉(zhuǎn)換為映射值對(index,value),其中value指短 語句的文本內(nèi)容,index指value在網(wǎng)頁文本中的位置。
[0017] 較佳的,所述步驟S2中的正向最大匹配中文分詞方法包括以下步驟:
[0018] 步驟S210,從每一個value的首字開始掃描,預(yù)先設(shè)定以該字開頭的所有詞語中最 大詞長為N,取出詞長為N的漢子串,若value的長度小于N,則將value的實際長度賦值給N, 并將該長度為N的字符串設(shè)為Str;
[0019] 步驟S211,將Str與詞典進(jìn)行匹配,若在詞典中找到Str,則將劃分成value中的一 個詞語,若匹配詞典不成功,則將Str的尾字去掉重新賦值給Str,再將Str與詞典再一次匹 配,若匹配則Str成功分詞,否則繼續(xù)去掉Str的尾字重新賦值給Str;
[0020] 步驟S212,依此類推,直到與詞典匹配成功或N的長度為1為止,一次分詞結(jié)束,繼 續(xù)將value作為首字對余下網(wǎng)頁文本進(jìn)行分詞;
[0021] 步驟S213,輸出正向匹配分詞結(jié)果。
[0022] 較佳的,所述步驟S2中的反向最大匹配中文分詞方法包括以下步驟:
[0023]步驟S220,從每一個value的尾字開始掃描,預(yù)先設(shè)定以該字開頭的所有詞語中最 大詞長為N,取出詞長為N的漢子串,若value的長度小于N,則將value的實際長度賦值給N, 并將該長度為N的字符串設(shè)為Str;
[0024] 步驟S221,將Str與詞典進(jìn)行匹配,若在詞典中找到Str,則將劃分成value中的一 個詞語,若匹配詞典不成功,則將Str的首字去掉重新賦值給Str,再將Str與詞典再一次匹 配,若匹配則Str成功分詞,否則繼續(xù)去掉Str的首字重新賦值給Str;
[0025] 步驟S222,依此類推,直到與詞典匹配成功或N的長度為1為止,一次分詞結(jié)束,繼 續(xù)將value作為尾字對余下網(wǎng)頁文本進(jìn)行分詞。
[0026] 步驟S223,輸出反向匹配分詞結(jié)果。
[0027]又一方面提供了一種網(wǎng)頁文本的中文分詞裝置,該裝置包括:
[0028]前期處理模塊,用于提取網(wǎng)頁文本并對所述網(wǎng)頁文本進(jìn)行預(yù)處理;
[0029]最大匹配模塊,用于利用正向最大匹配中文分詞方法和反向最大匹配中文分詞方 法對短語句的文本內(nèi)容進(jìn)行切分,得出兩種分詞結(jié)果,并判斷兩種分詞結(jié)果是否相同;
[0030] 神經(jīng)網(wǎng)絡(luò)消歧模塊,用于利用已經(jīng)訓(xùn)練完畢的BP神經(jīng)網(wǎng)絡(luò)對歧義字段分詞,得到 相應(yīng)的分詞結(jié)果;
[0031] 文本輸出模塊,用于對未登錄詞識別并輸出最終的網(wǎng)頁文本分詞結(jié)果。
[0032]較佳的,所述前期處理模塊包括:
[0033]文本提取單元,用于利用網(wǎng)頁爬蟲獲取網(wǎng)頁文本;
[0034]粗切分單元,用于將所述網(wǎng)頁文本分割成一段段的短語句,縮減網(wǎng)頁文本字符的 長度;
[0035]詞性標(biāo)記單元,用于對所述短語句進(jìn)行詞性標(biāo)注;
[0036]詞性轉(zhuǎn)換單元,用于對詞性標(biāo)注后的短語句轉(zhuǎn)換為映射值對(index,value),其中 value指短語句的文本內(nèi)容,index指value在網(wǎng)頁文本中的位置。
[0037]較佳的,所述最大匹配模塊包括:
[0038]正向最大匹配模塊,用于運(yùn)用正向最大匹配中文分詞方法對短語句的文本內(nèi)容進(jìn) 行切分,得到正向匹配分詞結(jié)果;
[0039] 反向最大匹配模塊,用于運(yùn)用反向最大匹配中文分詞方法對短語句的文本內(nèi)容進(jìn) 行切分,得到反向匹配分詞結(jié)果;
[0040] 比較異同單元,用于判斷所述兩種分詞結(jié)果是否相同。
[0041 ]較佳的,所述神經(jīng)網(wǎng)絡(luò)消歧模塊包括:
[0042] 語句預(yù)處理單元,用于依據(jù)Unicode碼和自定義不同類型對應(yīng)詞性代碼,對包含各 類型交集型歧義的語句訓(xùn)練樣本進(jìn)行逐一編碼,變成神經(jīng)網(wǎng)絡(luò)能夠識別、學(xué)習(xí)和存儲的數(shù) 值向量形式,送至神經(jīng)網(wǎng)絡(luò)輸入層;
[0043] BP神經(jīng)網(wǎng)絡(luò)單元,用于根據(jù)模型總公式得到網(wǎng)絡(luò)輸出值,通過梯度下降法對誤差 逆?zhèn)鞑ミM(jìn)行修正權(quán)值;
[0044] 轉(zhuǎn)碼輸出分詞結(jié)果單元,用于將通過BP神經(jīng)網(wǎng)絡(luò)單元計算得到的向量型輸出,根 據(jù)一定的數(shù)值范圍轉(zhuǎn)化成帶有7"分詞的語句。
[0045] 較佳的,所述文本輸出模塊包括:
[0046] 未登錄詞識別單元,用于對未登錄詞進(jìn)行識別;
[0047] 最終分詞結(jié)果輸出單元,用于輸出最終的分詞結(jié)果。
[0048] 與現(xiàn)有技術(shù)比較本發(fā)明的有益效果在于:本申請?zhí)峁┑囊环N網(wǎng)頁文本的中文分詞 裝置及方法,通過根據(jù)正、反向最大匹配得到一部分的分詞結(jié)果,一部分帶有歧義的語句, 然后運(yùn)用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、并行處理等優(yōu)點處理歧義語句,結(jié)合雙向最大匹配和神經(jīng)網(wǎng) 絡(luò)的優(yōu)點,互相補(bǔ)充,能高效快速地處理網(wǎng)頁文本分詞。
【附圖說明】
[0049]圖1為本發(fā)明提供的一種網(wǎng)頁文本的中文分詞裝置的功能框圖;
[0050]圖2為前期處理模塊的功能框圖;
[0051]圖3為最大匹配模塊的功能框圖;
[0052]圖4為神經(jīng)網(wǎng)絡(luò)消歧模塊的功能框圖;
[0053]圖5為文本輸出模塊的功能框圖;
[0054] 圖6為本發(fā)明提供的一種網(wǎng)頁文本的中文分詞方法的流程圖;
[0055] 圖7為步驟S1的流程示意圖;
[0056]圖8為步驟S2中正向最大匹配中文分詞方法的流程圖;
[0057]圖9為步驟S2中反向最大匹配中文分詞方法的流程圖。
【具體實施方式】
[0058]為便于進(jìn)一步理解本發(fā)明的技術(shù)內(nèi)容,下面結(jié)合附圖對本發(fā)明作進(jìn)一步說明。 [0059] 實施例一
[0060] 如圖1所示,為本發(fā)明提供的一種網(wǎng)頁文本的中文分詞裝置的功能框圖,該裝置包 括:前期處理模塊1,用于提取網(wǎng)頁文本并對所述網(wǎng)頁文本進(jìn)行預(yù)處理。最大匹配模塊2,用 于利用正向最大匹配中文分詞方法和反向最大匹配中文分詞方法對短語句的文本內(nèi)容進(jìn) 行切分,得出兩種分詞結(jié)果,并判斷兩種分詞結(jié)果是否相同。神經(jīng)網(wǎng)絡(luò)消歧模塊3,用于利用 已經(jīng)訓(xùn)練完畢的BP神經(jīng)網(wǎng)絡(luò)對歧義字段分詞,得到相應(yīng)的分詞結(jié)果。文本輸出模塊4,用于 對未登錄詞識別并輸出最終的網(wǎng)頁文本分詞結(jié)果。
[0061] 如圖2所示,為前期處理模塊的功能框圖。前期處理模塊1包括:提取單元11、粗切 分單元12、詞性標(biāo)記單元13和轉(zhuǎn)換單元14。其中,文本提取單元11用于利用網(wǎng)頁爬蟲獲取網(wǎng) 頁文本。粗切分單元12用于將所述網(wǎng)頁文本分割成一段段的短語句,縮減網(wǎng)頁文本字符的 長度。具體分隔方式為:根據(jù)數(shù)字、英文字符、標(biāo)點符號和出現(xiàn)頻率高而構(gòu)詞能力差的單字 詞等,將網(wǎng)頁文本分割成一段段由V"或空格隔開的短語句,縮減網(wǎng)頁文本字符的長度。詞 性標(biāo)記單元13用于對所述短語句進(jìn)行詞性標(biāo)注。具體的詞性標(biāo)注為:運(yùn)用隱馬爾科夫模型 和Viterbi算法,實現(xiàn)對短語句的詞性標(biāo)注。詞性轉(zhuǎn)換單元14用于對詞性標(biāo)注后的短語句轉(zhuǎn) 換為映射值對(index,value),其中value指短語句的文本內(nèi)容,index指value在網(wǎng)頁文本 中的位置。
[0062]例如:一個網(wǎng)頁文本主題為"移動4G手機(jī)"的網(wǎng)頁文本,網(wǎng)頁文本為"4G最大的數(shù)據(jù) 傳輸速率超過l〇〇Mbit/S,這個速率是移動電話數(shù)據(jù)傳輸速率的1萬倍,也是3G移動電話速 率的50倍。"經(jīng)過粗切分單元12分割后,成為:"/4G/最大的數(shù)據(jù)傳輸速率超過/100Mbit/ s/,/這個速率是移動電話數(shù)據(jù)傳輸速率的/1/萬倍/,/也是/3G/移動電話速率的/50/ 倍/。/"。對詞性標(biāo)注后短語句"最大的數(shù)據(jù)傳輸速率超過"轉(zhuǎn)換為映射值對(inde X,valUe) (移動4G手機(jī)、2,最大的數(shù)據(jù)傳輸速率超過),其中value是短語句文本內(nèi)容"最大的數(shù)據(jù)傳 輸速率超過" i是短語句文本內(nèi)容"最大的數(shù)據(jù)傳輸速率超過"在網(wǎng)頁文本中的位置"移動 4G手機(jī)、2",其中"移動4G手機(jī)"指該網(wǎng)頁文本主題,"2"指的該短語句位于粗切分后的第二 個7"后。
[0063]如圖3所示,為最大匹配模塊的功能框圖。最大匹配模塊2包括:正向最大匹配單元 21、反向最大匹配單元22和比較異同單元23。正向最大匹配單元21,用于運(yùn)用正向最大匹配 中文分詞方法對短語句的文本內(nèi)容進(jìn)行切分,得到正向匹配分詞結(jié)果。反向最大匹配單元 21,用于運(yùn)用反向最大匹配中文分詞方法對短語句的文本內(nèi)容進(jìn)行切分,得到反向匹配分 詞結(jié)果。比較異同單元23,用于判斷所述兩種分詞結(jié)果是否相同。
[0064] 如圖4所示,為神經(jīng)網(wǎng)絡(luò)消歧模塊的功能框圖。神經(jīng)網(wǎng)絡(luò)消歧模塊3包括:語句預(yù)處 理單元31、BP神經(jīng)網(wǎng)絡(luò)單元32和轉(zhuǎn)碼輸出分詞結(jié)果單元33。語句預(yù)處理單元31,用于依據(jù) Unicode碼和自定義不同類型對應(yīng)詞性代碼,對包含各類型交集型歧義的語句訓(xùn)練樣本進(jìn) 行逐一編碼,變成神經(jīng)網(wǎng)絡(luò)能夠識別、學(xué)習(xí)和存儲的數(shù)值向量形式(^,^,…,^^,送至神經(jīng) 網(wǎng)絡(luò)輸入層。對期望的分詞結(jié)果表示為向量形式(7 1,72,一,7[0,若第1^個字被切分了,則向 量第k維為1,否則為(LBP神經(jīng)網(wǎng)絡(luò)單元32,用于根據(jù)模型總公式得到網(wǎng)絡(luò)輸出值,通過梯度 下降法對誤差逆?zhèn)鞑ミM(jìn)行修正權(quán)值。主要公式如下:
[0065]
[0066]
[0067] 轉(zhuǎn)碼輸出分詞結(jié)果單元33,用于將通過BP神經(jīng)網(wǎng)絡(luò)單元32計算得到的向量型輸 出,根據(jù)一定的數(shù)值范圍轉(zhuǎn)化成帶有7"分詞的語句。例如第k維值在[0.85,1 ]內(nèi),則對應(yīng)的 第k個字后帶有7"。
[0068] 如圖5所示,為文本輸出模塊的功能框圖。文本輸出模塊4包括:未登錄詞識別單元 41和最終分詞結(jié)果輸出單元42。未登錄詞識別單元41用于對未登錄詞進(jìn)行識別。最終分詞 結(jié)果輸出單元42用于輸出最終的分詞結(jié)果。
[0069] 實施例二
[0070] 如圖6所示,為本發(fā)明提供的一種網(wǎng)頁文本的中文分詞方法的流程圖,該方法包括 以下步驟:
[0071] 步驟S1,提取網(wǎng)頁文本并對所述網(wǎng)頁文本進(jìn)行預(yù)處理。
[0072] 如圖7所示,步驟S1具體包括以下步驟:
[0073] 步驟S11,利用網(wǎng)頁爬蟲獲取網(wǎng)頁文本。
[0074]步驟S12,將所述網(wǎng)頁文本分割成一段段的短語句,縮減網(wǎng)頁文本字符的長度。
[0075] 具體的,根據(jù)數(shù)字、英文字符、標(biāo)點符號和出現(xiàn)頻率高而構(gòu)詞能力差的單字詞等, 將網(wǎng)頁文本分割成一段段由7"或空格隔開的短語句,縮減網(wǎng)頁文本字符的長度。
[0076] 步驟S13,對所述短語句進(jìn)行詞性標(biāo)注。
[0077]具體的,運(yùn)用隱馬爾科夫模型和Viterbi算法,實現(xiàn)對短語句的詞性標(biāo)注。
[0078] 步驟S14,對詞性標(biāo)注后的短語句轉(zhuǎn)換為映射值對(index,value),其中value指短 語句的文本內(nèi)容,index指value在網(wǎng)頁文本中的位置。
[0079] 步驟S2,利用正向最大匹配中文分詞方法和反向最大匹配中文分詞方法對短語句 的文本內(nèi)容進(jìn)行切分,得出兩種分詞結(jié)果,并判斷兩種分詞結(jié)果是否相同,若相同,執(zhí)行步 驟S4,若不相同,執(zhí)行步驟S3。
[0080] 如圖8所示,正向最大匹配中文分詞方法包括以下步驟:
[0081] 步驟S210,從每一個value的首字開始掃描,預(yù)先設(shè)定以該字開頭的所有詞語中最 大詞長為N,取出詞長為N的漢子串,若value的長度小于N,則將value的實際長度賦值給N, 并將該長度為N的字符串設(shè)為Str。
[0082] 步驟S211,將Str與詞典進(jìn)行匹配,若在詞典中找到Str,則將劃分成value中的一 個詞語,若匹配詞典不成功,則將Str的尾字去掉重新賦值給Str,再將Str與詞典再一次匹 配,若匹配則Str成功分詞,否則繼續(xù)去掉Str的尾字重新賦值給Str。
[0083] 步驟S212,依此類推,直到與詞典匹配成功或N的長度為1為止,一次分詞結(jié)束,繼 續(xù)將value作為首字對余下網(wǎng)頁文本進(jìn)行分詞。
[0084] 步驟S213,輸出正向匹配分詞結(jié)果。
[0085] 如圖9所示,反向最大匹配中文分詞方法包括以下步驟:
[0086] 步驟S220,從每一個value的尾字開始掃描,預(yù)先設(shè)定以該字開頭的所有詞語中最 大詞長為N,取出詞長為N的漢子串,若value的長度小于N,則將value的實際長度賦值給N, 并將該長度為N的字符串設(shè)為Str。
[0087] 步驟S221,將Str與詞典進(jìn)行匹配,若在詞典中找到Str,則將劃分成value中的一 個詞語,若匹配詞典不成功,則將Str的首字去掉重新賦值給Str,再將Str與詞典再一次匹 配,若匹配則Str成功分詞,否則繼續(xù)去掉Str的首字重新賦值給Str。
[0088] 步驟S222,依此類推,直到與詞典匹配成功或N的長度為1為止,一次分詞結(jié)束,繼 續(xù)將value作為尾字對余下網(wǎng)頁文本進(jìn)行分詞。
[0089] 步驟S223,輸出反向匹配分詞結(jié)果。
[0090]步驟S3,利用已經(jīng)訓(xùn)練完畢的BP神經(jīng)網(wǎng)絡(luò)對歧義字段分詞,得到相應(yīng)的分詞結(jié)果。
[0091]如圖所示,為BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖。BP神經(jīng)網(wǎng)絡(luò)模型是在模擬人腦結(jié)構(gòu)和行為 的基礎(chǔ)上,用大量簡單的處理單元廣泛連接組成的復(fù)雜網(wǎng)絡(luò),研究成果顯示了人工神經(jīng)網(wǎng) 絡(luò)的主要特征為連續(xù)時間非線性動力學(xué)、網(wǎng)絡(luò)的全局作用、大規(guī)模并行分布處理及高度的 魯棒性和學(xué)習(xí)聯(lián)想能力。本申請利用神經(jīng)網(wǎng)絡(luò)進(jìn)行分詞的目的,是要使網(wǎng)絡(luò)能夠?qū)W習(xí)到歧 義字段中所包含的各種不同的語法規(guī)則,當(dāng)句子中再次出現(xiàn)符合同樣語法規(guī)則的歧義字段 時,網(wǎng)絡(luò)能夠做出正確響應(yīng)。BP神經(jīng)網(wǎng)絡(luò)的語句預(yù)處理,是按照一些規(guī)定的規(guī)則對其進(jìn)行切 分,比如規(guī)則:歧義字段首字與前面構(gòu)成詞匯,則首字后切分,否則自己成詞。例:"球拍賣完 了"和"東西拍賣完了",其中"拍賣"是歧義字段,按照規(guī)則,劃分結(jié)果是"球拍/賣/完/了"和 "東西/拍賣/完/ 了"。
[0092]步驟S4,對未登錄詞識別并輸出最終的網(wǎng)頁文本分詞結(jié)果。
[0093] 對未登錄詞識別的步驟包括:設(shè)k = 1,k為整數(shù)。
[0094] 步驟S41,對分詞結(jié)果,首先根據(jù)構(gòu)詞規(guī)則判斷一定的詞義,例如姓名構(gòu)詞。然后從 第k個詞語開始,分別將連續(xù)的兩個、三個和四個相鄰的詞語合并為候選未登錄詞 W1、W2、W3。
[0095] 步驟S42,將候選未登錄詞作為關(guān)鍵詞輸入到網(wǎng)絡(luò)中進(jìn)行檢索。
[0096] 步驟S43,判斷候選未登錄詞是否是有效的未登錄詞,判斷是未登錄詞,則合并相 鄰詞語。
[0097] 判斷依據(jù)是:候選未登錄詞是否會存在相應(yīng)的百科網(wǎng)絡(luò)頁面。具體來說,在網(wǎng)絡(luò)頁 面返回結(jié)果的超文本標(biāo)記語言〈title〉標(biāo)簽包含候選未登錄詞。若 W3為未登錄詞,則設(shè)置k = k+4,執(zhí)行步驟S44,否之判斷W2是不是未登錄詞;若W2為未登錄詞,則設(shè)置k = k+3,執(zhí)行步 驟S44,否之判斷奶是不是未登錄詞;對W1做一樣的處理,設(shè)置k = k+2。
[0098] 步驟S44,若k小于該分詞后語句的詞語個數(shù),則返回步驟S41,否則對下一個分詞 結(jié)果判斷未登錄詞,直到所有文本判斷完畢。
[0099] 本申請?zhí)峁┑囊环N網(wǎng)頁文本的中文分詞裝置及方法,通過根據(jù)正、反向最大匹配 得到一部分的分詞結(jié)果,一部分帶有歧義的語句,然后運(yùn)用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、并行處理等 優(yōu)點處理歧義語句,結(jié)合雙向最大匹配和神經(jīng)網(wǎng)絡(luò)的優(yōu)點,互相補(bǔ)充,能高效快速地處理網(wǎng) 頁文本分詞。
[0100] 以上所述僅為本發(fā)明的較佳實施例,對本發(fā)明而言僅僅是說明性的,而非限制性 的。本專業(yè)技術(shù)人員理解,在本發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對其進(jìn)行許多改變, 修改,甚至等效,但都將落入本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種網(wǎng)頁文本的中文分詞方法,其特征在于,該方法包括以下步驟: 步驟S1,提取網(wǎng)頁文本并對所述網(wǎng)頁文本進(jìn)行預(yù)處理; 步驟S2,利用正向最大匹配中文分詞方法和反向最大匹配中文分詞方法對短語句的文 本內(nèi)容進(jìn)行切分,得出兩種分詞結(jié)果,并判斷兩種分詞結(jié)果是否相同,若相同,執(zhí)行步驟S4, 若不相同,執(zhí)行步驟S3; 步驟S3,利用已經(jīng)訓(xùn)練完畢的BP神經(jīng)網(wǎng)絡(luò)對歧義字段分詞,得到相應(yīng)的分詞結(jié)果; 步驟S4,對未登錄詞識別并輸出最終的網(wǎng)頁文本分詞結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種網(wǎng)頁文本的中文分詞方法,其特征在于,所述步驟S1包括 以下步驟: 步驟S11,利用網(wǎng)頁爬蟲獲取網(wǎng)頁文本; 步驟S12,將所述網(wǎng)頁文本分割成一段段的短語句,縮減網(wǎng)頁文本字符的長度; 步驟S13,對所述短語句進(jìn)行詞性標(biāo)注; 步驟S14,對詞性標(biāo)注后的短語句轉(zhuǎn)換為映射值對(index,value),其中value指短語句 的文本內(nèi)容,index指value在網(wǎng)頁文本中的位置。3. 根據(jù)權(quán)利要求2所述的一種網(wǎng)頁文本的中文分詞方法,其特征在于,所述步驟S2中的 正向最大匹配中文分詞方法包括以下步驟: 步驟S210,從每一個value的首字開始掃描,預(yù)先設(shè)定以該字開頭的所有詞語中最大詞 長為N,取出詞長為N的漢子串,若value的長度小于N,則將value的實際長度賦值給N,并將 該長度為N的字符串設(shè)為S tr; 步驟S211,將Str與詞典進(jìn)行匹配,若在詞典中找到Str,則將劃分成value中的一個詞 語,若匹配詞典不成功,則將Str的尾字去掉重新賦值給Str,再將Str與詞典再一次匹配,若 匹配則Str成功分詞,否則繼續(xù)去掉Str的尾字重新賦值給Str; 步驟S212,依此類推,直到與詞典匹配成功或N的長度為1為止,一次分詞結(jié)束,繼續(xù)將 value作為首字對余下網(wǎng)頁文本進(jìn)行分詞; 步驟S213,輸出正向匹配分詞結(jié)果。4. 根據(jù)權(quán)利要求2所述的一種網(wǎng)頁文本的中文分詞方法,其特征在于,所述步驟S2中的 反向最大匹配中文分詞方法包括以下步驟: 步驟S220,從每一個value的尾字開始掃描,預(yù)先設(shè)定以該字開頭的所有詞語中最大詞 長為N,取出詞長為N的漢子串,若value的長度小于N,則將value的實際長度賦值給N,并將 該長度為N的字符串設(shè)為S tr; 步驟S221,將Str與詞典進(jìn)行匹配,若在詞典中找到Str,則將劃分成value中的一個詞 語,若匹配詞典不成功,則將Str的首字去掉重新賦值給Str,再將Str與詞典再一次匹配,若 匹配則Str成功分詞,否則繼續(xù)去掉Str的首字重新賦值給Str; 步驟S222,依此類推,直到與詞典匹配成功或N的長度為1為止,一次分詞結(jié)束,繼續(xù)將 value作為尾字對余下網(wǎng)頁文本進(jìn)行分詞。 步驟S223,輸出反向匹配分詞結(jié)果。5. -種網(wǎng)頁文本的中文分詞裝置,其特征在于,該裝置包括: 前期處理模塊,用于提取網(wǎng)頁文本并對所述網(wǎng)頁文本進(jìn)行預(yù)處理; 最大匹配模塊,用于利用正向最大匹配中文分詞方法和反向最大匹配中文分詞方法對 短語句的文本內(nèi)容進(jìn)行切分,得出兩種分詞結(jié)果,并判斷兩種分詞結(jié)果是否相同; 神經(jīng)網(wǎng)絡(luò)消歧模塊,用于利用已經(jīng)訓(xùn)練完畢的BP神經(jīng)網(wǎng)絡(luò)對歧義字段分詞,得到相應(yīng) 的分詞結(jié)果; 文本輸出模塊,用于對未登錄詞識別并輸出最終的網(wǎng)頁文本分詞結(jié)果。6. 根據(jù)權(quán)利要求5所述的一種網(wǎng)頁文本的中文分詞裝置,其特征在于,所述前期處理模 塊包括: 文本提取單元,用于利用網(wǎng)頁爬蟲獲取網(wǎng)頁文本; 粗切分單元,用于將所述網(wǎng)頁文本分割成一段段的短語句,縮減網(wǎng)頁文本字符的長度; 詞性標(biāo)記單元,用于對所述短語句進(jìn)行詞性標(biāo)注; 詞性轉(zhuǎn)換單元,用于對詞性標(biāo)注后的短語句轉(zhuǎn)換為映射值對(index,value ),其中 value指短語句的文本內(nèi)容,index指value在網(wǎng)頁文本中的位置。7. 根據(jù)權(quán)利要求5所述的一種網(wǎng)頁文本的中文分詞裝置,其特征在于,所述最大匹配模 塊包括: 正向最大匹配模塊,用于運(yùn)用正向最大匹配中文分詞方法對短語句的文本內(nèi)容進(jìn)行切 分,得到正向匹配分詞結(jié)果; 反向最大匹配模塊,用于運(yùn)用反向最大匹配中文分詞方法對短語句的文本內(nèi)容進(jìn)行切 分,得到反向匹配分詞結(jié)果; 比較異同單元,用于判斷所述兩種分詞結(jié)果是否相同。8. 根據(jù)權(quán)利要求5所述的一種網(wǎng)頁文本的中文分詞裝置,其特征在于,所述神經(jīng)網(wǎng)絡(luò)消 歧模塊包括: 語句預(yù)處理單元,用于依據(jù)Unicode碼和自定義不同類型對應(yīng)詞性代碼,對包含各類型 交集型歧義的語句訓(xùn)練樣本進(jìn)行逐一編碼,變成神經(jīng)網(wǎng)絡(luò)能夠識別、學(xué)習(xí)和存儲的數(shù)值向 量形式,送至神經(jīng)網(wǎng)絡(luò)輸入層; BP神經(jīng)網(wǎng)絡(luò)單元,用于根據(jù)模型總公式得到網(wǎng)絡(luò)輸出值,通過梯度下降法對誤差逆?zhèn)?播進(jìn)行修正權(quán)值; 轉(zhuǎn)碼輸出分詞結(jié)果單元,用于將通過BP神經(jīng)網(wǎng)絡(luò)單元計算得到的向量型輸出,根據(jù)一 定的數(shù)值范圍轉(zhuǎn)化成帶有7"分詞的語句。9. 根據(jù)權(quán)利要求5所述的一種網(wǎng)頁文本的中文分詞裝置,其特征在于,所述文本輸出模 塊包括: 未登錄詞識別單元,用于對未登錄詞進(jìn)行識別; 最終分詞結(jié)果輸出單元,用于輸出最終的分詞結(jié)果。
【文檔編號】G06F17/27GK105975454SQ201610257885
【公開日】2016年9月28日
【申請日】2016年4月21日
【發(fā)明人】簡宋全, 鄒立斌, 李青海, 侯大勇
【申請人】廣州精點計算機(jī)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1