亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法與流程

文檔序號(hào):11950492閱讀:361來源:國知局
融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法與流程
本發(fā)明涉及融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法,屬于自然語言處理
技術(shù)領(lǐng)域

背景技術(shù)
:越南語命名實(shí)體識(shí)別是指自動(dòng)識(shí)別越南語文本語料中的人名、地名、組織機(jī)構(gòu)名、時(shí)間、數(shù)字、百分號(hào)和貨幣的過程,其是越南語詞法分析、句法分析、文本分析、信息檢索等工作中的主要環(huán)節(jié),是上層機(jī)器翻譯的重要基礎(chǔ),起著非常重要的作用。在上層的機(jī)器翻譯中,越南語命名實(shí)體識(shí)別起到關(guān)鍵作用。隨著互聯(lián)網(wǎng)搜索技術(shù)的不斷提高,命名實(shí)體也越來越備受重視,其決定著搜索的好壞;同時(shí)其對(duì)文本、語義分析、雙語實(shí)體翻譯等起到重要作用。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法,以用于解決越南語命名實(shí)體識(shí)別正確率不高、不能有效識(shí)別復(fù)雜的命名實(shí)體、不能更好挖掘和結(jié)合實(shí)體特性等問題。本發(fā)明的技術(shù)方案是:融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法,所述融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法的具體步驟如下:Step1、首先根據(jù)越南語命名實(shí)體特點(diǎn),提取越南語命名實(shí)體有效特征,對(duì)形成的越南語句子級(jí)命名實(shí)體語料進(jìn)行識(shí)別建模,得到越南語最大熵命名實(shí)體識(shí)別模型;Step2、從越南語句子級(jí)命名實(shí)體語料中隨機(jī)選取測試語料通過已建好的越南語最大熵命名實(shí)體識(shí)別模型進(jìn)行識(shí)別,得到最大熵命名實(shí)體識(shí)別結(jié)果。作為本發(fā)明的優(yōu)選方案,所述步驟Step1的具體步驟為:Step1.1、首先人工編寫爬蟲程序,從越南語網(wǎng)站和中越交流圈中收集越南語新聞?wù)Z料網(wǎng)頁信息;本發(fā)明考慮到由于不同的網(wǎng)頁結(jié)構(gòu),爬蟲程序中爬取的位置和標(biāo)簽也不同,且沒有現(xiàn)成的程序,因此針對(duì)爬取不同任務(wù)要進(jìn)行編寫程序。要盡可能全面地選取不同方面的題材的語料,例如:新聞、政治、經(jīng)濟(jì)和文化等方面。Step1.2、獲取到的越南語新聞?wù)Z料網(wǎng)頁信息進(jìn)行過濾、去重、去垃圾信息等操作,得到越南語文本級(jí)語料庫,并把越南語文本級(jí)語料庫存放到數(shù)據(jù)庫中,方便下一步分詞工作使用;本發(fā)明考慮到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽、無效字符等噪音,這些噪音是無效的。因此,要通過過濾、去噪音等操作去除,得到只含有越南語的高質(zhì)量的文本級(jí)語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步越南語分詞工作使用。所述步驟Step1.2的具體步驟為:Step1.2.1、對(duì)爬取的網(wǎng)頁信息進(jìn)行有效的過濾,去無效字符和網(wǎng)頁;Step1.2.2、對(duì)得到的有效網(wǎng)頁進(jìn)行去重、去垃圾信息等預(yù)處理操作;Step1.2.3、對(duì)得到的越南語文本級(jí)語料存放在數(shù)據(jù)庫中??紤]到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽等噪音,這些噪音是無效的。因此,要通過過濾、去垃圾信息等操作去除,得到只含有越南語的高質(zhì)量的文本級(jí)語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步使用。Step1.3、從Step1.2數(shù)據(jù)庫中取出越南語文本級(jí)語料,越南語詞與詞之間空格隔開,不能按照空格來進(jìn)行分詞,但是分詞是命名實(shí)體識(shí)別前期基礎(chǔ)工作;因此,根據(jù)越南語分詞工具進(jìn)行越南語文本級(jí)語料庫的語料分詞,并進(jìn)行人工校對(duì),形成越南語分詞句子級(jí)語料庫,并把越南語分詞句子級(jí)語料庫的語料存放到數(shù)據(jù)庫中,方便下一步詞性標(biāo)注工作使用;本發(fā)明中分詞處理過程,是越南語命名實(shí)體識(shí)別工作的前提與基礎(chǔ),是不可缺少的一步,同時(shí)由于越南語的詞是由一個(gè)或者多個(gè)音節(jié)構(gòu)成,不能按照空格對(duì)來確定分詞。使用越南語分詞工具進(jìn)行分詞之后,需要人工校對(duì),考慮到越南語分詞工具不可能正確地切分所有的越南語詞,分詞錯(cuò)誤會(huì)影響到下一步的越南語詞性標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.4、從Step1.3數(shù)據(jù)庫中取出越南語分詞句子級(jí)語料越南語詞的詞性有助于識(shí)別命名實(shí)體,同時(shí)也是命名前期工作不可缺少工作之一;因此根據(jù)越南語詞性標(biāo)注工具對(duì)越南語分詞句子級(jí)語料進(jìn)行越南語句子級(jí)詞性標(biāo)注;考慮到工具分詞不是完全正確和防止錯(cuò)誤向后累積,故再進(jìn)行人工校對(duì),形成越南語句子級(jí)詞性標(biāo)注語料庫,并把越南語句子級(jí)詞性標(biāo)注語料庫的語料存放到數(shù)據(jù)庫中,方便下一步組塊分析工作使用;本發(fā)明中詞性標(biāo)注過程,同時(shí)也是越南語命名實(shí)體識(shí)別工作的前提與基礎(chǔ),是不可缺少的一步,詞性以及上下文信息是本專利最大熵模型中重要的識(shí)別特征,因此需要使用本實(shí)驗(yàn)室詞性標(biāo)注工具進(jìn)行詞性標(biāo)記;考慮到越南語詞性標(biāo)注過程中,困難在于越南語兼類詞的影響和考慮到越南語分詞工具不可能正確地切分所有的越南語詞,詞性標(biāo)注錯(cuò)誤會(huì)影響到下一步的越南語組塊標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,故詞性標(biāo)記之后需要進(jìn)行人工校對(duì);存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.5、從Step1.4數(shù)據(jù)庫中取出越南語句子級(jí)詞性標(biāo)注語料,越南語組塊類型和長度有利于命名實(shí)體識(shí)別,因此再應(yīng)用越南語組塊標(biāo)注工具對(duì)越南語句子級(jí)詞性標(biāo)注語料進(jìn)行越南語句子級(jí)組塊標(biāo)記,考慮到工具分詞不是完全正確和防止錯(cuò)誤向后累積,故再進(jìn)行人工校對(duì),形成越南語句子級(jí)組塊標(biāo)記語料庫,并把越南語句子級(jí)組塊標(biāo)記語料庫的語料存放到數(shù)據(jù)庫中,方便下一步人工標(biāo)記命名實(shí)體語料使用;本發(fā)明中組塊分析與標(biāo)記,同時(shí)也是越南語命名實(shí)體識(shí)別工作的前提與基礎(chǔ),是不可缺少的一步,組塊類型和長度有利于識(shí)別命名實(shí)體邊界和類型,因此,本專利需要使用本實(shí)驗(yàn)室的越南語組塊分析工具進(jìn)行組塊標(biāo)記??紤]到工具分詞不是完全正確和防止錯(cuò)誤向后累積,故進(jìn)行人工校對(duì),形成越南語句子級(jí)組塊標(biāo)記語料庫,存放數(shù)據(jù)庫是為了方便管理數(shù)據(jù)和下一步人工標(biāo)記命名實(shí)體語料使用。Step1.6、從Step1.5數(shù)據(jù)庫中取出越南語句子級(jí)組塊標(biāo)記語料根據(jù)定義的實(shí)體類型,考慮到越南語命名實(shí)體語料缺乏,故再人工標(biāo)記越南語命名實(shí)體語料,形成越南語句子級(jí)命名實(shí)體語料,并把越南語句子級(jí)命名實(shí)體語料存入數(shù)據(jù)庫中,方便下一步形成訓(xùn)練語料工作使用;本發(fā)明過程中標(biāo)記越南語命名實(shí)體句子級(jí)語料,主要考慮目前還沒有公開的越南語命名實(shí)體語料可供使用,且本專利需要大量的訓(xùn)練語料,因此要進(jìn)行人工標(biāo)記,形成一定規(guī)模的訓(xùn)練語料,存放數(shù)據(jù)庫是為了方便數(shù)據(jù)的管理和下一步形成含有實(shí)體特性訓(xùn)練格式的語料做準(zhǔn)備。Step1.7、根據(jù)越南語命名實(shí)體特點(diǎn),并結(jié)合Step1.6步驟取出越南語句子級(jí)命名實(shí)體語料,提取越南語命名實(shí)體有效特征,包括局部特征和全局特征;全局特征包括:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征包括音節(jié)個(gè)數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等;本發(fā)明中根據(jù)越南語言和實(shí)體特點(diǎn),提取出有效的全局特征和局部特征。全局特征:針對(duì)所有的實(shí)體類型,并且滿足所有實(shí)體類型的,主要包括有:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征:實(shí)體類型之間差別較大,各自有各自的特點(diǎn),這樣就可以更大限度區(qū)別實(shí)體類型,有利于實(shí)體類型的識(shí)別,主要包括有音節(jié)個(gè)數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等。Step1.8、根據(jù)Step1.7中已選取的越南語命名實(shí)體有效特征,結(jié)合從Step1.6中取出的越南語句子級(jí)命名實(shí)體語料,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式;本發(fā)明中使用最大熵的統(tǒng)計(jì)分析方法,對(duì)于不同的機(jī)器學(xué)習(xí)方法,訓(xùn)練語料格式不一樣,因此,本文將選取的最大熵訓(xùn)練語料結(jié)合所選取的越南語命名實(shí)體特征,生成最大熵模型訓(xùn)練時(shí)所需要的語料格式。Step1.9、從Step1.8中獲取已標(biāo)注好的訓(xùn)練格式語料,使用最大熵統(tǒng)計(jì)方法進(jìn)行分析,生成越南語最大熵命名實(shí)體識(shí)別模型。此優(yōu)選方案設(shè)計(jì)是本專利的重要組成部分,主要結(jié)合越南語實(shí)體特性,生成基于最大熵的越南語命名實(shí)體識(shí)別模型。主要包括語料的預(yù)處理過程;越南語語料進(jìn)行分詞、詞性標(biāo)注、組塊標(biāo)注和人工標(biāo)記越南語命名實(shí)體語料,根據(jù)越南語言和實(shí)體特點(diǎn),選取有效的識(shí)別特征(局部特征和全局特征);根據(jù)已標(biāo)記的語料和選取的有效特征,生成模型訓(xùn)練時(shí)所需要的樣式;使用最大熵統(tǒng)計(jì)分析方法進(jìn)行建模。作為本發(fā)明的優(yōu)選方案,所述步驟Step2的具體步驟為:Step2.1、隨機(jī)選取越南語句子級(jí)命名實(shí)體語料,得到越南語句子級(jí)命名實(shí)體測試語料;本發(fā)明中要對(duì)已構(gòu)建的融合實(shí)體特性的越南語最大熵命名實(shí)體模型進(jìn)行測試,考查該模型的性能。測試需要測試語料,且來源于數(shù)據(jù)庫中已人工標(biāo)記好的越南語句子級(jí)命名實(shí)體語料,為了盡可能保證數(shù)據(jù)的準(zhǔn)確性,盡量測試語料不包括在訓(xùn)練語料中。Step2.2、根據(jù)獲得的越南語句子級(jí)的命名實(shí)體測試語料,經(jīng)過已建好的越南語最大熵命名實(shí)體識(shí)別模型進(jìn)行標(biāo)注,得到越南語句子級(jí)命名實(shí)體標(biāo)注序列化標(biāo)記結(jié)果。本發(fā)明中使用最大熵統(tǒng)計(jì)分析方法對(duì)已獲取的測試語料進(jìn)行測試,生成測試語料標(biāo)記結(jié)果,將識(shí)別的結(jié)果與正確結(jié)果進(jìn)行比較。此優(yōu)選方案設(shè)計(jì)是對(duì)生成的模型的進(jìn)行測試其性能的好壞以及通過測試比較每個(gè)特征對(duì)模型的貢獻(xiàn),為以后的研究提供一定的依據(jù)。本發(fā)明的有益效果是:1、本發(fā)明的融合實(shí)體特性的越南語最大熵命名實(shí)體識(shí)別方法,與現(xiàn)有的越南語命名實(shí)體相比,提高了越南語命名實(shí)體識(shí)別的正確率,本發(fā)明取得了較好的效果;2、本發(fā)明的融合實(shí)體特性的越南語最大熵命名實(shí)體識(shí)別方法,與現(xiàn)有的越南語命名實(shí)體識(shí)別方法(全局特征)相比較,本文結(jié)合越南語更多、更有效的和有利于識(shí)別越南語命名實(shí)體特征(局部特征和全局特征),能夠更好識(shí)別越南語復(fù)雜實(shí)體。3、本發(fā)明的融合實(shí)體特性的越南語最大熵命名實(shí)體識(shí)別方法,對(duì)越南語命名實(shí)體識(shí)別實(shí)現(xiàn)了有效的識(shí)別,為后續(xù)工作的組塊分析、句法分析、語義分析、信息抽取、信息檢索和機(jī)器翻譯等工作提供強(qiáng)有力的支撐。附圖說明圖1為本發(fā)明中的總的流程圖;圖2為本發(fā)明中的建模流程圖。具體實(shí)施方式實(shí)施例1:如圖1-2所示,融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法,所述融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法的具體步驟如下:Step1、首先根據(jù)越南語命名實(shí)體特點(diǎn),提取越南語命名實(shí)體有效特征,對(duì)形成的越南語句子級(jí)命名實(shí)體語料進(jìn)行識(shí)別建模,得到越南語最大熵命名實(shí)體識(shí)別模型;Step2、從越南語句子級(jí)命名實(shí)體語料中隨機(jī)選取測試語料通過已建好的越南語最大熵命名實(shí)體識(shí)別模型進(jìn)行識(shí)別,得到最大熵命名實(shí)體識(shí)別結(jié)果。實(shí)施例2,如圖1-2所示,融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法,本實(shí)施例與實(shí)施例1相同,其中:作為本發(fā)明的優(yōu)選方案,所述步驟Step1的具體步驟為:Step1.1、首先人工編寫爬蟲程序,從越南語網(wǎng)站和中越交流圈中收集越南語新聞?wù)Z料網(wǎng)頁信息;本發(fā)明考慮到由于不同的網(wǎng)頁結(jié)構(gòu),爬蟲程序中爬取的位置和標(biāo)簽也不同,且沒有現(xiàn)成的程序,因此針對(duì)爬取不同任務(wù)要進(jìn)行編寫程序。要盡可能全面地選取不同方面的題材的語料,例如:新聞、政治、經(jīng)濟(jì)和文化等方面。Step1.2、獲取到的越南語新聞?wù)Z料網(wǎng)頁信息進(jìn)行過濾、去重、去垃圾信息等操作,得到越南語文本級(jí)語料庫,并把越南語文本級(jí)語料庫存放到數(shù)據(jù)庫中,方便下一步分詞工作使用;本發(fā)明考慮到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽、無效字符等噪音,這些噪音是無效的。因此,要通過過濾、去噪音等操作去除,得到只含有越南語的高質(zhì)量的文本級(jí)語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步越南語分詞工作使用。所述步驟Step1.2的具體步驟為:Step1.2.1、對(duì)爬取的網(wǎng)頁信息進(jìn)行有效的過濾,去無效字符和網(wǎng)頁;Step1.2.2、對(duì)得到的有效網(wǎng)頁進(jìn)行去重、去垃圾信息等預(yù)處理操作;Step1.2.3、對(duì)得到的越南語文本級(jí)語料存放在數(shù)據(jù)庫中。考慮到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽等噪音,這些噪音是無效的。因此,要通過過濾、去垃圾信息等操作去除,得到只含有越南語的高質(zhì)量的文本級(jí)語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步使用。Step1.3、從Step1.2數(shù)據(jù)庫中取出越南語文本級(jí)語料,越南語詞與詞之間空格隔開,不能按照空格來進(jìn)行分詞,但是分詞是命名實(shí)體識(shí)別前期基礎(chǔ)工作;因此,根據(jù)越南語分詞工具進(jìn)行越南語文本級(jí)語料庫的語料分詞,并進(jìn)行人工校對(duì),形成越南語分詞句子級(jí)語料庫,并把越南語分詞句子級(jí)語料庫的語料存放到數(shù)據(jù)庫中,方便下一步詞性標(biāo)注工作使用;本發(fā)明中分詞處理過程,是越南語命名實(shí)體識(shí)別工作的前提與基礎(chǔ),是不可缺少的一步,同時(shí)由于越南語的詞是由一個(gè)或者多個(gè)音節(jié)構(gòu)成,不能按照空格對(duì)來確定分詞。使用越南語分詞工具進(jìn)行分詞之后,需要人工校對(duì),考慮到越南語分詞工具不可能正確地切分所有的越南語詞,分詞錯(cuò)誤會(huì)影響到下一步的越南語詞性標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.4、從Step1.3數(shù)據(jù)庫中取出越南語分詞句子級(jí)語料越南語詞的詞性有助于識(shí)別命名實(shí)體,同時(shí)也是命名前期工作不可缺少工作之一;因此根據(jù)越南語詞性標(biāo)注工具對(duì)越南語分詞句子級(jí)語料進(jìn)行越南語句子級(jí)詞性標(biāo)注;考慮到工具分詞不是完全正確和防止錯(cuò)誤向后累積,故再進(jìn)行人工校對(duì),形成越南語句子級(jí)詞性標(biāo)注語料庫,并把越南語句子級(jí)詞性標(biāo)注語料庫的語料存放到數(shù)據(jù)庫中,方便下一步組塊分析工作使用;本發(fā)明中詞性標(biāo)注過程,同時(shí)也是越南語命名實(shí)體識(shí)別工作的前提與基礎(chǔ),是不可缺少的一步,詞性以及上下文信息是本專利最大熵模型中重要的識(shí)別特征,因此需要使用本實(shí)驗(yàn)室詞性標(biāo)注工具進(jìn)行詞性標(biāo)記;考慮到越南語詞性標(biāo)注過程中,困難在于越南語兼類詞的影響和考慮到越南語分詞工具不可能正確地切分所有的越南語詞,詞性標(biāo)注錯(cuò)誤會(huì)影響到下一步的越南語組塊標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,故詞性標(biāo)記之后需要進(jìn)行人工校對(duì);存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.5、從Step1.4數(shù)據(jù)庫中取出越南語句子級(jí)詞性標(biāo)注語料,越南語組塊類型和長度有利于命名實(shí)體識(shí)別,因此再應(yīng)用越南語組塊標(biāo)注工具對(duì)越南語句子級(jí)詞性標(biāo)注語料進(jìn)行越南語句子級(jí)組塊標(biāo)記,考慮到工具分詞不是完全正確和防止錯(cuò)誤向后累積,故再進(jìn)行人工校對(duì),形成越南語句子級(jí)組塊標(biāo)記語料庫,并把越南語句子級(jí)組塊標(biāo)記語料庫的語料存放到數(shù)據(jù)庫中,方便下一步人工標(biāo)記命名實(shí)體語料使用;本發(fā)明中組塊分析與標(biāo)記,同時(shí)也是越南語命名實(shí)體識(shí)別工作的前提與基礎(chǔ),是不可缺少的一步,組塊類型和長度有利于識(shí)別命名實(shí)體邊界和類型,因此,本專利需要使用本實(shí)驗(yàn)室的越南語組塊分析工具進(jìn)行組塊標(biāo)記??紤]到工具分詞不是完全正確和防止錯(cuò)誤向后累積,故進(jìn)行人工校對(duì),形成越南語句子級(jí)組塊標(biāo)記語料庫,存放數(shù)據(jù)庫是為了方便管理數(shù)據(jù)和下一步人工標(biāo)記命名實(shí)體語料使用。Step1.6、從Step1.5數(shù)據(jù)庫中取出越南語句子級(jí)組塊標(biāo)記語料根據(jù)定義的實(shí)體類型,考慮到越南語命名實(shí)體語料缺乏,故再人工標(biāo)記越南語命名實(shí)體語料,形成越南語句子級(jí)命名實(shí)體語料,并把越南語句子級(jí)命名實(shí)體語料存入數(shù)據(jù)庫中,方便下一步形成訓(xùn)練語料工作使用;本發(fā)明過程中標(biāo)記越南語命名實(shí)體句子級(jí)語料,主要考慮目前還沒有公開的越南語命名實(shí)體語料可供使用,且本專利需要大量的訓(xùn)練語料,因此要進(jìn)行人工標(biāo)記,形成一定規(guī)模的訓(xùn)練語料,存放數(shù)據(jù)庫是為了方便數(shù)據(jù)的管理和下一步形成含有實(shí)體特性訓(xùn)練格式的語料做準(zhǔn)備。Step1.7、根據(jù)越南語命名實(shí)體特點(diǎn),并結(jié)合Step1.6步驟取出越南語句子級(jí)命名實(shí)體語料,提取越南語命名實(shí)體有效特征,包括局部特征和全局特征;全局特征包括:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征包括音節(jié)個(gè)數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等;本發(fā)明中根據(jù)越南語言和實(shí)體特點(diǎn),提取出有效的全局特征和局部特征。全局特征:針對(duì)所有的實(shí)體類型,并且滿足所有實(shí)體類型的,主要包括有:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征:實(shí)體類型之間差別較大,各自有各自的特點(diǎn),這樣就可以更大限度區(qū)別實(shí)體類型,有利于實(shí)體類型的識(shí)別,主要包括有音節(jié)個(gè)數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等。所述步驟Step1.7具體步驟為:本文所選取的全局特征,針對(duì)所有的實(shí)體類型進(jìn)行選取的:(1)詞上下文信息特征:本文選取詞以及上下文信息做為本文的特征,詞字符包含豐富形態(tài)信息。(2)詞性上下文信息的特征:本文選取詞性以及上下文作為本文的詞性特征,詞性能夠有效地判斷詞在句子中所起的角色,同時(shí)也影響當(dāng)前詞及周圍詞的大致信息。例如:中,詞性順序?yàn)椤癗NN”構(gòu)成了一個(gè)組織機(jī)構(gòu)名;中“Np”表示人名的名詞;“1//M”其中詞性“M”在識(shí)別數(shù)字時(shí),起到了很明顯的作用;“十億”翻譯為:等等;在越南語的句子中,句子中的動(dòng)詞、形容詞、副詞等等不可能成為實(shí)體的標(biāo)志,這樣可以減小搜索范圍,同時(shí)也降低了識(shí)別錯(cuò)誤率,提高處理效率。因此,本文選取詞性和詞性前后兩個(gè)詞性作為本文的特征。(3)組塊上下文信息特征:用組塊技術(shù)處理命名實(shí)體識(shí)別技術(shù)是可行的,因?yàn)槊~性組塊的定義和命名實(shí)體名稱結(jié)構(gòu)有很強(qiáng)的相似性,所以只考慮越南語的名詞性組塊、時(shí)間組塊、數(shù)詞組塊等來分析越南語的命名實(shí)體識(shí)別問題是可行的,其他類型組塊(形容詞組塊、副詞組塊等)不可能成為實(shí)體,這樣可以減少識(shí)別范圍和模型搜索范圍。本文選取組塊以及上下文信息特征,組塊標(biāo)記能夠有效的幫助識(shí)別實(shí)體的邊界和類型。首先,“阮芳去學(xué)校?!狈g為在句子中是一個(gè)名詞組塊,確定了人名實(shí)體邊界,同時(shí)也確定了名詞組塊的實(shí)體類型;可以確定數(shù)字的類型和數(shù)字的邊界等等;組塊的標(biāo)記有利于命名實(shí)體邊界和類型的識(shí)別,同時(shí)對(duì)組塊的長度可以有效地輔助識(shí)別實(shí)體,組織機(jī)構(gòu)名往往比較長;時(shí)間、數(shù)字、百分號(hào)、人名、地名往往組塊長度較短。因此,本文選取當(dāng)前組塊標(biāo)記、前后兩個(gè)詞的組塊標(biāo)記和組塊長度作為本文的有效特征。本文所選取的局部特征,主要考慮到實(shí)體類型不一樣,所選取的實(shí)體特征不一樣,本文根據(jù)越南語語言特點(diǎn)和實(shí)體特點(diǎn)進(jìn)行選取各種實(shí)體類型特征:(1)詞素個(gè)數(shù)信息特征:本文選取詞素個(gè)數(shù)信息作為本文的有效特征,本特征主要針對(duì)越南語人名選取的特征,如表1所示。表1越南人名詞素個(gè)數(shù)比例據(jù)整理與收集的數(shù)據(jù)統(tǒng)計(jì)分析,越南語的人名主要以2,3,4個(gè)詞素組成。主要受墊字影響,墊字可以省略也可以不省略,比如“Tình”,等等。對(duì)于其它越南語的構(gòu)詞,主要是1個(gè)詞素和2個(gè)詞素為主,其它詞素的個(gè)數(shù)比例很小,而人名的詞素個(gè)數(shù)主要集中在3,2,4為主,因此,越南語詞素的個(gè)數(shù)對(duì)于越南語的識(shí)別是有效的,本文選取當(dāng)前詞詞素個(gè)數(shù)作為本文的有效特征,其他詞素個(gè)數(shù)不再考慮。(2)指示詞信息特征:本文選取指示詞作為本文的有效的特征。指示詞能為實(shí)體識(shí)別提供一定的啟發(fā)信息,此特征已廣泛應(yīng)用于英文和中文的命名實(shí)體當(dāng)中,指示詞往往與實(shí)體緊挨。比如指示詞“公司”“學(xué)?!薄按髮W(xué)”“先生”“夫人”(bà),“叔叔”(bác),省縣到去在等等;在識(shí)別百分比時(shí)可以用“%”作為指示詞特征,識(shí)別時(shí)間時(shí)可以用“年”,“月”,“日”等做為指示詞。因此,本文選取指示詞作為有效特征。(3)首詞素是否存在姓氏庫信息特征:本文選取首音節(jié)是否在姓氏庫中存在來判斷該越南語詞是否是人名實(shí)體,越南語人名和中文人名一樣,首音節(jié)是姓氏,很有可能構(gòu)成的是人名。本文統(tǒng)計(jì)了越南語的人名姓氏庫,判斷第一個(gè)詞素是否存在在姓氏庫中,這樣可以減小判斷范圍,有利于越南語人名的識(shí)別。(4)首字母是否為大寫信息特征:本文選取越南語詞中第一個(gè)詞素的首字母是否大寫,在越南語正式的書寫中人名和地名的首字母是大寫。因此本文選取首字母是否為大寫來區(qū)別實(shí)體詞語非實(shí)體詞。例如:“北京市”翻譯成“福建省”翻譯成人名中等等,因此,該特征可以作為本文的特征。(5)其它詞素的首字母是否為大寫信息特征:本文選取除了首字母以外,其他音節(jié)第一個(gè)字母是否大寫,因?yàn)閷?duì)于人名和地名來說,每個(gè)音節(jié)的首字母都是大寫,而對(duì)于組織機(jī)構(gòu)名和時(shí)間來說并非全部大寫。例如:組織機(jī)構(gòu)名中的詞素的首字母為小寫;地名中所有的詞素為大寫;人名中所有的詞素的首字母均為大寫。(6)外來詞信息特征:本文針對(duì)于非漢越地名選取“-”作為本文特征。對(duì)越南語地名的統(tǒng)計(jì)分析發(fā)現(xiàn),除了漢越地名外,其他地名在拼寫時(shí)會(huì)出現(xiàn)“-”,例如。因此本文根據(jù)當(dāng)前詞中是否含有“-”,進(jìn)行判斷是否是非漢越詞。(7)命名實(shí)體字典信息特征:其目的在于有效利用越南語命名實(shí)體的相關(guān)字典信息,從而彌補(bǔ)訓(xùn)練語料資源受限的不足。其中人名字典分為“越南語姓氏表”、“越南語人名用字表”、“越南語墊字用字表”;地名詞典涉及到“常用地名表”和“縮寫地名表”;組織機(jī)構(gòu)名字典涉及到“常用機(jī)構(gòu)名表”和“縮寫機(jī)構(gòu)名表”;時(shí)間字典表涉及到“常用時(shí)間表達(dá)方式表”。此優(yōu)選方案設(shè)計(jì)是本專利的核心內(nèi)容之一,主要根據(jù)越南語言和實(shí)體特點(diǎn)進(jìn)行選取有效的識(shí)別特征(局部特征和全局特征),有效地挖掘了各實(shí)體的特點(diǎn),為本專利的下一步制定模型訓(xùn)練所需格式提供前提基礎(chǔ)。Step1.8、根據(jù)Step1.7中已選取的越南語命名實(shí)體有效特征,結(jié)合從Step1.6中取出的越南語句子級(jí)命名實(shí)體語料,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式;其中,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式時(shí),采用人工把取出的越南語句子級(jí)命名實(shí)體語料標(biāo)注標(biāo)注成列的格式形成訓(xùn)練格式;本發(fā)明中使用最大熵的統(tǒng)計(jì)分析方法,對(duì)于不同的機(jī)器學(xué)習(xí)方法,訓(xùn)練語料格式不一樣,因此,本文將選取的最大熵訓(xùn)練語料結(jié)合所選取的越南語命名實(shí)體特征,生成最大熵模型訓(xùn)練時(shí)所需要的語料格式。Step1.9、從Step1.8中獲取已標(biāo)注好的訓(xùn)練格式語料,使用最大熵統(tǒng)計(jì)方法進(jìn)行分析,生成越南語最大熵命名實(shí)體識(shí)別模型。此優(yōu)選方案設(shè)計(jì)是本專利的重要組成部分,主要結(jié)合越南語實(shí)體特性,生成基于最大熵的越南語命名實(shí)體識(shí)別模型。主要包括語料的預(yù)處理過程;越南語語料進(jìn)行分詞、詞性標(biāo)注、組塊標(biāo)注和人工標(biāo)記越南語命名實(shí)體語料,根據(jù)越南語言和實(shí)體特點(diǎn),選取有效的識(shí)別特征(局部特征和全局特征);根據(jù)已標(biāo)記的語料和選取的有效特征,生成模型訓(xùn)練時(shí)所需要的樣式;使用最大熵統(tǒng)計(jì)分析方法進(jìn)行建模。實(shí)施例3:如圖1-2所示,融合實(shí)體特性的越南語命名實(shí)體識(shí)別方法,本實(shí)施例與實(shí)施例2相同,其中:作為本發(fā)明的優(yōu)選技術(shù)方案,所述步驟Step2的具體步驟為:Step2.1、隨機(jī)選取越南語句子級(jí)命名實(shí)體語料,得到越南語句子級(jí)命名實(shí)體測試語料;本發(fā)明中要對(duì)已構(gòu)建的融合實(shí)體特性的越南語最大熵命名實(shí)體模型進(jìn)行測試,考查該模型的性能。測試需要測試語料,且來源于數(shù)據(jù)庫中已人工標(biāo)記好的越南語句子級(jí)命名實(shí)體語料,為了盡可能保證數(shù)據(jù)的準(zhǔn)確性,盡量測試語料不包括在訓(xùn)練語料中。Step2.2、根據(jù)獲得的越南語句子級(jí)的命名實(shí)體測試語料,經(jīng)過已建好的越南語最大熵命名實(shí)體識(shí)別模型進(jìn)行標(biāo)注,得到越南語句子級(jí)命名實(shí)體標(biāo)注序列化標(biāo)記結(jié)果。本發(fā)明中使用最大熵統(tǒng)計(jì)分析方法對(duì)已獲取的測試語料進(jìn)行測試,生成測試語料標(biāo)記結(jié)果,將識(shí)別的結(jié)果與正確結(jié)果進(jìn)行比較。此優(yōu)選方案設(shè)計(jì)是對(duì)生成的模型的進(jìn)行測試其性能的好壞以及通過測試比較每個(gè)特征對(duì)模型的貢獻(xiàn),為以后的研究提供一定的依據(jù)。本實(shí)施例構(gòu)建了規(guī)模為140392詞的越南語句子級(jí)命名實(shí)體語料庫,為本專利模型的構(gòu)建與測試提供了語料的支撐;從構(gòu)建好的越南語句子級(jí)命名實(shí)體語料中取出部分做為測試語料;這些待測試的命名實(shí)體識(shí)別最好是沒有包含在最大熵模型中所需要的基本特征模板訓(xùn)練樣式的訓(xùn)練語料當(dāng)中,這樣為了測試該模型的準(zhǔn)確性;為了驗(yàn)證本發(fā)明識(shí)別出來的命名實(shí)體的效果,將采用統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn):正確率(Precision)、召回率(Recall)、F值做為本發(fā)明的評(píng)價(jià)標(biāo)準(zhǔn),衡量本發(fā)明的性能。F=2*P*RP+R]]>本發(fā)明為了驗(yàn)證該發(fā)明的的有效性、可行性設(shè)計(jì)以下幾組實(shí)驗(yàn)進(jìn)行驗(yàn)證:實(shí)驗(yàn)一:為了證明本文發(fā)明方法的效果與現(xiàn)有的條件隨機(jī)場方法(CRFs)進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表所示。表2方法對(duì)比方法正確率召回率F值CRFs(條件隨機(jī)場)84.84%83.73%84.27%ME(最大熵)88.35%86.69%87.51%表2中可以看出,本發(fā)明的方法的效果明顯高于現(xiàn)有的條件隨機(jī)場方法效果,主要由于現(xiàn)有的條件隨機(jī)場方法所選的有效特征有限,未能挖掘更多有效的識(shí)別特征。實(shí)驗(yàn)二:為了驗(yàn)證全局變量和局部變量對(duì)于最大熵模型的貢獻(xiàn)度,用準(zhǔn)確率進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果如下表所示。表3特征貢獻(xiàn)度對(duì)比特征準(zhǔn)確率局部特征85.32%全局特征84.45%表3中可以看出,全局特征針對(duì)所有類型的實(shí)體識(shí)別,沒有針對(duì)性,而其中現(xiàn)有的條件隨機(jī)場方法就是采用全局特征進(jìn)行實(shí)體識(shí)別的,而本發(fā)明的最大熵方法中采用了全局特征、局部特征,且局部特征準(zhǔn)確率比全局高,主要因?yàn)榫植刻卣鞲芫唧w表征各實(shí)體的特點(diǎn),因此,本發(fā)明的實(shí)體識(shí)別效果更佳,能夠更好識(shí)別越南語復(fù)雜實(shí)體。上面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作了詳細(xì)說明,但是本發(fā)明并不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1