亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

訓(xùn)練命名實體識別模型的方法、命名實體識別方法及裝置的制造方法

文檔序號:8299015閱讀:383來源:國知局
訓(xùn)練命名實體識別模型的方法、命名實體識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種訓(xùn)練命名實體識別模型的方 法、命名實體識別方法和裝置。
【背景技術(shù)】
[0002] 命名實體(例如人名,地名,組織機(jī)構(gòu)名稱,特定意義的網(wǎng)絡(luò)詞匯等)識別是 自然語言理解的一個重要組成部分,因此,建立并維護(hù)命名實體庫是眾多自然語言處理 (NaturalLanguageProcessing,NLP)領(lǐng)域應(yīng)用(例如搜索系統(tǒng),機(jī)器翻譯系統(tǒng)等)的核 心之一。例如,如果搜索引擎能夠借助命名實體庫,識別出用戶的搜索詞"萬萬沒想到"是 一個網(wǎng)絡(luò)影視劇的名稱,那就可以給用戶返回更精確的搜索結(jié)果。
[0003] 在現(xiàn)有技術(shù)中,一般采用以下兩種命名實體識別方法。一種方法是從搜索引擎的 查詢?nèi)罩井?dāng)中用基于規(guī)則的方法來挖掘命名實體。具體的,將近期用戶輸入的搜索詞與以 往用戶的搜索詞進(jìn)行比較。如果發(fā)現(xiàn)是新的搜索詞,則通過所設(shè)計的基于搜索詞的增長量 以及與以往搜索詞的相似度概率公式來給出新的搜索詞是命名實體的概率,并將概率超過 一定閾值的搜索詞識別為命名實體。這種方法雖然能夠準(zhǔn)確的識別出互聯(lián)網(wǎng)上新出現(xiàn)的命 名實體,但是所述方法的實現(xiàn)依賴于查詢?nèi)罩镜臄?shù)據(jù),且自用戶使用搜索詞進(jìn)行搜索到所 述搜索詞被識別為命名實體延遲,影響用戶的查詢體驗。
[0004] 另一種方法是從預(yù)先標(biāo)注過的訓(xùn)練語料(人工標(biāo)注出一組文本數(shù)據(jù)中的命名實 體)中,用統(tǒng)計的方法建立隱馬爾科夫假設(shè),然后利用該模型來從大量的文本數(shù)據(jù)中標(biāo)注 出新的命名實體。此方法雖然在小規(guī)模數(shù)據(jù)上能夠取得不錯的效果,但因其依賴于馬爾科 夫假設(shè)(當(dāng)前詞是否為某個命名實體的一部分,依賴于其前面的固定數(shù)量(一般為2)的 詞),導(dǎo)致該模型缺少泛化能力,在大規(guī)模數(shù)據(jù)上的識別精度不高。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例的目的在于,提供一種訓(xùn)練命名實體識別模型的方法、命名實體識 別方法和裝置,能夠快速、自動地識別出自然語言文本中的命名實體,且提高命名實體的識 別精確度。
[0006] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明的實施例提供了 一種用于訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)命名實體識別模型的方法,包括:獲取多個標(biāo)注的樣本數(shù)據(jù),每個所述樣本數(shù)據(jù)包括 文本串及其多個分詞標(biāo)注數(shù)據(jù),所述分詞標(biāo)注數(shù)據(jù)包括從所述文本串中分出的分詞及其在 所述文本串中的命名實體屬性標(biāo)志;將所述多個標(biāo)注的樣本數(shù)據(jù)中的分詞映射為詞向量, 以所述樣本數(shù)據(jù)作為訓(xùn)練樣本,對RNN命名實體識別模型進(jìn)行訓(xùn)練,以學(xué)習(xí)所述RNN命名實 體識別模型的參數(shù)。
[0007] 本發(fā)明實施例還提供了一種用于訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)命名實體識別模型的 裝置,包括:樣本數(shù)據(jù)獲取模塊,用于獲取多個標(biāo)注的樣本數(shù)據(jù),每個所述樣本數(shù)據(jù)包括文 本串及其多個分詞標(biāo)注數(shù)據(jù),所述分詞標(biāo)注數(shù)據(jù)包括從所述文本串中分出的分詞及其在所 述文本串中的命名實體屬性標(biāo)志;參數(shù)學(xué)習(xí)模塊,用于將所述多個標(biāo)注的樣本數(shù)據(jù)中的分 詞映射為詞向量,以所述樣本數(shù)據(jù)作為訓(xùn)練樣本,對RNN命名實體識別模型進(jìn)行訓(xùn)練,以學(xué) 習(xí)所述RNN命名實體識別模型的參數(shù)。
[0008]本發(fā)明實施例還提供了一種命名實體的識別方法,包括:獲取文本串;對所述文 本串進(jìn)行分詞處理得到多個分詞;通過根據(jù)權(quán)利要求5所述的方法訓(xùn)練得到的RNN命名實 體識別模型分別獲取所述分詞對應(yīng)的概率最大的命名實體屬性標(biāo)志;根據(jù)所述分詞對應(yīng)的 概率最大的命名實體屬性標(biāo)志對所述文本串進(jìn)行識別得到命名實體。
[0009]本發(fā)明實施例還提供了一種命名實體的識別裝置,包括:文本串獲取模塊,用于獲 取文本串;文本串分詞模塊,用于對所述文本串進(jìn)行分詞處理得到多個分詞;命名實體屬 性標(biāo)志獲取模塊,用于通過根據(jù)權(quán)利要求17所述的裝置訓(xùn)練得到的RNN命名實體識別模型 分別獲取所述分詞對應(yīng)的概率最大的命名實體屬性標(biāo)志;命名實體識別模塊,用于根據(jù)所 述分詞對應(yīng)的概率最大的命名實體屬性標(biāo)志對所述文本串進(jìn)行識別得到命名實體。
[0010] 本發(fā)明實施例提供的訓(xùn)練命名實體識別模型的方法、命名實體識別方法和裝置, 通過獲取多個標(biāo)注的樣本數(shù)據(jù),并將多個標(biāo)注的樣本數(shù)據(jù)中的分詞映射為詞向量,以所述 樣本數(shù)據(jù)作為訓(xùn)練樣本,對RNN命名實體識別模型進(jìn)行訓(xùn)練,以學(xué)習(xí)所述RNN命名實體識別 模型的參數(shù)。與現(xiàn)有技術(shù)相比,無需依賴于查詢?nèi)罩竞碗[馬爾科夫假設(shè),該模型具有更好的 泛化能力,能夠自動、快速地識別出自然語言文本中的命名實體,提高了命名實體的識別精 確度。
【附圖說明】
[0011] 圖1是示出本發(fā)明實施例的基本原理框圖;
[0012] 圖2是示出本發(fā)明實施例一的用于訓(xùn)練RNN命名實體識別模型的方法的流程圖;
[0013] 圖3是示出本發(fā)明實施例一的RNN命名實體識別模型的示例性示意圖;
[0014] 圖4是示出本發(fā)明實施例二的命名實體的識別方法的流程圖;
[0015] 圖5是示出本發(fā)明實施例三的用于訓(xùn)練RNN命名實體識別模型的裝置的邏輯框 圖;
[0016] 圖6是示出本發(fā)明實施例四的命名實體的識別裝置的邏輯框圖。
【具體實施方式】
[0017]本發(fā)明的基本構(gòu)思是,獲取多個標(biāo)注的樣本數(shù)據(jù),并將所述多個標(biāo)注的樣本數(shù)據(jù) 中的分詞映射為詞向量,以所述樣本數(shù)據(jù)作為訓(xùn)練樣本,對RNN命名實體識別模型進(jìn)行訓(xùn) 練,以學(xué)習(xí)所述RNN命名實體識別模型的參數(shù)。另一方面,以獲取到的文本串中每個分詞作 為輸入,通過經(jīng)過訓(xùn)練的命名實體識別模型獲取所述分詞對應(yīng)的命名實體屬性標(biāo)志,最終 能夠根據(jù)所述分詞對應(yīng)的命名實體屬性標(biāo)志,對文本串進(jìn)行識別得到命名實體,該模型具 有更好的泛化能力,使得命名實體的識別速度更快,且提高了命名實體的識別精確度。
[0018] 圖1為本發(fā)明實施例的基本原理框圖。參照圖1,本發(fā)明中,首先需獲取訓(xùn)練樣本, 具體的,可通過啟發(fā)式規(guī)則對文本串進(jìn)行處理得到弱標(biāo)注的樣本數(shù)據(jù)(預(yù)先標(biāo)注了命名實 體的文本)作為訓(xùn)練樣本,從而可自動地獲取樣本數(shù)據(jù),當(dāng)然也可通過例如手工標(biāo)注的方 式獲取訓(xùn)練樣本。其次,利用該訓(xùn)練樣本對RNN命名實體識別模型進(jìn)行訓(xùn)練,以學(xué)習(xí)出RNN 命名實體識別模型的參數(shù),也就是利用所設(shè)計的訓(xùn)練算法對建立的RNN命名實體識別模型 進(jìn)行訓(xùn)練,得到RNN命名實體識別模型的參數(shù)。最后,獲取待識別的文本串,利用這些參數(shù) 可以獲取所述待識別的文本串當(dāng)中的分詞對應(yīng)的概率最大的命名實體屬性標(biāo)志,由分詞對 應(yīng)的概率最大的命名實體屬性標(biāo)志就可對文本串進(jìn)行識別,最終得到命名實體。
[0019] 通過上述過程可以從大規(guī)模的自然語言文本內(nèi)容(例如VIP網(wǎng)頁庫,論壇帖子等) 當(dāng)中,標(biāo)注出大量的命名實體,為了能夠保證命名實體的準(zhǔn)確性,也可通過簡單的統(tǒng)計被標(biāo) 注為命名實體的短語(一個或多個詞組成)的數(shù)量,然后設(shè)定一個閾值,如果某個被標(biāo)注 為命名實體的詞的詞頻(詞頻是指某一個給定的詞語在所處文件中出現(xiàn)的次數(shù))超過該 閾值,則將被作為新的命名實體,從而得到自動挖掘出的命名實體庫,主要用于例如搜索引 擎,機(jī)器翻譯等NLP領(lǐng)域的應(yīng)用。
[0020] 下面結(jié)合附圖對本發(fā)明實施例一種用于訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)命名實體識別模型的 方法、命名實體識別方法和裝置進(jìn)行詳細(xì)描述。
[0021] 實施例一
[0022] 圖2是示出本發(fā)明實施例一的用于訓(xùn)練RNN命名實體識別模型的方法的流程圖。 所述RNN命名實體識別模型用于識別文本中的命名實體。
[0023] 參照圖2,在步驟S110,獲取多個標(biāo)注的樣本數(shù)據(jù),每個所述樣本數(shù)據(jù)包括文本串 及其多個分詞標(biāo)注數(shù)據(jù),所述分詞標(biāo)注數(shù)據(jù)包括從所述文本串中分出的分詞及其在所述文 本串中的命名實體屬性標(biāo)志。
[0024] 具體的,根據(jù)本發(fā)明的構(gòu)思,所述分詞在所述文本串中的命名實體屬性標(biāo)志包括 所述分詞是否屬于命名實體的信息。
[0025] 此外,所述分詞在所述文本串中的命名實體屬性標(biāo)志可還包括所述分詞在其所屬 命名實體中的位置標(biāo)注。
[0026] 例如,所述分詞在所述文本串中的命名實體屬性標(biāo)志可包括命名實體的起始標(biāo) 志、命名實體的延續(xù)標(biāo)志和非命名實體標(biāo)志。例如,分詞在所述文本串中的命名實體屬性標(biāo) 志為是否某個命名實體的起始(例B),是否某個命名實體的一部分(例I),或者這個詞不 是任何的命名實體(例〇),從而能夠得到一個文本串當(dāng)中的所有的實體詞的命名實體屬性 標(biāo)志。需要說明的是,標(biāo)志B含義是Begin,表示某種類型的命名實體的開始,標(biāo)志I含義是 In,表示為某個命名實體的延續(xù),標(biāo)志0含義為Out,表示該詞不是命名實體詞。
[0027] 優(yōu)選地,所述分詞在所述文本串中的命名實體屬性標(biāo)志還可包括所述分詞所屬的 命名實體的類型。這里,命名實體的類型可包括,但不限于,人名、地名、組織結(jié)構(gòu)名、影視劇 名、書名或特定意義的網(wǎng)絡(luò)詞匯。例如,分詞在所述文本串中的命名實體屬性標(biāo)志為是否 某個命名實體的起始(例B-DRAMA),是否某個命名實體的一部分(例I-DRAMA),或者這個 詞不是任何的命名實體(例0),DRA
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1