專利名稱:一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從輸入的符號(hào)序列中識(shí)別某類成分的技術(shù),其特別涉及基于語(yǔ)素屬性標(biāo)注的自然語(yǔ)言語(yǔ)法或語(yǔ)義成分的識(shí)別技術(shù)以及基因組序列分析的技術(shù),具體的講是一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法。
背景技術(shù):
語(yǔ)言是一種符號(hào)系統(tǒng),語(yǔ)法系統(tǒng)里的基本符號(hào)是語(yǔ)素。自然語(yǔ)言雖然表面上看來(lái)只是語(yǔ)素的線性序列,但實(shí)際上具有一定的層次結(jié)構(gòu),即由語(yǔ)素構(gòu)成高一級(jí)的成份,再由高一級(jí)成份構(gòu)成更高級(jí)的成份,最終形成層次結(jié)構(gòu)。識(shí)別輸入句子包含的語(yǔ)法或語(yǔ)義成分及成分間的關(guān)系是自然語(yǔ)言處理的首要任務(wù)。關(guān)于這方面的研究已發(fā)表多篇論文和專利,例如中國(guó)專利,授權(quán)公告號(hào)CN1107276C,發(fā)明人陳肇雄,黃河燕,提供了一種全自動(dòng)漢語(yǔ)分析系統(tǒng);中國(guó)專利申請(qǐng),公開(kāi)號(hào)CN1471024A,發(fā)明人陳桂林,陳芳,申請(qǐng)人摩托羅拉公司,公開(kāi)了一種中文分詞方法;以及參考文獻(xiàn)[1]~[7]所公開(kāi)的相關(guān)內(nèi)容。
上述現(xiàn)有技術(shù)所提供的這些方法都以詞匯或短語(yǔ)作為研究的最小單位,而并未對(duì)詞匯以下的語(yǔ)言單位進(jìn)行研究和分析。實(shí)際上,在某些語(yǔ)言體系中,詞匯并非最小的有意義的語(yǔ)言單位,因此對(duì)這類語(yǔ)言而言,基于語(yǔ)素而不是基于詞匯研究語(yǔ)法或語(yǔ)義成分的構(gòu)成規(guī)律和成分間的關(guān)系更能揭示語(yǔ)法體系的本質(zhì),獲得更好的語(yǔ)法分析效果。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法,用以從輸入的漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因組等符號(hào)序列中識(shí)別出需要的語(yǔ)言成分或遺傳因子等符號(hào)組,并標(biāo)注出識(shí)別成分的分類屬性。從而解決諸如漢語(yǔ)的未登錄詞等問(wèn)題。
本發(fā)明的技術(shù)方案為一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別裝置,包括輸入部,用于輸入待分析符號(hào)序列;語(yǔ)素學(xué)習(xí)部,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;語(yǔ)素屬性標(biāo)注部,用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
所述的語(yǔ)素學(xué)習(xí)部進(jìn)一步包括語(yǔ)素屬性生成單元,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集,用語(yǔ)素屬性表示自然語(yǔ)言成分及其分類信息;語(yǔ)素屬性轉(zhuǎn)換單元,用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本;語(yǔ)素標(biāo)注知識(shí)抽取單元,用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí);所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列。
所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性集存儲(chǔ)單元,用于存儲(chǔ)所述的語(yǔ)素屬性集;語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元,用于存儲(chǔ)所述的語(yǔ)素屬性標(biāo)注知識(shí);語(yǔ)言知識(shí)抽取單元,用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分,生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源;語(yǔ)言資源和知識(shí)存儲(chǔ)單元,用于存儲(chǔ)所述的語(yǔ)言資源,以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí);所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;所述的分析成分合成部,根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
所述的語(yǔ)素屬性標(biāo)注部進(jìn)一步包括可能語(yǔ)素標(biāo)注生成單元,采用語(yǔ)素屬性標(biāo)注知識(shí)生成語(yǔ)素標(biāo)注候選;錯(cuò)誤候選剔除單元,采用語(yǔ)素、以及比語(yǔ)素高級(jí)的語(yǔ)言成分等各種層次的語(yǔ)言資源與知識(shí)對(duì)語(yǔ)素屬性候選進(jìn)行篩選,去除不合法的語(yǔ)素屬性候選,實(shí)現(xiàn)對(duì)所述的可能語(yǔ)素標(biāo)注生成單元傳來(lái)的語(yǔ)素標(biāo)注候選的錯(cuò)誤過(guò)濾;最優(yōu)標(biāo)注結(jié)果選擇單元,生成待分析符號(hào)序列的最優(yōu)語(yǔ)素屬性標(biāo)注序列,實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的語(yǔ)素屬性候選的最優(yōu)化處理。
所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
所述的輸入的待分析符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
本發(fā)明還提供了一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正裝置,包括輸入部,用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列;語(yǔ)素學(xué)習(xí)部,用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;錯(cuò)誤位置發(fā)現(xiàn)部,用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查,發(fā)現(xiàn)錯(cuò)誤的位置;語(yǔ)素屬性標(biāo)注部,用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
本發(fā)明還提供了一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別裝置,包括輸入部,用于輸入待分析漢語(yǔ)文本序列;字屬性學(xué)習(xí)部,用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性,并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律;字屬性標(biāo)注部,用于根據(jù)所述字屬性學(xué)習(xí)部學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;詞及詞性標(biāo)注合成部,用于從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記,生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果;輸出部,用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
本發(fā)明還提供了一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別方法,其包括輸入步驟,用于輸入待分析符號(hào)序列;語(yǔ)素學(xué)習(xí)步驟,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;語(yǔ)素屬性標(biāo)注步驟,用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成步驟,用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出步驟,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
本發(fā)明還提供了一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正方法,其包括輸入步驟,用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列;語(yǔ)素學(xué)習(xí)步驟,用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;錯(cuò)誤位置發(fā)現(xiàn)步驟,用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查,發(fā)現(xiàn)錯(cuò)誤的位置;語(yǔ)素屬性標(biāo)注步驟,用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成步驟,用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出步驟,用于輸出所述分析成分合成步驟的識(shí)別結(jié)果。
本發(fā)明還提供了一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別方法,其包括輸入步驟,用于輸入待分析漢語(yǔ)文本序列;字屬性學(xué)習(xí)步驟,用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性,并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律;字屬性標(biāo)注步驟,用于根據(jù)所述字屬性學(xué)習(xí)步驟學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;詞及詞性標(biāo)注合成步驟,用于從所述字屬性標(biāo)注步驟生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記,生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果;輸出步驟,用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
本發(fā)明的有益效果在于,基于語(yǔ)素研究語(yǔ)言成分的構(gòu)成規(guī)律,并對(duì)該語(yǔ)言成分進(jìn)行識(shí)別。本發(fā)明首先根據(jù)待分析語(yǔ)言成分的屬性信息和語(yǔ)素在該語(yǔ)言成分中的位置關(guān)系構(gòu)建語(yǔ)素的屬性標(biāo)注集,然后從語(yǔ)言成分的標(biāo)注樣本中習(xí)得語(yǔ)素與語(yǔ)素屬性的關(guān)系規(guī)律。通過(guò)習(xí)得的語(yǔ)素屬性標(biāo)注規(guī)律,對(duì)輸入文本進(jìn)行語(yǔ)素屬性標(biāo)注,從語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的語(yǔ)言成分及該成分的分類標(biāo)記。本發(fā)明可以作為一個(gè)獨(dú)立的語(yǔ)法或語(yǔ)義成分識(shí)別系統(tǒng)對(duì)中文、日文等自然語(yǔ)言中的詞、詞性、短語(yǔ)及短語(yǔ)屬性進(jìn)行識(shí)別。同時(shí)也可以與其它語(yǔ)言成分識(shí)別系統(tǒng)結(jié)合,對(duì)其它識(shí)別系統(tǒng)輸出的結(jié)果進(jìn)行再分析,提高原有系統(tǒng)的分析精度。另外,本發(fā)明提出的方法也可用于對(duì)基因組序列分析或類似的從輸入符號(hào)序列中識(shí)別某類成分的任務(wù)中。本發(fā)明尤其適合解決漢語(yǔ)的分詞和詞性標(biāo)注問(wèn)題,根據(jù)本發(fā)明實(shí)現(xiàn)的漢語(yǔ)詞法分析系統(tǒng)獲得了良好的分析效果。
圖1、基于語(yǔ)素的自然語(yǔ)言語(yǔ)法成分分析裝置基本結(jié)構(gòu)圖;圖2、基于語(yǔ)素的自然語(yǔ)言語(yǔ)法成分分析裝置具體實(shí)施結(jié)構(gòu)圖;圖3、語(yǔ)素屬性標(biāo)注部?jī)?nèi)部結(jié)構(gòu)圖;圖4、基于語(yǔ)素屬性標(biāo)注的語(yǔ)言成分識(shí)別后處理結(jié)構(gòu)圖;圖5、基于字屬性標(biāo)注的漢語(yǔ)詞法分析裝置結(jié)構(gòu)圖;圖6、字屬性標(biāo)注裝置內(nèi)部結(jié)構(gòu)圖;圖7、漢字序列“小明明天”的可能字屬性候選圖;圖8、漢字序列“小明明天將就BASIC程序錯(cuò)誤進(jìn)行分析”的最終字屬性標(biāo)注候選圖;圖9、最優(yōu)字屬性標(biāo)注鏈圖;圖10、“小明明天將就Basic程序錯(cuò)誤進(jìn)行分析”的分詞候選圖;圖11、基于字屬性標(biāo)注合成的分詞和詞性標(biāo)注結(jié)果圖。
具體實(shí)施例方式
下面結(jié)合
本發(fā)明的具體實(shí)施方式
。首先給出本發(fā)明中語(yǔ)素、語(yǔ)素屬性集和語(yǔ)素屬性標(biāo)注定義定義1語(yǔ)素語(yǔ)言的最小的有意義的成分。
定義2語(yǔ)素組由語(yǔ)素構(gòu)成的上級(jí)語(yǔ)法或語(yǔ)義成分,語(yǔ)素組的屬性為其代表的語(yǔ)言成分的語(yǔ)法或語(yǔ)義分類信息。
定義3語(yǔ)言成分分析從輸入句子中自動(dòng)識(shí)別出需要的語(yǔ)素組、及該語(yǔ)素組的屬性。
給定符號(hào)序列S,包含為n個(gè)語(yǔ)素,則該句子可表示為c1c2…cn-1cn,設(shè)序列包含k個(gè)語(yǔ)言成分,其對(duì)應(yīng)的屬性分別為t1~tk,則S的語(yǔ)言成分分析結(jié)果可以表示為如下形式S′[c1…cl1]t1[ci1+1…ci2]t2…[cik-1+1…cn]tk,其中[c1…cl1]為句子的第一個(gè)語(yǔ)素組,語(yǔ)素組屬性為t1,[cik-1+1…cn]為句子的最后一個(gè)語(yǔ)素組,語(yǔ)素組屬性為tk。根據(jù)上述表示形式,給出下面三個(gè)定義定義4語(yǔ)素位置屬性表示語(yǔ)素在語(yǔ)素組中的可能出現(xiàn)的位置。語(yǔ)素在語(yǔ)言成分中可出現(xiàn)于五種位置該語(yǔ)素本身單獨(dú)構(gòu)成語(yǔ)素組;該語(yǔ)素為所構(gòu)成語(yǔ)素組的第一個(gè)語(yǔ)素;該語(yǔ)素在語(yǔ)素組中間;該語(yǔ)素為語(yǔ)素組的最后一個(gè);該語(yǔ)素不構(gòu)成需要的語(yǔ)素組。此處我們用符號(hào)S,F(xiàn),M,L,U表示,分別代表單語(yǔ)素語(yǔ)素組、首位語(yǔ)素、中間語(yǔ)素、末位語(yǔ)素和非語(yǔ)素組語(yǔ)素。
定義5語(yǔ)素屬性為語(yǔ)素的位置屬性和語(yǔ)素組屬性的組合,表示從語(yǔ)素到語(yǔ)素組的構(gòu)成規(guī)律。語(yǔ)素屬性集={tp|tp∈{t×p}_{U}},其中t∈{語(yǔ)素組屬性},p∈{S,F(xiàn),M,L} 。
定義6語(yǔ)素屬性標(biāo)注給定輸入句子,對(duì)句子中的每一個(gè)語(yǔ)素給出一個(gè)語(yǔ)素屬性標(biāo)記的過(guò)程。如上述句子,使用語(yǔ)素屬性標(biāo)記可表示為S″c1/tp1c2/tp2…cn-1/tpn-1cn/tpn。
以漢語(yǔ)例,其中字為漢語(yǔ)語(yǔ)素,待分析成分為詞時(shí)給定句子S,包含為n個(gè)字,表示為c1c2…cn-1cn,設(shè)句子包含k個(gè)單詞,詞性分別為t1~tk,則S的詞性標(biāo)注結(jié)果可表示為[c1…cl1]tl[cil+1…ci2]t2…[cik-1+1…cn]tk,其中[c1…cl1]為句子的第一個(gè)語(yǔ)素組,詞性為t1,[cik-1+1…cn]為句子的最后一個(gè)語(yǔ)素組,詞性為tk。
如圖1所示,為本發(fā)明的一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別裝置,包括輸入部,用于輸入待分析符號(hào)序列;語(yǔ)素學(xué)習(xí)部,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待分析自然語(yǔ)言成分的標(biāo)注樣本中自動(dòng)學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;語(yǔ)素屬性標(biāo)注部,用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
所述的輸入部可以是計(jì)算機(jī),通過(guò)計(jì)算機(jī)的鍵盤(pán)將所述的待分析符號(hào)序列輸入。也可以通過(guò)網(wǎng)絡(luò)(例如局域網(wǎng)及互聯(lián)網(wǎng))將待分析符號(hào)序列輸入所述的輸入部。在該情況下,輸入部也可以為采用網(wǎng)絡(luò)接口的結(jié)構(gòu)。另外,也可以從掃描儀、存儲(chǔ)裝置(例如硬盤(pán)驅(qū)動(dòng)裝置)等將待分析符號(hào)序列輸入所述的輸入部。在該情況下,輸入部可以為根據(jù)將存儲(chǔ)裝置等和本發(fā)明系統(tǒng)的輸入部連接為可進(jìn)行數(shù)據(jù)通信的規(guī)格〔例如USB(Universal Serial Bus)等有線連接及blue tooth等的無(wú)線連接的規(guī)格〕的結(jié)構(gòu)。另外,也可以將存儲(chǔ)介質(zhì)〔例如各種閃存存儲(chǔ)器及軟盤(pán)(注冊(cè)商標(biāo))、CD(Compact Disk)、DVD(Digital Versatile Disc、Digital Video Disc)〕所存儲(chǔ)的待分析符號(hào)序列輸入到所述的輸入部。在該情況下,輸入部可以為采用從存儲(chǔ)介質(zhì)中讀出數(shù)據(jù)的裝置(例如閃存存儲(chǔ)器讀出器及軟盤(pán)驅(qū)動(dòng)裝置、CD驅(qū)動(dòng)裝置、DVD驅(qū)動(dòng)裝置)的結(jié)構(gòu)。
另外,輸入部也可以為適合上述多種情況的結(jié)構(gòu)。
所述的輸出部可以通過(guò)網(wǎng)絡(luò)將所述分析成分合成部的識(shí)別結(jié)果輸出。在該情況下,輸出部為采用網(wǎng)絡(luò)接口的結(jié)構(gòu)。另外,也可以將所述分析成分合成部的識(shí)別結(jié)果輸出到個(gè)人計(jì)算機(jī)等的其他的信息處理裝置及存儲(chǔ)裝置中。在該情況下,輸出部為根據(jù)將個(gè)人計(jì)算機(jī)等其他信息處理裝置或存儲(chǔ)裝置等和本發(fā)明輸出部連接為可進(jìn)行數(shù)據(jù)通信的規(guī)格的結(jié)構(gòu)。另外,也可以將所述分析成分合成部的識(shí)別結(jié)果輸出(寫(xiě)入)到存儲(chǔ)介質(zhì)內(nèi)。在該情況下,輸出部為采用將數(shù)據(jù)寫(xiě)入到這些存儲(chǔ)裝置或存儲(chǔ)介質(zhì)內(nèi)的裝置(例如閃存存儲(chǔ)器記錄器及軟盤(pán)驅(qū)動(dòng)裝置、CD-R驅(qū)動(dòng)裝置、DVD R驅(qū)動(dòng)裝置)的結(jié)構(gòu)。
對(duì)于輸出部所輸出的所述分析成分合成部的識(shí)別結(jié)果的具體用途的例子也進(jìn)行說(shuō)明。例如,為了將所述分析成分合成部的識(shí)別結(jié)果輸出到顯示器等的顯示裝置中,也可以使用輸出部所輸出的數(shù)據(jù)。在此種情況下,輸出部例如也可以為作為和顯示器等的顯示裝置進(jìn)行數(shù)據(jù)通信的接口的結(jié)構(gòu),也可以為作為與顯示器等的顯示裝置相連接、或?qū)?shù)據(jù)提交給內(nèi)置的信息處理裝置的接口的結(jié)構(gòu)。
另外,輸出部也可以為適合上述的多種情況的結(jié)構(gòu)。
實(shí)施例1如圖2所示,在基于語(yǔ)素屬性標(biāo)注的自然語(yǔ)言成分識(shí)別方法和裝置的具體實(shí)施中,模塊(單元)102、104為構(gòu)成語(yǔ)素學(xué)習(xí)部的主要單元,語(yǔ)素屬性轉(zhuǎn)換部(單元)102應(yīng)用語(yǔ)素屬性生成部108生成的語(yǔ)素屬性集(模塊109)將標(biāo)注了語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本,模塊104從語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)語(yǔ)素與語(yǔ)素屬性的關(guān)系規(guī)律,形成用于語(yǔ)素屬性標(biāo)注的知識(shí)。模塊112、113構(gòu)成了識(shí)別部分,模塊112利用模塊104習(xí)得的語(yǔ)素屬性標(biāo)注知識(shí),在人工總結(jié)或從標(biāo)注樣本中學(xué)得知識(shí)的指導(dǎo)下,對(duì)輸入符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,模塊113根據(jù)語(yǔ)素組合規(guī)律將語(yǔ)素屬性標(biāo)注結(jié)果合并生成待語(yǔ)言成分分析結(jié)果,并標(biāo)注出分析出的語(yǔ)言成分的分類屬性。模塊102將語(yǔ)言成分標(biāo)注樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本的過(guò)程如下
對(duì)標(biāo)注樣本中任意由c1…ci個(gè)語(yǔ)素構(gòu)成的語(yǔ)素組,設(shè)其語(yǔ)素屬性為t。則i=1時(shí),c1的語(yǔ)素屬性為tS;i=2時(shí),c1的語(yǔ)素屬性為tF,c2的語(yǔ)素屬性為tL;i>2時(shí),c1的語(yǔ)素屬性為tF,c2…ci-1的語(yǔ)素屬性為tM,ci的語(yǔ)素屬性為tL;不在任何語(yǔ)素組的語(yǔ)素,其語(yǔ)素屬性為U。
以漢語(yǔ)分詞和詞性標(biāo)注為例,標(biāo)注樣本“小明/nr 明天/n 將/d 就/d Basic/nx 程序/n 錯(cuò)誤/n 進(jìn)行/v 分析/v”字標(biāo)注序列為“小/nrF 明/nrL 明/nF 天/nL 將/dS 就/dS B/nxF a/nxMs/nxM i/nxM c/nxL 程/nF 序/nL 錯(cuò)/nF 誤/nL 進(jìn)/vF 行/vL 分/vF 析/vL”。
模塊104從語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)語(yǔ)素與語(yǔ)素屬性的關(guān)系,獲取語(yǔ)素屬性標(biāo)注知識(shí),語(yǔ)素屬性標(biāo)注知識(shí)將用來(lái)對(duì)輸入的語(yǔ)素序列進(jìn)行語(yǔ)素屬性標(biāo)注??梢允褂没谝?guī)則的、基于統(tǒng)計(jì)的、有指導(dǎo)或無(wú)指導(dǎo)等多種方法學(xué)習(xí)語(yǔ)素屬性標(biāo)注知識(shí)。作為具體例子,本發(fā)明使用隱馬爾可夫模型學(xué)習(xí)語(yǔ)素與語(yǔ)素屬性的關(guān)系。學(xué)習(xí)過(guò)程如下已知輸入句子Sc1c2…cn-1cn,其對(duì)應(yīng)的語(yǔ)素屬性序列TPtp1tp2…tpn-1tpn。
則p(TP|S)=Πi=1,np(tpi|tpi-k...tpi-1)×p(ci|tpi)']]>(公式1)如使用最大似然估計(jì)轉(zhuǎn)移概率和發(fā)射概率,則(公式2)p(ci|tpi)=count(ci,tpi)count(tpi),]]>p(tpi|tpi-k…tpi-1)=count(tpi-k…tpi-1,tpi)count(tpi).]]>(公式2)模塊104從標(biāo)注樣本中獲取的語(yǔ)素屬性標(biāo)注知識(shí)存入模塊105(語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元)。
模塊106從分析成分標(biāo)注樣本中抽取待分析成分,形成待分析成分列表,作為該成分的語(yǔ)言資源存于模塊107(語(yǔ)言資源和知識(shí)存儲(chǔ)單元),同時(shí)模塊107中還存放各種層次的與該分析成分相關(guān)的資源和知識(shí),比如待分析成分的語(yǔ)法、語(yǔ)義特征,該語(yǔ)言或符號(hào)系統(tǒng)的特點(diǎn)等。這些資源和知識(shí)將指導(dǎo)語(yǔ)素屬性標(biāo)注部進(jìn)行語(yǔ)素標(biāo)注。
模塊108根據(jù)待分析成分的分類屬性和語(yǔ)素在待分析成分中的位置信息生成語(yǔ)素屬性集、成分分解規(guī)則和語(yǔ)素組合規(guī)則。并將生成的語(yǔ)素屬性集存入語(yǔ)素屬性集存儲(chǔ)單元109。語(yǔ)素屬性集生成過(guò)程為設(shè)t∈{成分分類標(biāo)記},p∈{S,F(xiàn),M,L,U},其中,S,F(xiàn),M,L,U分別表示單語(yǔ)素為一獨(dú)立成分、多語(yǔ)素成分首位語(yǔ)素、多語(yǔ)素成分中間語(yǔ)素、多語(yǔ)素成分末尾語(yǔ)素和未包括在成分中語(yǔ)素。語(yǔ)素屬性形式為tp,tp∈{詞性標(biāo)注符}×{S,F(xiàn),M,L}。
模塊112根據(jù)模塊105和模塊107中提供的知識(shí)對(duì)輸入文本進(jìn)行語(yǔ)素標(biāo)注。語(yǔ)素屬性標(biāo)注部(模塊112)包含三個(gè)子部件,其結(jié)構(gòu)如圖3所示其中模塊204為可能語(yǔ)素標(biāo)注生成部,模塊204查詢存放在模塊201中的語(yǔ)素屬性標(biāo)注知識(shí),獲得輸入文本的每一個(gè)語(yǔ)素所有可能的語(yǔ)素屬性,生成輸入文本的可能語(yǔ)素標(biāo)注候選。
模塊205是對(duì)模塊204生成結(jié)果的過(guò)濾部件,模塊205根據(jù)模塊202中存貯的語(yǔ)言知識(shí)對(duì)模塊204生成的語(yǔ)素屬性候選進(jìn)行篩選,去除不符合語(yǔ)言學(xué)規(guī)律的屬性候選。
模塊205生成的結(jié)果進(jìn)行模塊206最優(yōu)標(biāo)注選擇部,模塊206根據(jù)語(yǔ)素與語(yǔ)素屬性的關(guān)系對(duì)模塊205輸入的標(biāo)注候選進(jìn)行評(píng)價(jià),輸出最優(yōu)語(yǔ)素屬性標(biāo)注結(jié)果。
最優(yōu)結(jié)果選擇模塊(模塊206)通常與學(xué)習(xí)模塊配合使用,如學(xué)習(xí)模塊使用Hidden Markov Model獲取語(yǔ)素屬性標(biāo)注規(guī)律,則模塊104的語(yǔ)素屬性標(biāo)注過(guò)程將使用Hidden Markov Model估計(jì)輸入文本的語(yǔ)素標(biāo)注候選,輸入語(yǔ)素序列Sc1c2…cn-1cn,基于HMM的最佳語(yǔ)素屬性標(biāo)注序列為T(mén)P*=argmaxTPΠi=1,np(tpi|tpi-k…tpi-1)×p(ci|tpi)]]>(公式3)模塊112輸出的語(yǔ)素屬性標(biāo)注序列進(jìn)入模塊113,由模塊113根據(jù)語(yǔ)素組合規(guī)則合并語(yǔ)素,生成待分析的語(yǔ)法或語(yǔ)義成分并標(biāo)注該成分對(duì)應(yīng)的分類標(biāo)記。
由語(yǔ)素標(biāo)注序列合并待分析語(yǔ)言成分的過(guò)程為a.語(yǔ)素屬性為tS的語(yǔ)素本身構(gòu)成一個(gè)語(yǔ)言成分,其語(yǔ)法或語(yǔ)義屬性為t;b.以語(yǔ)素屬性為tF的語(yǔ)素開(kāi)始,中間包含0個(gè)或多個(gè)語(yǔ)素屬性為tM的語(yǔ)素,至語(yǔ)素屬性為tL的語(yǔ)素的一段語(yǔ)素序列合并為一個(gè)語(yǔ)言成分,其語(yǔ)法或語(yǔ)義屬性為t;c.語(yǔ)素屬性為U的語(yǔ)素不構(gòu)成待分析語(yǔ)言成分。
實(shí)施例2在本發(fā)明的一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正裝置及方法的具體實(shí)施中,包括輸入部,用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列;語(yǔ)素學(xué)習(xí)部,用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;錯(cuò)誤位置發(fā)現(xiàn)部,用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查,發(fā)現(xiàn)錯(cuò)誤的位置;語(yǔ)素屬性標(biāo)注部,用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
可見(jiàn)本發(fā)明可以作為一個(gè)獨(dú)立的語(yǔ)法或語(yǔ)義成分識(shí)別系統(tǒng)對(duì)中文、日文等自然語(yǔ)言中的詞、詞性、短語(yǔ)及短語(yǔ)屬性進(jìn)行識(shí)別。同時(shí)也可以與其它語(yǔ)言成分識(shí)別系統(tǒng)結(jié)合,對(duì)其它識(shí)別系統(tǒng)輸出的結(jié)果進(jìn)行再分析,提高原有系統(tǒng)的分析精度。基于語(yǔ)素屬性標(biāo)注的自然語(yǔ)言成分識(shí)別后處理裝置如圖4所示由其它語(yǔ)言成分識(shí)別裝置產(chǎn)生的初始分析結(jié)果作為本發(fā)明的后處理裝置的輸入,進(jìn)入基于語(yǔ)素屬性標(biāo)注的成分識(shí)別裝置,該裝置針對(duì)原輸出結(jié)果中可能出錯(cuò)的部分進(jìn)行再分析,校正原結(jié)果的一些錯(cuò)誤。
模塊302利用錯(cuò)誤分析中獲得的知識(shí),對(duì)初始分析結(jié)果進(jìn)行分析,確定初始分析結(jié)果中可能出錯(cuò)的范圍,隨后進(jìn)入語(yǔ)素標(biāo)注候選生成部根據(jù)初始結(jié)果和易錯(cuò)位置信息生成語(yǔ)素標(biāo)注候選。
模塊303的語(yǔ)素標(biāo)注候選的生成原則如下a.初始分析結(jié)果中未包括在可能出錯(cuò)位置的語(yǔ)言成分,認(rèn)為是識(shí)別正確的成分。
b.正確成分中的所有語(yǔ)素的語(yǔ)素屬性候選不能與語(yǔ)素在正確成分中的位置和正確成分的屬性沖突。
c.包括在可能出錯(cuò)位置的語(yǔ)素,根據(jù)語(yǔ)素屬性標(biāo)注知識(shí)生成所有可能的語(yǔ)素標(biāo)注候選。
模塊303生成的所有語(yǔ)素標(biāo)注候選進(jìn)入最優(yōu)標(biāo)注結(jié)果選擇部選擇最優(yōu)標(biāo)注候選。最優(yōu)標(biāo)注結(jié)果選擇部與圖3中模塊206為同一功能的部件。
最優(yōu)標(biāo)注結(jié)果進(jìn)入分析成分合成部,圖4中分析成分合成部與圖2模塊113為同一功能的部件。
由分析成分合成部輸出的結(jié)果即為對(duì)初始分析結(jié)果的校對(duì)結(jié)果。
本發(fā)明提出的后處理方法可處理原有方法誤識(shí)、漏誤的語(yǔ)言成分,因其描述了從語(yǔ)素到待分析語(yǔ)言成分的生成規(guī)律,所以尤其適合解決標(biāo)注樣本中未出現(xiàn)語(yǔ)言成分的識(shí)別。
實(shí)施例3在本發(fā)明的一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別裝置及方法的具體實(shí)施方式
中,包括輸入部,用于輸入待分析漢語(yǔ)文本序列;字屬性學(xué)習(xí)部,用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性,并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律;字屬性標(biāo)注部,用于根據(jù)所述字屬性學(xué)習(xí)部學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;詞及詞性標(biāo)注合成部,用于從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記,生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果;輸出部,用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
由于漢語(yǔ)詞與詞之間沒(méi)有標(biāo)記,所以漢語(yǔ)詞法分析是漢語(yǔ)語(yǔ)法成分分析的首要問(wèn)題。本發(fā)明提出的基于語(yǔ)素的自然語(yǔ)言語(yǔ)法成分分析方法,可以用來(lái)解決漢語(yǔ)的詞法分析問(wèn)題。作為基于語(yǔ)素的自然語(yǔ)言語(yǔ)言成分識(shí)別方法的實(shí)例,我們實(shí)現(xiàn)了一個(gè)基于字屬性標(biāo)注的隱馬爾可夫模型的漢語(yǔ)詞法分析裝置。
在本發(fā)明的漢語(yǔ)詞法分析中,語(yǔ)素為漢字;詞為待分析語(yǔ)言成分;此時(shí),語(yǔ)素組標(biāo)注集即為漢語(yǔ)的詞性標(biāo)注集;語(yǔ)素屬性即為字屬性,形式為tp,其中t∈{詞性標(biāo)注符},p∈{S,F(xiàn),M,L},S,F(xiàn),M,L分別表示單字為詞、多字詞首字、多字詞中間字和多字詞尾字。tp∈{詞性標(biāo)注符}×{S,F(xiàn),M,L}。
基于字屬性標(biāo)注的漢語(yǔ)詞法分析裝置的結(jié)果如圖5所示該裝置也是基于語(yǔ)素的自然語(yǔ)言成分識(shí)別裝置的更為具體的例子,其運(yùn)行過(guò)程與本發(fā)明的基于語(yǔ)素的自然語(yǔ)言成分識(shí)別裝置完全一致。
模塊401將分詞和詞性標(biāo)注語(yǔ)料映射為字性標(biāo)注語(yǔ)料,轉(zhuǎn)換過(guò)程為設(shè)語(yǔ)料中某詞由c1…ci個(gè)漢字構(gòu)成,詞性為t。則i=1時(shí),c1的字性標(biāo)注為tSi=2時(shí),c1的字性標(biāo)注為tF,c2的字性標(biāo)注為tLi>2時(shí),c1的字性標(biāo)注為tF,c2…ci-1的字性標(biāo)注為tM,ci的字性標(biāo)注為tL例如,標(biāo)注句子“小明/nr 明天/n 將/d 就/d Basic/nx 程序/n 錯(cuò)誤/n 進(jìn)行/v 分析/v”,映射為字標(biāo)注序列為“小/nrF 明/nrL 明/nF 天/nL 將/dS 就/dS B/nxF a/nxM s/nxM i/nxM c/nxL 程/nF 序/nL 錯(cuò)/nF 誤/nL 進(jìn)/vF 行/vL分/vF 析/vL”。
模塊404字屬性標(biāo)注訓(xùn)練器,采用隱馬爾可夫模型抽取由字到字屬性的關(guān)系。輸入的漢字序列,抽象為隱馬爾可夫過(guò)程的觀察鏈,求取最優(yōu)字屬性序列的過(guò)程抽象為已知觀察鏈時(shí)求馬爾可夫隱藏鏈的過(guò)程?;窘_^(guò)程為已知輸入句子Sc1c2…cn-1cn,對(duì)應(yīng)的字屬性標(biāo)注序列TPtp1tp2…tpn-1tpn。
則,p(TP|S)=Πi=1,np(tpi|tpi-k...tpi-1)×p(ci|tpi)]]>p(ci|tpi)=count(ci,tpi)count(tpi),]]>p(tpi|tpi-k...tpi-1)=count(tpi-k...tpi-1,tpi)count(tpi)]]>隱馬爾可夫模型建模獲得的字與字屬性標(biāo)注間的概率分布存貯到模塊405(字屬性標(biāo)注知識(shí)存儲(chǔ)單元),以備分析時(shí)使用。
模塊409給輸入漢語(yǔ)文本的每個(gè)詞標(biāo)注一個(gè)當(dāng)前上下文情況下最適合的字屬性,輸出文本的字屬性標(biāo)注序列。模塊409主要包含字屬性生成部、錯(cuò)誤候選剔除部和最優(yōu)結(jié)果選擇部。其內(nèi)部結(jié)構(gòu)如圖6所示模塊501中存貯的字屬性標(biāo)注知識(shí)由圖5中模塊404從字屬性標(biāo)注樣本中訓(xùn)練獲得,如模塊404采用隱馬爾可夫模型學(xué)習(xí)字屬性標(biāo)注知識(shí),則圖6模塊501中將存放每個(gè)漢字可能出現(xiàn)的字屬性、字屬性到字的發(fā)射概率、字屬性與字屬性間的轉(zhuǎn)移概率。
圖6中的字屬性生成部(模塊504)查詢模塊501中包含的字屬性標(biāo)注知識(shí),給出輸入句子的每個(gè)字可能的字屬性候選。
由于漢語(yǔ)的構(gòu)詞規(guī)律非常靈活,因此每個(gè)字具有的字屬性候選也較多,因此模塊502依靠構(gòu)詞規(guī)則和高頻詞詞典,過(guò)濾大部分不合法的字屬性候選。其過(guò)濾過(guò)程如下a.去掉當(dāng)前上下文情況下,不能組合為詞的字屬性。比如首字的字屬性候選中所有xM和xL類的字屬性,尾字的字屬性候選中所有xM,xF類屬性等。(其中x為這的任意詞屬性)b.根據(jù)字的位置屬性生成輸入句子的所有可能詞候選,對(duì)于每個(gè)詞,查詢?cè)~典,如詞典中包含該詞,則其可能詞性已經(jīng)規(guī)定,根據(jù)該詞詞性,去掉字屬性中不能產(chǎn)生詞典指定詞性的候選字屬性。如詞典中沒(méi)有該詞,則該詞可能為未登錄詞,保留其所有字屬性候選。
經(jīng)過(guò)模塊505過(guò)濾后保留的字屬性候選進(jìn)入最優(yōu)標(biāo)注候選選擇部(模塊506)由模塊506根據(jù)字屬性標(biāo)注知識(shí)選擇最優(yōu)字屬性標(biāo)注結(jié)果。如采用隱馬爾可夫模型評(píng)價(jià)字屬性標(biāo)注結(jié)果,則輸入句子c1c2…cn-1cn的最佳字屬性標(biāo)注序列為T(mén)P*=argmaxTPΠi=1,np(tpi|tpi-k...tpi-1)×p(ci|tpi)]]>輸出的字屬性標(biāo)注序列由圖4模塊405合成輸入文本的分詞和詞性標(biāo)注結(jié)果。合成過(guò)程為a.所有字屬性為tS,映射為單字詞,詞性為t;b.所有字屬性為tF,為詞首字,字屬性為tM,為詞中間字,字屬性為tL為詞尾字,共同組成一個(gè)單詞,詞性為t.
下面通過(guò)例子具體描述本發(fā)明各裝置及方法的分析過(guò)程。
待分析句子“小明明天將就Basic程序錯(cuò)誤進(jìn)行分析”該句含有若干切分歧義,在圖10中每條弧線代表一種切分形式,其中只有實(shí)線弧所對(duì)應(yīng)的切分形式是正確的。
句中“將就”是一個(gè)比較典型的組合歧義,它有兩種切分可能“將就/v”和“將/d 就/d”,在本句中“將/d 就/d”是正確的切分。切分為“將/d 就/d”的詞結(jié)點(diǎn)個(gè)數(shù)多于切分為“將就/v”時(shí)的結(jié)點(diǎn)個(gè)數(shù),如采用基于詞的分析模型,由于基于詞的模型傾向于選擇結(jié)點(diǎn)個(gè)數(shù)少的切分結(jié)果,很難獲得正確的切分結(jié)果。而采用本發(fā)明的基于字屬性標(biāo)注的方法,可以避免切分偏向的問(wèn)題(bias),能夠獲得正確的結(jié)果。
本發(fā)明的分析過(guò)程如下根據(jù)字的字屬性候選表,獲得每個(gè)字可能的字屬性標(biāo)注候選如‘小’‘明’‘天’3字包含的可能字屬性候選如圖7所示查詢核心詞典,對(duì)字屬性候選進(jìn)行粗選,去除當(dāng)前上下文情況下,不可能出現(xiàn)的候選,形成最終字屬性標(biāo)注候選如圖8所示
采用公式(3)對(duì)所有可能的字屬性標(biāo)注鏈,進(jìn)行評(píng)價(jià),獲得最優(yōu)結(jié)果。
本例中最優(yōu)字屬性標(biāo)注鏈如圖9所示其所對(duì)應(yīng)的分詞和詞性標(biāo)注結(jié)果如圖11所示。
本發(fā)明的有益效果在于,基于語(yǔ)素研究語(yǔ)言成分的構(gòu)成規(guī)律,并對(duì)該語(yǔ)言成分進(jìn)行識(shí)別。本發(fā)明首先根據(jù)待分析語(yǔ)言成分的屬性信息和語(yǔ)素在該語(yǔ)言成分中的位置關(guān)系構(gòu)建語(yǔ)素的屬性標(biāo)注集,然后從語(yǔ)言成分的標(biāo)注樣本中習(xí)得語(yǔ)素與語(yǔ)素屬性的關(guān)系規(guī)律。通過(guò)習(xí)得的語(yǔ)素屬性標(biāo)注規(guī)律,對(duì)輸入文本進(jìn)行語(yǔ)素屬性標(biāo)注,從語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的語(yǔ)言成分及該成分的分類標(biāo)記。本發(fā)明可以作為一個(gè)獨(dú)立的語(yǔ)法或語(yǔ)義成分識(shí)別系統(tǒng)對(duì)中文、日文等自然語(yǔ)言中的詞、詞性、短語(yǔ)及短語(yǔ)屬性進(jìn)行識(shí)別。同時(shí)也可以與其它語(yǔ)言成分識(shí)別系統(tǒng)結(jié)合,對(duì)其它識(shí)別系統(tǒng)輸出的結(jié)果進(jìn)行再分析,提高原有系統(tǒng)的分析精度。另外,本發(fā)明提出的方法也可用于對(duì)基因組序列分析或類似的從輸入符號(hào)序列中識(shí)別某類成分的任務(wù)中。本發(fā)明尤其適合解決漢語(yǔ)的分詞和詞性標(biāo)注問(wèn)題,根據(jù)本發(fā)明實(shí)現(xiàn)的漢語(yǔ)詞法分析系統(tǒng)獲得了良好的分析效果。
本發(fā)明的保護(hù)范圍,描述在權(quán)利要求書(shū)中。本發(fā)明以漢語(yǔ)為實(shí)例闡述本發(fā)明的實(shí)現(xiàn)步驟,但是,使用本發(fā)明描述的步驟可同樣對(duì)其它語(yǔ)言中的語(yǔ)法或語(yǔ)義成分進(jìn)行識(shí)別,本發(fā)明方法也可用于對(duì)基因組序列的分析或類似的從輸入符號(hào)序列中識(shí)別某類成分的任務(wù)。因此可以理解,凡應(yīng)用于其它語(yǔ)言或符號(hào)系統(tǒng),不超出本發(fā)明的構(gòu)思要領(lǐng)的變化都應(yīng)歸于本發(fā)明的保護(hù)范圍之中。
參考文獻(xiàn)[1]Andi Wu;Stephen D.Richardson;Zixin Jiang;6,640,006 Oct.28,2003 Wordsegmentation in chinese text [patent];[2]Toshihiko Yokogawa;5,225,981 Jul.6,1991,language analyzer for morphemicallyanalyzing by using block analysis and composite morphemes [patent];[3]Sproat,Richard and Tom Emerson.2003.The first international Chinese wordsegmentation bakeoff.InSIGHAN 2003;[4]Sproat,Richard and Chilin Shih.2002.Corpus-based methods in Chinese morphologyand phonology.InCOLING 2002;[5]Hua-Ping Zhang,Hong-Kui Yu,De-Yi Xiong and Qun Liu,HHMM-based ChineseLexical Analyzer ICTCLAS,proceedings of 2nd SigHan Workshop,July 2003,pp.184-187[6]Jianfeng Gao,Andi Wu,Mu Li,et al.2004.Adaptive Chinese word segmentation.InACL 2004;[7]Michael Collins Threee Generative,Lexicalised Models for Statistical Parsing.InACL 1997。
權(quán)利要求
1.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別裝置,包括輸入部,用于輸入待分析符號(hào)序列;其特征在于還包括語(yǔ)素學(xué)習(xí)部,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;語(yǔ)素屬性標(biāo)注部,用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述的語(yǔ)素學(xué)習(xí)部進(jìn)一步包括語(yǔ)素屬性生成單元,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集,以用語(yǔ)素屬性表示自然語(yǔ)言成分及其分類信息;語(yǔ)素屬性轉(zhuǎn)換單元,用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本;語(yǔ)素標(biāo)注知識(shí)抽取單元,用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí);所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列。
3.根據(jù)權(quán)利要求2所述的裝置,其特征在于,所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性集存儲(chǔ)單元,用于存儲(chǔ)所述的語(yǔ)素屬性集;語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元,用于存儲(chǔ)所述的語(yǔ)素屬性標(biāo)注知識(shí);語(yǔ)言知識(shí)抽取單元,用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分,生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源;語(yǔ)言資源和知識(shí)存儲(chǔ)單元,用于存儲(chǔ)所述的語(yǔ)言資源,以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí);所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;所述的分析成分合成部,根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
4.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性生成單元、語(yǔ)素屬性轉(zhuǎn)換單元、語(yǔ)素標(biāo)注知識(shí)抽取單元、語(yǔ)言知識(shí)抽取單元、語(yǔ)素屬性集存儲(chǔ)單元、語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元、自然語(yǔ)言資源和知識(shí)存儲(chǔ)單元;其中所述的語(yǔ)素屬性生成單元,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集,并講所述的語(yǔ)素屬性集存入所述的語(yǔ)素屬性集存儲(chǔ)單元;所述的語(yǔ)素屬性轉(zhuǎn)換單元,用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本;語(yǔ)素標(biāo)注知識(shí)抽取單元,用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí),并將所述的語(yǔ)素屬性標(biāo)注知識(shí)存入所述的語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元;所述的語(yǔ)言知識(shí)抽取單元,用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分,生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源,并將所述的語(yǔ)言資源以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí)存入所述的語(yǔ)言資源和知識(shí)存儲(chǔ)單元;所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;所述的分析成分合成部,根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
5.根據(jù)權(quán)利要求1或4所述的裝置,其特征在于,所述的語(yǔ)素屬性標(biāo)注部進(jìn)一步包括可能語(yǔ)素標(biāo)注生成單元,采用語(yǔ)素屬性標(biāo)注知識(shí)生成語(yǔ)素標(biāo)注候選;錯(cuò)誤候選剔除單元,采用語(yǔ)素、以及比語(yǔ)素高級(jí)的語(yǔ)言成分等各種層次的語(yǔ)言資源與知識(shí)對(duì)語(yǔ)素屬性候選進(jìn)行篩選,去除不合法的語(yǔ)素屬性候選,實(shí)現(xiàn)對(duì)所述的可能語(yǔ)素標(biāo)注生成單元傳來(lái)的語(yǔ)素標(biāo)注候選的錯(cuò)誤過(guò)濾;最優(yōu)標(biāo)注結(jié)果選擇單元,生成待分析符號(hào)序列的最優(yōu)語(yǔ)素屬性標(biāo)注序列,實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的語(yǔ)素屬性候選的最優(yōu)化處理。
6.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
7.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述的輸入的待分析符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
8.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正裝置,包括輸入部,用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列;其特征在于包括語(yǔ)素學(xué)習(xí)部,用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;錯(cuò)誤位置發(fā)現(xiàn)部,用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查,發(fā)現(xiàn)錯(cuò)誤的位置;語(yǔ)素屬性標(biāo)注部,用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述的語(yǔ)素屬性標(biāo)注部進(jìn)一步包括語(yǔ)素標(biāo)注候選生成單元,用于對(duì)輸入的待校正符號(hào)序列保留正確的原有分析結(jié)果,對(duì)出錯(cuò)部分的語(yǔ)素則生成該語(yǔ)素所有可能的標(biāo)注候選;最優(yōu)結(jié)果選擇單元,用于對(duì)語(yǔ)素標(biāo)注序列保留了原有結(jié)果中正確的分析信息,而對(duì)出錯(cuò)的位置進(jìn)行重新標(biāo)注。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性生成單元、語(yǔ)素屬性轉(zhuǎn)換單元、語(yǔ)素標(biāo)注知識(shí)抽取單元、語(yǔ)素屬性集存儲(chǔ)單元、語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元、錯(cuò)誤分析知識(shí)存儲(chǔ)單元;其中所述的語(yǔ)素屬性生成單元,用于根據(jù)待校驗(yàn)自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集,并講所述的語(yǔ)素屬性集存入所述的語(yǔ)素屬性集存儲(chǔ)單元;所述的語(yǔ)素屬性轉(zhuǎn)換單元,用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待校驗(yàn)自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本;語(yǔ)素標(biāo)注知識(shí)抽取單元,用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待校驗(yàn)自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí),并將所述的語(yǔ)素屬性標(biāo)注知識(shí)存入所述的語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元;錯(cuò)誤分析知識(shí)存儲(chǔ)單元,用于存儲(chǔ)待校驗(yàn)語(yǔ)言成分的錯(cuò)誤分析知識(shí);所述的錯(cuò)誤位置發(fā)現(xiàn)部,根據(jù)所述的錯(cuò)誤分析知識(shí)對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查,發(fā)現(xiàn)錯(cuò)誤的位置;所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待校正符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;所述的分析成分合成部,根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
12.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述的輸入的待校驗(yàn)符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
13.一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別裝置,包括輸入部,用于輸入待分析漢語(yǔ)文本序列;其特征在于還包括字屬性學(xué)習(xí)部,用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性,并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律;字屬性標(biāo)注部,用于根據(jù)所述字屬性學(xué)習(xí)部學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;詞及詞性標(biāo)注合成部,用于從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記,生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果;輸出部,用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述的字屬性學(xué)習(xí)部進(jìn)一步包括字屬性轉(zhuǎn)換單元,用于根據(jù)字屬性組成詞及詞性規(guī)則將漢語(yǔ)分詞、詞性標(biāo)注語(yǔ)料的樣本轉(zhuǎn)換為字屬性標(biāo)注樣本;字標(biāo)注知識(shí)訓(xùn)練單元,用于以字為基本單元從所述的字屬性標(biāo)注樣本中學(xué)習(xí)待分析漢語(yǔ)分詞、詞性的內(nèi)部構(gòu)成及該分詞、詞性與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的字屬性標(biāo)注知識(shí);所述的字屬性標(biāo)注部根據(jù)所述的字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述的字學(xué)習(xí)部還包括字屬性組成詞及詞性規(guī)則存儲(chǔ)單元,用于存儲(chǔ)字屬性組成詞及詞性規(guī)則;字屬性標(biāo)注知識(shí)存儲(chǔ)單元,用于存儲(chǔ)所述的字屬性標(biāo)注知識(shí);詞典及詞結(jié)構(gòu)規(guī)則存儲(chǔ)單元,用于存儲(chǔ)漢語(yǔ)的語(yǔ)言資源,以及各種層次的與漢語(yǔ)成分相關(guān)的語(yǔ)言資源和知識(shí);所述的字屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;所述的詞及詞性標(biāo)注合成部,根據(jù)所述的字屬性組成詞及詞性規(guī)則從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的漢語(yǔ)成分及該成分的分類標(biāo)記。
16.根據(jù)權(quán)利要求13或15所述的裝置,其特征在于,所述的字屬性標(biāo)注部進(jìn)一步包括字屬性標(biāo)注生成單元,采用字屬性標(biāo)注知識(shí)生成字屬性標(biāo)注候選;錯(cuò)誤候選剔除單元,采用構(gòu)詞規(guī)則和高頻詞詞典對(duì)字屬性標(biāo)注候選進(jìn)行篩選,去除不合法的字屬性標(biāo)注候選,實(shí)現(xiàn)對(duì)所述的字屬性標(biāo)注生成單元傳來(lái)的字屬性標(biāo)注候選的錯(cuò)誤過(guò)濾;最優(yōu)標(biāo)注結(jié)果選擇單元,生成待分析漢語(yǔ)文本序列的最優(yōu)字屬性標(biāo)注序列,實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的字屬性標(biāo)注候選的最優(yōu)化處理。
17.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別方法,其特征在于包括輸入步驟,用于輸入待分析符號(hào)序列;語(yǔ)素學(xué)習(xí)步驟,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;語(yǔ)素屬性標(biāo)注步驟,用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成步驟,用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出步驟,用于輸出所述分析成分合成部的識(shí)別結(jié)果。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述的語(yǔ)素學(xué)習(xí)步驟進(jìn)一步包括語(yǔ)素屬性生成步驟,用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集,以用語(yǔ)素屬性表示自然語(yǔ)言成分及其分類信息;語(yǔ)素屬性轉(zhuǎn)換步驟,用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本;語(yǔ)素標(biāo)注知識(shí)抽取步驟,用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí);所述的語(yǔ)素屬性標(biāo)注步驟根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列。
19.根據(jù)權(quán)利要求18所述的方法,其特征在于,所述的語(yǔ)素學(xué)習(xí)步驟還包括語(yǔ)素屬性集存儲(chǔ)步驟,用于存儲(chǔ)所述的語(yǔ)素屬性集;語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)步驟,用于存儲(chǔ)所述的語(yǔ)素屬性標(biāo)注知識(shí);語(yǔ)言知識(shí)抽取步驟,用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分,生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源;語(yǔ)言資源和知識(shí)存儲(chǔ)步驟,用于存儲(chǔ)所述的語(yǔ)言資源,以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí);所述的語(yǔ)素屬性標(biāo)注步驟,根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;所述的分析成分合成步驟,根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
20.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述的語(yǔ)素屬性標(biāo)注步驟進(jìn)一步包括可能語(yǔ)素標(biāo)注生成步驟,采用語(yǔ)素屬性標(biāo)注知識(shí)生成語(yǔ)素標(biāo)注候選;錯(cuò)誤候選剔除步驟,采用語(yǔ)素、以及比語(yǔ)素高級(jí)的語(yǔ)言成分等各種層次的語(yǔ)言資源與知識(shí)對(duì)語(yǔ)素屬性候選進(jìn)行篩選,去除不合法的語(yǔ)素屬性候選,實(shí)現(xiàn)對(duì)所述的可能語(yǔ)素標(biāo)注生成步驟傳來(lái)的語(yǔ)素標(biāo)注候選的錯(cuò)誤過(guò)濾;最優(yōu)標(biāo)注結(jié)果選擇步驟,生成待分析符號(hào)序列的最優(yōu)語(yǔ)素屬性標(biāo)注序列,實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除步驟傳來(lái)的語(yǔ)素屬性候選的最優(yōu)化處理。
21.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
22.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述的輸入的待分析符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
23.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正方法,其特征在于包括輸入步驟,用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列;語(yǔ)素學(xué)習(xí)步驟,用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性,并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;錯(cuò)誤位置發(fā)現(xiàn)步驟,用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查,發(fā)現(xiàn)錯(cuò)誤的位置;語(yǔ)素屬性標(biāo)注步驟,用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成步驟,用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出步驟,用于輸出所述分析成分合成步驟的識(shí)別結(jié)果。
24.根據(jù)權(quán)利要求23所述的方法,其特征在于,所述的語(yǔ)素屬性標(biāo)注步驟進(jìn)一步包括語(yǔ)素標(biāo)注候選生成步驟,用于對(duì)輸入的待校正符號(hào)序列保留正確的原有分析結(jié)果,對(duì)出錯(cuò)部分的語(yǔ)素則生成該語(yǔ)素所有可能的標(biāo)注候選;最優(yōu)結(jié)果選擇步驟,用于對(duì)語(yǔ)素標(biāo)注序列保留了原有結(jié)果中正確的分析信息,而對(duì)出錯(cuò)的位置進(jìn)行重新標(biāo)注。
25.根據(jù)權(quán)利要求23所述的方法,其特征在于,所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
26.根據(jù)權(quán)利要求23所述的方法,其特征在于,所述的輸入的待校驗(yàn)符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
27.一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別方法,其特征在于包括輸入步驟,用于輸入待分析漢語(yǔ)文本序列;字屬性學(xué)習(xí)步驟,用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性,并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律;字屬性標(biāo)注步驟,用于根據(jù)所述字屬性學(xué)習(xí)步驟學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;詞及詞性標(biāo)注合成步驟,用于從所述字屬性標(biāo)注步驟生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記,生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果;輸出步驟,用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
28.根據(jù)權(quán)利要求27所述的方法,其特征在于,所述的字屬性學(xué)習(xí)步驟進(jìn)一步包括字屬性轉(zhuǎn)換步驟,用于根據(jù)字屬性組成詞及詞性規(guī)則將漢語(yǔ)分詞、詞性標(biāo)注語(yǔ)料的樣本轉(zhuǎn)換為字屬性標(biāo)注樣本;字標(biāo)注知識(shí)訓(xùn)練步驟,用于以字為基本單元從所述的字屬性標(biāo)注樣本中學(xué)習(xí)待分析漢語(yǔ)分詞、詞性的內(nèi)部構(gòu)成及該分詞、詞性與上下文的關(guān)系,生成用統(tǒng)計(jì)模型描述的字屬性標(biāo)注知識(shí);所述的字屬性標(biāo)注步驟根據(jù)所述的字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列。
29.根據(jù)權(quán)利要求28所述的方法,其特征在于,所述字學(xué)習(xí)步驟還包括字屬性組成詞及詞性規(guī)則存儲(chǔ)步驟,用于存儲(chǔ)字屬性組成詞及詞性規(guī)則;字屬性標(biāo)注知識(shí)存儲(chǔ)步驟,用于存儲(chǔ)所述的字屬性標(biāo)注知識(shí);詞典及詞結(jié)構(gòu)規(guī)則存儲(chǔ)步驟,用于存儲(chǔ)漢語(yǔ)的語(yǔ)言資源,以及各種層次的與漢語(yǔ)成分相關(guān)的語(yǔ)言資源和知識(shí);所述的字屬性標(biāo)注步驟根據(jù)所述的語(yǔ)言資源和知識(shí)、字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注,生成字屬性標(biāo)注序列;所述的詞及詞性標(biāo)注合成步驟,根據(jù)所述的字屬性組成詞及詞性規(guī)則從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的漢語(yǔ)成分及該成分的分類標(biāo)記。
30.根據(jù)權(quán)利要求27或29所述的方法,其特征在于,所述的字屬性標(biāo)注步驟進(jìn)一步包括字屬性標(biāo)注生成步驟,采用字屬性標(biāo)注知識(shí)生成字屬性標(biāo)注候選;錯(cuò)誤候選剔除步驟,采用構(gòu)詞規(guī)則和高頻詞詞典對(duì)字屬性標(biāo)注候選進(jìn)行篩選,去除不合法的字屬性標(biāo)注候選,實(shí)現(xiàn)對(duì)所述的字屬性標(biāo)注生成單元傳來(lái)的字屬性標(biāo)注候選的錯(cuò)誤過(guò)濾;最優(yōu)標(biāo)注結(jié)果選擇步驟,生成待分析漢語(yǔ)文本序列的最優(yōu)字屬性標(biāo)注序列,實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的字屬性標(biāo)注候選的最優(yōu)化處理。
全文摘要
本發(fā)明為一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法,包括輸入部,用于輸入待分析符號(hào)序列;語(yǔ)素學(xué)習(xí)部,用于生成語(yǔ)素屬性,并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律;語(yǔ)素屬性標(biāo)注部,用于對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注,生成語(yǔ)素屬性標(biāo)注序列;分析成分合成部,用于從語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記;輸出部,用于輸出所述分析成分合成部的識(shí)別結(jié)果。用以從輸入的漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因組等符號(hào)序列中識(shí)別出需要的語(yǔ)言成分或遺傳因子等符號(hào)組,并標(biāo)注出識(shí)別成分的分類屬性。從而解決諸如漢語(yǔ)的未登錄詞等問(wèn)題。
文檔編號(hào)G06F17/27GK1936885SQ20051010356
公開(kāi)日2007年3月28日 申請(qǐng)日期2005年9月21日 優(yōu)先權(quán)日2005年9月21日
發(fā)明者孟遙, 于浩, 西野文人 申請(qǐng)人:富士通株式會(huì)社