一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法

文檔序號(hào)：6647137閱讀：321來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及從輸入的符號(hào)序列中識(shí)別某類成分的技術(shù)，其特別涉及基于語(yǔ)素屬性標(biāo)注的自然語(yǔ)言語(yǔ)法或語(yǔ)義成分的識(shí)別技術(shù)以及基因組序列分析的技術(shù)，具體的講是一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法。
背景技術(shù)：
語(yǔ)言是一種符號(hào)系統(tǒng)，語(yǔ)法系統(tǒng)里的基本符號(hào)是語(yǔ)素。自然語(yǔ)言雖然表面上看來(lái)只是語(yǔ)素的線性序列，但實(shí)際上具有一定的層次結(jié)構(gòu)，即由語(yǔ)素構(gòu)成高一級(jí)的成份，再由高一級(jí)成份構(gòu)成更高級(jí)的成份，最終形成層次結(jié)構(gòu)。識(shí)別輸入句子包含的語(yǔ)法或語(yǔ)義成分及成分間的關(guān)系是自然語(yǔ)言處理的首要任務(wù)。關(guān)于這方面的研究已發(fā)表多篇論文和專利，例如中國(guó)專利，授權(quán)公告號(hào)CN1107276C，發(fā)明人陳肇雄，黃河燕，提供了一種全自動(dòng)漢語(yǔ)分析系統(tǒng)；中國(guó)專利申請(qǐng)，公開(kāi)號(hào)CN1471024A，發(fā)明人陳桂林，陳芳，申請(qǐng)人摩托羅拉公司，公開(kāi)了一種中文分詞方法；以及參考文獻(xiàn)[1]～[7]所公開(kāi)的相關(guān)內(nèi)容。
上述現(xiàn)有技術(shù)所提供的這些方法都以詞匯或短語(yǔ)作為研究的最小單位，而并未對(duì)詞匯以下的語(yǔ)言單位進(jìn)行研究和分析。實(shí)際上，在某些語(yǔ)言體系中，詞匯并非最小的有意義的語(yǔ)言單位，因此對(duì)這類語(yǔ)言而言，基于語(yǔ)素而不是基于詞匯研究語(yǔ)法或語(yǔ)義成分的構(gòu)成規(guī)律和成分間的關(guān)系更能揭示語(yǔ)法體系的本質(zhì)，獲得更好的語(yǔ)法分析效果。

發(fā)明內(nèi)容
本發(fā)明的目的在于，提供一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法，用以從輸入的漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因組等符號(hào)序列中識(shí)別出需要的語(yǔ)言成分或遺傳因子等符號(hào)組，并標(biāo)注出識(shí)別成分的分類屬性。從而解決諸如漢語(yǔ)的未登錄詞等問(wèn)題。
本發(fā)明的技術(shù)方案為一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別裝置，包括輸入部，用于輸入待分析符號(hào)序列；語(yǔ)素學(xué)習(xí)部，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；語(yǔ)素屬性標(biāo)注部，用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
所述的語(yǔ)素學(xué)習(xí)部進(jìn)一步包括語(yǔ)素屬性生成單元，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集，用語(yǔ)素屬性表示自然語(yǔ)言成分及其分類信息；語(yǔ)素屬性轉(zhuǎn)換單元，用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本；語(yǔ)素標(biāo)注知識(shí)抽取單元，用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí)；所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列。
所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性集存儲(chǔ)單元，用于存儲(chǔ)所述的語(yǔ)素屬性集；語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元，用于存儲(chǔ)所述的語(yǔ)素屬性標(biāo)注知識(shí)；語(yǔ)言知識(shí)抽取單元，用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分，生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源；語(yǔ)言資源和知識(shí)存儲(chǔ)單元，用于存儲(chǔ)所述的語(yǔ)言資源，以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí)；所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；所述的分析成分合成部，根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
所述的語(yǔ)素屬性標(biāo)注部進(jìn)一步包括可能語(yǔ)素標(biāo)注生成單元，采用語(yǔ)素屬性標(biāo)注知識(shí)生成語(yǔ)素標(biāo)注候選；錯(cuò)誤候選剔除單元，采用語(yǔ)素、以及比語(yǔ)素高級(jí)的語(yǔ)言成分等各種層次的語(yǔ)言資源與知識(shí)對(duì)語(yǔ)素屬性候選進(jìn)行篩選，去除不合法的語(yǔ)素屬性候選，實(shí)現(xiàn)對(duì)所述的可能語(yǔ)素標(biāo)注生成單元傳來(lái)的語(yǔ)素標(biāo)注候選的錯(cuò)誤過(guò)濾；最優(yōu)標(biāo)注結(jié)果選擇單元，生成待分析符號(hào)序列的最優(yōu)語(yǔ)素屬性標(biāo)注序列，實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的語(yǔ)素屬性候選的最優(yōu)化處理。
所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
所述的輸入的待分析符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
本發(fā)明還提供了一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正裝置，包括輸入部，用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列；語(yǔ)素學(xué)習(xí)部，用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；錯(cuò)誤位置發(fā)現(xiàn)部，用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查，發(fā)現(xiàn)錯(cuò)誤的位置；語(yǔ)素屬性標(biāo)注部，用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
本發(fā)明還提供了一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別裝置，包括輸入部，用于輸入待分析漢語(yǔ)文本序列；字屬性學(xué)習(xí)部，用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性，并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律；字屬性標(biāo)注部，用于根據(jù)所述字屬性學(xué)習(xí)部學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；詞及詞性標(biāo)注合成部，用于從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記，生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果；輸出部，用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
本發(fā)明還提供了一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別方法，其包括輸入步驟，用于輸入待分析符號(hào)序列；語(yǔ)素學(xué)習(xí)步驟，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；語(yǔ)素屬性標(biāo)注步驟，用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成步驟，用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出步驟，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
本發(fā)明還提供了一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正方法，其包括輸入步驟，用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列；語(yǔ)素學(xué)習(xí)步驟，用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；錯(cuò)誤位置發(fā)現(xiàn)步驟，用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查，發(fā)現(xiàn)錯(cuò)誤的位置；語(yǔ)素屬性標(biāo)注步驟，用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成步驟，用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出步驟，用于輸出所述分析成分合成步驟的識(shí)別結(jié)果。
本發(fā)明還提供了一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別方法，其包括輸入步驟，用于輸入待分析漢語(yǔ)文本序列；字屬性學(xué)習(xí)步驟，用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性，并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律；字屬性標(biāo)注步驟，用于根據(jù)所述字屬性學(xué)習(xí)步驟學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；詞及詞性標(biāo)注合成步驟，用于從所述字屬性標(biāo)注步驟生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記，生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果；輸出步驟，用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
本發(fā)明的有益效果在于，基于語(yǔ)素研究語(yǔ)言成分的構(gòu)成規(guī)律，并對(duì)該語(yǔ)言成分進(jìn)行識(shí)別。本發(fā)明首先根據(jù)待分析語(yǔ)言成分的屬性信息和語(yǔ)素在該語(yǔ)言成分中的位置關(guān)系構(gòu)建語(yǔ)素的屬性標(biāo)注集，然后從語(yǔ)言成分的標(biāo)注樣本中習(xí)得語(yǔ)素與語(yǔ)素屬性的關(guān)系規(guī)律。通過(guò)習(xí)得的語(yǔ)素屬性標(biāo)注規(guī)律，對(duì)輸入文本進(jìn)行語(yǔ)素屬性標(biāo)注，從語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的語(yǔ)言成分及該成分的分類標(biāo)記。本發(fā)明可以作為一個(gè)獨(dú)立的語(yǔ)法或語(yǔ)義成分識(shí)別系統(tǒng)對(duì)中文、日文等自然語(yǔ)言中的詞、詞性、短語(yǔ)及短語(yǔ)屬性進(jìn)行識(shí)別。同時(shí)也可以與其它語(yǔ)言成分識(shí)別系統(tǒng)結(jié)合，對(duì)其它識(shí)別系統(tǒng)輸出的結(jié)果進(jìn)行再分析，提高原有系統(tǒng)的分析精度。另外，本發(fā)明提出的方法也可用于對(duì)基因組序列分析或類似的從輸入符號(hào)序列中識(shí)別某類成分的任務(wù)中。本發(fā)明尤其適合解決漢語(yǔ)的分詞和詞性標(biāo)注問(wèn)題，根據(jù)本發(fā)明實(shí)現(xiàn)的漢語(yǔ)詞法分析系統(tǒng)獲得了良好的分析效果。

圖1、基于語(yǔ)素的自然語(yǔ)言語(yǔ)法成分分析裝置基本結(jié)構(gòu)圖；圖2、基于語(yǔ)素的自然語(yǔ)言語(yǔ)法成分分析裝置具體實(shí)施結(jié)構(gòu)圖；圖3、語(yǔ)素屬性標(biāo)注部?jī)?nèi)部結(jié)構(gòu)圖；圖4、基于語(yǔ)素屬性標(biāo)注的語(yǔ)言成分識(shí)別后處理結(jié)構(gòu)圖；圖5、基于字屬性標(biāo)注的漢語(yǔ)詞法分析裝置結(jié)構(gòu)圖；圖6、字屬性標(biāo)注裝置內(nèi)部結(jié)構(gòu)圖；圖7、漢字序列“小明明天”的可能字屬性候選圖；圖8、漢字序列“小明明天將就BASIC程序錯(cuò)誤進(jìn)行分析”的最終字屬性標(biāo)注候選圖；圖9、最優(yōu)字屬性標(biāo)注鏈圖；圖10、“小明明天將就Basic程序錯(cuò)誤進(jìn)行分析”的分詞候選圖；圖11、基于字屬性標(biāo)注合成的分詞和詞性標(biāo)注結(jié)果圖。
具體實(shí)施例方式
下面結(jié)合

本發(fā)明的具體實(shí)施方式
。首先給出本發(fā)明中語(yǔ)素、語(yǔ)素屬性集和語(yǔ)素屬性標(biāo)注定義定義1語(yǔ)素語(yǔ)言的最小的有意義的成分。
定義2語(yǔ)素組由語(yǔ)素構(gòu)成的上級(jí)語(yǔ)法或語(yǔ)義成分，語(yǔ)素組的屬性為其代表的語(yǔ)言成分的語(yǔ)法或語(yǔ)義分類信息。
定義3語(yǔ)言成分分析從輸入句子中自動(dòng)識(shí)別出需要的語(yǔ)素組、及該語(yǔ)素組的屬性。
給定符號(hào)序列S，包含為n個(gè)語(yǔ)素，則該句子可表示為c1c2…cn-1cn，設(shè)序列包含k個(gè)語(yǔ)言成分，其對(duì)應(yīng)的屬性分別為t1～tk，則S的語(yǔ)言成分分析結(jié)果可以表示為如下形式S′[c1…cl1]t1[ci1+1…ci2]t2…[cik-1+1…cn]tk，其中[c1…cl1]為句子的第一個(gè)語(yǔ)素組，語(yǔ)素組屬性為t1，[cik-1+1…cn]為句子的最后一個(gè)語(yǔ)素組，語(yǔ)素組屬性為tk。根據(jù)上述表示形式，給出下面三個(gè)定義定義4語(yǔ)素位置屬性表示語(yǔ)素在語(yǔ)素組中的可能出現(xiàn)的位置。語(yǔ)素在語(yǔ)言成分中可出現(xiàn)于五種位置該語(yǔ)素本身單獨(dú)構(gòu)成語(yǔ)素組；該語(yǔ)素為所構(gòu)成語(yǔ)素組的第一個(gè)語(yǔ)素；該語(yǔ)素在語(yǔ)素組中間；該語(yǔ)素為語(yǔ)素組的最后一個(gè)；該語(yǔ)素不構(gòu)成需要的語(yǔ)素組。此處我們用符號(hào)S，F(xiàn)，M，L，U表示，分別代表單語(yǔ)素語(yǔ)素組、首位語(yǔ)素、中間語(yǔ)素、末位語(yǔ)素和非語(yǔ)素組語(yǔ)素。
定義5語(yǔ)素屬性為語(yǔ)素的位置屬性和語(yǔ)素組屬性的組合，表示從語(yǔ)素到語(yǔ)素組的構(gòu)成規(guī)律。語(yǔ)素屬性集＝{tp|tp∈{t×p}_{U}}，其中t∈{語(yǔ)素組屬性}，p∈{S，F(xiàn)，M，L} 。
定義6語(yǔ)素屬性標(biāo)注給定輸入句子，對(duì)句子中的每一個(gè)語(yǔ)素給出一個(gè)語(yǔ)素屬性標(biāo)記的過(guò)程。如上述句子，使用語(yǔ)素屬性標(biāo)記可表示為S″c1/tp1c2/tp2…cn-1/tpn-1cn/tpn。
以漢語(yǔ)例，其中字為漢語(yǔ)語(yǔ)素，待分析成分為詞時(shí)給定句子S，包含為n個(gè)字，表示為c1c2…cn-1cn，設(shè)句子包含k個(gè)單詞，詞性分別為t1～tk，則S的詞性標(biāo)注結(jié)果可表示為[c1…cl1]tl[cil+1…ci2]t2…[cik-1+1…cn]tk，其中[c1…cl1]為句子的第一個(gè)語(yǔ)素組，詞性為t1，[cik-1+1…cn]為句子的最后一個(gè)語(yǔ)素組，詞性為tk。
如圖1所示，為本發(fā)明的一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別裝置，包括輸入部，用于輸入待分析符號(hào)序列；語(yǔ)素學(xué)習(xí)部，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待分析自然語(yǔ)言成分的標(biāo)注樣本中自動(dòng)學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；語(yǔ)素屬性標(biāo)注部，用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
所述的輸入部可以是計(jì)算機(jī)，通過(guò)計(jì)算機(jī)的鍵盤(pán)將所述的待分析符號(hào)序列輸入。也可以通過(guò)網(wǎng)絡(luò)(例如局域網(wǎng)及互聯(lián)網(wǎng))將待分析符號(hào)序列輸入所述的輸入部。在該情況下，輸入部也可以為采用網(wǎng)絡(luò)接口的結(jié)構(gòu)。另外，也可以從掃描儀、存儲(chǔ)裝置(例如硬盤(pán)驅(qū)動(dòng)裝置)等將待分析符號(hào)序列輸入所述的輸入部。在該情況下，輸入部可以為根據(jù)將存儲(chǔ)裝置等和本發(fā)明系統(tǒng)的輸入部連接為可進(jìn)行數(shù)據(jù)通信的規(guī)格〔例如USB(Universal Serial Bus)等有線連接及blue tooth等的無(wú)線連接的規(guī)格〕的結(jié)構(gòu)。另外，也可以將存儲(chǔ)介質(zhì)〔例如各種閃存存儲(chǔ)器及軟盤(pán)(注冊(cè)商標(biāo))、CD(Compact Disk)、DVD(Digital Versatile Disc、Digital Video Disc)〕所存儲(chǔ)的待分析符號(hào)序列輸入到所述的輸入部。在該情況下，輸入部可以為采用從存儲(chǔ)介質(zhì)中讀出數(shù)據(jù)的裝置(例如閃存存儲(chǔ)器讀出器及軟盤(pán)驅(qū)動(dòng)裝置、CD驅(qū)動(dòng)裝置、DVD驅(qū)動(dòng)裝置)的結(jié)構(gòu)。
另外，輸入部也可以為適合上述多種情況的結(jié)構(gòu)。
所述的輸出部可以通過(guò)網(wǎng)絡(luò)將所述分析成分合成部的識(shí)別結(jié)果輸出。在該情況下，輸出部為采用網(wǎng)絡(luò)接口的結(jié)構(gòu)。另外，也可以將所述分析成分合成部的識(shí)別結(jié)果輸出到個(gè)人計(jì)算機(jī)等的其他的信息處理裝置及存儲(chǔ)裝置中。在該情況下，輸出部為根據(jù)將個(gè)人計(jì)算機(jī)等其他信息處理裝置或存儲(chǔ)裝置等和本發(fā)明輸出部連接為可進(jìn)行數(shù)據(jù)通信的規(guī)格的結(jié)構(gòu)。另外，也可以將所述分析成分合成部的識(shí)別結(jié)果輸出(寫(xiě)入)到存儲(chǔ)介質(zhì)內(nèi)。在該情況下，輸出部為采用將數(shù)據(jù)寫(xiě)入到這些存儲(chǔ)裝置或存儲(chǔ)介質(zhì)內(nèi)的裝置(例如閃存存儲(chǔ)器記錄器及軟盤(pán)驅(qū)動(dòng)裝置、CD-R驅(qū)動(dòng)裝置、DVD R驅(qū)動(dòng)裝置)的結(jié)構(gòu)。
對(duì)于輸出部所輸出的所述分析成分合成部的識(shí)別結(jié)果的具體用途的例子也進(jìn)行說(shuō)明。例如，為了將所述分析成分合成部的識(shí)別結(jié)果輸出到顯示器等的顯示裝置中，也可以使用輸出部所輸出的數(shù)據(jù)。在此種情況下，輸出部例如也可以為作為和顯示器等的顯示裝置進(jìn)行數(shù)據(jù)通信的接口的結(jié)構(gòu)，也可以為作為與顯示器等的顯示裝置相連接、或?qū)?shù)據(jù)提交給內(nèi)置的信息處理裝置的接口的結(jié)構(gòu)。
另外，輸出部也可以為適合上述的多種情況的結(jié)構(gòu)。
實(shí)施例1如圖2所示，在基于語(yǔ)素屬性標(biāo)注的自然語(yǔ)言成分識(shí)別方法和裝置的具體實(shí)施中，模塊(單元)102、104為構(gòu)成語(yǔ)素學(xué)習(xí)部的主要單元，語(yǔ)素屬性轉(zhuǎn)換部(單元)102應(yīng)用語(yǔ)素屬性生成部108生成的語(yǔ)素屬性集(模塊109)將標(biāo)注了語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本，模塊104從語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)語(yǔ)素與語(yǔ)素屬性的關(guān)系規(guī)律，形成用于語(yǔ)素屬性標(biāo)注的知識(shí)。模塊112、113構(gòu)成了識(shí)別部分，模塊112利用模塊104習(xí)得的語(yǔ)素屬性標(biāo)注知識(shí)，在人工總結(jié)或從標(biāo)注樣本中學(xué)得知識(shí)的指導(dǎo)下，對(duì)輸入符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，模塊113根據(jù)語(yǔ)素組合規(guī)律將語(yǔ)素屬性標(biāo)注結(jié)果合并生成待語(yǔ)言成分分析結(jié)果，并標(biāo)注出分析出的語(yǔ)言成分的分類屬性。模塊102將語(yǔ)言成分標(biāo)注樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本的過(guò)程如下
對(duì)標(biāo)注樣本中任意由c1…ci個(gè)語(yǔ)素構(gòu)成的語(yǔ)素組，設(shè)其語(yǔ)素屬性為t。則i＝1時(shí)，c1的語(yǔ)素屬性為tS；i＝2時(shí)，c1的語(yǔ)素屬性為tF，c2的語(yǔ)素屬性為tL；i＞2時(shí)，c1的語(yǔ)素屬性為tF，c2…ci-1的語(yǔ)素屬性為tM，ci的語(yǔ)素屬性為tL；不在任何語(yǔ)素組的語(yǔ)素，其語(yǔ)素屬性為U。
以漢語(yǔ)分詞和詞性標(biāo)注為例，標(biāo)注樣本“小明/nr 明天/n 將/d 就/d Basic/nx 程序/n 錯(cuò)誤/n 進(jìn)行/v 分析/v”字標(biāo)注序列為“小/nrF 明/nrL 明/nF 天/nL 將/dS 就/dS B/nxF a/nxMs/nxM i/nxM c/nxL 程/nF 序/nL 錯(cuò)/nF 誤/nL 進(jìn)/vF 行/vL 分/vF 析/vL”。
模塊104從語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)語(yǔ)素與語(yǔ)素屬性的關(guān)系，獲取語(yǔ)素屬性標(biāo)注知識(shí)，語(yǔ)素屬性標(biāo)注知識(shí)將用來(lái)對(duì)輸入的語(yǔ)素序列進(jìn)行語(yǔ)素屬性標(biāo)注?？梢允褂没谝?guī)則的、基于統(tǒng)計(jì)的、有指導(dǎo)或無(wú)指導(dǎo)等多種方法學(xué)習(xí)語(yǔ)素屬性標(biāo)注知識(shí)。作為具體例子，本發(fā)明使用隱馬爾可夫模型學(xué)習(xí)語(yǔ)素與語(yǔ)素屬性的關(guān)系。學(xué)習(xí)過(guò)程如下已知輸入句子Sc1c2…cn-1cn，其對(duì)應(yīng)的語(yǔ)素屬性序列TPtp1tp2…tpn-1tpn。
則p(TP|S)=Πi=1,np(tpi|tpi-k...tpi-1)×p(ci|tpi)']]>(公式1)如使用最大似然估計(jì)轉(zhuǎn)移概率和發(fā)射概率，則(公式2)p(ci|tpi)=count(ci,tpi)count(tpi),]]>p(tpi|tpi-k…tpi-1)=count(tpi-k…tpi-1,tpi)count(tpi).]]>(公式2)模塊104從標(biāo)注樣本中獲取的語(yǔ)素屬性標(biāo)注知識(shí)存入模塊105(語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元)。
模塊106從分析成分標(biāo)注樣本中抽取待分析成分，形成待分析成分列表，作為該成分的語(yǔ)言資源存于模塊107(語(yǔ)言資源和知識(shí)存儲(chǔ)單元)，同時(shí)模塊107中還存放各種層次的與該分析成分相關(guān)的資源和知識(shí)，比如待分析成分的語(yǔ)法、語(yǔ)義特征，該語(yǔ)言或符號(hào)系統(tǒng)的特點(diǎn)等。這些資源和知識(shí)將指導(dǎo)語(yǔ)素屬性標(biāo)注部進(jìn)行語(yǔ)素標(biāo)注。
模塊108根據(jù)待分析成分的分類屬性和語(yǔ)素在待分析成分中的位置信息生成語(yǔ)素屬性集、成分分解規(guī)則和語(yǔ)素組合規(guī)則。并將生成的語(yǔ)素屬性集存入語(yǔ)素屬性集存儲(chǔ)單元109。語(yǔ)素屬性集生成過(guò)程為設(shè)t∈{成分分類標(biāo)記}，p∈{S，F(xiàn)，M，L，U}，其中，S，F(xiàn)，M，L，U分別表示單語(yǔ)素為一獨(dú)立成分、多語(yǔ)素成分首位語(yǔ)素、多語(yǔ)素成分中間語(yǔ)素、多語(yǔ)素成分末尾語(yǔ)素和未包括在成分中語(yǔ)素。語(yǔ)素屬性形式為tp，tp∈{詞性標(biāo)注符}×{S，F(xiàn)，M，L}。
模塊112根據(jù)模塊105和模塊107中提供的知識(shí)對(duì)輸入文本進(jìn)行語(yǔ)素標(biāo)注。語(yǔ)素屬性標(biāo)注部(模塊112)包含三個(gè)子部件，其結(jié)構(gòu)如圖3所示其中模塊204為可能語(yǔ)素標(biāo)注生成部，模塊204查詢存放在模塊201中的語(yǔ)素屬性標(biāo)注知識(shí)，獲得輸入文本的每一個(gè)語(yǔ)素所有可能的語(yǔ)素屬性，生成輸入文本的可能語(yǔ)素標(biāo)注候選。
模塊205是對(duì)模塊204生成結(jié)果的過(guò)濾部件，模塊205根據(jù)模塊202中存貯的語(yǔ)言知識(shí)對(duì)模塊204生成的語(yǔ)素屬性候選進(jìn)行篩選，去除不符合語(yǔ)言學(xué)規(guī)律的屬性候選。
模塊205生成的結(jié)果進(jìn)行模塊206最優(yōu)標(biāo)注選擇部，模塊206根據(jù)語(yǔ)素與語(yǔ)素屬性的關(guān)系對(duì)模塊205輸入的標(biāo)注候選進(jìn)行評(píng)價(jià)，輸出最優(yōu)語(yǔ)素屬性標(biāo)注結(jié)果。
最優(yōu)結(jié)果選擇模塊(模塊206)通常與學(xué)習(xí)模塊配合使用，如學(xué)習(xí)模塊使用Hidden Markov Model獲取語(yǔ)素屬性標(biāo)注規(guī)律，則模塊104的語(yǔ)素屬性標(biāo)注過(guò)程將使用Hidden Markov Model估計(jì)輸入文本的語(yǔ)素標(biāo)注候選，輸入語(yǔ)素序列Sc1c2…cn-1cn，基于HMM的最佳語(yǔ)素屬性標(biāo)注序列為T(mén)P*=argmaxTPΠi=1,np(tpi|tpi-k…tpi-1)×p(ci|tpi)]]>(公式3)模塊112輸出的語(yǔ)素屬性標(biāo)注序列進(jìn)入模塊113，由模塊113根據(jù)語(yǔ)素組合規(guī)則合并語(yǔ)素，生成待分析的語(yǔ)法或語(yǔ)義成分并標(biāo)注該成分對(duì)應(yīng)的分類標(biāo)記。
由語(yǔ)素標(biāo)注序列合并待分析語(yǔ)言成分的過(guò)程為a.語(yǔ)素屬性為tS的語(yǔ)素本身構(gòu)成一個(gè)語(yǔ)言成分，其語(yǔ)法或語(yǔ)義屬性為t；b.以語(yǔ)素屬性為tF的語(yǔ)素開(kāi)始，中間包含0個(gè)或多個(gè)語(yǔ)素屬性為tM的語(yǔ)素，至語(yǔ)素屬性為tL的語(yǔ)素的一段語(yǔ)素序列合并為一個(gè)語(yǔ)言成分，其語(yǔ)法或語(yǔ)義屬性為t；c.語(yǔ)素屬性為U的語(yǔ)素不構(gòu)成待分析語(yǔ)言成分。
實(shí)施例2在本發(fā)明的一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正裝置及方法的具體實(shí)施中，包括輸入部，用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列；語(yǔ)素學(xué)習(xí)部，用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；錯(cuò)誤位置發(fā)現(xiàn)部，用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查，發(fā)現(xiàn)錯(cuò)誤的位置；語(yǔ)素屬性標(biāo)注部，用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
可見(jiàn)本發(fā)明可以作為一個(gè)獨(dú)立的語(yǔ)法或語(yǔ)義成分識(shí)別系統(tǒng)對(duì)中文、日文等自然語(yǔ)言中的詞、詞性、短語(yǔ)及短語(yǔ)屬性進(jìn)行識(shí)別。同時(shí)也可以與其它語(yǔ)言成分識(shí)別系統(tǒng)結(jié)合，對(duì)其它識(shí)別系統(tǒng)輸出的結(jié)果進(jìn)行再分析，提高原有系統(tǒng)的分析精度。基于語(yǔ)素屬性標(biāo)注的自然語(yǔ)言成分識(shí)別后處理裝置如圖4所示由其它語(yǔ)言成分識(shí)別裝置產(chǎn)生的初始分析結(jié)果作為本發(fā)明的后處理裝置的輸入，進(jìn)入基于語(yǔ)素屬性標(biāo)注的成分識(shí)別裝置，該裝置針對(duì)原輸出結(jié)果中可能出錯(cuò)的部分進(jìn)行再分析，校正原結(jié)果的一些錯(cuò)誤。
模塊302利用錯(cuò)誤分析中獲得的知識(shí)，對(duì)初始分析結(jié)果進(jìn)行分析，確定初始分析結(jié)果中可能出錯(cuò)的范圍，隨后進(jìn)入語(yǔ)素標(biāo)注候選生成部根據(jù)初始結(jié)果和易錯(cuò)位置信息生成語(yǔ)素標(biāo)注候選。
模塊303的語(yǔ)素標(biāo)注候選的生成原則如下a.初始分析結(jié)果中未包括在可能出錯(cuò)位置的語(yǔ)言成分，認(rèn)為是識(shí)別正確的成分。
b.正確成分中的所有語(yǔ)素的語(yǔ)素屬性候選不能與語(yǔ)素在正確成分中的位置和正確成分的屬性沖突。
c.包括在可能出錯(cuò)位置的語(yǔ)素，根據(jù)語(yǔ)素屬性標(biāo)注知識(shí)生成所有可能的語(yǔ)素標(biāo)注候選。
模塊303生成的所有語(yǔ)素標(biāo)注候選進(jìn)入最優(yōu)標(biāo)注結(jié)果選擇部選擇最優(yōu)標(biāo)注候選。最優(yōu)標(biāo)注結(jié)果選擇部與圖3中模塊206為同一功能的部件。
最優(yōu)標(biāo)注結(jié)果進(jìn)入分析成分合成部，圖4中分析成分合成部與圖2模塊113為同一功能的部件。
由分析成分合成部輸出的結(jié)果即為對(duì)初始分析結(jié)果的校對(duì)結(jié)果。
本發(fā)明提出的后處理方法可處理原有方法誤識(shí)、漏誤的語(yǔ)言成分，因其描述了從語(yǔ)素到待分析語(yǔ)言成分的生成規(guī)律，所以尤其適合解決標(biāo)注樣本中未出現(xiàn)語(yǔ)言成分的識(shí)別。
實(shí)施例3在本發(fā)明的一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別裝置及方法的具體實(shí)施方式
中，包括輸入部，用于輸入待分析漢語(yǔ)文本序列；字屬性學(xué)習(xí)部，用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性，并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律；字屬性標(biāo)注部，用于根據(jù)所述字屬性學(xué)習(xí)部學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；詞及詞性標(biāo)注合成部，用于從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記，生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果；輸出部，用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
由于漢語(yǔ)詞與詞之間沒(méi)有標(biāo)記，所以漢語(yǔ)詞法分析是漢語(yǔ)語(yǔ)法成分分析的首要問(wèn)題。本發(fā)明提出的基于語(yǔ)素的自然語(yǔ)言語(yǔ)法成分分析方法，可以用來(lái)解決漢語(yǔ)的詞法分析問(wèn)題。作為基于語(yǔ)素的自然語(yǔ)言語(yǔ)言成分識(shí)別方法的實(shí)例，我們實(shí)現(xiàn)了一個(gè)基于字屬性標(biāo)注的隱馬爾可夫模型的漢語(yǔ)詞法分析裝置。
在本發(fā)明的漢語(yǔ)詞法分析中，語(yǔ)素為漢字；詞為待分析語(yǔ)言成分；此時(shí)，語(yǔ)素組標(biāo)注集即為漢語(yǔ)的詞性標(biāo)注集；語(yǔ)素屬性即為字屬性，形式為tp，其中t∈{詞性標(biāo)注符}，p∈{S，F(xiàn)，M，L}，S，F(xiàn)，M，L分別表示單字為詞、多字詞首字、多字詞中間字和多字詞尾字。tp∈{詞性標(biāo)注符}×{S，F(xiàn)，M，L}。
基于字屬性標(biāo)注的漢語(yǔ)詞法分析裝置的結(jié)果如圖5所示該裝置也是基于語(yǔ)素的自然語(yǔ)言成分識(shí)別裝置的更為具體的例子，其運(yùn)行過(guò)程與本發(fā)明的基于語(yǔ)素的自然語(yǔ)言成分識(shí)別裝置完全一致。
模塊401將分詞和詞性標(biāo)注語(yǔ)料映射為字性標(biāo)注語(yǔ)料，轉(zhuǎn)換過(guò)程為設(shè)語(yǔ)料中某詞由c1…ci個(gè)漢字構(gòu)成，詞性為t。則i＝1時(shí)，c1的字性標(biāo)注為tSi＝2時(shí)，c1的字性標(biāo)注為tF，c2的字性標(biāo)注為tLi＞2時(shí)，c1的字性標(biāo)注為tF，c2…ci-1的字性標(biāo)注為tM，ci的字性標(biāo)注為tL例如，標(biāo)注句子“小明/nr 明天/n 將/d 就/d Basic/nx 程序/n 錯(cuò)誤/n 進(jìn)行/v 分析/v”，映射為字標(biāo)注序列為“小/nrF 明/nrL 明/nF 天/nL 將/dS 就/dS B/nxF a/nxM s/nxM i/nxM c/nxL 程/nF 序/nL 錯(cuò)/nF 誤/nL 進(jìn)/vF 行/vL分/vF 析/vL”。
模塊404字屬性標(biāo)注訓(xùn)練器，采用隱馬爾可夫模型抽取由字到字屬性的關(guān)系。輸入的漢字序列，抽象為隱馬爾可夫過(guò)程的觀察鏈，求取最優(yōu)字屬性序列的過(guò)程抽象為已知觀察鏈時(shí)求馬爾可夫隱藏鏈的過(guò)程?；窘＿^(guò)程為已知輸入句子Sc1c2…cn-1cn，對(duì)應(yīng)的字屬性標(biāo)注序列TPtp1tp2…tpn-1tpn。
則，p(TP|S)=Πi=1,np(tpi|tpi-k...tpi-1)×p(ci|tpi)]]>p(ci|tpi)=count(ci,tpi)count(tpi),]]>p(tpi|tpi-k...tpi-1)=count(tpi-k...tpi-1,tpi)count(tpi)]]>隱馬爾可夫模型建模獲得的字與字屬性標(biāo)注間的概率分布存貯到模塊405(字屬性標(biāo)注知識(shí)存儲(chǔ)單元)，以備分析時(shí)使用。
模塊409給輸入漢語(yǔ)文本的每個(gè)詞標(biāo)注一個(gè)當(dāng)前上下文情況下最適合的字屬性，輸出文本的字屬性標(biāo)注序列。模塊409主要包含字屬性生成部、錯(cuò)誤候選剔除部和最優(yōu)結(jié)果選擇部。其內(nèi)部結(jié)構(gòu)如圖6所示模塊501中存貯的字屬性標(biāo)注知識(shí)由圖5中模塊404從字屬性標(biāo)注樣本中訓(xùn)練獲得，如模塊404采用隱馬爾可夫模型學(xué)習(xí)字屬性標(biāo)注知識(shí)，則圖6模塊501中將存放每個(gè)漢字可能出現(xiàn)的字屬性、字屬性到字的發(fā)射概率、字屬性與字屬性間的轉(zhuǎn)移概率。
圖6中的字屬性生成部(模塊504)查詢模塊501中包含的字屬性標(biāo)注知識(shí)，給出輸入句子的每個(gè)字可能的字屬性候選。
由于漢語(yǔ)的構(gòu)詞規(guī)律非常靈活，因此每個(gè)字具有的字屬性候選也較多，因此模塊502依靠構(gòu)詞規(guī)則和高頻詞詞典，過(guò)濾大部分不合法的字屬性候選。其過(guò)濾過(guò)程如下a.去掉當(dāng)前上下文情況下，不能組合為詞的字屬性。比如首字的字屬性候選中所有xM和xL類的字屬性，尾字的字屬性候選中所有xM，xF類屬性等。(其中x為這的任意詞屬性)b.根據(jù)字的位置屬性生成輸入句子的所有可能詞候選，對(duì)于每個(gè)詞，查詢?cè)~典，如詞典中包含該詞，則其可能詞性已經(jīng)規(guī)定，根據(jù)該詞詞性，去掉字屬性中不能產(chǎn)生詞典指定詞性的候選字屬性。如詞典中沒(méi)有該詞，則該詞可能為未登錄詞，保留其所有字屬性候選。
經(jīng)過(guò)模塊505過(guò)濾后保留的字屬性候選進(jìn)入最優(yōu)標(biāo)注候選選擇部(模塊506)由模塊506根據(jù)字屬性標(biāo)注知識(shí)選擇最優(yōu)字屬性標(biāo)注結(jié)果。如采用隱馬爾可夫模型評(píng)價(jià)字屬性標(biāo)注結(jié)果，則輸入句子c1c2…cn-1cn的最佳字屬性標(biāo)注序列為T(mén)P*=argmaxTPΠi=1,np(tpi|tpi-k...tpi-1)×p(ci|tpi)]]>輸出的字屬性標(biāo)注序列由圖4模塊405合成輸入文本的分詞和詞性標(biāo)注結(jié)果。合成過(guò)程為a.所有字屬性為tS，映射為單字詞，詞性為t；b.所有字屬性為tF，為詞首字，字屬性為tM，為詞中間字，字屬性為tL為詞尾字，共同組成一個(gè)單詞，詞性為t.
下面通過(guò)例子具體描述本發(fā)明各裝置及方法的分析過(guò)程。
待分析句子“小明明天將就Basic程序錯(cuò)誤進(jìn)行分析”該句含有若干切分歧義，在圖10中每條弧線代表一種切分形式，其中只有實(shí)線弧所對(duì)應(yīng)的切分形式是正確的。
句中“將就”是一個(gè)比較典型的組合歧義，它有兩種切分可能“將就/v”和“將/d 就/d”，在本句中“將/d 就/d”是正確的切分。切分為“將/d 就/d”的詞結(jié)點(diǎn)個(gè)數(shù)多于切分為“將就/v”時(shí)的結(jié)點(diǎn)個(gè)數(shù)，如采用基于詞的分析模型，由于基于詞的模型傾向于選擇結(jié)點(diǎn)個(gè)數(shù)少的切分結(jié)果，很難獲得正確的切分結(jié)果。而采用本發(fā)明的基于字屬性標(biāo)注的方法，可以避免切分偏向的問(wèn)題(bias)，能夠獲得正確的結(jié)果。
本發(fā)明的分析過(guò)程如下根據(jù)字的字屬性候選表，獲得每個(gè)字可能的字屬性標(biāo)注候選如‘小’‘明’‘天’3字包含的可能字屬性候選如圖7所示查詢核心詞典，對(duì)字屬性候選進(jìn)行粗選，去除當(dāng)前上下文情況下，不可能出現(xiàn)的候選，形成最終字屬性標(biāo)注候選如圖8所示
采用公式(3)對(duì)所有可能的字屬性標(biāo)注鏈，進(jìn)行評(píng)價(jià)，獲得最優(yōu)結(jié)果。
本例中最優(yōu)字屬性標(biāo)注鏈如圖9所示其所對(duì)應(yīng)的分詞和詞性標(biāo)注結(jié)果如圖11所示。
本發(fā)明的有益效果在于，基于語(yǔ)素研究語(yǔ)言成分的構(gòu)成規(guī)律，并對(duì)該語(yǔ)言成分進(jìn)行識(shí)別。本發(fā)明首先根據(jù)待分析語(yǔ)言成分的屬性信息和語(yǔ)素在該語(yǔ)言成分中的位置關(guān)系構(gòu)建語(yǔ)素的屬性標(biāo)注集，然后從語(yǔ)言成分的標(biāo)注樣本中習(xí)得語(yǔ)素與語(yǔ)素屬性的關(guān)系規(guī)律。通過(guò)習(xí)得的語(yǔ)素屬性標(biāo)注規(guī)律，對(duì)輸入文本進(jìn)行語(yǔ)素屬性標(biāo)注，從語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的語(yǔ)言成分及該成分的分類標(biāo)記。本發(fā)明可以作為一個(gè)獨(dú)立的語(yǔ)法或語(yǔ)義成分識(shí)別系統(tǒng)對(duì)中文、日文等自然語(yǔ)言中的詞、詞性、短語(yǔ)及短語(yǔ)屬性進(jìn)行識(shí)別。同時(shí)也可以與其它語(yǔ)言成分識(shí)別系統(tǒng)結(jié)合，對(duì)其它識(shí)別系統(tǒng)輸出的結(jié)果進(jìn)行再分析，提高原有系統(tǒng)的分析精度。另外，本發(fā)明提出的方法也可用于對(duì)基因組序列分析或類似的從輸入符號(hào)序列中識(shí)別某類成分的任務(wù)中。本發(fā)明尤其適合解決漢語(yǔ)的分詞和詞性標(biāo)注問(wèn)題，根據(jù)本發(fā)明實(shí)現(xiàn)的漢語(yǔ)詞法分析系統(tǒng)獲得了良好的分析效果。
本發(fā)明的保護(hù)范圍，描述在權(quán)利要求書(shū)中。本發(fā)明以漢語(yǔ)為實(shí)例闡述本發(fā)明的實(shí)現(xiàn)步驟，但是，使用本發(fā)明描述的步驟可同樣對(duì)其它語(yǔ)言中的語(yǔ)法或語(yǔ)義成分進(jìn)行識(shí)別，本發(fā)明方法也可用于對(duì)基因組序列的分析或類似的從輸入符號(hào)序列中識(shí)別某類成分的任務(wù)。因此可以理解，凡應(yīng)用于其它語(yǔ)言或符號(hào)系統(tǒng)，不超出本發(fā)明的構(gòu)思要領(lǐng)的變化都應(yīng)歸于本發(fā)明的保護(hù)范圍之中。
參考文獻(xiàn)[1]Andi Wu；Stephen D.Richardson；Zixin Jiang；6,640,006 Oct.28，2003 Wordsegmentation in chinese text [patent]；[2]Toshihiko Yokogawa；5,225,981 Jul.6，1991，language analyzer for morphemicallyanalyzing by using block analysis and composite morphemes [patent]；[3]Sproat，Richard and Tom Emerson.2003.The first international Chinese wordsegmentation bakeoff.InSIGHAN 2003；[4]Sproat，Richard and Chilin Shih.2002.Corpus-based methods in Chinese morphologyand phonology.InCOLING 2002；[5]Hua-Ping Zhang，Hong-Kui Yu，De-Yi Xiong and Qun Liu，HHMM-based ChineseLexical Analyzer ICTCLAS，proceedings of 2nd SigHan Workshop，July 2003，pp.184-187[6]Jianfeng Gao，Andi Wu，Mu Li，et al.2004.Adaptive Chinese word segmentation.InACL 2004；[7]Michael Collins Threee Generative，Lexicalised Models for Statistical Parsing.InACL 1997。
權(quán)利要求
1.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別裝置，包括輸入部，用于輸入待分析符號(hào)序列；其特征在于還包括語(yǔ)素學(xué)習(xí)部，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；語(yǔ)素屬性標(biāo)注部，用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的裝置，其特征在于，所述的語(yǔ)素學(xué)習(xí)部進(jìn)一步包括語(yǔ)素屬性生成單元，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集，以用語(yǔ)素屬性表示自然語(yǔ)言成分及其分類信息；語(yǔ)素屬性轉(zhuǎn)換單元，用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本；語(yǔ)素標(biāo)注知識(shí)抽取單元，用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí)；所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列。
3.根據(jù)權(quán)利要求2所述的裝置，其特征在于，所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性集存儲(chǔ)單元，用于存儲(chǔ)所述的語(yǔ)素屬性集；語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元，用于存儲(chǔ)所述的語(yǔ)素屬性標(biāo)注知識(shí)；語(yǔ)言知識(shí)抽取單元，用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分，生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源；語(yǔ)言資源和知識(shí)存儲(chǔ)單元，用于存儲(chǔ)所述的語(yǔ)言資源，以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí)；所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；所述的分析成分合成部，根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
4.根據(jù)權(quán)利要求1所述的裝置，其特征在于，所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性生成單元、語(yǔ)素屬性轉(zhuǎn)換單元、語(yǔ)素標(biāo)注知識(shí)抽取單元、語(yǔ)言知識(shí)抽取單元、語(yǔ)素屬性集存儲(chǔ)單元、語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元、自然語(yǔ)言資源和知識(shí)存儲(chǔ)單元；其中所述的語(yǔ)素屬性生成單元，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集，并講所述的語(yǔ)素屬性集存入所述的語(yǔ)素屬性集存儲(chǔ)單元；所述的語(yǔ)素屬性轉(zhuǎn)換單元，用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本；語(yǔ)素標(biāo)注知識(shí)抽取單元，用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí)，并將所述的語(yǔ)素屬性標(biāo)注知識(shí)存入所述的語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元；所述的語(yǔ)言知識(shí)抽取單元，用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分，生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源，并將所述的語(yǔ)言資源以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí)存入所述的語(yǔ)言資源和知識(shí)存儲(chǔ)單元；所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；所述的分析成分合成部，根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
5.根據(jù)權(quán)利要求1或4所述的裝置，其特征在于，所述的語(yǔ)素屬性標(biāo)注部進(jìn)一步包括可能語(yǔ)素標(biāo)注生成單元，采用語(yǔ)素屬性標(biāo)注知識(shí)生成語(yǔ)素標(biāo)注候選；錯(cuò)誤候選剔除單元，采用語(yǔ)素、以及比語(yǔ)素高級(jí)的語(yǔ)言成分等各種層次的語(yǔ)言資源與知識(shí)對(duì)語(yǔ)素屬性候選進(jìn)行篩選，去除不合法的語(yǔ)素屬性候選，實(shí)現(xiàn)對(duì)所述的可能語(yǔ)素標(biāo)注生成單元傳來(lái)的語(yǔ)素標(biāo)注候選的錯(cuò)誤過(guò)濾；最優(yōu)標(biāo)注結(jié)果選擇單元，生成待分析符號(hào)序列的最優(yōu)語(yǔ)素屬性標(biāo)注序列，實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的語(yǔ)素屬性候選的最優(yōu)化處理。
6.根據(jù)權(quán)利要求1所述的裝置，其特征在于，所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
7.根據(jù)權(quán)利要求1所述的裝置，其特征在于，所述的輸入的待分析符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
8.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正裝置，包括輸入部，用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列；其特征在于包括語(yǔ)素學(xué)習(xí)部，用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；錯(cuò)誤位置發(fā)現(xiàn)部，用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查，發(fā)現(xiàn)錯(cuò)誤的位置；語(yǔ)素屬性標(biāo)注部，用于根據(jù)所述語(yǔ)素學(xué)習(xí)部學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述的語(yǔ)素屬性標(biāo)注部進(jìn)一步包括語(yǔ)素標(biāo)注候選生成單元，用于對(duì)輸入的待校正符號(hào)序列保留正確的原有分析結(jié)果，對(duì)出錯(cuò)部分的語(yǔ)素則生成該語(yǔ)素所有可能的標(biāo)注候選；最優(yōu)結(jié)果選擇單元，用于對(duì)語(yǔ)素標(biāo)注序列保留了原有結(jié)果中正確的分析信息，而對(duì)出錯(cuò)的位置進(jìn)行重新標(biāo)注。
10.根據(jù)權(quán)利要求8或9所述的裝置，其特征在于，所述的語(yǔ)素學(xué)習(xí)部還包括語(yǔ)素屬性生成單元、語(yǔ)素屬性轉(zhuǎn)換單元、語(yǔ)素標(biāo)注知識(shí)抽取單元、語(yǔ)素屬性集存儲(chǔ)單元、語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元、錯(cuò)誤分析知識(shí)存儲(chǔ)單元；其中所述的語(yǔ)素屬性生成單元，用于根據(jù)待校驗(yàn)自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集，并講所述的語(yǔ)素屬性集存入所述的語(yǔ)素屬性集存儲(chǔ)單元；所述的語(yǔ)素屬性轉(zhuǎn)換單元，用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待校驗(yàn)自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本；語(yǔ)素標(biāo)注知識(shí)抽取單元，用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待校驗(yàn)自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí)，并將所述的語(yǔ)素屬性標(biāo)注知識(shí)存入所述的語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)單元；錯(cuò)誤分析知識(shí)存儲(chǔ)單元，用于存儲(chǔ)待校驗(yàn)語(yǔ)言成分的錯(cuò)誤分析知識(shí)；所述的錯(cuò)誤位置發(fā)現(xiàn)部，根據(jù)所述的錯(cuò)誤分析知識(shí)對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查，發(fā)現(xiàn)錯(cuò)誤的位置；所述的語(yǔ)素屬性標(biāo)注部根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待校正符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；所述的分析成分合成部，根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
11.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
12.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述的輸入的待校驗(yàn)符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
13.一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別裝置，包括輸入部，用于輸入待分析漢語(yǔ)文本序列；其特征在于還包括字屬性學(xué)習(xí)部，用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性，并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律；字屬性標(biāo)注部，用于根據(jù)所述字屬性學(xué)習(xí)部學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；詞及詞性標(biāo)注合成部，用于從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記，生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果；輸出部，用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述的字屬性學(xué)習(xí)部進(jìn)一步包括字屬性轉(zhuǎn)換單元，用于根據(jù)字屬性組成詞及詞性規(guī)則將漢語(yǔ)分詞、詞性標(biāo)注語(yǔ)料的樣本轉(zhuǎn)換為字屬性標(biāo)注樣本；字標(biāo)注知識(shí)訓(xùn)練單元，用于以字為基本單元從所述的字屬性標(biāo)注樣本中學(xué)習(xí)待分析漢語(yǔ)分詞、詞性的內(nèi)部構(gòu)成及該分詞、詞性與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的字屬性標(biāo)注知識(shí)；所述的字屬性標(biāo)注部根據(jù)所述的字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列。
15.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述的字學(xué)習(xí)部還包括字屬性組成詞及詞性規(guī)則存儲(chǔ)單元，用于存儲(chǔ)字屬性組成詞及詞性規(guī)則；字屬性標(biāo)注知識(shí)存儲(chǔ)單元，用于存儲(chǔ)所述的字屬性標(biāo)注知識(shí)；詞典及詞結(jié)構(gòu)規(guī)則存儲(chǔ)單元，用于存儲(chǔ)漢語(yǔ)的語(yǔ)言資源，以及各種層次的與漢語(yǔ)成分相關(guān)的語(yǔ)言資源和知識(shí)；所述的字屬性標(biāo)注部根據(jù)所述的語(yǔ)言資源和知識(shí)、字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；所述的詞及詞性標(biāo)注合成部，根據(jù)所述的字屬性組成詞及詞性規(guī)則從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的漢語(yǔ)成分及該成分的分類標(biāo)記。
16.根據(jù)權(quán)利要求13或15所述的裝置，其特征在于，所述的字屬性標(biāo)注部進(jìn)一步包括字屬性標(biāo)注生成單元，采用字屬性標(biāo)注知識(shí)生成字屬性標(biāo)注候選；錯(cuò)誤候選剔除單元，采用構(gòu)詞規(guī)則和高頻詞詞典對(duì)字屬性標(biāo)注候選進(jìn)行篩選，去除不合法的字屬性標(biāo)注候選，實(shí)現(xiàn)對(duì)所述的字屬性標(biāo)注生成單元傳來(lái)的字屬性標(biāo)注候選的錯(cuò)誤過(guò)濾；最優(yōu)標(biāo)注結(jié)果選擇單元，生成待分析漢語(yǔ)文本序列的最優(yōu)字屬性標(biāo)注序列，實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的字屬性標(biāo)注候選的最優(yōu)化處理。
17.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別方法，其特征在于包括輸入步驟，用于輸入待分析符號(hào)序列；語(yǔ)素學(xué)習(xí)步驟，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；語(yǔ)素屬性標(biāo)注步驟，用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成步驟，用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出步驟，用于輸出所述分析成分合成部的識(shí)別結(jié)果。
18.根據(jù)權(quán)利要求17所述的方法，其特征在于，所述的語(yǔ)素學(xué)習(xí)步驟進(jìn)一步包括語(yǔ)素屬性生成步驟，用于根據(jù)待分析自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置信息生成語(yǔ)素屬性集，以用語(yǔ)素屬性表示自然語(yǔ)言成分及其分類信息；語(yǔ)素屬性轉(zhuǎn)換步驟，用于根據(jù)所述語(yǔ)素屬性集將標(biāo)注了待分析自然語(yǔ)言成分的樣本轉(zhuǎn)換為語(yǔ)素屬性標(biāo)注樣本；語(yǔ)素標(biāo)注知識(shí)抽取步驟，用于以語(yǔ)素為基本單元從所述的語(yǔ)素屬性標(biāo)注樣本中學(xué)習(xí)待分析自然語(yǔ)言成分的內(nèi)部構(gòu)成及自然語(yǔ)言成分與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的語(yǔ)素屬性標(biāo)注知識(shí)；所述的語(yǔ)素屬性標(biāo)注步驟根據(jù)所述的語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列。
19.根據(jù)權(quán)利要求18所述的方法，其特征在于，所述的語(yǔ)素學(xué)習(xí)步驟還包括語(yǔ)素屬性集存儲(chǔ)步驟，用于存儲(chǔ)所述的語(yǔ)素屬性集；語(yǔ)素屬性標(biāo)注知識(shí)存儲(chǔ)步驟，用于存儲(chǔ)所述的語(yǔ)素屬性標(biāo)注知識(shí)；語(yǔ)言知識(shí)抽取步驟，用于從分析自然語(yǔ)言成分標(biāo)注樣本中抽取待分析語(yǔ)言成分，生成待分析語(yǔ)言成分列表作為該語(yǔ)言成分的語(yǔ)言資源；語(yǔ)言資源和知識(shí)存儲(chǔ)步驟，用于存儲(chǔ)所述的語(yǔ)言資源，以及各種層次的與所述分析自然語(yǔ)言成分相關(guān)的語(yǔ)言資源和知識(shí)；所述的語(yǔ)素屬性標(biāo)注步驟，根據(jù)所述的語(yǔ)言資源和知識(shí)、語(yǔ)素屬性標(biāo)注知識(shí)對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；所述的分析成分合成步驟，根據(jù)所述的語(yǔ)素屬性集從所述語(yǔ)素屬性標(biāo)注部生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記。
20.根據(jù)權(quán)利要求17所述的方法，其特征在于，所述的語(yǔ)素屬性標(biāo)注步驟進(jìn)一步包括可能語(yǔ)素標(biāo)注生成步驟，采用語(yǔ)素屬性標(biāo)注知識(shí)生成語(yǔ)素標(biāo)注候選；錯(cuò)誤候選剔除步驟，采用語(yǔ)素、以及比語(yǔ)素高級(jí)的語(yǔ)言成分等各種層次的語(yǔ)言資源與知識(shí)對(duì)語(yǔ)素屬性候選進(jìn)行篩選，去除不合法的語(yǔ)素屬性候選，實(shí)現(xiàn)對(duì)所述的可能語(yǔ)素標(biāo)注生成步驟傳來(lái)的語(yǔ)素標(biāo)注候選的錯(cuò)誤過(guò)濾；最優(yōu)標(biāo)注結(jié)果選擇步驟，生成待分析符號(hào)序列的最優(yōu)語(yǔ)素屬性標(biāo)注序列，實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除步驟傳來(lái)的語(yǔ)素屬性候選的最優(yōu)化處理。
21.根據(jù)權(quán)利要求17所述的方法，其特征在于，所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
22.根據(jù)權(quán)利要求17所述的方法，其特征在于，所述的輸入的待分析符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
23.一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分校正方法，其特征在于包括輸入步驟，用于接收來(lái)自其它自然語(yǔ)言成分識(shí)別系統(tǒng)輸出的待校正符號(hào)序列；語(yǔ)素學(xué)習(xí)步驟，用于根據(jù)待校正自然語(yǔ)言成分的分類信息和語(yǔ)素在該自然語(yǔ)言成分中的位置生成語(yǔ)素屬性，并從待校正自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；錯(cuò)誤位置發(fā)現(xiàn)步驟，用于對(duì)輸入的待校正符號(hào)序列進(jìn)行檢查，發(fā)現(xiàn)錯(cuò)誤的位置；語(yǔ)素屬性標(biāo)注步驟，用于根據(jù)所述語(yǔ)素學(xué)習(xí)步驟學(xué)習(xí)得到的語(yǔ)素與語(yǔ)素屬性之間的關(guān)系規(guī)律對(duì)輸入的待校正符號(hào)序列中的錯(cuò)誤位置進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成步驟，用于從所述語(yǔ)素屬性標(biāo)注步驟生成的語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出步驟，用于輸出所述分析成分合成步驟的識(shí)別結(jié)果。
24.根據(jù)權(quán)利要求23所述的方法，其特征在于，所述的語(yǔ)素屬性標(biāo)注步驟進(jìn)一步包括語(yǔ)素標(biāo)注候選生成步驟，用于對(duì)輸入的待校正符號(hào)序列保留正確的原有分析結(jié)果，對(duì)出錯(cuò)部分的語(yǔ)素則生成該語(yǔ)素所有可能的標(biāo)注候選；最優(yōu)結(jié)果選擇步驟，用于對(duì)語(yǔ)素標(biāo)注序列保留了原有結(jié)果中正確的分析信息，而對(duì)出錯(cuò)的位置進(jìn)行重新標(biāo)注。
25.根據(jù)權(quán)利要求23所述的方法，其特征在于，所述的自然語(yǔ)言包括漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因符號(hào)。
26.根據(jù)權(quán)利要求23所述的方法，其特征在于，所述的輸入的待校驗(yàn)符號(hào)序列包括自然語(yǔ)言文本序列、基因組序列。
27.一種基于字屬性標(biāo)注的漢語(yǔ)成分識(shí)別方法，其特征在于包括輸入步驟，用于輸入待分析漢語(yǔ)文本序列；字屬性學(xué)習(xí)步驟，用于根據(jù)待分析漢語(yǔ)的分詞、詞性標(biāo)注語(yǔ)料生成字屬性，并從待分析漢語(yǔ)的分詞、詞性的標(biāo)注樣本中學(xué)習(xí)得到字與所述字屬性之間的關(guān)系規(guī)律；字屬性標(biāo)注步驟，用于根據(jù)所述字屬性學(xué)習(xí)步驟學(xué)習(xí)得到的字與字屬性之間的關(guān)系規(guī)律對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；詞及詞性標(biāo)注合成步驟，用于從所述字屬性標(biāo)注步驟生成的字屬性標(biāo)注序列中識(shí)別出需要的分類標(biāo)記，生成輸入漢語(yǔ)文本序列的切分和詞性標(biāo)注結(jié)果；輸出步驟，用于輸出所述詞及詞性標(biāo)注合成部生成的結(jié)果。
28.根據(jù)權(quán)利要求27所述的方法，其特征在于，所述的字屬性學(xué)習(xí)步驟進(jìn)一步包括字屬性轉(zhuǎn)換步驟，用于根據(jù)字屬性組成詞及詞性規(guī)則將漢語(yǔ)分詞、詞性標(biāo)注語(yǔ)料的樣本轉(zhuǎn)換為字屬性標(biāo)注樣本；字標(biāo)注知識(shí)訓(xùn)練步驟，用于以字為基本單元從所述的字屬性標(biāo)注樣本中學(xué)習(xí)待分析漢語(yǔ)分詞、詞性的內(nèi)部構(gòu)成及該分詞、詞性與上下文的關(guān)系，生成用統(tǒng)計(jì)模型描述的字屬性標(biāo)注知識(shí)；所述的字屬性標(biāo)注步驟根據(jù)所述的字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列。
29.根據(jù)權(quán)利要求28所述的方法，其特征在于，所述字學(xué)習(xí)步驟還包括字屬性組成詞及詞性規(guī)則存儲(chǔ)步驟，用于存儲(chǔ)字屬性組成詞及詞性規(guī)則；字屬性標(biāo)注知識(shí)存儲(chǔ)步驟，用于存儲(chǔ)所述的字屬性標(biāo)注知識(shí)；詞典及詞結(jié)構(gòu)規(guī)則存儲(chǔ)步驟，用于存儲(chǔ)漢語(yǔ)的語(yǔ)言資源，以及各種層次的與漢語(yǔ)成分相關(guān)的語(yǔ)言資源和知識(shí)；所述的字屬性標(biāo)注步驟根據(jù)所述的語(yǔ)言資源和知識(shí)、字屬性標(biāo)注知識(shí)對(duì)輸入的待分析漢語(yǔ)文本序列進(jìn)行字屬性標(biāo)注，生成字屬性標(biāo)注序列；所述的詞及詞性標(biāo)注合成步驟，根據(jù)所述的字屬性組成詞及詞性規(guī)則從所述字屬性標(biāo)注部生成的字屬性標(biāo)注序列中識(shí)別出需要的漢語(yǔ)成分及該成分的分類標(biāo)記。
30.根據(jù)權(quán)利要求27或29所述的方法，其特征在于，所述的字屬性標(biāo)注步驟進(jìn)一步包括字屬性標(biāo)注生成步驟，采用字屬性標(biāo)注知識(shí)生成字屬性標(biāo)注候選；錯(cuò)誤候選剔除步驟，采用構(gòu)詞規(guī)則和高頻詞詞典對(duì)字屬性標(biāo)注候選進(jìn)行篩選，去除不合法的字屬性標(biāo)注候選，實(shí)現(xiàn)對(duì)所述的字屬性標(biāo)注生成單元傳來(lái)的字屬性標(biāo)注候選的錯(cuò)誤過(guò)濾；最優(yōu)標(biāo)注結(jié)果選擇步驟，生成待分析漢語(yǔ)文本序列的最優(yōu)字屬性標(biāo)注序列，實(shí)現(xiàn)對(duì)所述的錯(cuò)誤候選剔除單元傳來(lái)的字屬性標(biāo)注候選的最優(yōu)化處理。
全文摘要
本發(fā)明為一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法，包括輸入部，用于輸入待分析符號(hào)序列；語(yǔ)素學(xué)習(xí)部，用于生成語(yǔ)素屬性，并從待分析自然語(yǔ)言成分的標(biāo)注樣本中學(xué)習(xí)得到語(yǔ)素與所述語(yǔ)素屬性之間的關(guān)系規(guī)律；語(yǔ)素屬性標(biāo)注部，用于對(duì)輸入的待分析符號(hào)序列進(jìn)行語(yǔ)素屬性標(biāo)注，生成語(yǔ)素屬性標(biāo)注序列；分析成分合成部，用于從語(yǔ)素屬性標(biāo)注序列中識(shí)別出需要的自然語(yǔ)言成分及該自然語(yǔ)言成分的分類標(biāo)記；輸出部，用于輸出所述分析成分合成部的識(shí)別結(jié)果。用以從輸入的漢語(yǔ)、日語(yǔ)等自然語(yǔ)言或基因組等符號(hào)序列中識(shí)別出需要的語(yǔ)言成分或遺傳因子等符號(hào)組，并標(biāo)注出識(shí)別成分的分類屬性。從而解決諸如漢語(yǔ)的未登錄詞等問(wèn)題。
文檔編號(hào)G06F17/27GK1936885SQ20051010356
公開(kāi)日2007年3月28日申請(qǐng)日期2005年9月21日優(yōu)先權(quán)日2005年9月21日
發(fā)明者孟遙, 于浩, 西野文人申請(qǐng)人:富士通株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孟遙;于浩;西野文人
技術(shù)所有人：富士通株式會(huì)社
我是此專利的發(fā)明人

上一篇：用于估計(jì)教育資源的方法
上一篇：穩(wěn)定mp3播放時(shí)間的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自然語(yǔ)言處理相關(guān)技術(shù)

自然語(yǔ)言相關(guān)技術(shù)

python自然語(yǔ)言處理相關(guān)技術(shù)

自然語(yǔ)言理解相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法

一種基于語(yǔ)素標(biāo)注的自然語(yǔ)言成分識(shí)別、校正裝置及方法