維吾爾語(yǔ)詞干提取方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了維吾爾語(yǔ)詞干提取方法,根據(jù)維吾爾語(yǔ)的形態(tài)特點(diǎn)對(duì)維吾爾語(yǔ)詞干提取規(guī)則形式化,依據(jù)維吾爾語(yǔ)名詞形態(tài)構(gòu)造構(gòu)形詞綴優(yōu)先自動(dòng)機(jī)、形容詞、數(shù)詞、量詞、代詞、副詞等靜詞的有限狀態(tài)自動(dòng)機(jī)(FSM),對(duì)動(dòng)詞的詞干、人稱(chēng)形式、非人稱(chēng)形式等構(gòu)建了范疇級(jí)別的相互連接或出現(xiàn)規(guī)則框架,針對(duì)每一個(gè)范疇根據(jù)范疇的形態(tài)變化規(guī)律分別使用了簡(jiǎn)單的線性規(guī)則或FSM。本發(fā)明為漢維機(jī)器翻譯和維吾爾語(yǔ)電子詞典的構(gòu)建提供了幫助,對(duì)烏(烏孜別克文)、哈(哈薩克)、柯(柯?tīng)柨俗危?、土(土耳其文)電子詞典及輔助機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
【專(zhuān)利說(shuō)明】維吾爾語(yǔ)詞干提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)言信息處理技術(shù),特別是維吾爾語(yǔ)詞干提取方法。
【背景技術(shù)】
[0002]在國(guó)民經(jīng)濟(jì)和社會(huì)信息化的今天,人們對(duì)各類(lèi)語(yǔ)種信息獲取、查詢、翻譯提出了更快、更高的要求。隨之,研制開(kāi)發(fā)了各類(lèi)電子詞典產(chǎn)品和機(jī)器翻譯系統(tǒng),受到廣大用戶歡迎。在進(jìn)行機(jī)器翻譯或處理用戶提供的搜索關(guān)鍵詞時(shí),被提交的單詞很可能已具有了形態(tài)變化。這時(shí)系統(tǒng)必須要采用某種方法對(duì)提交的單詞進(jìn)行形態(tài)還原并取回相關(guān)信息,詞干提取系統(tǒng)是機(jī)器翻譯和構(gòu)建電子詞典的輔助工具。
[0003]機(jī)器翻譯系統(tǒng)和自然語(yǔ)言處理系統(tǒng)的實(shí)用化進(jìn)程中,機(jī)器詞典和機(jī)器翻譯系統(tǒng)已成為開(kāi)發(fā)的焦點(diǎn),很多IR系統(tǒng)和電子詞典,機(jī)器翻譯系統(tǒng)開(kāi)發(fā)商和研究機(jī)構(gòu)為了提高系統(tǒng)召回率,著手研究與開(kāi)發(fā)了形態(tài)還原和派生形態(tài)系統(tǒng)。在研究和開(kāi)發(fā)這些形態(tài)分析系統(tǒng)過(guò)程中,很多研究者提出了不同的方法,其中有Porter算法,詞典查詢,有限狀態(tài)轉(zhuǎn)錄機(jī)(Finite State Transducer, FST),有限狀態(tài)自動(dòng)機(jī)(Finite State Machine, FSM),基于隱馬爾科夫模型(Hidden Markov Model, HMM)的方法等。Porter算法是最常見(jiàn)的,也是最早提出的算法,特點(diǎn)在于簡(jiǎn)單和易于實(shí)現(xiàn),但是召回率并不高。詞典查詢方法也是常見(jiàn)的方法之一,非常簡(jiǎn)單,效率和召回率與詞庫(kù)有關(guān),但不能處理未登錄詞。雖然FST比詞典查詢方法速度快,但需要大量的人工工作,需要建設(shè)形態(tài)詞表,但仍然不能處理未登錄詞?;贖MM的方法與詞庫(kù)的關(guān)系并密切,但是還沒(méi)有成熟,性能略高于Porter算法。
[0004]近年來(lái),隨著少數(shù)民族信息化領(lǐng)域的發(fā)展,在新疆的少數(shù)民族語(yǔ)言的詞干提取系統(tǒng)也有了新的發(fā)展,但大多數(shù)以維吾爾語(yǔ)為主,在更多少數(shù)民族語(yǔ)言的支持和技術(shù)水平上存在一定的缺陷。
[0005]維吾爾語(yǔ)詞干提取就是在上述背景下提出的,該系統(tǒng)解決了對(duì)提交的單詞進(jìn)行形態(tài)還原并取回相關(guān)信息;是維吾爾語(yǔ)電子詞典的構(gòu)建,漢維機(jī)器翻譯系統(tǒng)很好的輔助工具;另一方面對(duì)將來(lái)漢維機(jī)器翻譯詞典庫(kù)建設(shè);對(duì)烏(烏孜別克文)、哈(哈薩克)、柯(柯?tīng)柨俗?、土 (土耳其文)電子詞典及輔助機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種維吾爾語(yǔ)詞干提取方法,系統(tǒng)實(shí)現(xiàn)維吾爾語(yǔ)靜詞和動(dòng)詞的詞干提取,為維吾爾語(yǔ)電子詞典的構(gòu)建提供了幫助;為漢維機(jī)器翻譯系統(tǒng)的研究提供了基礎(chǔ),對(duì)烏(烏孜別克文)、哈(哈薩克)、柯(柯?tīng)柨俗?、土 (土耳其文)電子詞典及輔助機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
[0007]本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種維吾爾語(yǔ)詞干提取方法,1.構(gòu)造名詞構(gòu)形詞綴優(yōu)先自動(dòng)機(jī),確定所有構(gòu)形名詞詞綴和它們間的連接規(guī)則,然后構(gòu)造從左向右的維吾爾語(yǔ)名詞構(gòu)形詞綴切分有限自動(dòng)機(jī);2.構(gòu)造形容詞有限狀態(tài)自動(dòng)機(jī),和名詞構(gòu)建過(guò)程一樣構(gòu)造形容詞的有限狀態(tài)自動(dòng)機(jī),形容詞不但可以接受名詞的詞綴還可以接受自己的詞綴,形容詞的FSM比名詞復(fù)雜,最終構(gòu)造的確定自動(dòng)機(jī)的狀態(tài)也較多;3.構(gòu)造數(shù)詞有限狀態(tài)自動(dòng)機(jī),數(shù)詞在句中以各種形態(tài)變化的形式出現(xiàn),充當(dāng)各種句子成分,數(shù)詞只能附加構(gòu)形詞綴,不能附加構(gòu)詞詞綴,一般維吾爾語(yǔ)數(shù)詞不僅可以附加名詞的構(gòu)形詞綴,有自己的詞綴,實(shí)現(xiàn)數(shù)詞有限狀態(tài)自動(dòng)機(jī);4.使用統(tǒng)計(jì)學(xué)和語(yǔ)音學(xué)實(shí)現(xiàn)維文單詞和文本的朗讀功能,語(yǔ)音朗讀標(biāo)準(zhǔn)、清晰具有較先進(jìn)的技術(shù)特色;5.動(dòng)詞本身是一個(gè)復(fù)雜的系統(tǒng),不能建立統(tǒng)一的框架進(jìn)行處理,所以對(duì)動(dòng)詞的詞干、人稱(chēng)形式、非人稱(chēng)形式等構(gòu)建范疇級(jí)別的相互連接或出現(xiàn)規(guī)則框架,針對(duì)每一個(gè)范疇根據(jù)范疇的形態(tài)變化規(guī)律分別使用簡(jiǎn)單的線性規(guī)則或FSM,對(duì)助動(dòng)詞、系動(dòng)詞等根據(jù)內(nèi)部分類(lèi)把形態(tài)有較多變化的與動(dòng)詞一樣處理,對(duì)形態(tài)變化也十分有限的部分系動(dòng)詞和助動(dòng)詞的采用詞典的方法進(jìn)行處理。
[0008]本發(fā)明涉及維吾爾語(yǔ)靜詞和動(dòng)詞的詞干提取,其中靜詞包括名詞、形容詞、數(shù)詞、量詞、代詞和副詞。形態(tài)分析是自然語(yǔ)言處理領(lǐng)域中的基本問(wèn)題之一,也是長(zhǎng)期以來(lái)一直在研究的課題。詞干提取在英語(yǔ),阿拉伯語(yǔ),土耳其語(yǔ),維吾爾語(yǔ)等黏著語(yǔ)言中與中文分詞一樣很重要。在目前市場(chǎng)上,這種能對(duì)維吾爾語(yǔ)靜詞和動(dòng)詞進(jìn)行詞干提取功能的詞干提取系統(tǒng)尚屬首例。
[0009]本發(fā)明基于計(jì)算語(yǔ)言學(xué)、語(yǔ)言學(xué)、社會(huì)學(xué)、計(jì)算機(jī)信息處理科學(xué),根據(jù)維吾爾語(yǔ)詞類(lèi)統(tǒng)計(jì)對(duì)于維吾爾語(yǔ)詞干提取而言最關(guān)鍵的是提出能夠高性能地處理名詞、形容詞、數(shù)詞、代詞以及動(dòng)詞形態(tài)的方法或框架,這些單詞占整個(gè)語(yǔ)料庫(kù)的90.28%,其他詞類(lèi)基本沒(méi)有形態(tài)變化,無(wú)需進(jìn)行詞干提取。其特征是:根據(jù)維吾爾語(yǔ)的形態(tài)特點(diǎn)對(duì)維吾爾語(yǔ)詞干提取規(guī)則形式化,依據(jù)維吾爾語(yǔ)名詞形態(tài)構(gòu)造構(gòu)形詞綴優(yōu)先自動(dòng)機(jī)、形容詞、數(shù)詞、量詞、代詞、副詞等靜詞的有限狀態(tài)自動(dòng)機(jī)(FSM),對(duì)動(dòng)詞的詞干、人稱(chēng)形式、非人稱(chēng)形式等構(gòu)建了范疇級(jí)別的相互連接或出現(xiàn)規(guī)則框架,針對(duì)每一個(gè)范疇根據(jù)范疇的形態(tài)變化規(guī)律分別使用了簡(jiǎn)單的線性規(guī)則或FSM。
[0010]本發(fā)明的有益效果是,系統(tǒng)實(shí)現(xiàn)了維吾爾語(yǔ)靜詞和動(dòng)詞的詞干提取,為維吾爾語(yǔ)電子詞典的構(gòu)建提供了幫助;為漢維機(jī)器翻譯系統(tǒng)的研究提供了基礎(chǔ),對(duì)烏(烏孜別克文)、哈(哈薩克)、柯(柯?tīng)柨俗?、土 (土耳其文)電子詞典及輔助機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0011]下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0012]圖1是本發(fā)明維吾爾語(yǔ)名詞構(gòu)形詞綴有限狀態(tài)自動(dòng)機(jī)的示意圖;
圖2是本發(fā)明維吾爾語(yǔ)形容詞有限狀態(tài)自動(dòng)機(jī)的示意圖;
圖3是本發(fā)明維吾爾語(yǔ)數(shù)詞有限狀態(tài)自動(dòng)機(jī)的第一示意圖;
圖4是本發(fā)明維吾爾語(yǔ)量詞有限狀態(tài)自動(dòng)機(jī)的第二示意圖;
圖5是本發(fā)明維吾爾語(yǔ)動(dòng)詞范疇的連接規(guī)則框架的示意圖。
【具體實(shí)施方式】
[0013]一種維吾爾語(yǔ)詞干提取方法,1.構(gòu)造名詞構(gòu)形詞綴優(yōu)先自動(dòng)機(jī),確定所有構(gòu)形名詞詞綴和它們間的連接規(guī)則,然后構(gòu)造從左向右的維吾爾語(yǔ)名詞構(gòu)形詞綴切分有限自動(dòng)機(jī);2.構(gòu)造形容詞有限狀態(tài)自動(dòng)機(jī),和名詞構(gòu)建過(guò)程一樣構(gòu)造形容詞的有限狀態(tài)自動(dòng)機(jī),形容詞不但可以接受名詞的詞綴還可以接受自己的詞綴,形容詞的FSM比名詞復(fù)雜,最終構(gòu)造的確定自動(dòng)機(jī)的狀態(tài)也較多;3.構(gòu)造數(shù)詞有限狀態(tài)自動(dòng)機(jī),數(shù)詞在句中以各種形態(tài)變化的形式出現(xiàn),充當(dāng)各種句子成分,數(shù)詞只能附加構(gòu)形詞綴,不能附加構(gòu)詞詞綴,一般維吾爾語(yǔ)數(shù)詞不僅可以附加名詞的構(gòu)形詞綴,有自己的詞綴,實(shí)現(xiàn)數(shù)詞有限狀態(tài)自動(dòng)機(jī);4.使用統(tǒng)計(jì)學(xué)和語(yǔ)音學(xué)實(shí)現(xiàn)維文單詞和文本的朗讀功能,語(yǔ)音朗讀標(biāo)準(zhǔn)、清晰具有較先進(jìn)的技術(shù)特色;5.動(dòng)詞本身是一個(gè)復(fù)雜的系統(tǒng),不能建立統(tǒng)一的框架進(jìn)行處理,所以對(duì)動(dòng)詞的詞干、人稱(chēng)形式、非人稱(chēng)形式等構(gòu)建范疇級(jí)別的相互連接或出現(xiàn)規(guī)則框架,針對(duì)每一個(gè)范疇根據(jù)范疇的形態(tài)變化規(guī)律分別使用簡(jiǎn)單的線性規(guī)則或FSM,對(duì)助動(dòng)詞、系動(dòng)詞等根據(jù)內(nèi)部分類(lèi)把形態(tài)有較多變化的與動(dòng)詞一樣處理,對(duì)形態(tài)變化也十分有限的部分系動(dòng)詞和助動(dòng)詞的采用詞典的方法進(jìn)行處理。
[0014]如圖1所示,首先,構(gòu)造從右向左的非確定自動(dòng)機(jī),詞綴按照一定規(guī)則進(jìn)行互相連接。收集了所有連接規(guī)則之后,在這個(gè)規(guī)則庫(kù)的基礎(chǔ)上構(gòu)造了從右向左的有限狀態(tài)自動(dòng)機(jī);然后,給詞綴編號(hào),在這個(gè)步驟給每一個(gè)詞綴分配唯一的編號(hào),在以后的步驟中進(jìn)行自動(dòng)機(jī)方向翻轉(zhuǎn),非確定自動(dòng)機(jī)轉(zhuǎn)換成確定自動(dòng)機(jī)時(shí)使用這些標(biāo)號(hào)表示詞綴;其次,翻轉(zhuǎn)自動(dòng)機(jī);最后,NFA轉(zhuǎn)換成DFA,非確定自動(dòng)機(jī)轉(zhuǎn)換成確定自動(dòng)機(jī),這樣可以確保每個(gè)符號(hào)只能產(chǎn)生一個(gè)狀態(tài)轉(zhuǎn)移,并且可以消除空符號(hào)轉(zhuǎn)移。
[0015]如圖2所示,形容詞除了可以接受具有自己特有的一些構(gòu)形詞綴,還可以接受大部分名詞的構(gòu)形詞綴,構(gòu)建過(guò)程與名詞一樣。
[0016]如圖3所示,數(shù)詞是每種語(yǔ)言都存在的詞類(lèi)之一。數(shù)詞在句中以各種形態(tài)變化的形式出現(xiàn),充當(dāng)各種句子成分。數(shù)詞只能附加構(gòu)形詞綴,不能附加構(gòu)詞詞綴。一般維吾爾語(yǔ)數(shù)詞不僅可以附加名詞的構(gòu)形詞綴,有自己的詞綴。
[0017]如圖4所示,量詞是表示計(jì)量單位的詞類(lèi),分為名量詞和動(dòng)量詞。名量詞表示事物的單位,而動(dòng)量詞則表示動(dòng)作的單位。在語(yǔ)法書(shū)上沒(méi)有明確闡述量詞的形態(tài)系統(tǒng),根據(jù)我們對(duì)語(yǔ)料庫(kù)的統(tǒng)計(jì),量詞經(jīng)常與數(shù)詞一起使用,形態(tài)變化十分接近數(shù)詞的形態(tài)。
[0018]如圖5所示,詞干形式:作為動(dòng)詞人稱(chēng)形式和非人稱(chēng)形式共同基礎(chǔ)的語(yǔ)法形式叫做動(dòng)詞的詞干形式。維吾爾語(yǔ)動(dòng)詞的詞干形式包括語(yǔ)態(tài)、能動(dòng)-非能動(dòng)和肯定-否定三種范疇。維吾爾語(yǔ)動(dòng)詞的語(yǔ)態(tài)有基本態(tài)、被動(dòng)態(tài)、自反態(tài)、強(qiáng)制態(tài)和交互集合態(tài)等五種。非人稱(chēng)形式:動(dòng)詞還有在人稱(chēng)和數(shù)上不與主語(yǔ)一致的形式,叫做非人稱(chēng)形式。這種形式不能獨(dú)立作為謂語(yǔ),但可以和助動(dòng)詞或系動(dòng)詞等一起構(gòu)成合成謂語(yǔ),還可以在句子中充當(dāng)主語(yǔ)、賓語(yǔ)、定語(yǔ)、狀語(yǔ)和表語(yǔ)。動(dòng)名詞、形動(dòng)詞、副動(dòng)詞以及目的動(dòng)詞等就是動(dòng)詞的非人稱(chēng)形式。人稱(chēng)形式:也叫做變位形式,動(dòng)詞在充當(dāng)謂語(yǔ)時(shí),它的形式要同主語(yǔ)在人稱(chēng)和數(shù)上一致,因此叫做人稱(chēng)形式。動(dòng)詞的人稱(chēng)形式有式、體、時(shí)態(tài)、人稱(chēng)和數(shù)等范疇。
【權(quán)利要求】
1.一種維吾爾語(yǔ)詞干提取方法,其特征是:1.構(gòu)造名詞構(gòu)形詞綴優(yōu)先自動(dòng)機(jī),確定所有構(gòu)形名詞詞綴和它們間的連接規(guī)則,然后構(gòu)造從左向右的維吾爾語(yǔ)名詞構(gòu)形詞綴切分有限自動(dòng)機(jī);2.構(gòu)造形容詞有限狀態(tài)自動(dòng)機(jī),和名詞構(gòu)建過(guò)程一樣構(gòu)造形容詞的有限狀態(tài)自動(dòng)機(jī);3.構(gòu)造數(shù)詞有限狀態(tài)自動(dòng)機(jī);4.使用統(tǒng)計(jì)學(xué)和語(yǔ)音學(xué)實(shí)現(xiàn)維文單詞和文本的朗讀功;5.對(duì)動(dòng)詞的詞干、人稱(chēng)形式、非人稱(chēng)形式構(gòu)建范疇級(jí)別的相互連接或出現(xiàn)規(guī)則框架,針對(duì)每一個(gè)范疇根據(jù)范疇的形態(tài)變化規(guī)律分別使用簡(jiǎn)單的線性規(guī)則或FSM,對(duì)助動(dòng)詞、系動(dòng)詞根據(jù)內(nèi)部分類(lèi)把形態(tài)有較多變化的與動(dòng)詞一樣處理,對(duì)形態(tài)變化也十分有限的部分系動(dòng)詞和助動(dòng)詞的采用詞典的方法進(jìn)行處理。
【文檔編號(hào)】G06F17/27GK103902522SQ201210579424
【公開(kāi)日】2014年7月2日 申請(qǐng)日期:2012年12月28日 優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】尼加提·納吉米, 買(mǎi)合木提·買(mǎi)買(mǎi)提, 帕肉克·司地克, 馬斌 申請(qǐng)人:新疆電力信息通信有限責(zé)任公司