亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法

文檔序號(hào):6618816閱讀:199來源:國知局

專利名稱::一種蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種自然語言文字?jǐn)?shù)字化知識(shí)處理方法,特別涉及一種由計(jì)算機(jī)控制的用于蒙古語言文字?jǐn)?shù)字化應(yīng)用、數(shù)字化教學(xué)、數(shù)字化學(xué)習(xí)、數(shù)字化研究、數(shù)字化開發(fā)的蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法。
背景技術(shù)
:蒙古語是黏著語。由于蒙古語的語言學(xué)自然屬性和特點(diǎn),在話語鏈中每個(gè)詞則是根據(jù)其表達(dá)時(shí)態(tài)、形態(tài)、方式、風(fēng)格、目的等眾多復(fù)雜內(nèi)容的不同,經(jīng)常處于不停頓的動(dòng)態(tài)變化當(dāng)中,特別是動(dòng)詞,一個(gè)動(dòng)詞通過各種詞綴/附加成分可衍生為上千個(gè)不同的動(dòng)態(tài)變化形,人們?cè)诿晒耪Z詞典中看到的僅僅是它的靜態(tài)解釋形(相當(dāng)于日語的終止形),蒙古語動(dòng)態(tài)表達(dá)形是個(gè)難于窮盡的變化體。漢語沒有這樣的動(dòng)態(tài)變化,英語等西方語言文字即使有一些,但簡單,沒有蒙古語的復(fù)雜多變。比較類似的是曰語,但日語的詞語動(dòng)態(tài)變化易于窮盡,蒙古語詞語的動(dòng)態(tài)變化不易窮盡。在這一點(diǎn)上蒙古語在世界現(xiàn)有的自然語言文字中當(dāng)屬特例。對(duì)于蒙古語詞語這一豐富多端的動(dòng)態(tài)變化體,迄今為止國內(nèi)外任何語言學(xué)家也沒有做過窮盡生成與統(tǒng)計(jì),原因是沒有一個(gè)科學(xué)可行的方法和手段。目前釆用的蒙古語數(shù)字計(jì)算機(jī)鍵盤輸入/輸出技術(shù)由于沒有蒙古語數(shù)字化知識(shí)庫系統(tǒng)做支撐,導(dǎo)致人的語言文字輸入錯(cuò)誤無法予以控制,蒙古語的語音信息、詞法信息、詞匯信息、句法信息、語用信息無法按蒙古語言文字固有的自然結(jié)構(gòu)在其輸入/輸出過程中予以保留,并時(shí)實(shí)地轉(zhuǎn)化為蒙古語的語音知識(shí)、詞法知識(shí)、詞匯知識(shí)、句法知識(shí)、語用知識(shí),以便使輸入形成的蒙古語大量電子文檔不用經(jīng)過反復(fù)的、多次的、復(fù)雜的加工就可直接復(fù)用。蒙古語詞匯跟其他自然語言文字的詞匯一樣,整體上是個(gè)由N個(gè)單詞N個(gè)復(fù)合詞(廣義復(fù)合詞,即非單詞)的集合構(gòu)成的海量知識(shí)體系。同時(shí)又是一個(gè)不斷變化發(fā)展的動(dòng)態(tài)知識(shí)體系。隨著歷史的演進(jìn),一些詞不用或不常用了,同時(shí)又不斷產(chǎn)生新的詞。迄今為止,人們一直用"紙制詞典,,這一古老的詞匯記錄工具來描述這一動(dòng)態(tài)的海量知識(shí)體系,結(jié)果因其原始和落后,只能記錄和傳播詞匯的過去時(shí),不能記錄和傳播詞匯的現(xiàn)在進(jìn)行時(shí)(即與知識(shí)爆炸一起時(shí)實(shí)地記錄每時(shí)每刻不斷產(chǎn)生的新詞新知識(shí))。只能靜態(tài)地封閉地記錄和傳播詞匯,不能動(dòng)態(tài)地開放地記錄和傳播詞匯。只能通過有限的介質(zhì)記錄和傳播詞匯,不能通過海量介質(zhì)記錄和傳播詞匯。只有出版后才能為人提供服務(wù),不能并時(shí)為人提供服務(wù)。只能由一小部分專家編纂,不能由各行業(yè)大部分專家甚至全民參與詞匯集成和編纂。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法,該蒙古語數(shù)字化知識(shí)庫系統(tǒng)動(dòng)態(tài)地開放地記錄和傳播蒙古語詞匯,通過公知的蒙古語鍵盤輸入方式和蒙古語OCR識(shí)別輸入方式動(dòng)態(tài)地獲取蒙古語信息,生成出來的詞語不可能出現(xiàn)字母組合錯(cuò)誤,從而省去了在一組蒙古語拼音字符之間進(jìn)行的繁重復(fù)雜的人工校對(duì);本發(fā)明達(dá)到了對(duì)蒙古語進(jìn)行數(shù)字化應(yīng)用、數(shù)字化教學(xué)、數(shù)字化學(xué)習(xí)、數(shù)字化研究、數(shù)字化開發(fā),以便極大地發(fā)揮數(shù)字計(jì)算機(jī)作為人類知識(shí)處理工具的強(qiáng)大功能。為實(shí)現(xiàn)上述目的,本發(fā)明釆用如下技術(shù)方案一種蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法,該方法包括以下步驟Sl,獲取蒙古語詞根/詞干及描述詞根/詞干的相關(guān)知識(shí)屬性信息,生成詞根/詞干知識(shí)處理字段單元;S2,獲取蒙古語詞根/詞干不同形式的構(gòu)件構(gòu)成構(gòu)件數(shù)據(jù)庫;S3,建立定義詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合和各構(gòu)件之間封裝嵌套規(guī)則的規(guī)則體系。優(yōu)選地,步驟S3之后還包括S4,生成由蒙古語短語知識(shí)描述字段、句法知識(shí)描述字段、施事/受事知識(shí)描述字段組成的屬性字段單元,用于限定蒙古語的詞語組合關(guān)系。優(yōu)選地,所述構(gòu)件數(shù)據(jù)庫包括詞綴數(shù)據(jù)庫、黏著復(fù)合詞綴庫、非黏著復(fù)合詞綴庫,步驟S2包括子步驟集成蒙古語的詞綴構(gòu)成詞綴庫,用于為相應(yīng)的詞干提供黏著附加計(jì)算對(duì)象以生成所需的詞語;集成黏著附加詞綴構(gòu)成黏著復(fù)合詞綴庫,用于為相應(yīng)的詞干提供黏著附加計(jì)算對(duì)象以生成所需黏著附加詞語;集成非黏著復(fù)合詞綴構(gòu)成非黏著復(fù)合詞綴庫,用于為相應(yīng)的復(fù)合詞根提供非黏著附加計(jì)算對(duì)象以生成所需非黏著復(fù)合詞語。優(yōu)選地,所述構(gòu)件數(shù)據(jù)庫還包括專業(yè)術(shù)語庫、多變體附屬成分庫和自定義數(shù)據(jù)庫,步驟S2還包括子步驟將蒙古語數(shù)學(xué)、物理學(xué)、化學(xué)、醫(yī)學(xué)、生物學(xué)、計(jì)算機(jī)技術(shù)科學(xué)各類不同專業(yè)術(shù)語集成到專業(yè)術(shù)語庫;將蒙古語多變體附屬成分集成到多變體附屬成分庫,用于為多變體附屬成分的知識(shí)處理提供數(shù)據(jù)和規(guī)則;生成由使用者填充的自定義庫,用于為使用者個(gè)性化詞語的存儲(chǔ)和生成提供工具。優(yōu)選地,所述詞綴數(shù)據(jù)庫、黏著復(fù)合詞綴庫、非黏著復(fù)合詞綴庫、多變體附屬成分庫、自定義庫根據(jù)需要不斷擴(kuò)充。優(yōu)選地,所述規(guī)則體系中每組規(guī)則由BDQ規(guī)則描述語言進(jìn)行描述,BDQ規(guī)則描述語言由數(shù)字計(jì)算機(jī)鍵盤符號(hào)構(gòu)成英文大寫輸入碼表示可作為中綴的構(gòu)件數(shù)據(jù)庫取值類型,英文小寫輸入碼表示可作為尾綴的構(gòu)件數(shù)據(jù)庫取值類型;o至9的數(shù)字表示可作為動(dòng)詞尾綴的構(gòu)件數(shù)據(jù)庫類型集合;斜杠表示或者關(guān)系;圓括號(hào)表示嵌入構(gòu)件數(shù)據(jù)庫的嵌套關(guān)系;下劃線表示詞類;#號(hào)表示一組路線組合規(guī)則描述結(jié)東,另一組路線組合規(guī)則描述開始。優(yōu)選地,規(guī)則體系中的每組規(guī)則允許詞干組合多個(gè)不同類型構(gòu)件數(shù)據(jù)庫中的構(gòu)件,以多叉樹結(jié)構(gòu)生成。優(yōu)選地,該方法還包括步驟S5,生成以蒙古語各類語言元素以及組合形式為統(tǒng)計(jì)單位,用于進(jìn)行蒙古語實(shí)時(shí)統(tǒng)計(jì)的系列統(tǒng)計(jì)工具單元。本發(fā)明還提供了一種蒙古語數(shù)字化知識(shí)庫系統(tǒng),該系統(tǒng)包括知識(shí)處理字段單元,用于為數(shù)字計(jì)算機(jī)給出蒙古語的詞根/詞干,并描述蒙古語詞根/詞干的相關(guān)知識(shí)屬性信息;構(gòu)件數(shù)據(jù)庫,集有蒙古語詞根/詞干不同形式的構(gòu)件;規(guī)則體系,用于定義詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合和各構(gòu)件之間封裝嵌套規(guī)則;屬性字段單元,由蒙古語短語知識(shí)描述字段、句法知識(shí)描述字段、施事/受事知識(shí)描述字段組成的屬性字段單元組成,用于限定蒙古語的詞語組合關(guān)系。優(yōu)選地,該系統(tǒng)還包括系列統(tǒng)計(jì)工具單元,用于以蒙古語各類語言元素以及組合形式為統(tǒng)計(jì)單位,進(jìn)行蒙古語的實(shí)時(shí)統(tǒng)計(jì)。利用本發(fā)明提供的蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法具有以下技術(shù)效果1)控制人的輸入錯(cuò)誤,保證輸出的詞語沒有字母組合錯(cuò)誤、詞法結(jié)構(gòu)錯(cuò)誤,毋須人工校對(duì);2)保留蒙古語固有的自然語音信息與結(jié)構(gòu)、并時(shí)實(shí)地將其轉(zhuǎn)化為蒙古語豐富的語音學(xué)知識(shí),使之可計(jì)算可復(fù)用;3)保留蒙古語固有的自然詞法結(jié)構(gòu)、并時(shí)實(shí)地將其轉(zhuǎn)化為蒙古語豐富的詞法學(xué)知識(shí),使之可計(jì)算可復(fù)用;4)保留蒙古語固有的詞匯復(fù)雜信息、并時(shí)實(shí)地將其轉(zhuǎn)化為蒙古語豐富的詞匯學(xué)知識(shí),使之可計(jì)算可復(fù)用;5)保留蒙古語固有的詞語組合信息,詞組關(guān)系知識(shí),使之可計(jì)算可復(fù)用;6)支持蒙古語海量詞匯的無紙應(yīng)用、無紙學(xué)習(xí)、無紙教學(xué)、無紙研究、無紙開發(fā),以達(dá)到對(duì)蒙古語進(jìn)行數(shù)字化應(yīng)用、數(shù)字化教學(xué)、數(shù)字化學(xué)習(xí)、數(shù)字化研究、數(shù)字化開發(fā),極大地發(fā)揮數(shù)字計(jì)算機(jī)作為人類知識(shí)處理工具的強(qiáng)大功能。圖l為本發(fā)明蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法流程圖2為本發(fā)明蒙古語詞語輸入方法流程圖3為本發(fā)明實(shí)施例中蒙古語詞語輸入方法流程圖。具體實(shí)施例方式本發(fā)明提出的蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法,結(jié)合附圖和實(shí)施例說明如下。本發(fā)明所提供的蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法所構(gòu)建的蒙古語數(shù)字化知識(shí)庫系統(tǒng)包括一個(gè)蒙古語的詞根/詞干知識(shí)描述單元、一個(gè)與此連接的蒙古語的構(gòu)件數(shù)據(jù)庫和一個(gè)決定詞根/詞干的構(gòu)件及其選擇規(guī)定的規(guī)則體系,一個(gè)用于描述蒙古語的詞語組合關(guān)系的屬性字段單元及一個(gè)用于進(jìn)行蒙古語實(shí)時(shí)統(tǒng)計(jì)的系列統(tǒng)計(jì)工具單元。利用本發(fā)明方法所構(gòu)建的蒙古語數(shù)字化知識(shí)庫系統(tǒng),通過公知的蒙古語鍵盤輸入方式和蒙古語OCR(OpticalCharacterRecognition)識(shí)別輸入方式動(dòng)態(tài)地獲取蒙古語的詞語或短語,并將其時(shí)實(shí)地轉(zhuǎn)化為蒙古語豐富的知識(shí),為蒙古語的數(shù)字化應(yīng)用、數(shù)字化教學(xué)、數(shù)字化學(xué)習(xí)、數(shù)字化研究、數(shù)字化開發(fā)提供技術(shù)支撐。實(shí)施例l如圖1所示,蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法包括以下步驟Sl,獲取蒙古語詞根/詞干、及描述詞根/詞干的相關(guān)知識(shí)屬性信息,生成詞根/詞干知識(shí)處理字段單元,如表1所示為蒙古語的詞根/詞干知識(shí)處理字段單元結(jié)構(gòu)表,其中輸入碼代表對(duì)應(yīng)的詞根或詞干,碼值A(chǔ)和碼值B代表其對(duì)應(yīng)的不同形式,如上形和獨(dú)立形及其它的各種相關(guān)知識(shí)屬性信息。表l蒙古語詞根/詞干知識(shí)處理字段單元<table>tableseeoriginaldocumentpage10</column></row><table>"詞根/詞干"是蒙古語的知識(shí)發(fā)生源。經(jīng)過國內(nèi)外蒙古語語言學(xué)家?guī)装倌甑难芯?,目前已有了正確建立蒙古語詞根/詞干數(shù)據(jù)庫,正確分解蒙古語詞干以及科學(xué)描述蒙古語詞根/詞干知識(shí)屬性的科學(xué)依據(jù)。本實(shí)施例基于上述科學(xué)依據(jù),建立了一個(gè)可描述蒙古語的詞根/詞干相關(guān)知識(shí)屬性的人機(jī)交互的知識(shí)描述字段單元,其作用在輸入過程中根據(jù)輸入編碼后信息給出對(duì)應(yīng)的蒙古語的詞根/詞干,并詳細(xì)描述蒙古語詞根/詞干的相關(guān)的知識(shí)屬性信息。知識(shí)屬性信息包括詞性、詞類(包括動(dòng)詞的及物特征)、書面讀音、口語讀音、近義詞、反義詞、釋義、外語對(duì)譯等等蒙古語語言學(xué)家認(rèn)為需要的所有可能的屬性信息;S2,獲取蒙古語詞根/詞干不同形式的構(gòu)件構(gòu)成構(gòu)件數(shù)據(jù)庫,如表2所示為本實(shí)施例所構(gòu)建的各種構(gòu)件數(shù)據(jù)庫結(jié)構(gòu)。表2蒙古語詞語構(gòu)件數(shù)據(jù)庫結(jié)構(gòu)<table>tableseeoriginaldocumentpage11</column></row><table>詞語的"構(gòu)件"是蒙古語詞語構(gòu)成要素。本發(fā)明把蒙古語各種形式豐富的構(gòu)件歸納為一個(gè)"構(gòu)件數(shù)據(jù)庫"。"構(gòu)件數(shù)據(jù)庫"還分為詞綴庫、黏著復(fù)合詞綴庫、非黏著復(fù)合詞綴庫、自定義庫、專業(yè)術(shù)語庫、多變體附屬成分庫等多種取值類型構(gòu)件庫,步驟S2包括子步驟集成蒙古語豐富的的詞綴構(gòu)成詞綴庫,用于為相應(yīng)的詞干提供黏著附加計(jì)算對(duì)象以生成詞語,以生成所需要的詞語;集成蒙古語豐富的黏著附加詞綴(一般用于人名和地名,例如^^^^一詞是由^+W^兩個(gè)獨(dú)立的詞黏著書寫而成,稱前者為黏著復(fù)合詞干,稱后者為黏著復(fù)合詞綴)構(gòu)成黏著復(fù)合詞綴庫,用于為相應(yīng)的詞干提供黏著附加計(jì)算對(duì)象以生成黏著附加詞語,以滿足所需的黏著附加詞語的生成;集成蒙古語豐富的非黏著復(fù)合詞綴(稱一組復(fù)合詞第一詞后的詞為詞綴)構(gòu)成非黏著復(fù)合詞綴庫,用于為相應(yīng)的復(fù)合詞根(指一組復(fù)合詞的第一個(gè)詞)提供非黏著附加計(jì)算對(duì)象以生成非黏著復(fù)合詞語,以滿足所需的非黏著復(fù)合詞語的生成;將蒙古語數(shù)學(xué)、物理學(xué)、化學(xué)、醫(yī)學(xué)、生物學(xué)、計(jì)算機(jī)技術(shù)科學(xué)等各類不同專業(yè)術(shù)語集成到專業(yè)術(shù)語庫,用于為"專業(yè)術(shù)語"的知識(shí)處理提供數(shù)據(jù),為人們個(gè)性化詞語的存儲(chǔ)和生成提供工具(其內(nèi)容的填充完全由使用者決定);生成其內(nèi)容填充完全由使用者決定的自定義庫,用于為人們個(gè)性化詞語的存儲(chǔ)和生成提供工具;將蒙古語多變體附屬成分集成到多變體附屬成分庫,用于為多變體附屬成分的知識(shí)處理提供數(shù)據(jù)和規(guī)則,為詞根/詞干提供所需多變體附屬成分計(jì)算對(duì)象。專家們?cè)谥R(shí)可計(jì)算的前提下,還可根據(jù)自己的需要不斷擴(kuò)充各種數(shù)據(jù)庫。S3,建立定義詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合的規(guī)則和各構(gòu)件之間封裝嵌套規(guī)則的規(guī)則體系。每個(gè)蒙古語詞根/詞干均由一個(gè)相應(yīng)的構(gòu)件組合規(guī)則支配。該規(guī)則體系將告訴數(shù)字計(jì)算機(jī)這個(gè)詞干可以組合的構(gòu)件,以及構(gòu)件之間進(jìn)行自由組合的規(guī)則和各構(gòu)件之間封裝嵌套規(guī)則。由于蒙古語詞干和構(gòu)件的組合個(gè)性不同,每個(gè)詞干的構(gòu)件組合規(guī)則千差萬別,規(guī)則的長度也不盡相同。所有的組合規(guī)則須由蒙古語語言學(xué)家根據(jù)其豐厚的蒙古語語言學(xué)知識(shí)一一描述給出。為了使蒙古語語言學(xué)家們能夠詳細(xì)描述蒙古語每個(gè)詞干的詞語生成規(guī)則,本實(shí)施例中提出了一個(gè)人機(jī)交互式規(guī)則描述語言BDQ,規(guī)則體系中每組規(guī)則由BDQ規(guī)則描述語言進(jìn)行描述,BDQ規(guī)則描述語言完全由數(shù)字計(jì)算機(jī)鍵盤控制和輸入/輸出。BDQ規(guī)則描述語言由蒙古語詞語的數(shù)字計(jì)算機(jī)鍵盤輸入碼名的英文大寫字母、蒙古語詞語輸入碼名的英文小寫字母、0至9的數(shù)字、斜杠、圓括號(hào)、下劃線(詞類)、#號(hào)等公知數(shù)字計(jì)算機(jī)鍵盤符號(hào)進(jìn)行描述。其中,英文大寫輸入碼表示可作為中綴的構(gòu)件數(shù)據(jù)庫取值類型,這里所說的取值類型是指上面所列不同種類的構(gòu)件數(shù)據(jù)庫的類型。英文小寫輸入碼表示可作為尾綴的構(gòu)件數(shù)據(jù)庫取值類型。0至9的數(shù)字表示可作為動(dòng)詞尾綴的構(gòu)件數(shù)據(jù)庫類型庫集合。斜杠表示或者關(guān)系。圓括號(hào)表示嵌入構(gòu)件數(shù)據(jù)庫取值類型的嵌套關(guān)系。下劃線表示詞類。弁號(hào)表示一組路線組合規(guī)則描述結(jié)東,另一組路線組合規(guī)則描述開始,以保證詞干可通過多個(gè)樹叉生成符合規(guī)則的動(dòng)態(tài)變化詞語,如表3為某一詞根/詞干的構(gòu)件組合規(guī)則,生成規(guī)則允許詞根/詞干組合多個(gè)不同構(gòu)件庫中的構(gòu)件,以多叉樹結(jié)構(gòu)予以充分地生成。表3使用BDQ規(guī)則描述語言的詞語生成規(guī)則描述示例ID+1/2/3/4/g—n/e_tm/br—n/mhi—tm/mtgi—tm/ti—tm/tz—n/lk—tm/gr_n/vg—n/ksa—n/TI(hz_tm)/ta—n/L/GL/VQ/QH/JG/EH/KD(GV/GL/mv一tm)甜R(ti_tm/TI(hz_tm))#ph—n/PH(L(ksa_n)/R/S1/J(GV/GL/QH/V(ti_tm/t_tm/tz—n/ta_n))/ti—tm/t_tm/tz_n/ta—n/TI(hz—tm))#G2(L/S1(mv一tm/mk—n/L)/z_n/t—tm/ti_tni)ttGV(g_n)能l(Sl/J/L/sk—tm/qal—n/qv—n)Us—n/S2(GV/GL/QH/tz—n/z—n/L(GV/GL/QH))......NS4,生成由蒙古語短語知識(shí)描述字段、句法知識(shí)描述字段(包括標(biāo)點(diǎn)符號(hào)屬性特征標(biāo)注)、施事/受事知識(shí)描述字段構(gòu)成的屬性字段單元,用于限定蒙古語的詞語組合關(guān)系。如表1所示,該屬性字段單元的主要目的是在詞根/詞干按其對(duì)應(yīng)的規(guī)則與相應(yīng)的構(gòu)件組合后,若得到若干詞構(gòu)成的短語,為描述相應(yīng)詞語的短語結(jié)構(gòu)關(guān)系及規(guī)則提供工具;句法知識(shí)描述字段的目的是,在詞根/詞干按其對(duì)應(yīng)的規(guī)則與相應(yīng)的構(gòu)件組合后,為描述相關(guān)詞語的句法關(guān)系及規(guī)則提供工具。施事/受事知識(shí)描述字段的主要目的是,詞根/詞干按其對(duì)應(yīng)的規(guī)則與相應(yīng)的構(gòu)件組合后,為描述相應(yīng)詞語的施事/受事關(guān)系及規(guī)則提供工具。這些字段的屬性標(biāo)注語言和規(guī)則描述語言由蒙古語語言學(xué)家自定,但語言符號(hào)須是公知數(shù)字計(jì)算機(jī)鍵盤符號(hào),以及鍵盤符號(hào)的組合。蒙古語系列統(tǒng)計(jì)工具的作用是,根據(jù)蒙古語應(yīng)用者、學(xué)習(xí)者、教學(xué)者、研究者、開發(fā)者的各種不同需求,以蒙古語各類語言元素以及組合形式為統(tǒng)計(jì)單位,實(shí)時(shí)進(jìn)行詞頻統(tǒng)計(jì)以確定詞匯常用程度,滿足人們各種不同的目的。實(shí)施例2在論述本發(fā)明之前,涉及典型數(shù)字計(jì)算機(jī)的一般考慮由以下
背景技術(shù)
提供。典型的一個(gè)數(shù)字計(jì)算機(jī)由三個(gè)主要單元組成(a)—個(gè)中央處理機(jī)(CPU);(b)—個(gè)存儲(chǔ)器;(c)多個(gè)輸入/輸出口。存儲(chǔ)器起著存儲(chǔ)指令及數(shù)據(jù)的作用,指令為指導(dǎo)CPU動(dòng)作的信息編碼部分。存儲(chǔ)在存儲(chǔ)器中的一組邏輯關(guān)系的指令被稱為程序。因此CPU從存儲(chǔ)器中以邏輯順序"讀"每個(gè)指令,并用它起動(dòng)處理操作。假如指令順序是相干的且邏輯的,則處理的程序?qū)a(chǎn)生明了且令人滿意的結(jié)果。存儲(chǔ)器還用來存儲(chǔ)指導(dǎo)操作的指令和待操作的數(shù)據(jù)。該程序的結(jié)構(gòu)必須使CPU在它認(rèn)為是指令時(shí),不讀非指令詞。如圖2和圖3所示,本實(shí)施例中的蒙古語詞語輸入,包括以下步驟S21,根據(jù)蒙古語編碼輸入方式輸入并完成一個(gè)完整的詞語編碼;允許釆用公知的蒙古語語音模糊編碼輸入方式進(jìn)行輸入、蒙古語音素編碼輸入方式進(jìn)行輸入、蒙古語字形編碼輸入方式進(jìn)行輸入、蒙古語OCR識(shí)別輸入方式進(jìn)行輸入,無論釆用蒙古語鍵盤輸入方式,還是蒙古語OCR識(shí)別輸入方式,均要求以一個(gè)完整的蒙古語整詞為輸入/輸出單位。S22,根據(jù)編碼后的信息利用詞根/詞干知識(shí)處理字段單元獲取所輸入的詞根/詞干及其對(duì)應(yīng)的相關(guān)知識(shí)屬性信息;輸入完成一個(gè)完整的詞語編碼并利用現(xiàn)有方法獲取詞根/詞干后,數(shù)字計(jì)算機(jī)首先將從蒙古語詞根/詞干開始進(jìn)行遍歷運(yùn)算,如圖6所示,首先判斷其相關(guān)知識(shí)屬性信息判斷是否結(jié)東,若已結(jié)東,說明已獲取該詞根/詞干的相關(guān)屬性信息,若未結(jié)東,由詞根/詞干知識(shí)處理字段單元進(jìn)行知識(shí)處理,具體為獲取所得到的詞根/詞干的相關(guān)知識(shí)屬性信息,獲得表2中預(yù)先給出的詞根/詞干的相關(guān)知識(shí)屬性信息。S23,由規(guī)則體系根據(jù)步驟S21得到的詞根/詞干其及對(duì)應(yīng)的相關(guān)知識(shí)屬性信息獲取該詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合的規(guī)則和各構(gòu)件之間封裝嵌套規(guī)則;當(dāng)獲得表1中預(yù)先給出的詞根/詞干的相關(guān)知識(shí)屬性信息后,再到規(guī)則體系中訪問如表3所示的該詞根/詞干的構(gòu)件組合規(guī)則(包含了該詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合的規(guī)則和各構(gòu)件之間封裝嵌套規(guī)則信息)。524,根據(jù)步驟S23中訪問到的規(guī)則,根據(jù)得到的可組合的構(gòu)件從構(gòu)件數(shù)據(jù)庫選出構(gòu)件,按步驟S23中得到的構(gòu)件之間進(jìn)行自由組合的規(guī)則和各構(gòu)件之間封裝嵌套規(guī)則與步驟S21得到的詞根/詞干進(jìn)行組合生成詞語。525,利用屬性字段單元中的短語知識(shí)描述字段、句法知識(shí)描述字段、施事/受事知識(shí)描述字段限定語組合關(guān)系并輸出供用戶選擇進(jìn)行蒙古語詞語輸入。若步驟S25中輸不出編碼值就意味著輸入錯(cuò)誤,馬上應(yīng)予以糾正。當(dāng)然,完全排除了輸入錯(cuò)誤,肯定就屬于知識(shí)庫系統(tǒng)本身的問題,即或沒有給出相應(yīng)詞干、或沒有給足相應(yīng)構(gòu)件,或沒有給足相應(yīng)組合規(guī)則覆蓋度。知識(shí)庫系統(tǒng)經(jīng)過無數(shù)次反復(fù)測試,達(dá)到了完全成熟的階段,出現(xiàn)這類問題的概率極少,即使出現(xiàn)也只能在非常罕用的條件下出現(xiàn),一般不會(huì)在常用條件下出現(xiàn)。再說,即使出現(xiàn)了這樣的情況,因知識(shí)庫系統(tǒng)本身的自然結(jié)構(gòu)和開放性特點(diǎn),修改起來極為方便,負(fù)責(zé)語言知識(shí)工程的蒙古語語言學(xué)專家均可解決。根據(jù)蒙古語的自然屬性和特點(diǎn),蒙古語的一個(gè)詞根可直接生成為一完整的詞(例如^),一個(gè)詞干組合一構(gòu)件可生成一完整的詞(例如,+^),—個(gè)詞干連續(xù)組合幾個(gè)構(gòu)件生成一完整的詞(例如w++ir+(H+;^+W),可見蒙古語詞語的動(dòng)態(tài)組合生成方式多種多樣甚為豐富。根據(jù)蒙古語的這一特點(diǎn),本實(shí)施例表3的生成規(guī)則允許詞根/詞干組合多個(gè)不同類型構(gòu)件數(shù)據(jù)庫中的構(gòu)件,以多叉樹結(jié)構(gòu)予以充分地生成。這樣生成出來的詞語,由于受到表l、表2的數(shù)據(jù)結(jié)構(gòu)控制,同時(shí)受到表3的組合規(guī)則支配,輸入人員即使輸錯(cuò),就象漢字鍵盤輸入技術(shù)那樣在一個(gè)漢字內(nèi)部不會(huì)出現(xiàn)筆畫錯(cuò)誤和構(gòu)件搭配錯(cuò)誤一樣,不可能出現(xiàn)字母組合錯(cuò)誤,從而省去了在一組蒙古語拼音字符之間進(jìn)行的繁重復(fù)雜的人工校對(duì)。蒙古語最小的語音構(gòu)成單位是音素。音素分元音音素和輔音音素兩種,元音音素由元音字母表示,輔音音素由輔音字母表示。由于蒙古語的黏著書寫原因,導(dǎo)致蒙古語的一個(gè)音素一般由詞首形式(字母)、詞間形式(字母)、詞尾形式(字母)三個(gè)不同形式構(gòu)成。為了達(dá)到字母與字母間黏著書寫結(jié)構(gòu)美觀要求,相同一個(gè)字母形式區(qū)間內(nèi)還有若干不同的變體形式(字母)。這就造成了蒙古語同一字母在詞首有若干不同變體,詞間有若干不同變體,詞尾有若干不同變體的復(fù)雜現(xiàn)實(shí)。比音素再大一級(jí)的蒙古語語音構(gòu)成單位是音節(jié)。在蒙古語里一個(gè)音節(jié)最低要由一個(gè)元音音素構(gòu)成,輔音音素必須和元音音素黏著在一起才能構(gòu)成音節(jié)。在蒙古語里一個(gè)詞最低由一個(gè)音節(jié)構(gòu)成,一般由若干個(gè)音節(jié)構(gòu)成。本發(fā)明通過蒙古語編碼值、語音分體標(biāo)注、語音組合標(biāo)注等方法給出了蒙古語每個(gè)詞語的語音信息生成。"編碼碼值"是指"蒙古語字符"。"語音分體標(biāo)注"是指在"詞根/詞干/詞綴"里分別進(jìn)行語音標(biāo)注。"語音組合標(biāo)注"是指各構(gòu)件組合為一個(gè)詞時(shí)出現(xiàn)語音變化后的二次標(biāo)注。這種方法可滿足使用者對(duì)蒙古語語音知識(shí)的學(xué)習(xí)、應(yīng)用、教學(xué)、研究、開發(fā),并時(shí)實(shí)地將其轉(zhuǎn)化為蒙古語豐富的語音學(xué)知識(shí),使之可計(jì)算可復(fù)用。如上所述,蒙古語詞語的自由生成由于受到表l、表2的數(shù)據(jù)結(jié)構(gòu)控制,同時(shí)受到表3的組合規(guī)則支配,保證任何詞的詞法結(jié)構(gòu)是自然的和正確的。因此,當(dāng)你在任何時(shí)候想知道任意輸入/輸出的詞的詞法結(jié)構(gòu),系統(tǒng)會(huì)時(shí)實(shí)地展示給你這個(gè)詞的詞根知識(shí)、詞干知識(shí)、詞綴知識(shí)、詞法結(jié)構(gòu)曲折變化過程、相關(guān)附加成分知識(shí)等等,且保證蒙古語詞法知識(shí)全部可計(jì)算可復(fù)用。如上所述,表3的生成規(guī)則允許詞干組合多個(gè)不同構(gòu)件庫中的構(gòu)件,以多叉樹結(jié)構(gòu)予以充分地生成,實(shí)際上從理論和方法上已給出了蒙古語每個(gè)詞干窮盡生成蒙古語動(dòng)態(tài)變化形式的技術(shù)手段,借助這一手段,人們根據(jù)不同的目的,不但可以窮盡生成蒙古語相關(guān)詞干組合規(guī)則規(guī)定的所有動(dòng)態(tài)變化形式,而且也可以窮盡生成蒙古語所有詞干組合規(guī)則規(guī)定的蒙古語所有動(dòng)態(tài)變化海量形式,且使其可計(jì)算可復(fù)用。例如,上述蒙古語詞語動(dòng)態(tài)變化生成結(jié)果,就已給出了蒙古語各種機(jī)器校對(duì)系統(tǒng)的正確數(shù)據(jù)匹配參數(shù),這對(duì)于開發(fā)蒙古語各種機(jī)器自動(dòng)校對(duì)系統(tǒng)等具有重要的科學(xué)意義。由于蒙古語的自然屬性和特點(diǎn),在蒙古語中有許多同形、同音、不同類的詞,例如(動(dòng)詞,意即吃)//WV^(名詞,意即力氣)。本發(fā)明以蒙古語的詞根/詞干為蒙古語的知識(shí)發(fā)生源,對(duì)每個(gè)詞根/詞干均以詞類區(qū)分取舍時(shí)(不進(jìn)行詞類劃分,今后無法描述蒙古語的短語結(jié)構(gòu)及意義、句法結(jié)構(gòu)及意義),必然導(dǎo)致這類詞根/詞干輸入碼、語音描述碼、碼值三者的完全一致現(xiàn)象(只有通過詞類才能做辨別)。這一現(xiàn)象會(huì)加大蒙古語鍵盤輸入方式和OCR識(shí)別方式產(chǎn)生大量的重碼詞生成概率,加重人工選擇輸出重碼詞的工作量,從而降低文字輸入/輸出工作效率。通過該發(fā)明的短語知識(shí)描述字段的詞語搭配關(guān)系規(guī)則(例如按照"后項(xiàng)搭配詞"在先、"前項(xiàng)搭配詞"在后的順序時(shí)實(shí)地給出相應(yīng)重碼詞的組合搭配詞),遇到重碼詞時(shí)毋需人工選擇,持續(xù)輸入相應(yīng)重碼詞的后續(xù)詞,系統(tǒng)就會(huì)通過詞語搭配關(guān)系規(guī)則自動(dòng)完成重碼詞的選擇,并保證重碼詞的正確選擇率達(dá)到98%以上。本發(fā)明中生成的蒙古語數(shù)字化知識(shí)庫系統(tǒng)通過蒙古語固有的自然結(jié)構(gòu)和屬性,釆用時(shí)實(shí)地保留蒙古語詞匯豐富信息,并將其實(shí)時(shí)地轉(zhuǎn)化為蒙古語詞匯知識(shí)的方法,將每個(gè)由數(shù)字計(jì)算機(jī)鍵盤輸入/輸出和OCR識(shí)別輸入/輸出的蒙古語詞匯無一遺漏地保存到系統(tǒng)中。這樣被保存下來的蒙古語詞匯,通過日積月累就成為了蒙古語詞匯的數(shù)字化海量知識(shí)體系,其優(yōu)點(diǎn)具有a)不但象紙制詞典那樣記錄和傳播蒙古語詞匯的過去時(shí),而且還可以時(shí)實(shí)地記錄和傳播蒙古語詞匯的現(xiàn)在進(jìn)行時(shí)。b)不是象紙制詞典那樣靜態(tài)地封閉地記錄和傳播詞匯,而是動(dòng)態(tài)地開放地記錄和傳播詞匯。c)不是象紙制詞典那樣通過有限介質(zhì)記錄和傳播詞匯,而是通過數(shù)字化海量介質(zhì)記錄和傳播詞匯。d)不是象紙制詞典那樣只有出版后才能為人提供服務(wù),而是還可以通過網(wǎng)絡(luò)、手機(jī)、PDA等數(shù)字化手段為人提供并時(shí)服務(wù)。e)不是象紙制詞典那樣僅由一小部分專家編纂,而是由各行業(yè)大部分專家、甚至允許可接觸到網(wǎng)絡(luò)、手機(jī)、PDA等公知數(shù)字化手段的所有人員參與詞匯集成與編纂(由設(shè)置于網(wǎng)上的總體資源管理系統(tǒng)審核發(fā)布)。f)支持蒙古語詞匯的無紙應(yīng)用、無紙學(xué)習(xí)、無紙教學(xué)、無紙研究、無紙開發(fā)。以上實(shí)施方式僅用于說明本發(fā)明,而并非對(duì)本發(fā)明的限制,有關(guān)
技術(shù)領(lǐng)域
的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。權(quán)利要求1、一種蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法,其特征在于,該方法包括以下步驟S1,獲取蒙古語詞根/詞干及描述詞根/詞干的相關(guān)知識(shí)屬性信息,生成詞根/詞干知識(shí)處理字段單元;S2,獲取蒙古語詞根/詞干不同形式的構(gòu)件構(gòu)成構(gòu)件數(shù)據(jù)庫;S3,建立定義詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合和各構(gòu)件之間封裝嵌套規(guī)則的規(guī)則體系。2、根據(jù)權(quán)利要求l所述的方法,其特征在于,步驟S3之后還包括S4,生成由蒙古語短語知識(shí)描述字段、句法知識(shí)描述字段、施事/受事知識(shí)描述字段組成的屬性字段單元,用于限定蒙古語的詞語組合關(guān)系。3、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)件數(shù)據(jù)庫包括詞綴數(shù)據(jù)庫、黏著復(fù)合詞綴庫、非黏著復(fù)合詞綴庫,步驟S2包括子步驟集成蒙古語的詞綴構(gòu)成詞綴庫,用于為相應(yīng)的詞干提供黏著附加計(jì)算對(duì)象以生成所需的詞語;集成黏著附加詞綴構(gòu)成黏著復(fù)合詞綴庫,用于為相應(yīng)的詞干提供黏著附加計(jì)算對(duì)象以生成所需黏著附加詞語;集成非黏著復(fù)合詞綴構(gòu)成非黏著復(fù)合詞綴庫,用于為相應(yīng)的復(fù)合詞根提供非黏著附加計(jì)算對(duì)象以生成所需非黏著復(fù)合詞語。4、根據(jù)權(quán)利要求3所述的方法,其特征在于,所述構(gòu)件數(shù)據(jù)庫還包括專業(yè)術(shù)語庫、多變體附屬成分庫和自定義數(shù)據(jù)庫,步驟S2還包括子步驟將蒙古語數(shù)學(xué)、物理學(xué)、化學(xué)、醫(yī)學(xué)、生物學(xué)、計(jì)算機(jī)技術(shù)科學(xué)各類不同專業(yè)術(shù)語集成到專業(yè)術(shù)語庫;將蒙古語多變體附屬成分集成到多變體附屬成分庫,用于為多變體附屬成分的知識(shí)處理提供數(shù)據(jù)和規(guī)則;生成由使用者填充的自定義庫,用于為使用者個(gè)性化詞語的存儲(chǔ)和生成提供工具。5、根據(jù)權(quán)利要求4所述的方法,其特征在于,所述詞綴數(shù)據(jù)庫、黏著復(fù)合詞綴庫、非黏著復(fù)合詞綴庫、多變體附屬成分庫、自定義庫根據(jù)需要可以不斷擴(kuò)充。6、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述規(guī)則體系中每組規(guī)則由BDQ規(guī)則描述語言進(jìn)行描述,BDQ規(guī)則描述語言由數(shù)字計(jì)算機(jī)鍵盤符號(hào)構(gòu)成英文大寫輸入碼表示可作為中綴的構(gòu)件數(shù)據(jù)庫取值類型,英文小寫輸入碼表示可作為尾綴的構(gòu)件數(shù)據(jù)庫取值類型;0至9的數(shù)字表示可作為動(dòng)詞尾綴的構(gòu)件數(shù)據(jù)庫類型集合;斜杠表示或者關(guān)系;圓括號(hào)表示嵌入構(gòu)件數(shù)據(jù)庫的嵌套關(guān)系;下劃線表示詞類;#號(hào)表示一組路線組合規(guī)則描述結(jié)東,另一組路線組合規(guī)則描述開始。7、根據(jù)權(quán)利要求6所述的方法,其特征在于,規(guī)則體系中的每組規(guī)則允許詞干組合多個(gè)不同類型構(gòu)件數(shù)據(jù)庫中的構(gòu)件,以多叉樹結(jié)構(gòu)生成。8、根據(jù)權(quán)利要求l所述的方法,其特征在于,還包括步驟S5,生成以蒙古語各類語言元素以及組合形式為統(tǒng)計(jì)單位,用于進(jìn)行蒙古語實(shí)時(shí)統(tǒng)計(jì)的系列統(tǒng)計(jì)工具單元。9、一種蒙古語數(shù)字化知識(shí)庫系統(tǒng),其特征在于,該系統(tǒng)包括知識(shí)處理字段單元,用于為數(shù)字計(jì)算機(jī)給出蒙古語的詞根/詞干,并描述蒙古語詞根/詞干的相關(guān)知識(shí)屬性信息;構(gòu)件數(shù)據(jù)庫,集有蒙古語詞根/詞干不同形式的構(gòu)件;規(guī)則體系,用于定義詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合和各構(gòu)件之間封裝嵌套規(guī)則;屬性字段單元,由蒙古語短語知識(shí)描述字段、句法知識(shí)描述字段、施事/受事知識(shí)描述字段組成的屬性字段單元組成,用于限定蒙古語的詞語組合關(guān)系。10、根據(jù)權(quán)利要求9所述的蒙古語數(shù)字化知識(shí)庫系統(tǒng),其特征在于,該系統(tǒng)還包括系列統(tǒng)計(jì)工具單元,用于以蒙古語各類語言元素以及組合形式為統(tǒng)計(jì)單位,進(jìn)行蒙古語的實(shí)時(shí)統(tǒng)計(jì)。全文摘要本發(fā)明涉及一種蒙古語數(shù)字化知識(shí)庫系統(tǒng)構(gòu)建方法,包括的步驟獲取蒙古語詞根/詞干及描述詞根/詞干的相關(guān)知識(shí)屬性信息,生成詞根/詞干知識(shí)處理字段單元;獲取蒙古語詞根/詞干不同形式的構(gòu)件構(gòu)成構(gòu)件數(shù)據(jù)庫;建立定義詞根/詞干可組合的構(gòu)件、以及構(gòu)件之間進(jìn)行自由組合和各構(gòu)件之間封裝嵌套規(guī)則的規(guī)則體系;生成用于限定蒙古語的詞語組合關(guān)系的屬性字段單元;生成進(jìn)行蒙古語實(shí)時(shí)統(tǒng)計(jì)的統(tǒng)計(jì)工具單元。本發(fā)明構(gòu)建的蒙古語數(shù)字化知識(shí)庫系統(tǒng),通過公知的蒙古語鍵盤輸入方式和蒙古語OCR識(shí)別輸入方式動(dòng)態(tài)地獲取蒙古語信息,并將其時(shí)實(shí)地轉(zhuǎn)化為蒙古語豐富的知識(shí),為蒙古語的數(shù)字化應(yīng)用、數(shù)字化教學(xué)、數(shù)字化學(xué)習(xí)、數(shù)字化研究、數(shù)字化開發(fā)提供技術(shù)支撐。文檔編號(hào)G06F17/30GK101576909SQ200910083749公開日2009年11月11日申請(qǐng)日期2009年5月11日優(yōu)先權(quán)日2009年5月11日發(fā)明者月六,巴圖賽恒,白雙成,蘇雅拉圖申請(qǐng)人:內(nèi)蒙古蒙科立軟件有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1