專利名稱:漢語語法自動分析及處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言的分析與處理方法,更具體地,涉及漢語語法自動分析與處理方法。
漢語(即中文)在中國社會中作為一種自然語言供人們使用時,一般人應(yīng)均可非常靈活地加以運用,然而,若將漢語應(yīng)用于電腦中,且欲使電腦(包括電子字典及電子記事簿等電子產(chǎn)品)使用者(尤其是非漢語系用戶)能針對漢語(中文)語法進行自動分析時,如針對中文信息進行語意辨識、語法檢查或電腦翻譯等時,該電腦即必須具備語法自動分析能力,而能造成這種一功能的漢語電腦程序(如電子字典等),由于其復(fù)雜的漢語語法規(guī)則,故在程序設(shè)計及實際應(yīng)用上,必須通過建立龐大的語法規(guī)則庫及復(fù)雜的語法分析法,再藉由高速的中央處理器,歷經(jīng)冗長的運算處理時間,方可能完成。
此處,一般漢語電腦程序無法具備語法自動分析能力的另一原因,在于漢語的語法規(guī)則不同于電腦上所使用的程序語言的語法規(guī)則,前者是根據(jù)大量的語言習(xí)慣總結(jié)而得到的自然語法,其中存在較多的語法例外和特殊情況,并且經(jīng)常具有多種意義特性;而后者則是人們根據(jù)一定的邏輯規(guī)則所發(fā)明的,故從設(shè)計上可輕易避免多種意義特性及例外情況的存在。
因此,欲使電腦能針對自然語言作出精確的語法分析,并劃分出語句的語法單位,確實是一種相當(dāng)困難的技術(shù),不僅須建立龐大且完整的語法規(guī)則庫、使用復(fù)雜的語法分析運算法,還需要具備速度極高的微處理器,并耗費足夠長的運算時間,方有可能具體實現(xiàn)。但是,在某些對于實時性(Real Time)要求較準確性更高的語言系統(tǒng)(如中文語言系統(tǒng)、袖珍中文翻譯系統(tǒng))中,由于其語法的分析過程要求能快速完成,而所分析的結(jié)果僅要求基本上準確即可,因此如何據(jù)此而設(shè)計出一種可利用電腦快速且正確地分析出漢語語法結(jié)構(gòu)的方法,是當(dāng)今發(fā)展電腦漢語語言系統(tǒng)領(lǐng)域共同面臨且亟待解決的重要課題。
本發(fā)明人即針對前述對于實時性要求較準確性為高的漢語語言系統(tǒng)而設(shè)計出本發(fā)明,希望用電腦微處理器所具備的運算處理能力,以較小的數(shù)據(jù)庫為基礎(chǔ),在使用者所接受的極短時間內(nèi),對輸入電腦的漢語文字串,進行快速地語法分析與運算,并獲得基本上準確的語法成分。
本發(fā)明模擬人們在識別語法單位和劃分句子語法成分時的行為模式,并將其程序予以邏輯化,再通過建立數(shù)據(jù)庫,且以該數(shù)據(jù)庫為依據(jù),利用電腦,對輸入的中文句子進行語法分析。
本發(fā)明的漢語語法自動分析及處理方法主要是先根據(jù)數(shù)據(jù)庫中的漢語語詞庫,對輸入的句子進行語詞劃分,再根據(jù)數(shù)據(jù)庫中的詞性標記規(guī)則,依次標定句子中各語詞的詞性,獲得與輸入句子順序相同的詞性標記符號串,再依據(jù)數(shù)據(jù)庫中的語法規(guī)則,對有意義的標記符號組合進行合并操作,以簡化句子的語法結(jié)構(gòu),重復(fù)執(zhí)行上述步驟直到不能合并為止,即可獲得該句子最簡化的語法結(jié)構(gòu)。
圖1是本發(fā)明的系統(tǒng)示意圖;圖2是本發(fā)明的流程示意圖;圖3是本發(fā)明中根據(jù)句子中各語詞的詞性,依次標注詞性標記的流程示意圖;圖4是本發(fā)明中根據(jù)語法規(guī)則對句子中的詞性標記組合逐一進行合并的流程圖。
如圖1所示,本發(fā)明先于其系統(tǒng)框架建立一漢語語詞庫、一漢語語詞性庫及一漢語語法規(guī)則庫等數(shù)據(jù)庫,并以這些數(shù)據(jù)庫為基礎(chǔ),利用本發(fā)明的漢語語法自動分析及處理方法,通過電腦微處理器予以實現(xiàn)。
如表1、表2、表3分別為本發(fā)明的漢語語詞庫、漢語詞性庫和漢語語法規(guī)則庫的實例。
表1漢語語詞庫
表2漢語詞性庫
本發(fā)明的漢語語法自動分析及處理方法,如圖2所示,主要借助于模擬人們在辨識語法單位和劃分句子語法成分時的行為模式,并以所建立的數(shù)據(jù)庫為依據(jù),通過電腦對輸入電腦的句子進行語法分析,現(xiàn)簡述該自動分析及處理方法的程序如下1)根據(jù)電腦中該漢語語詞庫的語詞,對輸入的句子進行語詞劃分;2)再根據(jù)該漢語詞性庫中的詞性標記規(guī)則,依次標定句子中各語詞的詞性,以獲得與輸入句子順序相同的詞性標記符號串;3)然后再根據(jù)該漢語語法規(guī)則庫中的語法規(guī)則,對所獲得的該詞性標記符號串中的各標記符號組合逐一進行合并,以簡化句子的語法結(jié)構(gòu);4)重復(fù)執(zhí)行步驟3),直到不能合并為止;5)這樣,即可得到句子合并后的最簡化的符號串,并產(chǎn)生句子的語法結(jié)構(gòu)。
為使本發(fā)明借助電腦對漢語語法進行分析及處理的方法能更清楚明了,現(xiàn)列舉一最佳實施例說明該方法的詳細流程如下,再如圖2所示1)首先,本發(fā)明需將所預(yù)先規(guī)則整理的漢語語詞庫(如表1所示)、漢語詞性庫(如表2所示)及漢語語法規(guī)則庫(如表3所示)等資料,以數(shù)字形式儲存在電腦的存儲器內(nèi)所建立的數(shù)據(jù)庫中,其中該漢語詞性庫中各語詞的詞性則依下表所對應(yīng)的標記予以設(shè)定
2)電腦依據(jù)存儲器中的漢語語詞庫,對輸入電腦的漢語句子進行語詞劃分,然后再將經(jīng)語詞劃分后的語詞串儲存在電腦的存儲器中;3)電腦再根據(jù)儲存在存儲器中的漢語詞存性庫,將語詞劃分后儲存在存儲器中的這些漢語語詞串的各個語詞存依次標記詞性標記,獲得與輸入句子中各文字串順序相同的詞性標記符號串,并將其儲存在電腦存儲器中;4)電腦自動查詢儲存在電腦存儲器中的這些詞存性標記符號串,并依據(jù)儲存在存儲器中的漢語語法規(guī)則庫,尋找符合表3所示的該規(guī)則庫中語法規(guī)則的詞性標記組合,如圖3所示,如果尋找不到符合語法規(guī)則的詞性標記組合,電腦即進行最后面的步驟(6),否則,繼續(xù)以下步驟;5)電腦根據(jù)由第(4)得到的符合附表3所示的詞性標記組合逐一進行合并,如圖4所示,并將合并的新的詞性標記組合儲存至存儲器中,然后,電腦再針對該新的詞性標記組合返回步驟(4),反復(fù)進行合并,直到合并后的新的詞性標記不能合并為止;如下面對例句1和例句2執(zhí)行上述步驟可得例句1我們及時地發(fā)現(xiàn)了工作中的缺點和錯誤
例句2雖然她努力地去討好他,但仍然得不到他的諒解,她覺得真痛苦啊!
6)這樣,電腦即可獲得合并后最簡單的詞性標記串,并據(jù)以分析出輸入電腦的漢語句子的語法結(jié)構(gòu)及類型。
本發(fā)明方法可利用現(xiàn)有電腦的技術(shù)條件,對漢語(中文)句子進行迅速的語法分析,且該方法經(jīng)具體實施后,亦證明其在語法分析方法確具成效,無須建立龐大且全面的語法規(guī)則庫、使用復(fù)雜的語法分析運算法、藉助高速的中央處理器及耗費冗長的運算時間,即可對任意有意義中文句子完成快速又正確的語法分析。
以上所述,僅系本發(fā)明的較佳實施例,但是,本發(fā)明所主張的權(quán)利范圍,并不局限于此,本領(lǐng)域技術(shù)人員,依據(jù)本發(fā)明所揭露的技術(shù)內(nèi)容,可輕易將其等效變化,而這些變化均應(yīng)屬不脫離本發(fā)明的保護范疇。
權(quán)利要求
1.一種漢語語法自動分析及處理方法,該方法先在電腦中建立一數(shù)據(jù)庫,該數(shù)據(jù)庫包含一漢語語詞庫、一漢語詞性庫及一漢語語法規(guī)則庫等數(shù)據(jù)庫,電腦即以該數(shù)據(jù)庫為依據(jù),對輸入電腦的句子進行語法分析,該方法主要包括下列步驟(1)首先,根據(jù)電腦存儲器中的該漢語語詞庫的語詞,對輸入的句子進行語詞劃分;(2)再根據(jù)該漢語詞性庫中的詞性標記規(guī)則,依次標定該句子中各語詞的詞性,以獲得與該句子文字串順序相同的詞性標記符號串;(3)然后再根據(jù)該漢語語法規(guī)則庫中的語法規(guī)則,對所獲得的該詞性標記符號串中的各詞性標記組合逐一進行合并,以簡化該句子的語法結(jié)構(gòu);(4)重復(fù)執(zhí)行步驟3),直到不能合并為止;(5)這樣,即獲得該句子合并后的最簡化的符號串,據(jù)以分析出句子的語法結(jié)構(gòu)。
2.如權(quán)利要求1所述的漢語語法自動分析及處理方法,其特征在于,在電腦依據(jù)存儲器中的漢語語詞庫對輸入電腦的漢語句子進行語詞劃分后,這些劃分后的語詞串儲存在電腦的存儲器中。
3.如權(quán)利要求1所述的漢語語法自動分析及處理方法,其特征在于,電腦在獲得與輸入句子中各文字串順序相同的詞性標記符號串后,將其儲存在電腦存儲器中。
4.如權(quán)利要求1所述的漢語語法自動分析及處理方法,其特征在于,電腦根據(jù)該漢語語法規(guī)則庫對符合其語法規(guī)則的詞性標記組合逐一進行合并后,將合并后的新的詞性標記組合儲存至存儲器中,然后,電腦再針對該新的詞性標記組合,反復(fù)進行合并,直到合并后的新的詞性標記不能合并為止。
5.如權(quán)利要求1所述的漢語語法自動分析及處理方法,特征在于,當(dāng)電腦無法由漢語語法規(guī)則庫對該詞性標記符號串中的各詞性標記尋找到符合語法規(guī)則的組合時,即以該句子合并后的最簡化的符號串分析出句子的語法結(jié)構(gòu)。
全文摘要
本發(fā)明是一種漢語語法自動分析及處理方法,利用電腦先根據(jù)漢語語詞庫對輸入的漢語文字串(句子)進入語詞劃分,再根據(jù)詞性標記規(guī)則依次標定各語詞的詞性,得到與句子順序相同的詞性標記符號串,然后根據(jù)語法規(guī)則,對標記符號組合進行合并,重復(fù)執(zhí)行至不能合并為止以簡化句子的語法結(jié)構(gòu),這樣,針對任意有意義的中文句子,無須通過龐大的語法規(guī)則庫、復(fù)雜的語法分析法、高速的中央處理器及冗長的運算處理時間,即可快速且正確地分析出其語法結(jié)構(gòu)。
文檔編號G06F3/023GK1209599SQ97117729
公開日1999年3月3日 申請日期1997年8月25日 優(yōu)先權(quán)日1997年8月25日
發(fā)明者張景嵩, 楊徽, 賈麗紅, 錢力強 申請人:英業(yè)達股份有限公司