專利名稱:一種漢語到盲文的自動翻譯轉換方法
技術領域:
本發(fā)明涉及一種實現(xiàn)漢語到盲文的自動翻譯轉換方法,特別涉及一種采用連寫統(tǒng)計詞庫來提高轉換效率的漢盲自動翻譯轉換方法,屬于計算機文字處理技術領域。
背景技術:
我國是世界上盲人最多的國家。廣大盲人需要借助盲文這一工具來吸收人類社會的優(yōu)秀文明成果。但是長期以來,盲文書籍的出版工作仍然面臨效率低下、出版周期過長、工作量大等困難,難以滿足廣大盲人日益增長的需求。如何能夠更加有效地實現(xiàn)漢語與盲文之間的轉換,將更多的文明成果呈獻給盲人朋友,一直是人們致力解決的課題。
盲文是一種以六個凸凹點為基本結構,按照一定的規(guī)則排列,由盲人通過觸覺感受的文字。由于六個凸凹點的組合可以表達出26=64種不同的信息,對于一般的拼音文字而言,這么多的組合完全夠用,而漢語則不同,僅常用的漢字就多達數(shù)千個,因此現(xiàn)有的漢語盲文采用拼音文字的方案,根據(jù)漢字的讀音進行編碼,用六個凸凹點代表漢語拼音的聲母、韻母和音調。國標GB/T15720-1995所定義的盲文編碼表就是這樣的一種漢語盲文編碼方案,在其中定義了漢語聲母、韻母和音調、標點符號、數(shù)字符號對應的盲文點字,從而實現(xiàn)拼音、符號到盲文編碼的轉換。下面就是該盲文編碼表中一些常見拼音和符號的實際例子聲母zh 韻母ong 聲調陰平 句號 逗號數(shù)字3 人們很早就嘗試利用計算機完成自然語言與盲文之間的轉換,但這方面的工作在國內(nèi)開展得比較晚,漢語與漢語盲文之間進行轉換的技術還不成熟。中國發(fā)明專利01118675.5公開了一種中文漢語到盲文的自動轉換方法。該方法的特點是首先對非漢語符號進行預切分處理,讀入一段連續(xù)的漢字串,根據(jù)詞匯表分別用MM法和RMM法進行分詞;比較MM和RMM分詞結果是否相同,相同,記錄分詞結果;分詞結果不相同,構造歧義字段的歧義樹,搜索最優(yōu)分詞結果,記錄分詞結果;判斷文本分詞是否完畢,若是,按照盲文分詞連寫規(guī)則對分詞結果進行修改,生成與分詞結果對應的盲文點字。與此相類似的技術還有一些,但這些技術仍然存在分詞連寫的正確率不高,不能滿足專業(yè)排版系統(tǒng)的需要;只適用于現(xiàn)行盲文或雙拼盲文,不能處理國語點字盲文和粵語盲文等方面的缺陷,仍有進一步改進的必要。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種新的漢語到盲文的自動翻譯轉換方法。
為實現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術方案一種漢語到盲文的自動翻譯轉換方法,其特征在于包括如下步驟(1)輸入漢語字符串;(2)將字符串分割;(3)判斷分割后的字符串是否是標點符號、ASCII碼字符等特殊符號,如果是,根據(jù)特殊符號與盲文的對照表將其直接轉換為相應類型的盲文點字,轉入步驟(9);如果否,轉入步驟(4);(4)對漢語字符串進行分詞處理;(5)對分詞后的詞塊進行詞性標注;(6)按照盲文分詞連寫規(guī)則組合連寫詞塊;(7)利用連寫統(tǒng)計詞庫對組合后的詞塊進行二次組合連寫;(8)根據(jù)盲文的拼法和標調規(guī)則將組合后的詞塊轉換為盲文點字;(9)將生成的盲文點字對外輸出。
所述步驟(4)包括如下子步驟a.參照詞典,利用正向最大匹配算法對語句進行拆分;b.利用組合歧義詞庫進行歧義判斷;c.根據(jù)歧義規(guī)則,通過推理消除歧義;d.輸出分詞結果。
所述步驟(6)中,對所述分詞連寫規(guī)則進行統(tǒng)一形式化描述。
所述步驟(7)中,所述連寫統(tǒng)計詞庫分為基礎詞庫、專業(yè)詞庫和用戶詞庫。
所述步驟(7)中,所述連寫統(tǒng)計詞庫中包含連寫詞塊及其相應的拼音、相應類型的盲文點字。
所述步驟(8)中,所述盲文的拼法和標調規(guī)則為現(xiàn)行盲文、雙拼盲文、國語點字盲文、粵語盲文的拼法和標調規(guī)則中的一種。
本發(fā)明所述的漢語到盲文的自動翻譯轉換方法與現(xiàn)有技術相比,由于采用了本申請人獨有的分詞算法,分詞準確率高,詞性歧義少。它還根據(jù)連寫統(tǒng)計詞庫對初次組合后的詞塊進行二次組合連寫,可以保證較快的轉換速度和較高的轉換正確率。
下面結合附圖和具體實施方式
對本發(fā)明作進一步的說明。
圖1為本發(fā)明中使用的分詞算法的流程圖。
圖2為實施本發(fā)明所述漢盲自動翻譯轉換方法的效果示意圖。
圖3為本漢盲自動翻譯轉換方法的流程示意圖。
具體實施例方式
在對本發(fā)明所述的漢盲自動翻譯轉換方法進行具體說明之前,先對實現(xiàn)本發(fā)明所依賴的分詞算法加以簡單說明。
分詞是指將漢語語句拆分為獨立的詞。這是機器翻譯中最基礎的一項工作。本發(fā)明中使用的分詞算法在本申請人的另一項發(fā)明專利“一種全自動漢字分詞系統(tǒng)”(專利號ZL96100831.8,申請日1996年1月30日,授權日2003年4月30日)中有詳細的說明,其基本內(nèi)容如圖1所示,包括如下步驟(1)輸入漢字語句;(2)參照詞典,利用正向最大匹配算法對語句進行拆分;(3)利用組合歧義詞庫進行歧義判斷;(4)根據(jù)歧義規(guī)則,通過推理消除歧義;(5)輸出分詞結果。
上面所述的詞典中建有詞典索引和最大詞長信息域、詞的詞性特征,以識別以某字開頭的詞在詞典中的最大長度,并完成高速度查詢請求,標注出分詞結果的詞性。
上述正向最大匹配算法是這樣的結合詞典最大詞長信息和在句中的最大可能邊長,確定一個最優(yōu)最大邊長N,在詞典中查找。若詞典中有這樣的一個N字詞,則匹配成功,匹配字段作為一個詞被切分出來;如果詞典中找不到這樣的一個N字詞,則匹配失敗。匹配字段去掉最后一個漢字,剩下的N-1個字符作為新的匹配字段,進行新的匹配,如此進行下去,直至切分到成功為止。即完成一輪匹配切分出一個詞,然后再按上面的步驟進行下去,直到切分出所有詞為止。
在求解的過程中,還要進行歧義判斷。所謂歧義判斷是由于漢語本身在組合上復雜多樣,同樣的文字組合由于斷句不同,含義上有很大差別,例如“我看到你那年才六歲”,可以理解為“那年”“我”六歲,也可理解為“你”六歲。類似這樣的歧義現(xiàn)象可以概括分為交叉歧義和組合歧義兩種。交叉歧義是形如字串AXB,其中AX構成一個詞,同時XB也構成一個詞,這類歧義現(xiàn)象即為交叉歧義。其中,A、X、B的長度大于等于一個字長。如“有時間”、“不同情況”、“大腦袋”等。組合歧義是形如AB的詞串,其中A,B分別獨立成詞。如“個人”、“陣風”。交叉歧義是根據(jù)其特征來判斷的。組合歧義的判斷則根據(jù)組合歧義詞庫。該詞庫統(tǒng)計了本算法所用詞典數(shù)據(jù)下幾乎所有的組合歧義詞,并按有效結構進行組織和查詢。
通過推理消除歧義是解決歧義問題的另一手段。推理是根據(jù)歧義規(guī)則庫進行的。歧義規(guī)則庫包含了在某些特定詞、詞類或屬性情況下的歧義切分規(guī)則,如NP(將來),NP(PLA)→DWD(A),該規(guī)則表示當詞“將來”的后面跟一個表示地點的名詞時,該詞要切分開。
在利用上述分詞算法完成分詞工作之后,后續(xù)的工作是根據(jù)上述詞典標注出每個詞的詞性特征,如將名詞標注為NP,形容詞標注為AP,動詞標注為VP等。
上述分詞過程完成之后,雖然可以利用計算機將各個單個的詞轉換為盲人所使用的點字。但這樣形成的點字只是一些孤立的語素,并不能直接形成盲人實際使用的盲文。因此,還需要使用本發(fā)明提供的分詞連寫方法對分詞結果進行組合連寫,并根據(jù)盲文的拼法和標調規(guī)則將組合后的分詞轉換為正確的盲文碼輸出。
盲人使用的漢語盲文與我們通常使用的漢語在使用上存在一些差別。盲人閱讀盲文時,首先要靠觸覺觸摸到六個點字,根據(jù)這六個點字拼出發(fā)音,再根據(jù)自己的知識、經(jīng)驗和語言能力判斷出語義,是一個“觸覺→發(fā)音→語義”的過程。為了讓盲人比普通人更容易、準確和清晰地理解盲文,以及使盲人文字更加精密化、科學化,漢語盲文中采用分詞連寫規(guī)則。該分詞連寫規(guī)則是漢語盲文所特有的規(guī)則,它規(guī)定了盲文詞在什么情況下分開寫,什么情況下組合在一起。所謂分詞即是上面所述的按照漢語語法把一個一個的詞分開來寫;所謂連寫,即按照盲文的特殊性,為避免音節(jié)結構過于松散、便于摸讀,將一部分音節(jié)較少,在意義上結合較為緊密的短詞組連寫在一起,以減少一些零散的單音節(jié)形式。如漢語句子“偉大的中國共產(chǎn)黨帶領全國人民推翻了封建階級的統(tǒng)治,建立了社會主義新中國”按照現(xiàn)代漢語的分詞規(guī)范,分為“偉大 的 中國 共產(chǎn)黨 帶領 全國 人民 推翻 了 封建 階級 的 統(tǒng)治,建立 了 社會主義 新 中國”按照漢語盲文分詞連寫規(guī)則,部分詞需要組合在一起,采用分詞連寫后為(采用‘|’隔開)“偉大|的|中國|共產(chǎn)黨|帶領|全國|人民|推翻了|封建階級|的|統(tǒng)治,建立了|社會主義|新中國|”。
分詞連寫規(guī)則一定要符合漢語語法和語言的邏輯性、習慣性,并且要考慮音節(jié)長短適度,適當減少一些零散的單音節(jié)詞。為此,國家頒布了國標GB/T15720-1995,在其中規(guī)定了分詞連寫的一般規(guī)則 普通話基本上以詞為單位拼寫,每個詞的各個詞素或音節(jié)連寫; 表示一個整體概念,由多音節(jié)詞組成的固定詞組,按詞分開寫; 表示一個整體概念的雙音節(jié)和三音節(jié)結構,已經(jīng)詞化的,連寫; 表示一個整體概念,其音節(jié)在四個以上的名稱,按詞(或語節(jié))分寫,不能按詞劃分時,均應連寫; 為了便于摸讀和理解,使詞意迅速地形成概念,將一部分音節(jié)較好,在意義上結合得較為緊密的短語詞組連寫在一起,以減少一些零散的單音節(jié)形式。
在此基礎上,根據(jù)詞類還派生出100多條具體的規(guī)則。這些規(guī)則的具體內(nèi)容可以參照上述國家標準,在此就不重復了本發(fā)明為方便計算機的處理,保證分詞連寫的準確性,對各類詞和詞組的具體分詞連寫規(guī)則進行分析和統(tǒng)一形式化描述,如上述國家標準中一個形容詞的分詞連寫規(guī)則為形容詞重疊式中間插入否定副詞“不”,不論單音節(jié)重疊式還是雙音節(jié)不完全重疊式,都連寫;雙音節(jié)完全重疊式中間插入的“不”,跟前面的詞分開,跟后面的詞連寫。如好不好 明不明白 熱不熱鬧 漂亮|不漂亮 清楚|不清楚本發(fā)明將其形式化為下面兩條規(guī)則AP(1,1,same)+(’不’;)+AP(1,1,same)->CONNECT(CH) 好不好AP(1,1,same)+(’不’;)+AP(2,1,same)->CONNECT(CH) 漂不漂亮AP(2,1,same)+(’不’;)+AP(2,1,same)->AP+CONNECT(CH) 漂亮|不漂亮類似的形式化規(guī)則還有很多。這種形式化規(guī)則是為了計算機處理的需要,在此不一一詳細說明。
本發(fā)明所述的漢盲自動翻譯轉換方法在完成分詞和詞性標注的工作之后,下一步要解決的技術問題就是將分割后的單個語素組合成符合盲文要求的詞塊。這部分工作雖然可以參照上述的國家標準GB/T15720-1995來進行,但僅僅套用該標準顯然是不夠的。為此,本發(fā)明提出了采用分詞連寫統(tǒng)計詞庫進行二次組合連寫的解決方案,即首先運用上述的分詞連寫規(guī)則完成第一步的詞素組合,然后利用連寫統(tǒng)計詞庫,對第一步組合后的詞再進行第二次組合連寫,從而得到分詞連寫的最后結果,最后根據(jù)盲文的拼法和標調規(guī)則把組合后的分詞轉換為正確的盲文碼輸出。
這里的連寫統(tǒng)計詞庫是利用計算機大量統(tǒng)計盲文書籍中分詞連寫后的詞和詞組而得到的,包含各個連寫詞塊及其相應的拼音、相應類型的盲文點字。該連寫統(tǒng)計詞庫可以分為基礎詞庫和專業(yè)詞庫、用戶詞庫。本翻譯轉換方法采用詞庫動態(tài)擴展的技術思路,除了基礎詞庫必須安裝之外,專業(yè)詞庫可以根據(jù)用戶的需要隨時掛接。用戶詞庫可以根據(jù)用戶的使用習慣隨時進行動態(tài)擴充,即用戶一旦把連寫的分詞加入到用戶詞庫中,該方法便按照用戶定義的分詞進行連寫,從而保證分詞連寫符合用戶的要求。
為便于盲人讀準音調,從而準確理解詞意,本發(fā)明采用了標準的盲文標調規(guī)則。該規(guī)則對現(xiàn)行盲文的標調規(guī)定如下1)對生疏的詞語、成語標調;2)對古漢語實詞標調;3)在文內(nèi)首次出現(xiàn)的專有名詞(極普通的除外)應標調;4)為了區(qū)別同音、同形字,應對一些詞標調;5)以兩個單字母組成的詞語,前者為聲母,后者為韻母,其間必須標調;6)單音節(jié)詞一般要標調,經(jīng)常使用的單音節(jié)詞可不標調;7)雙音節(jié)詞和多音節(jié)詞須標調時首先考慮在第一字上標調;有時為了區(qū)別同形字,則其他字也應標調;8)帶詞、副詞、時態(tài)助詞、結構助詞、介詞、連詞、嘆詞、象聲詞一般不標調;9)外國專有名詞一般不標調。
按照上述規(guī)則標調后的盲文便于盲人識別和理解。在標調工作完成之后,后續(xù)的工作就是通過計算機將轉換成功的盲文對外輸出,如圖2所示的那樣。
在漢盲翻譯轉換的過程中,有一種情況必須要預先考慮到,就是實際的漢語文章中不僅僅是漢語詞句,有時還會包含標點符號和ASCII碼字符,這些是可以直接轉換為盲文點字對外輸出的。因此,本漢盲自動翻譯轉換方法首先要對輸入的漢語字符串進行分割,并判斷分割后的字符串是否是標點符號、ASCII碼字符等特殊符號,如果是,將其按照盲文編碼表直接轉化為盲文編碼對外輸出。
概括上述對本漢盲自動翻譯轉換方法的說明,本漢盲自動翻譯轉換方法如圖3所示,可以歸結為如下步驟(1)輸入漢語字符串;(2)將字符串分割;(3)判斷分割后的字符串是否是標點符號、ASCII碼字符等特殊符號,如果是,根據(jù)特殊符號與盲文的對照表將其直接轉換為相應類型的盲文點字,轉入步驟(9);如果否,轉入步驟(4);(4)對漢語字符串進行分詞處理;(5)對分詞后的詞塊進行詞性標注;(6)按照盲文分詞連寫規(guī)則組合連寫詞塊;(7)利用連寫統(tǒng)計詞庫對組合后的詞塊進行二次組合連寫;(8)根據(jù)盲文的拼法和標調規(guī)則將組合后的詞塊轉換為盲文點字;(9)將生成的盲文點字對外輸出。
使用本漢盲自動翻譯轉換方法,不僅可以將漢語轉換為現(xiàn)行盲文,還可以將其轉換為雙拼盲文,臺灣地區(qū)使用的國語點字盲文以及港澳地區(qū)使用的粵語盲文。在轉換為雙拼盲文,國語點字盲文或粵語盲文時,所采取的步驟與上述的方法步驟完全一樣,所不同的僅僅是拼法和標調規(guī)則的不同。對此,將實現(xiàn)本發(fā)明方法的計算機程序中預設的拼法和標調規(guī)則進行修改即可達到目的。
上面對本發(fā)明所述的漢語到盲文的自動翻譯轉換方法進行了詳細的說明,但顯然本發(fā)明的具體實現(xiàn)形式并不局限于此。對于本技術領域的一般技術人員來說,在不背離本發(fā)明所述方法的精神和權利要求范圍的情況下對它進行的各種顯而易見的改變都在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種漢語到盲文的自動翻譯轉換方法,其特征在于包括如下步驟(1)輸入漢語字符串;(2)將字符串分割;(3)判斷分割后的字符串是否是標點符號、ASCII碼字符等特殊符號,如果是,根據(jù)特殊符號與盲文的對照表將其直接轉換為相應類型的盲文點字,轉入步驟(9);如果否,轉入步驟(4);(4)對漢語字符串進行分詞處理;(5)對分詞后的詞塊進行詞性標注;(6)按照盲文分詞連寫規(guī)則組合連寫詞塊;(7)利用連寫統(tǒng)計詞庫對組合后的詞塊進行二次組合連寫;(8)根據(jù)盲文的拼法和標調規(guī)則將組合后的詞塊轉換為盲文點字;(9)將生成的盲文點字對外輸出。
2.如權利要求1所述的漢語到盲文的自動翻譯轉換方法,其特征在于所述步驟(4)包括如下子步驟a.參照詞典,利用正向最大匹配算法對語句進行拆分;b.利用組合歧義詞庫進行歧義判斷;c.根據(jù)歧義規(guī)則,通過推理消除歧義;d.輸出分詞結果。
3.如權利要求1所述的漢語到盲文的自動翻譯轉換方法,其特征在于所述步驟(6)中,對所述分詞連寫規(guī)則進行統(tǒng)一形式化描述。
4.如權利要求1所述的漢語到盲文的自動翻譯轉換方法,其特征在于所述步驟(7)中,所述連寫統(tǒng)計詞庫分為基礎詞庫、專業(yè)詞庫和用戶詞庫。
5.如權利要求4所述的漢語到盲文的自動翻譯轉換方法,其特征在于所述步驟(7)中,所述連寫統(tǒng)計詞庫中包含連寫詞塊及其相應的拼音、盲文點字。
6.如權利要求1所述的漢語到盲文的自動翻譯轉換方法,其特征在于所述步驟(8)中,所述盲文的拼法和標調規(guī)則為現(xiàn)行盲文、雙拼盲文、國語點字盲文、粵語盲文的拼法和標調規(guī)則中的一種。
全文摘要
本發(fā)明公開了一種漢盲自動翻譯轉換方法,該方法包括如下步驟(1)輸入漢語字符串;(2)將字符串分割;(3)判斷分割后的字符串是否是標點符號、ASCII碼字符等特殊符號,如果是,將其直接轉換為盲文點字,轉入步驟(9);如果否,轉入步驟(4);(4)對漢語字符串進行分詞處理;(5)對分詞后的詞塊進行詞性標注;(6)按照盲文分詞連寫規(guī)則組合連寫詞塊;(7)利用連寫統(tǒng)計詞庫對組合后的詞塊進行二次組合連寫;(8)根據(jù)盲文的拼法和標調規(guī)則將組合后的詞塊轉換為盲文點字;(9)將生成的盲文點字對外輸出。本方法采用獨有的分詞算法,分詞準確率高,詞性歧義少;應用分詞連寫統(tǒng)計詞庫進行二次組合連寫,大大提高了漢字轉換為盲文的正確率。
文檔編號G06F17/28GK1591414SQ20041004606
公開日2005年3月9日 申請日期2004年6月3日 優(yōu)先權日2004年6月3日
發(fā)明者黃河燕 申請人:華建電子有限責任公司