專利名稱:漢字音形兼容二用信息交換碼編碼方案的制作方法
漢字音形兼容二用信息交換碼編碼方案是一個用來編制形式類似國標(biāo)碼但能同時代表漢字音形二個信息的漢字交換碼的編碼方案。
如所周知,漢字具有形、音二個特征,但目前用來進(jìn)行漢字信息交換用的通用代碼-郵電碼和國標(biāo)碼都只是一種漢字字形的信息交換碼,不能同時用來直接交換漢字的字音信息,另外,現(xiàn)在還沒有一種通用的漢字字音交換碼,目前一般采用漢語拼音來標(biāo)注漢字的發(fā)音,用漢語拼音來標(biāo)注和輸入漢字的發(fā)音是可行的,但不適宜用它來做漢字的字音交換碼,因為它不是一種等長的數(shù)字碼,轉(zhuǎn)換成二進(jìn)制碼碼字很長,用來傳遞漢字字音信息效率太低,且難以與現(xiàn)有代碼體制和設(shè)備兼容,為了滿足日益發(fā)展的漢語語音處理技術(shù)的需要,建立一種高效且能與現(xiàn)有代碼體制和設(shè)備兼容的通用漢字字音交換碼是很有必要的。
但單純建立一種高效通用的漢字字音交換碼意義還不夠大,因為這樣的字音碼雖然可以滿足一些單純的漢語語音處理設(shè)備的需要,仍無法滿足那些需要頻繁進(jìn)行漢字形音信息轉(zhuǎn)換的漢語自然語言輸入輸出和處理設(shè)備的需要,在這類設(shè)備中,如果漢字的字形和字音各自使用一種彼此無關(guān)的字形碼和字音碼,進(jìn)行形→音或音→形信息轉(zhuǎn)換所需的硬件設(shè)備和軟件程序仍將會十分復(fù)雜。
解決問題最理想的辦法顯然是,設(shè)法為漢字建立一種音形兼容的二用信息交換碼,即一種既能代表漢字字形,又能同時代表漢字發(fā)音的交換碼,這是一個具有相當(dāng)吸引力的設(shè)想,如果能夠?qū)崿F(xiàn),無疑將會為漢字音形信息的傳輸和轉(zhuǎn)換帶來很大的好處和方便。
本專利的目的是嘗試探討建立這種漢字音形兼容二用信息交換碼的途徑和方法,并提出一個初步的具體編碼方案供人們參考。
如所周知,漢字發(fā)音具有同音特性,在總數(shù)6763個常用一、二級漢字中,不同發(fā)音僅有1301種(GB2312-80標(biāo)準(zhǔn)),一種發(fā)音,最少的僅與一個漢字對應(yīng),最多的具有60個同音字(如“Yì”音),利用漢字發(fā)音的這種同音特性,我們可以建立起一種形式為“字音代碼+同音字序號”的音形兼容二用碼,例如,用一個6位十進(jìn)制數(shù)X6X5X4X3X2X1便可構(gòu)造出一種最簡單的音形兼容二用碼,其中X6X5X4X3為字音代碼,取值范圍0001~1301,代表漢字發(fā)音的序號;X2X1為同音字序號,取值范圍01~60,一個字的字形用全碼來代碼,它的發(fā)音用字音代碼來代表。不過,這種用簡單方法構(gòu)成的漢字音形兼容二用碼,由于碼字太長(需占3個字節(jié)),代碼空間利用率很低,顯然不是一種理想的可供推廣使用的音形兼容二用碼。
為了建立具有實(shí)用意義的音形兼容二用碼,我們希望音形兼容二用碼具有國標(biāo)碼那樣的形式,因此,我們的努力方向應(yīng)該是設(shè)法將上述6位十進(jìn)制數(shù)字形式的音形兼容二用碼壓縮成為4位十進(jìn)制數(shù),并使它對應(yīng)的二進(jìn)制碼具有類似國標(biāo)碼那樣的雙字節(jié)7位碼的形式(即總共14位二進(jìn)制碼的形式),令它也能和ASC11碼相互兼容。
乍一看來,這一目標(biāo)似乎是無法實(shí)現(xiàn)的,的確如此,作者探索過多種方案均未獲成功,下面介紹的方案是本專利申請者找到的唯一可以基本滿足上述要求的方案,為了拋磚引玉,現(xiàn)提出來供人們參考。
為了敘述的方便,我們把漢字音形兼容二用信息交換碼拆分為字形碼和字音碼二種形式(其實(shí)它們只是一種碼),這二種碼都是4位十進(jìn)制數(shù)字形式的代碼,彼此兼容,兼容的意思是指二種碼的后三位碼的碼值完全相同,第一位碼的碼值有些區(qū)別,但可用簡單方法來進(jìn)行轉(zhuǎn)換,下面先來介紹這二種碼的結(jié)構(gòu)形式、代碼含義和相互之間的關(guān)系。
字形碼和字音碼的十進(jìn)制形式為a4a3a2a1和A4A3A2A1,取值范圍和相互關(guān)系為a1=0~9,a4a3a2=000~999;A1=0或6,A4A3A2=a4a3a2。
字形碼和字音碼的二進(jìn)制形式及它們之間的相互關(guān)系為
十進(jìn)制形式字形碼和字音碼中的a1和A1的值分別等于對應(yīng)二進(jìn)制碼第二字節(jié)前4位碼按權(quán)重“6-4-2-1”二-十進(jìn)制碼進(jìn)行變換的變換值(“6-4-2-1”二-十進(jìn)制碼二-十進(jìn)制數(shù)的變換關(guān)系為0000~0,0001~1,0010~2,0011~3,0100~4,0101~5,1000~6,1001~7,1010~8,1011~9),由于二進(jìn)制形式字音碼最前三位碼的碼值恒為0,故A1僅能取0和6二值;十進(jìn)制形式字形碼和字音碼中a4a3a2和A4A3A2的值,分別等于對應(yīng)二進(jìn)制碼第一字節(jié)和第二字節(jié)后三位碼總共共十位二進(jìn)制碼所對應(yīng)的十進(jìn)制數(shù)。
由以上代碼含義和取值范圍可知1.字形碼碼位總數(shù)為10000,字音碼碼位總數(shù)為2000;
2.字音碼A4A3A2A1分為A1=0和A1=6二大類,每類各占1000個碼位,A1=0的一類,每碼代表一個大同音區(qū)A1=6的一類,每碼代表一個小同音區(qū),每一大同音區(qū)可容納6個同音字;每個小同音區(qū)可容納4個同音字;
3.同一同音區(qū)中的漢字它們的字形碼中的a4a3a2均相同,a1的值,對大同音區(qū),由0變至5;對小同音區(qū),由6變至9,按同音字在該區(qū)中的排列次序而定;
4.同一同音區(qū)中的漢字均具有相同的字音碼,字音碼中的A4A3A2等于該區(qū)字形碼中的a4a3a2,字音碼中的A1,對大同音區(qū),恒為0;對小同音區(qū),恒為6;
5.由十進(jìn)制形式字形碼導(dǎo)出十進(jìn)制形式字音碼的法則為A4=a4,A3=a3,A2=a2,A1的轉(zhuǎn)化規(guī)律為當(dāng)a1=0~5時,A1=0;當(dāng)a1=6~9時,A1=6,舉例如下
這表明同一同音區(qū)中所有同音字的發(fā)音可用該區(qū)第一個字(代表字)的發(fā)音來代表,它們的字音碼均等于這個代表字的字音碼(也等于這個字的字形碼);
6.由二進(jìn)制形式字形碼導(dǎo)出二進(jìn)制形式字音碼的法則更為簡單,只需將字形碼第二字節(jié)中的前3位碼b3、b2、b1的碼值全部變?yōu)?即可,例如
由此可知,雖然音形碼中用來代表一個漢字字形的字形碼和國標(biāo)碼一樣,需要一個長度為14位的二進(jìn)制代碼,但用來代表其發(fā)音的字音碼,僅需一個長度為11位的二進(jìn)制代碼(由于最前三位碼碼值恒為0,故可將它們?nèi)サ?。
上述轉(zhuǎn)換法則得以實(shí)現(xiàn)的原因是,采用了權(quán)重為“6-4-2-1”的二-十進(jìn)制碼來轉(zhuǎn)換a1和A1的值,如采用其它權(quán)重的二-十進(jìn)制碼(如通常使用的“8-4-2-1”碼),則無法得到這樣簡單的轉(zhuǎn)換規(guī)律。
將幾千個常用漢字按照漢語拼音音節(jié)字母順序以同音區(qū)方式來進(jìn)行編排,可得形如表一和表二所示的漢字音形兼容二用信息交換碼代碼表和代碼本,編排時,同音字?jǐn)?shù)少于等于6個或4個時,分別安排在同一個大或小同音區(qū)中,同音字?jǐn)?shù)多于6個時安排在相鄰幾個同音區(qū)中。代碼表為一詳表,上面詳細(xì)列出了每一個漢字的字形、字音和對應(yīng)的二、十進(jìn)制字形碼和字音碼的具體形式,其中第一列“音序”為漢字發(fā)音序號(0~1301),用來幫助進(jìn)行檢索;代碼本為一本供用戶使用的簡表,共100頁(00~99區(qū)),上面僅有漢字的字形、字音和十進(jìn)制形式的字形碼和字音碼。本方案由于采用6字/4字方式來劃分大小同音區(qū),可使僅占一個同音區(qū)(僅有一個字音碼)的字音數(shù)目達(dá)928個之多,占總字音總數(shù)1301的71%以上,這便是本方案采用6字/4字方式劃分大小同音區(qū)的原因。
為使代碼規(guī)格化和提高代碼空間的利用率,同音字?jǐn)?shù)目較多的字音需要占據(jù)多個同音區(qū)并與多個字音碼對應(yīng),這個現(xiàn)象是不可避免的,但它對實(shí)際應(yīng)用影響不大,因為,在漢字的形→音轉(zhuǎn)換中,一個字音對應(yīng)多個字音碼是不會給應(yīng)用帶來什么困難的(因為可使這幾個字音碼均代表同一發(fā)音);在漢字的音→形轉(zhuǎn)換中,一個字音對應(yīng)多個字音碼,雖然會給應(yīng)用帶來一些困難,但由于在本方案中一字音所占有的多個同音區(qū)是相鄰接的,對應(yīng)的多個字音碼也是順序變化的,因此查找同音字時增加的困難也就不會太大。
漢字音形兼容二用信息交換碼可以用來做交換碼和內(nèi)部碼,也可用來做輸入碼使用。
作內(nèi)部碼和交換碼使用,可簡化漢字音形信息的傳輸和轉(zhuǎn)換設(shè)備。例如,采用字音碼來傳遞漢字字音信息僅需11bit/字;用音形碼進(jìn)行漢字形→音信息轉(zhuǎn)換,僅需一個2K地址空間(11條地址線)的漢字發(fā)音波形或波形參數(shù)存貯器,如用國標(biāo)碼和郵電碼,則需16K或64K,前者僅為后者的1/8和1/32;用音形碼進(jìn)行漢字音→形信息的轉(zhuǎn)換,由于音形碼彼此兼容,代碼有很強(qiáng)的規(guī)律性,故也有可能大大簡化所需的硬軟件設(shè)備。
作為輸入碼使用,可為不懂漢語拼音的人提供一種音形代碼輸入法,這種碼由于有較強(qiáng)的規(guī)律性,比國標(biāo)碼和郵電碼較容易記憶,比較容易實(shí)現(xiàn)人工和機(jī)器的自動檢索和搜索。
以下我們來舉些可能的應(yīng)用實(shí)例可以制造一種僅需使用小型十進(jìn)制鍵盤的手拿式漢字發(fā)聲器,供外國旅游者使用,為他們編排一些常用句子手冊,在每一句子旁印上對應(yīng)漢字的字音碼,使用者只需將某一句子的字音碼順序鍵入機(jī)器,機(jī)器便可自動發(fā)出該句的聲音,啞巴如能熟記幾千個漢字的字音碼,也可利用它來隨心所欲地和旁人交談。
將二進(jìn)制形式字音碼以隱蔽或公開方式印制在漢字發(fā)聲讀物每一個漢字的底部或近旁,可制造一種不需使用極為復(fù)雜的漢字字形識別技術(shù)的漢字自動閱讀機(jī),這種閱讀機(jī)僅需識別二進(jìn)制碼,因此比較容易制造,成本較低,可作為實(shí)現(xiàn)中文自動閱讀機(jī)的第一步,也可用此法制造盲人讀物和盲人閱讀機(jī)。
利用音形碼代替郵電碼可拍發(fā)漢字音形二用電報。
利用字音碼可建立一種帶寬極窄的漢語有線或無線電話系統(tǒng),這種電話系統(tǒng)可供不需要識別說話者身份的業(yè)務(wù)使用,如公務(wù)通訊和廣播、戰(zhàn)地通訊等。
采用音形碼可建立一種準(zhǔn)整字輸入的漢字檢索打字法,先由用戶輸入某組同音字代表字或代表字的字音碼(如“東”或“1870”),機(jī)器可立即將該同音區(qū)全部同音字“東鶇崠冬咚氡”呈現(xiàn)出來,用戶再選用所需要的一個字(如“冬”字),將它鍵入即可。
采用音形碼進(jìn)一步還可以建立一種半自動化的漢字聲音檢索輸入系統(tǒng),打字員只要對著機(jī)器發(fā)出一個字的字音(如“dōng”),機(jī)器內(nèi)部的聲音自動識別裝置可自動找到dōng音的字音碼,從而將dōng音的同音區(qū)全部呈現(xiàn)出來,打字員便可選擇其一將它鍵入。
用音形碼作內(nèi)部碼制造漢語自然語言輸入系統(tǒng),如前所述,有可能大大簡化所需的硬軟件設(shè)備。
……本專利介紹的音形兼容二用交換碼,由于字音碼數(shù)目僅有2000個,全部容納6763個一、二級漢字和其它圖形符號有些困難,作者試編了一個版本,僅可容納下大約6500個漢字和一些常用標(biāo)點(diǎn)、圖形和符號以及大小寫英文和拉丁文字母,因此編排碼本時,如何挑選漢字和編入更多的漢字還需編碼工作者進(jìn)一步去進(jìn)行摸索。
權(quán)利要求
1.一個漢字音形兼容二用信息交換碼編碼方案(1),其特征是a、這個漢字音形兼容二用信息交換碼編碼方案(1)可以編制出一種形式類似國標(biāo)碼但能同時代表漢字音形二個信息的漢字音形兼容二用信息交換碼(2);b、漢字音形兼容二用信息交換碼(2)可以拆分為彼此兼容的字形碼a 4a 3a 2a 1和字音碼A 4A 3A 2A 1,它們都是4位十進(jìn)制數(shù)字形式的代碼,取值范圍和相互關(guān)系為a1=0~9,a 4a 3a 2=000~999;A1=0或6,A4A3A2=a4a3a2;c、漢字音形兼容二用信息交換碼(2)的二進(jìn)制形式字形碼和字音碼及它們之間的相互關(guān)系為
d、十進(jìn)制形式字形碼a 4a 3a 2a 1和十進(jìn)制形式字音碼A 4A 3A 2A 1中的a1和A1的值,分別等于對應(yīng)二進(jìn)制碼第二字節(jié)前4位碼按權(quán)重“6-4-2-1”二-十進(jìn)制碼進(jìn)行變換的變換值(“6-4-2-1”二-十進(jìn)制碼二-十進(jìn)制數(shù)的變換關(guān)系為0000~0,0001~1,0010~2,0011~3,0100~4,0101~5,1000~6,1001~7,1010~8,1011~9),由于二進(jìn)制形式字音碼最前三位碼的碼值恒為0,故A1僅能取值0和6;字形碼和字音碼中a 4a 3a 2和A4A3A2的值分別等于對應(yīng)二進(jìn)制碼第一字節(jié)和第二字節(jié)后三位碼總共共十位二進(jìn)制碼所對應(yīng)的十進(jìn)制數(shù);e、字形碼總碼位數(shù)為10000,字音碼總碼位數(shù)為2000;f、字音碼A4A3A2A1分為A1=0和A1=6二大類,每一類各占1000個碼位,A1=0的一類,每碼代表一個大同音區(qū);A1=6的一類,每碼代表一個小同音區(qū),每一大同音區(qū)可容納6個同音字;每一小同音區(qū)可容納4個同音字;g、同一同音區(qū)中的漢字它們的字形碼中的a 4a 3a2均相同,a1的值,對大同音區(qū),由0變至5;對小同音區(qū),由6變至9,按同音字在該區(qū)中的排列次序而變;h、同一同音區(qū)中的漢字均具有相同的字音碼,字音碼中的A4A3A2等于該區(qū)字形碼中的a 4a 3a 2,字音碼中的A1,對大同音區(qū),恒為0;對小同音區(qū),恒為6;i、由十進(jìn)制形式字形碼導(dǎo)出十進(jìn)制形式字音碼的法則如下A4=a4,A3=a3,A2=a2,A1的轉(zhuǎn)換規(guī)律為當(dāng)a1=0~5時,A1=0;當(dāng)a1=6~9時,A1=6,這表明同一同音區(qū)中所有同音字的發(fā)音可用該區(qū)第一個字(代表字)的發(fā)音來代表,它們的字音碼均等于這個代表字的字音碼(也等于這個字的字形碼);j、由二進(jìn)制形式字形碼導(dǎo)出二進(jìn)制形式字音碼的法則是,將字形碼第二字節(jié)中的最前3位碼b 3b 2b 1的碼值全部變?yōu)?即可得到二進(jìn)制形式的字音碼,由此可知,字音碼的二進(jìn)制形式實(shí)為一個長度為11位的二進(jìn)制代碼(由于前面3位碼的碼值恒為0,故可將它們?nèi)サ?;
2.根據(jù)權(quán)利要求1所述的漢字音形兼容二用信息交換碼編碼方案(1),其特征是可以利用漢字音形兼容二用信息交換碼代碼表(表一)和代碼本(表二)來對幾千個漢字進(jìn)行編碼并按照漢語拼音音節(jié)的字母順序以同音區(qū)方式來進(jìn)行編排,編排時,同音字?jǐn)?shù)少于6個或4個時分別安排在同一個大或小同音區(qū)中,同音字?jǐn)?shù)多于6個時安排在相鄰幾個同音區(qū)中。
全文摘要
漢字音形兼容二用信息交換碼編碼方案是一個用來編制形式類似國標(biāo)碼但能同時代表漢字音形二個信息的漢字交換碼的編碼方案,它用全碼(14位二進(jìn)制碼)來代表漢字的字形,用其中的部分碼(后11位二進(jìn)制碼)來代表漢字的發(fā)音,由于音形碼相互兼容,因而為大大簡化漢字音形信息的傳輸和轉(zhuǎn)換設(shè)備提供了可能性。這種碼有較強(qiáng)的規(guī)律性,比較容易記憶,也可以作為一種音形輸入碼使用,使用者不一定需要掌握漢語拼音知識。
文檔編號G06F3/023GK1043015SQ8910834
公開日1990年6月13日 申請日期1989年11月2日 優(yōu)先權(quán)日1989年11月2日
發(fā)明者林宇威 申請人:林宇威