專利名稱:太極全息碼及多途徑分類處理技術(shù)的制作方法
迄今應(yīng)用于電子電腦信息處理的編碼已有上千種,進(jìn)入實(shí)用階段的編碼也有幾十種,眾多的編碼專家與電腦專家都為人類信息處理技術(shù)的發(fā)展付出了辛勤勞動,并取得了豐碩的成果。目前社會上熱衷于編碼的人士很多,但如果再重復(fù)別人的勞動和成果,或者換湯不換藥地稍加改進(jìn),顯然已沒什么意義。因?yàn)槟壳吧鐣狭餍械闹T種編碼方案,無論是音碼、形碼、或者音形結(jié)合碼都只是在一定范圍和意義上表達(dá)了中文的有限信息而已;有的編碼方案,除了編碼字根多、規(guī)則繁瑣難學(xué)以外,其處理字詞的能力也是非常有限的。同一個中文系統(tǒng),要同時配上十幾、二十種不同的輸入方法來滿足不同檔次和新舊用戶的需求,從長遠(yuǎn)來看,這絕非理想的辦法。真正科學(xué)的、理想的編碼應(yīng)該是多維的,是允許用戶在已有的形維、音維和音形結(jié)合維中對編碼進(jìn)行自由選擇和任意增刪的,把編碼專家永遠(yuǎn)無法完成和滿足的編碼(特別是詞組錄入的編碼)交給用戶。國家標(biāo)準(zhǔn)只適宜通用的文種符號和字詞。你可以指定兩萬個漢字和四萬多條詞匯,所謂常用不常用是相對來講的,文學(xué)家認(rèn)為“靜悄悄”這個詞非常有用,而搞汽車材料管理的用戶則認(rèn)為“化油器”更加實(shí)際。因此,所謂國家標(biāo)準(zhǔn)的字庫和詞庫都應(yīng)為用戶留有足夠容量的字詞擴(kuò)展空間,讓用戶自由選植漢字和造詞。編碼方案也一樣,應(yīng)該交給用戶一個完美的文字處理環(huán)境,同時交給用戶幾種最直接、最簡捷的編碼空間與途徑,讓用戶在可以隨意選擇的編碼形維、音維和音形結(jié)合維內(nèi)靈活使用;既體會到你的編碼方案的簡練與宏大,又能在你的編碼方案中自由發(fā)揮;無論繁簡字詞或別種文字符號都能呼之則來,揮之則去,任君選擇,各取所需;無論是使用音碼或形碼;無論是使用通用鍵盤或數(shù)字小鍵盤,都能準(zhǔn)確地達(dá)到預(yù)定的目的……這就是本發(fā)明所追求和力圖解決的信息處理技術(shù)上的特大難題。
本發(fā)明“太極全息碼及多文種分類處理技術(shù)”簡稱太極全息碼或太極碼。它是本發(fā)明人近二十年編碼研究的心得和總結(jié),也是發(fā)明人以往多項(xiàng)發(fā)明成果的升華,太極全息碼包括了以下幾方面內(nèi)容1.太極全息碼中的0-9部件代碼。
2.太極全息碼中的字庫內(nèi)外分類碼。
3.太極全息碼中的八卦數(shù)字分類碼。
4.太極全息碼中的純數(shù)字分類碼。
5.太極全息碼中的純聲母分類碼。
現(xiàn)將此系統(tǒng)中的五個方面內(nèi)容及其特點(diǎn)介紹如下〈一〉太極全息碼中的0-9部件代碼任何按字形設(shè)計(jì)的編碼方案都離不開漢字的基本筆畫和部件(有的方案叫字根或字元)。漢字的基本筆畫和部件是漢字的固有屬性,是根據(jù)造字需要而設(shè)計(jì)的;電腦鍵盤上的0-9數(shù)字鍵和ABCD字母鍵也是前人設(shè)計(jì)的。因此,衡量一個方案是否有獨(dú)創(chuàng)性,不是看其應(yīng)用了哪些筆畫部件或字母、數(shù)字;而是看其是否運(yùn)用得巧妙合理;是否富有獨(dú)創(chuàng)性。
本發(fā)明《太極全息碼》是一個按字形、形聲及聲形集合交疊和分類處理的中文全息編碼,此方案不可避免地涉及到漢字基本的筆畫、部件、字母和數(shù)字代碼。本發(fā)明設(shè)計(jì)的太極全息碼“中文0-9五言部件代碼”(參照附
圖1)是個人長期對漢字筆畫部件的研究、分析和高度濃縮精選的結(jié)果,也是個人在90106610.9及92110525.8兩項(xiàng)發(fā)明專利設(shè)計(jì)內(nèi)容中提煉優(yōu)化出來的。它以獨(dú)特的構(gòu)思與巧妙的方式表述和概括了所有繁簡漢字的基本部件和筆畫特征。其主要內(nèi)容如下1.中文數(shù)目字“一二三四五六七八九0”分別對應(yīng)阿拉伯?dāng)?shù)字鍵位“1234567890”,中間穿插常用筆畫部件,組成十組五言口訣聯(lián)想記憶。例如“三
水寶心”,筆畫部件位于“3”鍵上。
2.大部首“日月水火土金木人手口”位于十組五言代碼的中行位置上,做到彼此隔離,一碼定江山,有利于分解同部首的漢字。
3.從數(shù)字聯(lián)想。例如“一雨日工廠”,前兩字后兩字都屬“一”開首,“日字中間有一橫也可看成“一”。由“日”字又可以聯(lián)想出與其相似的部件。又例如“月耳目”三個部件中間都有兩橫,可以聯(lián)想到數(shù)字2;四(皿
)字形都屬4;“王”,字形象五,代碼5;“匕”字形象七,代碼7;“冫
”字形象八,代碼8……
4.根據(jù)從字形和字義去聯(lián)想。例如氵同水,火同灬;同月;“
”同十;“六廣言”之首形都象六。“艸廾竹米”植物類,代碼7;“女”字古體本意也是一個“口”,與“0”結(jié)合也并非牽強(qiáng);如此……等等。
5.本發(fā)明中的部件代碼不僅適宜字詞編碼輸入;而且繁簡體兼容。例如“
”同“門”;“讠”同“言”;“钅”同“金”。做到一碼貫通,(今后0-9碼表中的部件可根據(jù)其使用需要作局部的調(diào)整,但并不影響本編碼方案的設(shè)計(jì)思想和編碼原理。)☆總結(jié)本發(fā)明創(chuàng)新優(yōu)化的“中文0-9數(shù)字部件代碼”,從簡易、宏觀、直覺和實(shí)用角度出發(fā),綜合了所有漢字的屬性(包括字型方面、字義方面和結(jié)構(gòu)方面的特征),經(jīng)過近二十年的不斷研究、分析和篩選出來的,是一種獨(dú)辟蹊徑的數(shù)字字型編碼。把眾多的中文部件從ABCD字母編碼鍵位上解放出來,使?jié)h字編碼更符合中國人分解事物的層次概念,把繁雜的字母編碼變成簡單易記的五言口訣聯(lián)想式的數(shù)字編碼。它既不象傳統(tǒng)的四角號碼,又有別于北師大李金鎧先生的“筆形碼”,是一種新穎而又宏觀快速的數(shù)字部件編碼,實(shí)踐將證明它具有極為深遠(yuǎn)和廣泛的科學(xué)意義和實(shí)用價值。
〈二〉太極全息碼中的字庫內(nèi)外分類碼縱觀目前國內(nèi)外的中文系統(tǒng),其內(nèi)碼基本上都是按流水帳方式排序的,例如電報碼、國標(biāo)區(qū)位碼、臺灣的BIG-5和即將推出的國際大字庫內(nèi)碼。以上內(nèi)碼的優(yōu)點(diǎn)是占用內(nèi)存空間較少,并具有唯一性。缺點(diǎn)是可讀性差,查詢檢索困難,同時沒能為用戶留有足夠的自造字、詞空間。所謂標(biāo)準(zhǔn)化,帶有很大的局限,與目前流行的輸入編碼方法結(jié)合不起來,造成了計(jì)算機(jī)的字符內(nèi)部處理碼與外部識別碼格格不入、嚴(yán)重脫節(jié)的現(xiàn)象,兩者之間必需另加復(fù)雜的處理程序與手續(xù),使程序動作效率和內(nèi)存空間等技術(shù)指標(biāo)受到了限制。
針對上述問題,“太極全息碼”不僅為未來的字庫設(shè)計(jì)了漢字內(nèi)外兼容碼,同時也設(shè)計(jì)了詞組內(nèi)外兼容碼,使其成為非標(biāo)準(zhǔn)化(非國家和國際標(biāo)準(zhǔn)的“動態(tài)”代碼)而又靈活實(shí)用的電腦輸入碼和內(nèi)部處理碼。本發(fā)明一旦付予實(shí)現(xiàn),將是文字信息處理技術(shù)又一重大突破。
太極全息碼中的字庫內(nèi)外兼容碼,包括了以下幾方面的內(nèi)容與特征1.建立“太極中文全息系統(tǒng)”收集二萬個國際通用漢字,并做到繁簡字體兼容并蓄。例如收入“國”字的同時也收集“國”字。
2.利用漢語拼音的聲母和太極全息碼中的數(shù)字部件代碼(1-4位)作為具體漢字的字庫內(nèi)碼和輸入碼。例如中=Z02國=G053廣=G6東=D78國=G0103廣=G6718東=D118。
3.太極漢字聲形全息碼長為“一聲四形”,不足四形的漢字按空格鍵結(jié)束。太極漢字聲形全息碼中的冗余空間,可通過軟件的巧妙處理留給聲形詞碼和用戶自由擴(kuò)展使用。
4.太極形聲碼(即詞庫內(nèi)外碼),其處理方式也是先聲后形,這里講的聲就是組成詞組的1.2.3尾字的聲母;形,就是太極全息碼中的0-9部件筆畫代碼(參照附圖1)。例如雙字詞中國=ZG020中文=ZW026(聲聲首尾首形碼)三字詞廣東?。紾DS62(聲聲聲首尾形碼)四字詞科學(xué)技術(shù)=KXJS3(聲聲聲聲尾形碼)多字詞中華人民共和國=ZHRMG(聲聲聲聲尾聲碼)。
☆總結(jié)本發(fā)明太極全息碼中的“字庫內(nèi)外碼”簡稱為“太極內(nèi)碼”是一種聲形結(jié)合,繁簡兼容,字詞分區(qū)分類處理的編碼,將漢語拼音的聲母和太極全息系統(tǒng)中的筆畫部件代碼巧妙地結(jié)合在一起,用極其簡易的方法從單字到詞組組成有五種類別的聲形分類編碼體系(字母與數(shù)字結(jié)合編碼,每一字詞最多不超過五位碼)。太極內(nèi)碼,也可作為外部輸入碼使用;打破了傳統(tǒng)中文系統(tǒng)字庫內(nèi)碼的結(jié)構(gòu)框架和處理模式的局限,打開了人機(jī)對話的最簡易、最直接的通道,是中文信息處理技術(shù)領(lǐng)域的大膽創(chuàng)新,它的科學(xué)性與實(shí)用性將在本發(fā)明“太極全息編碼系統(tǒng)”實(shí)施后得到證明。
〈三〉太極全息碼中的八卦分類碼本發(fā)明人曾于1990年申請了“中文1-4位數(shù)字快速分類輸入法”的專利(專利號90106610.9),1992年又補(bǔ)充申請了“八卦分類碼及其鍵盤”的發(fā)明(申請?zhí)?2110525.8)。本系統(tǒng)是在上述兩項(xiàng)專利發(fā)明的基礎(chǔ)上逐步優(yōu)化發(fā)展起來的。新的“八卦分類碼”無論在編碼設(shè)計(jì)技術(shù)和軟件實(shí)施技術(shù)上都有多方面的突破與升華。其主要技術(shù)特征如下
1.對數(shù)字鍵盤上的中文部件作了更加合理的增刪與調(diào)整(詳細(xì)情形參照附圖1及本發(fā)明的第一章內(nèi)容說明)。
2.對八卦分類輸入的鍵盤也作了更加合理的調(diào)整(詳細(xì)情形參照附圖2)。
3.常用雙字詞取首字首尾碼與后字首尾碼,直接顯示;同碼詞從Y鍵起分別顯示,例如中國=0203中文=0269中共=0278中央=02284.上下結(jié)構(gòu)單字編碼,改成取123尾碼;左右結(jié)構(gòu)漢字編碼先取左邊首尾碼再取右邊首尾碼,然后按空格鍵結(jié)束。
例如漢=39字=351編=6307碼=10515.遇到同碼字時用該字聲母作為區(qū)分鍵處理。例如附圖1中的同類部件可以用該字的聲母區(qū)分八=8大=8D人=8R小=8X氣=8Q6.多字詞先取123尾字首碼,然后按多字詞區(qū)“T”起首的字母鍵結(jié)束。例如北京市=266T中外合資=0488T電子工業(yè)部=1516T7.八卦分類鍵盤上的全部詞區(qū)全面開放,用戶可根據(jù)各自需求自由錄入、增刪和調(diào)整詞組位置,把編碼的主動權(quán)交給用戶靈活調(diào)整和使用。
☆總結(jié)上述經(jīng)過全面優(yōu)化升華后的八卦分類碼,它的簡易程度和宏觀快速的效果必將受到社會上廣大計(jì)算機(jī)用戶的歡迎,根據(jù)此一編碼思想與技術(shù),可以開發(fā)出各種適應(yīng)不同部門和用戶需求的技術(shù)產(chǎn)品,為社會服務(wù)。
(四)太極全息碼中的純數(shù)字分類碼這是一種純字形數(shù)字分類輸入編碼,可同時設(shè)計(jì)在通用鍵盤和數(shù)字小鍵盤上使用,方便電報通訊,BB機(jī)臺傳呼和喜歡用單手輸入中文字詞的用戶使用。所有字詞碼長均為1-5位數(shù)字鍵。首位為分類內(nèi)容標(biāo)志鍵,其余四位為字詞編碼。不足四位編碼的字詞用空格鍵結(jié)束。同碼字詞按提示鍵選擇。對字詞編碼拆字時,采用附圖1中的代碼。
A.用首位數(shù)字碼對下述內(nèi)容進(jìn)行分類“0”代表多文種字符分類代碼;“5”代表多字詞編碼代碼;
“1”代表單字編碼代碼;“6”代表擴(kuò)展?jié)h字代碼;
“2”代表雙字詞編碼代碼;“7”代表用戶自造詞語代碼;
“3”代表三字詞編碼代碼;“8”代表專業(yè)詞語代碼;
“4”代表四字詞編碼代碼;“9”代表動態(tài)字符處理代碼。
B.字詞編碼規(guī)則(1)單字,先取代碼1,再取1.2.3.尾碼(不足五碼按空格)。
(2)雙字,先取代碼2,再取前字首尾碼后字首尾碼。
(3)三字,先取代碼3,再取1.2.3.字首碼與尾字尾碼。
(4)四字,先取代碼4,再取1.2.3.4字首碼。
(5)多字,先取代碼5,再取1.2.3.尾字首碼。
其余內(nèi)容編碼方法同上,只是起首的分類代碼不同而已。
C.字詞編碼舉例[1]單字中=102文=169電=116腦=12696[2]雙字中文=20269電腦=21626信息=28643[3]三字我國的=34043新技術(shù)=36973[4]四字科學(xué)技術(shù)=44897萬里長城=41445[5]多字中華人民共和國=50880☆總結(jié)太極全息碼中的“純數(shù)字分類碼”是迄今世界上處理信息量最大、最簡單快速的數(shù)字代碼,它一旦實(shí)施,將在電腦信息處理領(lǐng)域和電報通訊、BB機(jī)臺等場合中發(fā)揮無可估量的作用。
〈五〉太極全息碼中的聲母分類號碼這是一種用于建立大詞庫和處理大辭海的編碼。目前用漢語拼音的聲母對詞組進(jìn)行單字拆聲的方案已很多,例如科學(xué)技術(shù)=KXJS(取各字首位聲母)。
迄今為止,還沒有一種全面地、系統(tǒng)地提出“聲母分類”處理中文大辭海的方案。1991年5月,本發(fā)明人在“中文1-4位數(shù)字快速分類輸入法”的修改方案中,首次提出了“聲母分類”此一嶄新的技術(shù),由于超出了原申請的范圍,故未被國家專利局采納。如今重申這一內(nèi)容作為太極全息碼的組成部分。
聲類碼作為“太極全息碼”體系中的一個組成部分,從各個方面充實(shí)“太極全息碼”的內(nèi)容。將完整的信息網(wǎng)絡(luò)通過“太極全息碼”系統(tǒng)奉獻(xiàn)給廣大用戶。“太極全息碼”源于社會,它也必將歸于社會,受益于全人類。
聲母分類的重點(diǎn)是辭海,不是旁敲側(cè)擊定字取碼,而是從廣義的角度攝取包羅萬有的信息從天文、地理到人類;從山脈、河流到昆蟲;從飛機(jī)、樓宇到家具……等都可以進(jìn)行分類取碼。可以說它是迄今世界上最簡練、最直接、最具體的,囊括所有事物信息的分類代碼。而它的素材僅是漢語拼音的聲母。發(fā)明者預(yù)料此發(fā)明一旦全面實(shí)現(xiàn),將成為全人類容納和攫取信息的載體,也將成為中文電腦處理語料庫的最佳模式。
漢語拼音的聲母只有二十三個,如何分類?這就得有個科學(xué)的方法。中國人有自己獨(dú)特的感觀與思維,中國人對自己身外的事物通常都習(xí)慣于用兩個音(兩個漢字)去表達(dá)。例如地理、心臟、汽車、飛機(jī)、花盆、老虎、螞蟻……等等。這就是說,用兩位聲母就可以表達(dá)自己想說的哪一類事物。中國人對某些具體事物又有用兩個或三個音去描述的習(xí)慣。例如中國的、古代的、現(xiàn)代的、廣東省、廣州市、工商局、財(cái)務(wù)科、鄧小平……等等。也就是說,用兩個或三個聲母又可以表達(dá)某一類事物中的具體內(nèi)容。超過三個聲的事物內(nèi)容怎么辦?筆者認(rèn)為可以“去中間取兩頭”。例如“美利堅(jiān)合眾國”,可以看成“美利國”“烏魯木齊”看成“烏魯齊”,“神州熱水器”可以看成“神州器”……等等。
依據(jù)上述分析,發(fā)明人認(rèn)為,太極全息碼中的“聲母分類碼”可以用兩個聲母表示所指的事物的種類,外加兩位或三位聲母就足以表示所需種類中的具體內(nèi)容。例如〈A〉國家=GJ(國家的聲母分類碼)中國=GJZG美國=GJMG英國=GJYG法國=GJFG加拿大=GJJND新加坡=GJXJP阿爾巴尼亞=GJAEY〈B〉城市=CS(城市的聲母代碼)北京=CSBJ上海=CSSH廣州=CSGZ紐約=CSNY多倫多=CSDLD洛杉磯=CSLSJ巴塞羅那=CSBSN〈C〉河流=HL(河流的聲母分類碼)黃河=HLHH長江=HLCJ珠江=HLZJ鴨綠江=HLYLJ紅水河=HLHSH尼羅河=HLNLH阿馬遜河=HLAMH〈D〉鳥類=NL(鳥類的聲母分類碼)畫鹛=NLHM鸚鵡=NLYW相思鳥=NLXSN八哥=NLBG布谷鳥=NLBGN貓頭鷹=NLMTY〈E〉家具=JJ(家具的聲母分類碼)沙發(fā)=JJSF餐桌=JJCZ熱水瓶=JJRSP茶杯=JJCB飯碗=JJFW熱水器=JJRSQ由此可見,自然界和社會上的一切事物都是可以按聲母分類的,五位聲母等于235,等于七百六十多萬個單元的信息容量,使用者可以根據(jù)各自的需要自由定義分類內(nèi)容,用此方法處理事物信息的能量的確是個天文數(shù)字。完全可以包羅宇宙間的萬事萬物。偶然遇到個別重碼時,再用數(shù)字代碼區(qū)分。
☆總結(jié)用漢語拼音的聲母對不同事物進(jìn)行編碼可以省去拆字根的繁難。這是一種與人類思維十分近似的編碼,能想、能聽、能講、能寫、能用。此項(xiàng)發(fā)明一旦被人們認(rèn)識和接受,它不僅會帶來電腦信息處理技術(shù)的變革,對各種辭書字典的編篡和檢索都是非常有用的,對國際間信息交流和文字翻譯也將帶來無窮的好處。
結(jié)束言以上介紹的幾種編碼新技術(shù),都是本發(fā)明太極全息碼體系中的框架、特征和全部內(nèi)容。在電腦中文卡的支持下,上述各種編碼方案都可以在同一系統(tǒng)中自由動作,任君選擇,分別使用,各取所需。《太極全息碼》中文系統(tǒng)全面實(shí)施和推廣后,將會推進(jìn)我國乃至世界的電子、電訊和電腦高新科技的發(fā)展,同時帶來相應(yīng)的社會效益與經(jīng)濟(jì)效益,對國家和人類有百利而無一害。
個人是渺小的,我僅以近二十年的心血和結(jié)晶通過申請專利尋求保護(hù)的途徑和方式,逐步開拓實(shí)施。本發(fā)明的最終目的是無償?shù)胤瞰I(xiàn)給社會,以報答生養(yǎng)我的祖國和人民。
權(quán)利要求
本發(fā)明《太極全息碼及多途徑分類處理技術(shù)》是應(yīng)用于電訊和電腦文字信息處理的新技術(shù)。它的主要特征和權(quán)利要求如下A.太極全息碼包括了(1)中文字庫聲形內(nèi)外碼;(2)中文八卦分類輸入碼;(3)中文純數(shù)字分類碼;(4)中文純聲母分類碼。字形編碼的部件組合和代碼(如附圖1)所示;八卦分類碼的鍵位則如圖2所示。說明書講的聲母是指漢語拼音方案中的聲母;數(shù)字是指通用電腦鍵盤上的數(shù)字。編碼方法如說明書中陳述過的內(nèi)容和舉例。B.根據(jù)權(quán)利要求A.所述內(nèi)容,中文字庫內(nèi)外聲形分類碼。字庫最大的位碼是一聲四形碼,形碼參照附圖1。此種聲形結(jié)合的編碼,既可以作為電子計(jì)算機(jī)中文內(nèi)碼的編制使用,也可以直接作為外部輸入碼使用。C.根據(jù)權(quán)利要求A.所述內(nèi)容,八卦分類輸入碼的鍵盤(如附圖2)。其中數(shù)字鍵屬乾卦(漢字字根區(qū)),空格鍵屬坤卦(單字生成區(qū));字母鍵屬六個兒女卦(六組詞區(qū))。詞區(qū)上的文字內(nèi)容,在軟件制作過程中,可根據(jù)不同使用者的目標(biāo)需求而靈活定義。D.根據(jù)權(quán)利要求A.所述內(nèi)容,中文純數(shù)字分類碼的最大碼位是五位數(shù)字,其中首位是字詞分類處理號碼,其余均屬字形信息碼。E.根據(jù)權(quán)利要求A.所述內(nèi)容,中文純聲母分類輸入碼,最大碼位為五位聲母,其中前兩位作為事物的分類使用,后兩位至三位作為具體事物的名稱和信息使用。例如由鳥類(NL)可以產(chǎn)生出“鳥類--貓頭鷹”(NLMTY)。
全文摘要
本發(fā)明“太極全息碼及多途徑分類處理技術(shù)”,簡稱“太極全息碼”。是一種全方位、多功能、多途徑的編碼體系。它充分發(fā)揮了中文的形、聲、義特點(diǎn)和鍵盤錄入時的多維空間,以最簡煉最直接的途徑與方式設(shè)計(jì)了中文形聲內(nèi)外分類碼、0—9部件八卦分類碼、純數(shù)字分類碼和純聲母分類碼。諸種方法都簡單易學(xué)、宏觀快速,為中文信息處理建起了一座多途徑立交橋。太極全息碼的科學(xué)原理和創(chuàng)作靈感來自中華古老的《易經(jīng)》,是先人智慧和現(xiàn)代科技文明相結(jié)合的結(jié)晶,是信息編碼領(lǐng)域的重大突破。
文檔編號G06F3/023GK1082215SQ9310493
公開日1994年2月16日 申請日期1993年4月28日 優(yōu)先權(quán)日1993年4月28日
發(fā)明者黃宗炯 申請人:黃宗炯