亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

通用字元漢字排檢、輸入法及鍵盤的制作方法

文檔序號:6409390閱讀:303來源:國知局
專利名稱:通用字元漢字排檢、輸入法及鍵盤的制作方法
技術領域
本發(fā)明用于漢字排檢(排序與檢字)和計算機(或其它機器)中文信息處理。
漢字由于不能按形讀音,所以在檢索方面必須有按形和按音兩種排序;在計算機信息處理方面,必須有按形和按音兩種輸入法。漢字音節(jié)數(shù)(不帶調約400多個)比字數(shù)少得多,而產生很多同音字(重碼),為區(qū)分同音字,需在拼音的基礎上增加字形信息,這樣就形成了漢字的音形序和音形碼,但從本質上講,它們仍屬于音序和音碼。
在漢字檢索方面(指手工操作),目前主要有拼音法、部首法、筆畫法和號碼法。張?zhí)旃庀壬诎l(fā)明專利申請《中文檢索與編碼通用字元(部首)及鍵盤》(94102084.3,公開號CN1104351A)中提出了通用字元檢字法。
拼音法是一種類似英文的排序法,具有直接查檢的優(yōu)點,但漢字同音字多,因而影響了檢字速度。再者,如不知字的讀音,此法就無法使用。
部首法需要先確定部首,需要數(shù)部首的筆畫和所查字除去部首部分的筆畫,還要到檢字表里查字的頁碼,要三四步才能完成。另外,此法還存在部首位置不易確定的問題。
已故王竹溪教授搞出的順序部首法也屬于部首法(《新部首大字典》,王竹溪,上海翻譯出版公司,1988)。王先生用56個部首按先高后低、先左后右等規(guī)則(但不是按筆順)給漢字排序。此法雖有直接查檢和重碼少的特點,但檢字規(guī)則與漢字的筆順相沖突,且規(guī)則應用不統(tǒng)一,特例多,故難以推廣。另外,56個部首之間雖然有序,可按歌謠記憶,但并不押韻。
筆畫法需要先數(shù)漢字的筆畫,再按前兩筆的筆形一丨丿丶乛查找。此法重碼很多,且數(shù)筆畫既花時間也容易出錯。
號碼法主要有四角號碼法。張國防先生已獲專利的“五十字元法”也屬于號碼法。四角號碼法把漢字的筆形分為十類,用0~9十個數(shù)碼表示。五十字元法從漢字中分解出50個字元,歸為26類,用英文的26個字母表示(整套字元沒有次序,故只能依附在英文字母上)。此類方法都是用漢字四個角或三個角的筆形進行編碼、排序。號碼法雖有速度較快、重碼較少的特點,但由于漢字結構比較復雜,很難用10種或26種筆形準確表達,再加上這類方法規(guī)則多,難以掌握,所以用起來并不方便。另外,各種號碼法都存在“號碼轉換”的問題,即筆形→號碼→檢字。這不能不說是一種負擔。
張?zhí)旃庀壬l(fā)明的通用字元法采用英文的檢字原理,從漢字中優(yōu)選出84個字元(構字單元),作為漢字的“字母”,用于分析、拼寫、查檢所有漢字。如,“明”查日月,“境”查土立日兒,等等。通用字元法使?jié)h字實現(xiàn)了直接查檢,即直接查字典的正文,不需數(shù)筆畫、不需把漢字的筆形轉換為數(shù)字或英文字母,也不必知道字的讀音。它依照漢字的書寫筆順提取字元,符合人們日常的書寫習慣和國家語言文字規(guī)范,在國內外首次實現(xiàn)了漢字的分析、排檢、計算機輸入和識字教學四者的統(tǒng)一,是目前國內外最優(yōu)秀的漢字字形排檢法。隨著通用字元法在字典排檢和計算機上的應用,它也顯露出了一點美中不足,即字元選84個稍微少了一點,使得有些字的分析不夠直觀。如,“新”為立木廠丨,“非”為丨二一一。
在計算機中文輸入方面,目前主要有拼音碼、五筆字型、自然碼和張?zhí)旃庀壬耐ㄓ米衷a(含全形碼和音形碼)。
拼音碼方便好用,但重碼多,且不知讀音時就無法使用(智能技術的作用也是有限的)。
五筆字型依形編碼,重碼少、速度快,但難以為大眾所掌握,因為一方面它的編碼規(guī)則繁雜,另一方面,字根由于數(shù)量太多(約兩百多個)而產生了不確定性。不確定性指字元本身的不確定,即不知道某筆形是不是編碼字元(因為記不住),或指字元在鍵盤上的位置(鍵位)不確定。五筆字型既有字元不確定的問題,也有字元鍵位不確定的問題(即不知道字根在某區(qū)的哪個鍵上,需逐鍵查找)。
自然碼碼長短、速度較快,但表形的部首數(shù)量太多(約兩百多個),很多部首沒有讀音,無法按音放在鍵盤上,因而部首和鍵位都難以記憶,也具有不確定性(絕大多數(shù)用自然碼的人用的其實都是它的音碼部分)。
通用字元碼字元少、碼長短、速度快,規(guī)則只有“取大少連,兼顧直觀”一句話,按筆順提取字元符合人們日常的書寫習慣和國家語言文字規(guī)范,在國內外首次實現(xiàn)了漢字的分析、排檢、計算機輸入和識字教學四者的統(tǒng)一,是目前國內外最優(yōu)秀的漢字形碼輸入法和音形碼輸入法。隨著通用字元碼在計算機上的應用,它也顯露出了美中不足字元選84個稍微少了一點,使得有些字的分析不夠直觀,如,“新”為立木廠丨,“非”為丨二一一;全形聲碼有兩個字元(骨、舟)未按規(guī)定(讀音的聲母)放在鍵盤上,造成特例;全形聲碼右手上排字母鍵負擔稍重一些。
本發(fā)明的目的是,在通用字元法84個字元的基礎上增加一些字元,使通用字元法在字元記憶難度增加不大的條件下,顯著地改善其性能;字元全部按音放入鍵盤,消除例外;精選增加的字元,使各鍵的負擔平衡、合理;重新布置韻母,使通用字元法的音形碼在輸入無聲母字詞(啊、安、昂等)時在國內外首次實現(xiàn)規(guī)則的統(tǒng)一。
本發(fā)明是這樣實現(xiàn)的通過對漢字的構成進行分析,從使用頻度高低、構字重碼多少、鍵位布置是否平衡合理等幾方面考慮,優(yōu)選出增加的14個字元(共計98個)。本發(fā)明的特點是,整套字元組成了規(guī)整、押韻的詩句,字元在詩句中的位置就是字元之間的前后次序,用這套字元分析、查檢、輸入漢字時,比84個更直觀、鍵位負擔更合理,且記憶難度幾乎沒有增加;音形碼的聲母鍵zh、ch和韻母鍵ai、ang、ao、en、er作了調整,實現(xiàn)了無聲母字詞雙拼規(guī)則的完全統(tǒng)一。
優(yōu)選出的字元,其數(shù)目可依詩句的格式(五言、七言等)和長短而不同,筆者認為98個最為理想。理由如下漢字由一丨丿丶等30多個基本筆畫(類似于英文的字母)按先上后下、先左后右等書寫規(guī)則構成。這些基本筆畫又構成漢字的兩百多個基本筆形,稱為字元或部首。因此,漢字也可以說是由兩百多個字元(類似于英文的字母)按書寫規(guī)則(筆順)拼寫而成的。字元選的越少,就越容易記憶,在計算機鍵盤上也容易安排,但漢字編碼的碼長就越長(如用簡碼則重碼就會很多),字的分析就越不直觀(漢字都變成了沒有意義的筆畫符號),用起來就不會便捷;字元選的越多,漢字的碼長就會越短,字的分析就越直觀,但記憶就越困難,字元之間也就難以成序。筆者經(jīng)過對漢字的構成進行分析,從使用頻度高、構字重碼少、中文排檢與中文輸入(編碼)完全一致、鍵位負擔平衡合理等幾方面考慮,經(jīng)過反復挑選、反復編碼,從兩百多個字元中優(yōu)選出98個(圖1)。為便于記憶,將它們組成了14句押韻的七言詩。所有漢字(包括繁體)按這98個字元的次序依規(guī)則(筆順、角形等)進行排序或編碼。下面的詩句可用來幫助記憶(助記字的讀音即為字元的讀音)橫豎撇點彎折乙,八人寸土草木稀。
子口之言益工廠,日月似火止山雨。
王力冰心示寶弓,十車絲巾包兒女。
方頭大耳目又小,金佛老舅氣長須。
匕戈斤刀禾幾片,手足非圍尸虎皮?病蟲革門食竹骨,水鳥二爪立田西。
牛羊同舟叉魚貝,犬馬私蓋風雪衣。
優(yōu)選出的字元因為有序,故可按規(guī)則——筆順、角形等,直接進行漢字的排檢,而不需再把字元轉換為英文字母碼(如五十字元法、表形碼等)或數(shù)字碼(如四角號碼法、唯物碼等)。依照字形可構成漢字的全形序;依照拼音和字形可構成音形序。
全形序——現(xiàn)結合98字元表(圖1),把全形序按筆順提取字元的排檢方法說明如下排檢方法所有漢字都由這98個字元按筆順拼寫而成,并按字元表排列成序。如“明”由“日月”構成,“曼”由“日四又”構成,“晶”由“日日日”構成。在字元序列中,“日”在“月”之前,“月”在“四”之前,故三字的排隊次序為晶明曼。檢索時,依次按構成被查字的第一、第二、……字元查檢。如“境”字查“土立日兒”,就像英語的lace查l.a.c.e.一樣。為了使排檢更加快捷,對含有4個以上字元的漢字采用簡碼排檢,即將字分析為字元序列后只取前三個和最后一個字元(一二三末)。如“熔”字取“火宀八口”即可。當然,也可以用三元簡碼(一二末)或五元簡碼(一二三四末)進行排檢,但那樣要么增加很多重碼,要么增加碼長。
通用字元法把漢字分為單元字和多元字。單元字也叫字元字,即用作字元的字,如“日月四火止山雨”等;多元字即含有兩個以上字元的字,如本(木一)、夢(木木夕)、熔(火宀八人口),等等。對多元字分析字元時應遵循“取大少連,兼顧直觀”的原則?,F(xiàn)解釋如下組成漢字的字元之間的結構關系可分為相離、相接和相交。相離是指字元之間沒有接觸,如“加”字的“力”和“口”沒有接觸,故“加”字的字元是相離結構。相接是指字元之間有接觸,但未構成交叉,如“白”字的“丿”和“日”即是相接結構。相交是指字元之間有交叉,如“果”字的“日”和“木”即是相交結構。這樣,從相離到相交,字元之間的聯(lián)系(或接觸)是逐步增多的?!叭〈蟆笔侵该看翁崛」P畫最多的字元。如“章”字取“立日十”,而不取“亠八一十”。 “少連”是指字元之間的聯(lián)系(或接觸)越少越好,也就是說能取相離字元的,就不要取相接字元,能取相接字元的,就不要取相交字元。這樣提取的字元才明顯易辨。如“主”字取“丶王”,而不取“亠土”;“天”字取“一大”,而不取“二人”?!凹骖欀庇^”是指提取字元時要考慮漢字的直觀可辨性。如“歹”字和“兀”字按“取大”原則,第一元應取“廠”,但這兩個字分別取“一夕”和“一兒”更直觀些。需要“兼顧直觀”的只有五、六個字(部件),是為人們對漢字的辨識習慣考慮的。
本排檢法按筆順提取字元,故對個別筆順有分歧的漢字,可按兩種筆順分別編碼。
音形序——漢語拼音雖常用于漢字的排檢,但同音字之間其實并無序。筆者認為,克服這一缺陷的唯一途徑是在拼音碼的基礎上增加漢字的字形信息。具體地說,就是對所有同音字按上段所述的字元法進行排序。如“藝”是“yì艸乙”,“嶧”是“yì山又”,“薏”是“yì艸立日心”,等等。這樣它們的次序即為藝薏嶧。但實際編排辭書時,書眉上的標識編碼并不需要這么復雜,只要按辭書的收字容量取一個(最多兩個)字元就夠了。如“藝”和“薏”可在“yì艸”頁上查到,“嶧”可在“yì山”頁上查到。對收字不多的中小型辭書,甚至可按基本筆畫字元“一丨丿丶 <乙”排檢就夠了。如“藝”和“薏”可在“yì一(橫)”頁上查到,“嶧”可在“yì丨(豎)”頁上查到。也許對一些特大型辭書才需要兩個字元。如“藝”可在“yì艸乙”頁上查到,“薏”可在“yì艸立”頁上查到。
本發(fā)明的優(yōu)選字元也可用于漢字的分析。對于漢字結構和構造成分的分析,近年來部件分析法似乎逐漸取代了傳統(tǒng)的偏旁分析法,然而部件分析法同樣存在著難以克服的缺陷,如,部件不定量、與書寫規(guī)范相矛盾(如把回分析為口口),等等。而通用字元法認為漢字是由字元構成的,就像英文由字母構成一樣。通用字元法完全遵照人們書寫漢字的習慣(筆順)分析漢字,與漢字的識字教學完全一致,符合漢字構成的實際,不存在任何矛盾現(xiàn)象。如“亙”為一日一,“回”為冂口一,等等(詳見《漢字構成的字元分析法》,張?zhí)旃?、黃伯榮、翟萬林著,《語言文字應用》,95年第3期,國家語委主辦)。
本發(fā)明的優(yōu)選字元還可作為各種計算機中文輸入法(指和字形有關的編碼)的通用字元,這套字元由于經(jīng)過了優(yōu)選,且組成了規(guī)整、押韻的詩句,又全部按讀音放人鍵盤,因而就具備了易記性和確定性,同時又兼顧了漢字分析的直觀性與鍵位負擔的合理性。
本發(fā)明把字元按其讀音的聲母安排在計算機的24個字母鍵上(圖2),按規(guī)則——筆順、角形等,依字形構成中文的天光形碼,依拼音和字形構成天光音形碼,兩者的合成構成音形兼容碼。
天光形碼現(xiàn)結合圖2,把天光形碼按筆順取碼的編碼方法說明如下單字按“一二三末”取碼。取碼規(guī)則與漢字排檢中采用的完全相同,即“取大少連,兼顧直觀”。如有重碼,用數(shù)字鍵選取(詞輸入時也是如此)。如“時”為RC,“熔”為HBBK。
單元字和高頻字敲一次所在的鍵后,高頻字(每鍵處在第一位的字)用空格鍵輸入,單元字用數(shù)字鍵選取。如“人”為R,“我”為W,“巾”為J。圖2中加點的字為單元字以外的高頻字。
兩字詞取兩字的前兩個字元。如“部分”為LKBD,“時間”為RCMR。對含有單元字的兩字詞,可實際取元組成二元碼(兩字都是單元字)與三元碼。如“工人”為GR,“工藝”為GCY。
三字、四字詞取每字的第一字元。如“大部分”為DLB,“柳暗花明”為MRCR。
五字以上取前三個和最后一個字的第一字元。如“最高人民檢察院”為RTRE。
天光音形碼單字在聲韻雙拼的后面增加一個或兩個字元碼(一二或一末),無聲母則打兩次韻母。如,“機”為JIM(JI木),或JIMJ(JI木幾);“安”為JJB或JJBN。
兩字詞用兩字的聲韻雙拼輸入。如“機器”為JIQI,“安排”為JJPX。
三字、四字詞用各字的聲母輸入(無聲母則用韻母)。如“計算機”為JSJ,“漢字編碼”為HZBM,“柳暗花明”為LJHM。
五字以上用前三個和最后一個字的聲母輸入。如“最高人民檢察院”為ZGRY。
天光音形碼僅用音碼(天光雙拼)也可輸入,只是單字的重碼會增加。如“機”為JL,“昂”為QQ。
天光音形碼不僅字元、鍵位確定,而且在國內外首次對無聲母字詞實現(xiàn)了雙拼規(guī)則的統(tǒng)一,即,對所有無聲母的字詞,雙拼時都是打兩下韻母。如,啊AA(a),喔OO(o),俄EE(e),澳FF(ao),爾WW(er),愛XX(ai),安JJ(an),昂QQ(ang),恩LL(en),歐BB(ou),嗯HH(ng)。
音形兼容碼音形兼容碼是音碼、形碼和音形碼的組合。對所有字詞,用戶可隨意按音碼(天光雙拼)、天光形碼或天光音形碼輸入,中間不需任何轉換操作。如“釔”,可輸入YI(音碼)、YIJ(音形碼)或JY(形碼);“大部分”可輸入DBF(音碼)或DLB(形碼)。
本發(fā)明有以下主要特點1字元確定——字元少(98個),且組成了規(guī)整壓韻的七言詩,學齡前幼兒都能記?。?鍵盤不需記憶——98個字元全部按音放在計算機的英文字母鍵上,因此字元在鍵盤上的位置不需記憶;
3簡單易學——通用字元法的規(guī)則只有一句話取大少連,兼顧直觀。如,“日”打R,“時”打RC(日寸),“鰳”打YGL(魚革力),“器”打KKQK(口口犬口)。打字就像寫字一樣簡單。只要上過一年小學,一般人不到一小時就能學會,一兩天就能熟練。
4規(guī)范——按筆順分析、拼寫字詞,與小學教學完全一致。如,“回”為冂口一(TKH)。
5通用——98個字元既用于計算機中文輸入,也用于字典的排檢,兩者取元完全相同。如“鰳”字,在字典正文中直接查“魚革力”即可,而不需把字元轉換為數(shù)字(如四角號碼、唯物碼)或英文字母(如表形碼)。因此,學會了計算機漢字輸入,也就同時學會了用字元法編排的字典的查檢;反過來也一樣。這套字元還可使?jié)h字按音排檢不再為同音字太多而困惑。它使?jié)h字難查這個困擾世人數(shù)百年的問題得以解決。
6快速——通用字元法編碼短(擊鍵少)、重碼少,加上簡單易學,屬于快速碼。
7適用面廣——通用字元法適用于任何人(中小學師生、機關干部、編輯記者、專業(yè)打字員、……)。它包括三種碼天光形碼、天光音形碼、音形兼容碼。天光形碼使打字就像寫字一樣簡單;天光音形碼不僅字元、鍵位確定,而且在國內外首次對無聲母字詞實現(xiàn)了雙拼規(guī)則的統(tǒng)一;音形兼容碼不需任何轉換就可使用戶隨意按音、按形或音形輸入字詞。因此,不管用戶喜歡音碼還是形碼,總有一種適合他。
本發(fā)明的有序字元和簡單、規(guī)范的取元規(guī)則實現(xiàn)了漢字的分析、排檢、計算機輸入與識字教學四者的完全統(tǒng)一,使中文輸入真正實現(xiàn)易學、規(guī)范、快速的目標,這對計算機漢字編碼的規(guī)范與統(tǒng)一,具有重要意義。


圖1優(yōu)選的98字元表。
圖2把字元按讀音的聲母安排在24個字母鍵上構成的中文鍵盤。
權利要求
1.一套用于漢字排檢(排序與檢字)和編碼的優(yōu)選字元(部首),組成了規(guī)整、壓韻的詩句,具有類似英文字母的有序性,用于漢字排檢和編碼具有易記性和確定性,其特征在于優(yōu)選字元的數(shù)目是98個,構成14句七言詩。
2.權利要求1所述的優(yōu)選字元,其特征在于它們可以按規(guī)則——筆順、角形等,直接進行中文的排檢(而不需再轉換為英文字母碼或數(shù)字碼),依字形構成中文的全形序;依拼音和字形構成音形序。
3.權利要求1所述的優(yōu)選字元,其特征在于把字元按其讀音的聲母安排在計算機的英文字母鍵上,按規(guī)則——筆順、角形等,依字形可構成中文的全形碼;依拼音和字形構成音形碼;兩者的合成構成音形兼容碼。
4.權利要求3所述的音形碼,其特征在于形碼部分具有確定性,即按筆順取一二或一末字元構成四元碼,或僅取第一字元構成三元碼。
5.權利要求3所述的音形碼,其特征在于無聲母字詞實現(xiàn)了雙拼規(guī)則的完全統(tǒng)一,即打兩下韻母。
6.權利要求3所述的音形兼容碼,其特征在于用戶不需任何轉換操作就可隨意按形、按音或音形輸入字詞。
全文摘要
一套用于漢字排檢(排序與檢字)和中文信息處理的通用字元(98個)及鍵盤。本發(fā)明把字元組成了規(guī)整、壓韻的詩句,使字元具有了易記性、有序性和確定性,把字元用于漢字排檢,可使中文辭書、圖書目錄像英文那樣實現(xiàn)直接查檢,而不需數(shù)筆畫或查檢字表,也不必知道字的讀音;把字元按讀音放在計算機鍵盤上,可構成易學、規(guī)范、快速的全形碼、音形碼和音形兼容碼,供不同用戶(懂拼音或不懂拼音)使用,從而使中文輸入真正面向了大眾。
文檔編號G06F3/023GK1150271SQ9511891
公開日1997年5月21日 申請日期1995年11月2日 優(yōu)先權日1995年11月2日
發(fā)明者張?zhí)旃?申請人:張?zhí)旃?br>
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1