專利名稱:漢字子漢字碼計算機輸入系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及漢字編碼及其計算機輸入系統(tǒng)。
目前漢字編碼方法很多,已經(jīng)在計算機上使用的漢字編碼方法有幾十種,其中包括最常見的拼音碼、首尾碼、五筆字型碼、大眾碼和表形碼等。這些編碼都未能很好地同時解決漢字拆碼的簡易性、漢字輸入的快速性和編碼方法易記易學三方面的矛盾。例如拼音碼,雖然簡單易學,但重碼率高,輸入速度慢。首尾碼、五筆字型碼、大眾碼和表形碼等雖能實現(xiàn)漢字的快速輸入,但漢字拆碼難,部件或字根難以記憶。最近出現(xiàn)的自然碼,是在雙拼法基礎(chǔ)上發(fā)展起來的,它采用以詞為主導、字詞混合的編碼方法,其漢字輸入速度更高。但是這種編碼方法仍然存在漢字不易拆碼、部件多、難以記憶等缺點。
本發(fā)明的漢字編碼及其計算機輸入系統(tǒng)是通過選擇漢字中包含的子漢字對漢字拆分,然后采用聲碼、韻碼和形碼中的各種碼或部分碼對漢字和漢字拆分后的部分(以下統(tǒng)稱為子部)編碼,再進行漢字輸入。這樣可以使?jié)h字拆分變得十分簡單,因此徹底克服了許多編碼方法中存在的漢字難拆分、部件多、難記憶等缺點。對于熟練掌握、一般掌握和完全不懂漢語拼音的人,都能做到漢字拆分容易、編碼方法簡單、易記易學、重碼率低,可在計算機通用小鍵盤上實現(xiàn)漢字的高速度輸入。
下面對本發(fā)明進行詳細說明。
按漢字拆分成的子部數(shù)目不同,本發(fā)明的編碼體系可分為兩分體系(漢字最多拆分成兩部分)、三分體系(漢字最多拆分成三部分)和四分體系(漢字最多拆分成四部分)。對于不同的編碼體系,有不同的編碼方法。在每種體系中,可分為以10個數(shù)字或10個英文字母為碼元的全形碼法和以26英文字母為碼元的四位碼長形碼法。前者又分為五位碼長法和六位碼長法,后者又分為全形碼法和部分形碼法。本發(fā)明提供了多種編碼方法,可采用任何一種方法對所有漢字和詞組進行編碼。
子漢字是指漢字本身或子部中所包含的由最大部分構(gòu)成的漢字。我們規(guī)定交式單體字不拆分,因此交式單體字不包含子漢字。另外,我們規(guī)定漢字“一”不是子漢字,因此“一”不作為子漢字參與對漢字的拆分。
本發(fā)明對漢字的拆分原則是1.按照二分體系或三分體系或四分體系將漢字最多拆分成二或三或四部分。如將“辭”拆分成兩部分時,為“舌”和“辛”,拆分成三部分時,為“舌”、立”和“十”,拆分成四部分時,為“千”、“口”、“立”和“十”。
2.按照二分體系或三分體系或四分體系將漢字盡量拆分成二或三或四部分。如在四分體系中,“許”拆分成“”、“”、“一”和“十”四部分。
3.漢字拆分時,盡量先取最大的部分作為子漢字,如有需要,子漢字還可繼續(xù)拆分。如“暮”先拆分成“莫”和“日”,在三分和四分體系中,“莫”再逐步拆分出“大”、“日”。“熊”也類似。
4.漢字中的子漢字盡可能多地參與編碼。如“贛”拆分成四部分時,先拆分出“章”后,再從其右半部拆分出“貢”。
5.除相交筆畫外,所有漢字都按筆畫順序進行拆分。如從“產(chǎn)”的前部分拆分出子漢字“立”,而不從后部分拆分出子漢字“廠”。
6.漢字盡可能多地拆分出子漢字。例如在四分體系中,“躁”拆分成“口”、“止”、“品”和“木”?!伴堋辈鸱殖觥澳尽?、“八”和“言”,而不是拆分出“木”和“廠”。
漢字本身、第一子部和第二子部等都可有形碼,分別記為形01、形02、形11、形12、形21和形22等。漢字本身可有聲碼、韻碼,子漢字可有聲碼,它們可分別記為聲0、韻0、聲1、聲2等,分別表示漢字聲碼、韻碼和第一、第二子部的聲碼等。
二分體系中漢字的拆分方法在二分體系中,通過選擇漢字的字首或字尾部分(當字首不存在子漢字時)的子漢字對漢字拆分,并按漢字是否可拆分,將漢字分為單部字和雙部字,然后采用聲碼、韻碼和形碼中的各種碼或部分碼對漢字和漢字拆分后的子部進行編碼。
1.單部字具有下列特征的漢字為單部字。
(1)交式單體字,如東、未、申、中、串和豐等。
(2)不能拆分出子漢字的連或散式單體字,如心、瓜、爪和予等。
(3)不能拆分出子漢字的雙體字或多體字,如卵、扎和巡等。
(4)僅中間部分可拆分出子漢字的漢字,例如烹、羔。
2.雙部字具有下列特征的漢字為雙部字。
(1)至少字首部分為子漢字的連式或散式單體字,如父、太、今、令、矛、產(chǎn)、名、易、星、歲和盡等?!疤辈鸱譃椤按蟆焙汀啊?,“盡”可拆分為“尺”和“”。
(2)僅字尾部分為子漢字的連式或散式單體字,如白、亞、亙等,“白”拆分為“”和“日”,“亙”拆分為“一”和“旦”。
(3)雙體字中至少有一體為子漢字,如從、明、訂、江、過、閉、暢、春、純和氙等。
“明”拆分為“日”和“月”,“鵝”拆分為“我”和“鳥”。
(4)僅字首或字尾部分為子漢字的漢字,前者如足、走等,后者如受、帝、字、著、帚和學等?!白恪辈鸱譃椤翱凇焙汀啊?,“受”拆分為“”和“又”等。
三分體系中漢字的拆分方法在三分體系中,采用下列步驟對漢字拆分(1)通過選擇漢字的字首或字尾部分(當字首不存在子漢字時)的子漢字對漢字拆分,拆分后的子部可按其字首或字尾部分(當字首不存在子漢字時)的子漢字繼續(xù)拆分,(2)如果漢字字首和字尾部分都沒有子漢字,則可通過選擇漢字中間部分的子漢字對漢字拆分。根據(jù)漢字拆分的結(jié)果,將漢字分為單部字、雙部字和三部字,然后采用聲碼、韻碼和形碼中的各種碼或部分碼對漢字和漢字拆分后的子部進行編碼。
二分體系中的某些單部字在三分體系中仍為單部字,如串。而另一些單部字可通過其中間部分的子漢字拆分成三部字,如“羔”。如果二分體系中雙部字可再拆分,則它可拆成三部字。當僅第一部或僅第二部可拆分成兩部分時,則將其拆分,就可拆成三部字。當?shù)谝徊亢偷诙烤刹鸱殖蓛刹糠謺r,則它們的拆分原則是如果第一、第二部拆分后,得到的子漢字數(shù)目分別為α和β,當α≤β時,則拆分第二部。注意如果拆分第一部后的各部子漢字總數(shù)大于拆分第二部后各部的子漢字總數(shù),則拆分第一部。例如將“殿”拆分為三部分,拆分左半部后子漢字有“尸”、“共”和“殳”,總數(shù)為三,拆分右半部后子漢字只有“幾”和“又”,總數(shù)為二,所以應(yīng)拆分左半部。如果第一、第二部都不包含子漢字,則漢字仍為雙部字。
下面具體對單部字、雙部字和三部字進行詳細說明。
1.單部字具有下列特征的漢字為單部字。
(1)交式單體字,如東、未、申、中、串和豐等。
(2)無法拆分出子漢字的連或散式單體字,如心、瓜、爪和予等。
(3)無法拆分出子漢字的多體字,如卵、扎和巡等。
2.雙部字具有下列特征的漢字為雙部字。
(1)只能拆分出一個子漢字或只能拆分成兩個子漢字的連式或散式單體字,例如父、太、白、今、矛、產(chǎn)、亞、名、易、星和歲等?!疤辈鸪伞按蟆焙汀啊保皻q”拆分為“山”和“夕”。
(2)雙體字中至少有一體為子漢字,且不能從此二體的字首或字尾部分拆分出子漢字,例如從、明、訂、江、過、閉、鵝、汞、純和氙等?!懊鳌辈鸱譃椤叭铡焙汀霸隆?,“鵝”拆分為“我”和“鳥”。
(3)僅字首或字尾部分為子漢字的漢字,前者如足、走等,后者如受、帝、字、著、帚和學等?!白恪辈鸱譃椤翱凇焙汀啊?,“受”拆分為“”和“又”等。
(4)三體字或多體字中,拆分成兩部分后,不能再拆分出子漢字,如“昂”拆分為“日”和“”。
3.三部字具有下列特征的漢字為三部字。
(1)從字首或字尾部分可拆分出子漢字、且從該子漢字字首或字尾部分可再拆分出子漢字的連或散式單體字,如光、矢、百、卓、丟、午、舌和缶等?!吧唷辈鸱譃椤扒А焙汀翱凇?,“千”再拆分為“”和“十”。
(2)從字首或字尾部分可拆分出兩個子漢字的連或散式單體字,例如桌、享和卒等?!白洹辈鸱譃椤啊?、“從”和“十”。
(3)僅中間部分有子漢字的漢字,例如魚、羔和荒等?!棒~”可拆分為“”、“田”和“一”,“荒”拆成“”、“亡”和“”。
(4)至少有一體為子漢字、并且該子漢字可再拆分出子漢字的雙體字,例如敵、柏、玻、殘、柔、肩、閏、遲和慶等。從“玻”拆分出“皮”,從“皮”再拆分出“又”。
(5)三體字中至少有兩體為子漢字,如享、崇、冀、崽、品、嶄、想、枷、斑、輯、昭、部、尉、闊、廂和屢等。“崽”拆分成“山”、“田”和“心”,“斑”拆分為“王”、“文”和“王”。
(6)三體字中有兩體可構(gòu)成子漢字、且該子漢字可再拆分出一個子漢字,如徹、喂、漕和褓等?!榜佟钡淖钣颐鎯审w可構(gòu)成子漢字“保”,從“?!敝锌稍俨鸱殖鲆粋€子漢字“呆”。
(7)具有下列特征的三體字或多體字,如贏和囂等,它們均由五個獨立的子漢字構(gòu)成,則拆分出最前面兩個子漢字作為第一、第二部,剩余部分作為第三部。例如“贏”拆分為“亡”、“口”和“”。疑和嶷等,可采取類似方法進行拆分。如“疑”拆分為“匕”、“矢”和“”。
四分體系中漢字的拆分方法在四分體系中,采用下列步驟對漢字拆分,(1)通過選擇漢字的字首或字尾部分(當字首不存在子漢字時)的子漢字對漢字拆分,拆分后的子部可以按照其中的子漢字繼續(xù)拆分,(2)如果漢字和子部的字首和字尾部分都不是子漢字,則可通過選擇漢字和子部中間部分的子漢字對漢字拆分。根據(jù)漢字拆分的結(jié)果,將漢字分為單部字、雙部字、三部字和四部字,然后采用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或者漢字拆分后的子部進行編碼。
漢字按二分體系和三分體系拆分方法拆分后,有的可繼續(xù)拆分成三部字和四部字,有的應(yīng)直接從二分體系中雙部字拆分成四部字,不應(yīng)經(jīng)過三部字。例如“糕”經(jīng)過兩次拆分后,為“”、“木”和“羔”,而在四分體系中它應(yīng)拆為“米”、“”、“王”和“”。
對三分體系中的三部字,如果第一、第二和第三部拆分后,得到的子漢字數(shù)目分別為α、β和γ,當α≤β和γ≤β時,則規(guī)定拆分第二部。當α≤γ和β<γ時,則規(guī)定拆分第三部。但如果拆分第一部后各部的子漢字總數(shù)分別大于拆分第二和第三部后各部的子漢字總數(shù),則拆分第一部,如“壁”拆分為“尸”、“口”、“辛”和“土”。如果拆分第三部后各部的子漢字總數(shù)大于拆分第二部后各部的子漢字總數(shù)、且不小于拆分第一部后各部的子漢字總數(shù),則規(guī)定拆分第三部。如果第一、第二和第三部都不包含子漢字,則漢字仍為三部字。
具體地說,三分體系中關(guān)于單部字和雙部字的說明仍然適合于四分體系,而三部字的說明在四分體系中有些不同。
1.三部字具有下列特征的漢字為三部字。
(1)從字首或字尾部分可拆分出一個子漢字、且從該子漢字字首或字尾部分只可再拆出一個子漢字的連式或散式單體字,如光、矢、百、卓、丟、午、舌和缶等。
(2)從字首或字尾部分只可拆分出兩個子漢字的連或散式單體字,如桌等。
(3)僅中間部分含有一個子漢字的漢字,如參、魚、羔和荒等。
(4)至少有一體為子漢字、且從二體的字首或字尾部分只可再拆分出一個子漢字的雙體字,如柏、殘、柔、肩、遲和慶等。
(5)三體字中至少有兩體為子漢字,且從三體的字首或字尾部分都不能再拆出子漢字,例如享、崽、森、品、嶄、想、枷、樹、湘、輯、昭、凱、部和廂等。
(6)三體字中僅兩體可構(gòu)成子漢字、且從該子漢字的字首或字尾部分只可再拆分出一個子漢字,而另一體不能拆分出子漢字,如徹、喂和漕等。
2.四部字具有下列特征的漢字為四部字。
(1)在至少有一體為子漢字的雙體字中,至少有一體的字首或字尾部分含有兩個以上的子漢字,如說、熊、糅、糍和蓽等。
(2)在至少有一體為子漢字的雙體字中,兩體的字首或字尾部分各含有一個以上的子漢字,例如踉和糲等。
(3)三分體系中的三部字,至少有一部的字首或字尾部分還可分出一個子漢字,例如智、壁、鵠、解、煤、蜘、弼、凰、屢、盜、哭和闊等。
(4)漢字拆分成四部分后,至少有三部為子漢字,如燠、潭、蹉、蹁、腐、摩、鼓、驥、蟑和鰨等。
(5)中間部分可拆分出兩個子漢字,如烹和卒等。
(6)漢字拆分成四部分后,至少第一和第三部均為子漢字或至少第二和第四部均為子漢字,前者如煮、熹、亟和嬗等,后者如復(fù)、褚、靠、灌、疑和攝等。
(7)具有下列特征的多體字,如贏和囂等,它們均由五個獨立的子漢字構(gòu)成,則拆分出最前面的三個子漢字作為第一、第二、第三部,剩余部分作為第四部。又如嶷,可采取類似的方法進行拆分。
各種體系中漢字的編碼方法和編碼規(guī)則在不同的編碼體系中,漢字編碼方法都有四位碼長法、五位碼長法和六位碼長法。五位碼長法和六位碼長法采用10個數(shù)字0-9或者10個英文字母作為碼元,它們分別與不同的筆畫及其組合相對應(yīng),即分別對應(yīng)于橫、豎、撇、點、折、叉、串、撇、點和方塊及其組合筆畫等。四位碼長法采用26個英文字母作為形碼碼元,它們分別與不同筆畫及其組合相對應(yīng),即分別對應(yīng)于橫、豎、撇、點、折、叉、串、八和方塊及其它們的組合筆畫等。下面說明采用10個數(shù)字或英文字母作碼元的編碼方法(以下簡稱為10碼元編碼法)和編碼規(guī)則。10個碼元的典型取碼規(guī)則見下表
高頻字或高頻部首作為子漢字或非子漢字子部時,不再拆分。10個碼元0-9可用10個英文字母Q、W、E、R、T、Y、U、I、O和P或其它英文字母代替。
我們在前面曾指出過除相交筆畫外,所有漢字都按照筆畫順序進行拆分。如對于“戌”、“吏”等有相交筆畫的漢字,均要優(yōu)先處理相交筆畫,“戌”的編碼為734,“吏”的編碼為772。
帶有叉和串的漢字或者子部編碼規(guī)則如下1兩筆相叉,代碼一律為6。
2三筆相串,代碼一律為7。
3四筆以上筆畫相交,優(yōu)先處理相串筆畫。如“豐”的編碼為76,“夷”的編碼為774。
10碼元編碼方法和編碼規(guī)則10碼元編碼方法分為五位碼長法和六碼長法。
五位碼長法單部字編碼規(guī)則為形01+形02+形03+形04+形05,碼長為1-5碼。
雙部字如果第一部僅有一個碼,則第二部最多取四個碼,編碼規(guī)則為形11+形21+形22+形23+形24,碼長為2-5碼。
如果第一部有兩個以上碼,則第二部最多取三個碼,編碼規(guī)則為形11+形12+形21+形22+形23,碼長為3-5碼。
三部字如果第一部和第二部都僅有一個碼,則第三部最多取三個碼,編碼規(guī)則為形11+形21+形31+形32+形33,碼長為3-5碼。
如果第一部只有一個碼,第二部有兩個以上碼,則第三部最多取兩個碼,其編碼規(guī)則為形11+形21+形22+形31+形32,碼長為4-5碼。
如果第一部有兩個以上碼,則第三部最多取兩個碼,編碼規(guī)則為形11+形12+形21+形31+形32,碼長為4-5碼。
四部字如果第一部有兩個以上碼,編碼規(guī)則為形11+形12+形21+形31+形41,碼長為5碼。
如果第一部僅有一個碼,而第二部有兩個以上碼,編碼規(guī)則為形11+形21+形22+形31+形41,碼長為5碼。
如果第一部和第二部都僅有一個碼,而第三部有兩個以上碼,編碼規(guī)則為形11+形21+形31+形32+形41,碼長為5碼。
如果第一、第二和第三部都僅有一個碼,則第四部最多取兩個碼,編碼規(guī)則為形11+形21+形31+形41+形42,碼長為4-5碼。
詞組的編碼方法如下雙字詞 第一字的第一、第二碼+第二字的第一、第二和第三碼。
三字詞 第一字的第一、第二碼+第二字的第一、第二碼+第三字的第一碼。
四字詞 第一字的第一、第二碼+第二、第三和第四字的第一碼。
多字詞 第一字的第一、第二碼+第二、第三和最后一字的第一碼。
六位碼長法單部字形01+形02+形03+形04+形05,碼長為1-5碼。
雙部字如果第一部僅有一個碼,則第二部最多取四個碼,編碼規(guī)則為形11+形21+形22+形23+形24,碼長為2-5碼。
如果第一部有兩個以上碼,則第二部最多取四個碼,編碼規(guī)則為形11+形12+形21+形22+形23+形24,碼長為3-6碼。
三部字如果第一部和第二部都只有一個碼,則第三部最多取三個碼,編碼規(guī)則為形11+形21+形31+形32+形33,碼長為3-5碼。
如果第一部只有一個碼,而第二部有兩個以上碼,則第三部最多取三個碼,編碼規(guī)則為形11+形21+形22+形31+形32+形33,碼長為4-6碼。
如果第一部有兩個以上碼,則第二、第三部最多取兩個碼,編碼規(guī)則為形11+形12+形21+形22+形31+形32,碼長為4-6碼。
四部字如果第一部有兩個以上碼,編碼規(guī)則為形11+形12+形21+形31+形41,碼長為5碼。
如果第一部只有一個碼,而第二部有兩個以上碼,編碼規(guī)則為形11+形21+形22+形31+形41,碼長為5碼。
如果第一部和第二部都只有一個碼,而第三部有兩個以上碼,編碼規(guī)則為形11+形21+形31+形32+形41,碼長為5碼。
如果第一、第二和第三部都只有一個碼,則第四部最多取兩個碼,編碼規(guī)則為形11+形21+形31+形41+形42,碼長為4-5碼。
詞組的編碼方法如下雙字詞 第一字的第一、第二碼+第二字的第一、第二、第三和第四碼。
三字詞 第一字的第一、第二碼+第二字的第一、第二碼+第三字的第一、第二碼。
四字詞 第一、第二字的第一、第二碼+第三和第四字的第一碼。
多字詞 第一、第二字的第一、第二碼+第三和最后一字的第一碼。
26碼元編碼方法和編碼規(guī)則采用26個英文字母作為碼元的編碼方法為四位碼長法,它分為全形碼法和部分形碼法。26個英文字母作為形碼碼元,它們分別與不同的筆畫及其組合相對應(yīng),即分別對應(yīng)于橫、豎、撇、點、折、叉、串、八和方塊及其組合筆畫等。
26個形碼碼元的取碼規(guī)則見下表帶有叉和串的漢字或子部編碼規(guī)則如下1一橫筆和一豎筆相叉,代碼一律為H,其它的兩筆相叉,代碼一律為N。
2一橫筆和兩豎筆相串,代碼一律為J,一豎筆和兩橫筆相串,則代碼一律為U,其它的三筆畫相串,代碼一律為M。
3四筆以上筆畫相交,優(yōu)先處理相串筆畫。如“豐”的編碼為UH,“夷”的編碼為MMF。
四位碼長全形碼法單部字編碼規(guī)則為形01+形02+形03+形04,碼長為1-4碼。
雙部字如果第一部僅有一個碼,則第二部最多取三個碼,編碼規(guī)則為形11+形21+形22+形23,碼長為2-4碼。
如果第一部有兩個以上碼,則第二部最多取兩個碼,編碼規(guī)則為形11+形12+形21+形22,碼長為3-4碼。
三部字如果第一部和第二部都僅有一個碼,則第三部最多取兩個碼,編碼規(guī)則為形11+形21+形31+形32,碼長為3-4碼。
如果第一部僅有一個碼,第二部有兩個以上碼,編碼規(guī)則為形11+形21+形22+形31,碼長為4碼。
注高頻字或高頻部首作為子漢字或非子漢字子部時,不再拆分。
如果第一部有兩個以上碼,編碼規(guī)則為形11+形12+形21+形31,碼長為4碼。
四部字編碼規(guī)則為形11+形21+形31+形41,碼長為4碼。
詞組的編碼方法如下雙字詞 第一字的第一、第二碼+第二字的第一、第二碼。
三字詞 第一字的第一、第二碼+第二字的第一碼+第三字的第一碼。
四字詞 第一、第二、第三和第四字的第一碼相加。
多字詞 第一、第二、第三和最后一字的第一碼相加。
四位碼長部分形碼法除四位碼長全形碼法外,還有采用采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼進行混合編碼的方法,即四位碼長部分形碼法。在這些方法中,漢字本身最多可有三個形碼,子漢字和非子漢字子部只有一個形碼。聲碼和韻碼分別取漢字或者子漢字拼音的聲母和韻母的首字母或者按雙拼法取碼。
在二分體系中,有聲0韻0聲1[形1]聲2[形2]法,其編碼規(guī)則如下單部字 聲0+韻0+形01+形02雙部字 聲0+韻0+聲1[形1]+聲2[形2]聲1[形1]表示聲1不存在時,以形1代替。聲2[形2]意義相同。
在三分體系中,有聲0聲1[形1]聲2[形2]聲3[形3]法,其編碼規(guī)則如下單部字 聲0+形01+形02+形03雙部字 聲0+聲1(形1)+聲2[形2],當聲1存在時聲0+形1+聲2(形2),當聲1不存在時三部字 聲0+聲1[形1]+聲2[形2]+聲3[形3]聲1(形1)表示聲1不存在時,以形1代替,聲1存在時,增加形1,聲2(形2)意義相同。
在四分體系中,有聲1[形1]聲2[形2]聲3[形3]聲4[形4]法,其編碼規(guī)則如下單部字 聲0+形01+形02+形03雙部字 聲1(形1)+聲2(形2)三部字 聲1(形1)+聲2[形2]+聲3[形3],當聲1存在時聲1[形1]+聲2(形2)+聲3[形3],當聲1不存在、而聲2存在時四部字 聲1[形1]+聲2[形2]+聲3[形3]+聲4[形4],詞組的編碼方法同上。
在四位碼長形碼法中,還可采用25個英文字母作為形碼碼元。
為了易于說明碼元的取碼規(guī)則,我們采用下表中數(shù)字表示筆畫的組合特性
注首筆畫指漢字和子部的第一或第三筆畫。
次筆畫指漢字和子部的第二或第四筆畫。碼元的取碼規(guī)則見下表,可選擇任一規(guī)則。當然還可選擇其它的形碼規(guī)則。
在四位碼長形碼法中,選擇25個英文字母作為形碼碼元,它們分別對應(yīng)于橫、豎、撇、點、折單筆畫及其組合的雙筆畫,漢字和子部的第一形碼和第二形碼決定于最前面的1-4個筆畫,對于二筆畫以下的漢字和子部,其形碼只有一個,對于二筆畫以上的漢字和子部,其形碼可有兩個,第一形碼由第一筆畫和第二筆畫決定或僅由第一筆畫(當漢字和子部為單一筆畫時)決定,第二形碼由第三筆畫和第四筆畫決定或僅由第三筆畫(當漢字和子部由三個筆畫構(gòu)成時)決定。
對于五位碼長法和六位碼長法,碼元取碼規(guī)則還可采用常用的四角號碼方法,具體見下表
總之,本發(fā)明的漢字編碼及其計算機輸入系統(tǒng),其特征在于包括(1)采用計算機通用小鍵盤,(2)根據(jù)不同的漢字拆分體系對漢字和詞組進行編碼,其步驟是通過選擇漢字中所包含的子漢字對漢字拆分,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
在二分體系中,漢字和詞組的編碼步驟是通過選擇漢字的字首部分或字尾部分(當字首不存在子漢字時)子漢字對漢字拆分,根據(jù)漢字是否可拆分,將漢字分為單部字和雙部字,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
在三分體系中,漢字和詞組的編碼步驟是(1)通過選擇漢字的字首部分或字尾部分的子漢字對漢字拆分,拆分后的子部可以按照其字首或字尾部分的子漢字繼續(xù)拆分,(2)如果漢字字首部分和字尾部分都沒有子漢字,則可通過選擇漢字中間部分的子漢字對漢字拆分,根據(jù)漢字拆分結(jié)果,將漢字分為單部字、雙部字和三部字,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
在四分體系中,漢字和詞組的編碼步驟是(1)通過選擇漢字的字首部分或字尾部分的子漢字對漢字拆分,拆分后的子部可以按照其中的子漢字繼續(xù)拆分,(2)如果漢字和子部的字首部分和字尾部分都沒有子漢字,則可通過選擇漢字和子部中間部分的子漢字對漢字拆分,根據(jù)漢字拆分的結(jié)果,將漢字分為單部字、雙部字、三部字和四部字,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
漢字本身最多可有五個形碼,子漢字和非子漢字部可有兩個形碼,聲碼和韻碼分別取漢字或子漢字拼音的聲母和韻母的首字母或按雙拼法取碼。
在二分體系中,漢字編碼方法有全形碼法和聲0韻0聲1[形1]聲2[形2]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,而聲0韻0聲1[形1]聲2[形2]法只有四位碼長法。
在三分體系中,漢字編碼方法有全形碼法和聲0聲1[形1]聲2[形2]聲3[形3]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,聲0聲1[形1]聲2[形2]聲3[形3]法只有四位碼長法。
在四分體系中,漢字編碼法有全形碼法和聲1[形1]聲2[形2]聲3[形3]聲4[形4]法,全形碼法又分為四位碼長法、五位碼長法和六位碼長法,而聲1[形1]聲2[形2]聲3[形3]聲4[形4]法只有四位碼長法。
在四位碼長法中,選擇26個英文字母作為形碼的碼元,它們分別與不同的筆畫及其組合相對應(yīng),即分別對應(yīng)于橫、豎、撇、點、折、叉、串、八和方塊及其組合筆畫等。
在五位碼長法和六位碼長法中,選擇10個數(shù)字0-9或10個英文字母作為形碼的碼元,它們分別與不同的筆畫及其組合相對應(yīng),即分別對應(yīng)橫、豎、撇、點、折、叉、串、撇、點和方塊及其組合筆畫等,代碼還可采用四角號碼方法取碼。
本發(fā)明的漢字編碼及其計算機輸入系統(tǒng)具有規(guī)律性強優(yōu)點,特別是采用了具有規(guī)律性的筆畫及其筆畫組合作為形碼,因此對于熟練掌握漢語拼音、一般掌握漢語拼音和完全不懂漢語拼音的人,可以選擇不同的編碼方法進行編碼,都能做到漢字拆分容易、編碼方法簡單、易記易學、重碼率低,可以在計算機通用小鍵盤上實現(xiàn)漢字的高速度輸入。
實例下面舉例對部分編碼方法加以說明。
權(quán)利要求
1.一種漢字編碼及其計算機輸入系統(tǒng),其特征在于包括(1)采用計算機通用小鍵盤,(2)根據(jù)不同的漢字拆分體系對漢字和詞組進行編碼,其步驟是通過選擇漢字中所包含的子漢字對漢字拆分,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
2.按照權(quán)利要求1所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在二分體系中,漢字和詞組的編碼步驟是通過選擇漢字的字首部分或字尾部分(當字首不存在子漢字時)子漢字對漢字拆分,根據(jù)漢字是否可拆分,將漢字分為單部字和雙部字,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
3.按照權(quán)利要求1所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在三分體系中,漢字和詞組的編碼步驟是(1)通過選擇漢字的字首部分或字尾部分的子漢字對漢字拆分,拆分后的子部可以按照其字首或字尾部分的子漢字繼續(xù)拆分,(2)如果漢字字首部分和字尾部分都沒有子漢字,則可通過選擇漢字中間部分的子漢字對漢字拆分,根據(jù)漢字拆分結(jié)果,將漢字分為單部字、雙部字和三部字,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
4.按照權(quán)利要求1所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在四分體系中,漢字和詞組的編碼步驟是(1)通過選擇漢字的字首部分或字尾部分的子漢字對漢字拆分,拆分后的子部可以按照其中的子漢字繼續(xù)拆分,(2)如果漢字和子部的字首部分和字尾部分都沒有子漢字,則可通過選擇漢字和子部中間部分的子漢字對漢字拆分,根據(jù)漢字拆分結(jié)果,將漢字分為單部字、雙部字、三部字和四部字,然后采用漢字本身的聲碼、韻碼、形碼和子漢字的聲碼、形碼以及非子漢字部的形碼中的各種碼或部分碼對漢字和詞組進行編碼。
5.按照權(quán)利要求2所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在二分體系中,漢字編碼方法有全形碼法和聲0韻0聲1[形1]聲2[形2]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,而聲0韻0聲1[形1]聲2[形2]法只有四位碼長法。
6.按照權(quán)利要求3所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在三分體系中,漢字編碼方法有全形碼法和聲0聲1[形1]聲2[形2]聲3[形3]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,聲0聲1[形1]聲2[形2]聲3[形3]法只有四位碼長法。
7.按照權(quán)利要求4所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在四分體系中,漢字編碼法有全形碼法和聲1[形1]聲2[形2]聲3[形3]聲4[形4]法,全形碼法又分為四位碼長法、五位碼長法和六位碼長法,而聲1[形1]聲2[形2]聲3[形3]聲4[形4]法只有四位碼長法。
8.按權(quán)利要求5或6或7所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于漢字本身最多可有五個形碼,子漢字和非子漢字部可有兩個形碼,聲碼和韻碼分別取漢字或子漢字拼音的聲母和韻母的首字母或按雙拼法取碼。
9.按權(quán)利要求8所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在四位碼長法中,選擇26個英文字母作為形碼的碼元,它們分別與不同的筆畫及其組合相對應(yīng),即分別對應(yīng)于橫、豎、撇、點、折、叉、串、八和方塊及其組合筆畫等。
10.按權(quán)利要求8所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在四位碼長形碼法中,選擇25個英文字母作為形碼碼元,它們分別對應(yīng)于橫、豎、撇、點、折單筆畫及其組合的雙筆畫,漢字和子部的第一形碼和第二形碼決定于最前面的1-4個筆畫,對于二筆畫以下的漢字和子部,其形碼只有一個,對于二筆畫以上的漢字和子部,其形碼可有兩個,第一形碼由第一筆畫和第二筆畫決定或僅由第一筆畫(當漢字和子部為單一筆畫時)決定,第二形碼由第三筆畫和第四筆畫決定或僅由第三筆畫(當漢字和子部由三個筆畫構(gòu)成時)決定。
11.按權(quán)利要求8所述的漢字編碼及其計算機輸入系統(tǒng),其特征在于在五位碼長法和六位碼長法中,選擇10個數(shù)字0-9或10個英文字母作為形碼的碼元,它們分別與不同的筆畫及其組合相對應(yīng),即分別對應(yīng)橫、豎、撇、點、折、叉、串、撇、點和方塊及其組合筆畫等,碼元還可采用四角號碼方法取碼。
全文摘要
一種漢字編碼及其計算機輸入系統(tǒng),其特點是通過選擇漢字中的子漢字對漢字拆分,然后采用聲碼、韻碼和形碼(英文字母或數(shù)字)中的各種碼或部分碼對漢字和漢字拆分后的子部編碼,可采用二分體系、三分體系和四分體系中任何一種方法對漢字和詞組編碼。對熟練掌握、一般掌握和完全不懂漢語拼音的人,可選擇不同方法編碼,都能做到漢字拆分容易、編碼方法簡單、易記易學、重碼率低,可以在計算機上實現(xiàn)漢字的高速度輸入。
文檔編號G06F3/023GK1186977SQ9711267
公開日1998年7月8日 申請日期1997年7月9日 優(yōu)先權(quán)日1997年7月9日
發(fā)明者邱勵楠, 邱行中 申請人:邱勵楠