專利名稱:多種語言處理器的制作方法
技術領域:
本發(fā)明是關于一多種語言處理器,尤其是關于一漢字輸入鍵盤及其輸入法的。
現有技術目前,電子計算機已滲入到社會的各個領域,成為日常生活中不可缺少的工具。對電子計算機輸入信息,如采用拼音文字,例如英語,由于其文字都是由字母A……Z(26個)組成,所以輸入十分方便。相反地,對電子計算機輸入中文,那就不那么容易了。由于中文不是一種拼音文字,而是一種圖案文字。每個中文字的圖案都不同,且字數龐大,約有50,000個,使中文資料的輸入產生很大的困難,從而對于在漢語社會中廣泛地使用電子計算機造成了阻力。
為了解決漢字的輸入問題,過去十多年來,各國科學家對電子計算機的漢字化提出了很多寶貴意見。也設計了不少中文輸入鍵盤。但是,到目前為止,各種鍵盤仍存在很多缺點,還沒有一架漢字輸入鍵盤能滿足各種不同用途。因這些鍵盤都未能滿足下列各條件(1)一個成功的漢字鍵盤必須結構簡單,容易操作。這樣就無需浪費太多時間、人力和物力來訓練打字員。
(2)要達到結構簡單、易于操作,所設計的漢字鍵盤就必需遵從手寫中文時的一般程序,而且所需的平均按鍵次數要盡可能少。
(3)能唯一地表達每一個漢字。即一字一碼。
(4)要符合經濟原則。
根據各國科學家所提出的方法,綜合起來有以下幾種(1)大鍵盤法這方法需要設一個大鍵盤,把所有漢字都分配在鍵盤的鍵上。當要輸入某一字時,需要依一定方式,比如拼音、筆畫等從鍵盤上尋找該字。這種方法,如查字典一樣,必須懂拼音和知道畫數,否則,就無從下手。即使懂拼音和知道畫數,但由于漢字同音字多,同畫數的字也很多,所以尋找一個字也相當麻煩。為了減少鍵盤上的鍵數,有人提議把幾個字合并起來放在同一鍵上。但這樣也就需要一個選擇鍵,從而增加了操作上的困難。而且這方法也不適合于“文件處理”系統。這種大鍵盤法事實上并不簡單,也不易操作。
(2)特別代碼法這種方法把每個漢字以一唯一的代碼(如電報碼)表示。采用這種方法無需特別鍵盤。但是,由于代碼與字之間并不存在明顯的結構關系,打字員必須記著每個字的代碼。很明顯,這種方法對很多實際應用并不適合。
(3)拼音法這種方法以若干個英文字母的組合代表某個漢字的發(fā)音。采用這方法也不需特別設計的鍵盤。但是,由于漢字的同音字很多,所以這方法不能滿足唯一性。為了滿足唯一性,必須增加一個選擇鍵。而這樣則增加了操作上的復雜性。
(4)字根法這種方法是把每個漢字看作由一個或一個以上的不同部分(字根或字素)所組成。采用這種方法,打字員不需對漢字的讀音和筆畫有深刻認識,也不需記代碼;只須見字打字。當要輸入某一漢字時,打字員只要按照一般人寫字的習慣順序輸入組成該字的字根,因而操作也比較容易。但是,目前采用字根法的鍵盤一般仍存有以下的問題1)字根數過多,因而使鍵盤過大。
2)字根數過少,因而使按鍵次數過多。
3)沒有選擇鍵的幫助還不能達成唯一性。
4)字根在鍵盤上的排列還不理想。
從上述各種不同方法中可以看出,現有的各種漢字鍵盤的設計方法還欠理想,還存在不少缺點。但字根法比其他方法好,如果以上4個存在問題可以解決的話,那么字根法是比較適合各種實際用途的。
發(fā)明的目的本發(fā)明的目的之一是提供一漢字鍵盤,以解決目前字根法漢字鍵盤仍存在的問題。本發(fā)明的另一目的是在上述的中文鍵盤中,使某些鍵也同時具有輸入其它種語言文字的功能,從而達成一能輸入多種語言的鍵盤。
發(fā)明概述根據對漢字的分析和統計,從漢字中提取出485個字根和常用字,構成漢字字根輸入的基本單元,將字根按其在漢字中經常出現的位置放于鍵盤“上”、“中”、“左”、“右”、“下”區(qū)的相應區(qū)中,在區(qū)中按字根的首筆形狀排列,輸入漢字時,先將漢字拆分成由基本字根組成的字根組,然后依次輸入字根便可實現該漢字的輸入,由于該語言處理器具有智能功能,因此輸入時只需輸入組成該漢字的所有字根即可,這種鍵盤在疊加上英文字母、法文字母、日文假名等后可實現多種語言的輸入。
附圖簡述圖1為根據本發(fā)明的漢字鍵盤平面圖,圖中鍵盤上的鍵被劃分為上區(qū)、左區(qū)、右區(qū)、中區(qū)及下區(qū)等五區(qū)。
圖2為各區(qū)字根按首筆形狀排列的平面圖。
圖3為根據本發(fā)明的漢字鍵盤的字根分配圖,圖中還顯示出,除了字根外,在鍵盤中區(qū)的最下方的三行,還以傳統的英文打字鍵盤的字母排列法,配有英文字母。
較佳實施例的詳述本發(fā)明的漢字鍵盤是采用“字根法”設計而成的。除了具有字根法的特性外,該鍵盤還解決了字根法所存在的問題。
采用字根法必須解決兩個重要問題。那就是,如何選取字根和怎樣分配字根于鍵盤上。
1.字根的選取為了要選取一組字根,首先必須對每個漢字進行分析。上節(jié)中已經指出,雖然漢字大約有四萬多個,但只有二千多個是常用字。由上海辭書出版社所編的《辭?!匪谐龅臐h字也只有14872個。因此,從實際應用的觀點出發(fā),我們只須對一定數量的字進行分析就足夠了。
以《辭?!窞榛A,通過對16000個漢字進行詳細分析,反復比較和統計后,我們選取了485個基本字根。除了這485個基本字根外,我們選取了43個特別符號包括數字1,2,3,4,5,6,7,8,9,0和標點符號。,;?、!()等。為了方便敘述,這些特別符號也稱為字根。
利用這些字根,16000個字中平均每個字只需用2·1個字根來組成。這個統計顯示出,與英文字比較,漢字的平均輸入按鍵數只需英文字的平均輸入按鍵數的二分之一。
以這些字根為基礎,漢字的復雜結構可大大地簡化。并可歸納為以下幾種簡單的基本結構形式(1)左-右結構形式例子1)字“林”可視為“木”和“木”的組合。這樣,“林”就可分成左右兩個單元的結構形式,即
2)字“舊”可視為“丨”和“日”的組合。這樣,“舊”就可分成左右兩個單元的結構形式,即
(2)上-下結構形式例子1)字“李”可視為“木”和“子”的組合。這樣,“李”可分成上下兩個單元的結構形式,即
2)字“侖”可視為“人”和“匕”的組合。這樣,“侖”可分成上下兩個單元的結構形式,即
(3)內-外結構形式例子1)字“因”可視為“囗”和“大”的組合。那么“因”就可分成內外兩個單元的結構形式,即
2)字“巴”可視為“巳”和“丨”的組合。那么“巴”的結構也是內外結構形式,即
(4)半內-外結構形式例子1)字“匠”可視為“匚”和“斤”的組合。這樣,“匠”就可分成不完整的內外兩個單元的結構形式(簡稱為半內外結構形式),即
2)字“兇”可視為“ㄨ”和“凵”的組合。那么“兇”的結構也是半內外結構形式,即
3)字“閑”可視為“門”和“木”的組合。那么“閑”的結構也是半內外結構形式,即
4)字“風”可視為“
”和“ㄨ”的組合。那么“風”的結構也是半內外結構形式。即
(5)對角結構形式例子1)字“連”可視為“辶”和“車”的組合。這樣“連”就分成左下,右上兩單元的對角結構形式,即
2)字“疾”可視為“疒”和“矢”的組合。那么“疾”的結構也是對角結構形式,即
3)字“戒”可視為“戈”和“廾”的組合。那么“戒”的結構也是對角結構形式,即
4)字“么”可視為“丿”和“厶”的組合。這樣,“么”的結構也是對角結構形式,即
(6)對稱結構形式例子1)字“坐”可視為“從”和“土”的組合。而“從”被“土”分成對稱的兩邊。這種結構稱為對稱結構形式;且有兩種單元,即
2)字“來”可視為“未”和“丷”的組合。所以“來”的結構是對稱形式,即
3)字“垂”可視為“
”和“艸”的組合,所以也是對稱結構形式,即
4)字“ ”可視為“幺”、“幺”和“山”的組合,所以也是對稱結構形式,即
(7)復合結構形式例子1)字“丸”可視為“九”和“丶”的組合。那么“丸”可分成兩個單元,即
2)字“及”可視為“乃”和“
”的組合?!凹啊钡慕Y構也是復合結構形式,即
3)字“玉”可視為“王”和“丶”的組合。所以“玉”的結構也是復合結構形式,即
4)字“于”可視為“二”和“亅”的組合。其結構也是復合形式,即
(8)獨立結構形式所有可以獨立成字根的字的結構都稱為獨立結構形式。例如“馬”本身已是一個字根,所以它的結構是獨立結構形式。
以這些基本結構形式為基礎,任何中文字的結構都可歸結為一種基本結構形式或幾種基本結構形式。例如,考慮字“據”,其基本結構形式為左右結構形式,即
但右單元“居”可視為“尸”和“古”的組合。所以右單元“居”的結構為對角結構形式,即
總的來說,字“據”的結構為左右結構形式和對角結構形式的組合。
根據每個字根在一般字中經常出現的位置,485個基本字根還可大約地歸納為以下各種不同類別(1)上字根。例如虍、艸、癶等。
(2)下字根。例如灬、凵、
等。
(3)左字根。例如、氵、忄等。
(4)右字根。例如卩、彡、攵等。
(5)成字根。例如小、中、毛等。
(6)輔助根。例如丿、丷、丶等。
以上的類別只是一個大概的分類。有些字根可以同時為不同類型的字根。比如字根“阝”可以為左字根(陌)也可以為右字根(郁)。
2.鍵盤的設計原則為了要把485個字根分配于鍵盤上,最基本的方法是在鍵盤上設485個鍵。但這樣做,鍵盤就會太大,既不利于操作也不合經濟原則。那么鍵盤上要有多少鍵才是最好的呢?對于這個問題,我們考慮到電子計算機最基本的運算方法。
一般來說,電子計算機的最基本運算單位是一個字節(jié)。一個字節(jié)可儲存256個不同信息。為了配合電子計算機的這種性質,本發(fā)明的鍵盤上只設有256個鍵。
鍵盤上的256個鍵,其中有18個為作用鍵,其他236個鍵為字根鍵。這238個字根鍵排成一個14×17的矩陣形式,且分成五個區(qū)域-上區(qū),左區(qū),右區(qū),中區(qū)及下區(qū)(以不同顏色的鍵來區(qū)分)(見圖1)。分區(qū)的作用在于配合字根的不同類別。上字根的字根可放在上區(qū),下字根的放在下區(qū),左字根的放在左區(qū),右字根的放在右區(qū),而常用的成字根則放在中區(qū)。整個中區(qū)以中間的一列十個鍵為中心。這十個鍵分別分配字根“一、二、三、四、五、六、七、八、九、十”于其上。其中第一、二、三行的字根以一橫“一”開始;第四、五行的字根以一豎“丨”開始;第六行以及第七行的左右區(qū)部分的字根以一點“丶”開始;第七行的中區(qū)部份和第八、九行的字根以一撇“丿”開始;第十行以及下區(qū)的字根以一曲“”或一鉤“亅”或類似的彎曲筆畫開始。此外,在上區(qū)的第三行的字根也是以一橫“一”開始;第二行的字根以一撇“丿”開始;第一行的左方五個鍵的字根以一豎“丨”開始;右方五個鍵的字根以一曲“”開始;其余以一點“丶”開始(圖2)(以上的原則對中間一列的“一、二、……十”各字根不適用)。
以上是字根分布的基本原則。這樣的分布原則使鍵盤的操作簡化了。打字員在輸入字根時只需知道字根的類別及其第一筆的形狀(即一,丨,丿,丶或乛)就可以了,而不必懂得什么拼音,筆畫多少的問題。
本發(fā)明的鍵盤有其最大的特色,就是無論怎樣輸入字根,只要這些字根能組成字,那么,這個字一定是唯一的。雖然很多鍵上有多于一個的字根,最多時為五個,但由于機器內有智能功能,故無需加選擇鍵來決定是該鍵的某個字根。這個特性減少了附加選擇鍵的必要性。這也是本發(fā)明的鍵盤另一個與別不同之處。
3.拆字法及輸入法輸入一個中文字,一般來說,需要經過以下幾個步驟(1)分析字的基本結構形式,把字分成單元。
(2)決定每個單元是否成字根。如有不成字根的單元,把這個單元看成一個字,重復步驟1和2直至所得單元都能獨立成字根。
(3)利用鍵盤輸入字根。
例1.輸入中文字“鏈”。
(1)“鏈”字的基本結構形式為左-右結構形式,即
(2)其中左單元“钅”為一個字根,因而不必再分析左單元。但右單元“連”還不成字根,把“連”作為一個字再分析可得“連”的基本結構形式為對角形式,即
其中左下單元“辶”為一字根,而右上單元也是一個字根。分析到此為止。
(3)經過分析所得字根為“钅”,“辶”和“車”。
(4)把所得字根由鍵盤輸入。
例2.輸入字“估”。
(1)字“估”的基本結構形式為左-右形式,即由左單元“亻”和右單元“古”組合而成。
(2)左單元“亻”已是一個字根,而右單元“古”也是一個字根。所以沒有必要再分析(雖然“古”是由“十”和“口”組成的)。
(3)輸入所得字根“亻”、“古”。
例3.輸入字“午”。
(1)“午”本身并不是一個字根。我們可以把“午”分析為一上下結構形式,即
(上、下單元都為字根)。
或者分析為復合結構形式,即
其中主單元“干”和輔助單元“丿”都為字根。比較以上兩種拆法,我們注意到“丿”為一輔助根(見1,(7)),它主要是起輔助作用。所以第二個拆法比較合情理。按照這個拆法,那么,1)“?!笔怯伞柏焙汀?br>”組成的。
2)“千”是由“丿”和“十”組成的。
其他的輔助根“丶”,“丷”等也可以按照同樣的拆法。比如1)“拼”是由“扌、丷、開”組成的。
2)“送”是由“丷、天、辶”組成的。
但是對于一些特別的字,比如1)“前”,如果把“丷”獨立來處理,那么“前”是由“丷,一,月,刂”組成的。不過“丷”和“一”可以合起來變成字根“
”,在這樣的情況下,“前”應是由“
,丿,月,刂”組成的。
2)“首”應是由“
,丿,目”組成的。
3)“每”應是由“,母”組成的。
(2)輸入所得字根。
現在談談輸入字根時應考慮的問題。
在輸入字根時,每個字根的位置可依“字根分配法”在鍵盤上尋找(參考,2)。問題是一列字根中哪一個字根應該首先輸入,比如字根列“钅,辶,車”,首先輸入“钅”,然后“辶”,最后“車”,或者是首先輸入“钅”,然后“車”,最后“辶”呢?是不是兩種次序都可以呢?如果以上兩種次序都可以,那么“車,辶,钅”的次序可不可以呢?答案是可以的。對于電子計算機來說這個問題不大。但是從經濟觀點出發(fā)這是不切合實際的。因此,定下一些輸入字根規(guī)則是必要的。我們決定字根的輸入次序要滿足以下規(guī)則1)先上后下2)先左后右3)先外后內4)先主后輔這些規(guī)則也有先后之分,即先考慮“先上后下”再考慮“先左后右”,依次而推。
根據以上規(guī)則,“鏈”的字根列“钅,辶,車”的輸入次序應為1)钅(先左后右)2)車(先上后下)3)辶(先上后下)再看看幾個例子。
例1.字“些”的字根列為“止,匕,二”。
輸入次序應為(1)止 (先上后下→先左后右)(2)匕 (先上后下→先左后右)(3)二 (先上后下)例2.“詢”的字根列為“讠,勹,日”。
輸入次序應為(1)讠(先左后右)(2)勹(先左后右→先上后下)
(3)日(先左后右→先上后下)例3.“兇”的字根列為“ㄨ,凵”。
輸入次序應為(1)ㄨ (先上后下)(2)凵 (先上后下)例4.“寶”的字根列為“宀,王,丶”。
輸入次序應為(1)宀 (先上后下)(2)王 (先上后下→先主后輔)(3)丶 (先上后下→先主后輔)例5.“題”的字根列為“是,頁”。
輸入次序應為(1)頁 (先上后下)(2)是 (先上后下)但是這樣的輸入次序和我們一般寫字的習慣有很大不同。在這樣情況下,輸入次序應為(1)是 (先左后右)(2)頁 (先左后右)需注意的是,雖一個鍵上可能有多于1個的字根,但由于機器本身的智能功能,無需加選擇鍵便可決定是哪個字根。
另外,字根位置的安排是經過統計和分析研究決定的,一般說來,一個可分為二、三個字根的漢字,在輸入時,若無意誤撳了該漢字某字根的上、下、左、右字根鍵,此時機器內的智能便起作用,發(fā)出音響以示錯誤。這在拼音文字的鍵盤上不可能實現的。
4.多種語言輸入的實現從圖3可見,除了字根之外,在中區(qū)的最下方的三行,還以傳統的英文打字鍵盤的字母排列法,配有英文字母。從而通過按下語言選擇鍵中的英文鍵(圖中未示出),便可利用這些英文字母鍵輸入英文。同樣地,對于德文、法文、俄文、日文等,也可以分別把該種文字的字母按其傳統的排列法,配布于中文鍵盤的某些鍵上。通過語言選擇鍵,選擇所需的語言,便可用與此語言相對應的鍵,輸入該種語言。
權利要求
1.一多種語言處理器,它包括有輸入裝置,用于輸入語言信息,中央處理裝置,用于處理由所說輸入裝置輸入的語言信息,輸出裝置,用于輸出處理結果,所說處理器的特征在于所說輸入裝置可輸入以字母構成的文字和以筆劃構成的方塊文字。
2.權項1中所述的多種語言處理器,其中所說輸入裝置為一鍵盤,在鍵盤上,一鍵代表一定數量的漢字字根和/或英文字字、法文字母、日文假名等字母或符號。
3.權項2中所述的多種語言處理器,其中所說的鍵盤上共有256個鍵,其中18個是功能鍵,其余為字根、字母鍵。
4.一漢字輸入法,其特征在于輸入漢字時,將漢字拆分成基本字根組成的字根組,并按一定順序依次在鍵盤上輸入。
5.權項4中所述的漢字輸入法,其進一步特征為所說基本字根是在對漢字進行分析、比較和統計后選出的,并按其在漢字中經常出現的位置和首筆筆劃排列于鍵盤上。
6.權項4或5中所述的漢字輸入法,其進一步特征為所說鍵入字根的順序是滿足“先上后下、“先左后右”、“先外后內”、“先主后輔”規(guī)則的,并按上述順序先后適用這些規(guī)則的。
專利摘要
一多種語言處理裝置,在其輸入裝置——鍵盤上可輸入包括漢字在內的多種語言文字。該鍵盤上共有256個鍵,其中238個鍵代表485個漢字字根、英文字母等其它文字符號,輸入漢字時,先將其拆分成基本字根組成的字根組,再依次輸入該處理系統。
文檔編號G06F3/023GK85103869SQ85103869
公開日1986年11月5日 申請日期1985年5月10日
發(fā)明者樂秀章 申請人:依利安達語言系統有限公司導出引文BiBTeX, EndNote, RefMan