專利名稱:計算機字母化中文輸入法的制作方法
技術領域:
。
本發(fā)明涉及一種計算機中文輸入法。
背景技術:
。
目前,計算機中文輸入法有很多,但大多輸入方法復雜,難懂難學,輸入速度慢,有的雖然較簡單,但重碼率高,因此,也有輸入速度慢的缺點。
發(fā)明內容
。
本發(fā)明的目的在于提供方法簡單、重碼率低,輸入速度快的計算機中文輸入法。
本發(fā)明的目的是通過如下途徑實現(xiàn)的一種計算機字母化中文輸入法,根據(jù)漢字的偏旁部首,設定26個中文表形字符,這26個中文表形字符分別為一、廠、、十、土、木、、 、小、山、口、日、冂、丿、 、人、八、乂、ク、丶、亠、廣、之、フ、∠,這26個中文表形字符分別設在計算機鍵盤上的26個英文字母鍵上,其取碼規(guī)則為1)每字4碼,不足4碼的補虛碼或擊空格鍵,虛碼有3個,即常規(guī)附加碼、特別碼、綜合結構碼;2)取碼要循筆順;3)變形還原規(guī)則-規(guī)定小變形還原,大變形不還原;4)主題—漢字分成26部,每部都將筆畫數(shù)最多的一個偏旁設為主題,以減少重碼,“主題”只取單碼(首碼),又分為兩類A)始終只取首碼的主題(18個)扌、土、木、艸、忄、山、口、日、月、竹、亻、钅、犭、氵、讠、疒、宀、纟,B)只在左偏旁位置時才取單碼(首碼)的主題(10個)王、石、車、蟲、彳、金、火、魚、言、阝(在左);5)單元字(由一個部件組成的字即為單元字)的取碼;單元字應拆分為更低一級的基礎零件,然后結合鍵碼循筆順連取3碼,再加底碼;6)上下結構的取碼上下結構包括“單疊式”和“復疊式”,在不足4碼時,單疊式用空格鍵,復疊式用特別碼,上下結構的取碼,除部分典型結構按本條的D點取碼外,其余按下述方法取碼A)分層—上下結構是由多個部件豎疊而成,在一般情況下可根據(jù)部件來分層,但如果在結構中含有成字部件(或者說含有一個“子字”),成字部件就應取為一層,而且應取“最大成字部件”為一層(即它也含有“子字”);B)分段—在正確分層的基礎上,從字的最底層處將字分為上、下兩段;C)取碼,按一列4種情況取碼a)上段是一個單碼“子字”則下段取首、底兩碼,第四碼虛碼;b)上段只有一個單碼,“字符”,下段應取足3碼;c)在一般情況下,上下兩段各取首、底碼,共4碼;d)三元完全相同的“品”字結構,下段均取各元的底碼;D)典型結構依筆順取碼;7)左右結構,左右結構包括并列式和3列式,3列式應看作一個結構加偏旁,所以與并列式的取碼規(guī)則相同,只是并列式在不足4碼時,加常規(guī)附加碼,而3列式加綜合結構碼,當并列結構的左偏旁是主題時,主題取單碼,右列取3碼;8)減碼規(guī)則A)先虛后實一有虛碼的字應先棄去虛碼;B)先內后外—先減內形碼,后減外形碼;先減靠里的代碼,后減靠外的代碼;C)先減非首、底碼,最后才減首底碼;D)與對比字僅有微小差別的字,減碼時要保留“特征碼”;9)例外規(guī)定A)凡左右結構的右列為“中、冘、力、乃”者均加虛碼特別碼;B)下列16字是應記住的最低限度二擊簡碼(它們在其它結構中也只取首、底兩碼)見以太里 水已受用思其角族掏西涼貨;C)以下10字一律取首、底碼,再加“常規(guī)附加碼或空格鍵”;永(之小)州(丶 )勾(丿フ)巴(冂フ)臼(丿凵)曷(日フ)言(亠口)韋(フ十)貝(日八)田(冂凵);D)列入重碼字表的重碼字,可以按下列方式改碼以避開重碼a)4碼字減去第3碼加空格;B)原加虛碼常規(guī)附加碼、綜合結構碼或空格的3碼字,改用特別碼,原用特別碼的字改用空格;C)右列為“刂”的字虛碼由特別碼改空格;10)構詞規(guī)則一每詞4碼,從各字的首、底碼中取碼,首字兩碼,首字若為單碼字,則應補以相應虛碼,詞末的“兒”、“子”均取單碼“兒”、“フ”。這26個中文表形字符在計算機鍵盤上所對應的鍵為一→Y、廠→F、→T、十→S、土→L、木→M、→I、 →Q、小→O、山→W、口→K、日→E、冂→H、丿→X、 →J、亻→R、人→A、八→B、乂→C、ク→V、丶→D、亠→U、廣→Z、之→N、フ→P、∠→G。常規(guī)附加碼設在“F”鍵,特別碼設在“T”鍵,綜合結構碼設在“Z”鍵。
本發(fā)明具有輸入方法簡單,易懂易學,重碼率低,輸入速度快的特點。
具體實施例方式
1.概述“字母化中文輸入法”是從《漢字字母化研究》這一課題中衍生出來的一種中文輸入法。通過《漢字字母化研究》,建立起了一組由26個表形中文字符組成的字符集,由于該字符集正好和標準鍵盤的26個鍵有一一對應的關系,所以被定名為“鍍碼”。因此“字母化中文輸入法”也可叫“鍵碼輸入法”。
漢字實現(xiàn)“字母化”一直是漢字研究領域的一個理想。漢字通過鍵碼實現(xiàn)“字母化”以后,在漢字的應用領域將產生深遠影響,其中最突出的便是漢字檢索法的現(xiàn)代化和漢字輸入法的字母化。漢字實現(xiàn)“字母化”,是中文走向現(xiàn)代化的一項系統(tǒng)工程,而“字母化中文輸入法”的推廣,便是其中的一個重要環(huán)節(jié)。2,鍵碼字符集鍵碼,是一組由26個中文表形字符組成的字符集。這個字符集的特點是1.是一組中文表形字母2.有序性——字母的排列順序是嚴格規(guī)定的;3.與標準鍵盤有一一對應性;4.每個字母都有上、下形之分。但大部分字母的上、下形是相同的,只有少數(shù)字母的上、下形不同。下面是這個字符集的全貌一、廠、、十、土、木、 、小、山、口、日、冂、丿、 、人、八、乂、ク、丶、亠、廣、之、フ、∠3.鍵碼字母介紹下面對26個鍵碼字母逐一作詳細介紹,一(yī)上、下形均為“一”上形字例耳西兩巨無武萬歹兀 醒琿下形字例立金止血且巫應當說明1)字的頂部(或左右結構左列的頂部)為一橫(而且一橫沒有“出頭”)的字被分配在“一”、“廠”兩字母內,兩者區(qū)別在第二筆。在一橫之下緊接著寫一撇的,除“兀、歹”外均歸“廠”,其余則統(tǒng)歸“一”。(“萬”字第二筆為“フ”,故“萬”歸“一”。)請比較兩字母字例。說明2)字的底部(或左右結構的右列的底部)為一橫的字,其下形被看成“一”或“土”。凡從下向上看具“土”形者歸“土”,余均歸“一”,請比較兩者的下形字例。廠(chǎng)上形為“廠”上形字例;原厄 石而不頁豕 所后盾斤瓜殷 戊咸成說明3)歸入“廠”的字,除了以“廠”、“丆”起頭的字外,還包括“ ”(yi)類字(見字例),但不包括“爪”(“爪”和“爫”看作“丿、八”)。此外,“戊”類字也因為起筆為“廠”而歸入“廠”。說明4)在常用字的范圍內,沒有下形為“廠”的字,“廠”的下形基本上是空的。這個空位在編碼時用作“虛碼”。(tí)上形為“”,無下形。上形字例豐來韋擊夫壽春專青麥(麥)表 末事吏柬甫求屯龍大來(來)夾丈 戈或說明5)以“一”起筆的漢字,從結構特征來看,有兩類情況,一類是“一”不被其它筆劃貫穿,如“豆、西、”等字的第一筆;另一類是“一”被其它結構的某筆所貫穿,這一類字被分配在“、十、土、木”4字母內。凡不能歸入“十、土、木”3字母的字,均歸入“”?!蔼馈弊x“提”,也就是“特、一”(特別的一)的合音?!蔼馈钡膶嵸|仍然是“一”,但它又和字母“一”有所不同,是“特別的一”,所以,我們使用了在“一”下加一短豎的特殊符號,來表示這種“一”,并與正常的“一”相區(qū)別。如果你比較一下“元”與“無”、“天”與“夫”這兩組字,就會明白為什么要將“”與“一”區(qū)分開來。說明6)歸入“”的字,從筆順上來看,和“十、土、木”3字母的字有所不同。例如“束”字,從字頭看似具“十”形,但“束”字并不歸“十”,因為“束”字的筆順是“一、口、 ”,而不是先寫“十”,而“十、土、木”3字母的字都是先寫“十”。從這個例子可看出設立字母“”對于正確地表述筆順也是必要的。說明7)沒有以“”為下形的字。像“丹、字、冊、舟”等字的一橫仍仍應作“一”。只有被其他結構的某筆穿透的“一”才算“”,十(shí)上、下形均為“十”上形字例南朝古卉支索嗇喪 扌 寸下形字例豐斗平耳奉牛車聿 肀(肅唐) 本用 韋舜舞說明8)作為上形,“十”的兩筆應連寫。由于“”(豎鉤)在筆型上歸“丨”,所以,“扌”歸“十”部。(注意“求”應解析為“、水、丶”,“才”應解析為“、 ”,所以“求、才”兩字歸“”。同理,“來、麥”也歸“”部。)說明9)作為下形,只要具“十”形即可,不限筆順。例如“牛、車、”等作左偏旁時下形都仍看作“十”。結構“ ”的下形也看作“十”的變形。土(tǔ)上′下形均為“土”上形字例老者彭吉士喜走聲 哉截裁 賣下形字例王壬生堇佳 垂重里丑 (妻)說明10)“土”的上、下形均為“土”?!笆俊币矚w“土”。在上形中,筆順必須完全同“土”如“豐”字就不能看作“土、十”(應為“、、十”)。但在下形中則不要求筆順,而只看它是否具“土”形,請研究字例。簡體“賣”的字頭“ ”也看作“土”,以使繁、簡體統(tǒng)一。木(mù)上形為“木”,下形為“木”、“ ”上形字例木術查楚下形字例未來采米 束東乘來秉聚鰥 (巒)兼說明11)“木”的上形為“木”,下形則還包括“ ”(mǔ)及變形“ ”(兼)?!澳尽钡南滦尾粠с^,“木”為“、小”(寨、條)。(shu)上、下形均為“丨、 、卜、 、中”上形字例舊 上卓虎 卜 與頃 中蟲貴遺 北比下形字例外 下不韋中巾甲申乍卻都 弟書說明12)“豎”本指“丨”,是漢字的基本筆型之一,但是,一方面,以“丨”為獨立結構的字只有“舊”一字,而另一方面,“丨”作為字母也容易與“ ”混淆,所以我們用“”來作為字母,并讓它代表“丨、 、卜”4個字符。此外,“與”、“ ”也被歸入“”。因為它們的上形也為“”。說明13)“中”字本是由“口、丨”組成。由于起筆為“口”的字太多,造成大量重碼,而起筆為“卜”的字很少,因此利用“中”字有豎向出頭的特點,將所有以“中”、“蟲”起頭的字從“口”移入“”(中蟲盅忠貴遣遺)。 (qí)上形為“艸”、“ ”,下形為“ ”、“廾”上形字例草 廿革世 帶卅 共其黃 止齒川片非堅師 井曹下形字例斤介非弗 肅肅 開井莽 卯州 淵淵 鼎說明14)“ ”的特點就是有兩個或兩個以上的豎向出頭,所以,它包含了“草字頭”的全部漢字。我們也可以看成是“艸”與“” 共用一鍵,并用字母“ ”來代表。我們借用“丌”(“其”的古字)來命名它?!?”部還包含“止、非”等字,這是因為“” 被看作“丨”所以“止”可解釋為“ 、一”,而“非”則解釋為“ ”(每一短橫算一碼)。說明15)“井、曹”2字從筆順來分析,它們本應歸入“”,但由于它們都有兩個豎向出頭,為便于快速判別,它們被作為“喬居字”寄入“ ”小(xiǎo)上、下形均為“小”。上形字例少塵雀 光尚黨 業(yè)鑿黹 恒悅下形字例示系條 赤亦水永承 豕象 添幕恭說明16)“小”的上形包括“小”、“ ”、“忄”。因為字頭為“小”的字很少而”忄”與“小”形似,所以我們安排物“忄”與“小”共用一鍵?!皹I(yè)”的上形,作為變形也歸入“小”。說明17)在下形中,“ ”、用“水”、“ ”都看作“小”的變形。不過,“水”被解釋為“ 、小”,而“水”為“小()、小”’“豕”為“廠、小”’“”為“小、、”。請研究字例。山(shān)上形為“山”、“凵”(Kǎn),下形為“凵”、“囗”(wéi)上形字例山 豈岸出 豐下形字例巒 擊缶 廿畫兇函 田由四曲因回 舀插說明18)字母“山”除了包含起頭為“山”的全部字外,還包括起筆為“凵”的幾個字。繁體“豐”字也歸入“山”。“山”的下形除“ 凵”外,還包括除“口、日”以外的“囗”(wéi)形。“囗”在筆順上雖與“凵”不同,但它們有相似的下形,’因此將“囗”歸入“凵”下形。請研究字例,口(kaǐ)上、下形均為“口”上形字例口足雖只 史串 巳民下形字例 凹凸 甘 吞舌說明19)起筆為“口”的字是最多的,所以將“中、蟲”一類字移入“ ”以減少重碼。其余起筆為“口”的字仍歸“口”。此外,“已、民”2字起筆雖為“ ”,但因字頭具“口”形,也將它們作為“喬居字”寄入“口”。說明20)在“口”的下形中,歸入了“凹、凸、甘”3字。日(rì)上、下形均為“日”上形字例日曰 目貝貝見見 申電 艮門下形字例昔者 看霜 酉酒醬說明21)“日”的上、下形均為“日”?!澳俊弊植徽搹纳匣驈南?向上)看都含“日”,所以被解釋為“日、日”?!坝稀钡南滦我脖唤忉尀椤叭铡?。此外,“申電”等字都應看作是“日”與其它筆型或結構的交連,而“艮、門”則是作為“喬居字”寄入“日”。冂(hóng)上、下形均為“冂”、“ ”上形字例冗 月同周用冊 巾央 骨黑凹凸具 幾風 田由曲因國 里暈果甲禺。巴下形字例門骨鬲角扁禹冊 銅綱吶調說明22)“冂”本讀“jiōng”,因為讀起來費力,不適合字母讀音,而改讀“hóng”(紅)。所有上形呈“冂”的字被分別歸入“口、日、冂”3字母,除了前面歸入“口、日”兩字母的字,其余全歸入“冂”。“ ”(mì)是“冂”的變形(比較“雨雪、高豪”),所以歸入“冂”。“幾、風”均解釋為“冂、兒”。“里畢果甲禺”等字從結構分析來看本應歸入“日”由于它們的豎向連筆已經(jīng)貫頂,使人更多地聯(lián)想到“田”字,而且“里果甲”等字在字義上也會位入聯(lián)想到“田”,因此,將這一組字歸入“冂”,以利于快速判別?!鞍汀弊鳛椤皢叹幼帧奔娜搿柏纭必?xié)上、下形均為“丿”上形字例 禾鼻舟爪卑 長及勻留卯 匕包烏鳥 臼臾叟鼠 兜樂下形字例嚴盧少彡產戶尸尹說明23)“丿”本讀“pěi”,作為字母讀來費勁,因此改讀“斜”。所有起筆為“丿”的字被分配到“丿、 、人、八、乂、ク”ク字母內(“ ”類字仍技習慣歸“廠”),不能歸入后6字母的字統(tǒng)歸“丿”?!岸?、樂”兩字是從中間起筆的,所以歸“丿”?!白Α弊趾退淖冃巍盃崱币黄鸲細w“丿”,看作“丿、八”?!柏钡南滦问侵改切┮浴柏苯Y尾的字,如字例所示。 (zhú)上形為“”,下形為“亅”(豎鉤)’上形字例竹()缶矢氣 朱先生告失牛下形字例子手可了寸丁爭說明24)“ ”取自“竹”字的右半部,因“ ”部以“竹”字頭的字為主,所以將“ ”定名為“竹”?!?”是一個復合字母,它的上、下形含義不同,上形表示“、”,下形表示“亅”(但不包括“刂”)。 (rě)上形為“亻”,下形為“兒”上形字例件代華憑 佳集雋 段 輿學 兒九下形字例幾風 兌兆 荒流 九執(zhí) 龍堯說明25)“ ”是一個復義字母,它的上形代表“亻”(rèn任),下形代表“兒”。因此,將字母讀成“惹”。上形“亻”是由“人”演化而來的,由于“人”部的字多,所以將“亻”單獨立部。又因為除“彳”一字外,再沒有別的以“亻”為下形的字,我們安排“兒”與它共用一鍵并用一個字母代表兩種結構。在實用上我們仍舊可以分別使用“亻”與“兒”。說明26)“亻”的上形除“亻”外,還包括字例所列的幾類字,如“段、輿”等字都以“亻”起筆,所以都歸入“亻”部?!柏椤钡南滦螢椤皟骸?,也有如字例所示的幾種變形。人(ren)上、下形均為“人”上形字例眾俞合坐 入汆 金銀 食餅下形字例大夫亥癸以僉奏 走久說明27)“人”的上、下形均為“人”?!叭搿币矚w“人”。簡寫的“钅”也和繁體的“金”一同歸“人”。在漢字中,有時不容易區(qū)別“人”與“八”的下形,因此規(guī)定如下A)“大夫亥癸以僉奏”以及同類下形的字和“久”字的下形都規(guī)定作“人”;B)凡結構中含“大、夫”者,其下形均作“人”(如達規(guī)篡春養(yǎng)卷)。但特別規(guī)定“頭”的下形作“八”(買賣實)。這樣做,可使相關字的繁、簡體的下形統(tǒng)一。八(ba)上形為“八”、“丷”、“ ”、“ ”、“ ”,下形為“八”、“ ” 上形字例父分 半米敝券 火 興舉學脊兆下形字例貝員尺 頭(買實)穴爪( )說明28)“八”的上形包括幾種形式,如字例所示。下形則為“八”、“ ”。“ ”在連寫時看作“ 、八”,所以“脊”字歸“八”部?!罢住弊职床考怯伞?”和“兒”組成的,所以被解釋為“八八兒”?!鞍恕迸c“人”的判別見說明27)。此外,“灬”本義是“火”’聽以也從“火”解釋為“八、丶”。乂(chā)上形為“乂、“又”,下形為“乂”、“ 上形字例兇殺爻 又對觀歡 狂狗猛狼下形字例文義女 麥皮寇 戈或藏成 (堯)說明29)“義”(叉)的上形不僅有“乂”,還包括“又”,這樣作,可以簡化“又”的取碼。下形則除“乂”外,還包括“ ”的下形,如字例所示。ク(dāo)上形為“タ、刀、 、力、 ”,下形為“ク、刀、力、刂、 ”上形字例魚角久各 多名祭然 召邵 加賀架 欠爾飽飯 那下形字例歹多羅 乃萬旁 分券劈 勤勞務 湯勿揚 身才矛牙俞前則說明30)“ク”、“刂”本與“刀”通,“力”與“刀”有相同的筆順與筆型,是“刀”的“姐妹字”。“ ”、“ ”、“ ”、“ ”分別看作“刀”的上、下形變體??梢姟暗丁钡男问截S富多彩。丶(diǎn)上、下形均為“丶”上形字例江河湖海 門間問聞 良頭斗義州下形字例冬蟲專令 公云私去 長瓜 術杰 良辰農衣(衤)癶(登癸類) (祭)說明31)以“丶”起筆的字除“忄”歸“小”外,其余被分配在“丶、亠、廣、之”4字母內?!般摺㈤T”歸“丶”、“亠、冫”(及“言、”)歸“上”,“廣、疒、麻、鹿”歸“廣”,其余在點之后有一折筆的字(宀、穴、戶、礻、衤等)統(tǒng)歸“之”部,詳各部說明。說明32)“丶”部實際上只包括“氵、門”兩大類字以及少數(shù)幾個以點起筆的字?!柏肌钡南滦蝿t包括以“丶”、“”(捺)等兩種形式落底的字,但“術”是個例外(木、丶)。有一些字,它們的最后一筆雖然也是點,但它們的底碼不是點,所以不能歸入“丶”的下形字內,如“太、犬”(底碼為“人”)、“或、戈”(底碼為“乂”)、“甫”(冂)、“葡”(フ)、“求”(小)等等。亠(tóu)上形為“亠”、“ ”,下形為“心”‘上形字例 文章巒雍 言談話語 冰冷將 燮 心必下形字例心態(tài)意想 必秘瑟說明33)“亠”音“頭”?!百?bing)(是“亠”的變形?!摆ァ币埠汀把浴币黄饸w入“亠”?!佰?、 ”一類從“言”起筆的字也歸“亠”。說明34)“亠”沒有下形字。而“心”在漢語中表示“思想、情感”等意思,都是大腦的活動,所以將“心”安排作“亠”的下形?!氨亍北唤忉尀椤靶摹⒇?。廣(guǎng) 上形為“廣”,無下形。上形字例廣席康度 疾病疤痕 麻磨魔靡 鹿麒麟鏖說明35)“廣”的上形包含“廣、疒(nè),麻、鹿”4部分內容。因為“廣”的使用頻率在字母中是最低的,所以被安排在較難操作的“Z”鍵上?!皬V”也是一個沒有下形的字母。之(zhī)上形為“ ”,下形為“ヘ”。上形字例宜宣牢完 戶雇房肩 穴究空塞 神社祈禱 被褥裙褲 之永下形字例乏貶 送運進連 建延廷說明36)字母“之”包括在點之后有一折筆的幾類字,它們是“宀(mián)、穴、戶、礻、衤”以及“之、永”等字?!爸钡南滦螢椤哎亍?平捺),包括“之、辶、辶”,如字例所示。 フ(zhé)上、下形均擴“フ”、“フ”上形字例弓羽 阿衛(wèi)馬 韋孫君翠翟眉乃尺司刁屋登癸函亟也下形字例今片 虧勻馬鳥曷母為弱羽說明37)“フ”的上、下形均為“フ”、“ ”。起筆為“フ”的字,“已民”和“艮、門”分別歸“口、日、冂”外,余均歸“フ”部?!?gōg)上、下形均為“∠”上形字例紅給經(jīng)紗 女娜姐 以矣參 鄉(xiāng)收彖發(fā)戕轡巢 迅飛虱 乙貫母下形字例亡世區(qū)陋 巴北比龍 宛死乖 式民氣鼠說明38)“∠”本是古“肱”字,注音時為通俗起見改注“工”字。漢字本只分5種筆型,我們現(xiàn)在將向左彎的筆型歸“フ”,向右彎的歸“∠”。作多次彎折的,以最后一次為準。所以,“弓、?!钡那P均歸“フ”,而“乙”歸“∠”?!啊稀卑ā? 乙”等。
以上是鍵碼字母的詳細介紹。26個字母匯總成的《鍵碼字母表》(見說明書附1)。4鍵盤配置(見說明書附圖
2)鍵碼字母是根據(jù)字母的使用頻率經(jīng)過大量統(tǒng)計計算后,結合字母的音、形、義等要素配置的。鍵盤配置的結果如(說明書附圖2)所示。(注“廠”本身并不是一個高頻字母,因為被用作“虛碼”而成為高頻字。)從音、形、義方面來看,按漢語拼音的首字母配置鍵碼的有一(yī)、 (tí)、十(shí)、木(mù)、 (qí)、口(kǒu)、冂(hóng)、丿(xié)、 (rě)、八(bā)、乂(chā)、丶(diǎn)、 ∠(gōng)按形似原則配置的有廠(F)、(I)、山(W)、日(E)、 (J)人(A)ク(V,字母V像刀刃)、亠(U,字母U像頭形)、之(N,字母N也是兩個折,只是方向不同)、 (字母P像フ部的“卩”)按意義或其它原則配置的有土(L,在L鍵上,配置字母“土”和一擊簡碼“地”,“土地”正是英語Land的意思)小(0,字母O像數(shù)字0,是最小的正數(shù);用它比喻“小”)廣(“廣”的使用頻率最低,被配置在最難操作的Z簇上)5.輸入法的取碼規(guī)則根據(jù)GF3001—1997《信息處理用GB13000.1字符集 漢字部件規(guī)范》,漢字有560個部件。不同的漢字是由不同的部件以不同的方式組成的。我們可以用鍵碼字母來表述這些部件的上下形(或者說,取這些部件的首、底碼),這樣,不同的漢字就會有不同的字母組合。根據(jù)數(shù)學分析,每個漢字只需要取4碼。因此,需要建立起一套規(guī)則來規(guī)定如何取碼。規(guī)則1。每字4碼。不足4碼的字按下列規(guī)定補虛碼或者擊空格鍵。虛碼有3個。即F(廠)常規(guī)防加碼、T(一)特別碼、Z(廣)綜合結構碼,空格鍵注“■”。
說明——每字4碼是一種最經(jīng)濟有效且兼顧字、詞的取碼法。根據(jù)數(shù)學中的排列組合原理,在4擊方案中同時可兼容3擊、2擊和1擊組合,其中特別是2擊和1擊用于高頻字作簡碼配置,可大大提高輸入速度,因此,我們在方案中對一般字都采用加虛碼的方法來讓出2擊和1擊的位置供高頻字用。另外,不足4碼的字用不同的虛碼來處理,對于減少重碼也是一種極有效的手段。由于“廠、 、廣”3個字母沒有或只有極個別的下形字,我們利用這一特點用它們來作為“虛碼”。規(guī)則2.取碼要循筆順在一般情況下,漢字是從字的頂部(單元字和上下結構)或右上角處(左右結構)起筆的,但“兜、樂、燮、 、亟”等少數(shù)例外,它們從中間起筆。漢字依起筆處的結構特征取首碼(S),依字底處的外形特征取底碼(D)。(有一些字,字底無外形碼,只能取內形碼,如“內、同”等字。),首、底碼是每個漢字最主要的兩個代碼。這是使用者最低限度應掌握的。規(guī)則l規(guī)定每個漢字要取4碼,而本規(guī)則規(guī)定取碼的順序要與書寫順序相一致,這不僅限定了首碼必須在起筆處提取,也限定了其它3碼的順序。
有極少數(shù)的漢字,筆順與部件分割略有矛盾。此時,筆順不變,而取碼按部件拆分來處理。如“兆”字的規(guī)范筆順本來是“丿、 兆”,而其部件分割為“ 、兒”因此取碼為“ 兒”。此外,“必”字的筆順為“ 必”但在本方案中它被解釋為“心、丿”,與筆順略有出入。在7000常用字中,其它字基本符合《筆順規(guī)范》。規(guī)則3變形還原規(guī)則——規(guī)定小變形還原,大變形不還原。如;A)結構“大、夫”的底碼總取“人”(達規(guī)春豢養(yǎng)),“雪雷”等字中的“雨”底碼總作“冂”,“羚、叛、邦”筆字中的“羊、半、豐”底碼總作“十”,“戎”的第2碼也作“十”。“糹(系)”的底碼總作“小”。
B)“看、著、壽、差”等字中的第2碼均作“丿”不作“十”?!鞍荨㈥钡茸种械牡?碼作“十”不作“ ”規(guī)則4.主題——漢字分成26部,每部都將字數(shù)最多的一個偏旁設為主題,以減少重碼?!爸黝}”只取單碼(首碼)。它們又分為兩類A)始終只取首碼的主題(18個)扌、土,木、艸、忄、山、口、日、月、竹、亻、钅、犭,氵、讠、B)只在左偏旁位置時才取單碼(首碼)的主題(10個)王、石、車、蟲、彳、金、火、魚、言、阝(在左)以上10個主題不在左偏旁位置時應按常規(guī)取碼。[“言”取(亠口F■),“阝”(邑)取( )。],例如皇(丿日、一土)碧(一日、廠口)、硨(廠、 ∠十)融(一冂、 丶)說明——每部設立一個主題,其目的是為了減少重碼。這26個偏旁都是各部字數(shù)最多的偏旁,它們只取首碼,“字基”部分取3碼,這樣可避開許多字的重碼。下面,我灼舉一些字例來說明主題偏旁的取碼特點喧(口、之一一)碟(廠、 ∠木)轎(、丿人 )格(木、ク乂口)蜍(、人一小)蒿( 、亠口冂)規(guī)則5.單元字的取碼——由一個部件組成的字,即為單元字。單元字應拆分為更低一級的基礎零件,然后結合鍵碼循筆順違取3碼,再加上底碼。(參見表2.3《基礎零部件的首、底碼》)例如事 零件[一口彐J]取碼(一口フ 。)重 [丿一日土](丿 日土)注下列結構在取碼時均應當作一個整體(即視為單元字)來處理川、兒、非、兆、卯、卵、州、門。規(guī)則6上下結構的取碼——上下結構包括。單疊式”和“復疊武”,在不足4碼時,單疊式用空倍鍵“■”,復疊武用虛碼“Z”。上下結構的取碼,除部分典型結構按本條的D點取碼外,其余按下述方法取碼。A)分層——上下結構是由多個部件豎疊而成的,在一般情況下可根據(jù)部件來分層。但如果在結構中含有成字部件(或者說合有一個“子字”),成字部件就應取為一層,而且應取“最大成字部件”為一層(即它也含有“子字”)。如寡[宀直,分](“分”為一層)竟[音,兒](“音”為一層,“意、章”同此)真[直,八]腐[府、肉]礬[樊、石]金[人干,]B)分段——在正確分層的基礎上,從字的最底層處將它分為上、下兩段。有些字分層存在兩種可能性,此時應取偏下層的方案。如章[音,十]矍[矍,又]竟[咅,兒]舍[人干,口]C)取碼一按下列4種情況取碼a)上段是一個單碼“子字”(如“廠土土木小山口日人廣”等),則下段取首、底兩碼,第4碼加虛碼。如吳(口,一人■)柰(木,一小■)康(廣,フ小■)廁(廠,日クZ)嶷(山,丿人Z)最(日一乂Z)b)上段只是一個單碼“字符”(如“廿、冖、丿、、乂、宀、”疒”等)(注“、疒”是主題,規(guī)定取單碼),下段應取足3碼。如定(宀、一 人)病(廣、一冂人)蕎( 、丿人 )冤( 、ク口兒)丟(丿、土∠丶)希(乂、 丿 )等(、土十 )c)在一船情況下,上下兩段各取首、底碼,共4碼,如資(亠人,日八)鹿(廣一, ∠)原(廠日,小■)d)三元完全相同的“品”字結構,下段均取各元的底碼。如磊(廠口口口)D)典型結構依筆順按圖取碼(注“▲”者為底碼)規(guī)則7.左右結構——左右結構包括并列武和3列式。3列式應看作一個并列結構再加偏旁,所以它們的取碼規(guī)則相同,只是并列式在不足4碼時加虛碼“F”,而3列式加虛碼Z。當并列結構的左偏旁是主題時,主題取單碼,右列取3碼。當其左列是單碼偏旁“十、冫”時,右列只取首、底兩碼,再加虛碼“T”。其余情況一律按列取首、底碼。規(guī)則8減碼規(guī)則因為規(guī)定每字4碼,所以在一個多元結構中的子結構應相應地減碼。在通常情況下,由于取碼規(guī)則的規(guī)定,使減碼成為一個自然的過程,下面以“定”字為例定(之、一 人)啶(口、之一人)(“定”字的第3碼被減去)靛( 冂、之人)(“定”字的2、3碼均被減去,只留下首、底碼)人 )由(冂凵■)皮(冂丿義)丘(丿 一■)島(丿フ山■)脊(八人冂■)兆(八八兒■)里(幾土■)甲(冂凵 ■)果(冂凵木■)勿(丿クF■)匆(丿ク丶■)規(guī)則10構詞規(guī)則——每詞4碼。按下列規(guī)則從各字的首、底碼中取碼。首字兩碼。首字若為單碼字,則應補以相應虛碼。詞末的“兒”、“子”均取單碼“幾”、“フ”。A普通詞例漢語(丶乂亠口)陽光(フ日小兒)寒暑表(之丶日丶)新世紀(亠 ∠)氧氣( 十 ∠)愛心(丿乂亠F)老頭子(土、∠丶フ)B疊詞——首字取首、底碼,再加第2字及末字的底碼。雙音節(jié)疊詞取3次底碼。例媽媽(∠フフフ)瘦瘦的(廣乂乂フ)靜悄悄( 冂冂)津津有味(丶十十木)轟轟烈烈( 義乂丶)6.一擊與二擊簡碼表由于排列組合的可能性,可以在4碼空間之外安排26個“一擊簡碼”和262個“二擊簡碼”,這些代碼由于擊鍵次數(shù)少而具有極高的輸入效率。
一擊簡碼共26個字。我們選擇了使用頻率和使用度綜合水平最高的漢字。收入一擊簡碼表的漢字只要按規(guī)定的鍵位擊一次鍵,然后擊空格健即可輸入,所以有最高的輸入效率。統(tǒng)計表明,收入一擊筒碼表的26個漢字,占有25.8%的使用頻率。其中,單是“的”一個字的使用頻率就高達4.2%,是使用得最多的漢字。
收入二擊簡碼表的漢字是從各個不同的首、底碼分區(qū)內選取的。它們絕大部分是該區(qū)內使用度最高的單音節(jié)詞,但也有少數(shù)字按使用頻率選擇。每個收入二擊簡碼表的漢字,只需輸入它的首、底碼然后擊空格鍵即可。它們又分簡體與繁體兩種不同的表。簡體的二擊簡碼表收字578個。統(tǒng)計結果表明,收入二擊筒碼表的漢字占有41.8%的使用頻率。所以,一個1、4碼為首、底碼的字,其正常的減碼順序是先減3,后減2,最后才輪到首、底碼。但是,有下列各點應注意A先虛后實——有虛碼的字應先棄去虛碼。B先內后外——先減內形碼,后減外形碼;先減靠里的代碼,后減靠外的代碼。
高(亠口冂口)→搞(十、亠口冂)甫( 冂十丶)→鋪(人、 冂丶)C先減非首、底碼,最后才減首、底碼。D與對比字僅有微小差別的字,減碼時要保留“特征碼”。規(guī)則9例外規(guī)定A.凡左右結構的右列為“中、冘、力、乃”者均加虛碼“T”。
枕(木冂兒T)(機F)鐘(人TT)(釙FF)勛(口八クT)(吩F)B.下列16字是應記住的最低限度二擊簡碼(它們在其它結構中也只取首、底兩碼)見以太里 水已受用 思其角族 掏西涼貨C、以下10字一律取首、底碼,再加“F■”;永(之小)州(丶 )勾(丿フ)巴(冂∠)臼(丿山)曷(日フ)言(亠口)韋(フ十)貝(日八)田(冂凵)D.列入重碼字表的重碼字,可以按下列方式改碼以避開重碼A)4碼字減去第3碼加“■”如“攻”(一一乂■)(政一一 乂)B)原加虛碼“F”、“Z”或“■”的3碼字,改用“T”,原用“T”的字改用“■”。如捐(十口冂T)胡(十口冂F)C)右列為“刂”的字虛碼由“F”改“■”。如剄(一一ク■)E以下各字取碼或減碼較特殊雨(一冂丶丶)酉(一冂兒日)武(一 一∠)巨(一フ∠■)水( 小F■)豕(廠小F■)承(フ十十小)非( ■)莽(
如果將一擊與二擊簡碼表所收的漢字綜合計算,它們已占有全部漢字67.6%的使用頻率。由此可見,盡可能地使用一擊與二擊簡碼表,對專業(yè)人員提高工作效率是多么重要。
順便提一下,不要將兩個簡碼表叫作“一級”與“二級”簡碼表,以免與漢字的分級相混淆。“一擊”或“二擊”指的是實碼的擊鍵次數(shù),不包括空格鍵?!兑粨襞c二擊簡碼表》見說明書附圖3)7.重碼率及其計算方法當你在電腦上輸入漢字時,如果一組編碼可能同時代表兩個以上的漢字,便視為重碼。在一組重碼字中,使用頻率有高低之分,為了提高輸入效率,軟件的設置使高頻字直接地輸入,而只有低頻字才真正成為“重碼字”。
重碼率是評價一種編碼方案的重要技術指標,本發(fā)明的重碼率,和目前比較流行的方案比起來,是很低的。它的總重碼率只有1.21%(如果把使用頻率這一因素考慮進來,它的實際值僅萬分之八)。而且,由于鍵碼的靈活性,使重碼字很容易通過改碼來避開重碼。每一個專業(yè)人員都可以將他的常用字中的重碼字直接以改碼輸入(規(guī)則9),所以,使用本發(fā)明的專業(yè)人員在實際操作中可以將重碼率降低到零。
本發(fā)明的重碼字表(簡體)(見說明書附圖4)。它分為5欄。第1欄是0級或1級字間的重碼字,由于這些字都是常用字,所以應當記住它們的改碼,共15字。第2和4欄(■欄)是一組重碼字中有一個已編入了《二擊簡碼表》,總共有7組,專業(yè)人員應該記住這7組二擊筒碼,因此不算重碼。第5欄(X欄)是在一組重碼字中有一個字實際上不會以單字的形式出現(xiàn),如“鷗”字和“鸚鵡”的“鵡”字重碼,而“鵡”是不會單獨使用的(像“鵡”這類只以詞的形式出現(xiàn)的字,稱為“半詞字”)。這類字有37組,由于這一類字的重碼在實際操作中不會出現(xiàn),所以它們不作為重碼字計入統(tǒng)計值中。第3欄是2級字間或2級字與1級字間的重碼字,總共70個字。這類字才是在實際操作中真正會遇到的重碼字。8.各種輸入法綜合述評從排列組合的角度可以知道,可以設計出各式各樣的中文輸入法。所以,現(xiàn)在已經(jīng)有一千多種輸入法申請了專利,是不足為奇的。歸納起來,中文輸入法可以分為3大類,即音碼類、形碼類和音形結合類。
可以用“全拼輸入法”來作為音碼類的代表。它是以漢語拼音方案為基礎的一種輸入法。它的優(yōu)點是輸入規(guī)則簡單,記憶量小,輸入時能與思維(語言)同步。但它有三大致命的缺點。其一是在一個音節(jié)中同音字太多,檢索起來非常難,因此效率難以提高;其二是不會讀的字無法輸入;其三是只能局限在拼音準確的人群中使用,普通話掌握得不好的人用拼音就很困難。所以,這種輸入法多在知識分子中流行。
形碼類的代表作是“五筆字型“輸入法。它是目前使用人數(shù)最多的一種輸入法。它的主要特點是將漢字拆分為130個字根,字根被分區(qū)配置在鍵盤上。形碼不受語音的局限,拆分為字根的做法也較能為中國人所接受。這些正是“五筆字型”較流行的原因。但是,“五筆字型”的架構比較復雜,記億量大,一段時間不用,就會忘記。(這正是許多人轉而去用拼音輸入法的原因。)它有258個重碼字,重碼率偏高。按字根拆字,不可能完全符合筆順,容易對學生產生誤導。這些都是它的缺點。
音形結合碼有各種各樣的方案,但它們大都不能保存前述兩類方案的優(yōu)點,而又不能排除它們的缺點,因此少有廣泛流傳的。
中國是一個大國,語音不可能統(tǒng)一。所以,就漢字輸入法而言,以形碼為基礎的輸入法(它模擬漢字的書寫,只是簡化了過程)應是一個正確的方向。因此,漢字“字母化”便是唯一的出路?!白帜富敝形妮斎敕ㄖ灰竽阏莆?6個鍵碼,10條取碼規(guī)則,便能上機工作。由于鍵碼的靈活性,你無須記住太多的東西。它的重碼率低(實際操作重碼率僅為萬分之一),輸入效率高(單是“一、二擊簡碼表”就占有67.6%的使用領率)。最為重要的一點是,漢字“字母化”是一項系統(tǒng)工程,它將在漢字的各個領域被廣泛應用。漢字實現(xiàn)“字母化”,使?jié)h字產生了有序性,因此,“字母化”的字典便可以直接檢索,其檢索效率比英語字典更高。如果在學校的語文教學中加入漢字“字母化”的學習內容,學生就能掌握“字母化”字典的使用,也能輕松地上機,無需進一步地學習。
計算機“字母化”中文輸入法是一種有廣闊發(fā)展前途的計算機中文輸入法。它從根本上解決了中文方塊字在計算機上輸入難的問題。
權利要求
1一種計算機字母化中文輸入法,其特征在于根據(jù)漢字的偏旁部首,設定26個中文表形字符作為鍵碼,這26個中文表形字符鍵碼分別為一、廠、、十、土、木、、 、小、山、口、日、冂、丿、 、人、八、乂、ク、丶、亠、廣、之、フ、∠,這26個中文表形字符分別設在計算機鍵盤上的26個英文字母鍵上,其取碼規(guī)則為1)每字4碼,不足4碼的補虛碼或擊空格鍵,虛碼有3個,即常規(guī)附加碼、特別碼、綜合結構碼;2)取碼要循筆順;3)變形還原規(guī)則-規(guī)定小變形還原,大變形不還原;4)主題—漢字分成26部,每部都將筆畫數(shù)最多的一個偏旁設為主題,以減少重碼,“主題”只取單碼(首碼),又分為兩類A)始終只取首碼的主題(18個)扌、土、木、艸、忄、山、口、日、月、竹、亻、钅、犭、氵、讠、疒、宀、纟,B)只在左偏旁位置時才取單碼(首碼)的主題(10個)王、石、車、蟲、彳、金、火、魚、言、阝(在左);5)單元字(由一個部件組成的字即為單元字)的取碼;單元字應拆分為更低一級的基礎零件,然后結合鍵碼循筆順連取3碼,再加底碼;6)上下結構的取碼上下結構包括“單疊式”和“復疊式”,在不足4碼時,單疊式用空格鍵,復疊式用特別碼,上下結構的取碼,除部分典型結構按本條的D點取碼外,其余按下述方法取碼A)分層—上下結構是由多個部件豎疊而成,在一般情況下可根據(jù)部件來分層,但如果在結構中含有成字部件(或者說含有一個“子字”),成字部件就應取為一層,而且應取“最大成字部件”為一層(即它也含有“子字”);B)分段一在正確分層的基礎上,從字的最底處將字分為上、下兩段;C)取碼,按下列4種情況取碼a)上段是一個單碼“子字”則下段取首、底兩碼,第四碼虛碼;b)上段只有一個單碼“字符”,下段應取足3碼;c)在一般情況下,上下兩段各取首、底碼,共4碼;d)三元完全相同的“品”字結構,下段均取各元的底碼;D)典型結構依筆順取碼;7)左右結構,左右結構包括并列式和3列式,3列式應看作一個結構加偏旁,所以與并列式的取碼規(guī)則相同,只是并列式在不足4碼時,加常規(guī)附加碼,而3列式加綜合結構碼,當并列結構的左偏旁是主題時,主題取單碼,右列取3碼;8)減碼規(guī)則A)先虛后實—有虛碼的字應先棄去虛碼;B)先內后外—先減內形碼,后減外形碼;先減靠里的代碼,后減靠外的代碼;C)先減非首、底碼,最后才減首底碼;D)與對比字僅有微小差別的字,減碼時要保留“特征碼”;9)例外規(guī)定A)凡左右結構的右列為“中、冘、力、乃”者均加虛碼特別碼;B)下列16字是應記住的最低限度二擊簡碼(它們在其它結構中也只取首、底兩碼)見以太里 水已受用 思其角族掏西涼貨;C)以下10字一律取首、底碼,再加“常規(guī)附加碼或空格鍵”;永(之小)州(丶 )勾(丿フ)巴(冂∠)臼(丿凵)曷(日フ)言 (亠口)韋(フ十)貝(日八)田(冂 凵);D)列入重碼字表的重碼字,可以按下列方式改碼以避開重碼a)4碼字減去第3碼加空格;B)原加虛碼常規(guī)附加碼、綜合結構碼或空格的3碼字,改用特別碼,原用特別碼的字改用空格;C)右列為“刂”的字虛碼由特別碼改空格;10)構詞規(guī)則—每詞4碼,從各字的首、底碼中取碼,首字兩碼,首字若為單碼字,則應補以相應虛碼,詞末的“兒”、“子”均取單碼“兒”、“フ”。
2根據(jù)權利要求1所述計算機字母化中文輸入法,其特征在于這26個中文表形字符鍵碼在計算機鍵盤上所對應的英文字母鍵位為一→Y、廠→F、→T、十→S、土→L、木→M、→I、 →Q、小→O、山→W、口→K、日→E、冂→H、丿→X、 →J、 →R、人→A、八→B、乂→C、ク→V、丶→D、亠→U、廣→Z、之→N、フ→P、∠→G。
3根據(jù)權利要求1所述計算機字母化中文輸入法,其特征在于常規(guī)附加碼設在“F”鍵,特別碼設“T”鍵,綜合結構碼設“Z”鍵。
全文摘要
本發(fā)明公開一種計算機字母化中文輸入法,是根據(jù)漢字的偏旁部首,將漢字拆分為26個中文表形字符作為鍵碼,并對應的設置在計算機輸入鍵盤上的26個英文字母的鍵位上,計算機“字母化”中文輸入法只要求你掌握26個鍵碼,10條取碼規(guī)則,便能上機工作。由于鍵碼的靈活性,你無須記住太多的東西。它的重碼率低(實際操作重碼率僅為萬分之一),輸入效率高(單是“一、二擊簡碼表”就占有67.6%的使用領率)。計算機“字母化”中文輸入法是一種有廣闊發(fā)展前途的計算機中文輸入法,它從根本上解決了中文方塊字在計算機上輸入難的問題。
文檔編號G06F3/023GK1334504SQ0112854
公開日2002年2月6日 申請日期2001年8月13日 優(yōu)先權日2001年8月13日
發(fā)明者熊汝康 申請人:熊汝康