專利名稱:拆半取音漢字輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是一種易學(xué)通用的漢字輸入方法,屬于信息產(chǎn)業(yè)領(lǐng)域中的中文處理技術(shù)。
一、漢字輸入的現(xiàn)狀目前,漢字輸入技術(shù)主要分為鍵盤輸入技術(shù)、手寫輸入技術(shù)、語音錄入和掃描輸入技術(shù)四大類,其中屬鍵盤輸入應(yīng)用最為廣泛。在鍵盤輸入的編碼方案中,大體可分為音碼、形碼、音形結(jié)合碼等幾大類。音碼雖然易學(xué),但還沒有真正克服重碼問題;形碼雖然速度快,但字根多、難學(xué)難記。如何解決以上的矛盾呢?很多專家、學(xué)者和電腦愛好者不斷地進(jìn)行研究和探索,開發(fā)出數(shù)以計百的漢字編碼方案,這些方案雖然各有千秋,但在人們的打字實踐中,有一個共同的感覺“即易學(xué)的打不快,打得快的不易學(xué)”。因而就出現(xiàn)了音形結(jié)合碼,它整合了以上兩種方案優(yōu)缺點。本方案采用的也是音形結(jié)合碼,目前這類編碼方案很多,其中比較典型的有“一碼輸入法”、“一根碼輸入法”和“二筆輸入法”等。
二、本發(fā)明的目的目前已有的漢字編碼方案,易學(xué)易記的則輸入速度慢;輸入速度快的則難學(xué)難記。本發(fā)明的目的,就是要揚長避短,同時達(dá)到既易學(xué)又輸入快速的目標(biāo),使?jié)h字輸入電腦這一難關(guān)真正得到徹底的突破,使中國“萬馬奔騰”的時代變成“一馬當(dāng)先”,并且是“遙遙領(lǐng)先”,讓每個中國人,不管是老人、小孩都能快速、高效、廉價地使用中文輸入法,讓中國的漢字文化永立于世界民族之林。
三、發(fā)明的內(nèi)容本發(fā)明是一種以聲碼為主、形碼為輔,形成優(yōu)勢互補(bǔ)的漢字輸入法,其特征是把每個漢字(除了獨體字外)根據(jù)字體先拆成兩大半,再把第二半再拆分成兩小半(獨體字除外),然后根據(jù)整個漢字的聲母和每一部分能取的最大漢字的聲母或最常用的五種筆畫(橫、豎、撇、點折)的對應(yīng)鍵來構(gòu)成基本鍵位;每個漢字的聲母為第一鍵,第一半能取的最大的漢字的聲母為第二鍵(若第一半不能成字,則取第一半的首筆畫的對應(yīng)鍵,以下相同),第二半的第一小半能取的最大的漢字的聲母為第三鍵,第二半的第二小半能取的最大的漢字的聲母為第四鍵來組合成單字的輸入規(guī)則。
所述的漢字基本筆畫分為橫、豎、撇、點、折五種標(biāo)準(zhǔn)筆畫,除了分別對應(yīng)于“E、I、A、O、V”五個鍵外,還可還簡單地對應(yīng)每個筆畫的漢字名稱的首字母,分別為“H、S、P、D、Z”。這樣處理后,會增加少數(shù)詞組的重碼,則刪去其詞組的編碼。雖有小小的不足,但卻能使得用戶的記憶量變?yōu)椤傲恪?,使輸入更直觀、更具有推廣和實用的價值,而且是在同一套輸入法中實現(xiàn)的,無須切換,兩種代碼均可混合使用(如在輸入詞組時,可以把詞組的第一字的筆畫用前者,第二字的筆畫用后者,不會產(chǎn)生互相影響的結(jié)果),使得輸入漢字變得更輕松、簡單、心想“字”成。這也正是本輸入法的一個優(yōu)點,具有高度的適應(yīng)性。其中,把向左鉤的“豎鉤”歸為“橫筆”;把“捺筆”并入“點筆”;把所有帶轉(zhuǎn)折彎鉤的筆畫(向豎左鉤的除外)都并入“折筆”。
所述的漢字的字體分為(1)獨體字(2)合體字。
四、本發(fā)明的取碼規(guī)則有聲形法、形聲法和首尾法三種,三種共存在于同一個輸入法中,形成優(yōu)勢互補(bǔ)。
(一)、單字1、聲形版A、獨體字=聲母+第一筆+第二筆+最后一筆B、合體字第一鍵取該字的拼音首字母(即聲母)(如“腑”的聲母為F,取F為第一鍵。)
第二鍵取第一半能構(gòu)成最大漢字的聲母,若沒有最大的漢字,則取其第一個筆畫的對應(yīng)鍵。
(如“腑”字第一半為“月”字,取第一半的最大漢字“月”的聲母為“Y”作為第二鍵)第三鍵取第二半的第一小半能構(gòu)成最大漢字的聲母,若沒有最大的漢字,則取其第一個筆畫的對應(yīng)鍵。
(如果第二大半是一個獨體字,則直接取獨體字的聲母作為第三鍵)(如“腑”字的第二半的第一小半為“廣”字,取其聲母“G”作為第三鍵)第四鍵取第二半的第二小半能構(gòu)成最大漢字的聲母,若沒有最大的漢字,則取其最后一個筆畫對應(yīng)鍵。
(若第二大半是一個獨體字,除了第三鍵取其讀音外,第四鍵補(bǔ)最后一個筆畫對應(yīng)鍵)(如“腑”字的第二半的第二小半是“付”字,取其聲母“F”做為第四鍵,但不能取“寸”的聲母作為第四鍵,這違反了“各取最大漢字”的規(guī)定。)2、形聲版即把“聲形版”聲母從第一鍵放在最后一鍵,其他鍵推前。
(如上述的“腑”字的編碼為YGFF)3、首尾版即最后兩鍵取第二部分的第一筆和最后一筆,詞組輸入不變。
(如上述的“腑”字的編碼為FYDD、YDDF、FYOO和YOOF四種均可。
(二)詞組1、兩字詞取每個單字的前兩鍵組成。
2、三字詞取第一字前兩鍵和后一字的第一鍵組成。
3、多字詞取第一、二、三字和最后一字的第一鍵。
(三)取碼規(guī)則1、碼數(shù)每個漢字最多取四碼,不足四碼的加按“空格鍵”補(bǔ)足即可。
2、具體規(guī)則(1)中國的漢字千變?nèi)f化、錯綜復(fù)雜,沒有多大的規(guī)律性,但最少可以知道它們的一個特點就是所有的漢字都是第一半比較小,而第二半比較大的居多,如“輸、格、浙、厚、品、最等等。這樣在編碼時,理應(yīng)把四個鍵平均分布,這樣的編碼體系才能使重碼最低,也才是最合理的。根據(jù)這樣的構(gòu)思每個漢字除了整個字的聲母分配一個鍵位外,剩下的三個鍵位,第一半分配一個鍵位,第二半則分配兩個鍵位,而不是一個鍵位,這是有別于其他以“三碼定字,四碼定詞”的輸入法。這樣每個漢字都先由四碼組成,再來設(shè)置簡碼,這樣可大大降低重碼。
(2)上面所述的取第一半和第二半的第一小半的最大漢字都規(guī)定為取其第一個筆畫及以后幾個筆畫能構(gòu)成的最大漢字的聲母,而不是取該部分中可能存在的最大漢字。所述的取第二半的第二小半是指取其最后一個筆畫及以上的幾個筆畫能構(gòu)成的最大漢字的聲母。(如“鸛”字不能取“隹”的聲母為第一半,而應(yīng)取該第一半的首筆畫作為第一鍵,因為第一筆畫及以后筆畫只能組成一個“艸”字頭,而它不是一個漢字,所以只能取其第一筆畫作為第一鍵)(3)所述的第一半、第二半是這樣來區(qū)分的只有“合體字”才需區(qū)分成兩半,獨體字則無須區(qū)分,直接取其讀音再加上最后一個筆畫的對應(yīng)碼即可。這樣本輸入法的一個關(guān)鍵點就是如何區(qū)分“合體字”的第一半和第二半。具體原則根據(jù)漢字的字型來區(qū)分為A、左右結(jié)構(gòu)左、右各取一半。如“輕、淋、似、鵬”,分別取“車、氵、亻、朋”作為第一半,其它作為第二半。
B、左中右結(jié)構(gòu)“左”部分為第一半,“中右”部分為第二半。如“班、弼、辯”,分別取“王、弓、辛”作為第一半,其余的為第二半。
C、上下結(jié)構(gòu)上、下各取一半。如“寶、壁、窮、熬”,分別取“宀、辟、穴、敖”作為第一半,其余的為第二半。
D、上中下結(jié)構(gòu)“上”部分為第一半,“中下”部分為第二半。如“暴、茶、纂”,分別取“日、艸、竹”作為第一半,其余的為第二半。
E、半包圍結(jié)構(gòu)包圍的作為第一半,被包圍的作為第二半。如“處、閃、氛”,分別其“夂、門、氣”作為第一半,其余的為第二半。
F、全包圍結(jié)構(gòu)比照“半包圍結(jié)構(gòu)”進(jìn)行確定。
G、品字型結(jié)構(gòu)上一部分作為第一半,下面較大的部分作為第二半。如“晶、森、鑫”,分別取上部的“日、木、金”做為第一半,其余的為第二半。
以上的區(qū)分應(yīng)遵循的基本原則為A、“成字優(yōu)先”的原則。如“鵬”字不能取“月”為第一半,而要取“朋”為第一半。因為,后一個“月”不能和“鳥”字組成一個漢字,而前兩個“月”字可以組成“朋”字。
A、“先小后大”的原則。如“淋”字的前兩部分可組成“沐”,后兩部分可組成“林”字,根據(jù)這一原則和“成字優(yōu)先”的原則,應(yīng)取“氵”為第一半。
(4)所述的若沒有最大漢字則取其第一筆畫或最后一個筆畫的問題?,F(xiàn)舉例說明如“編”字的第一鍵取其聲母為“B”;第二鍵取第一半的“纟”,但“纟”不是一個漢字,且第一筆畫及以下也不能組成一個漢字,所以應(yīng)取其第一筆畫“折筆”,為“Z”鍵或“V”鍵;第三鍵取第二半的第一小半為“戶”字的聲母“H”;第四鍵取第二半的第二小半,但第二半的第二小半不是一個漢字,且最后一筆畫及以上也不能組成一個漢字,所以應(yīng)取其最后一個筆畫“豎筆”,為“S”鍵或“I”鍵均可。
(5)所述的若第二大半是一個獨體字,除了第三鍵取其讀音外,第四鍵補(bǔ)最后一個筆畫對應(yīng)鍵的問題?,F(xiàn)舉例說明如“村”字的第一鍵為聲母“C”;第二鍵為第一半的漢字“木”的聲母“M”組成;第三鍵取其第二半,但第二半為“寸”已經(jīng)是一個獨體字了,所以只取該獨體字的聲母“C”組成;第四鍵再取“寸”字的最后一個筆畫“點筆”,取點筆的對應(yīng)鍵為“D”鍵或“O”鍵補(bǔ)足。
(6)鍵盤圖上字根排列說明把漢字的五種筆畫按“形”排列為一E(26個字母中,只有E、F、T首筆畫為“橫筆”,故取“E”作為橫筆的對應(yīng)鍵。
丨I(26個字母中,I的形狀類似豎筆)丿A(26個字母中,只有A首筆是撇筆)丶O(把字母O縮小一下就是一點)乙V(字母V最接近折筆畫)把漢字的五種筆畫按“音”排列為橫(H)、豎(S)、撇(P)、點(D)、折(Z)(四)高度的容錯功能一個全民能普及的輸入法,至少能適應(yīng)不同人群的使用,有所區(qū)別,如南方發(fā)音和北方的發(fā)音就差別很大,許多南方的朋友,聲母N,L、S,SH、C,CH、Z,ZH普遍分不清楚。這就需要一定的容錯功能。
1、N、L容錯本輸入法可以讓用戶隨意輸入N或L都可以把漢字輸出來。具體舉例說明如下如“怒”字的聲母為“N”,你也可以輸入容錯的聲母“L”。反過來,如果聲母是“L”,你也可以輸入容錯的聲母“N”都可以。不僅容錯到第一個鍵位,而且能容錯到所有的鍵位。如上述的“怒”的編碼可以為NNXD、LNXD、LLXD、NLXD、NNXO、LNXO、LLXO、NLXO。
2、常用部首的容錯有些部首看上去很像一個漢字,如“竹”字頭,“钅”字旁等等。因此對于這些常用的部首可以按正常的打法,取它的第一個筆畫,也可以按容錯的打法,取部首的準(zhǔn)聲母,如“竹”字頭取“Z”;“亻”取“R”“钅”取“J”等等都可以。
3、成字與筆畫間的容錯如“很”字的第一半“彳”是一個漢字,讀音為“chi”,但多數(shù)人會認(rèn)為不是漢字而取其第一筆畫。所以應(yīng)設(shè)置必要的容錯,使其打筆畫也可以,打其漢字的聲母也可以。還有“很”的第二半是一個漢字“艮”,但對于初中生可能較難認(rèn)識其讀音,所以也應(yīng)考慮把它當(dāng)作非漢字的可能,按其第一筆和最后一筆畫來編碼。
(五)方便的查詢鍵本方案采用“?”鍵作為查詢鍵,即不懂其讀音的漢字可以用“?”鍵輸入。這樣和前面所述的“形聲版”形成照應(yīng),“形聲版”是在不懂得整個字的讀音,而采用的不輸入聲母或在最后一鍵輸入聲母來解決難字的輸入。采用“?”鍵是為了中間過程中不懂其讀音的而采用的一種通配鍵。
(六)超高的性能指標(biāo)1、極少數(shù)漢字重碼,通過設(shè)置成二級簡碼、三級簡碼和全碼后,實現(xiàn)了國標(biāo)基本集中的一、二級漢字的唯一編碼,即“零重碼”;超大的詞組量44761條不重碼;多簡碼字(一級26個,二級625個,三級6212個)。
2、除了國標(biāo)一、二級漢字外,還能處理4萬多字的其它非常用或現(xiàn)已不用的漢字,連同國標(biāo)一、二級漢字在內(nèi),共可處理5萬多字的漢字,是目前處理漢字最多的輸入法之一,但非國標(biāo)的重碼率稍高,約為7.3%,但這些都是非常用的漢字。
五、本發(fā)明的優(yōu)點(一)本發(fā)明采用“拆半取音”的方法,把漢字先分成兩半,再把第二半再分成二個小半,且每一大半或小半都是取最大漢字,這樣的重碼率是最少的,輸入也較直觀。如“想”字,先分成“相”和“心”兩半,編碼為“XXXD”(第二半為獨體字的再加最后一個筆畫的對應(yīng)鍵),如果采用“一根碼輸入法”的按小取字的拆法,則為“XMM”,這和“相”的編碼是一樣的,都是“XMM”,增加了重碼,這也是沒有采用“拆半取音”的一個缺點。并且也是“三鍵定字,四鍵定詞”的最大缺點,這樣使得重碼率增多,得不償失。其實先四鍵定字后再設(shè)其簡碼,原理是一樣的,但使得重碼大幅度減少。如在“一碼輸入法”中拆“焊”字的編碼為“HHH”,這樣以“三鍵定字”所形成的重碼是驚人的,如煌(HHH)、焓(HHH)、燴(HHH)、煳(HHH)。但在本輸入方案中,則實現(xiàn)沒有重碼焊(HHRG)、煌(HHBW)、焓(HHJK)、燴(HHPY)、煳(HHGY),如果本方案加上本方案設(shè)置的簡碼后,同樣也可以實現(xiàn)輸入三鍵后即可得出唯一碼,如上述的幾個漢字都取它們的前三碼作為“三級簡碼”同樣不會產(chǎn)生重碼,這正是本輸入法的一大優(yōu)點。
(二)與現(xiàn)有的方案相比,本輸入法采用的是“三部分”都取最大漢字,更具合理性和直觀性。如“駕”的編碼為“JJMH”而“一根碼輸入法”則是“JLK”這樣又和“加”的編碼一樣,都是“JLK”,這樣的情況數(shù)不勝數(shù)。
(三)高度的容錯功能,通過采用聲母N、L互相容錯、常用部首容錯、成字與筆畫間的容錯,使得輸入漢字更加順暢,大大減少了記憶量,使輸入速度得到空前的提高。
(四)實現(xiàn)了“零記憶”的輸入,本輸入法采用的是拆半取最大漢字的讀音,沒有最大漢字取其筆畫的對應(yīng)鍵。這樣根本不需要記憶眾多的偏旁部首的讀音,對于不是漢字的,取該筆畫鍵的聲母對應(yīng)鍵。這也是本輸入法把五種筆畫鍵(橫、豎、撇、點、折)分別對應(yīng)它們的讀音(H、S、P、D、Z),使得輸入時沒有任何需要記憶的。
(五)“聲形法”、“形聲法”、“首尾法”三種輸入方案共處在同一個輸入法中,形成優(yōu)勢互、相輔相成。使輸入更簡單、更快速,難字的拆分呈簡單化,并且,由于本輸入法的“形聲版”不需要輸入聲母(或在最后一鍵加上聲母也可以)就可打出漢字來,這就真正克服了“音碼”的不足,使得不認(rèn)識的字也能方便地打出來。
(六)高度的混合性。在方案中,把五種筆畫按“形”和“聲”分別編碼,任意組合,使輸入更隨意、更輕松。
(七)超低的重碼率,超大量的詞組輸入,能夠?qū)崿F(xiàn)只要是詞組都可輸入,且重碼率幾乎為零。這和“五筆”是不同的。
六
。圖1是本發(fā)明拆字取音漢字輸入法的鍵盤總表。
七、示例1、按“聲形版”編碼獨體字實施例1本=BHSH(按筆畫鍵的聲母)或本=BEIE (按筆畫的形狀對應(yīng)鍵)合體字實施例1娛=Y(jié)NKT或按N、L容錯為YLKT(以下相同)合體字實施例2駕=JJMH(筆畫取聲) 或駕=JJME(筆畫取形)合體字實施例3
警=JJYH(筆畫取聲) 或警=JJYE(筆畫取形)合體字實施例4沒=MDJY(筆畫取聲) 或沒=MOJY(筆畫取形)合體字實施例5編=BZHS(筆畫取聲) 或編=BVHI(筆畫取形)合體字實施例6榜=BMDF(筆畫取聲) 或榜=BMOF(筆畫取形)合體字實施例7綁=BZHS(筆畫取聲) 或綁=BVEI(筆畫取形)合體字實施例8鄙=BKZS(筆畫取聲) 或鄙=BKVI(筆畫取形)合體字實施例9勃=BSZP(筆畫取聲) 或勃=BSVA(筆畫取形)合體字實施例10骨=GSYH(筆畫取聲) 或骨=GIYE(筆畫取形)合體字實施例11賞=SSKB(筆畫取聲) 或賞=SIKB(筆畫取形)合體字實施例12輟=CCSS合體字實施例13襟=JDLS(筆畫取聲) 或襟=JOLS(筆畫取形)合體字實施例14禁=JLEX或禁=JNEX 或禁=JLS或禁=JNS2、聲形法、形聲法、首尾法對比編碼聲形法 形聲法首尾法理=LWLE WLEL LWSH(或LWIE)想=XXXD(XXXO) XXDX(XXOX)XXDD(或XXOO)
權(quán)利要求
本發(fā)明是一種易學(xué)、通用的漢字輸入法。本發(fā)明的主要特征是1、每個漢字根據(jù)字體先拆成兩半,再把第二半再拆成二小半,然后根據(jù)其每一部分能取得的最大漢字的聲母或每一部分的首筆畫(或末筆畫)來組合而成的漢字編碼方案。
2.“形聲法”、“聲形法”和“首尾法”三種編碼方案,共存于同一個輸入法中,相輔相成。
3.把漢字的五種標(biāo)準(zhǔn)筆畫(橫、豎、撇、點、折),按“形”和“聲”分別編碼,相輔相成。按“形”分別對應(yīng)于(E、I、A、O、V)。這幾個字母的首筆畫或形狀類似于五種筆畫,更直觀,記憶更牢固;按“聲”分別對應(yīng)于(H、S、P、D、Z),實現(xiàn)了不需記憶的編碼方案。
4.全方位的容錯功能,適合大眾的需要。
全文摘要
本發(fā)明是一種以聲碼為主、形碼為輔,形成優(yōu)勢互補(bǔ)的漢字輸入法,其特征是:把每個漢字(除了獨體字外)根據(jù)字體先拆成兩大半,再把第二半再拆分成兩小半(獨體字除外),然后根據(jù)整個漢字的聲母和每一部分能取的最大漢字的聲母或最常用的五種筆畫(橫、豎、撇、點折)的對應(yīng)鍵來構(gòu)成基本鍵位;每個漢字的聲母為第一鍵,第一半能取的最大的漢字的聲母為第二鍵(若第一半不能成字,則取第一半的首筆畫的對應(yīng)鍵,以下相同),第二半的第一小半能取的最大的漢字的聲母為第三鍵,第二半的第二小半能取的最大的漢字的聲母為第四鍵來組合成單字的輸入規(guī)則。
文檔編號G06F3/023GK1383053SQ0210864
公開日2002年12月4日 申請日期2002年4月2日 優(yōu)先權(quán)日2002年4月2日
發(fā)明者彭文藝, 余大杭 申請人:彭文藝