形母碼漢字輸入法
【技術領域】
[0001] 本發(fā)明屬于計算機信息處理技術領域,是對漢字形母碼輸入方法的改進。
【背景技術】
[0002] 漢字的編碼是對漢字進行檢索的基本依據。特別是隨著電子計算機應用的普及, 如何通過標準鍵盤上的幾十個按鍵輸入成千上萬個漢字,成為許多人所關注的課題,也出 現了許多種漢字輸入法。
[0003] 各種名目的漢字輸入法,主要可分為兩大類:依照字音編碼和依照字形編碼。依照 字音編碼主要是按照漢語拼音進行漢字輸入,沒有多少創(chuàng)新的空間。這種方法簡單,易于掌 握使用。其缺點是重碼率高,難以提高速度。對于不會漢語拼音和發(fā)音不準確的人難以使 用。所以人們更多考慮創(chuàng)新的方向是依照字形編碼。
[0004] 多少年來,人們設計的屬于計算機信息處理技術領域各種依照字形編碼的漢字輸 入法側重于解決漢字的計算機輸入問題,盡量降低重碼率,減小平均編碼長度。由于漢字結 構的復雜性,各種依照字形編碼的輸入法都比較難學,不宜掌握。
[0005]CN1054448C公開了一種漢字形母碼輸入方法,該方法使用26個字母鍵和10個數 字鍵輸入漢字和詞語的特征編碼信息,具有記憶量小、簡單易學等特點,特別是率先提出了 漢字輸入法要與中文的教學相結合,尤其是與中小學的基礎教育相結合,符合漢字書寫筆 順,因此受到國家有關部門的重視,并在大慶等地教育系統(tǒng)進行推廣的試點工作。
【發(fā)明內容】
[0006] 本發(fā)明的目的是提供一種形母碼漢字輸入法,使用26個字母鍵輸入漢字和詞語 的特征編碼信息,是對漢字形母碼輸入方法的重大改進。
[0007] 本發(fā)明的目的是通過以下技術方案實現的:
[0008] -種形母碼漢字輸入法,包括如下步驟:
[0009] -、將漢字輸入鍵盤時的拆分單元分為基本形母、普通形母和組合形母,其中:
[0010] 1)、基本形母包括26個碼,分配在計算機鍵盤的26個英文鍵名上:
[0011] A:馬、B:貝、C:寸、D:刀、E:人、F:豐、G:弓、H:火、I:匕、J:金、K:可、L:了、M:木、 N:女、0 :口、P:片、Q:犬、R:日、S:水、T:土、U:目、V:山、W:亡、X:小、Y:月、Z:止;
[0012]2)、普通形母包括146個碼,分配在計算機鍵盤的26個英文鍵名上:
UPP;酉:UK;朿:VM;束:0M;
[0041] 二、利用上述基本形母、普通形母和組合形母,進行漢字編碼的方法為:
[0042](一)單字輸入:
[0043] 1)、基本形母單獨成字時,其編碼是:基本形母所在鍵名后加字母V。
[0044] 2)、"蟲"、"已"、Q "、"心"、"王"、"鳥"這六個形母組字時,如果是字的最后一個部 件,且編碼小于四碼,則在末尾附加其末筆畫的編碼。
[0045] 3)、普通形母單獨成字時,其編碼是:普通形母所在鍵名后加字的漢語拼音首字 母;
[0046]特例:
[0047] ①單筆畫普通形母單獨成字時,不加漢語拼音首字母。
[0048] ②"〇、一、四、五、七、八、九、兒"單獨成字時,屬"一級簡碼",不再保留附加漢語拼 音首字母的全碼形式。
[0049]③普通形母中有一些在現代漢語中不單獨成字,而只用做偏旁部首,如、 孑八、等,對于這些字,只能按單筆畫編碼。
[0050] 4)、兩碼組成一字時,其編碼是:輸入兩碼所在鍵名的字母。對于一部分常用字可 以在兩碼后附加字的漢語拼音首字母以避免重碼的選擇。
[0051] 5)、三碼組成一字時,其編碼是:輸入三碼所在鍵名的字母。
[0052] 特例:由三個相同的基本形母或普通形母構成的"品字形"的字,要附加末筆畫編 碼。
[0053] 6)、四碼組成一字時,其編碼是:輸入四碼所在鍵名的字母;
[0054]7)、超過四碼組成一字時,其編碼是:輸入"首、二、中、末"四碼所在的鍵名。
[0055] (二)詞組輸入:
[0056] 1)、對于由兩個字組成的詞組,依次取每個字的首、末碼;
[0057]2)、對于由三個字組成的詞組,依次取前兩個字的首碼和第三個字的首末碼;
[0058] 3)、對于由四個或四個以上字組成的詞組,依次取前四個字的首碼;
[0059](三)簡碼輸入:
[0060] -級簡碼:包括"一、快、看、他、她、它、不、把、吧、沒、每、嗎、四、想、要、否、非、發(fā)、 更、該、給、來、里、啦、五、子、在、兒、如、若、你、能、呢、的、地、得、六、為、無、旁、將、第、從、 除、此、比、以、及、七、都、走、我、〇、著、和、還、或、是、所、說、八、做、作、學、些、謝、去、卻、 請、因、出、國、九、既、就、也、有、呀"78個最常用的字。它們大部分是按字的漢語拼音的首 字母定義其編碼,有少數是按字的韻母字母定義其編碼,或根據字的編碼包含的形母的字 母定義其編碼。
[0061] 本發(fā)明具有如下優(yōu)點:
[0062] 1、漢字輸入與漢語學習相結合。
[0063] 本輸入法不僅適合用于漢字輸入,而且適應漢語教學,特別是中小學基礎教育。它 的拆分、編碼完全符合漢字的部件組成及筆順,符合漢字的字理。
[0064] 2、本輸入法的設計完全考慮到符合國家標準的規(guī)定。主要有:
[0065] 識字教學用通用鍵盤漢字字形輸入系統(tǒng)測評規(guī)則(教育部規(guī)GF-2011);
[0066] 信息技術通用鍵盤漢字輸入通用要求(國標GB/T19246-2003);
[0067] 現代常用字部件及部件名稱規(guī)范(教育部規(guī)范GF0014-2009);
[0068] 現代漢語通用字筆順規(guī)范(語委會1997);
[0069]GB13000. 1字符集漢字筆順規(guī)范(語委會GF3002-1999)。
[0070] 3、簡單易學。
[0071] 本輸入法選擇26個筆劃簡單、有代表性、組字頻率高的漢字部件作為組字的碼 元,在本輸入法中稱之為"基本形母"。根據這些字的漢語拼音特性,對應定在鍵盤上的26 個英文字母鍵上,學者只需要幾分鐘就可以記住了。
[0072] 根據26個基本形母,通過"形"、"音"、"義"的聯想,將其它常用字部件做出了衍伸 的定義,稱為"普通形母"和"組合形母"?!冬F代常用字部件及部件名稱規(guī)范》中所收錄的漢 字部件共有514個。對于"普通形母"和"組合形母",需要做一點必要的學習和練習,但不 必死記硬背,通過"形"、"音"、"義"的聯想,很容易掌握。用本輸入法對漢字拆分、編碼和錄 入,就很容易實現了。
[0073] 4、本輸入法所定義的形母全部是規(guī)范的漢字部件,這是其它很多種漢字輸入法, 包括原始版本的形母碼輸入法所未能做到的。這對于學者準確地認識漢字的結構、字理是 很有好處的。
[0074] 5、本輸入法對漢字的拆分、編碼,完全符合漢字書寫筆順的規(guī)范,這對于正確地學 會漢字的書寫是很有益的。
[0075] 除了使用本輸入法設計的編碼對漢字進行輸入之外,同時也可以使用單筆畫的方 式進行漢字輸入。兩種方法可以根據自己的習慣任意混合交替使用。這既可以解決初學 者遇到不會拆分的漢字無法輸入的問題,又為學習漢字的人提供了練習漢字書寫筆順的環(huán) 境。
[0076] 6、按照國標GB/T19246-2003的規(guī)定,使用26個字母鍵輸入漢字和詞語的特征編 碼信息,這是對形母碼輸入法(CN1054448C)的重大改進(CN1054448C使用26個字母鍵和 10個數字鍵輸入漢字和詞語的特征編碼信息)。
[0077] 7、本輸入法根據所包含的字符集的不同又分為三個版本。
[0078] 首先是以國標GB2312《信息交換用漢字編碼字符集》收錄的6, 763個漢字為基礎, 又根據2013年國家最新頒布的《通用規(guī)范漢字表》8, 105個漢字做了補充,也保留了 1988 年版《現代漢語通用字表》中的字,即《信息交換用漢字編碼字符集》、《通用規(guī)范漢字表》和 《現代漢語通用字表》的并集,共計8, 243個漢字。
[0079] 在此基礎上簡化出一個子集,只包括《通用規(guī)范漢字表》中一級字表的3, 500個常 用漢字的版本。它適合于初學漢語的人使用。
[0080] 在此基礎上又收集了國標GB18030-2000規(guī)定的27, 533個漢字(包括部首、部件 等),合起來編制成共計27, 719個漢字的版本。它適合要求使用繁體字、異體字的人。
[0081] 本輸入法為提高漢字錄入的速度,還收錄了常用詞匯約5萬條。
[0082] 8、平均碼長和重碼率。
[0083] 對于8, 243字符集的版本,本輸入法收錄的字、詞共57, 977條,計135, 696字,將 全部字詞錄入一遍,共需擊鍵282, 230次(包括重碼選擇的輔助信息輸入擊鍵),計算出平 均碼長為2. 080鍵/字。
[0084] 選擇議論文、散文、詩歌、故事等幾種體裁的文章共9篇,11,107個漢字(所有漢字 都在國標GB2312范圍內,不分段,無標點,無疑難字,無特殊符號,無專業(yè)術語),將全部資 料錄入一遍,共擊鍵23, 767次(包括重碼選擇的輔助信息輸入擊鍵),計算出