專利名稱:漢字四筆畫數(shù)碼查字法的制作方法
漢字四筆畫數(shù)碼查字法是一種把漢字查字法和計算機漢字編碼法合二為一的新型漢字的查字法,它利用組成一個漢字的橫、豎、曲、折四種筆畫的數(shù)目編制而成的漢字四筆畫數(shù)碼來查字,代碼形式為等長4位十進制數(shù),編碼方法十分簡單,編碼時不需記憶和運用任何形-符、音-符轉換關系,一般人對筆畫數(shù)較少的常用漢字不難做到見字得碼,對筆畫數(shù)較多的繁難漢字可采用運算方法來編碼,此碼還可用來查找其它漢字代碼及用來做漢字輔助輸入碼或輸入碼使用。
如所周知,除了區(qū)位碼和電報碼這二種與漢字特征無直接聯(lián)系的漢字序號碼之外,目前已經出現(xiàn)的各種漢字檢索碼和漢字輸入碼都是利用漢字的某些形、音、義特征來進行編碼的,但在對漢字字形特征的利用方面,一般都只利用了漢字的筆畫、部件(字元、字根、構件)和整字這三個層次的形狀特征,還有一個隱含著的字形特征-構成漢字的各種類型筆畫的數(shù)量特征至今還未被人們利用來對漢字進行編碼。
人們都知道,構成一個漢字的筆畫數(shù)是固定不變的,而且都會利用漢字的部首、部件或整字的筆畫數(shù)來對漢字進行檢索(查字),這點是人們非常熟悉的,但對構成一個漢字的各種類型的筆畫的數(shù)目也是固定不變的這一點卻并未引起人們的注意,更未認識到它的價值,能否利用漢字分類筆畫數(shù)這個隱含著的漢字字形特征來對漢字進行編碼呢?這是一個很有趣的很值得人們深入進行探索的課題。
本專利的目的是研究和嘗試解決這個問題,探索利用漢字分類筆畫數(shù)特征對漢字進行分類、編碼和檢索的可能性和具體方法,提供一個十分簡單易學的漢字四筆畫數(shù)碼的編碼方案供人們檢索漢字和其它漢字代碼使用,并指出這種碼雖然編碼速度比較慢,但由于它肯定能夠編得出來,因此可供人們用它作輔助輸入碼使用,輸入一些用其它方法一時無法輸入的漢字(如采用拼音輸入法時,遇到不知其發(fā)音或不知其漢語拼音拼寫方法的漢字時便可用此法),對于不懂漢語拼音又不愿學習其它輸入方法的人,在沒有方法可以輸入漢字的情況下,如有興趣,也可利用它來作輸入碼使用。
下面,為了引起本文讀者對此查字方法的興趣和初步體驗一下這種代碼的易學性和編碼方法,在我們正式介紹這種代碼的編碼方案之前,我們請讀者立即自己來試編幾個字的四筆畫數(shù)碼。
首先,請讀者來編一個“生”字的四筆畫數(shù)碼,請你將它的橫、豎、撇、折這四種筆畫的數(shù)目計算出來,是3、1、1、0嗎?如是,則“生”字的四筆畫數(shù)碼即3110;
其次,請讀者來編一個“盒”字的四筆畫數(shù)碼,請你將它的橫、豎、撇和捺、折這四類筆畫的數(shù)目計算出來,是3、4、2、2嗎?如是,則“盒”字的四筆畫數(shù)碼即3422;
最后,再請讀者來編一個“數(shù)”字的四筆畫數(shù)碼,請你將它的橫、豎、撇(包括捺和點)、折這四類筆畫的數(shù)目計算出來,是3、1、8、1嗎?如是,則“數(shù)”字的四筆畫數(shù)碼即3181。
從以上試編中,讀者可能已經大致明白了四筆畫數(shù)碼的編碼方法,為了檢驗一下讀者理解和掌握的程度,我們現(xiàn)在出個小題目來考考讀者,請讀者用筆將本專利題目“漢字四筆畫數(shù)碼查字法”這10個字的四筆畫數(shù)碼編出來寫在紙上,然后和本段末尾那行代碼相對照,看看是否相同,如全部或大部分相同,說明你已經基本上學會了本代碼的編碼方法,用此法,你已經有可能獨立地將任意一個漢字的四筆畫數(shù)碼編制出來了!
0041112211124051330231813113422111222141下面,我們來系統(tǒng)地介紹一下漢字四筆畫數(shù)碼的編碼方案。
漢字是由若干種基本筆畫組成的,按照《印刷通用漢字字形表》的劃分方法,漢字的筆畫一共有33種,本編碼方案為了使編碼時更容易對筆畫進行分類,將其中的提(挑)筆按下述三種情況再分為3種(1)橫提筆與水平線夾角小于45°角的較平提筆,如孑、刁、習、勻、蟲、或、禺、卸、邶、戥等字和工、土、扌、王、纟、立、牜、車、耳、豆、、馬、魚等部首中的提筆;
(2)尖提筆二點水冫和三點水氵部首中的提筆;
(3)點提筆和其它點筆一起出現(xiàn)的較短提筆,如兆、水、求、隸、羽、丬、疒等字和部件中的提筆。
本方案為了企求得到4位十進制數(shù)字形式的代碼,將以上35種筆畫分為橫、豎、曲、折四大類,如表一所示,分類方法如下1.橫畫類包括橫筆和 橫提筆;
2.豎畫類包括豎筆和 豎鉤筆;
3.曲畫類包括全部撇 筆、捺筆和點筆及尖提 筆和點提筆;
4.折畫類包括除豎鉤 筆之外的全部帶折筆畫。
將第3類筆畫稱為曲畫的原因是該類筆畫均具有彎曲的形狀。
本方案根據構成一個漢字的上述四種類型的筆畫的數(shù)目來進行編碼,故將代碼稱為四筆畫數(shù)碼(可簡稱為四筆數(shù)碼或筆數(shù)碼),它的一般形式為Y4Y3Y2Y1,其中Yi(i=1~4)的取值范圍為0~9,編碼法則十分簡單,僅以下二條1.當各類筆畫數(shù)<10時,Y4的值等于橫畫的數(shù)目;
Y3的值等于豎畫的數(shù)目;
Y2的值等于曲畫的數(shù)目;
Y1的值等于折畫的數(shù)目。
例如“書”字,橫畫0、豎畫1、曲畫1、折畫2,故其四筆畫數(shù)碼為0112;
“筆”字,橫畫4、豎畫0、曲畫5、折畫1,故其四筆畫數(shù)碼為4051;
“張”字,橫畫2、豎畫0、曲畫2、折畫3,故其四筆畫數(shù)碼為2023。
2.當某類筆畫數(shù)≥10時,采用進位方式來編碼,將進位數(shù)加到后一碼位數(shù)上去,Y4的進位數(shù)則予以舍棄。
例如“鼷”字,橫畫4、豎畫1、曲畫12、折畫6,故其四筆數(shù)碼為4226;
“疆”字,橫畫10、豎畫5、曲畫0、折畫4,故其四筆畫數(shù)碼為0504。
四筆畫數(shù)碼的編碼方法不僅可用來對全部國標一、二級漢字進行編碼,也可以用來對部首和部件(字元、字根、構件)及某些標點、運算、單位等圖形符號及繁異體漢字進行編碼,方法相同,因而可以混用,只是在對標點和其它圖形符號進行編碼時,需對筆畫的分類附加一些規(guī)定,這里我們不作詳述。
四筆畫數(shù)碼有一個重要和有用的性質,即一個字的四筆畫數(shù)碼等于組成該字的各個部件的四筆畫數(shù)碼之和,利用這一性質,可以由部件的四筆畫數(shù)碼通過加、減、乘、除(主要是加和乘)等簡單四則運算來求繁難漢字的四筆畫數(shù)碼。
例如“理”字由“王”、“里”二部件組成,“王”、“里”的四筆畫數(shù)碼為3100和4201,則“理”字的四筆畫數(shù)碼=3100+4201=7301;
“森”字由3個“木”部件組成,“木”的四筆畫數(shù)碼為1120,則“森”字的四筆畫數(shù)碼=1120×3=3360;
“飚”字由3個“火”和一個“風”部件組成,“火”和“風”的四筆畫的數(shù)碼為0040和0031,則“飚”字的四筆畫數(shù)碼=0040×3+0031=0120+0031=0151。
利用上述方法對漢字進行編碼,必然會出現(xiàn)重碼,筆者對全部6763個一、二級漢字進行了編碼,所得重碼情況如下在總共10000個代碼中,有字代碼有1671個,代碼值最小的有字代碼為0001(“乙”字),代碼值最大的有字代碼為9833(“罐”字),其中無重碼字代碼有686個,占有字代碼總數(shù)1671的大約41%,重碼字數(shù)在10個以下的代碼(包括無重碼字代碼)一共有1511個,占有字代碼總數(shù)1671個的大約90%,重碼字數(shù)在11~20個的代碼有126個,約占有字代碼總數(shù)1671的7.5%,重碼字數(shù)在21~30個的代碼有33個,重碼字數(shù)在31個以上的代碼只有1個,此代碼為2142,它有34個重碼字。
四筆畫數(shù)碼的重碼字雖然仍然偏多,但作為檢索碼使用,比部首檢索要好得多,和漢語拼音檢索相比情形也要好一些。為了進一步的提高檢字速度,在本方案中,重碼字按照部首的筆畫數(shù)的順序來排序,并給每一個重碼字序號Z2Z1,而且為了區(qū)分多音字的不同發(fā)音,排序時給多音字每一種發(fā)音一個不同的序號,因此可組成一種無重碼的6位十進制數(shù)字形式的音形二用的四筆畫數(shù)碼Y4Y3Y2Y1Z2Z1,利用此碼便可唯一地將發(fā)某音的某字檢索出來,例如“差”字,它的四筆畫數(shù)碼Y4Y3Y2Y1為5130,發(fā)chāi音的“差”字的重碼字序號Z2Z1為00;發(fā)chāi音的“差”字的重碼字序號Z2Z1為01;發(fā)chāi音的“差”字的重碼字序號Z2Z1為02;發(fā)cī音的“差”字的重碼字序號Z2Z1為03,則由513000、513001、513002、513003便可分別將發(fā)上述各音的“差”字檢索出來(見表二)。
四筆畫數(shù)碼的編碼方法也可用來對詞語進行編碼,但這方面的具體編碼工作筆者還未開始進行,初步考慮可采用如下方法來進行編碼。
四筆畫數(shù)詞語碼的形式可取5位十進制數(shù),一般形式可表示為X1Y4Y3Y2Y1,其中X1為詞語的字數(shù)碼,字數(shù)<10時,X1=1~9,字數(shù)≥10時,X1=0,Y4Y3Y2Y1為詞語的四筆畫數(shù)碼,取值方法不同于字碼,分以下二種情形1.字數(shù)≤5時,Y4、Y3的值等于第1個字的橫畫和豎畫數(shù);Y2、Y1的值等于最末1個字的曲畫和折畫數(shù),如“機器”的四筆畫數(shù)詞語碼為21134;
“打字機”的四筆畫數(shù)詞語碼為33231;
“標點符號”的四筆畫數(shù)詞語碼為43202;
“中國科學院”的四筆畫數(shù)詞語碼為51233;
2.字數(shù)≥6時,Y4、Y3、Y2的值分別等于第1、第2、第3個字的橫畫、豎畫、曲畫數(shù),Y1的值等于最末一個字的折畫數(shù),如“中華人民共和國”的四筆畫數(shù)詞語碼為71221;
“計算機漢字輸入技術”的四筆畫數(shù)詞語碼為91230;
“世上無難事,只怕有心人”的四筆畫數(shù)詞語碼為02110;
“信息交換用漢字編碼字符集”的四筆畫數(shù)詞語碼為04150。
詞語碼編碼時如筆畫數(shù)≥10,也采用進位方式來編碼,和字碼一樣,Y4的進位數(shù)也予以舍棄。
由以上介紹可知,詞語碼的編碼法則中包含了字碼的編碼法則,當X1=1時,詞語碼編碼法則自動轉化為字碼的編碼法則,每一個字均可當作為一個單字詞語來處理,這一性質,為字、詞語碼的混用提供了可能性,混用時,只需在字碼之前加“1”,使其變?yōu)閱巫衷~語碼即可。
為了區(qū)分重碼詞語,也可給每一個重碼詞語一個重碼詞語序號Z2Z1,于是可構成一個7位十進制數(shù)字形式的無重碼四筆畫數(shù)詞語碼X1Y4Y3Y2Y1Z2Z1,這時任一漢字和詞語便可唯一與一個7位十進制數(shù)字對應,由這串數(shù)字便可直接將任一漢字及其發(fā)音或詞語檢索出來。同碼詞語序號Z2Z1可按不同方式來排序,如可按專業(yè)類別來排序,Z2代表類別,Z1代表同類別序號。
作為查字法使用,漢字四筆畫數(shù)碼查字法和現(xiàn)有的部首查字法、漢語拼音查字法、四角號碼查字法及新近出現(xiàn)的筆畫編碼查字法相比,具有以下一些優(yōu)點1.編碼法則極為簡單,使用者不必知道一個字的部首和筆順,不必知道一個字的發(fā)音和漢語拼音,編碼時不需記憶和運用的任何形-符、對應轉換關系(這點是它的最大優(yōu)點),只需知道一個字的正確寫法和筆畫的區(qū)分方法便可進行編碼,是一種不需要學習和記憶便可使用的查字法;
2.分類筆畫的數(shù)目只要筆畫類型判斷無誤(做到這點并不困難)是一定可以求得出來的,因此一個字的四筆畫數(shù)碼是一定可以編出來的,不會發(fā)生查不出字或要花很長時間才能找到所需字的情形,分類筆畫數(shù)的計算貌似困難,其實并不困難,大多數(shù)筆畫數(shù)較少的常用字經過一段時間使用后一般人不難做到見字得碼,筆畫數(shù)較多的繁難漢字可不必直接進行筆畫計數(shù),可采用加、乘運算方法來求它的四筆畫數(shù)碼;
3.由于它得碼容易,重碼字相對較少,查字時可一步到位,查字速度比需二步到位的部首檢索和需懂漢語拼音的拼音檢索要快得多;
4.由于它是一種等長4位十進制數(shù)字碼,比較容易記憶,用多了容易記住(尤其是一些部件和常用簡單漢字),故為提高編碼速度提供了潛在可能性。
漢字四筆畫數(shù)碼的具體用途有以下三個方面一、用來做漢字、詞典檢索碼(1)用來做漢字、詞典的輔助檢索碼現(xiàn)有漢字、詞典大都采用部首和拼音索引,如能增加一個四筆畫數(shù)索引,則可大大提高查字速度,尤其對查找部首難辯和不知漢語拼音的字大有好處;
(2)直接按照四筆畫數(shù)碼順序編輯各類漢字、詞典、這類字、詞典不需索引,使用者可按欲查字、詞語的四筆畫數(shù)碼的順序直接找到它們所在的頁數(shù)。
二、用來做其它各種漢字代碼的檢索碼由于漢字四筆畫數(shù)碼十分簡單易求,且一定求得出來,因此可利用它來查找一時記不起來或編不出來的其它漢字代碼,如區(qū)位碼、電報碼、漢語拼音碼等等,可將它們的對應關系印成手冊或存入電腦磁盤供人們隨時查閱和調閱。筆者現(xiàn)已編成了一本“國標一、二級漢字區(qū)位碼和漢語拼音四筆畫數(shù)碼檢索表”,利用此表可由一字的四筆畫數(shù)碼很快找到它的區(qū)位碼和各種不同發(fā)音的漢語拼音,現(xiàn)將其中一小段列于表二供讀者參考。對于不會在電腦上輸入漢字的人,可利用此表,先將擬輸入字或文章譯成區(qū)位碼,然后采用區(qū)位碼輸入法便可將它們輸入電腦。
表二國標一、二級漢字區(qū)位碼和漢語拼音四筆畫數(shù)碼檢索表
三、用來做漢字輔助輸入碼和輸入碼在電腦上也可直接利用四筆畫數(shù)碼來輸入漢字,方法和漢語拼音輸入法基本相同,一般方法是通過擊鍵輸入代碼調出重碼字提示行然后選擇所需字進行鍵入,但它還可增加一種運算編碼輸入功能,下面我們舉幾個例子來介紹一下在計算機上如何使用加、乘運算法來輸入漢字例1如擬輸入“魔”字,直接數(shù)出它的四筆畫數(shù)比較困難,可先輸入“麻”的四筆畫數(shù)碼3260,提示行顯示3260的第1行
注麻1發(fā)mā音,麻2發(fā)má音因“麻”非擬輸入字,不應按“0”或“1”鍵將它鍵入屏幕正文區(qū)(這里我們附帶解釋一下麻1、麻2的用途,它們是供語音處理設備輸入不同發(fā)音的“麻”字使用的,如僅需輸入“麻”的字形,則輸入其中任一個均可),而應按“+”運算鍵,然后再輸入“鬼”的四筆畫數(shù)碼2133,提示行改顯3260+2133=5393的第1行
因“魔”字已出現(xiàn),按“0”鍵即可將它鍵入屏幕正文區(qū);
例2如擬輸入“?!弊?,可先輸入“直”的四筆畫數(shù)碼5201,提示行顯5201第1行
然后按“×”運算鍵和“3”數(shù)字鍵,這時提示行改顯5201×3=5603的第1行
權利要求
1.一種新型漢字四筆畫數(shù)碼查字法,其特征是a.這種漢字四筆畫數(shù)碼查字法利用組成一個漢字的橫、豎、曲、折四種筆畫的數(shù)目編制而成的漢字四筆畫數(shù)碼來查字,代碼形式為等長4位十位制數(shù),一般形式為Y4Y3Y2Y1,其中Yi(i=1~4)的取值范圍為0~9;b.漢字四筆畫數(shù)碼編碼方案將漢字筆畫分為橫、豎、曲、折四大類的分類方法如下①橫畫類包括橫筆和橫提筆,橫提筆指的是與水平線夾角小于45°角的較平提筆,如孑、刁、習、勻、蟲、或、禺、卸、邶、戥等字和工、土、扌、王、纟、立、牜、車、耳、豆、、馬、魚等部首中的提筆;②豎畫類 包括豎筆和豎鉤筆;③曲畫類 包括全部撇筆、捺筆和點筆及尖提筆(二點水冫和三點水氵部首中的提筆)和點提筆(和其它點筆一起出現(xiàn)的較短提筆,如兆、水、求、隸、羽、丬、疒等字和部件中的提筆);④折畫類 包括除豎鉤筆之外的全部帶折筆畫;c.漢字四筆畫數(shù)碼編碼法則為(1)當各類筆畫數(shù)<10時,Y4的值等于橫畫的數(shù)目;Y3的值等于豎畫的數(shù)目;Y2的值等于曲畫的數(shù)目;Y1的值等于折畫的數(shù)目。(2)當某類筆畫數(shù)≥10時,采用進位方式來編碼,將進位數(shù)加到后一碼位數(shù)上去,Y4的進位數(shù)則予以舍棄;d.漢字四筆畫數(shù)碼有一個重要和有用的性質,即一個字的四筆畫數(shù)碼等于組成該字的各個部件的四筆畫數(shù)碼之和,利用這一性質,可以由部件的四筆畫數(shù)碼通過加、減、乘、除(主要是加和乘)等簡單四則運算來求繁難漢字的四筆畫數(shù)碼;
2.根據權利要求1所述的漢字四筆畫數(shù)碼編碼方法,其特征是,這種編碼方法也可用來對漢字詞語進行編碼,四筆畫數(shù)詞語碼的形式可取5位十進制數(shù),一般形式可表示為X1Y4Y3Y2Y1,其中X1為詞語的字數(shù)碼,字數(shù)<10時,X1=1~9,字數(shù)≥10時,X1=0;Y4Y3Y2Y1為詞語的四筆畫數(shù)碼,取值方法不同于字碼,分以下二種情形(1)字數(shù)≤5時,Y4、Y3的值等于第1個字的橫畫和豎畫數(shù),Y2、Y1的值等于最末1個字的曲畫和折畫數(shù);(2)字數(shù)≥6時,Y4、Y3、Y2的值分別等于第1、第2、第3個字的橫畫、豎畫、曲畫數(shù),Y1的值等于最末一個字的折畫數(shù);詞語碼編碼時如筆畫數(shù)≥10,也采用進位方式來編碼,和字碼一樣,Y4的進位數(shù)也予以舍棄。當X1=1時,詞語碼編碼法則自動轉化為字碼的編碼法則,每一個字均可作為一個單字詞語來處理,這一性質,為字、詞語碼的混用提供了可能性,混用時,只需在字碼之前加“1”使其變?yōu)閱巫衷~語碼即可。
3.根據權利要求1和權利要求2所述的漢字四筆畫數(shù)碼和漢字四筆畫數(shù)詞語碼,其特征是,為了區(qū)分重碼字和重碼詞語,可在它們之前附加一個2位十進制數(shù)字形式的重碼字和重碼詞語序號Z2Z1,形成一個無重碼的6位和7位十進制數(shù)字形式的四筆畫數(shù)字碼Y4Y3Y2Y1Z2Z1和四筆畫數(shù)詞語碼X1Y4Y3Y2Y1Z2Z1,重碼字按照部首的筆畫數(shù)的順序來排序,排序時為了區(qū)分多音字的不同發(fā)音,可給多音字每一種發(fā)音一個不同的序號;重碼詞語可按不同方式來排序,如可按專業(yè)類別來排序,Z2代表類別,Z1代表同類別序號。
全文摘要
漢字四筆畫數(shù)碼查字法是一種把漢字查字法和計算機漢字編碼法合二為一的新型漢字查字法,它利用組成一個漢字的橫、豎、曲、折四種筆畫的數(shù)目編制而成的漢字四筆畫數(shù)碼來查字,代碼形式為等長4位十進制數(shù),編碼方法十分簡單,編碼時不需記憶和運用任何形-符、音-符轉換關系,一般人對筆畫數(shù)較少的常用漢字不難做到見字得碼,對筆畫數(shù)較多的繁難漢字可采用運算方法來編碼,此碼還可用來查找其它漢字代碼及用來做漢字輔助輸入碼或輸入碼使用。
文檔編號G06F3/023GK1086327SQ9311836
公開日1994年5月4日 申請日期1993年9月30日 優(yōu)先權日1993年9月30日
發(fā)明者林宇威 申請人:林宇威