專(zhuān)利名稱(chēng):漢語(yǔ)識(shí)字碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及漢字微機(jī)西文編碼,是以漢字偏旁形體識(shí)讀或筆畫(huà)名稱(chēng)在漢語(yǔ)拼音中的聲母或韻腹組合的一種三鍵漢字編碼。
已有的漢字微機(jī)西文編碼一般都采取先“拆分”漢字,后編碼的辦法,存在以下缺陷一.對(duì)漢字“拆分”的隨意性,這不僅破壞了漢字的原有結(jié)構(gòu),而且“拆分”出來(lái)的“字根”并不是漢字的“根”,正因?yàn)樵凇安鸱帧睗h字時(shí),不顧漢字自身結(jié)構(gòu)特點(diǎn),隨意亂拆,至使在不同的編碼中,對(duì)同一個(gè)漢字有不同的“拆分”。
二.在給漢字拆分出來(lái)的“字根”進(jìn)行西文編碼時(shí),不同的編碼程序?qū)Σ鸪鰜?lái)的相同“字根”又可隨意給出一個(gè)不同的西文碼。
所以,已有漢字微機(jī)西文編碼每一種都要錄入者硬記一些編碼規(guī)則,這就給漢字輸入帶來(lái)不便。
本發(fā)明的目的,是為了克服已有漢字微機(jī)西文編碼對(duì)漢字拆分的隨意性,而專(zhuān)門(mén)設(shè)計(jì)的一種把漢字編碼與識(shí)字教學(xué)有機(jī)聯(lián)系起來(lái)的,拆分漢字科學(xué)規(guī)范,錄入者無(wú)需編碼知識(shí),易學(xué)易記的快速便捷錄入的漢語(yǔ)識(shí)字碼。
本發(fā)明注重漢字編碼的科學(xué)性,把漢字編碼與識(shí)字教學(xué)統(tǒng)一起來(lái),漢字編碼拆分出來(lái)的“字根”,正是識(shí)字教學(xué)過(guò)程中對(duì)漢字結(jié)構(gòu)的分析。這樣識(shí)字教學(xué)為微機(jī)西文編碼打下了基礎(chǔ)。同時(shí),識(shí)字碼又利用漢字字形與字音的對(duì)應(yīng)關(guān)系轉(zhuǎn)換西文碼,這為推廣普通話打下了良好的基礎(chǔ)。
本發(fā)明有單音節(jié)詞(單字),雙音節(jié)詞(兩個(gè)詞)和多音節(jié)詞(多字詞)三種編碼。
一.單音節(jié)詞(單字)取碼方法單音節(jié)詞(單字)以3個(gè)西文字母或符號(hào)給出一個(gè)單音節(jié)詞(單字)的西文碼。西文字母的確定以漢字偏旁(含部首)在漢語(yǔ)拼音中的聲母或筆畫(huà)名稱(chēng)的聲母為依據(jù)。這又可分為合體字取碼方法和獨(dú)體字取碼方法兩種(一).合體字取碼方法合體字先按結(jié)構(gòu)拆分為兩個(gè)成字偏旁(含常用部首),并按偏旁在漢語(yǔ)拼音中的讀音聲母各取一碼作為該合體字的第一、二碼。然后將第二個(gè)偏旁再拆分成兩個(gè)子偏旁,取最后一個(gè)子偏旁的讀音聲母作為該合體字的第三碼。例如“吳”,先拆分成“口、天”,取“口”字的聲母K、“天”字的聲母T作為“吳”字的第一、二碼;然后將“天”字再拆分成“一、大”兩個(gè)子偏旁,取第二個(gè)子偏旁“大的聲母D作為“吳”字的第三碼。最后得出“吳”字的編碼KTD。又如“侍”,先拆分成”、寺”得第一、二碼R、S;再將“寺”拆分成“土、寸”的取“寸”的聲母C作為“侍”的第三碼。最后得出“侍”字的編碼RSC??偨Y(jié)為合體字編碼=第一偏旁聲母+第二偏旁聲母+第二偏旁拆分后的第二個(gè)子偏旁聲母在合體字中,有些字只能作一次一分為二的拆分。一次拆分后的第二個(gè)偏旁無(wú)法再進(jìn)行拆分,如“銀”字的“艮”旁、“紅”字的“工”旁,其第三碼依該偏旁在漢語(yǔ)拼音中的韻腹來(lái)確定?!棒蕖钡捻嵏篂镋,“I”的韻腹為0,由此“銀”字的編碼為JGE,“紅”字的編碼SG0??偨Y(jié)為合體字編碼=第一偏旁聲母+第二偏旁聲母和韻腹(二)獨(dú)體字取碼方法獨(dú)體字無(wú)法拆分出偏旁來(lái),本發(fā)明根據(jù)筆畫(huà)名稱(chēng)的讀音聲母編碼。橫[一],與其它筆畫(huà)不相交時(shí),認(rèn)作“一”,取“一”的聲母Y。與其它筆畫(huà)相交時(shí),取“橫”的聲母H;豎[丨],其形狀與西文字母i的大寫(xiě)相同,取西文字母I;撇[丿],取“撇”的聲母P;捺[],取“捺”的聲母N;點(diǎn)[、],取“點(diǎn)”的聲母D;折[、乙、 ],西文字母V也是折筆形,故取V字母轉(zhuǎn)換獨(dú)體字中的折筆形。橫鉤[乛]、豎鉤[亅]等均看成折筆形。不足3畫(huà)的用空格鍵補(bǔ)一鍵;超過(guò)3畫(huà)的取第一、二畫(huà)和最末一畫(huà)。
二.雙音節(jié)詞(兩字詞)取碼方法雙音節(jié)詞(兩字詞)編碼是以5個(gè)西文字母或符號(hào)給出一個(gè)雙音節(jié)詞的西文編碼。它的方法是一個(gè)詞的兩個(gè)字分別按其偏旁各拆分成兩個(gè),然后以第一個(gè)字的兩個(gè)偏旁讀音聲母作為該詞的第一、二碼,以第二個(gè)字的兩個(gè)偏旁讀音聲母作為第四、五碼,第三碼一律用短橫[一]。例如“百姓”,“百”字拆成“一、白”,“姓”字拆成“女、生”,然后取“一、白、女、生”四個(gè)偏旁的讀音聲母Y、B、N、S,作為“百姓”一詞編碼的第一、二、四、五碼。第三碼用短橫[一],得YB-NS,即為“百姓”一詞的編碼??偨Y(jié)為雙音節(jié)詞編碼=第一個(gè)字的兩個(gè)偏旁讀音聲母+一+第二個(gè)字的兩個(gè)偏旁讀音聲母。
三.多音節(jié)詞取碼方法多音節(jié)詞編碼分三音節(jié)詞和四音節(jié)詞(含四音節(jié)以上的詞)兩種。它也是以5個(gè)西文字母或符號(hào)給出一個(gè)多音節(jié)詞的西文編碼。
(一)三音節(jié)詞取碼方法三音節(jié)詞采取先直接識(shí)字,然后再將該詞的第三個(gè)字依其偏旁拆分為二,即取該詞三個(gè)字的讀音聲母為第一、二、四碼,取第三個(gè)字拆分后第二個(gè)偏旁讀音聲母為第五碼,第三碼一律用P。例如“千里馬”一詞,先取該詞三個(gè)字的聲母Q、L、M作為該詞的第一、二、四碼。然后再拆分該詞最后一個(gè)字“馬”?!榜R”字是一個(gè)獨(dú)體字,末筆是“一”,取“一”的聲母Y為第五碼。第三碼為P,得QLPMY,即為“千里馬”的編碼??偨Y(jié)為三音節(jié)詞編碼=第一、二字的聲母+P+第三字的聲母+第三字拆分后第二個(gè)偏旁的讀音聲母(二)四音節(jié)詞(含四音節(jié)以上的詞)取碼方法四音節(jié)以及四音節(jié)以上的詞采取直接識(shí)字的方法,即取該詞的四個(gè)字的聲母(四音節(jié)以上的詞只取前四個(gè)字的聲母)作為該詞的第一、二、四、五碼,第三碼一律用P??偨Y(jié)為四音節(jié)詞編碼=第一、二字的聲母+P+第三、四字的聲母四.簡(jiǎn)碼識(shí)字碼在編了單音節(jié)詞、雙音節(jié)詞和多音節(jié)詞的同時(shí),還編了一些簡(jiǎn)碼,以便提高輸入速度。
一.對(duì)分布在24個(gè)聲母(含零聲母)中的使用頻率分別為該聲母字中第一位的24個(gè)最常用漢字,確定為兩鍵簡(jiǎn)碼,即該字的聲母加空格鍵。如“的”的簡(jiǎn)碼是D□(□代表空格鍵),“了”的簡(jiǎn)碼為L(zhǎng)□等。
二.對(duì)于單純?cè)~,組成該詞的第一個(gè)字不與其它字組合成詞,也不單用,使用識(shí)字碼只需輸入第一個(gè)漢字的漢語(yǔ)拼音便可得出該單純?cè)~的簡(jiǎn)碼。如“蜻蜒”一詞中的“蜻”字編碼為CQU、“蜒”字的編碼為CTJ,該詞的簡(jiǎn)碼為CQU,即只要輸入“蜻”字的編碼即可得到“蜻蜒”一詞的輸入效果,省略了第二個(gè)字的編碼。
由上可知,“蜻蜒”一詞,識(shí)字碼為它共編了三種碼。用單音節(jié)詞輸入它,“蜻蜒”一詞的編碼為CQUCTJ;用雙音節(jié)詞輸入它,其編碼為CQ-CT;用簡(jiǎn)碼輸入它,其編碼為CQU。三個(gè)編碼可供錄者選用。此外用四音節(jié)詞輸入“蜻蜒點(diǎn)水”一詞,其編碼為QTPDS。
本發(fā)明有以下特點(diǎn)一.科學(xué)本發(fā)明的科學(xué)性表現(xiàn)在拆分漢字的科學(xué)性和確定西文碼符合漢語(yǔ)特點(diǎn)等幾方面。
從拆分漢字方面說(shuō),依漢字原有結(jié)構(gòu)及其層次拆分漢字。多數(shù)漢字是合體字,由偏旁組合而成。組合的方式一般為上下、左右、內(nèi)外等,是什么結(jié)構(gòu)依什么結(jié)構(gòu)來(lái)拆分。在拆分漢字時(shí)不僅注意到了結(jié)構(gòu)方式,還注意到了結(jié)構(gòu)的層次性。在確定西文碼方面,本發(fā)明注意到了人們掌握編碼元素的普及性。不把需要編碼的單字讀音聲母作編碼的第一碼或末尾碼,是考慮到大多數(shù)人都沒(méi)有完全掌握六千多個(gè)常用和次常用字,特別是3008個(gè)次常用字。至于多音節(jié)詞直接用單字的聲母編碼,一方面常用詞中的生僻字不多,另一方面,對(duì)不能掌握多音節(jié)詞的聲母者,可用單音節(jié)詞和雙音節(jié)詞的編碼。
在6763個(gè)常用字和歡常用字中,用3個(gè)西文碼編一個(gè)漢字碼是最經(jīng)濟(jì)最科學(xué)的。把漢字西文編碼分布在26個(gè)字母上,若每碼為2個(gè),只有262=676個(gè),無(wú)法覆蓋6763個(gè)字;若每碼為3個(gè),263=17576個(gè),完全可以容納6763個(gè)字;若每碼為4個(gè),則有264=456976個(gè)。用四十多萬(wàn)個(gè)不相同編碼來(lái)容納六千多字,又顯得太浪費(fèi)。
對(duì)于詞組,用5個(gè)西文碼編一個(gè)詞,其中第3碼一律用短橫[一]或P字母,是為了在微機(jī)輸入時(shí)不換擋,又不造成與單字輸入混淆。如果將這一碼忽略不計(jì),實(shí)際只有四碼即編一個(gè)詞組,一共編了約四萬(wàn)五千個(gè)詞組。四十多萬(wàn)個(gè)編碼容納四萬(wàn)多詞組的編碼也是既經(jīng)濟(jì)又科學(xué)的。
識(shí)字碼中的簡(jiǎn)碼,也是根據(jù)漢語(yǔ)特點(diǎn)及其運(yùn)用規(guī)律來(lái)確定的,都有其科學(xué)依據(jù)。如給24個(gè)單字編簡(jiǎn)碼,是根據(jù)國(guó)家有關(guān)方面的統(tǒng)計(jì)得出并分布在24個(gè)字母之中,而不是憑估計(jì)、隨意挑選的。至于單純?cè)~的簡(jiǎn)碼更是根據(jù)漢語(yǔ)單純?cè)~的構(gòu)詞特殊性來(lái)編碼的。
二.規(guī)范本發(fā)明的編碼不是任意的、人為的確定,而是按漢語(yǔ)的文字特點(diǎn)來(lái)編碼的,因此它是規(guī)范的。它為漢字編碼的規(guī)范性提供了一個(gè)范例,向漢字的“字同碼”方向邁進(jìn)了一大步。
三.高效3碼確定一個(gè)單字,4至5碼確定一個(gè)詞組,同時(shí)重碼率低。因?yàn)榻?jīng)濟(jì)科學(xué),給錄入者帶來(lái)了高效。再加上簡(jiǎn)碼,如“的”字據(jù)有關(guān)方面統(tǒng)計(jì),它的使用頻率在1/9左右,只用D字母加空格鍵,僅這一個(gè)字的簡(jiǎn)碼使用,就可以在3碼基礎(chǔ)上至少又節(jié)約了3碼的1/9。單純?cè)~簡(jiǎn)碼只是其常碼的一半。
四.錄入者無(wú)需“編碼知識(shí)”西文微機(jī)輸入是無(wú)需“編碼知識(shí)”的,只需語(yǔ)言文字知識(shí)。漢字、漢語(yǔ)輸入也應(yīng)只需漢語(yǔ)文字知識(shí),而不需要專(zhuān)門(mén)的“編碼知識(shí)”。本發(fā)明正是為實(shí)現(xiàn)這一愿望而設(shè)計(jì)的,它不需要學(xué)習(xí)、記憶與語(yǔ)言文字知識(shí)以外的專(zhuān)門(mén)的所謂“編碼知識(shí)”,不需要去記憶一些與漢字無(wú)關(guān)的所謂“字根”及其任意確定的一個(gè)西文字母。
五.識(shí)字碼為計(jì)算機(jī)基礎(chǔ)教育與漢字識(shí)字教學(xué)、推廣普通話架設(shè)了一座橋梁。
錄入是微機(jī)學(xué)習(xí)的第一步。錄入只需識(shí)字知識(shí),無(wú)需多少“編碼知識(shí)”,才能使計(jì)算機(jī)的基礎(chǔ)教育與漢字的識(shí)字教學(xué)結(jié)合起來(lái),讓小學(xué)語(yǔ)文教師都成為微機(jī)錄入學(xué)習(xí)的指導(dǎo)老師。只有這樣,才能使計(jì)算機(jī)教育從兒童抓起成為現(xiàn)實(shí)。同時(shí),運(yùn)用漢語(yǔ)知識(shí)解決微機(jī)錄入,又為推廣普通話打下了基礎(chǔ)。本發(fā)明的出現(xiàn),使其三者的教育有了共通的橋梁。微機(jī)錄入的背景知識(shí)是漢語(yǔ)文字的基礎(chǔ)知識(shí),而微機(jī)錄入使用識(shí)字碼則是漢字識(shí)字的鞏固過(guò)程,兩者相互促進(jìn),“錄”“識(shí)”相長(zhǎng)。
總之,本發(fā)明極易于推廣應(yīng)用,而本發(fā)明的應(yīng)用又能與漢語(yǔ)的識(shí)字教學(xué)相結(jié)合,因此本發(fā)明有著廣闊的應(yīng)用前景。
權(quán)利要求
1.一種漢語(yǔ)識(shí)字碼,其特征在于A.單音節(jié)詞取碼方法為(a)合體字取碼方法是先按結(jié)構(gòu)將單字拆分為兩個(gè)成字偏旁,并按偏旁在漢語(yǔ)拼音中的讀音聲母各取一碼作為該字的第一、二碼;再將第二個(gè)偏旁拆分成兩個(gè)子偏旁,取最后一個(gè)子偏旁的讀音聲母作為該合體字的第三碼;(b).獨(dú)體字取碼方法是根據(jù)筆畫(huà)名稱(chēng)的讀音聲母編碼;B.雙音節(jié)詞取碼方法是一個(gè)詞的兩個(gè)字分別按其偏旁各拆分成兩個(gè),然后以第一個(gè)字的兩個(gè)偏旁讀音聲母作為該詞的第一、二碼,以第二個(gè)字的兩個(gè)偏旁讀音聲母作為第四、五碼,第三碼一律用短橫[一];C.多音節(jié)詞取碼方法(a)三音節(jié)詞取碼方法取該詞三個(gè)字的讀音聲母為第一、二、四碼,取第三個(gè)字拆分后第二個(gè)偏旁讀音聲母為第五碼,第三碼一律用P;(b).四音節(jié)及四音節(jié)以上的詞取碼方法是取四個(gè)字的聲母作為該詞的第一、二、四、五碼,第三碼一律用P,四音節(jié)以上的詞只取前四個(gè)字的聲母作為該詞的第一、二、四、五碼,第三碼一律用P;D.簡(jiǎn)碼的取碼方法是(a).對(duì)最常用漢字的取碼是二鍵,即該字的聲母加空格鍵;(b).對(duì)于單純?cè)~,組成該詞的第一個(gè)字不與其它字組合成詞,也不單用,取碼只需輸入第一個(gè)漢字的漢語(yǔ)拼音即是該單純?cè)~的簡(jiǎn)碼。
2.如權(quán)利要求1所述的漢語(yǔ)識(shí)字碼,其特征在于,其合體字中,有些字只能作一次一分為二的拆分,一次拆分后的第二個(gè)偏旁無(wú)法再拆分的取碼法方法是取第一偏旁的聲母作一碼,第二偏旁的聲母和韻腹作二、三碼。
全文摘要
本發(fā)明涉及漢字微機(jī)西文編碼。本發(fā)明按字的結(jié)構(gòu)將其拆分為兩個(gè)成字偏旁;并按偏旁在拼音中的讀音聲母各取一碼作為該字的第一、二碼,再將第二個(gè)偏旁拆分成兩個(gè)子偏旁,取最后一個(gè)子偏旁的讀音作為第三碼。本發(fā)明拆分漢字依漢字結(jié)構(gòu)層次,確定西文碼符合漢語(yǔ)特點(diǎn),因而錄入者不需具備編碼知識(shí)即能快速錄入,是值得大力推廣的漢語(yǔ)識(shí)字碼。
文檔編號(hào)G06F3/023GK1146023SQ9611694
公開(kāi)日1997年3月26日 申請(qǐng)日期1996年5月24日 優(yōu)先權(quán)日1996年5月24日
發(fā)明者王有衛(wèi) 申請(qǐng)人:王有衛(wèi)