亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種漢字編碼的方法

文檔序號:6508252閱讀:319來源:國知局
專利名稱:一種漢字編碼的方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機文字信息處理
背景技術(shù)
計算機的漢字編碼有過一段曲折的發(fā)展歷史,最早采用的GB 2312-80標準,由于漢字的數(shù)量有幾萬甚至十幾萬,該標準的編碼就無法滿足其需求了,因此有GBK,乃至 IS010646/Unicode標準。下面簡單介紹一下這些標準的內(nèi)容GB2312有6763個漢字,包含所有的第一級漢字和第二級漢字中的常用部分2第一級漢字(16-55區(qū)的漢字)以拼音字母為序進行排列,同音字以筆形順序橫、豎、撇、捺、折為序,起筆相同的按第二筆,依次類推;第二級漢字(56-87區(qū)的漢字)按部首為序進行排列。GBK有21003個漢字,是雙字節(jié)編碼,每個字符用兩個字節(jié)表示。共23940個碼位, 定義了 21886個字符,包括21003個漢字和883個圖形符號。GB18030是國家強制標準,多字節(jié)字符集,它的字符可以用一個、兩個或四個字節(jié)表示,GB18030-2000要求支持27533個漢字,最新GB18030-2005有7(^44個漢字。IS010646/UniCOde規(guī)定了一套字符集,如果不算兼容區(qū),目前有70217個漢字。包含了世界上的大多數(shù)字符,規(guī)定了這些字符的編碼,每個編碼可以理解為一個數(shù)字,美國的 Unicode只規(guī)定了字符集,只規(guī)定了 1對應(yīng)的是什么字符,2對應(yīng)的是什么字符。至于傳輸和存儲,各個系統(tǒng)必須自己實現(xiàn)。GB18030雙字節(jié)部分與Unicode的映射沒有規(guī)律,只能通過查表方法映射。無論是Windows XP還是Vista,中文(中國)區(qū)域?qū)?yīng)的默認代碼頁還是GBK。我們只能設(shè)置區(qū)域,并不能設(shè)置區(qū)域?qū)?yīng)的默認代碼頁。所以在Windows世界,只要微軟不愿意,GB18030就只是一張普通的代碼頁。目前的簡體中文文檔使用的編碼主要是Unicode和GBK,應(yīng)該沒有什么文檔會用 GB18030 保存。以上的編碼的根本缺點是占用了大量的計算機內(nèi)存資源,缺乏擴展性,如果增添新發(fā)現(xiàn)的古字或者其他的漢字,目前的編碼中無法應(yīng)付這些新增加的漢字,又要重新給這些漢字編碼,因此這樣的一個編碼系統(tǒng),無論是18030還是Unicode,具有的封閉型,占用資源,而且因為沒有規(guī)律可循,漢字的檢索速度慢。

發(fā)明內(nèi)容
本發(fā)明就是針對目前的漢字編碼,在GB 2312-80的基礎(chǔ)上,進行了改進,其根據(jù)就是漢字元的發(fā)明方法。字元數(shù)量的90%左右采用國家1-2級漢字,其余的根據(jù)具體需要從總的漢字篩選,字元的數(shù)量大概在4000個左右,因此GB2312—級漢字的編碼可以滿足這些字元的分配使用,漢字的部件/偏旁部首(非成字)部分采用編碼范圍6001 6999。漢字的編碼分為以下3種情況
1 “字元+部件”或者的“部件+字元”漢字,采用“部件編碼+字元編碼”,分別對應(yīng)編碼的高4位和低4位2 “漢字+字元”或者“字元+漢字”采用漢字編碼+字元編碼,分別對應(yīng)編碼的高 4位和低4位,這里特殊例子,如“峰”和“峯”,為了保證其編碼的唯一性,取其中的漢字山的編碼的補碼。方法是先把該字元的4位十六進制編碼轉(zhuǎn)換成八位二進制編碼,然后取其的補碼,在轉(zhuǎn)換成4位十六進制編碼。注意字元是個相對概念,如“峰”,“條”是字元,“山”是漢字;但是在“燦”中,“山”是字元,3 “部件χ+部件y”,采用8位編碼,順序是先上后下,先左后右,先外后里。這里的部件是現(xiàn)代漢語意義上的非成字偏旁部首,如“廣”、“卩”等。字元的編碼按照漢語拼音的排序,采用4位十六進制編碼;比如字元“阿”字的編碼依舊是“1601”;GB8213中,漢字“華”的編碼是“2710”,“木”是“3630”,“樺”是“7275” 按照本發(fā)明的編碼,不需要為“樺”單獨編碼,其編碼是“36302710”。因此理論上只要有這4千個左右的字元編碼和一千個部件/部首的編碼,能夠滿足所有的漢字編碼,目前估計漢字的總量大概在十萬左右。該方法能夠節(jié)省大量的計算機內(nèi)存資源,可以對新補充的漢字,不必重新分配編碼,理論上可以滿足百萬個漢字的編碼, 同時編碼根據(jù)字元的漢語拼音順序,有邏輯性,能夠提升漢字的檢索速度,為中國的漢字編碼制定國際標準提供了依據(jù)。
具體實施例方式把從1-2級漢字選取3000多個漢字,然后在從目前的漢字總量選取1000個左右的字元,根據(jù)其漢字拼音進行排序,原則上,每個字元對應(yīng)30-100個漢字,在GB8213的基礎(chǔ)上,對每個字元進行編碼。
權(quán)利要求
1.一種漢字編碼的方法,其基本漢字的編碼采用4位十六進制編碼,漢字的部件/偏旁部首(非成字)部分采用編碼6001 6999,其特征在于,對于有1個漢字元和漢字構(gòu)成的漢字,其編碼采用8位十六進制編碼,其中低4位采用構(gòu)成該漢字的字元編碼,高4位采用構(gòu)成該漢字的漢字編碼;對于有1個漢字元和漢字部件/部首構(gòu)成的漢字,其編碼采用8 位十六進制編碼,其中低4位采用構(gòu)成該漢字的字元編碼,高4位采用構(gòu)成該漢字的部件/ 部首編碼。
2.根據(jù)權(quán)利要求1所述的方法,對于由2個漢字構(gòu)成的漢字,其編碼采用8位十六進制編碼,其中,低4位采用構(gòu)成該漢字的字元編碼,高4位采用構(gòu)成該漢字的漢字編碼。
3.根據(jù)權(quán)利要求1所述的方法,對于由2個相同漢字由于其書寫順序不同而構(gòu)成的不同的2個漢字,其特征在于對另外的一個漢字的編碼采用其該漢字的編碼的補碼,就是低4 位采用構(gòu)成該漢字的字元編碼,高4位采用構(gòu)成該漢字的漢字補碼。
4.根據(jù)權(quán)利要求1所述的方法,于有1個漢字元和漢字部件/部首構(gòu)成的漢字,其特征在于編碼采用8位十六進制編碼,其中低4位采用構(gòu)成該漢字的字元編碼,高4位采用構(gòu)成該漢字的部件/部首編碼。
全文摘要
本發(fā)明公開了一種漢字編碼的方法。本發(fā)明的編碼方法在GB 2312-80的基礎(chǔ)上,對漢字的編碼進行了根本改進,利用了漢字的特點,其特征在于對所有的漢字包括(日韓)和漢語符號采用4位16進制,編碼空間從1000~FFFF;具體包括對漢字非成字部件的編碼空間是1000~1999;對國標一級漢字和部分2級漢字的編碼空間分配為2000~EFFF,F(xiàn)000~FFFF為空,為擴展編碼區(qū)。這樣的方法理論是能夠滿足百萬漢字的編碼,對于無論是“非成字部件(偏旁部首)+漢字”,或者“漢字+漢字”或者“非成字部件(偏旁部首)+非成字部件(偏旁部首)”等構(gòu)成的漢字,分別取其各自的編碼,來實現(xiàn)對該漢字的編碼。該方法簡單,快捷,節(jié)約了計算機的內(nèi)存資源,提高了漢字的檢索效率,比目前的unicode編碼有巨大的優(yōu)勢,為樹立國際標準提供了理論根據(jù)。
文檔編號G06F17/22GK102243623SQ201010528090
公開日2011年11月16日 申請日期2010年11月2日 優(yōu)先權(quán)日2010年11月2日
發(fā)明者潘文林 申請人:泗陽天琴軟件科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1