一種漢字編碼的方法

文檔序號：6508252閱讀：319來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種漢字編碼的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計算機文字信息處理
背景技術(shù)：
計算機的漢字編碼有過一段曲折的發(fā)展歷史，最早采用的GB 2312-80標準，由于漢字的數(shù)量有幾萬甚至十幾萬，該標準的編碼就無法滿足其需求了，因此有GBK，乃至 IS010646/Unicode標準。下面簡單介紹一下這些標準的內(nèi)容GB2312有6763個漢字，包含所有的第一級漢字和第二級漢字中的常用部分2第一級漢字(16-55區(qū)的漢字)以拼音字母為序進行排列，同音字以筆形順序橫、豎、撇、捺、折為序，起筆相同的按第二筆，依次類推；第二級漢字(56-87區(qū)的漢字)按部首為序進行排列。GBK有21003個漢字，是雙字節(jié)編碼，每個字符用兩個字節(jié)表示。共23940個碼位，定義了 21886個字符，包括21003個漢字和883個圖形符號。GB18030是國家強制標準，多字節(jié)字符集，它的字符可以用一個、兩個或四個字節(jié)表示，GB18030-2000要求支持27533個漢字，最新GB18030-2005有7(^44個漢字。IS010646/UniCOde規(guī)定了一套字符集，如果不算兼容區(qū)，目前有70217個漢字。包含了世界上的大多數(shù)字符，規(guī)定了這些字符的編碼，每個編碼可以理解為一個數(shù)字，美國的 Unicode只規(guī)定了字符集，只規(guī)定了 1對應(yīng)的是什么字符，2對應(yīng)的是什么字符。至于傳輸和存儲，各個系統(tǒng)必須自己實現(xiàn)。GB18030雙字節(jié)部分與Unicode的映射沒有規(guī)律，只能通過查表方法映射。無論是Windows XP還是Vista，中文(中國)區(qū)域?qū)?yīng)的默認代碼頁還是GBK。我們只能設(shè)置區(qū)域，并不能設(shè)置區(qū)域?qū)?yīng)的默認代碼頁。所以在Windows世界，只要微軟不愿意，GB18030就只是一張普通的代碼頁。目前的簡體中文文檔使用的編碼主要是Unicode和GBK，應(yīng)該沒有什么文檔會用 GB18030 保存。以上的編碼的根本缺點是占用了大量的計算機內(nèi)存資源，缺乏擴展性，如果增添新發(fā)現(xiàn)的古字或者其他的漢字，目前的編碼中無法應(yīng)付這些新增加的漢字，又要重新給這些漢字編碼，因此這樣的一個編碼系統(tǒng)，無論是18030還是Unicode，具有的封閉型，占用資源，而且因為沒有規(guī)律可循，漢字的檢索速度慢。

發(fā)明內(nèi)容
本發(fā)明就是針對目前的漢字編碼，在GB 2312-80的基礎(chǔ)上，進行了改進，其根據(jù)就是漢字元的發(fā)明方法。字元數(shù)量的90%左右采用國家1-2級漢字，其余的根據(jù)具體需要從總的漢字篩選，字元的數(shù)量大概在4000個左右，因此GB2312—級漢字的編碼可以滿足這些字元的分配使用，漢字的部件/偏旁部首(非成字)部分采用編碼范圍6001 6999。漢字的編碼分為以下3種情況
1 “字元+部件”或者的“部件+字元”漢字，采用“部件編碼+字元編碼”，分別對應(yīng)編碼的高4位和低4位2 “漢字+字元”或者“字元+漢字”采用漢字編碼+字元編碼，分別對應(yīng)編碼的高 4位和低4位，這里特殊例子，如“峰”和“峯”，為了保證其編碼的唯一性，取其中的漢字山的編碼的補碼。方法是先把該字元的4位十六進制編碼轉(zhuǎn)換成八位二進制編碼，然后取其的補碼，在轉(zhuǎn)換成4位十六進制編碼。注意字元是個相對概念，如“峰”，“條”是字元，“山”是漢字；但是在“燦”中，“山”是字元，3 “部件χ+部件y”，采用8位編碼，順序是先上后下，先左后右，先外后里。這里的部件是現(xiàn)代漢語意義上的非成字偏旁部首，如“廣”、“卩”等。字元的編碼按照漢語拼音的排序，采用4位十六進制編碼；比如字元“阿”字的編碼依舊是“1601”；GB8213中，漢字“華”的編碼是“2710”，“木”是“3630”，“樺”是“7275” 按照本發(fā)明的編碼，不需要為“樺”單獨編碼，其編碼是“36302710”。因此理論上只要有這4千個左右的字元編碼和一千個部件/部首的編碼，能夠滿足所有的漢字編碼，目前估計漢字的總量大概在十萬左右。該方法能夠節(jié)省大量的計算機內(nèi)存資源，可以對新補充的漢字，不必重新分配編碼，理論上可以滿足百萬個漢字的編碼，同時編碼根據(jù)字元的漢語拼音順序，有邏輯性，能夠提升漢字的檢索速度，為中國的漢字編碼制定國際標準提供了依據(jù)。
具體實施例方式把從1-2級漢字選取3000多個漢字，然后在從目前的漢字總量選取1000個左右的字元，根據(jù)其漢字拼音進行排序，原則上，每個字元對應(yīng)30-100個漢字，在GB8213的基礎(chǔ)上，對每個字元進行編碼。
權(quán)利要求
1.一種漢字編碼的方法，其基本漢字的編碼采用4位十六進制編碼，漢字的部件/偏旁部首(非成字)部分采用編碼6001 6999，其特征在于，對于有1個漢字元和漢字構(gòu)成的漢字，其編碼采用8位十六進制編碼，其中低4位采用構(gòu)成該漢字的字元編碼，高4位采用構(gòu)成該漢字的漢字編碼；對于有1個漢字元和漢字部件/部首構(gòu)成的漢字，其編碼采用8 位十六進制編碼，其中低4位采用構(gòu)成該漢字的字元編碼，高4位采用構(gòu)成該漢字的部件/ 部首編碼。
2.根據(jù)權(quán)利要求1所述的方法，對于由2個漢字構(gòu)成的漢字，其編碼采用8位十六進制編碼，其中，低4位采用構(gòu)成該漢字的字元編碼，高4位采用構(gòu)成該漢字的漢字編碼。
3.根據(jù)權(quán)利要求1所述的方法，對于由2個相同漢字由于其書寫順序不同而構(gòu)成的不同的2個漢字，其特征在于對另外的一個漢字的編碼采用其該漢字的編碼的補碼，就是低4 位采用構(gòu)成該漢字的字元編碼，高4位采用構(gòu)成該漢字的漢字補碼。
4.根據(jù)權(quán)利要求1所述的方法，于有1個漢字元和漢字部件/部首構(gòu)成的漢字，其特征在于編碼采用8位十六進制編碼，其中低4位采用構(gòu)成該漢字的字元編碼，高4位采用構(gòu)成該漢字的部件/部首編碼。
全文摘要
本發(fā)明公開了一種漢字編碼的方法。本發(fā)明的編碼方法在GB 2312-80的基礎(chǔ)上，對漢字的編碼進行了根本改進，利用了漢字的特點，其特征在于對所有的漢字包括(日韓)和漢語符號采用4位16進制，編碼空間從1000～FFFF；具體包括對漢字非成字部件的編碼空間是1000～1999；對國標一級漢字和部分2級漢字的編碼空間分配為2000～EFFF，F(xiàn)000～FFFF為空，為擴展編碼區(qū)。這樣的方法理論是能夠滿足百萬漢字的編碼，對于無論是“非成字部件(偏旁部首)+漢字”，或者“漢字+漢字”或者“非成字部件(偏旁部首)+非成字部件(偏旁部首)”等構(gòu)成的漢字，分別取其各自的編碼，來實現(xiàn)對該漢字的編碼。該方法簡單，快捷，節(jié)約了計算機的內(nèi)存資源，提高了漢字的檢索效率，比目前的unicode編碼有巨大的優(yōu)勢，為樹立國際標準提供了理論根據(jù)。
文檔編號G06F17/22GK102243623SQ201010528090
公開日2011年11月16日申請日期2010年11月2日優(yōu)先權(quán)日2010年11月2日
發(fā)明者潘文林申請人:泗陽天琴軟件科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘文林
技術(shù)所有人：泗陽天琴軟件科技有限公司
我是此專利的發(fā)明人

上一篇：一種根據(jù)漢語字數(shù)排序的方法
上一篇：一種多節(jié)點系統(tǒng)接口設(shè)置節(jié)點標識的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

gb2312是一種漢字編碼相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種漢字編碼的方法