亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

漢字字首排檢及信息處理方法

文檔序號:8445633閱讀:751來源:國知局
漢字字首排檢及信息處理方法
【技術領域】
[0001] 本發(fā)明涉及漢字排檢技術領域,特別的涉及一種漢字字首排檢及信息處理方法。
【背景技術】
[0002] 目前最常用的漢字排檢法分為三類:一、義序排檢法,二、音序排檢法,三、形序排 檢法。
[0003] 義序排檢法按字詞的意義進行排列和檢索;音序排檢法通過漢字讀音轉寫成的注 音符號或拼音字母及相關符號對漢字進行排列和檢索;形序排檢法按漢字的字形進行排列 和檢索,嚴格意義的形序法應與字的音、義無關。
[0004] 當代主要的形序排檢法有筆畫法、部首法、四角號碼法。筆畫法的排列原則是單字 按筆畫數(shù)從少到多進行排列,同畫數(shù)的按筆順起筆的筆畫形狀排列,在進行排檢時需要首 先要數(shù)清需要排檢的漢字的筆畫數(shù),應用不方便,而且由于漢字中相同筆畫數(shù)的漢字很多, 也為排檢造成了麻煩。所謂部首法排列原則是先分析漢字結構中的偏旁,把偏旁相同的字 歸于一個部首之下,再按筆畫來排列。查字前,首先分析字形結構,熟悉部首的位置,查出部 首后,再按部首以外的筆畫數(shù)查字。目前雖然對取部位置有了明文規(guī)定,但部位仍是忽上忽 下忽左忽右,檢索者必須對300個形態(tài)了如指掌,否則很容易把部首判錯。所謂四角號碼法 是將漢字按照筆形分為十種并編號,每個漢字定有左上、右上、左下、右下四個角,每個角按 筆形分配一個阿拉伯數(shù)字,共四位數(shù)字,成為"四角號碼",四角號碼排檢法出現(xiàn)于上個世紀 二三十年代,因查起來比部首法快而異軍突起、風靡數(shù)十年,但由于歸納的筆形及取角方式 不合漢字固有性質、加附碼后重碼仍多等原因,雖經(jīng)不斷修改卻難成主流排檢法。
[0005] 隨著計算機的普及人們越來越多的借助計算機對文字進行處理,然而現(xiàn)有技術中 排序方法存在的各種不確定的因素,會使得在使用計算機處理排序過程時計算機無法完全 準確的將所有漢字按照預定的規(guī)律進行排序。當出現(xiàn)計算機無法按照預先設置的數(shù)據(jù)庫中 排序方法進行排序的漢字時,需要工作人員進行手動排序,使得整個排序過程費時費力。

【發(fā)明內容】

[0006] 基于上述問題,本發(fā)明公開一種漢字字首排檢及信息處理方法。技術方案如下:
[0007] -種漢字字首排檢及信息處理方法,其特征在于,包括:
[0008] 預先建立筆段特征庫,所述特征庫中保存有各個筆段的名稱以及對應的圖形特征 信息,所述筆段根據(jù)漢字筆畫單元的形狀確定;
[0009]確定待處理的漢字集合,所述漢字集合中的各個漢字具有相同的字體以及字號;
[0010] 對各個漢字的組成結構進行圖形檢測,確定所述漢字所具有的筆段,并將各個筆 段的圖形檢測結果與所述特征庫中的圖形特征進行比對,確定所述漢字筆畫位次,生成漢 字筆畫位次表,所述筆畫位次表根據(jù)筆段排列;
[0011] 確定漢字的筆序,所述筆序為單字筆畫的先后次序;確定各個漢字的字首以及字 身,所述字首為所述漢字根據(jù)所述筆序開頭筆畫的結合體,所述字身為除去字首筆畫以外 的部分;
[0012] 將所述獲取到的字首相同的漢字進行分組,并獲取所述字首起始筆畫,按照所述 字首起始筆畫在所述筆畫位次表中的排列順序,將組別中的各個漢字進行排序;其中,當所 述獲取到的字首起始筆畫相同時,獲取所述字身起始筆畫,根據(jù)所述字身起始筆畫在所述 筆畫位次表中的排列順序,將所述字首相同的漢字進行排序;
[0013] 根據(jù)分組以及排序結果生成漢字信息數(shù)據(jù)庫。
[0014] 可選的,還可以包括:所述筆段特征庫中,各個筆段的名稱以及對應的圖形特征信 息包括:
[0015] 橫,形狀特征是自左而右,或稍斜向右上方,兩端粗細相同,可自成筆畫,也可作為 折筆的首段、中段或末段;
[0016] 提,形狀特征是自左下而右上、由粗而細提為尖,可自成筆畫,也可作為折筆的首 段或末段;
[0017] 豎,形狀特征是自上而下,或稍斜向左下方,兩端粗細一樣,可自成筆畫,也可作為 折筆的首段、中段或末段;
[0018] 撇,形狀特征是自上而下再向左偏收尖,或自上而左下斜收尖、或平斜收尖,可自 成筆畫,也可作為折筆的首段、中段或末段;
[0019] 點,形狀特征是自尖而頓圓,或向右下,或向左下,可自成筆畫,也可為折筆的首段 或末段;
[0020] 捺,形狀特征是自左上起尖漸粗,然后平拖或向右下斜拖,獨自成畫時收為尖,可 自成筆畫,也可作為折筆的前段、中段或末段;
[0021] 左彎,形狀特征是自上尖細而左彎垂粗、或自右上粗左斜彎,只能作首段,與鉤合 成折筆;
[0022] 鉤,形狀特征是一個尖,或朝左,或朝上,只能作折筆的末段;
[0023] 圈,形狀特征為圓形,本身是個筆畫,不能構成別的筆畫。
[0024] 可選的,還可以包括:所述開頭部分為所述漢字書寫時的前三筆筆畫,當單個漢字 全部筆畫數(shù)不足三筆的,取其全部筆畫構成字首。
[0025] 可選的,還可以包括:所述字首包括:分段字首、方位字首、示意字首、并列字首、 單筆字首、前位字首、引字字首、引首字首。
[0026] 可選的,還可以包括:同時獲取所述字首起始筆畫,按照所述字首起始筆畫在所述 筆畫位次表中的排列順序,將組別中的各個漢字進行排序;包括:
[0027] 當獲取的起始筆畫相同時,取下一筆畫,前面皆同、筆畫已盡的在前。
[0028] 可選的,還可以包括:所述筆段分為九種,分別以從1到9數(shù)字為碼,生成筆段碼, 橫為1,提為2,豎為3,撇為4,點為5,捺為6,左彎為7,鉤為8,圈為9 ;筆畫三十五種,分別 以每種筆畫的前兩個筆段的段碼組成,生成筆畫碼;
[0029] 根據(jù)所述生成的筆段碼以及筆畫碼對各個漢字進行編碼,生成字碼,并按照所述 字碼進行排序。
[0030] 可選的,還可以包括:根據(jù)確定的筆段碼以及筆畫碼將所述獲取到的各個漢字的 字首以及字身進行編碼,生成字首碼以及字身碼。
[0031] 根據(jù)本申請?zhí)峁┑木唧w實施例,本申請公開了以下技術效果:
[0032]通過本申請實施例,可以實現(xiàn)一種漢字字首排檢及信息處理方法,在一種實現(xiàn)方 式下,該方法可以包括,預先建立筆段特征庫,所述特征庫中保存有各個筆段的名稱以及對 應的圖形特征信息,所述筆段根據(jù)漢字筆畫單元的形狀確定;確定待處理的漢字集合,所述 漢字集合中的各個漢字具有相同的字體以及字號;對各個漢字的組成結構進行圖形檢測, 確定所述漢字所具有的筆段,并將各個筆段的圖形檢測結果與所述特征庫中的圖形特征進 行比對,確定所述漢字筆畫位次,生成漢字筆畫位次表,所述筆畫位次表根據(jù)筆段排列;確 定漢字的筆序,所述筆序為單字筆畫的先后次序;確定各個漢字的字首以及字身,所述字首 為所述漢字根據(jù)所述筆序開頭筆畫的結合體,所述字身為除去字首筆畫以外的部分;將所 述獲取到的字首相同的漢字進行分組,并獲取所述字首起始筆畫,按照所述字首起始筆畫 在所述筆畫位次表中的排列順序,將組別中的各個漢字進行排序;其中,當所述獲取到的字 首起始筆畫相同時,獲取所述字身起始筆畫,根據(jù)所述字身起始筆畫在所述筆畫位次表中 的排列順序,將所述字首相同的漢字進行排序;根據(jù)分組以及排序結果生成漢字信息數(shù)據(jù) 庫。通過本申請?zhí)峁┑臐h字排序方法能夠將所有漢字按照統(tǒng)一的標準進行歸納總結,并根 據(jù)歸納進行統(tǒng)一的排序,解決了傳統(tǒng)漢字排序方法存在的筆形位置不固定、重碼多以及添 加附加碼后重碼驗證等問題,使?jié)h字的排序更加簡潔方便。
【附圖說明】
[0033]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1