本發(fā)明涉及文字字符處理技術領域,具體而言,涉及一種字符處理方法和一種字符處理系統(tǒng)。
背景技術:
中國是一個歷史悠久的國家,歷史文獻是我們研究歷史必不可少的一部分,隨著計算機技術的不斷發(fā)展,中文信息化處理的能力也越來越強,為了更好的研究和保存歷史資源,我們必須要將現(xiàn)存的歷史文獻進行數(shù)字化。數(shù)字化的首要工作是對搜集和整理的所有字符進行制作并給其編碼。搜集過程整理的成果基本都是圖片,然后根據(jù)字符圖片整理字符屬性并制作字符,進而將制作的字符進行編碼并統(tǒng)一形成字庫,最后使用該字庫來將相應文獻實現(xiàn)數(shù)字化。
目前的常用處理方式是先按照圖片一起制作字符并編碼形成字庫,然后將新版本字庫和老版本字庫中的所有字符的圖形進行比對,重復字符去掉。這種處理方式不僅增加了字符制作的工作量,對于已有字形出現(xiàn)了重復工作,造成人力資源浪費的同時降低了字符制作的效率。
因此,如何快速的制作補字,并可以有效地針對補字字符進行去重工作,以大大地縮短補字周期,進而提高補字制作效率,成為亟待解決的技術問題。
技術實現(xiàn)要素:
本發(fā)明正是基于上述問題,提出了一種新的字符處理的技術方案,可以利用從基礎庫中獲取與待補字字符相似字形的參考字符快速的制作補字,同時有效的針對補字字符進行去重工作,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
有鑒于此,本發(fā)明的一方面提出了一種新的字符處理方法,包括:獲取基礎字符庫中的所有字符的第一特征信息,以形成特征信息庫;獲取補字字符的第二特征信息;將所述第二特征信息與所述特征信息庫中的所有所述第一特征信息進行匹配;根據(jù)匹配結果獲取補字參考字符集;根據(jù)所述補字字符與補字參考字符集確定是否進行補字處理。
在該技術方案中,根據(jù)每一個漢字雖然都有差異,但是其組成漢字的子部件都具有相似性的這一特點建立特征信息庫,其中基礎字符庫中所有字符的特征信息為第一特征信息,待補字字符的特征信息為第二特征信息。通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,根據(jù)匹配結果獲取補字參考字符集,并根據(jù)待補字字符與補字參考字符集確定是否進行補字處理,其中,補字參考字符集可能包括一個或者多個字符,如此,可以有效的針對補字字符進行去重工作,同時可以利用獲取的參考字符快速的制作補字,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,根據(jù)所述匹配結果獲取所述補字參考字符集,具體包括:根據(jù)所述匹配結果獲取補字相似字符集;根據(jù)所述補字相似字符集獲取所述補字參考字符集。
在該技術方案中,通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,從匹配結果中取補字相似字符集,進而獲取補字參考字符集,從而確定是否進行補字,避免了對已出現(xiàn)字符重復工作,有效的縮短了補字周期,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述第一特征信息和所述第二特征信息包括:字符IDS屬性以及根據(jù)所述IDS屬性生成的字符筆順信息;其中,所述字符IDS屬性包括:字符結構信息和字符構成子部件信息。
在該技術方案中,第一特征信息和第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)屬性以及根據(jù)IDS屬性生成的字符筆順信息,其中,字符IDS屬性至少包括但不限于:字符結構信息和字符構成子部件信息,如此,通過獲取待補字字符和基礎庫中所有字符的特征信息,為提高補字制作效率以及實現(xiàn)字符的數(shù)字化管理提供了必要的前提 保障。
在上述技術方案中,優(yōu)選地,根據(jù)所述匹配結果獲取所述補字相似字符集,具體包括:在所述特征信息庫中獲取與所述補字字符的所述字符結構信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中獲取包含所述補字字符的所述字符構成子部件信息的字符,以形成第二相似字符集;判斷所述第二相似字符集中是否存在與所述補字字符的所述筆順信息相近的字符;當判定為是時,將所述第二相似字符集中的與所述補字字符的所述筆順信息相近的字符確定為所述補字相似字符集;否則,將所述第二相似字符集確定為所述補字相似字符集。
在該技術方案中,首先通過對待補字字符的IDS屬性及基礎庫中所有字符的IDS屬性進行匹配,形成第二相似字符集,然后判斷第二相似字符集中是否存在與補字字符的筆順信息相近的字符,在判定第二相似字符集中存在與補字字符的筆順信息相近的字符時,將筆順信息相近的字符確認為補字相似字符集,否則,直接將第二相似字符集確認為補字相似字符集,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
在上述技術方案中,優(yōu)選地,根據(jù)所述補字字符與所述補字參考字符集確定是否進行補字處理,具體包括:當判定所述補字參考字符集中存在與所述補字字符相同的字符時,則不進行補字處理;否則,在所述補字參考字符集中確定目標字符以進行補字處理,以獲取所述補字字符。
在該技術方案中,通過將補字字符與補字參考字符集中的字符進行比較,若發(fā)現(xiàn)與補字字符完全一致的參考字符,則可以省去制作補字的流程,若補字參考字符集中的參考字符與補字字符筆形相差較小,則可以進行補字制作,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
根據(jù)本發(fā)明的另一方面,還提出了一種字符處理系統(tǒng),包括:第一獲取單元,用于獲取基礎字符庫中的所有字符的第一特征信息,以形成特征信息庫;第二獲取單元,用于獲取補字字符的第二特征信息;匹配單元, 用于將所述第二特征信息與所述特征信息庫中的所有所述第一特征信息進行匹配;第三獲取單元,用于根據(jù)匹配結果獲取補字參考字符集;確定單元,用于根據(jù)所述補字字符與補字參考字符集確定是否進行補字處理。
在該技術方案中,根據(jù)每一個漢字雖然都有差異,但是其組成漢字的子部件都具有相似性的這一特點建立特征信息庫,其中基礎字符庫中所有字符的特征信息為第一特征信息,待補字字符的特征信息為第二特征信息。通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,根據(jù)匹配結果獲取補字參考字符集,并根據(jù)待補字字符與補字參考字符集確定是否進行補字處理,其中,補字參考字符集可能包括一個或者多個字符,如此,可以有效的針對補字字符進行去重工作,同時可以利用獲取的參考字符快速的制作補字,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述第三獲取單元具體用于:根據(jù)所述匹配結果獲取補字相似字符集;根據(jù)所述補字相似字符集獲取所述補字參考字符集。
在該技術方案中,通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,從匹配結果中取補字相似字符集,進而獲取補字參考字符集,從而確定是否進行補字,避免了對已出現(xiàn)字符重復工作,有效的縮短了補字周期,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述第一特征信息和所述第二特征信息包括:字符IDS屬性以及根據(jù)所述IDS屬性生成的字符筆順信息;其中,所述字符IDS屬性包括:字符結構信息和字符構成子部件信息。
在該技術方案中,第一特征信息和所述第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)屬性以及根據(jù)IDS屬性生成的字符筆順信息,其中,字符IDS屬性至少包括但不限于:字符結構信息和字符構成子部件信息,如此,通過獲取待補字字符和基礎庫中所有字符的特征信息,為提高補字制作效率以及實現(xiàn)字符的數(shù)字化管理提供了必要的前提保障。
在上述技術方案中,優(yōu)選地,所述第三獲取單元具體還用于:在所述特征信息庫中獲取與所述補字字符的所述字符結構信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中獲取包含所述補字字符的所 述字符構成子部件信息的字符,以形成第二相似字符集;判斷所述第二相似字符集中是否存在與所述補字字符的所述筆順信息相近的字符;當判定為是時,將所述第二相似字符集中的與所述補字字符的所述筆順信息相近的字符確定為所述補字相似字符集;否則,將所述第二相似字符集確定為所述補字相似字符集。
在該技術方案中,首先通過對待補字字符的IDS屬性及基礎庫中所有字符的IDS屬性進行匹配,形成第二相似字符集,然后判斷第二相似字符集中是否存在與補字字符的筆順信息相近的字符,在判定第二相似字符集中存在與補字字符的筆順信息相近的字符時,將筆順信息相近的字符確認為補字相似字符集,否則,直接將第二相似字符集確認為補字相似字符集,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
在上述技術方案中,優(yōu)選地,所述確定單元具體用于:當判定所述補字參考字符集中存在與所述補字字符相同的字符時,則確定不進行補字處理;否則,在所述補字參考字符集中確定目標字符以進行補字處理,以獲取所述補字字符。
在該技術方案中,通過將補字字符與補字參考字符集中的字符進行比較,若發(fā)現(xiàn)與補字字符完全一致的參考字符,則可以省去制作補字的流程,若補字參考字符集中的參考字符與補字字符筆形相差較小,則可以進行補字制作,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
通過本發(fā)明的技術方案,可以利用從基礎庫中獲取與待補字字符相似字形的參考字符快速的制作補字,同時有效的針對補字字符進行去重工作,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
附圖說明
圖1示出了根據(jù)本發(fā)明的實施例的字符處理方法的流程示意圖;
圖2示出了根據(jù)本發(fā)明的實施例的字符處理系統(tǒng)的示意框圖;
圖3示出了待補字字符的字形示意圖。
具體實施方式
為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。
圖1示出了根據(jù)本發(fā)明的實施例的字符處理方法的流程示意圖。
如圖1所示,根據(jù)本發(fā)明的實施例的字符處理方法,包括:步驟102,獲取基礎字符庫中的所有字符的第一特征信息,以形成特征信息庫;步驟104,獲取補字字符的第二特征信息;步驟106,將所述第二特征信息與所述特征信息庫中的所有所述第一特征信息進行匹配;步驟108,根據(jù)匹配結果獲取補字參考字符集;步驟110,根據(jù)所述補字字符與補字參考字符集確定是否進行補字處理。
在該技術方案中,根據(jù)每一個漢字雖然都有差異,但是其組成漢字的子部件都具有相似性的這一特點建立特征信息庫,其中基礎字符庫中所有字符的特征信息為第一特征信息,待補字字符的特征信息為第二特征信息。通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,根據(jù)匹配結果獲取補字參考字符集,并根據(jù)待補字字符與補字參考字符集確定是否進行補字處理,其中,補字參考字符集可能包括一個或者多個字符,如此,可以有效的針對補字字符進行去重工作,同時可以利用獲取的參考字符快速的制作補字,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述步驟108具體包括:根據(jù)所述匹配結果獲取補字相似字符集;根據(jù)所述補字相似字符集獲取所述補字參考字符集。
在該技術方案中,通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,從匹配結果中取補字相似字符集,進而獲取補字參考字符集,從而確定是否進行補字,避免了對已出現(xiàn)字符重復工作,有效的縮短了補字周期,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述第一特征信息和所述第二特征信息包括:字符IDS屬性以及根據(jù)所述IDS屬性生成的字符筆順信息;其中,所述字符IDS屬性包括:字符結構信息和字符構成子部件信息。
在該技術方案中,第一特征信息和第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)屬性以及根據(jù)IDS屬性生成的字符筆順信息,其中,字符IDS屬性至少包括但不限于:字符結構信息和字符構成子部件信息,如此,通過獲取待補字字符和基礎庫中所有字符的特征信息,為提高補字制作效率以及實現(xiàn)字符的數(shù)字化管理提供了必要的前提保障。
在上述技術方案中,優(yōu)選地,根據(jù)所述匹配結果獲取所述補字相似字符集,具體包括:在所述特征信息庫中獲取與所述補字字符的所述字符結構信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中獲取包含所述補字字符的所述字符構成子部件信息的字符,以形成第二相似字符集;判斷所述第二相似字符集中是否存在與所述補字字符的所述筆順信息相近的字符;當判定為是時,將所述第二相似字符集中的與所述補字字符的所述筆順信息相近的字符確定為所述補字相似字符集;否則,將所述第二相似字符集確定為所述補字相似字符集。
在該技術方案中,首先通過對待補字字符的IDS屬性及基礎庫中所有字符的IDS屬性進行匹配,形成第二相似字符集,然后判斷第二相似字符集中是否存在與補字字符的筆順信息相近的字符,在判定第二相似字符集中存在與補字字符的筆順信息相近的字符時,將筆順信息相近的字符確認為補字相似字符集,否則,直接將第二相似字符集確認為補字相似字符集,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
在上述技術方案中,優(yōu)選地,所述步驟110具體包括:當判定所述補字參考字符集中存在與所述補字字符相同的字符時,則不進行補字處理;否則,在所述補字參考字符集中確定目標字符以進行補字處理,以獲取所述補字字符。
在該技術方案中,通過將補字字符與補字參考字符集中的字符進行比較,若發(fā)現(xiàn)與補字字符完全一致的參考字符,則可以省去制作補字的流程,若補字參考字符集中的參考字符與補字字符筆形相差較小,則可以進行補字制作,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
圖2示出了根據(jù)本發(fā)明的實施例的字符處理系統(tǒng)的示意框圖。
如圖2所示,根據(jù)本發(fā)明的實施例的字符處理系統(tǒng)200,包括:第一獲取單元202,用于獲取基礎字符庫中的所有字符的第一特征信息,以形成特征信息庫;第二獲取單元204,用于獲取補字字符的第二特征信息;匹配單元206,用于將所述第二特征信息與所述特征信息庫中的所有所述第一特征信息進行匹配;第三獲取單元208,用于根據(jù)匹配結果獲取補字參考字符集;確定單元210,用于根據(jù)所述補字字符與補字參考字符集確定是否進行補字處理。
在該技術方案中,根據(jù)每一個漢字雖然都有差異,但是其組成漢字的子部件都具有相似性的這一特點建立特征信息庫,其中基礎字符庫中所有字符的特征信息為第一特征信息,待補字字符的特征信息為第二特征信息。通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,根據(jù)匹配結果獲取補字參考字符集,并根據(jù)待補字字符與補字參考字符集確定是否進行補字處理,其中,補字參考字符集可能包括一個或者多個字符,如此,可以有效的針對補字字符進行去重工作,同時可以利用獲取的參考字符快速的制作補字,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述第三獲取單元208具體用于:根據(jù)所述匹配結果獲取補字相似字符集;根據(jù)所述補字相似字符集獲取所述補字參考字符集。
在該技術方案中,通過將獲取的第二特征信息與獲取的基礎字符庫中所有字符的第一特征信息進行匹配,從匹配結果中取補字相似字符集,進而獲取補字參考字符集,從而確定是否進行補字,避免了對已出現(xiàn)字符重復工作,有效的縮短了補字周期,從而提高了補字制作效率。
在上述技術方案中,優(yōu)選地,所述第一特征信息和所述第二特征信息包括:字符IDS屬性以及根據(jù)所述IDS屬性生成的字符筆順信息;其中,所述字符IDS屬性包括:字符結構信息和字符構成子部件信息。
在該技術方案中,第一特征信息和所述第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)屬性以及根據(jù)IDS屬性生成的字符筆順信息,其中,字符IDS屬性至少包括但不限于:字符結構信息和字符構成子部件信息,如此,通過獲取待補字字符和基礎庫中所有字符的特征信息,為提高補字制作效率以及實現(xiàn)字符的數(shù)字化管理提供了必要的前提保障。
在上述技術方案中,優(yōu)選地,所述第三獲取單元208具體還用于:在所述特征信息庫中獲取與所述補字字符的所述字符結構信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中獲取包含所述補字字符的所述字符構成子部件信息的字符,以形成第二相似字符集;判斷所述第二相似字符集中是否存在與所述補字字符的所述筆順信息相近的字符;當判定為是時,將所述第二相似字符集中的與所述補字字符的所述筆順信息相近的字符確定為所述補字相似字符集;否則,將所述第二相似字符集確定為所述補字相似字符集。
在該技術方案中,首先通過對待補字字符的IDS屬性及基礎庫中所有字符的IDS屬性進行匹配,形成第二相似字符集,然后判斷第二相似字符集中是否存在與補字字符的筆順信息相近的字符,在判定第二相似字符集中存在與補字字符的筆順信息相近的字符時,將筆順信息相近的字符確認為補字相似字符集,否則,直接將第二相似字符集確認為補字相似字符集,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
在上述技術方案中,優(yōu)選地,所述確定單元210具體用于:當判定所述補字參考字符集中存在與所述補字字符相同的字符時,則確定不進行補 字處理;否則,在所述補字參考字符集中確定目標字符以進行補字處理,以獲取所述補字字符。
在該技術方案中,通過將補字字符與補字參考字符集中的字符進行比較,若發(fā)現(xiàn)與補字字符完全一致的參考字符,則可以省去制作補字的流程,若補字參考字符集中的參考字符與補字字符筆形相差較小,則可以進行補字制作,通過有效地利用與待補字字符相似字形的參考字符可以快速地制作補字,同時可以及時發(fā)現(xiàn)補字相似字符集中與補字字符完全一致的字符,避免了重復工作,進而節(jié)約了人力,降低了人工出現(xiàn)的錯誤率。
圖3示出了待補字字符的字形示意圖。
下面結合具體實施例對本發(fā)明的技術方案進行說明,具體包含以下步驟:
第一步,選定已有成品字庫,作為基礎庫。整理基礎庫中所有字符特征信息,形成特征信息庫。特征信息庫的內(nèi)容包括基礎庫中所有字符的IDS屬性和筆順信息。
IDS屬性包括字符的結構信息和字符部件信息。字符結構信息共12個描述符號,分別是分別表示左右結構、上下結構、左中右結構、上中下結構、內(nèi)包含、下包含、上包含、右包含、右下包含、左下包含等,比如,如圖3所示的待補字字符的結構信息均為:左右結構。
筆順信息是組成字符所有筆畫的數(shù)字序列。筆順信息符合漢字筆順規(guī)則,將漢字的5種筆畫(橫、豎、撇、捺、折)分別用1,2,3,4,5來分別表示,其中提為橫,亅為豎,丶為捺,豎提為折。
基礎字符特征信息庫數(shù)據(jù)示例如下表所示。
第二步,整理待補字字符(如圖3所示)的特征信息,即補字IDS屬性和筆順信息。
待補字字符的特征信息數(shù)據(jù)示例如下表所示。
第三步:利用步驟一完成的特征信息庫對步驟二整理的補字特征信息進行查找比對,形成補字相似字符集。
比對過程中,先比對特征信息中的IDS屬性,找到相同結構的字符,形成相似字符集Ⅰ;然后從相似字符集Ⅰ中再比對查找包含補字字符部件的字符,將與補字字符子部件相同字符篩選出來,形成相似字符集Ⅱ;最后從字符集Ⅱ中,通過筆順信息比對,將與補字字符相似筆順信息的字符篩選出來,形成補字相似字符集。
第四步,通過步驟三形成的相似字符集,結合原始補字需求從中選取補字參考字符集,可能是一個或者多個字符。
第五步,結合步驟四挑選的補字參考字符集,利用字體開發(fā)工具(如Font lab),完成補字工作。
通過上述步驟,這樣可以大大的縮短新字庫檢驗周期,節(jié)約人力,降低了人工出現(xiàn)的錯誤率,提高了新字庫質(zhì)量,進而有效的提高了字庫的開發(fā)效率。
以上結合附圖詳細說明了本發(fā)明的技術方案,本發(fā)明提出了一種新的字符處理的技術方案,可以利用從基礎庫中獲取與待補字字符相似字形的參考字符快速的制作補字,同時有效的針對補字字符進行去重工作,這樣可以大大的縮短補字周期,同時保證了補字字符與基礎庫字符筆形風格的一致性,節(jié)約人力,從而提高了補字制作效率。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。