亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種簡歷識別方法

文檔序號:9432563閱讀:578來源:國知局
一種簡歷識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種文本識別方法,具體涉及一種簡歷識別方法,本發(fā)明屬于文本識別領(lǐng)域。
【背景技術(shù)】
[0002]簡歷是一類常見文本。從功能上看,簡歷是其作者介紹自己,推銷自己,最終達到有效溝通的重要手段;從行文結(jié)構(gòu)上看,它是一種半結(jié)構(gòu)化文本。該類文本應(yīng)用廣泛、數(shù)目眾多,因此,高效、準確的實現(xiàn)其信息抽取成為一個迫切的需求。一方面,從信息抽取效率上看,人工讀取顯然已經(jīng)不能滿足現(xiàn)實需求,而必須要利用計算機相關(guān)技術(shù);另一方面,從準確抽取的可行性上看,根據(jù)半結(jié)構(gòu)化文本的特征和文本信息抽取技術(shù),如正則表達式匹配、關(guān)聯(lián)性分析、統(tǒng)計等方法可以使抽取結(jié)果滿足實際需要,即實現(xiàn)機器智能化識別是可行的。但是現(xiàn)有技術(shù)尚未存在對簡歷的有效識別的技術(shù)。

【發(fā)明內(nèi)容】

[0003]為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種簡歷識別方法,以解決現(xiàn)有技術(shù)難以實現(xiàn)對簡歷的有效識別的技術(shù)問題。
[0004]為了實現(xiàn)上述目標,本發(fā)明采用如下的技術(shù)方案:
一種簡歷識別方法,其特征在于,包括如下步驟:
步驟一:設(shè)定簡歷中潛在的所有關(guān)鍵字;
步驟二:選擇需要分析的簡歷;
步驟三:根據(jù)設(shè)定的關(guān)鍵字對簡歷進行預(yù)處理;
步驟四:根據(jù)簡歷中包含的關(guān)鍵字信息,區(qū)分簡單信息域和復(fù)雜信息域;
步驟五:對復(fù)雜信息域進行二次分析處理,提取子項信息;
步驟六:將簡單信息域、復(fù)雜信息域輸出。
[0005]前述的一種簡歷識別方法,其特征在于,所述步驟一中,還包括設(shè)定關(guān)鍵字沖突分析策略,所述關(guān)鍵字沖突分析策略用于處理當關(guān)鍵字在簡歷中的多處位置出現(xiàn)時,判斷關(guān)鍵字在簡歷中的真正位置。
[0006]前述的一種簡歷識別方法,其特征在于,所述步驟三中,采用正則匹配方式分析簡歷中包含的關(guān)鍵字。
[0007]前述的一種簡歷識別方法,其特征在于,所述步驟三中,如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),根據(jù)關(guān)鍵字沖突分析策略,判斷關(guān)鍵字在簡歷中的真正位置。
[0008]前述的一種簡歷識別方法,其特征在于,所述關(guān)鍵字沖突分析策略包括:如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),對于關(guān)鍵字出現(xiàn)的每一處位置,在所述位置的前后進行文本分析,檢索時候存在與該關(guān)鍵字對應(yīng)的校驗信息,如果存在所述校驗信息,則判定所述位置為該關(guān)鍵字的真正位置,如果不存在所述校驗信息,則判定所述位置不是該關(guān)鍵字的真正位置。
[0009]前述的一種簡歷識別方法,其特征在于,步驟三中,如果獲取了簡歷中的關(guān)鍵字,則繼續(xù)下一步,如果沒有在簡歷中獲取關(guān)鍵字,則結(jié)束分析過程。
[0010]前述的一種簡歷識別方法,其特征在于,所述簡單信息域包括姓名、年齡、出生年月;復(fù)雜信息域包括子項,如工作經(jīng)驗、項目經(jīng)驗。
[0011]前述的一種簡歷識別方法,其特征在于,對復(fù)雜信息域進行二次分析處理包括:分析復(fù)雜信息域包含的關(guān)鍵字,將獲取的關(guān)鍵字定義為二級關(guān)鍵字,提取二級關(guān)鍵字及其對應(yīng)的具體信息。
[0012]前述的一種簡歷識別方法,其特征在于,簡歷的格式為Word格式/HTML格式、PDF格式、txt格式中的任一種。
[0013]前述的一種簡歷識別方法,其特征在于,將簡單信息域及復(fù)雜信息域輸出為標準的XML格式數(shù)據(jù)或者JSON格式數(shù)據(jù)。
[0014]本發(fā)明的有益之處在于:本發(fā)明能夠?qū)崿F(xiàn)對簡歷信息的高效準確提取,提取的準確率高。
【附圖說明】
[0015]圖1是本發(fā)明的一個優(yōu)選實施流程圖;
圖2是本發(fā)明中簡歷的示意圖;
圖3是本發(fā)明中關(guān)鍵字字典的示意圖;
圖4為本發(fā)明中實際輸出的簡歷識別效果圖;
【具體實施方式】
[0016]以下結(jié)合附圖和具體實施例對本發(fā)明作具體的介紹。
[0017]參照圖1所示,本發(fā)明包括如下步驟:
步驟一:設(shè)定簡歷中潛在的所有關(guān)鍵字。關(guān)鍵字以字典的形式進行儲存。本實施例以一份招聘的簡歷作為說明,如圖2所示。其中的關(guān)鍵字字典以如圖3所示。其關(guān)鍵字包括姓名、性別、出生日期、居住地等。本步驟中,還可以設(shè)定關(guān)鍵字沖突分析策略,所述關(guān)鍵字沖突分析策略用于處理當關(guān)鍵字在簡歷中的多處位置出現(xiàn)時,判斷關(guān)鍵字在簡歷中的真正位置。
[0018]步驟二:選擇需要分析的簡歷;優(yōu)選簡歷的格式為Word格式或者HTML格式。除了常用的Word格式,基于XML的Web文本是一種半結(jié)構(gòu)化文本,而XML則是一種半結(jié)構(gòu)化數(shù)據(jù)描述語言,它克服了傳統(tǒng)Web描述語言HTML只能夠表達數(shù)據(jù)的內(nèi)容,無法表達Web數(shù)據(jù)的結(jié)構(gòu)特征,不便于半結(jié)構(gòu)化數(shù)據(jù)查詢這一不足,正在逐步替代HTML,成為新一代Web數(shù)據(jù)描述與數(shù)據(jù)交換標準基于XML的Web文本在半結(jié)構(gòu)化文本中,格式信息是比較豐富的,而且有固定的標準,所以,該類文本在信息抽取過程中,較之其他半結(jié)構(gòu)化文本,更容易些。
[0019]步驟三:根據(jù)設(shè)定的關(guān)鍵字對簡歷進行預(yù)處理,分析簡歷中包含的關(guān)鍵字。本步驟中,本發(fā)明先對簡歷文本進行分割。分割的目標是將一篇簡歷文本肢解成許多元。由于半結(jié)構(gòu)化文本的基本組成單位是元,所以將一篇文本分解成一個元序列,是機器進行文本信息抽取的關(guān)鍵。分割采用的是基于正則表達式的文本分割?;谡齽t表達式的文本分割可以參照現(xiàn)有技術(shù)實現(xiàn)。
[0020]完成文本分割后,對簡歷進行文本識別。將關(guān)鍵字與簡歷文本進行比對。分析該簡歷中包含哪些關(guān)鍵字信息,如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),判斷關(guān)鍵字在簡歷中的真正位置。如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),這意味著簡歷中的這一重復(fù)出現(xiàn)的關(guān)鍵字有一處位置為真正的關(guān)鍵字信息,其余的位置為普通文本信息。對這些重復(fù)出現(xiàn)的關(guān)鍵字進行模糊分析,判斷哪個為真正的關(guān)鍵字,哪些為普通文本信息。具體來說,如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),根據(jù)關(guān)鍵字沖突分析策略,判斷關(guān)鍵字在簡歷中的真正位置。
[0021]下面給出一種關(guān)鍵字沖突分析策略,其包括:如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),對于關(guān)鍵字出現(xiàn)的每一處位置,在所述位置的前后進行文本分析,檢索時候存在與該關(guān)鍵字對應(yīng)的校驗信息,如果存在所述校驗信息,則判定所述位置為該關(guān)鍵字的真正位置,如果不存在所述校驗信息,則判定所述位置不是該關(guān)鍵字的真正位置。所述校驗信息為出現(xiàn)在真正的關(guān)鍵字前后文本中,與所述真正的關(guān)鍵字信息有關(guān)聯(lián)和校驗關(guān)系的一種文字。舉例來說,對可能沖突的關(guān)鍵字,在它的位置前后進行文本分析,比如“工作經(jīng)驗”出現(xiàn)多次的,如果某一位置所出現(xiàn)的“工作經(jīng)驗”是真正的關(guān)鍵字,那么它后面一般緊跟著時間信息,如2012-09~2013-02,那么就篩選該處位置的“工作經(jīng)驗”為關(guān)鍵字所處位置,如果某處“工作經(jīng)驗”后面不是緊跟著時間的,則判定該處位置的“工作經(jīng)驗”為普通文本信息,而不是真的關(guān)鍵字。
[0022]步驟四:根據(jù)簡歷中包含的關(guān)鍵字信息,區(qū)分簡單信息域和復(fù)雜信息域。簡單信息域包括姓名、年齡、出生年月之類,而復(fù)雜信息域則包含子項,如工作經(jīng)驗、項目經(jīng)驗之類。區(qū)分簡單信息域和復(fù)雜信息域的原因在于復(fù)雜信息域包含子項,需要對子項進行進一步分析。比如工作經(jīng)驗的子項有離職原因、工作單位等。
[0023]步驟五:對復(fù)雜信息域進行二次分析處理,提取子項信息;比如,對上述工作經(jīng)驗提取離職原因、工作單位。進行二次分析處理的實際上仍采用上述步驟三的形式進行處理。提取的子項信息稱為二級關(guān)鍵字。同時獲取二級關(guān)鍵字對應(yīng)的具體信息。包括:分析復(fù)雜信息域包含的關(guān)鍵字,將獲取的關(guān)鍵字定義為二級關(guān)鍵字,提取二級關(guān)鍵字及其對應(yīng)的具體信息。
[0024]步驟六:將簡單信息域、復(fù)雜信息域輸出。輸出格式可以為標準的XML格式數(shù)據(jù)或者JSON格式數(shù)據(jù)。
[0025]實際中,輸出后的簡單信息域、復(fù)雜信息域如圖4所示。
[0026]以上顯示和描述了本發(fā)明的基本原理、主要特征和優(yōu)點。本行業(yè)的技術(shù)人員應(yīng)該了解,上述實施例不以任何形式限制本發(fā)明,凡采用等同替換或等效變換的方式所獲得的技術(shù)方案,均落在本發(fā)明的保護范圍內(nèi)。
【主權(quán)項】
1.一種簡歷識別方法,其特征在于,包括如下步驟: 步驟一:設(shè)定簡歷中潛在的所有關(guān)鍵字; 步驟二:選擇需要分析的簡歷; 步驟三:根據(jù)設(shè)定的關(guān)鍵字對簡歷進行預(yù)處理; 步驟四:根據(jù)簡歷中包含的關(guān)鍵字信息,區(qū)分簡單信息域和復(fù)雜信息域; 步驟五:對復(fù)雜信息域進行二次分析處理,提取子項信息; 步驟六:將簡單信息域、復(fù)雜信息域輸出。2.根據(jù)權(quán)利要求1所述的一種簡歷識別方法,其特征在于,所述步驟一中,還包括設(shè)定關(guān)鍵字沖突分析策略,所述關(guān)鍵字沖突分析策略用于處理當關(guān)鍵字在簡歷中的多處位置出現(xiàn)時,判斷關(guān)鍵字在簡歷中的真正位置。3.根據(jù)權(quán)利要求2所述的一種簡歷識別方法,其特征在于,所述步驟三中,采用正則匹配方式分析簡歷中包含的關(guān)鍵字。4.根據(jù)權(quán)利要求3所述的一種簡歷識別方法,其特征在于,所述步驟三中,如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),根據(jù)關(guān)鍵字沖突分析策略,判斷關(guān)鍵字在簡歷中的真正位置。5.根據(jù)權(quán)利要求4所述的一種簡歷識別方法,其特征在于,所述關(guān)鍵字沖突分析策略包括:如果關(guān)鍵字在簡歷中的多處位置出現(xiàn),對于關(guān)鍵字出現(xiàn)的每一處位置,在所述位置的前后進行文本分析,檢索時候存在與該關(guān)鍵字對應(yīng)的校驗信息,如果存在所述校驗信息,則判定所述位置為該關(guān)鍵字的真正位置,如果不存在所述校驗信息,則判定所述位置不是該關(guān)鍵字的真正位置。6.根據(jù)權(quán)利要求5所述的一種簡歷識別方法,其特征在于,步驟三中,如果獲取了簡歷中的關(guān)鍵字,則繼續(xù)下一步,如果沒有在簡歷中獲取關(guān)鍵字,則結(jié)束分析過程。7.根據(jù)權(quán)利要求6所述的一種簡歷識別方法,其特征在于,所述簡單信息域包括姓名、年齡、出生年月;復(fù)雜信息域包括子項,如工作經(jīng)驗、項目經(jīng)驗。8.根據(jù)權(quán)利要求7所述的一種簡歷識別方法,其特征在于,對復(fù)雜信息域進行二次分析處理包括:分析復(fù)雜信息域包含的關(guān)鍵字,將獲取的關(guān)鍵字定義為二級關(guān)鍵字,提取二級關(guān)鍵字及其對應(yīng)的具體信息。9.根據(jù)權(quán)利要求8所述的一種簡歷識別方法,其特征在于,簡歷的格式為Word格式/HTML格式、PDF格式、txt格式中的任一種。10.根據(jù)權(quán)利要求9所述的一種簡歷識別方法,其特征在于,將簡單信息域及復(fù)雜信息域輸出為標準的XML格式數(shù)據(jù)或者JSON格式數(shù)據(jù)。
【專利摘要】本發(fā)明公開了一種簡歷識別方法,其特征在于,包括如下步驟:步驟一:設(shè)定簡歷中潛在的所有關(guān)鍵字;步驟二:選擇需要分析的簡歷;步驟三:根據(jù)設(shè)定的關(guān)鍵字對簡歷進行預(yù)處理,分析簡歷中包含的關(guān)鍵字;步驟四:根據(jù)簡歷中包含的關(guān)鍵字信息,區(qū)分簡單信息域和復(fù)雜信息域;步驟五:對復(fù)雜信息域進行二次分析處理,提取子項信息;步驟六:將簡單信息域、復(fù)雜信息域輸出。本發(fā)明能夠?qū)崿F(xiàn)對簡歷信息的高效準確提取,提取的準確率高。
【IPC分類】G06F17/30
【公開號】CN105183742
【申請?zhí)枴緾N201510321901
【發(fā)明人】蔡志旻, 沈峰, 王峰, 鄒陽, 張海濤
【申請人】南京富士通南大軟件技術(shù)有限公司
【公開日】2015年12月23日
【申請日】2015年6月12日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1