亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于n?gram模型的簡歷解析方法與流程

文檔序號(hào):11230657閱讀:357來源:國知局
本發(fā)明涉及計(jì)算機(jī)科學(xué)
技術(shù)領(lǐng)域
,特別是涉及一種基于n-gram模型的簡歷解析方法。
背景技術(shù)
:隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)中容納了海量的、類型各異的原始數(shù)據(jù)信息。在日常生活中,簡歷是一類十分常見而又重要的文本,它包含了作者的基本情況、工作經(jīng)驗(yàn)等信息。因此,如何從海量的簡歷中自動(dòng)、迅速、準(zhǔn)確地抽取有用的信息,成為各大招聘網(wǎng)站、公司和企業(yè)的hr部門迫切需求。簡歷解析本質(zhì)上是文本信息抽取的應(yīng)用體現(xiàn)。目前的文本信息抽取模型主要有3種:基于詞典的抽取模型、基于規(guī)則的抽取模型和基于隱馬爾可夫模型的抽取模型?,F(xiàn)有的應(yīng)用上述3種文本信息抽取模型的簡歷解析方案多采用簡單的關(guān)鍵字匹配方法,對(duì)自由格式的文本適應(yīng)性弱、信息抽取準(zhǔn)確率低,只能處理特定格式的簡歷。技術(shù)實(shí)現(xiàn)要素:本發(fā)明主要解決的技術(shù)問題是提供一種基于n-gram模型的簡歷解析方法,能夠提高信息抽取準(zhǔn)確率并支持不同文件格式。為解決上述技術(shù)問題,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種基于n-gram模型的簡歷解析方法,包括:s1:收集預(yù)定數(shù)量的簡歷樣本;s2:統(tǒng)計(jì)所述簡歷樣本中的常用字段關(guān)鍵詞,并將常用字段關(guān)鍵詞按照不同描述類型劃分為不同類別,形成分類詞典;s3:將所述簡歷樣本中緊鄰每一常用字段關(guān)鍵詞之后出現(xiàn)的非關(guān)鍵詞記為樣本關(guān)聯(lián)詞,并采用n-gram模型統(tǒng)計(jì)每一常用字段關(guān)鍵詞轉(zhuǎn)變到各樣本關(guān)聯(lián)詞的轉(zhuǎn)移概率;s4:將待解析簡歷的文件格式轉(zhuǎn)換為純文本格式;s5:采用最大匹配算法在所述待解析簡歷中查找與分類詞典中的常用字段關(guān)鍵詞相匹配的目標(biāo)關(guān)鍵詞;s6:判斷所述目標(biāo)關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率是否大于預(yù)定閾值,如果大于預(yù)定閾值,則將目標(biāo)關(guān)鍵詞判定為有效關(guān)鍵詞;s7:將所述待解析簡歷中緊鄰每一有效關(guān)鍵詞之后出現(xiàn)的非關(guān)鍵詞記為有效關(guān)聯(lián)詞,并根據(jù)所述有效關(guān)聯(lián)詞更新每一常用字段關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率;s8:利用所述分類詞典對(duì)待解析簡歷中的有效關(guān)鍵詞增加前綴標(biāo)注和后綴標(biāo)注;s9:根據(jù)所述前綴標(biāo)注和后綴標(biāo)注對(duì)待解析簡歷的文本內(nèi)容進(jìn)行分段提取,并將分段提取后的文本內(nèi)容按照預(yù)定格式進(jìn)行輸出。優(yōu)選的,所述非關(guān)鍵詞為連續(xù)兩個(gè)字符,所述步驟s3具體為;采用tri-gram模型統(tǒng)計(jì)每一常用字段關(guān)鍵詞轉(zhuǎn)變到各樣本關(guān)聯(lián)詞的轉(zhuǎn)移概率。優(yōu)選的,所述步驟s5具體包括:將所述待解析簡歷的文本內(nèi)容按照預(yù)定長度進(jìn)行切分,形成待分詞文本;掃描所述待分詞文本,當(dāng)掃描到與分類詞典中的常用字段關(guān)鍵詞相匹配的第一個(gè)字符時(shí),從所述第一個(gè)字符開始記錄,直到掃描不到與分類詞典中的常用字段關(guān)鍵詞相匹配的字符為止;將記錄下的所有字符組成目標(biāo)關(guān)鍵詞。優(yōu)選的,所述根據(jù)所述有效關(guān)聯(lián)詞更新每一常用字段關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率的步驟具體為:判斷所述各樣本關(guān)聯(lián)詞中是否存在與有效關(guān)聯(lián)詞相同的樣本關(guān)聯(lián)詞;如果存在與有效關(guān)聯(lián)詞相同的樣本關(guān)聯(lián)詞,則更新每一常用字段關(guān)鍵詞轉(zhuǎn)變到有效關(guān)聯(lián)詞的轉(zhuǎn)移概率;如果不存在與有效關(guān)聯(lián)詞相同的樣本關(guān)聯(lián)詞,則統(tǒng)計(jì)每一常用字段關(guān)鍵詞轉(zhuǎn)變到有效關(guān)聯(lián)詞的轉(zhuǎn)移概率。優(yōu)選的,所述步驟s8具體包括:查詢所述有效關(guān)鍵詞在所述分類詞典中所屬的類別;按照所屬的類別對(duì)待解析簡歷中的有效關(guān)鍵詞增加前綴標(biāo)注和后綴標(biāo)注。優(yōu)選的,所述步驟s9具體包括:將所述待解析簡歷中當(dāng)前有效關(guān)鍵詞的后綴標(biāo)注與下一個(gè)有效關(guān)鍵詞的前綴標(biāo)注之間或者與所述待解析簡歷的文本結(jié)束符之間的文本內(nèi)容作為當(dāng)前有效關(guān)鍵詞的描述信息;依次提取每一有效關(guān)鍵詞及其對(duì)應(yīng)的描述信息;將每一有效關(guān)鍵詞及其對(duì)應(yīng)的描述信息按照預(yù)定格式進(jìn)行輸出。優(yōu)選的,所述預(yù)定格式為json格式。優(yōu)選的,所述待解析簡歷的文件格式至少包括doc格式、pdf格式或html格式。優(yōu)選的,所述簡歷樣本的語言為中文。與現(xiàn)有技術(shù)相比,本發(fā)明可以獲得以下技術(shù)效果:1)由于基于n-gram模型,具有對(duì)不同格式的簡歷適應(yīng)性好、準(zhǔn)確率高的優(yōu)點(diǎn)。2)可以為不同文件格式、自由排版的簡歷提取所有關(guān)鍵字,不但方便求職者快速投遞簡歷,提高求職效率;也方便招聘網(wǎng)站、單位實(shí)現(xiàn)自動(dòng)化抽取信息并存儲(chǔ)為人才資源庫,同時(shí)提高了招聘網(wǎng)站、單位對(duì)簡歷的篩選效率,具有很強(qiáng)的實(shí)用性。附圖說明圖1是本發(fā)明實(shí)施例提供的簡歷解析方法的流程示意圖。具體實(shí)施例下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。參閱圖1,是本發(fā)明實(shí)施例提供的簡歷解析方法的流程示意圖。本實(shí)施例的簡歷解析方法包括以下步驟:s1:收集預(yù)定數(shù)量的簡歷樣本。其中,簡歷樣本可以從各類招聘網(wǎng)站上收集。述簡歷樣本的語言為中文,也可以為英文或其他語言。簡歷樣本的文件格式可以是doc格式、pdf格式或html格式。預(yù)訂數(shù)量可以根據(jù)實(shí)際需要設(shè)定,例如是300份。s2:統(tǒng)計(jì)簡歷樣本中的常用字段關(guān)鍵詞,并將常用字段關(guān)鍵詞按照不同描述類型劃分為不同類別,形成分類詞典。其中,常用字段關(guān)鍵詞是預(yù)先設(shè)定的關(guān)鍵字。不同描述類型用于區(qū)分常用字段關(guān)鍵詞表述的類別,常用字段關(guān)鍵詞的類別劃分舉例如下:(1)姓名、性別、年齡等信息的描述類型為基本信息類,因此將姓名、性別、年齡等信息劃分為類別i;(2)工作經(jīng)驗(yàn)、工作經(jīng)歷、就業(yè)經(jīng)歷等信息的描述類型為工作經(jīng)驗(yàn)類,因此將作經(jīng)驗(yàn)、工作經(jīng)歷、就業(yè)經(jīng)歷等信息劃分為類別w;(3)教育經(jīng)歷、學(xué)歷等信息的描述類型為教育經(jīng)驗(yàn)類,因此將教育經(jīng)歷、學(xué)歷等信息劃分為類別e;(4)外語水平、計(jì)算機(jī)水平等信息的描述類型為其他技能類,因此將外語水平、計(jì)算機(jī)水平等信息劃分為類別s。分類詞典結(jié)構(gòu)如下所示:姓名i性別i年齡i......教育經(jīng)歷e學(xué)歷e......工作經(jīng)驗(yàn)w工作經(jīng)歷w.......技能s外語水平s.......s3:將簡歷樣本中緊鄰每一常用字段關(guān)鍵詞之后出現(xiàn)的非關(guān)鍵詞記為樣本關(guān)聯(lián)詞,并采用n-gram模型統(tǒng)計(jì)每一常用字段關(guān)鍵詞轉(zhuǎn)變到各樣本關(guān)聯(lián)詞的轉(zhuǎn)移概率。其中,非關(guān)鍵詞的字符個(gè)數(shù)與n的取值有關(guān),在本實(shí)施例中,非關(guān)鍵詞為連續(xù)兩個(gè)字符,則n的取值為3,步驟s3具體為;采用tri-gram模型統(tǒng)計(jì)每一常用字段關(guān)鍵詞轉(zhuǎn)變到各樣本關(guān)聯(lián)詞的轉(zhuǎn)移概率。轉(zhuǎn)移概率可以采用五元組來表示,五元組的數(shù)據(jù)形式為(常用字段關(guān)鍵詞,字符1,字符2,出現(xiàn)頻數(shù),轉(zhuǎn)移概率)。例如對(duì)于“工作經(jīng)驗(yàn):有20年日用品行業(yè)銷售…”這樣的序列,需要統(tǒng)計(jì)常用字段關(guān)鍵詞“工作經(jīng)驗(yàn)”轉(zhuǎn)變到樣本關(guān)聯(lián)詞“:有”的轉(zhuǎn)移概率,則轉(zhuǎn)移概率保存為如下五元組:("工作經(jīng)驗(yàn)",":","有","23","0.0241")。s4:將待解析簡歷的文件格式轉(zhuǎn)換為純文本格式。其中,可以采用已有的文件格式轉(zhuǎn)換包,將待解析簡歷的文件格式轉(zhuǎn)換為純文本格式。s5:采用最大匹配算法在待解析簡歷中查找與分類詞典中的常用字段關(guān)鍵詞相匹配的目標(biāo)關(guān)鍵詞。其中,最終查找到的目標(biāo)關(guān)鍵詞可能為多個(gè),也可能沒有。在本實(shí)施例中,步驟s5具體包括:將待解析簡歷的文本內(nèi)容按照預(yù)定長度進(jìn)行切分,形成待分詞文本;掃描待分詞文本,當(dāng)掃描到與分類詞典中的常用字段關(guān)鍵詞相匹配的第一個(gè)字符時(shí),從第一個(gè)字符開始記錄,直到掃描不到與分類詞典中的常用字段關(guān)鍵詞相匹配的字符為止;將記錄下的所有字符組成目標(biāo)關(guān)鍵詞轉(zhuǎn)變到各樣本關(guān)聯(lián)詞的轉(zhuǎn)移概率。舉例而言,假設(shè)預(yù)定長度為一個(gè)字符,待分詞文本為sentence[]={"工","作","經(jīng)","驗(yàn)",":","有","2","0","年"},分類詞典中的常用字段關(guān)鍵詞為工作和工作經(jīng)驗(yàn),那么掃描過程如下:(1)從sentence[1]開始掃描,當(dāng)掃描到sentence[2]的時(shí)候,發(fā)現(xiàn)"工作"與常用字段關(guān)鍵詞“工作”相匹配。但此時(shí)還不能將字符“工作”切分出來,因?yàn)檫€不能確定“工作”是否已經(jīng)是最長的常用字段關(guān)鍵詞。(2)繼續(xù)掃描sentence[3],發(fā)現(xiàn)"工作經(jīng)"并不是分類詞典中的常用字段關(guān)鍵詞。但是還不能確定"工作經(jīng)"是否已經(jīng)是最長的目標(biāo)關(guān)鍵詞,因?yàn)?工作經(jīng)"是常用字段關(guān)鍵詞“工作經(jīng)驗(yàn)”的前綴。(3)繼續(xù)掃描sentence[4],發(fā)現(xiàn)"工作經(jīng)驗(yàn)"是分類詞典中的常用字段關(guān)鍵詞,記錄下繼續(xù)掃描下去:(4)當(dāng)掃描sentence[5]的時(shí)候,發(fā)現(xiàn)"工作經(jīng)驗(yàn):"并不是分類詞典中的常用字段關(guān)鍵詞,也不是常用字段關(guān)鍵詞的前綴。因此可以切分出前面最大的詞——"工作經(jīng)驗(yàn)",即進(jìn)行最大匹配。由此可見,最大匹配出的目標(biāo)關(guān)鍵詞必須保證下一個(gè)掃描不是常用字段關(guān)鍵詞或常用字段關(guān)鍵詞的前綴才可以結(jié)束。s6:判斷目標(biāo)關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率是否大于預(yù)定閾值,如果大于預(yù)定閾值,則將目標(biāo)關(guān)鍵詞判定為有效關(guān)鍵詞。其中,預(yù)定閾值可以根基實(shí)際需要設(shè)定。目標(biāo)關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率即為與目標(biāo)關(guān)鍵詞匹配的常用字段關(guān)鍵詞。s7:將待解析簡歷中緊鄰每一有效關(guān)鍵詞之后出現(xiàn)的非關(guān)鍵詞記為有效關(guān)聯(lián)詞,并根據(jù)有效關(guān)聯(lián)詞更新每一常用字段關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率。其中,在本實(shí)施例中,根據(jù)有效關(guān)聯(lián)詞更新每一常用字段關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率的步驟具體包括:判斷各樣本關(guān)聯(lián)詞中是否存在與有效關(guān)聯(lián)詞相同的樣本關(guān)聯(lián)詞;如果存在與有效關(guān)聯(lián)詞相同的樣本關(guān)聯(lián)詞,則更新每一常用字段關(guān)鍵詞轉(zhuǎn)變到有效關(guān)聯(lián)詞的轉(zhuǎn)移概率;如果不存在與有效關(guān)聯(lián)詞相同的樣本關(guān)聯(lián)詞,則統(tǒng)計(jì)每一常用字段關(guān)鍵詞轉(zhuǎn)變到有效關(guān)聯(lián)詞的轉(zhuǎn)移概率。其中,有效關(guān)聯(lián)詞確定后,如果有效關(guān)聯(lián)詞存在于常用字段關(guān)鍵詞對(duì)應(yīng)的各樣本關(guān)聯(lián)詞中,則先將對(duì)應(yīng)的五元組中的出現(xiàn)頻數(shù)和總頻數(shù)增加一,再將對(duì)應(yīng)的五元組中的出現(xiàn)頻數(shù)除以總頻數(shù)即可得到新的轉(zhuǎn)移概率,將新的轉(zhuǎn)移概率寫入五元組中;如果有效關(guān)聯(lián)詞沒有存在于常用字段關(guān)鍵詞對(duì)應(yīng)的各樣本關(guān)聯(lián)詞中,則建立一個(gè)新的五元組,新的五元組的出現(xiàn)頻數(shù)為一,將出現(xiàn)頻數(shù)除以總頻數(shù)即可得到轉(zhuǎn)移概率,將轉(zhuǎn)移概率寫入新的五元組中。s8:利用分類詞典對(duì)待解析簡歷中的有效關(guān)鍵詞增加前綴標(biāo)注和后綴標(biāo)注。其中,在本實(shí)施例中,步驟s8具體包括:查詢有效關(guān)鍵詞在分類詞典中所屬的類別;按照所屬的類別對(duì)待解析簡歷中的有效關(guān)鍵詞增加前綴標(biāo)注和后綴標(biāo)注。其中,增加前綴標(biāo)注和后綴標(biāo)注,有效關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu)變?yōu)轭悇e_s+有效關(guān)鍵詞+類別_e。舉例而言,例如查找到有效關(guān)鍵詞為姓名,姓名屬于基本信息類,增加前綴標(biāo)注和后綴標(biāo)注后,變?yōu)閕_s姓名i_e。其中,經(jīng)過步驟s8處理后,待解析簡歷的文本內(nèi)容變?yōu)椋侯悇e_s+有效關(guān)鍵詞1+類別_e+描述信息+類別_s+有效關(guān)鍵詞2+類別_e+描述信息+……文本結(jié)束符。s9:根據(jù)前綴標(biāo)注和后綴標(biāo)注對(duì)待解析簡歷的文本內(nèi)容進(jìn)行分段提取,并將分段提取后的文本內(nèi)容按照預(yù)定格式進(jìn)行輸出。其中,在本實(shí)施例中,步驟s9具體包括:將待解析簡歷中當(dāng)前有效關(guān)鍵詞的后綴標(biāo)注與下一個(gè)有效關(guān)鍵詞的前綴標(biāo)注之間或者與待解析簡歷的文本結(jié)束符之間的文本內(nèi)容作為當(dāng)前有效關(guān)鍵詞的描述信息;依次提取每一有效關(guān)鍵詞及其對(duì)應(yīng)的描述信息;將每一有效關(guān)鍵詞及其對(duì)應(yīng)的描述信息按照預(yù)定格式進(jìn)行輸出。其中,提取描述信息后,當(dāng)前有效關(guān)鍵詞的后綴標(biāo)注類別_e到下一個(gè)有效關(guān)鍵詞的前綴標(biāo)注類別_s之間的文本內(nèi)容,即為當(dāng)前有效關(guān)鍵詞對(duì)應(yīng)的描述信息,對(duì)于最后一個(gè)有效關(guān)鍵詞,其對(duì)應(yīng)的描述信息為最后一個(gè)有效關(guān)鍵詞的后綴標(biāo)注類別_e與文本結(jié)束符之前的文本內(nèi)容。每一有效關(guān)鍵詞及其對(duì)應(yīng)的描述信息可以輸出到統(tǒng)一的數(shù)據(jù)表中,并且預(yù)定格式可以是json格式。通過上述方式,本發(fā)明實(shí)施例的簡歷解析方法通過預(yù)先收集簡歷樣本,將常用字段關(guān)鍵詞劃分為不同類別形成分類詞典,采用n-gram模型統(tǒng)計(jì)出每一常用字段關(guān)鍵詞轉(zhuǎn)變到各樣本關(guān)聯(lián)詞的轉(zhuǎn)移概率,需要處理待解析簡歷時(shí),首先查找待解析簡歷中與常用字段關(guān)鍵詞相匹配的目標(biāo)關(guān)鍵詞,如果目標(biāo)關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率大于預(yù)定閾值,則根據(jù)目標(biāo)關(guān)鍵詞更新每一常用字段關(guān)鍵詞對(duì)應(yīng)的轉(zhuǎn)移概率,并對(duì)待解析簡歷中的有效關(guān)鍵詞增加前綴標(biāo)注和后綴標(biāo)注,再對(duì)待解析簡歷的文本內(nèi)容進(jìn)行分段提取并輸出,從而能夠提高信息抽取準(zhǔn)確率并支持不同文件格式。以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域
,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1