專利名稱:漢語個(gè)人簡歷信息處理系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及中文信息處理和計(jì)算語言學(xué)中的自然語言理解,尤其涉及一種漢語個(gè)人簡歷信息處理系統(tǒng)和方法。
個(gè)人簡歷信息是人才招聘工作中的一種信息資源,是企事業(yè)單位尋求人才的基本數(shù)據(jù)。尤其是隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的企事業(yè)單位已尋求通過互聯(lián)網(wǎng)來發(fā)現(xiàn)和招聘人才。上網(wǎng)獵取人才不僅可以使企事業(yè)的人事部門擺脫繁重和復(fù)雜的傳統(tǒng)人力勞動(dòng),而且,網(wǎng)絡(luò)豐富的信息資源為企事業(yè)單位提供了廣闊的人才選擇余地。與此同時(shí),作為提供了個(gè)人簡歷信息的各類人才,同樣也增加了被選擇錄用的機(jī)會(huì)。另一方面,正因?yàn)榫W(wǎng)上投遞簡歷的方便性,求職者在短時(shí)間內(nèi)可以同時(shí)申請(qǐng)很多職位,導(dǎo)致許多在互聯(lián)網(wǎng)上進(jìn)行招聘的企業(yè)每天都要收到成百上千的電子簡歷文本。這樣,招聘人才的企業(yè)人事部門就需要投入大量人力處理所收到的大量電子簡歷文本,增加了新的負(fù)擔(dān)。同時(shí),由于各種個(gè)人簡歷的設(shè)計(jì)風(fēng)格以及各人書寫習(xí)慣的不同,個(gè)人簡歷信息的具體格式因人而異,千變?nèi)f化,給數(shù)據(jù)庫建立和人才信息檢索帶來諸多不便。傳統(tǒng)的方法只能依靠人工進(jìn)行分類處理這些格式各異的電子簡歷,將求職者的信息手工錄入到數(shù)據(jù)庫中。為了減輕企事業(yè)人事部門新的負(fù)擔(dān),就需要有一種自動(dòng)處理任意格式的簡歷文本的方法,從簡歷文本中自動(dòng)提取出企業(yè)最為關(guān)心的關(guān)鍵信息。
本發(fā)明的目的的在于提供一種自動(dòng)從任意書寫格式的漢語個(gè)人簡歷文本中提取相關(guān)信息并進(jìn)行格式化處理的漢語個(gè)人簡歷信息處理系統(tǒng)和方法。
根據(jù)本發(fā)明的一個(gè)方面,提供一種漢語個(gè)人簡歷信息處理方法,該方法包括以下步驟對(duì)輸入的漢語個(gè)人簡歷文本進(jìn)行預(yù)處理,形成已標(biāo)注的第一簡歷文本;對(duì)所述第一簡歷文本進(jìn)行分詞處理,形成已標(biāo)注的第二簡歷文本;對(duì)所述第二簡歷文本中的個(gè)人簡歷常用專有名詞組進(jìn)行識(shí)別標(biāo)注,形成已標(biāo)注的第三簡歷文本;對(duì)已標(biāo)注的第三簡歷文本進(jìn)行文本結(jié)構(gòu)分析,形成已標(biāo)注并具有特定類型的文本塊。
根據(jù)本發(fā)明的另一方面,提供一種漢語個(gè)人簡歷信息處理系統(tǒng),它包括用以對(duì)輸入的個(gè)人簡歷文本中的字符、單詞、詞組和專有名詞進(jìn)行標(biāo)注的簡歷文本信息識(shí)別標(biāo)注裝置;以及用以對(duì)識(shí)別標(biāo)注后的個(gè)人簡歷文本進(jìn)行分塊并對(duì)分塊后的文本塊進(jìn)行標(biāo)注、分割和合并組合的簡歷文本結(jié)構(gòu)分析標(biāo)注裝置。
采用本發(fā)明的漢語個(gè)人簡歷信息處理系統(tǒng)和方法,可以對(duì)任何書寫習(xí)慣形成的個(gè)人簡歷文本進(jìn)行處理,抽取出簡歷文本中的主要信息,最終形成一種統(tǒng)一的格式,給人才數(shù)據(jù)庫建立和人才信息檢索帶來了方便。
以下將結(jié)合附圖和較佳實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。本發(fā)明的其它的目的、特征和效果將在以下的描述中變得更加清楚。
圖1是表示根據(jù)本發(fā)明的漢語個(gè)人簡歷信息處理系統(tǒng)的方框圖;圖2是表示根據(jù)本發(fā)明的漢語個(gè)人簡歷信息處理系統(tǒng)的操作流程圖;圖3是表示圖2所示操作流程圖中有關(guān)預(yù)處理流程的更詳細(xì)的流程圖;圖4是表示圖2所示操作流程圖中有關(guān)簡歷文本結(jié)構(gòu)分析流程的更詳細(xì)的流程圖。
參見圖1,本發(fā)明的漢語個(gè)人簡歷信息處理系統(tǒng)包括用以對(duì)輸入的個(gè)人簡歷文本中的字符、單詞、詞組和專有名詞進(jìn)行標(biāo)注的簡歷文本信息識(shí)別標(biāo)注裝置1;用以對(duì)識(shí)別標(biāo)注后的個(gè)人簡歷文本進(jìn)行分塊并對(duì)分塊后的文本塊進(jìn)行標(biāo)注、分割和合并組合的簡歷文本結(jié)構(gòu)分析標(biāo)注裝置2;以及按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出的信息收集匯總裝置3。
其中,簡歷文本信息識(shí)別標(biāo)注裝置1包括用以對(duì)文本中的特定字符進(jìn)行識(shí)別標(biāo)注的預(yù)處理裝置11;對(duì)所述文本進(jìn)行分詞處理的分詞處理裝置12;以及對(duì)所述文本中的個(gè)人簡歷常用專有名詞組進(jìn)行識(shí)別標(biāo)注的專有名詞識(shí)別標(biāo)注裝置13。
簡歷文本結(jié)構(gòu)分析標(biāo)注裝置2包括用以按自然段落對(duì)所述文本進(jìn)行初始分塊的簡歷文本分塊裝置21;對(duì)所述初始分塊的文本塊進(jìn)行匹配標(biāo)注的文本塊標(biāo)注裝置22;對(duì)經(jīng)過標(biāo)注的文本塊進(jìn)行分割,形成具有單一類型的文本塊的文本塊分割裝置23;以及將所述分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊的文本塊組合裝置24。
接下來參見圖2至圖4,它表示根據(jù)本發(fā)明的漢語個(gè)人簡歷信息處理系統(tǒng)的操作流程圖。步驟S1,系統(tǒng)輸入漢語個(gè)人簡歷文本。步驟S2,系統(tǒng)對(duì)輸入的個(gè)人簡歷文本進(jìn)行預(yù)處理,它包括步驟S21,系統(tǒng)對(duì)原始個(gè)人簡歷文本中的數(shù)字、外文單詞和標(biāo)點(diǎn)符號(hào)等進(jìn)行識(shí)別和標(biāo)記;步驟S22,系統(tǒng)進(jìn)一步對(duì)該文本中的日期時(shí)間、URL網(wǎng)頁地址和電子郵件地址等進(jìn)行識(shí)別標(biāo)記。至此,系統(tǒng)形成已標(biāo)注的第一簡歷文本。
步驟S3,系統(tǒng)利用常規(guī)詞典和簡歷詞典對(duì)第一簡歷文本進(jìn)行分詞處理。其中,簡歷詞典是針對(duì)中文簡歷文本專門構(gòu)造的一種專用詞典,它包含了大量從真實(shí)簡歷文本中提取出的粒度較大的組合詞匯。經(jīng)過分詞處理步驟后,系統(tǒng)形成已標(biāo)注的第二簡歷文本。在第二簡歷文本中,出現(xiàn)了可供識(shí)別的中文單詞、常用詞組和個(gè)人簡歷專有名詞及詞組,例如,“北京”、“清華”、“本科”、“畢業(yè)”、“無憂工作網(wǎng)”、“開發(fā)部”、“工程師”、“技術(shù)總監(jiān)”、“教育背景”、“工作經(jīng)歷”、“興趣愛好”等等。
步驟S4,系統(tǒng)利用專有名詞組識(shí)別知識(shí)庫(下稱第一知識(shí)庫)和第一規(guī)則解釋器對(duì)上述第二簡歷文本中的個(gè)人簡歷常用專有名詞組(例如人名、教育機(jī)構(gòu)名稱、專業(yè)名稱、工作單位名稱、工作部門名稱、職稱職務(wù)名稱、項(xiàng)目名稱、擔(dān)當(dāng)角色等)進(jìn)行識(shí)別標(biāo)注。其中,第一知識(shí)庫是針對(duì)個(gè)人簡歷中常用的專有名詞組的特點(diǎn)構(gòu)造的,它包含了許多個(gè)人簡歷常用專有名詞組的結(jié)構(gòu)特征規(guī)則。例如,根據(jù)該規(guī)則,類似“地點(diǎn)名詞(如北京、上海、江蘇省)+一個(gè)或多個(gè)其他名詞(如航空、交通)+教育機(jī)構(gòu)名稱后綴(如大學(xué)、學(xué)院)”這一結(jié)構(gòu)的專有名詞組將被識(shí)別和標(biāo)注為“教育機(jī)構(gòu)名稱”。第一規(guī)則解釋器用以對(duì)第一知識(shí)庫中的詞組結(jié)構(gòu)特征規(guī)則進(jìn)行解釋分析,從而識(shí)別出上述個(gè)人簡歷常用專有名詞組。經(jīng)過專有名詞識(shí)別標(biāo)注步驟后,系統(tǒng)形成已標(biāo)注的第三簡歷文本。
步驟S5,系統(tǒng)對(duì)已標(biāo)注的第三簡歷文本進(jìn)行文本結(jié)構(gòu)分析。它包括步驟S51,按自然段落對(duì)第三簡歷文本進(jìn)行初始分塊;步驟S52,系統(tǒng)利用文本模式知識(shí)庫(下稱第二知識(shí)庫)和第二規(guī)則解釋器對(duì)已經(jīng)初始分塊的文本塊進(jìn)行匹配標(biāo)注。經(jīng)過匹配標(biāo)注后的文本塊既可能是只包含單一類型信息的文本快,也可能是包含多種類型信息的混合文本塊。其中,第二知識(shí)庫包含了許多根據(jù)簡歷文本中不同類型的文本塊的特征構(gòu)造的模式規(guī)則。而第二規(guī)則解釋器則用以對(duì)第二知識(shí)庫中的模式規(guī)則進(jìn)行解釋和分析。例如,根據(jù)該規(guī)則,上述文本塊中類似“存在時(shí)間起止范圍AND存在教育機(jī)構(gòu)名稱AND存在專業(yè)名稱AND存在學(xué)位名稱”的將被標(biāo)注為“教育背景塊”。步驟S53,系統(tǒng)利用第一數(shù)據(jù)庫和特定的決策標(biāo)準(zhǔn)確定混合文本塊的首部類型,所謂首部指該文本塊的最前面的連續(xù)若干句,并且這些句子只包含同一類型的信息,緊跟在首部之后的一句(如果有的話)包含的信息類型與首部的信息類型不同。其中,第一數(shù)據(jù)庫也稱為“信息頻率權(quán)值數(shù)據(jù)庫”,它包含許多從大量真實(shí)簡歷文本統(tǒng)計(jì)出來的不同信息在不同類型文本塊中出現(xiàn)頻率的統(tǒng)計(jì)數(shù)據(jù)。步驟S54,系統(tǒng)利用簡歷文本分塊線索詞典及概率數(shù)據(jù)庫對(duì)上述混合文本塊進(jìn)行分割,即將該文本塊分割成更細(xì)、具有單一類型的文本塊。其中,該分塊線索詞典及概率數(shù)據(jù)庫包含許多從大量真實(shí)簡歷文本中訓(xùn)練、提取出來的分塊線索詞以及這些詞成為簡歷文本分塊標(biāo)記的概率統(tǒng)計(jì)數(shù)據(jù)。步驟S55,系統(tǒng)將以上分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊。例如,基本信息塊、教育背景塊、工作經(jīng)驗(yàn)塊、項(xiàng)目經(jīng)驗(yàn)塊、求職要求塊和其它信息塊等。
步驟S6,系統(tǒng)從各類文本塊中收集相應(yīng)的信息,要收集的信息均已在前面的各步驟中被逐漸識(shí)別標(biāo)注出來了。例如,從個(gè)人基本信息塊中收集姓名、性別、出生日期、婚姻狀況、郵政編碼、電話號(hào)碼、Email地址、居住城市、通信地址或居住地址、身份證號(hào)碼等信息;從教育背景文本塊中收集接受教育的起止年月、教育機(jī)構(gòu)名稱、系名或?qū)I(yè)名稱、學(xué)歷或?qū)W位名稱、最高學(xué)歷名稱、外語極其等級(jí)程度等信息;從工作經(jīng)驗(yàn)文本塊中收集工作起止年月、所在單位名稱、所在部門名稱、擔(dān)任的職稱職務(wù)、工作年數(shù)等信息;從項(xiàng)目經(jīng)驗(yàn)文本塊中收集項(xiàng)目起止年月、項(xiàng)目名稱、開發(fā)工具名稱、硬件環(huán)境名稱、軟件環(huán)境名稱以及擔(dān)任的角色或者職責(zé)等信息;從求職要求文本塊中收集從事的行業(yè)、工作職能名稱、工作地點(diǎn)、月薪要求、期望的單位性質(zhì)等信息、從其它信息文本塊中收集未包含在在上述文本塊內(nèi)的其它信息,如專業(yè)技能、培訓(xùn)經(jīng)歷、獲得的證書名稱、獎(jiǎng)勵(lì)名稱、個(gè)人興趣和個(gè)人愛好等信息。
步驟S7,系統(tǒng)按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出。
以上所述僅僅是本發(fā)明的漢語個(gè)人簡歷信息處理系統(tǒng)和方法的較佳實(shí)施例。根據(jù)本發(fā)明的構(gòu)思,本領(lǐng)域的熟練人員還可以對(duì)此作出各種修改和變換,但這種修改和變換均屬于本發(fā)明的范圍。
權(quán)利要求
1.一種漢語個(gè)人簡歷信息處理方法,其特征在于包括以下步驟對(duì)輸入的個(gè)人簡歷文本進(jìn)行預(yù)處理,形成已標(biāo)注的第一簡歷文本;對(duì)所述第一簡歷文本進(jìn)行分詞處理,形成已標(biāo)注的第二簡歷文本;對(duì)所述第二簡歷文本中的個(gè)人簡歷常用專有名詞組進(jìn)行識(shí)別標(biāo)注,形成已標(biāo)注的第三簡歷文本;對(duì)已標(biāo)注的第三簡歷文本進(jìn)行文本結(jié)構(gòu)分析,形成已標(biāo)注并具有特定類型的文本塊。
2.如權(quán)利要求1所述的方法,其特征在于所述預(yù)處理步驟包括以下步驟對(duì)輸入的個(gè)人簡歷文本中包括數(shù)字、外文單詞和標(biāo)點(diǎn)符號(hào)等類型的字符進(jìn)行識(shí)別和標(biāo)記;對(duì)個(gè)人簡歷文本中包括日期時(shí)間、URL網(wǎng)頁地址和電子郵件地址等類型的字符進(jìn)行識(shí)別和標(biāo)記。
3.權(quán)利要求1所述的方法,其特征在于所述文本結(jié)構(gòu)分析步驟包括以下步驟按自然段落對(duì)第三簡歷文本進(jìn)行初始分塊;對(duì)已經(jīng)初始分塊的文本塊進(jìn)行模式匹配標(biāo)注;對(duì)經(jīng)過模式匹配標(biāo)注的混合文本塊進(jìn)行分割,形成具有單一類型的文本塊;將所述分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊。
4.如權(quán)利要求1所述的方法,其特征在于進(jìn)一步包括從各個(gè)特定類型的文本塊中收集相應(yīng)的信息的步驟。
5.如權(quán)利要求4所述的方法,其特征在于進(jìn)一步包括按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出的步驟。
6.如權(quán)利要求3所述的方法,其特征在于進(jìn)一步包括在對(duì)混合文本塊進(jìn)行分割之前確定所述混合文本塊的首部類型的步驟。
7.一種漢語個(gè)人簡歷信息處理系統(tǒng),其特征在于包括用以對(duì)輸入的漢語個(gè)人簡歷文本中的字符、單詞、詞組和專有名詞進(jìn)行標(biāo)注的簡歷文本信息識(shí)別標(biāo)注裝置;以及用以對(duì)識(shí)別標(biāo)注后的個(gè)人簡歷文本進(jìn)行分塊并對(duì)分塊后的文本塊進(jìn)行標(biāo)注、分割和合并組合的簡歷文本結(jié)構(gòu)分析標(biāo)注裝置。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于所述簡歷文本識(shí)別標(biāo)注裝置包括用以對(duì)文本中的特定字符進(jìn)行識(shí)別標(biāo)注的預(yù)處理裝置;利用常規(guī)詞典和簡歷詞典對(duì)所述文本進(jìn)行分詞處理的分詞處理裝置;以及利用第一知識(shí)庫和第一規(guī)則解釋器對(duì)所述文本中的個(gè)人簡歷常用專有名詞組進(jìn)行識(shí)別標(biāo)注的專有名詞識(shí)別標(biāo)注裝置,所述第一知識(shí)庫含有個(gè)人簡歷常用專有名詞組的結(jié)構(gòu)特征規(guī)則,所述第一規(guī)則解釋器用以對(duì)第一知識(shí)庫中的詞組結(jié)構(gòu)特征規(guī)則進(jìn)行解釋分析。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于所述簡歷文本結(jié)構(gòu)分析標(biāo)注裝置包括用以按自然段落對(duì)所述文本進(jìn)行初始分塊的簡歷文本分塊裝置;利用第二知識(shí)庫和第二規(guī)則解釋器對(duì)所述初始分塊的文本塊進(jìn)行匹配標(biāo)注的文本塊標(biāo)注裝置,所述第二知識(shí)庫含有根據(jù)簡歷文本中不同類型的文本塊的特征構(gòu)造的模式規(guī)則,所述第二規(guī)則解釋器用以對(duì)第二知識(shí)庫中的模式規(guī)則進(jìn)行解釋和分析;利用第一數(shù)據(jù)庫和特定的決策標(biāo)準(zhǔn)對(duì)經(jīng)過模式匹配標(biāo)注的混合文本塊的首部進(jìn)行確定性標(biāo)注的文本塊首部標(biāo)注裝置,所述第一數(shù)據(jù)庫含有從大量真實(shí)簡歷文本統(tǒng)計(jì)出來的不同信息在不同類型文本塊中出現(xiàn)頻率的統(tǒng)計(jì)數(shù)據(jù);利用簡歷文本分塊線索詞典及概率數(shù)據(jù)庫對(duì)經(jīng)過標(biāo)注的文本塊進(jìn)行分割,形成具有單一類型的文本塊的文本塊分割裝置,所述分塊線索詞典及概率數(shù)據(jù)庫含有從大量真實(shí)簡歷文本中訓(xùn)練、提取出來的分塊線索詞以及這些詞成為簡歷文本分塊標(biāo)記的概率統(tǒng)計(jì)數(shù)據(jù);以及將所述分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊的文本塊組合裝置。
10.如權(quán)利要求7至9任一所述的系統(tǒng),其特征在于進(jìn)一步包括按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出的信息收集匯總裝置。
全文摘要
漢語個(gè)人簡歷信息處理方法和系統(tǒng),包括對(duì)輸入的漢語個(gè)人簡歷文本進(jìn)行預(yù)處理形成已標(biāo)注的第一簡歷文本;對(duì)第一簡歷文本進(jìn)行分詞處理形成已標(biāo)注的第二簡歷文本;對(duì)第二簡歷文本中的個(gè)人簡歷常用專有名詞組進(jìn)行識(shí)別標(biāo)注形成已標(biāo)注的第三簡歷文本;對(duì)已標(biāo)注的第三簡歷文本進(jìn)行文本結(jié)構(gòu)分析形成已標(biāo)注并具有特定類型的文本塊。該方法和系統(tǒng)可以對(duì)個(gè)人簡歷文本進(jìn)行處理,抽取出簡歷文本中的主要信息,最終形成一種統(tǒng)一的格式。
文檔編號(hào)G06F17/21GK1367446SQ0110528
公開日2002年9月4日 申請(qǐng)日期2001年1月22日 優(yōu)先權(quán)日2001年1月22日
發(fā)明者呂楠, 鄭飛 申請(qǐng)人:前程無憂網(wǎng)絡(luò)信息技術(shù)(北京)有限公司上海分公司