專利名稱:一種語料結(jié)構(gòu)化的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種語料結(jié)構(gòu)化的方法及裝置。
背景技術(shù):
在目前的信息發(fā)布領(lǐng)域,很多信息都是通過紙質(zhì)媒介發(fā)布后,對(duì)已出版文件的存檔一般最小存儲(chǔ)單位是一篇文檔。使得再版或者需要對(duì)某一文檔的特定內(nèi)容進(jìn)行搜索時(shí),必須逐行逐字的查詢。無法滿足對(duì)一篇文檔內(nèi)部特定內(nèi)容(如正文、注文、專有名詞等)的高級(jí)檢索要求,無法滿足對(duì)古籍中某些內(nèi)容的深度加工,例如,根據(jù)考古發(fā)現(xiàn)修改或擴(kuò)展古籍的注文;另外,此種出版方式留下的古籍語料文件的特點(diǎn)是古籍的內(nèi)容與樣式混合在同一個(gè)語料文件中,僅考慮瀏覽需要使用不同的顏色、下劃線等樣式區(qū)分了古籍中的不同類,等同于一個(gè)帶樣式的字符序列;此種出版方式古籍內(nèi)容組成無結(jié)構(gòu)化,導(dǎo)致再次出版時(shí),若需要改動(dòng)特定內(nèi)容的樣式(如將注文的顏色由深紅改為深藍(lán)),則必須重新對(duì)每篇古籍做整體修改;由于每篇古籍語料篇幅長,特定內(nèi)容在古籍中出現(xiàn)次數(shù)很多,例如一篇3萬字的古籍,專有名詞可能出現(xiàn)幾千次,因此手工從古籍語料文件中抽取特定內(nèi)容效率低下,容易出錯(cuò)。綜上所述,在古籍采用印刷出版方式發(fā)布信息的領(lǐng)域中,數(shù)字資源的再利用率低,不能直接應(yīng)用于古籍高級(jí)檢索,不便于信息的深度加工,不便于快速再版,并且手工從數(shù)字資源中提取內(nèi)容效率低下。
發(fā)明內(nèi)容
本發(fā)明提供一種語料結(jié)構(gòu)化的方法及裝置,用于解決現(xiàn)有技術(shù)中預(yù)料文件的存儲(chǔ)方式導(dǎo)致從數(shù)字資源中提取內(nèi)容效率低下的問題。本發(fā)明實(shí)施例提供一種語料結(jié)構(gòu)化的方法,包括獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件;根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件中提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息;根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合成結(jié)構(gòu)化的語料文件后上傳到服務(wù)器存儲(chǔ)。根據(jù)該方法本發(fā)明實(shí)施例還提供一種語料結(jié)構(gòu)化的裝置,包括中間文件生成模塊,用于獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件;字符信息提取模塊,用于根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件中提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息;
結(jié)構(gòu)化模塊,用于根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合成結(jié)構(gòu)化的語料文件后上傳到服務(wù)器存儲(chǔ)。應(yīng)用本發(fā)明實(shí)施例提供的方法和裝置,對(duì)于以整篇文檔為存儲(chǔ)單位的語料文件,按照將語料文件各個(gè)部分的劃分將語料文件分成多個(gè)獨(dú)立的組成部分。在搜索文檔中的某個(gè)部分或標(biāo)題內(nèi)容時(shí)候,能夠靈活、迅速的獲取到。
圖1為本發(fā)明實(shí)施例一種語料結(jié)構(gòu)化的方法的流程圖;圖2為本發(fā)明實(shí)施例一種語料結(jié)構(gòu)化的裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式本發(fā)明實(shí)施例提供一種語料結(jié)構(gòu)化的方法,該方法包括獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件;根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中設(shè)定的字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息;根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中設(shè)定的不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合后上傳到服務(wù)器,使服務(wù)器存儲(chǔ)結(jié)構(gòu)化的語料文件。如圖1所示,本發(fā)明實(shí)施例提供一種語料結(jié)構(gòu)化的方法,具體包括步驟步驟101,獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件;每一篇語料文件的不同特定內(nèi)容包括正文、注文、專有名詞等;在每一篇語料文件中可能不同部分的字體的大小、字體的樣式、字體顏色等會(huì)不相同,從而起到區(qū)分不同部分的效果。步驟102,根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件中提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息;為了提高所述自動(dòng)結(jié)構(gòu)化規(guī)則和所述中間文件的對(duì)各種設(shè)備的兼容性,本發(fā)明實(shí)施例中的自動(dòng)結(jié)構(gòu)化規(guī)則和所述中間文件可應(yīng)用可擴(kuò)展標(biāo)記語言XML來編寫。步驟103,根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合成結(jié)構(gòu)化的語料文件后上傳到服務(wù)器存儲(chǔ)。為了實(shí)現(xiàn)對(duì)存儲(chǔ)的語料文件進(jìn)行更新,本發(fā)明實(shí)施例還包括步驟104,服務(wù)器接收信息更新請(qǐng)求,并根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的語料文件。其中,所述更新存儲(chǔ)的語料文件的操作包括更改、擴(kuò)展、刪除等。更新服務(wù)器中存儲(chǔ)的數(shù)據(jù)文件的具體實(shí)現(xiàn)方式可以是服務(wù)器在存儲(chǔ)所述結(jié)構(gòu)化的語料文件時(shí),為每篇語料文件動(dòng)態(tài)生成唯一的標(biāo)識(shí)ID 服務(wù)器獲取信息更新請(qǐng)求中的語料文件名稱和語料文件標(biāo)識(shí)ID,確定待更新的語料文件后,更新語料文件中的相應(yīng)字符信息。另外,為了提高語料文件的安全性,服務(wù)器在根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的信息之前,還對(duì)發(fā)送信息更新請(qǐng)求的設(shè)備進(jìn)行身份驗(yàn)證,并在驗(yàn)證通過后,根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的語料文件。在具體的應(yīng)用中,由于古籍語料篇幅長,特定內(nèi)容在古籍中出現(xiàn)次數(shù)很多;古籍語料文件中,古籍的文字內(nèi)容與樣式混合在同一個(gè)語料文件中等特點(diǎn)。本發(fā)明實(shí)施例對(duì)古籍語料進(jìn)行結(jié)構(gòu)化時(shí),具體的實(shí)現(xiàn)方式可以是古籍語料文件中保存古籍語料的內(nèi)容和樣式,一個(gè)語料文件一般只含有一篇古籍語料,每一篇古籍語料的不同特定內(nèi)容(如正文、注文、專有名詞等)都以不同的樣式排版(如顏色、下劃線、波浪線等),除字體屬性信息外不同特定內(nèi)容之間沒有明顯的區(qū)分(如換行、換段等)。因此,本發(fā)明實(shí)施例中,基于自動(dòng)結(jié)構(gòu)化裝置對(duì)語料語料文件進(jìn)行自動(dòng)信息提取以及確定層次關(guān)系,保存到服務(wù)器中。首先,選定古籍語料文件,根據(jù)語料文件中的字體屬性信息(如字體顏色、下劃線樣式等),從語料文件生成帶有顯式字體屬性信息描述的中間文件,一個(gè)具體示例如下
<body>
〈font style="font-family:宋體;font-size:18.0pt;color:#7030A0”>
<b>漢書卷五十一 </b>
</font>
</p>
〈font style="font-family:宋體;font-size:18.0pt;color:#008000”>
<b>賈鄒枚路傳第二十一 </b>
</font></p>
〈font style="font-family:宋體;font-size: 16.0pt;color:#92D050">
<b> [賈山]</b>
</font>
</p>
〈font style="font-family:宋體;font-size: 12.0pt;color:#000000">
<u class="line'’>賈山</u><u class='’line">潁川 </u>人也。祖父 (祛),故 <u class=”line”>魏王</u>時(shí)博士弟子也?!惨弧?lt;u class="line”>山</u> 受學(xué)(祛),所言涉狼書記,不能爲(wèi)醇儒?!捕硣L給事<u class="line">|M陰侯</u> 爲(wèi)騎。〔三〕</font>
</p>
〈font style="font-family:宋體;font-size:10.5pt;color:#800000">
〔一〕<u class="line"> 師古 </u> 曰「<u class="line"> 六國 </u> 時(shí) <u class="linen>魏</u>也。」</font>
</p>
〈font style="font-family:宋體;font-size:10.5pt;color:#800000"> 〔二〕<u class=”line”>師古</u>曰「涉若涉水,獵若獵獸,言歷覽之不專精也。
醇者,不雜也?!?lt;/font>
</p>
〈font style="font-family:宋體;font-size:10.5pt;color:#800000"> 〔三〕<u c,lass="line”>師古</u>曰「爲(wèi)騎者,常騎馬而從也。」</font>
</p>
</body>以上內(nèi)容中,由〈P〉節(jié)點(diǎn)包含古籍的一段內(nèi)容,〈font〉節(jié)點(diǎn)中的color屬性里以“#”開頭的值就是特定內(nèi)容對(duì)應(yīng)的顏色,由〈U〉和<b>節(jié)點(diǎn)包含的分別是古籍中有下劃線和加粗的內(nèi)容。可見原來古籍語料文件中只能用肉眼識(shí)別的字體屬性信息在中間文件中顯式表示出來。其次,對(duì)古籍語料文件進(jìn)行分析,確定自動(dòng)結(jié)構(gòu)化的規(guī)則,該規(guī)則中包括的信息有古籍語料文件不同特定內(nèi)容對(duì)應(yīng)的字體屬性信息、古籍語料文件不同特定內(nèi)容的層次關(guān)系。在確定自動(dòng)結(jié)構(gòu)化規(guī)則時(shí),應(yīng)根據(jù)用戶的應(yīng)用要求確定,例如某本古籍圖書確定的規(guī)則的一個(gè)示例如下所示
權(quán)利要求
1.一種語料結(jié)構(gòu)化的方法,其特征在于,包括 獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件; 根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件中提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息; 根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合成結(jié)構(gòu)化的語料文件后上傳到服務(wù)器存儲(chǔ)。
2.如權(quán)利要求I所述的方法,其特征在于,所述自動(dòng)結(jié)構(gòu)化規(guī)則和所述中間文件通過可擴(kuò)展標(biāo)記語言XML實(shí)現(xiàn)。
3.如權(quán)利要求I所述的方法,其特征在于,更新服務(wù)器保存的結(jié)構(gòu)化的語料文件包括 服務(wù)器接收信息更新請(qǐng)求,并根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的結(jié)構(gòu)化的語料文件。
4.如權(quán)利要求3所述的方法,其特征在于,所述更新存儲(chǔ)的語料文件的操作包括更改、擴(kuò)展、刪除操作。
5.如權(quán)利要求3 4任一權(quán)項(xiàng)所述的方法,其特征在于,服務(wù)器在根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的語料文件之前,進(jìn)一步包括 對(duì)發(fā)送信息更新請(qǐng)求的設(shè)備進(jìn)行身份驗(yàn)證,并在驗(yàn)證通過后,根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的信息。
6.如權(quán)利要求3所述的方法,其特征在于,服務(wù)器在存儲(chǔ)所述結(jié)構(gòu)化的語料文件時(shí),為每篇語料文件動(dòng)態(tài)生成唯一的標(biāo)識(shí),則服務(wù)器根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的信息包括 服務(wù)器獲取信息更新請(qǐng)求中的語料文件名稱和語料文件標(biāo)識(shí),確定待更新的語料文件后,更新語料文件中的相應(yīng)字符信息。
7.一種語料結(jié)構(gòu)化的裝置,其特征在于,包括 中間文件生成模塊,用于獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件; 字符信息提取模塊,用于根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件中提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息; 結(jié)構(gòu)化模塊,用于根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合成結(jié)構(gòu)化的語料文件后上傳到服務(wù)器存儲(chǔ)。
8.如權(quán)利要求7所述的裝置,其特征在于,該裝置包括 更新模塊,用于接收信息更新請(qǐng)求,并根據(jù)接收的信息更新請(qǐng)求更新服務(wù)器存儲(chǔ)的結(jié)構(gòu)化的語料文件。
9.如權(quán)利要求7所述的裝置,其特征在于,該裝置還包括 驗(yàn)證模塊,用于對(duì)發(fā)送信息更新請(qǐng)求的設(shè)備進(jìn)行身份驗(yàn)證,并在驗(yàn)證通過后,根據(jù)接收的信息更新請(qǐng)求更新存儲(chǔ)的語料文件。
10.如權(quán)利要求7所述的裝置,其特征在于,所述更新模塊還用于獲取信息更新請(qǐng)求中的語料文件名稱和語料文件標(biāo)識(shí),確定待更新的語料文件后,更新語料文件中的相應(yīng)字符信息。
全文摘要
本發(fā)明公開了一種語料結(jié)構(gòu)化的方法及裝置,應(yīng)用于信息處理技術(shù)領(lǐng)域。該方法包括獲取待結(jié)構(gòu)化語料對(duì)應(yīng)的語料文件,根據(jù)語料文件中字符的字體屬性信息在所述語料文件不同特定內(nèi)容間添加分割標(biāo)簽生成中間文件;根據(jù)預(yù)設(shè)的自動(dòng)結(jié)構(gòu)化規(guī)則中字體屬性信息與特定內(nèi)容的對(duì)應(yīng)關(guān)系,從所述中間文件中提取與所述特定內(nèi)容對(duì)應(yīng)的字符信息;根據(jù)所述自動(dòng)結(jié)構(gòu)化規(guī)則中不同特定內(nèi)容的層次關(guān)系將提取的字符信息組合成結(jié)構(gòu)化的語料文件后上傳到服務(wù)器存儲(chǔ)。應(yīng)用本發(fā)明提供的方法和裝置將語料文件進(jìn)行結(jié)構(gòu)化,從而能夠滿足精確檢索的要求。
文檔編號(hào)G06F17/30GK102982036SQ20111026037
公開日2013年3月20日 申請(qǐng)日期2011年9月5日 優(yōu)先權(quán)日2011年9月5日
發(fā)明者李凱, 翟因?yàn)? 黃冶 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正電子有限公司