亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

處理文檔中片斷化數(shù)據(jù)的方法和裝置的制作方法

文檔序號:6426745閱讀:170來源:國知局

專利名稱::處理文檔中片斷化數(shù)據(jù)的方法和裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理領(lǐng)域,具體而言,涉及處理文檔中片斷化數(shù)據(jù)的方法和裝置。
背景技術(shù)
:目前的出版領(lǐng)域中,主要通過“選題策劃、組稿、審稿、排版、印刷”的方式出版紙質(zhì)出版物。圖書通常分篇章,論文集通常由多篇論文結(jié)集出版,期刊由多篇相互獨(dú)立的稿件組成。稿件中的各種類型的內(nèi)容,如圖片、字符、視頻片段、音頻片段等,這些內(nèi)容通常稱之為“片斷化數(shù)據(jù)”。出版物通常由較多的片斷化數(shù)據(jù)聚合而成。用戶需要將散落在多本出版物中的片斷化數(shù)據(jù)提取并整理,將整理后的數(shù)據(jù)匯編成出版物。發(fā)明人發(fā)現(xiàn),片斷化數(shù)據(jù)分散在各個(gè)電子文檔中,由于沒有關(guān)于片斷化數(shù)據(jù)的數(shù)據(jù)關(guān)系,不便于查詢一些片斷化數(shù)據(jù)。用戶查找出版物中片斷化數(shù)據(jù)的過程較為繁瑣,為了某個(gè)出版物的一篇文章甚至一段話,由于需要瀏覽該出版物整個(gè)的電子文檔,查找效率較低。
發(fā)明內(nèi)容本發(fā)明旨在提供一種處理文檔中片斷化數(shù)據(jù)的方法和裝置,以解決上述無法建立關(guān)于片斷化數(shù)據(jù)的數(shù)據(jù)關(guān)系的問題。在本發(fā)明的實(shí)施例中,提供了一種處理文檔中片斷化數(shù)據(jù)的方法,包括提取文檔中的片斷化數(shù)據(jù);相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。在本發(fā)明的實(shí)施例中,提供了一種處理文檔中片斷化數(shù)據(jù)的裝置,包括提取模塊,用于提取文檔中的片斷化數(shù)據(jù);記錄模塊,用于相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。本發(fā)明的實(shí)施例關(guān)聯(lián)地記錄提取的片斷化數(shù)據(jù)的屬性、以及歸屬文檔的屬性、歸屬的出版物的屬性。從而便于為后續(xù)查找片斷化數(shù)據(jù)時(shí),提供了快速的查找依據(jù)。此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I示出了實(shí)施例一的流程圖;圖2示出了實(shí)施例二的流程圖;圖3示出了實(shí)施例中選擇文檔的屏幕截圖;圖4示出了實(shí)施例三的結(jié)構(gòu)框圖。具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。參見圖1,圖I是本發(fā)明實(shí)施例一的流程圖,包括步驟S11:提取文檔中的片斷化數(shù)據(jù);實(shí)施例中出版物由多個(gè)文檔構(gòu)成,例如攝影類的出版物,里面包括多個(gè)章節(jié),每個(gè)章節(jié)的內(nèi)容存儲到一個(gè)文檔中,在文檔中,有注釋、圖片等片斷化數(shù)據(jù)。提取文檔中的片斷化數(shù)據(jù)的過程,可先獲得存儲文檔中片斷化數(shù)據(jù)的文件,例如word文檔由多個(gè)子文檔組成,包括段落格式的文檔、顯示樣式的文檔、存儲內(nèi)容的文檔等,將word文檔進(jìn)行轉(zhuǎn)換,可獲得xml格式的這些文檔,通過遍歷存儲內(nèi)容的文檔的節(jié)點(diǎn),可提取每個(gè)節(jié)點(diǎn)中的內(nèi)容,即片斷化數(shù)據(jù)。步驟S12:相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所·歸屬的出版物的屬性。對于提取的片斷化數(shù)據(jù),為便于后續(xù)的查找,可將片斷化數(shù)據(jù)相關(guān)的屬性一同關(guān)聯(lián)地記錄。在本實(shí)施例中,將片斷化數(shù)據(jù)的屬性、文檔的屬性和文檔所歸屬的出版物的屬性存儲在一條記錄中,便于后續(xù)的查找片斷化數(shù)據(jù)。通過關(guān)聯(lián)地記錄這些關(guān)于片斷化數(shù)據(jù)的屬性,便于后續(xù)查詢片斷化數(shù)據(jù)。通過接收用戶輸入的關(guān)鍵詞,可從屬性數(shù)據(jù)中快速查找屬性所關(guān)聯(lián)的片斷化數(shù)據(jù),并顯示給用戶。實(shí)施例中的方法,還可預(yù)先定義需要提取的片斷化數(shù)據(jù)的采集模板,通過采集模板定義各種片斷化數(shù)據(jù),并為片斷化數(shù)據(jù)、文檔、出版物分別建立存儲標(biāo)識,存儲到各個(gè)數(shù)據(jù)庫中,從而便于關(guān)聯(lián)地查找。下面通過實(shí)施例說明,參見圖2的所示的實(shí)施例二的流程圖,包括以下步驟步驟S21:按照預(yù)先定義的模板采集文檔中的片斷化數(shù)據(jù)。在本實(shí)施例中,以word文檔為例進(jìn)行說明,片斷化數(shù)據(jù)存儲在組成word文檔的一個(gè)xml格式的文檔中。需要預(yù)先定義xml格式的采集模板,通過采集模板,調(diào)用存儲片斷化數(shù)據(jù)的xml格式的文檔,從而提取片斷化數(shù)據(jù)。采集模板的部分代碼如下<root><tableMap><tabletitle="篇章庫"><metaname='!createDateMvalType=HdatencolName-'SYSCREATED"/><metaname=”creatornvalType="string"colName="SYS_AUTHORSn/></table></tableMap>在采集模板中,tableMap定義文檔中的片斷化數(shù)據(jù)的元數(shù)據(jù)(即屬性)和關(guān)系數(shù)據(jù)庫存儲字段間的關(guān)系。關(guān)系數(shù)據(jù)庫包括多個(gè)表,每一個(gè)表對應(yīng)一種類型的片斷化數(shù)據(jù)。每個(gè)表的一條記錄對應(yīng)一個(gè)片斷化數(shù)據(jù)。每個(gè)表包括多列,各列分別對應(yīng)片斷化數(shù)據(jù)的各個(gè)元數(shù)據(jù)描述。其中,table節(jié)點(diǎn)定義了片斷化數(shù)據(jù)存儲的表名,meta節(jié)點(diǎn)具體定義了片斷化數(shù)據(jù)的元數(shù)據(jù)和數(shù)據(jù)庫存儲字段間的關(guān)系。meta節(jié)點(diǎn)包括以下三個(gè)屬性Name為文檔的節(jié)點(diǎn)名,通過此節(jié)點(diǎn)名稱用于在文檔中定位該節(jié)點(diǎn)。valType節(jié)點(diǎn)處理類型,通過此屬性決定處理指定的節(jié)點(diǎn)的方法,每一種類型對應(yīng)一種處理節(jié)點(diǎn)的方法。例如,獲取節(jié)點(diǎn)的字符數(shù)據(jù),規(guī)范(或標(biāo)準(zhǔn))化節(jié)點(diǎn)字符數(shù)據(jù),轉(zhuǎn)換圖片的格式、轉(zhuǎn)換音頻文件的格式等,同時(shí)提取片斷化數(shù)據(jù)的元數(shù)據(jù)(即屬性)。對節(jié)點(diǎn)內(nèi)容處理后,把片斷化數(shù)據(jù)的屬性保存在colName中。colName為名稱為“篇章庫”的數(shù)據(jù)庫的字段名,用于保存對節(jié)點(diǎn)處理后的結(jié)果。采集時(shí),從圖書中選擇相應(yīng)的出版物或文檔即可,如圖3所示的名稱區(qū)域內(nèi),選擇的圖書為論語,選擇的文檔為論語的語料文件(word格式文件)、即文檔。··步驟S22:將片斷化數(shù)據(jù)歸屬的文檔的屬性和歸屬的出版物的屬性關(guān)聯(lián)地記錄在數(shù)據(jù)庫的同一條記錄中。預(yù)先將需要提取片斷化數(shù)據(jù)的文檔的屬性和歸屬出版物的屬性關(guān)聯(lián)的記錄,并存儲在名稱為“圖書庫”的數(shù)據(jù)庫。在提取片斷化數(shù)據(jù)之后,將圖書庫中存儲的文檔屬性和歸屬出版物的屬性與片斷化數(shù)據(jù)的屬性合并在一條記錄中。相關(guān)的部分代碼如下權(quán)利要求1.一種處理文檔中片斷化數(shù)據(jù)的方法,其特征在于,包括提取文檔中的片斷化數(shù)據(jù);相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。2.根據(jù)權(quán)利要求I所述的方法,其特征在于,還包括接收關(guān)鍵詞;從所述屬性中查找所接收到的關(guān)鍵詞;反饋所述查找到的屬性所關(guān)聯(lián)的片斷化數(shù)據(jù)。3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述提取的過程包括將所述文檔轉(zhuǎn)換為xml格式的文檔;遍歷所述xml格式的文檔中各個(gè)節(jié)點(diǎn)的內(nèi)容;提取所述內(nèi)容作為所述片斷化數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述相關(guān)聯(lián)地記錄的過程包括在所述遍歷的過程中,從所述xml格式的文檔中提取每個(gè)所述片斷化數(shù)據(jù)的屬性;將每個(gè)所述片斷化數(shù)據(jù)的屬性存儲到預(yù)先創(chuàng)建的數(shù)據(jù)庫記錄中;確定所述文檔所歸屬的出版物;在所述數(shù)據(jù)庫的每一條記錄中存儲每一個(gè)所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。5.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括將所述片斷化數(shù)據(jù)、所述文檔和所述出版物分別存儲,并分別生成存儲標(biāo)識;在關(guān)聯(lián)地記錄所述屬性的同時(shí),關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的所述存儲標(biāo)識、所述文檔的所述存儲標(biāo)識和所述出版物的所述存儲標(biāo)識。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述反饋查找到的屬性所關(guān)聯(lián)的片斷化數(shù)據(jù)之后,還包括反饋所述片斷化數(shù)據(jù)關(guān)聯(lián)的所述文檔或所述出版物的訪問鏈接;所述訪問鏈接中含有所述文檔或所述出版物的存儲標(biāo)識。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括預(yù)先在使用含有所述片斷化數(shù)據(jù)存儲標(biāo)識的占位符替換所述文檔中的片斷化數(shù)據(jù);按照所述訪問鏈接訪問所述文檔;顯示所述文檔的過程中,按照所述存儲標(biāo)識獲得所述片斷化數(shù)據(jù),替換所述占位符。8.—種處理文檔中片斷化數(shù)據(jù)的裝置,其特征在于,包括提取模塊,用于提取文檔中的片斷化數(shù)據(jù);記錄模塊,用于相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括查找模塊,用于從所述屬性中查找所接收到的關(guān)鍵詞;反饋模塊,用于反饋所述查找到的屬性所關(guān)聯(lián)的片斷化數(shù)據(jù)。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括標(biāo)識模塊,用于將所述片斷化數(shù)據(jù)、所述文檔和所述出版物分別存儲,并分別生成存儲標(biāo)識;標(biāo)識記錄模塊,用于在關(guān)聯(lián)地記錄所述屬性的同時(shí),關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的所述存儲標(biāo)識、所述文檔的所述存儲標(biāo)識和所述出版物的所述存儲標(biāo)識。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括鏈接反饋模塊,用于反饋所述片斷化數(shù)據(jù)關(guān)聯(lián)的所述文檔或所述出版物的訪問鏈接。全文摘要本發(fā)明提供了一種處理文檔中片斷化數(shù)據(jù)的方法和裝置,本發(fā)明的方法包括提取文檔中的片斷化數(shù)據(jù);相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。本發(fā)明還提供了一種處理文檔中片斷化數(shù)據(jù)的裝置,包括提取模塊,用于提取文檔中的片斷化數(shù)據(jù);記錄模塊,用于相關(guān)聯(lián)地記錄所述片斷化數(shù)據(jù)的屬性、所述文檔的屬性和所述文檔所歸屬的出版物的屬性。本發(fā)明通過關(guān)聯(lián)地記錄提取的片斷化數(shù)據(jù)的屬性、以及歸屬文檔的屬性、歸屬的出版物的屬性。從而便于為后續(xù)查找片斷化數(shù)據(jù)時(shí),提供了快速的查找依據(jù)。文檔編號G06F17/22GK102841893SQ201110168129公開日2012年12月26日申請日期2011年6月21日優(yōu)先權(quán)日2011年6月21日發(fā)明者黃鍇,翟因?yàn)?陳長剛申請人:北大方正集團(tuán)有限公司,北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1