專利名稱:一種對電子圖書進行快速語義標注的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及電子圖書數字出版技術領域,特別是涉及一種對電子圖書進行快速語義標注的方法和系統(tǒng)。
背景技術:
數字出版的核心競爭力是對數字內容的快速檢索與方便查閱,而快速檢索與方便查閱的核心是語義檢索,因此,基于語義檢索的語義標注技術是數字出版的核心技術。實現(xiàn)語義標注的技術不同,造成的語義標注的加工效率與成本也不同。目前已有的技術對語義標注的加工效率很低,成本很高。要解決好效率與成本的問題,就要在技術上解決,技術手段主要與兩個技術問題有關,一個是電子書的拆分結構如何設計,各種排版軟件編排的圖書(或期刊)具有不同的版式特點,數字加工需要把這些圖書拆分為不同粒度的單元,目前所有的拆分方法都面臨著低效率的問題,需要過多的人工干預。另一個就是語義標注如何設計。不同的設計方案產生不同的應用效果與加工成本。最嚴格的技術方案是可以對電子圖書的每一個細節(jié)(比如,像詞這樣的細節(jié))進行語義的標注,這種技術方案的特點是應用范圍廣,缺點是加工成本不容易降得很低。但是實際情況是,有一部分應用并不需要對詞、段這種細節(jié)進行語義標注,可能對節(jié)以上單元進行標注就可以滿足市場需要了。本發(fā)明方案就是針對這類應用而設計的,可以進一步提高加工效率,降低成本。
發(fā)明內容
鑒于現(xiàn)有技術的缺陷,本發(fā)明提供一種對電子圖書進行快速語義標注的方法,其特征在于包括如下步驟(1)以獨立于電子圖書的方式建立用于描述電子圖書的結構的目錄結構文件,把電子圖書的章節(jié)目錄提取出來,并建立樹狀結構層次關系,同時每個章節(jié)元素含有頁碼信息的屬性;(2)在目錄結構文件的基礎上對目錄元素進行語義標注;(3)對電子圖書按頁進行分割成多個頁文件,每個頁文件是電子圖書的一頁內容;(4)將所述目錄結構文件與圖書CIP數據、版權聲明以及所述多個頁文件一起打包,形成一個完整的電子圖書。根據本發(fā)明所述的對電子圖書進行快速語義標注的方法,其特征在于所述目錄結構文件以XML形式存在,其內容形式采用電子圖書的傳統(tǒng)目錄形式,并可以被第三方工具識別出。根據本發(fā)明所述的對電子圖書進行快速語義標注的方法,其特征在于每一個XML 目錄元素具有結構屬性,分別為標題內容與頁碼范圍。根據本發(fā)明所述的對電子圖書進行快速語義標注的方法,其特征在于所述目錄結構文件的生成包括如下步驟(11)制訂電子書稿在排版過程中對段落樣式的命名的規(guī)范; (12)根據段落樣式命名規(guī)范,把電子圖書中標題部分提取出來,形成一個沒有層次關系的XML文件,每一個XML元素是一個標題內容,該元素具有一個頁碼屬性用來存放該標題所在頁碼的信息;(13)把無層次關系的XML文件按前綴大小關系重組建立新的章節(jié)元素,該元素有一個子元素是標題元素,有兩個屬性存放該元素的頁碼范圍。根據本發(fā)明所述的對電子圖書進行快速語義標注的方法,其特征在于對所述目錄元素進行語義標注的方法采用多元數組法或者知識點法,并且均通過手工填加。根據本發(fā)明所述的對電子圖書進行快速語義標注的方法,其特征在于還包括如下步驟(5)建立一個數據庫,把所述目錄結構文件和所述多個頁文件保存于數據庫中;(6) 通過語義檢索在目錄結構文件中對目錄元素進行檢索,根據所檢索到的目錄元素所指向的頁碼在所述數據庫中檢索頁文件。此外,本發(fā)明還提供了一種與上述對電子圖書進行快速語義標注方法相對應的系統(tǒng)。本發(fā)明章節(jié)目錄是基于XML技術來實現(xiàn),XML的結構性強、易于計算機程序讀寫, 所以在拆分、形成結構、檢索等環(huán)節(jié)是可以通過計算機程序處理。此外由于語義描述是采取了多維陣列的方式,每一維陳列反映了該章節(jié)的一個完整語義,因此可以從多個角度來概括一個章節(jié)的內容。借助計算機程序實現(xiàn)對電子圖書進行自動拆分處理,全面提高了對電子圖書進行拆分的效率,同時也不影響到檢索效果。同時配合上述拆分方法,設計出一種通過對電子圖書的目錄結構進行簡單的語義標注,提高了語義標注的效率。
圖1是本發(fā)明對電子圖書進行快速語義標注的方法的數據處理流程圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。圖1是本發(fā)明對電子圖書進行快速語義標注的方法的數據處理流程圖,其具體包括如下步驟(1)以獨立于電子圖書的方式建立用于描述電子圖書的結構的目錄結構文件,把電子圖書的章節(jié)目錄提取出來,并建立樹狀結構層次關系,同時每個章節(jié)元素含有頁碼信息的屬性;現(xiàn)有技術中都是在電子圖書內部進行結構描述,電子書中即有內容又有結構信息。而本發(fā)明則完全放棄在電子圖書內容部分中描述結構,而是采用另外建立目錄文件的形式,通過一個外部的目錄文件來反映出了電子圖書的基本結構從而以獨立于電子圖書的方式以目錄結構文件的方法來描述圖書的結構??梢酝ㄟ^各種方法建立一個目錄結構文件,這個目錄結構文件是以XML形式存在,內容形式可以采用電子圖書(或期刊)的傳統(tǒng)目錄形式。與一般意義的目錄不同的地方是以下幾個特點I本目錄是有結構的,是可以被第三方工具識別出結構信息的。此目錄文件中的 XML元素分為章、節(jié)、小節(jié)、三級節(jié)……,并依次向下嵌套。II每一個目錄元素具有結構屬性,分別為標題內容與頁碼范圍。
III每一個目錄文件還具有該圖書的版權內容,內容應用都柏林標準。優(yōu)選地,本發(fā)明目錄結構文件生成通過如下方式進行(11)制訂電子書稿在排版過程中對段落樣式的命名的規(guī)范;要求在排版圖書時,把書稿中同一級的標題均使用同樣的段落樣式名前綴,所有章節(jié)標題的段落樣式的前綴按自然數N,依次排列。如,1-,2-,3_,……;所有章標題的段落樣式名均使用1-作為樣式名的前綴,形如I-XXXX ;所有節(jié)標題的段落樣式名均使用2-作為樣式名的前綴,形如2-XXXX ;所有小節(jié)標題的段落樣式名均使用3-作為樣式名的前綴,形如3-XXXX ;依次類推。(12)根據段落樣式命名規(guī)范,把電子圖書中標題部分提取出來,形成一個沒有層次關系的XML文件,每一個XML元素是一個標題內容,該元素具有一個頁碼屬性用來存放該標題所在頁碼的信息;該步驟可以通過開發(fā)一個目錄文件提取的計算機程序來實現(xiàn),通過計算機程序,根據段落樣式前綴特點,把電子圖書中標題部分提取出來,形成一個沒有層次關系的XML文件,每一個XML元素是一個標題內容,該元素具有一個頁碼屬性用來存放該標題所在有頁碼信息。(13)把無層次關系的XML文件按前綴大小關系重組建立新的章節(jié)元素,該元素有一個子元素是標題元素,有兩個屬性存放該元素的頁碼范圍。這樣一個與圖書頁碼信息有關的目錄文件就形成了。(2)在目錄結構文件的基礎上對目錄元素進行語義標注;本發(fā)明對目錄結構進行語義描述的方法在目錄結構文件的基礎上對目錄元素進行標注,不再進入到圖書的具體內容中進行語義標注,即,在電子圖書外部進行標注,由于圖書的每一個章節(jié)反映了不同粒度的,相對完整的內容,因此可以對章節(jié)進行語義內容的概括。這一步必須是手工填加,實現(xiàn)對目錄內容的概括過程。具體實現(xiàn)可以采用如下方法“1、多元數組法每一個目錄元素的語義標注方法為對于元素S,用DD描述語義特征.DD = U {OP i},OP i = (0 i,A i, AK i, C i)S卩,用多個屬性組合(OP i)從其用途、意義、內容概括、相關問題等多方面來描述片斷⑶的。其中,DD為功能語義描述集合;它由若干功能的語義描述組成。功能語義描述OP i是一個四元組。其中0 i表示語義的本體;A i為語義的謂體;AK i為A i的補充關鍵字; C i為約束條件,可以是一個多元組{C,1 i,C,2 i,C,3 i,……}2、知識點法為了可以快速進行語義標注,可以在某一些領域建立相應的知識點語義系統(tǒng),把較固定的知識點語義用多個相互關聯(lián)的詞組成相對完整、固定的詞組合。如(辦公應用 OFFICE WORD文件建立),(辦公應用OFFICE WORD文件刪除),這些詞之間順序固定,是樹的邏輯結構,整個知識點語義構成一個完整的樹結構。本發(fā)明把一些教材的知識體系分解為一個個詞組合,以樹形式表現(xiàn)出來,使標注知識點更加方便快捷。(3)對電子圖書按頁進行分割成多個頁文件,每個頁文件是電子圖書的一頁內容;常用的用于出版紙質圖書的電子文件是按頁來組織的,因此它可以按每一頁來分離。圖書的每一個章節(jié)都有起始頁碼,因此可以計算出每一個章節(jié)所包含的頁的起與止頁碼。通過各種方法,本發(fā)明采用計算機程序對原圖書按頁進行分割成N(圖書頁數)個文件,每個文件是原圖書的一頁內容,文件格式可以是圖片或PDF或FLASH,文件的屬性中體現(xiàn)出頁碼。建立一個數據庫,把這些“頁文件”保存于數據庫。并可以通過其屬性檢索到該文件。(4)將所述目錄結構文件與圖書CIP數據、版權聲明以及所述多個頁文件一起打包,形成一個完整的電子圖書文件包。開發(fā)一個語義圖書的導出程序,實現(xiàn)對填加語義屬性的XML目錄文件語法檢查、 與CIP數據、版權的聲明,包文件結構等其它文件一起打包,形成一個完整的電子圖書。或者存放到數據庫中,與各類圖書管理系統(tǒng)聯(lián)結。本發(fā)明由于電子圖書內容與語義標注是分離在兩個文件中,那么查詢語義的方法就與一般的語義查詢方法不同。如果可以快速檢索到該章節(jié),那么就可進一步檢索到該章節(jié)包含的所有頁。因此,通過章節(jié)目錄可以檢索出頁的內容。(這種頁內容是不可直接檢索到的圖片,或者其它不可檢索的格式)。因此,本發(fā)明可以實現(xiàn)對電子圖書進行如下應用1、文件檢索把頁文件與目錄結構文件合并為一個包文件,必要時把圖書CIP信息、文件結構信息等其它文件放入該文件包。當用戶提出查詢語義的內容時,通過語義檢索在電子圖書文件包中的目錄結構文件中對目錄元素進行檢索,根據所檢索到的目錄元素所指向的頁碼在電子圖書文件包中檢索頁文件。2、數據庫檢索把頁文件及目錄文件放入數據庫,應用系統(tǒng)通過檢索目錄文件來檢索語義,然后根據該元素所指向的頁碼內容及自身的版權內容,向“頁文件”的數據庫檢索該頁內容(或多頁內容),最終從數據庫中取得頁文件返回。此方法的優(yōu)點是加工效率高,檢索效果滿足大部分常用需求。本發(fā)明章節(jié)目錄是基于XML技術來實現(xiàn),XML的結構性強、易于計算機程序讀寫, 所以在拆分、形成結構、檢索等環(huán)節(jié)是可以通過計算機程序處理。此外由于語義描述是采取了多維陣列的方式,每一維陳列反映了該章節(jié)的一個完整語義,因此可以從多個角度來概括一個章節(jié)的內容。借助計算機程序實現(xiàn)對電子圖書進行自動拆分處理,全面提高了對電子圖書進行拆分的效率,同時也不影響到檢索效果。同時配合上述拆分方法,設計出一種通過對電子圖書的目錄結構進行簡單的語義標注,提高了語義標注的效率。下面通過實際操作過程,對本發(fā)明實施方式進行舉例說明,以進一步理解本發(fā)明的工作過程。第一步,數據輸入取自任意一本電子圖書,格式可以是DOC、INDD等圖書排版文件。啟動《希望自動拆分工具》運行在服務器上,然后向服務器上傳電子圖書文件。第二步,目錄文件生成與頁文件拆分
服務器實時監(jiān)控,發(fā)現(xiàn)有新文件上傳執(zhí)行目錄生成進程,產生一個具有層次樹狀結構的XML文件,該文件中包含有每個元素的頁碼信息。同時對電子圖書文件進行拆分為每一個頁文件,可以各種圖片文件、PDF、FLASH等最后打包發(fā)送到結果池中,供下一環(huán)節(jié)下載使用。第三步,數據的語義處理運行《希望語義標注系統(tǒng)》,導入上一環(huán)節(jié)輸出的XML文件與壓縮包文件運行“瀏覽XML”功能,在瀏覽窗口中查看XML文件,這時的XML文件是具有先后順序及層次關系的,進一步瀏覽并檢查是否有錯誤,如果有,可以用鼠標拖動方式調整位置關系。對XML目錄文件進行語義標注,可以采用多元數組方法標注,也可采用知識點標注方法標注,其中知識點標注方法會在界面上呈現(xiàn)出知識點的樹狀結構,便于操作。標注過程中,可以即時查閱該章節(jié)所對應的原版圖書內容。第四步,數據輸出運行“輸出語義圖書”功能,系統(tǒng)即可在現(xiàn)有的XML文件中,加入相應的CIP、結構、 版權等內容。如果不輸出電子圖書,那么這些所有信息均保存在數據庫中。對這些圖書書的調用檢索均通過WEBSERVICE向外發(fā)布,其它圖書管理系統(tǒng)可直接調用。在“保存文件”的提示下,輸出一個具有結構及語義的電子圖書的包文件。最后應當說明的是以上實施例僅用以說明本發(fā)明的技術方案而非對其限制;盡管參照較佳實施例對本發(fā)明進行了詳細的說明,所屬領域的普通技術人員應當理解依然可以對本發(fā)明的具體實施方式
進行修改或者對部分技術特征進行等同替換;而不脫離本發(fā)明技術方案的精神,其均應涵蓋在本發(fā)明請求保護的技術方案范圍當中。
權利要求
1.一種對電子圖書進行快速語義標注的方法,其特征在于包括如下步驟(1)以獨立于電子圖書的方式建立用于描述電子圖書的結構的目錄結構文件,把電子圖書的章節(jié)目錄提取出來,并建立樹狀結構層次關系,同時每個章節(jié)元素含有頁碼信息的屬性;(2)在目錄結構文件的基礎上對目錄元素進行語義標注;(3)對電子圖書按頁進行分割成多個頁文件,每個頁文件是電子圖書的一頁內容;(4)將所述目錄結構文件與圖書CIP數據、版權聲明以及所述多個頁文件一起打包,形成一個完整的電子圖書文件包。
2.根據權利要求1所述的對電子圖書進行快速語義標注的方法,其特征在于所述目錄結構文件以XML形式存在,其內容形式采用電子圖書的傳統(tǒng)目錄形式,并可以被第三方工具識別出。
3.根據權利要求2所述的對電子圖書進行快速語義標注的方法,其特征在于每一個 XML目錄元素具有結構屬性,分別為標題內容與頁碼范圍。
4.根據權利要求1所述的對電子圖書進行快速語義標注的方法,其特征在于所述目錄結構文件的生成包括如下步驟(11)制訂電子書稿在排版過程中對段落樣式的命名的規(guī)范;(12)根據段落樣式命名規(guī)范,把電子圖書中標題部分提取出來,形成一個沒有層次關系的XML文件,每一個XML元素是一個標題內容,該元素具有一個頁碼屬性用來存放該標題所在頁碼的信息;(13)把無層次關系的XML文件按前綴大小關系重組建立新的章節(jié)元素,該元素有一個子元素是標題元素,有兩個屬性存放該元素的頁碼范圍。
5.根據權利要求1所述的對電子圖書進行快速語義標注的方法,其特征在于對所述目錄元素進行語義標注的方法采用多元數組法或者知識點法,并且均通過手工填加。
6.根據權利要求1所述的對電子圖書進行快速語義標注的方法,其特征在于還包括如下步驟(5)建立一個數據庫,把所述目錄結構文件和所述多個頁文件保存于數據庫中;(6)通過語義檢索在目錄結構文件中對目錄元素進行檢索,根據所檢索到的目錄元素所指向的頁碼在所述數據庫中檢索頁文件。
7.根據權利要求1所述的對電子圖書進行快速語義標注的方法,其特征在于通過語義檢索在電子圖書文件包中的目錄結構文件中對目錄元素進行檢索,根據所檢索到的目錄元素所指向的頁碼在電子圖書文件包中檢索頁文件。
8.一種對電子圖書進行快速語義標注的系統(tǒng),其特征在于包括如下裝置用于以獨立于電子圖書的方式建立用于描述電子圖書的結構的目錄結構文件,把電子圖書的章節(jié)目錄提取出來,并建立樹狀結構層次關系,同時在每個章節(jié)元素中填加有頁碼信息的裝置;用于在目錄結構文件的基礎上對目錄元素進行語義標注的裝置;用于對電子圖書按頁進行分割成多個頁文件的裝置,每個頁文件是電子圖書的一頁內容;用于將所述目錄結構文件與圖書CIP數據、版權聲明以及所述多個頁文件一起打包,形成一個完整的電子圖書的裝置。
9.根據權利要求8所述的對電子圖書進行快速語義標注的系統(tǒng),其特征在于所述目錄結構文件以XML形式存在,其內容形式采用電子圖書的傳統(tǒng)目錄形式,并可以被第三方工具識別出。
10.根據權利要求9所述的對電子圖書進行快速語義標注的系統(tǒng),其特征在于每一個 XML目錄元素具有結構屬性,分別為標題內容與頁碼范圍。
11.根據權利要求8所述的對電子圖書進行快速語義標注的系統(tǒng),其特征在于用于生成所述目錄結構文件的裝置包括如下裝置用于制訂電子書稿在排版過程中對段落樣式的命名的規(guī)范的裝置;用于根據段落樣式命名規(guī)范,把電子圖書中標題部分提取出來,形成一個沒有層次關系的XML文件的裝置,每一個XML元素是一個標題內容,該元素具有一個頁碼屬性用來存放該標題所在頁碼的信息;用于把無層次關系的XML文件按前綴大小關系重組建立新的章節(jié)元素的裝置,該元素有一個子元素是標題元素,有兩個屬性存放該元素的頁碼范圍。
12.根據權利要求8所述的對電子圖書進行快速語義標注的系統(tǒng),其特征在于采用多元數組法或者知識點法對所述目錄元素進行語義標注,并且均通過手工填加。
13.根據權利要求8所述的對電子圖書進行快速語義標注的系統(tǒng),其特征在于還包括如下裝置用于建立一個數據庫,并把所述目錄結構文件和所述多個頁文件保存于數據庫中的裝置;用于通過語義檢索在目錄結構文件中對目錄元素進行檢索,根據所檢索到的目錄元素所指向的頁碼在所述數據庫中檢索頁文件的裝置。
14.根據權利要求1所述的對電子圖書進行快速語義標注的系統(tǒng),其特征在于通過語義檢索在電子圖書文件包中的目錄結構文件中對目錄元素進行檢索,根據所檢索到的目錄元素所指向的頁碼在電子圖書文件包中檢索頁文件。
全文摘要
一種對電子圖書進行快速語義標注的方法和系統(tǒng),其特征在于包括如下步驟(1)以獨立于電子圖書的方式建立用于描述電子圖書的結構的目錄結構文件,把電子圖書的章節(jié)目錄提取出來,并建立樹狀結構層次關系,同時每個章節(jié)元素含有頁碼信息的屬性;(2)在目錄結構文件的基礎上對目錄元素進行語義標注;(3)對電子圖書按頁進行分割成多個頁文件,每個頁文件是電子圖書的一頁內容;(4)將所述目錄結構文件與圖書CIP數據、版權聲明以及所述多個頁文件一起打包,形成一個完整的電子圖書文件包。
文檔編號G06F17/30GK102332023SQ20111028916
公開日2012年1月25日 申請日期2011年9月27日 優(yōu)先權日2011年9月27日
發(fā)明者張訓軍 申請人:北京中科希望軟件股份有限公司