專利名稱:在可拆卸海量存儲介質上制作檔案的方法及檔案服務器的制作方法
技術領域:
本發(fā)明涉及在數(shù)字圖書館中使用的在可拆卸海量存儲介質上制作數(shù)字化檔案的方法,并且涉及用于將這種可拆卸海量存儲介質上的數(shù)字化檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中的數(shù)字化檔案服務器。
數(shù)字圖書館是“信息高速公路”的一個重要部分。一般來說,數(shù)字圖書館主要由網(wǎng)絡、數(shù)據(jù)庫服務器、海量存儲器、用戶界面等部分組成。通常,對于一份檔案資料,其進入數(shù)字圖書館的過程如下1.通過人工錄入、光電識別、電子掃描、數(shù)字錄音/錄象等方式將檔案資料數(shù)字化;2.將已數(shù)字化的檔案資料存儲到數(shù)字圖書館的海量存儲器池中;3.提取有關此份檔案資料的著錄項目以及已數(shù)字化的檔案資料在本數(shù)字圖書館的海量存儲介質中的物理或邏輯地址,并將著錄項目和物理或邏輯地址登錄在數(shù)字圖書館對應的數(shù)據(jù)庫中。
一份檔案一旦進入數(shù)字圖書館,讀者或用戶就可以通過連接在網(wǎng)絡上的計算機終端訪問數(shù)字圖書館,以獲取所需資料。
在現(xiàn)今的“信息高速公路”環(huán)境下,人們除了利用網(wǎng)絡直接傳輸進行信息交流之外,主要是通過可拆卸的海量存儲介質作為物理載體進行信息交流。在目前,CD-ROM是最重要的媒體之一。在數(shù)字圖書館中,論文、照片、電影、音樂以及其他檔案資料常常被數(shù)字化后存儲于CD-ROM中,形成CD-ROM檔案。然而目前,CD-ROM檔案存在如下幾個問題1.檔案在CD-ROM上的著錄格式不統(tǒng)一;2.CD-ROM上沒有相應的檔案標注信息;3.必須通過人工將CD-ROM檔案登錄到電子化數(shù)字圖書館的數(shù)據(jù)庫管理系統(tǒng)中。
以上這些問題帶來的后果是將CD-ROM檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中時將浪費大量的人力、物力和時間,為一個特定的數(shù)字圖書館制作的CD-ROM檔案只能在該系統(tǒng)中使用。如果要將一個數(shù)字圖書館的CD-ROM檔案使用在另一個數(shù)字圖書館中,則需要人工地對CD-ROM檔案進行數(shù)據(jù)庫登錄。這樣,CD-ROM檔案的傳播和交流受到了極大的限制。
本發(fā)明第一個目的在于提供一種在可拆卸海量存儲介質上制作數(shù)字化檔案的方法。
本發(fā)明第二個目的在于提供一種數(shù)字化檔案服務器,用于將可拆卸海量存儲介質上的數(shù)字化檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中。
為實現(xiàn)上述第一目的,本發(fā)明提供一種在可拆卸海量存儲介質上制作數(shù)字化檔案的方法,包括以下步驟將檔案數(shù)字化為數(shù)字化檔案;提取檔案的著錄信息;將所述數(shù)字化檔案和所述著錄信息存儲到所述可拆卸海量存儲介質上。
為實現(xiàn)上述第二目的,本發(fā)明提供一種數(shù)字化檔案服務器,用于將可拆卸海量存儲介質上的數(shù)字化檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中,該數(shù)字化檔案服務器包括用于讀取可拆卸海量存儲介質上所存儲的著錄信息的裝置;用于將所述著錄信息登錄到數(shù)字圖書館的數(shù)據(jù)庫表中的裝置。
利用本發(fā)明的方法,可以統(tǒng)一數(shù)字化檔案在可拆卸海量存儲介質上的著錄格式,便于各數(shù)字圖書館之間交流可拆卸海量存儲介質上的數(shù)字化檔案。在數(shù)字圖書館中利用本發(fā)明的檔案服務器,可以將可拆卸海量存儲介質上的數(shù)字化檔案自動地登錄到數(shù)字圖書館的數(shù)據(jù)庫管理系統(tǒng)中,節(jié)省了大量的人力、物力和時間。
通過以下詳細描述,并結合附圖,本發(fā)明的其他優(yōu)點、特征將會更加明顯,其中
圖1示出了本發(fā)明檔案服務器在常規(guī)數(shù)字圖書館中的一種應用;圖2是在本發(fā)明方法和檔案服務器中使用的光盤檔案目錄文件的一種文件格式;圖3是圖2的文件格式中所含著錄條目的一種格式;圖4是圖3的條目格式中所含檔案項目的一種格式;圖5是本發(fā)明的在可拆卸海量存儲介質上制作數(shù)字化檔案的方法的一種流程圖;圖6是本發(fā)明的數(shù)字化檔案服務器的一種工作流程圖。
下面結合附圖對本發(fā)明的一種實施方式進行詳細說明。
本發(fā)明中所采用的可拆卸海量存儲介質可以是CD-ROM、PD、CD-R和DVD等。對于這些不同的存儲介質,應用本發(fā)明的方法和檔案服務器時原理是一樣的。下面,雖然以CD-ROM為例進行說明,但是并不構成對本發(fā)明的限制。
圖1是例示將本發(fā)明的檔案服務器應用在數(shù)字圖書館中的示意圖。標號1代表用戶終端,標號2代表網(wǎng)絡,標號3代表數(shù)字圖書館服務器,標號4代表數(shù)據(jù)庫,標號5代表本發(fā)明的檔案服務器,標號6代表光盤庫驅動器,標號7代表用于存放數(shù)字化檔案的海量存儲器池(本例中,為光盤庫)。
在光盤庫7中存有大量光盤,每張光盤上的內容包括兩部分,即光盤頭和光盤體。光盤頭由一組光盤檔案目錄文件組成,這組光盤檔案目錄文件是光盤檔案的總攬和概要。檔案目錄文件的格式將在后文參照圖2、3、4加以描述。光盤體由一組數(shù)字化檔案文件組成。以上兩部分的內容是利用本發(fā)明的方法在光盤上制作的。
光盤庫驅動器6能夠根據(jù)檔案服務器5的命令,從光盤庫7選擇一張光盤,讀取光盤頭中的光盤檔案目錄文件,將目錄文件中所含的檔案著錄信息及相應數(shù)字化檔案的地址信息登錄到數(shù)據(jù)庫4中。如圖所示,本發(fā)明的檔案服務器5在體系結構上位于數(shù)據(jù)庫4和光盤庫驅動器6之間。檔案服務器5的工作流程將在下文參照圖6詳細描述。
圖2是本發(fā)明的方法和檔案服務器使用的光盤檔案目錄文件的一種文件格式。光盤檔案目錄文件是在進行一次光盤著錄時形成的檔案條目集文件,它說明了各光盤著錄條目及其在該文件中的排列順序,該文件是光盤檔案自動進入數(shù)字圖書館并提供檢索依據(jù)的工具。一般來說,為了便于分批制作數(shù)字化檔案,并充分利用光盤存儲空間,在光盤上形成一組檔案目錄文件及相應的數(shù)字化檔案。
一個光盤檔案目錄文件分為三部分,如圖2所示,為文件頭201,文件體202和文件結束符203。
文件頭202包括本目錄文件所涉及的檔案種類數(shù)2011、各類檔案信息的依次說明2012和本目錄文件涉及的檔案個數(shù)2013。對于每一類檔案,檔案信息的說明包括關于該類檔案歸檔的建議(即其在數(shù)據(jù)庫中的記錄信息),該類檔案的個數(shù),該類檔案中所有檔案的著錄條目名稱。
如圖2所示,在文件頭201中包括以下內容檔案目錄文件所說明的檔案的種類數(shù)(m);\n關于第1類檔案歸檔的建議;\n第1類檔案著錄項目的個數(shù)(m1);\n第1類檔案第1個著錄項目名;\n第1類檔案第m1個著錄項目名;\n關于第2類檔案歸檔的建議;\n第2類檔案著錄項目的個數(shù)(m2);\n第2類檔案第1個著錄項目名;\n第2類檔案第m2個著錄項目名;\n關于第m類檔案歸檔的建議;\n第m類檔案著錄項目的個數(shù)(mm);\n第m類檔案第1個著錄項目名;\n第m類檔案第mm個著錄項目名;\n本檔案目錄文件所說明的檔案的個數(shù)(即條目的個數(shù)k)文件體202由一組檔案條目組成,條目的個數(shù)與檔案個數(shù)2013相等。每一條目的格式將在后文參照圖3描述。
文件結束符203是一個ASCII碼EOF。
如圖所示,在文件頭201中,每一項之后都隨一個符號“\n”表示行尾,根據(jù)操作系統(tǒng)的不同,“\n”有不同的含義,如在基于MS-DOS的系統(tǒng)中表示回車和換行兩個字符,而在基于UNIX的系統(tǒng)中表示一個回車符。后文所述的“\n”與這里的含義相同。
圖3是圖2中文件體202中檔案條目的一種格式。光盤著錄條目是單份文件著錄的結果,它說明了著錄項目及其排列順序。如圖所示,每一條目包括三部分,即本檔案的卷號、本檔案所涉及的所有項目、條目檔案體的文件名(含路徑名)。
圖4是圖3中所含項目的一種格式。光盤檔案著錄項目是根據(jù)光盤的易讀難寫的特性選擇的能充分揭示檔案內容和特性并便于檢索的記錄事項,它說明各著錄項目的名稱、內容及排列順序。如圖所示,每一項目是一個以“\n”結束的字節(jié)流,字節(jié)流代表光盤著錄項目的內容。
圖5是本發(fā)明的在可拆卸海量存儲介質上制作數(shù)字化檔案的方法的一種實施流程圖。該實施從步驟501開始。在步驟502提示是否開始制作一批新檔案。如果回答為“是”,則進入步驟504,否則由步驟503退出。在步驟504,通過掃描、照相、文字錄入等方式對一個檔案進行數(shù)字化,然后進入步驟505。在步驟505,判斷是否已將本批檔案全部數(shù)字化。如果在步驟505判定已經(jīng)將本批全部檔案數(shù)字化,則進入步驟506,否則返回步驟504。在步驟506,采集本批檔案的著錄數(shù)據(jù),制作本批檔案的檔案目錄文件(檔案目錄文件的一種格式如上文參照圖2、3和4所述)。進入步驟507后,判斷緩沖區(qū)是否夠用。如果判定緩沖區(qū)夠用,則進入步驟509,否則進入步驟508。在步驟509,將本批檔案及相應目錄文件存入緩沖區(qū),然后返回步驟502,進行下一批檔案的制作過程。在步驟508,將緩沖區(qū)中的檔案及相應目錄文件轉存于一個可拆卸海量存儲介質中,清空緩沖區(qū),然后進入步驟509。
在上述實施中,緩沖區(qū)是在可擦寫存儲介質上(如硬盤)的一個大小與相應可拆卸海量存儲介質一致的存儲空間。并且假定每批檔案及其目錄文件所占空間不會超過一個可拆卸海量存儲介質的存儲容量。
在同一個可拆卸海量存儲介質(如光盤)上,可以多次利用上述實施,對多個檔案分幾次進行著錄。在此介質上形成一組檔案目錄文件。這樣,有助于存儲介質讀寫系統(tǒng)充分利用此介質的容量。
在本實施方式中,第一次著錄時形成的檔案目錄文件的文件名為DOCS.001。以后可能進行的第二次或第三次著錄時所形成的檔案目標文件的文件名分別為DOCS.002,DOCS.003,等等。所有這些檔案目錄文件構成一組擋案目錄文件。
為了進一步說明本發(fā)明的上述實施方法和上述檔案目錄文件的格式,下面舉一個例子。
現(xiàn)有兩部紀錄短片。其一是《周總理訪問朝鮮》,中國新聞紀錄制片廠攝制,1971年5月。其二是《小麥種植)》,中國農(nóng)業(yè)電影制片廠攝制,1980年12月?,F(xiàn)欲將這兩部電影數(shù)字化,并放入某數(shù)字圖書館,以提供在線服務。
現(xiàn)在,根據(jù)本發(fā)明的上述實施方法制作數(shù)字化檔案。
首先,用數(shù)字攝影機將這兩部電影數(shù)字化為文件“zhou.mpg”和“xiao.mpg”,并存于“緩沖區(qū)”中(假設這兩個文件所占存儲空間的大小沒有超過“緩沖區(qū)”大小,并假設“緩沖區(qū)”中仍有空間可以存放下面將要形成的檔案目錄文件)。然后,采集著錄數(shù)據(jù),制作檔案目錄文件。假定《周總理訪問朝鮮》應該登錄在“新聞影片”數(shù)據(jù)庫中,其著錄項目根據(jù)檔案著錄標準選為“片名”,“攝制日期”,“制片廠”。假定《小麥種植》應該登錄在“科技影片”數(shù)據(jù)庫中,其著錄項目應為“片名”,“攝制日期”,“制片廠”。注意,著錄項目是根據(jù)檔案著錄標準選定的,并與相應數(shù)據(jù)庫表中的域名一致。這樣,檔案目錄文件的內容如下(注檔案目錄文件是一個文本文件,括號中的文字為對文件數(shù)據(jù)的說明,并非文件體)(文件開始)2\n (本檔案目錄文件說明兩類檔案)新聞影片\n(第1類檔案為新聞影片)3\n (第1類檔案有3個著錄項目)片名\n(第1類檔案的第1個著錄項目名為“片名”)攝制日期\n(第1類檔案的第2個著錄項目名為“攝制日期”)制片廠\n (第1類檔案的第3個著錄項目名為“制片廠”)科技影片\n(第2類檔案為科技影片)3\n (第2類檔案有3個著錄項目)片名\n(第2類檔案的第1個著錄項目名為“片名”)攝制日期\n(第2類檔案的第2個著錄項名為“攝制日期”)制片廠\n (第2類檔案的第3個著錄項名為“制片廠”)2\n (本檔案目錄文件說明兩個檔案)(第1個條目)周總理訪問朝鮮\n (第1個條目的“片名”)1971.5\n (第1個條目的“攝制日期”)中國新聞紀錄制片廠\n (第1個條目的“制片廠”)zhou.mpg (第1個條目檔案體的文件名)(第2個條目)小麥種植\n(第2個條目的“片名”)1980.12\n (第2個條目的“攝制日期”)中國農(nóng)業(yè)電影制片廠\n (第2個條目的“制片廠”)xiao.mpg (第2個條目檔案體的文件名)(文件結束)EOF (本檔案目錄文件的結束符)假定這是第1批寫入“緩沖區(qū)”的檔案,則制作好的檔案目錄文件的文件名取為“DOCS.001”,并將其寫入緩沖區(qū)。
假定緩沖區(qū)已沒有空間存儲第2批檔案了,則將緩沖區(qū)中的內容寫入一個相應的可拆卸海量存儲介質(如一張CD)中。這時,該張CD中含有三個文件,即DOCS.001,zhou.mpg和xiao.mpg。
至此,完成了在可拆卸海量存儲介質上的檔案制作。
圖6是本發(fā)明的數(shù)字化檔案服務器的一種工作流程圖。在步驟601,啟動數(shù)字化檔案服務器。在步驟602,判斷在光盤庫上是否有未經(jīng)登錄的CD-ROM。如果,在步驟602中判定有未經(jīng)登錄的CD-ROM,則進入步驟603,否則由步驟606退出。在步驟603,讀入該CD-ROM中的每一個檔案目錄文件。然后在步驟604,逐一分析檔案目錄文件,并將該文件中所記錄的名類檔案中的各個檔案的相關數(shù)據(jù)寫入到相應的數(shù)據(jù)庫的表中。之后,在步驟605中判斷是否還有其他檔案目錄文件未被分析。如果在步驟605中判定還有其他檔案目錄文件未被分析,則返回步驟603,否則由步驟606結束登錄過程。
下面,以前面的例子說明上述檔案服務器的工作流程。
將按照上述方法制作的CD插入數(shù)字圖書館的光盤庫中。
啟動“數(shù)字化檔案服務器”,開始新CD的登錄。
“數(shù)字化檔案服務器”查找光盤庫,并發(fā)現(xiàn)了該未經(jīng)登錄的CD。
“數(shù)字化檔案服務器”打開CD上的檔案目錄文件DOCS.001,并分析它,將兩個檔案的著錄數(shù)據(jù)分別填入數(shù)字圖書館中的“新聞影片”數(shù)據(jù)庫和“科技影片”數(shù)據(jù)庫的表中。
“數(shù)字化檔案服務器”關閉文件DOCS.001,完成將檔案登錄到數(shù)字圖書館的過程。
雖然以上結合附圖對本發(fā)明的方法和檔案服務器進行了詳細說明,但是應該理解到,對于本領域熟練的技術人員,在不背離本發(fā)明的實質和范圍的情況下,可以做出許多修改和變更。本發(fā)明的范圍僅由權利要求限定。
權利要求
1.在可拆卸海量存儲介質上制作檔案的方法,其特征在于包括以下步驟將檔案數(shù)字化為數(shù)字化檔案;提取檔案的著錄信息;將所述數(shù)字化檔案和所述著錄信息存儲到所述可拆卸海量存儲介質上。
2.根據(jù)權利要求1的方法,其特征在于所述提取檔案的著錄信息的步驟還包括將所述著錄信息存儲到檔案目錄文件中;所述將所述著錄信息存儲到可拆卸海量存儲介質上的步驟還包括將所述檔案目錄文件存儲到可拆卸海量存儲介質上。
3.根據(jù)權利要求2的方法,其特征在于對于大量的檔案,可以分幾次進行提取所述檔案的著錄信息的步驟,分別形成不同的檔案目錄文件。
4.數(shù)字化檔案服務器,用于將按照權利要求1的在可拆卸海量存儲介質上制作檔案的方法制造的檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中,其特征在于包括用于讀取可拆卸海量存儲介質上所存儲的著錄信息的裝置;用于將所述著錄信息登錄到數(shù)字圖書館的數(shù)據(jù)庫表中的裝置。
全文摘要
公開一種在可拆卸海量存儲介質上制作檔案的方法,其特征在于包括以下步驟:將檔案數(shù)字化為數(shù)字化檔案;提取檔案的著錄信息;將所述數(shù)字化檔案和所述著錄信息存儲到所述可拆卸海量存儲介質上。還公開一種數(shù)字化檔案服務器,用于將按照權利要求1的在可拆卸海量存儲介質上制作檔案的方法制造的檔案登錄到數(shù)字圖書館的數(shù)據(jù)庫中,其特征在于包括:用于讀取可拆卸海量存儲介質上所存儲的著錄信息的裝置;用于將所述著錄信息登錄到數(shù)字圖書館的數(shù)據(jù)庫表中的裝置。
文檔編號G06F17/30GK1182238SQ9611452
公開日1998年5月20日 申請日期1996年11月8日 優(yōu)先權日1996年11月8日
發(fā)明者簡志敏, 田忠 申請人:國際商業(yè)機器公司