專利名稱:產生人類可讀和機器可讀文檔的方法
技術領域:
本發(fā)明涉及創(chuàng)建人類可讀文檔的方法,除了至少一個數據記錄之 外,所述人類可讀文檔還包括描述該數據記錄的至少一個語義信息項, 簡稱語義。
背景技術:
處理電子形式的信息首先需要對可用數據信息的組織進行規(guī)定 的數據結構,其次需要更詳細解釋數據信息的描述。
一方面,如果使
用標準化數據格式(例如ASCn、 XML、 HTML或TeX等)來規(guī)定數據 結構,則語義信息允許對各項數據信息的含義進行更詳細的描述。例 如,模板的使用允許對各項數據信息進行語義解釋,其中在特定的占 位符(placeholder)處將數據信息添加到所述模板中。
在不知道語義信息(簡稱語義)的情況下,例如,數據記錄 [200,4000]可以指的是200瓶ABC溶液的成本4000歐元,然而同樣也可 以是指商品號碼為200的商品在倉庫中仍有4000的存貨。
在實際處理電子形式的數據時,通常很難在純數據記錄級容易地 重構語義解釋,這意味著,基于具有對各項數據信息加以描述的語義 的各個當前數據記錄,可視化(即將電子形式的信息轉換成人類可讀 的表示)是必要的。通常,這是通過產生例如允許視覺實現的PDF文 檔來進行的。除了所包含的數據之外,直到有人類可讀的表示時,人 類觀察者才可以清楚地領會各個數據記錄專有的語義解釋。
全球網絡以及世界范圍的數據交換的相關可能性意味著,將電子 形式的信息轉換成人類可讀的表示(例如以PDF文檔的形式)越來越 重要。因此,基于國家法律,電子形式的文檔及其經由因特網的傳輸 獲得了法律約束力并獲得了官方和權威機構在法律上的接受。在這個 方面,參考德意志聯邦共和國的簽名法令,其中規(guī)定,在將例如發(fā)票形式的電子文檔視為官方和權威機構的永久性證據文件的情況下必須 要滿足的約束。在這種情況下,在文檔中嵌入電子簽名,以為電子數 據記錄的交換確保法律確定性和責任。
然而,在這種情況下,出現了關于對或需要對電子形式的文檔的 什么內容進行簽名的問題。例如,如果僅對數據記錄的內容進行電子 簽名,則由于缺少簽名而不能對語義的操作或修改進行進一步的重構, 這意味著不可能確保整個電子文檔的法律約束力。相反,如果對語義 信息內容也進行簽名,則盡管該文檔具有法律約束力,但是另一方面, 實際上,對于以這種方式來簽名的數據記錄的接收者,難以在數據記 錄級重構語義解釋,這意味著數據記錄的人類可讀的可視化是必要的,
如以上提到過的,在大多數情況下這是通過產生PDF文檔來實現的。 然而,在這種情況下存在的爭議在于,是否在人類可讀的PDF文檔中 指示數據記錄的全部細節(jié),以及實際指示的數據的含義是否未通過改 變或蓋寫而被篡改。為了減小該問題的嚴重性,常常僅對PDF文檔的 整體進行簽名,即完全對人類可讀表示進行簽名。由于PDF文檔具有 非常復雜的結構,因而,尤其對于簽名方的部分,不清楚需要對什么 內容進行簽名或附加的簽名。例如,除了人類可讀的表示之外,PDF 文檔可以包含人類不可見的信息,如白色背景上的白色文本、或位于 被稱為PDF文檔査看區(qū)域之外的數據內容。
發(fā)明內容
本發(fā)明要解決的問題是提出一種創(chuàng)建人類可讀文檔的方法,除了 至少一個數據記錄之外,所述人類可讀文檔還包括描述該數據記錄的 至少一個語義信息項(簡稱語義),以便首先滿足對電子形式的文檔的 法律約束力的所有要求,其次對于簽名方以及對于電子形式文檔的接 收者而言,對簽名的數據內容的透明重構成為可能。
這個問題是由權利要求l公開的方法來解決的。在權利要求12中 還公開了一種利用該方法的相應的人類可讀文檔。在權利要求16中公 開了相應的驗證方法。
根據本發(fā)明,根據以下步驟來編制用于創(chuàng)建人類可讀文檔的方法。首先,必需以相應的數字形式來提供數據記錄以及描述該數據記 錄的語義。其次,使用己知的簽名方法,將對數據記錄與語義簽名一 起或互相分離地進行簽名。在簽名步驟之前或之后,將所述至少一個 數據記錄和描述所述數據記錄的語義作為產生文檔的人類可讀表示的 基礎,可以在顯示器上以圖形編輯或格式來示出所述文檔的人類可讀 表示,或可以采用打印產品的形式來示出所述文檔的人類可讀表示。 然后將簽名的數據記錄與簽名的語義整合入人類可讀表示中,使得可 以從人類可讀表示中提取簽名的數據記錄和簽名的語義,以及使得可 以將所提取的簽名的數據記錄和所提取的簽名的語義作為產生原始文
檔的冪等(idempotent)(即很大程度上相同的)人類可讀表示。在這
種情況下,冪等意味著可以使用根據本發(fā)明的方法創(chuàng)建的文檔,檢
驗數據記錄和語義的簽名以及基于本發(fā)明方法的將數據記錄可視化為 人類可讀表示,以重新創(chuàng)建在相關意義上與原始文檔相同的文檔。這
種詞一性證明所獲得的人類可讀表示是以由文檔創(chuàng)建者電子簽名的 數據為基礎的有效表示。
因此,根據本發(fā)明產生的人類可讀文檔包含這樣的對象,可以從 文檔中提取這些對象并可以將其作為產生文檔自身(從而產生冪等文 檔的屬性)的基礎。此外,可以使用類似的傳統編程工具來對可以從 文檔中提取的簽名的對象(即簽名的數據記錄和簽名的語義)進行驗 證,使得對于簽名方或對于文檔的接收者而言,該文檔具有許多應用 實例所需的法律約束力。
原理上,數據記錄的語言標準是什么并不重要;常見語言標準是 HTML、 ASCII 、 XML或TeX。
通常,數據記錄的數據是ASCII格式的,針對其語義描述,將該 數據輸入同樣采用ASCII格式的模板中??梢酝ㄟ^傳統的顯示程序將 ASCII數據記錄和ASCII模板轉換成人類可讀表示,如可以視覺地顯示 在屏幕上或使用打印機以模擬形式打印的Word或PDF文件。在產生文 檔的人類可讀表示期間或之后,本發(fā)明包括以人類可見的方式(例如 以條形碼的形式)或采用人類不可見的方式(例如以不可見的水印的 形式),分別將ASCII數據記錄和ASCII模板以簽名的形式整合入人類可讀表示中。不論分別所選的整合形式是什么,文檔的人類可讀表示 因而還包含簽名的內容數據以及后者的相關的簽名的整合描述,可以 彼此獨立地來驗證這兩者。例如,如果懷疑內容或語義的表示的真實 性,則可以通過上述提取來訴諸內容數據和訴諸語義描述。此外,還 可以完全根據簽名的內容數據和簽名的語義來重構文檔的人類可讀表 示的產生過程。
不論上述方法如何,同樣描述了一種人類可讀文檔,所述人類可 讀文檔具有至少一個數據記錄以及描述該數據記錄的至少一個語義信 息項(簡稱語義),其中,根據本發(fā)明,分別以簽名的形式對所述至少 一個數據記錄和語義進行整合,使得可以從文檔中提取簽名的數據記 錄和語義??梢詫⑺崛〉暮灻臄祿涗浐退崛〉暮灻恼Z義作 為產生文檔的冪等的人類可讀表示的基礎。從而可以使用文檔的冪等 的人類可讀表示來在文檔的原創(chuàng)性和真實性方面對所述文檔進行驗 證。將根據參考以下示例實施例的其他描述來考慮對這方面的其他細 節(jié)。
原理上,本發(fā)明的方法適于創(chuàng)建人類可讀文檔,除了至少一個數 據記錄以外,所述人類可讀文檔還包括描述所述數據記錄的至少一個 語義信息項(簡稱語義),所述方法包括以下步驟
-以相應的數字形式來提供所述至少一個數據記錄以及所述至少 一個語義;
-對所述數據記錄和所述語義進行電子簽名,以產生簽名的數據 記錄和簽名的語義,并基于所述至少一個數據記錄和所述至少一個語 義項來產生所述文檔的人類可讀表示;
-將簽名的數據記錄和簽名的語義整合入所述人類可讀表示中, 使得能夠從所述人類可讀表示中提取簽名的數據記錄和簽名的語義, 并使得所提取的簽名的數據記錄以及所提取的簽名的語義能夠作為產 生文檔的冪等的人類可讀表示的基礎。
原理上,本發(fā)明的人類可讀文檔具有至少一個數據記錄和描述該 數據記錄的語義信息項(簡稱語義),其中,所述文檔以相應的電子簽 名的形式整合了所述至少一個數據記錄和所述語義,使得能夠從文檔中提取簽名的數據記錄和語義,并使得所提取的簽名的數據記錄以及 所提取的簽名的語義能夠作為產生文檔的冪等的人類可讀表示的基 礎。
在相應的從屬權利要求中公開了本發(fā)明的其他有利實施例。
參考附圖,描述本發(fā)明的示例實施例,附圖中 圖l示出了創(chuàng)建簽名的數據記錄的過程鏈圖2示出了在2D矩陣碼環(huán)境下的簽名的數據記錄和簽名的語義的 表示;
圖3示出了創(chuàng)建文檔的冪等的人類可讀表示的方法步驟的示意。
具體實施例方式
圖1中頂部的過程鏈示出了創(chuàng)建簽名的數據記錄1*和簽名的語義 2*的過程鏈圖。假定所選的用于表示數據記錄1的語言標準是XML, XML被認為是用于創(chuàng)建機器可讀和人類可讀文檔的廣泛使用的標準。 針對數據內容的語義描述,使用被稱為XSL變換2的技術,XSL變換2 使用被稱為XSLT樣式表2的技術來對使用XML的數據1進行變換, XSLT樣式表2將XML數據1添加到描述所述數據的語義中。在參考圖l 中的符號3所示的方法步驟中,使用已知的簽名技術,例如使用 XML-DSIG,對XML標準表示的數據1和XSLT變換表示的語義2進行互 相分離的簽名或一起簽名。獲得的結果是簽名的數據記錄"和相應的 簽名的語義2*。
與上述電子或數字簽名相分離地,將文檔的人類可讀表示4創(chuàng)建 為PDF文檔,即基于XML數據記錄1和表示語義的XSL變換2來進行創(chuàng) 建(參見圖l中底部的過程鏈)。圖l所示的波形括號表示整合步驟,其 中將簽名的數據記錄1*和簽名的語義2*嵌入文檔的人類可讀表示4中。 由簽名的數據記錄1*和簽名的語義2*以這種方式來補充的人類可讀表 示4*表示本發(fā)明的文檔,本發(fā)明的文檔提供了通過冪等模仿 (idempotent emulation )來驗證文檔的選項。使用合適的讀取和提取技術,可以從根據本發(fā)明來擴展的文檔的 人類可讀表示4*中提取簽名的數據記錄1*和簽名的語義2*,所述表示 可以作為產生與文檔的原始的人類可讀表示4冪等(即很大程度上相同 的)的其他文檔的基礎,可以使用固有的已知驗證技術來檢驗所述冪 等文檔。
可以使用人類可見的條形碼(例如二維矩陣碼),或以不可見的 方式(例如使用已知的水印技術),將簽名的數據記錄1*和簽名的語義
2*整合入表示4*中。在這兩種情況下,用于從補充后的文檔4*中提取
相關的簽名的文檔內容以進行后續(xù)驗證的提取技術是己知的。
圖2示出了在2D矩陣碼5的環(huán)境下表示簽名的數據記錄"和簽名 的語義2*的選項,例如,將所述2D矩陣碼5打印或在屏幕上顯示為文 檔的實際人類可讀表示4 (例如同樣以PDF格式)的分離的輔助表6。 通常,將人類可讀表示4和2D矩陣碼5存儲在公共的PDF文件中。
圖3示出了文檔4的冪等模仿的步驟,起始點是采取人類可讀的模 擬形式的輔助表6上的2D矩陣碼5。使用合適的條形碼讀取器7來讀取 輔助表6,所述條形碼讀取器7能夠從電子形式的輔助表6中提取簽名的 數據記錄1*和簽名的語義2*。
作為備選,如果文檔是數字文檔,具有上述補充的人類可讀表示 4*的格式,則從相應的數據文件中提取簽名的數據記錄1*和簽名的語 義2*。
所產生的電子形式可以作為創(chuàng)建人類可讀文檔4的冪等的相同內 容模仿的基礎,可以對所述模仿進行驗證通過使用可信的表示成分, 使用以再次執(zhí)行圖l中下半部分所示的處理來提供人類可讀表示的方 式而獲得的成分。此后, 一方面,對數據記錄1*和語義2*的簽名進行 檢驗,另一方面,以打印的或數字格式,對文檔的新獲得的人類可讀 表示與文檔的原始人類可讀表示的一致性和真實性進行檢驗。這兩個 人類可讀表示的一致性或同一性證實了 在所呈現的人類可讀表示中, 正確表示了如文檔的原始作者所預期的文檔的內容或含義。
使用本發(fā)明的方法以及可以使用所述方法來產生的文檔的人類 可讀表示,可以通過對分別分發(fā)的文檔的真實性進行驗證,以可驗證的方式來執(zhí)行文檔的授權分發(fā)(例如以PDF文件形式)。還可以以簡單 的方式來檢驗人類可讀表示的機密性狀態(tài)。此外,本發(fā)明的方法允許
根據以合適方式標記的語義(例如采用XSL變換的形式),將文檔的人
類可讀表示自動標記為機密。還可以將其他信息添加到文檔的人類可 讀表示,如作者的姓名或分發(fā)者的地址。
權利要求
1、一種用于創(chuàng)建人類可讀文檔(4*)的方法,除了至少一個數據記錄之外,所述人類可讀文檔(4*)還包括描述所述數據記錄的至少一個語義信息項,簡稱語義,其特征在于,所述方法包括以下步驟-以相應的數字形式來提供至少一個數據記錄(1)以及至少一個語義項(2);-對所述數據記錄和所述語義進行電子簽名(3),以產生簽名的數據記錄(1*)和簽名的語義(2*),并基于所述至少一個數據記錄(1)和所述至少一個語義項(2)來產生所述文檔的人類可讀表示(4);-將簽名的數據記錄和簽名的語義整合(4*)入所述人類可讀表示中,使得能夠從所述人類可讀表示中提取簽名的數據記錄和簽名的語義,并使得所提取的簽名的數據記錄以及所提取的簽名的語義能夠作為產生所述文檔的冪等的人類可讀表示的基礎。
2、 根據權利要求l所述的方法,其中,使用以下語言標準之一來 表示所述數據記錄(1): HTML、 ASCII、 XML、 TeX。
3、 根據權利要求1或2所述的方法,其中,所述語義(2)是以模 板形式來表示的,所述模板中輸入有所述數據記錄。
4、 根據權利要求3所述的方法,其中,所述模板是XSLT樣式表, 通過XSL變換將XML文件形式的所述數據記錄轉換成所述XSLT樣式 表。
5、 根據權利要求1至4中任一項所述的方法,其中,所選的人類 可讀表示(4)是PDF表示。
6、 根據權利要求1至5中任一項所述的方法,其中,所述文檔的 人類可讀表示(4)是使用FOP程序,即形成處理器來產生的。
7、 根據權利要求1至6中任一項所述的方法,其中,使用簽名標 準XML-DSIG對XML形式的數據記錄(1)進行電子簽名。
8、 根據權利要求1至7中任一項所述的方法,其中,對所提取的 簽名的數據記錄(1*)以及所提取的簽名的語義(2*)進行驗證。
9、 根據權利要求1至8中任一項所述的方法,其中,對所述文檔的冪等的人類可讀表示進行驗證。
10、 根據權利要求1至9中任一項所述的方法,其中,以加密的形 式將簽名的數據記錄(1*)和簽名的語義(2*)整合入所述人類可讀表示(4*)中。
11、 根據權利要求io所述的方法,其中,所述加密的形式是一維或二維條形碼或水印。
12、 一種人類可讀文檔,具有至少一個數據記錄和描述所述數據 記錄的語義信息項,簡稱語義,其特征在于,所述文檔以相應的電子 簽名的形式整合了所述至少一個數據記錄(1)和所述語義(2),使得 能夠從所述文檔中提取簽名的數據記錄(1*)和簽名的語義(2*),并 使得所提取的簽名的數據記錄以及所提取的簽名的語義能夠作為產生 所述文檔的冪等的人類可讀表示的基礎。
13、 根據權利要求12所述的人類可讀文檔,其中,以不能被人類 感知的形式將簽名的數據記錄(1*)和簽名的語義(2*)整合入所述 文檔的人類可讀表示(4*)中。
14、 根據權利要求13所述的人類可讀文檔,其中,所述不能被人類感知的形式是水印。
15、 根據權利要求12所述的人類可讀文檔,其中,以條形碼的形 式將簽名的數據記錄(1*)和簽名的語義(2*)整合入文檔的人類可 讀表示(4*)中。
16、 一種驗證人類可讀文檔(4*)的方法,所述人類可讀文檔(4*) 具有至少一個簽名的數據記錄(1*)以及描述所述數據記錄的至少一 個簽名的語義信息項(2*),簡稱語義,其特征在于,所述方法包括以 下步驟-a) 以數字格式來提取和提供(7)所述至少一個簽名的數據記錄 (1*)以及所述至少一個簽名的語義(2);b) 根據所述至少一個數據記錄和所述至少一個語義項來產生所 述文檔的人類可讀表示(4);c) 對所述數據記錄和所述語義項的簽名進行驗證;d) 將所述文檔的原始的人類可讀表示與步驟b)產生的所述文檔的人類可讀表示(4)進行比較;e)如果比較結果相同,則判定步驟b)產生的所述文檔的人類可 讀表示(4)與所述文檔的原始的人類可讀表示相對應。
全文摘要
本發(fā)明描述了一種用于創(chuàng)建人類可讀文檔的方法,除了至少一個數據記錄以外,所述人類可讀文檔還包括描述所述數據記錄的至少一個語義信息項,簡稱語義。本發(fā)明使用以下步驟以相應的數字形式來提供所述數據記錄和所述語義;基于所述至少一個數據記錄和所述至少一個語義項來產生所述文檔的人類可讀表示,對所述數據記錄和所述語義進行簽名;以及-將簽名的數據記錄和簽名的語義整合入所述人類可讀表示中,使得能夠從所述人類可讀表示中提取簽名的數據記錄和簽名的語義,并使得所提取的簽名的數據記錄和所提取的簽名的語義能夠作為產生文檔的冪等的人類可讀表示的基礎。
文檔編號G06F21/64GK101517586SQ200780034172
公開日2009年8月26日 申請日期2007年8月31日 優(yōu)先權日2006年9月16日
發(fā)明者羅蘭·克魯格 申請人:湯姆森許可貿易公司