專利名稱:確定和推薦用于文檔的文檔控制策略的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本公開(kāi)涉及識(shí)別用于給定文檔的適當(dāng)文檔控制策略。
背景技術(shù):
文檔控制策略包括文檔訪問(wèn)策略和文檔保留策略。文檔安全策
略是文檔訪問(wèn)策略的一^:例子。文檔安全策略是少見(jiàn)則框架內(nèi)的一個(gè) 實(shí)例,組織在該規(guī)則框架內(nèi)建立多個(gè)必需的文檔信息安全級(jí)別以獲 得特定期望機(jī)密性和隱私目標(biāo)。策略是關(guān)于應(yīng)用于文檔內(nèi)容的權(quán)限 和特權(quán)、以及任何其他可能分配給或應(yīng)用于文檔的約束的聲明。文 檔安全策略通常通過(guò)DRM (數(shù)字權(quán)限管理)系統(tǒng)來(lái)描述和/或?qū)崿F(xiàn)。
文檔保留策略是組織關(guān)于保存數(shù)據(jù)(尤其是電子文檔)的規(guī)范 化策略內(nèi)的一個(gè)實(shí)例。與之相關(guān)的還有文檔數(shù)據(jù)銷毀策略,其是組 織關(guān)于數(shù)據(jù)(尤其是電子文檔)銷毀/數(shù)據(jù)過(guò)期的規(guī)范化策略內(nèi)的一 個(gè)實(shí)例。文檔數(shù)據(jù)銷毀策略是文檔保留策略的一種類型。文檔保留 策略通常通過(guò)記錄歸檔系統(tǒng)來(lái)實(shí)現(xiàn)。
當(dāng) 一個(gè)文檔被創(chuàng)建之后,用戶通常手動(dòng)地施行文檔保留和安全 策略,或者使用DRM系統(tǒng)(其中常常需要對(duì)新的未知文檔進(jìn)行人工 干預(yù))。另一種方法依賴信息科技工作流/內(nèi)容管理系統(tǒng)UTW/CMS) 來(lái)幫助選擇、分配和施行適當(dāng)?shù)牟呗?。這種工作流和系統(tǒng)常常是高 度定制化的、專門(mén)開(kāi)發(fā)來(lái)用于公司的特定業(yè)務(wù)實(shí)踐,并且利用將安 全和保留策略與預(yù)定義文檔類別緊密結(jié)合的分類系統(tǒng)。
發(fā)明內(nèi)容
本說(shuō)明書(shū)描述了識(shí)別用于給定文檔的適當(dāng)文檔控制策略的相關(guān) 技術(shù)。概括地說(shuō),本說(shuō)明書(shū)描述的主題的一個(gè)方面可以包含于一種方法中,該方法包括確定文檔的文體分類,文體分類包括多個(gè)項(xiàng) (term)以及相應(yīng)分?jǐn)?shù),每個(gè)分?jǐn)?shù)對(duì)應(yīng)一個(gè)項(xiàng),表示該項(xiàng)關(guān)于該文檔 的置信度水平;通過(guò)將文體分類與文檔控制策略本體進(jìn)行比較,來(lái) 在文檔控制策略本體中識(shí)別 一個(gè)相關(guān)節(jié)點(diǎn);至少部分地基于至少一 個(gè)分?jǐn)?shù)評(píng)估相關(guān)節(jié)點(diǎn)的可用性的置信度水平;如果所評(píng)估的相關(guān)節(jié) 點(diǎn)的可用性的置信度水平低于閾值,則在文檔控制策略本體中選擇 該相關(guān)節(jié)點(diǎn)的父節(jié)點(diǎn)以代表該相關(guān)節(jié)點(diǎn);并且基于在文檔控制策略 本體中所識(shí)別的或所選擇的相關(guān)節(jié)點(diǎn)推薦至少 一 個(gè)文檔控制策略以 管理對(duì)該文檔的訪問(wèn)。
確定可以包括使用包括分級(jí)知識(shí)結(jié)構(gòu)的文檔文體本體對(duì)所述 文檔進(jìn)行分類,所述分級(jí)知識(shí)結(jié)構(gòu)包含項(xiàng)和概念的詞匯表、以及用 于文檔文體分類的表示詞匯表項(xiàng)和概念之間的相互關(guān)系的推理鏈; 所述文體分類可以包括所述推理鏈的子集;以及所述識(shí)別可以包4舌 檢查與比所述推理鏈的子集的各項(xiàng)的最低水平高的水平相關(guān)聯(lián)的 項(xiàng)。該方法還包括基于與所述文檔控制策略本體中的 一個(gè)父節(jié)點(diǎn)的 子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略的組合,導(dǎo)出用于所述文檔控制 策略本體中的所述父節(jié)點(diǎn)的文檔控制策略;以及將導(dǎo)出的文檔控制 策略與文檔控制策略本體中的父節(jié)點(diǎn)相關(guān)聯(lián)。
所述導(dǎo)出的文檔控制策略可以包括導(dǎo)出的安全策略和導(dǎo)出的保 留策略,并且導(dǎo)出所述文檔控制策略可以包括組合與所述父節(jié)點(diǎn) 的子節(jié)點(diǎn)相關(guān)聯(lián)的安全策略的布爾值,以形成所述導(dǎo)出的安全策略; 以及組合所識(shí)別的單獨(dú)情況以形成所述導(dǎo)出的保留策略,所述所識(shí) 別的單獨(dú)情況是基于與子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略的關(guān)聯(lián)變 量。導(dǎo)出可以包括從與所述文檔控制策略本體中的子節(jié)點(diǎn)相關(guān)聯(lián) 的多個(gè)文檔控制策略中導(dǎo)出集合了策略組成的文檔控制策略,默認(rèn) 為更保守的策略組成。此外,所述導(dǎo)出可以包括遞歸地導(dǎo)出用于所 述文檔控制策略本體中的父節(jié)點(diǎn)的文檔控制策略,直至根節(jié)點(diǎn);并 且其中所述導(dǎo)出和所述關(guān)聯(lián)可以在部署所述文檔控制策略本體之前 執(zhí)行。所述推薦可以包括輸出多個(gè)推薦的文檔控制策略以及對(duì)應(yīng)的來(lái)
自所述文檔控制策略本體的推理鏈。所述方法還包括將來(lái)自多個(gè)
推薦的文檔控制策略的最高排名的文檔控制策略自動(dòng)應(yīng)用于所述文檔。
上述方面的其他實(shí)施例包括相應(yīng)的系統(tǒng)、裝置和計(jì)算機(jī)程序產(chǎn)
品。例如, 一種系統(tǒng)可以包括用戶接口設(shè)備;文檔控制組件,包 括包含文檔控制策略的分級(jí)知識(shí)結(jié)構(gòu),所述文檔控制策略包含根據(jù) 與父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的規(guī)則的代數(shù)最大值而由所述父節(jié)點(diǎn)繼承 的至少一個(gè)文檔控制策略;以及一個(gè)或多個(gè)計(jì)算機(jī),其可操作為與 所述用戶接口設(shè)備和所述文檔控制組件進(jìn)行交互,以確定文檔的文 體分類,將所述文體分類與所述分級(jí)知識(shí)結(jié)構(gòu)進(jìn)行比較以在包括所 述父節(jié)點(diǎn)的多個(gè)節(jié)點(diǎn)中識(shí)別 一 個(gè)相關(guān)節(jié)點(diǎn),并且基于在所述分級(jí)知 識(shí)結(jié)構(gòu)中識(shí)別的相關(guān)節(jié)點(diǎn)推薦至少 一 個(gè)文檔控制策略,來(lái)管理對(duì)所 述文檔的訪問(wèn)。所述一個(gè)或多個(gè)計(jì)算機(jī)可以包括一個(gè)個(gè)人計(jì)算機(jī), 并且所述個(gè)人計(jì)算機(jī)可以包括所述用戶接口設(shè)備。
所述一個(gè)或多個(gè)計(jì)算機(jī)可以包括可操作為通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)與
所述用戶接口設(shè)備進(jìn)行交互的服務(wù)器,并且所述用戶接口設(shè)備可操 作為客戶端而與所述服務(wù)器進(jìn)行交互。所述系統(tǒng)還可以包括用于
文檔文體分類的文檔文體本體,所述文檔文體本體包括分級(jí)知識(shí)結(jié) 構(gòu),所述分級(jí)知識(shí)結(jié)構(gòu)包含項(xiàng)和概念的詞匯表,以及表示詞匯表項(xiàng) 和概念之間的相互關(guān)系的推理鏈;應(yīng)用程序接口 (API),配置為向
的訪問(wèn);其中所述文檔控制組件包括策略本體組件,該策略本體組 件配置為推薦所述至少一個(gè)文檔控制策略,并且其包括一個(gè)接口 , 策略管理組件通過(guò)該接口訪問(wèn)要應(yīng)用到所述文檔的至少 一 個(gè)文檔控 制策略。所述策略管理組件可以包括策略服務(wù)器,并且所述編程接 口可以利用XML (可擴(kuò)展標(biāo)記語(yǔ)言)和XML方案(XSD)進(jìn)行數(shù) 據(jù)交換。
在本說(shuō)明書(shū)中描述的主題的特定實(shí)施例可以實(shí)現(xiàn)為獲得一個(gè)或多個(gè)下述優(yōu)勢(shì)。分級(jí)知識(shí)結(jié)構(gòu)可以用于自動(dòng)地對(duì)文檔進(jìn)行分類,并 且隨后推薦和應(yīng)用適當(dāng)?shù)奈臋n安全和保留策略??梢曰谖臋n文體 (例如文檔類別和類型)自動(dòng)地定位和推薦安全和保留策略,并且 企業(yè)可以使用這些系統(tǒng)和方法使保護(hù)和保留文檔的過(guò)程自動(dòng)化。
能的策略。關(guān)于包含文檔控制策略的分級(jí)知識(shí)結(jié)構(gòu)概括文體分類的
別文檔控制策略的分級(jí)表示分開(kāi)。這允許方法和系統(tǒng)容易地在真實(shí) 世界業(yè)務(wù)環(huán)境中使用,在這種環(huán)境中人類和機(jī)器代理可能難以高度 精確地確定給定文檔的確切類型或類別。
不需要高強(qiáng)度的人類干預(yù)或完善的自動(dòng)文檔分類器就可以定位 有用和正確的策略。可以避免耗時(shí)且常常出錯(cuò)的人工過(guò)程以及人工
輔助的DRM,并且可以自動(dòng)地選擇適當(dāng)文檔控制策略并將其應(yīng)用到 文檔,而與生成該文檔的用戶的知識(shí)和能力無(wú)關(guān)。此外,在沒(méi)有完 整規(guī)定安全和保留策略的業(yè)務(wù)中,可以自動(dòng)地進(jìn)行相關(guān)文檔文體的 概括和推理以找到適當(dāng)?shù)暮蜻x策略。這對(duì)于涉及影響保障、保護(hù)和 歸檔業(yè)務(wù)文檔的義務(wù)的政府規(guī)范(例如2002年Sarbanes-Oxley法案) 的公司來(lái)說(shuō)特別有價(jià)值。
此外,系統(tǒng)是靈活的,因?yàn)樾碌陌踩捅A舨呗钥梢匀菀椎卦?加和施行,并且新的文檔類型可以容易地增加到文檔分類系統(tǒng),那
容性。使用返回分級(jí)類別結(jié)構(gòu)內(nèi)的文檔文體類別的分類器可以通過(guò) 使用更概括的父分類來(lái)實(shí)現(xiàn)對(duì)小錯(cuò)誤或誤分類的更大容忍度,這種 父分類具有更保守的規(guī)則但是仍然是正確的。
本發(fā)明的 一 個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和下文描述中闡明。 從這些描述、附圖和權(quán)利要求書(shū)中,本發(fā)明的其他特征、方面和優(yōu) 勢(shì)將變得明顯。
圖1示出了配置用于自動(dòng)確定和推薦文檔控制策略的示例性系統(tǒng)。
圖2示出了用于自動(dòng)確定和推薦文檔控制策略的示例性工作流。 圖3是示出了確定、推薦文檔控制策略并將其應(yīng)用到文檔的示 例性過(guò)程的流程圖。
圖4示出了與示例性策略本體相比較的兩個(gè)示例性分類器推理鏈。
各圖中,相同參考編號(hào)和標(biāo)記表示相同的元件。
具體實(shí)施例方式
圖1示出了配置用于自動(dòng)確定和推薦文檔控制策略的示例性系 統(tǒng)。數(shù)據(jù)處理裝置110可以包括硬件/固件、操作系統(tǒng)和一個(gè)或多個(gè) 應(yīng)用,包括文檔控制組件120。文檔控制組件120可以是文檔處理應(yīng) 用(例如,可從加利福尼亞州圣何塞市的奧多比公司獲得的Adobe Acrobat⑧軟件)或工作流引擎(例如,Adobe LiveCycle Policy Server軟件)的一部分。此外,文檔控制組件120可以是大型文檔 處理系統(tǒng)諸如企業(yè)工作流系統(tǒng)、資源管理系統(tǒng)(例如,企業(yè)關(guān)系管 理(ERM)系統(tǒng)或客戶關(guān)系管理(CRM)系統(tǒng))、或內(nèi)容管理系統(tǒng) (例如,文檔庫(kù)或文檔歸檔系統(tǒng))的一部分。
此處使用的"應(yīng)用"意指用戶認(rèn)為是用于已定義目的的專用計(jì) 算機(jī)工具的計(jì)算機(jī)程序。應(yīng)用可以整體地構(gòu)建到數(shù)據(jù)處理裝置110 的操作系統(tǒng)(OS)中,或者應(yīng)用可以具有位于不同位置的不同組件 (例如, 一部分在OS或內(nèi)核模式下, 一部分在用戶模式下, 一部分 在遠(yuǎn)程服務(wù)器中)。此外,應(yīng)用可以是圖形用戶接口應(yīng)用(例如, Web瀏覽器),其連接到網(wǎng)絡(luò)180上的一個(gè)或多個(gè)處理器190 (例 如, 一個(gè)或多個(gè)Web服務(wù)器),并提供計(jì)算機(jī)工具作為網(wǎng)絡(luò)服務(wù)。
文檔控制組件120包括分級(jí)知識(shí)結(jié)構(gòu)122,其包括文檔控制策略。 分級(jí)知識(shí)結(jié)構(gòu)122可以是文檔控制策略本體,具有規(guī)定包括安全訪 問(wèn)限制和文檔保留規(guī)范的控制參數(shù)的多個(gè)策略。分級(jí)知識(shí)結(jié)構(gòu)122包括根據(jù)與父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的規(guī)則的代數(shù)最大值(例如DRM 或保留規(guī)則)由父節(jié)點(diǎn)繼承的至少一個(gè)文檔控制策略。概括地說(shuō), 這涉及導(dǎo)出集合了策略組成(來(lái)自多個(gè)與子節(jié)點(diǎn)相關(guān)聯(lián)的文檔控制 策略)的文檔控制策略(用于父節(jié)點(diǎn)),策略組成默認(rèn)為更保守(更 概括)的策略組成。用于確定代數(shù)最大值的具體示例性過(guò)程在下文 中描述。
數(shù)據(jù)處理裝置110包括一個(gè)或多個(gè)處理器130和至少一個(gè)計(jì)算 機(jī)可讀介質(zhì)140。數(shù)據(jù)處理裝置IIO還可以包括通信接口 150以及一 個(gè)或多個(gè)用戶接口設(shè)備160。用戶接口設(shè)備160可以包括顯示屏、簡(jiǎn) 鍵盤(pán)、鼠標(biāo)、指示筆或其任意組合。此外,數(shù)據(jù)處理裝置110(或網(wǎng) 絡(luò)180上可訪問(wèn)的另一數(shù)據(jù)處理識(shí)別)自己可以被看作用戶接口設(shè) 備(例如,當(dāng)與作為Web服務(wù)遞送的應(yīng)用有關(guān)地可訪問(wèn)文檔控制組 件120時(shí))。
一旦正確地編程,數(shù)據(jù)處理裝置110就可操作為確定文檔的文 體分類,比較文體分類與分級(jí)知識(shí)結(jié)構(gòu)122以識(shí)別包括父節(jié)點(diǎn)的多 個(gè)節(jié)點(diǎn)中的一個(gè)相關(guān)節(jié)點(diǎn),并基于在分級(jí)知識(shí)結(jié)構(gòu)122中識(shí)別的相 關(guān)節(jié)點(diǎn)推薦至少一個(gè)文檔控制策略來(lái)管理對(duì)文檔的訪問(wèn)(例如,用
于文檔的使用和保留限制)。此外,數(shù)據(jù)處理裝置IIO可以是多個(gè) 裝置之一,這些裝置通過(guò)網(wǎng)絡(luò)180可通信地連接,且可操作(彼此 協(xié)作地)為執(zhí)行上迷操作。因此,應(yīng)當(dāng)理解,文檔控制組件120可 以作為基于服務(wù)器的資源提供給裝置IIO,并且文檔控制組件120可
不同計(jì)算系統(tǒng)中。
圖2示出了用于自動(dòng)確定和推薦文檔控制策略的示例性工作流。 電子文檔210(為了簡(jiǎn)潔將簡(jiǎn)稱為文檔)可以提供給文檔分類器220。 文檔210可以是包括在分類文檔210時(shí)可用的項(xiàng)的任意信息集合。 文檔210不需要對(duì)應(yīng)于一個(gè)文件,文檔可以存儲(chǔ)在還包含其他文檔 的文件的一部分中,存儲(chǔ)在專用于所討論文檔的單個(gè)文件中,或存 儲(chǔ)在多個(gè)協(xié)調(diào)文件中。文檔分類器220處理文檔210以確定文檔210的文體分類230。 文檔分類器220可以基于提供的知識(shí)結(jié)構(gòu)自動(dòng)地針對(duì)任意給定文檔 這樣做(例如,自動(dòng)將文檔分類在文檔類型樹(shù)上)。例如,文檔分 類器220可以具有相關(guān)聯(lián)的文檔文體本體225,其包括分級(jí)知識(shí)結(jié) 構(gòu),該分級(jí)知識(shí)結(jié)構(gòu)包含項(xiàng)和概念的詞匯表以及用于文檔文體分類 的表示這些詞匯表項(xiàng)和概念之間的相互關(guān)系的推理鏈。文檔文體本 體225可以使用公共可得的文檔分類器技術(shù)或使用在2006年3月3 日提交、名稱為"SYSTEM AND METHOD OF BUILDING AND USING HIERARCHICAL KNOWLEDGE STRUCTURES"的美國(guó)專利 申請(qǐng)U/368,130中描述的技術(shù)來(lái)構(gòu)建和訪問(wèn),通過(guò)引用將上述專利 申請(qǐng)整體包含于此。
在此使用的詞"文體"用于涵蓋文檔類別信息(例如,題目類 別,諸如收入、Photoshop和特征)以及文檔類型信息(例如,工作 流類型,諸如產(chǎn)品規(guī)范、產(chǎn)品手冊(cè)、履歷、發(fā)票和財(cái)務(wù)報(bào)告)。因 此,文體包括主題相關(guān)分類以及以文檔體裁、形式或在企業(yè)內(nèi)的角 色為特征的文檔分類。
文檔分類器220對(duì)于用于文檔210的資源來(lái)說(shuō)可以是是本地的 (例如,在同一機(jī)器上)或遠(yuǎn)程的(例如,在通過(guò)網(wǎng)絡(luò)可訪問(wèn)的另 一機(jī)器上)。因此,文檔分類器220可以構(gòu)建在處理文檔210的軟 件中,或者文檔分類器220可以是應(yīng)請(qǐng)求而提供文檔分類服務(wù)的服 務(wù)器應(yīng)用。文檔分類器220可以是多標(biāo)簽分類器,其提供與可用文 體有關(guān)的一組屬性,并且文體分類230可以表示多個(gè)、被排名的文
檔文體D
文檔分類過(guò)程可以是模糊的,意即不需要確定文檔的確切分類。
可以在文體分類230中提供各種可能的確切分類的分?jǐn)?shù),或者在任 何情況下,文體分類230將表示文檔的至少一種概括的文體。例如, 文檔分類器220可以將文檔識(shí)別為有40%的置信度屬于第一子文 體,而有30%的置信度屬于第二子文體,但是隨后該文檔也屬于有 70%的置信度的第 一和第二子文體的父文體。選擇父文體導(dǎo)致使用更保守(但是仍然正確)的規(guī)則以及得到相對(duì)于使用任一較低可能性 子文體來(lái)說(shuō)顯著的改善。此外,候選文體的列表和相關(guān)聯(lián)的分?jǐn)?shù)可 以由文檔分類器230根據(jù)用于確定類別或項(xiàng)與未知文檔的相關(guān)性的
統(tǒng)計(jì)方法來(lái)生成,如在美國(guó)專利申請(qǐng)11/368,130中描述的那樣。
一旦確定了文檔210的文體分類230,則可以將文體分類230發(fā) 送給策略選擇器240,其相對(duì)于任一文檔資源或文檔分類器可以是本 地的或遠(yuǎn)程的。生成的文體分類230可以包括多個(gè)項(xiàng)和對(duì)應(yīng)的分?jǐn)?shù), 每個(gè)分?jǐn)?shù)對(duì)應(yīng)一個(gè)項(xiàng),表示該項(xiàng)關(guān)于文檔210的置信度水平。例如, 生成的文體分類230可以是XML (可擴(kuò)展標(biāo)記語(yǔ)言)文檔,其包括 標(biāo)識(shí)文檔210的信息、候選文體和相關(guān)聯(lián)的分?jǐn)?shù)。
文體分類230可以包括文檔文體本體225中的推理鏈的子集 235。這些推理鏈中的每一個(gè)可以列舉文檔分類器本體中從葉到根的 整個(gè)鏈(如圖2所示)。因此,文檔分類器220完成的推理可以傳 送給策略選擇器240,其可以決定是否以及如何使用該信息。例如, 如果特定分類器結(jié)果推理鏈具有在控制策略本體中到處都找不到的 葉節(jié)點(diǎn)(第一標(biāo)簽),則策略選擇器將步進(jìn)到源推理鏈的父標(biāo)簽, 并使用該標(biāo)簽來(lái)搜索策略本體;該過(guò)程可以重復(fù),直至找到匹配或 達(dá)到推理鏈的開(kāi)始且沒(méi)有找到匹配,在這種情況下,可以應(yīng)用與根 節(jié)點(diǎn)相關(guān)聯(lián)的任何規(guī)則。此外,盡管子集235中的推理鏈在圖2中 單獨(dú)地示出,但是應(yīng)當(dāng)理解,這些推理鏈可以在一個(gè)結(jié)構(gòu)中一起提 供(例如,列舉多面文檔分類230的單個(gè)樹(shù))。
策略選擇器240可以在文檔安全和保留策略服務(wù)器(諸如可從 加利福尼亞州圣何塞市的奧多比公司獲得的Adobe LiveCycle Policy Server軟件)中實(shí)現(xiàn)。策略選擇器240使用通過(guò)匯編一組用于 不同文檔分類的文檔控制策略(例如,訪問(wèn)、安全和保留策略)來(lái) 構(gòu)造的第二知識(shí)結(jié)構(gòu)(例如,策略樹(shù))。例如,策略選擇器240可 以具有包含分級(jí)知識(shí)結(jié)構(gòu)的相關(guān)聯(lián)的文檔控制策略本體245,其中父 節(jié)點(diǎn)繼承從分級(jí)知識(shí)結(jié)構(gòu)中的子節(jié)點(diǎn)導(dǎo)出的策略。
策略選擇器240可以將文體分類230與文檔控制策略本體245進(jìn)行比較,以識(shí)別用于文檔210的相關(guān)節(jié)點(diǎn)。這可以涉及檢查與比
推理鏈的子集235的各項(xiàng)的最低水平高的水平相關(guān)聯(lián)的項(xiàng)。策略選 擇器240可以作出推薦,即使文體分類230沒(méi)有完全對(duì)文檔210進(jìn) 行分類,因?yàn)椴呗允怯杀倔w245中的父節(jié)點(diǎn)繼承的。因此,適當(dāng)?shù)?父節(jié)點(diǎn)和對(duì)應(yīng)的適當(dāng)策略可以通過(guò)在知識(shí)結(jié)構(gòu)上向上追蹤推理鏈直 到滿足規(guī)定的置信度水平(閾值)而找到。最差情況下,文檔210 落到根節(jié)點(diǎn)下面,在這種情況下,文檔210是概括的文檔并且選擇 根節(jié)點(diǎn)的策略。
由于策略選擇器240可以找到兩個(gè)知識(shí)結(jié)構(gòu)之間的相關(guān)性,包 括在葉節(jié)點(diǎn)以外的級(jí)別上,因此不需要在文檔分類器220所使用的 知識(shí)結(jié)構(gòu)和策略選擇器240所使用的知識(shí)結(jié)構(gòu)之間的直接對(duì)應(yīng)關(guān)系。 實(shí)際上,文檔分類器220和策略選擇器240所使用的分類系統(tǒng)可以 是由具有不同主觀意識(shí)的不同人構(gòu)建的不同系統(tǒng)。注意,企業(yè)常常 將開(kāi)發(fā)多個(gè)文檔分類本體,而不是僅僅一個(gè)(例如,對(duì)于每個(gè)業(yè)務(wù) 部門(mén)一個(gè)不同本體)。然而,文體分類230可以與文檔控制策略本
體245進(jìn)行比較,以確定用于文檔210的適當(dāng)文檔控制策略,因?yàn)?可以向著根來(lái)追蹤文檔控制策略本體245中的關(guān)系鏈,直到找到具 有策略的適當(dāng)節(jié)點(diǎn)?;谠摫容^,策略選擇器240可以作出策略推 薦250,其可以是單個(gè)策略或多個(gè)策略(例如,可能應(yīng)用到文檔的策 略的有排名的列表)。
圖3是示出確定、推薦文檔控制策略并將其應(yīng)用到文檔的示例 性過(guò)程的流程圖。為文檔控制策略本體中的父節(jié)點(diǎn)確定310文檔控 制策略。這可以作為預(yù)處理操作而進(jìn)行,其中可以利用從子節(jié)點(diǎn)導(dǎo) 出的文檔控制策略填充策略樹(shù)的父節(jié)點(diǎn),或者這可以在運(yùn)行時(shí)主動(dòng) 地進(jìn)行。
策略本體可以由第三方提供,并且包括葉節(jié)點(diǎn)處的策略信息, 其可以沿分級(jí)向上傳播,以便父節(jié)點(diǎn)處的策略至少如同父節(jié)點(diǎn)的子 節(jié)點(diǎn)處的策略一樣保守。策略向本體分級(jí)上部的這種傳播可以理解 為種子本體的代數(shù)DRM和保留策略匯編。增大的策略本體可以組織給定企業(yè)的所有文檔文體,并關(guān)聯(lián)用于本體內(nèi)的每種文檔文體的安 全和保留策略。
當(dāng)文檔文體和它們的策略被安排到這種本體結(jié)構(gòu)時(shí),可以進(jìn)行 自動(dòng)概括(稱為推理),以確定哪些策略應(yīng)當(dāng)應(yīng)用到所討論的新的 未知文檔。例如,策略本體的一個(gè)分支可以將財(cái)務(wù)文檔作為一種文 檔文體,而年度報(bào)告、季度報(bào)告和季度內(nèi)更新可以都是財(cái)務(wù)文檔的 子文體,并被組織在財(cái)務(wù)文檔之下。與每種子文體相關(guān)聯(lián)的可以是 應(yīng)用到適當(dāng)文檔的專用策略。當(dāng)策略本體被構(gòu)建時(shí),對(duì)于每種父文 檔文體(例如,財(cái)務(wù)文檔),最概括的可應(yīng)用策略(對(duì)于此文體) 可以通過(guò)應(yīng)用安全和保留策略代數(shù)自動(dòng)地計(jì)算并記錄,該安全和保 留策略代數(shù)考慮所有直接子文體節(jié)點(diǎn)的策略。
下面是示例性的策略代數(shù),其可以用于計(jì)算用于策略本體中給 定父策略節(jié)點(diǎn)的最保守策略。下面的過(guò)程可以遞歸地執(zhí)行,并且可 以應(yīng)用在策略本體中的任意級(jí)別,盡管通常該過(guò)程將從根節(jié)點(diǎn)開(kāi)始 在整個(gè)本體上執(zhí)行。在此描述的策略代數(shù)被推廣到應(yīng)用于安全(許 可)策略和保留策略。
安全策略可以規(guī)定被表達(dá)為表示操作是否被允許的布爾值的許
可限制。例如,可限制操作可以包括(1 )打印,(2)改變文檔, (3)文檔組合,(4)內(nèi)容復(fù)制或提取,(5)為了訪問(wèn)進(jìn)行內(nèi)容提 取,(6)注釋,(7)填充表格,(8)簽名以及(9)創(chuàng)建模板頁(yè)。 用于可限制操作的布爾許可集合可以表示為一個(gè)位矢量,其中一個(gè) 這種矢量與每種文檔文體相關(guān)聯(lián)。為了計(jì)算對(duì)于父文體下面所有文 檔文體的父許可策略,可以組合子節(jié)點(diǎn)的許可位矢量(例如,按位 與(bit-wise AND )),并且所得到的位矢量可以賦予給父級(jí)別。因 此,如果分類器不能求解出對(duì)策略本體中子節(jié)點(diǎn)之一的文檔文體分 類,則識(shí)別最接近的父節(jié)點(diǎn),并且父許可矢量得到應(yīng)用到該文檔的 最保守的許可(對(duì)于在該父節(jié)點(diǎn)之下的本體的部分而言)。
用于文檔的保留策略一般定義為時(shí)間點(diǎn)、持續(xù)時(shí)間和動(dòng)作。為 了規(guī)定一個(gè)策略,時(shí)間點(diǎn)通常是當(dāng)前日期,用"C"來(lái)表示;持續(xù)時(shí)間是文檔需要保留幾年,用"N"來(lái)表示;而動(dòng)作表示在該持續(xù)時(shí)間 結(jié)束時(shí)必須采取的選擇性程序(通常是什么都不做,或者銷毀文檔)。
例如,文檔保留策略可以使用由 Information Requirements Clearinghouse ( 1990年3月)乂〉開(kāi)的Donald S.Skupsky的i侖文 "Records Retention Procedures: Your Guide to Determine How Long to Keep Your Records and How to Safely Destroy Them!" 中描述的編 碼系統(tǒng)的至少一些部分。
針對(duì)保留策略,Donald S.Skupsky開(kāi)發(fā)的Skupsky方法提供了 一 種形式規(guī)范,該規(guī)范是關(guān)于如何組織和應(yīng)用信息以確定不同記錄的 保留時(shí)段。Skupsky方法手動(dòng)地將大量的預(yù)定義法則與大量記錄相關(guān) 的已定義的多個(gè)分組相關(guān),以確定應(yīng)用到這些記錄的適當(dāng)保留時(shí)段。 該手動(dòng)方法已經(jīng)包含在諸如由克羅拉多州格林伍德村的Information Requirements Clearinghouse提供的Retention Manager專欠4牛之類的產(chǎn) 品中,以及諸如由加利福尼亞州桑尼維爾的Interwoven公司提供的 Records Manager軟件之類的內(nèi)容管理系統(tǒng)中。同樣,Skupsky方法 可以在本說(shuō)明書(shū)描述的主題的各種實(shí)現(xiàn)中使用。
概括地說(shuō),針對(duì)任意保留策略,可以定義三個(gè)符號(hào)來(lái)表示不同 的時(shí)間點(diǎn)O當(dāng)前年份;丁=文檔的終止時(shí)間點(diǎn)(到期、雇用等); 以及S =文檔被廢棄的時(shí)間點(diǎn)。 一些示例性的保留策略如下
C+3:文檔在當(dāng)前年份后保留3年;
T+5:合同文檔在終止后保留5年;
T+10:履歷文檔在雇用終止后保留10年;
S:文檔保留直至廢棄;
P:表示C +無(wú)限期(永久保留文檔)。
給定該組變量,可以找到用于同類符號(hào)組的安全(最保守的) 策略。特別地max (C+l,C+2,C+7,C+4) =C+7。概括地說(shuō),可以根 據(jù)max ( Ci),其中i= 1…M并且M =子C+Ni策略的數(shù)目,找到安 全策略。同樣,可以根據(jù)max( Ti),其中i= 1…M并且M =子T+Ni 策略的數(shù)目,找到安全策略。當(dāng)符號(hào)是不同種類,例如當(dāng)計(jì)算max (C+2,T+4,C+3,T+5)時(shí), 情況比較復(fù)雜。在這種情況下,可以通過(guò)確定項(xiàng)之間的最大策略來(lái) 使用保留策略代數(shù)簡(jiǎn)化該表達(dá)式,從而確定最保守策略。為了計(jì)算 max(C+A,T+B)(其中A和B是不同的持續(xù)時(shí)間),意味著要回 答
C+A = T+B C=T+B-A C-T+A-B=0 出現(xiàn)三種情況
<0 T+B是最大的 C-丁+A-B:= 0 C+A和T+B相等
>0 C+A是最大的
因此,可以從識(shí)別的單獨(dú)情況形成概括的保留策略,這些單獨(dú)情況 基于與源策略相關(guān)聯(lián)的變量。
該策略評(píng)估方法可以推廣到具有新的、特定的保留含義的其他 符號(hào)類型。該策略代數(shù)方法允許策略本體結(jié)構(gòu)被預(yù)先計(jì)算計(jì)算出來(lái), 并用于進(jìn)行關(guān)于策略的概括。因此,即使當(dāng)容忍不完善的文檔文體 分類時(shí)也能獲得正確的策略推薦。在策略匯編過(guò)程中,在上面描述 的保留代數(shù)可以用于從策略規(guī)范的葉節(jié)點(diǎn)直至更概括的文檔文體的 遞歸工作,將最保守的策略分配給本體中順序更高的節(jié)點(diǎn)。下面示
出了該過(guò)程的輸出的例子。 示例性保留策略本體 (通過(guò)匯編種子策略本體而生成) 關(guān)鍵字
RP (x)=保留策略(x) O當(dāng)前年份
T二在終止時(shí)間(合同、雇用等) S =直至文檔廢棄前P =永久
+ N=事件十N年 例子RP(C+4)=在當(dāng)前年份后將文檔保留4年
Adobe保留策略本體"Adobe Document Retention Policy Ontology" RP(P)
Rule(max(P,max(T+20,C+6,T+l),C+10,C+49,C+8,T+l,T+10,max(max(C+02,T+l), max([*],C+02,T+l)),S+l,max(T+20,C+05),max(T+01,C+03,T+04)))
"Finance" RP(P)
Rule(max(C十10,C+1 ,C+8,S+11 ,max(T+03 ,T+3 ,C+10),max(S+05 ,C+05 ,C+10) max(C十10,T+10),P,max(T+05 ,C+10,T+10),T+10,C+03 ,C+01 ,T+03))
"Accounts receivable" RP(C十IO) Rule(C+10)
"Billing" RP(C十IO) Rule(C+10)
"Invoices (commercial)" RP(C+10) Rule(C十lO)
"Adobe Invoice" RP(C十IO)
"Purchase orders (from customers)" RP(C十IO)
"Accounts payable" RP(C十10) Rule(C+10)
"Accts payable" RP(C十10) Rule(C十lO)
"Vouchers" RP(C+10) "Invoices" RP(C十10) Rule(C+10)
"Big Sky Invoice" RP(C+10)"Financial planning analysis" RP(C十1) Rule(C十O])
"budgets" RP(C+01)
"financial performance" RP(C+01)
"Balance sheet reports" R:P(C+0:)
"General Ledger" RP(C+10) Ru!e(C十lO)
"Corporate General Ledgers" RP(C十IO) "Operating Units" RP(C+10)
"Royalty records" RP(C+10) Ru!e(C+10)
"License files" RP('C十0) "Royalty reports" RP(CHO)
"Physical Assets" RP(C+8) Rule(C十08)
、■
"Book Inventory" RP(C+08)
"Controllership" RP(S+11) Rule(S+l 1) 、
"Accounting Structure" RP(S+11) "Financial Structure" RP(S+1.) "Cost Centers" RP(S十ll)
"Crcdit" RP(max(T+03'T+3,C+10)) Rule(max(T+03,T+3,C+10))
"Credit appHcation.s" RP(T十03) "Credit decisions" RP(T+3) Rule(T+03)
"decHned" RP(T+03)"inactive" RP(T+03) "incomplete" RP(T+03)
"Credit files" RP(C+10)
"Banking" RP(max(S+05,C+05,C+10)) Rule(max(S+05,C+05,C+10))
"Bank Account Documentation" RP(S+05) "Bank Analysis Statements" RP(C+05) "Account Reconciliations" RP(C十IO) "Daily Cash Management Activity" RP(C+05)
"Investments" RP(max(C+10,T+10)) Rule(max(C+10,T+10))
"Investment Reports" RP(C+10) "Investment Summaries" RP(C十IO) "Investment Manager Policies" RP(T十IO)
"Insurance" RP(P) Rule(max(P,T+05,T+07》
"Policies" RP(P)
"Data related to claims" RP(T+05) "Other insurance no claim" RP(T+07)
"Foreign exchange" RP(max(T+05,C+10,T+10)) Rule(max(T+05,C+10,T+10)
"Hedging reports" RP(T+05)
"Deal tickets" RP(C十IO)
"FX gains and losses" RP(T十IO)
"Debt" RP(P) Rule(max(T+08,P))
"Debt agreements" RP(T+08)"Borrowing agreements" RP(T+08) "Lease documentation" RP(T+08) "Ground leases" RP(P) "Building leases" RP(P) "Equipment leases" RP(T+08)
"Adobe Equity" RP(T十IO) Rule(T+10)
"Repurchase documentation" RP(T+10) "ISDA agreements" RP(T十IO) "Adobe Gainloss data" RP(T十IO)
"Equity (other companies)" RP(P) Rule(max(P,T+10))
"Stock certificates" RP(P) "Equity Gainloss data" RP(T十IO)
"Orders" RP(C+03)
"Earnings Releases" RP(P) Rule(max([P],P,C+05))
"Earnings Report" RP(P)
"Intra Quarter Business Update" RP(C+05')
"Conference call scripts" RP(C十Ol) "BPC documents" RP(T+03)
Sales & Marketing" RP(max(T+20,C+6,T+l)) Rule(max(T+20,C+6,T+l))
"Product Information" RP(T+20) Rule(T+20)
"Product Datasheet" RP(T+20) "Master Engineering" RP(T十20) "Technical programming records" RP(T+20)<formula>formula see original document page 24</formula>"shipping instructions" RP(C+02) "packing slips" RP(C+02)
"Facilities" RP(C+49) Rule(max(C+49,C+5))
"Environmental" RP(C+49) Rule(C+49)
"Hazardous waste controls" RP(C十49) "Hazardous waste compliance" RP(C+49) "Environmental controls" RP(C+49) "Environmental compliance" RP(C+49)
"First Aid Records" RP(C+5) Rule(C+05)
"Accident reports" RP(C+05)
.i
"Electronic Commerce" RP(C+8) Rule(C+8) "Web order streams" RP(C+8) Rule(C+08)
"Customer transaction history" RP(C+08)
"IS" RP(T+)Rule(max(T+01,max(C+02,T十01))) "Project Plans" RP(T十OI)
"Security" RP(max(C+02,T+01)) Rule(max(C+02,T+01))
"Records of Electronic Access" RP(C+02) "Incident Reports" RP(T+01)'Human Resources" RP(P)
Rule(max(T+4,T+l,T+2,薩(T+5,T+10,C+03),max(T+2,C+6),C+04,max(C+07,T 十06),C+07,C+7,C+5,C+10,P))
"Regular employee files" RP(T+4) Rule(max(T+02,T+04))
"Offer Letters" RP(T+02) "Active" RP(T+04) "Terminated" RP(T+04) "Retired" RP(T+04) "Deceased" RP(T+04)
"Temp/Agency Employment" RP(T+1) Rule(T+01)
"Personnel files" RP(T+01) "Timecards" RP(T十Ol)
"Inckpendent Contractor Files" RP(T+4) Rule(T+04)
"Resume Tracking" RP(T+2) Rule(max(T+02,T+l))
"Applicant Files (hired)" RP(T+02) "Applicant Files (not-hired)" RP(T+02) "Applicant Resume" RP(T+02) "Ads/Public Notices" RP(T+1) Rule(T+01)
"Job openings" RP(T十Ol) "Promotions" RP(T+0) "Training" RP(T十Ol)
"Vendor Form" RP(T+04)}
"Benefits" RP(max(T+5,T+10,C+03)) Rule(max(T+5,T+10,C+03))
"Benefit Plans" RP(T+5) Rule(T+05)
"Publications" RP(T+05) "Basic Plans" RP(T+05)
"Medical Disability Income Plan" RP(T十IO) "Medical Plan Exceptions" RP(C+03)
、
"Employee File Information" RP(max(T+2,C+6)) Rule(max(T+2,C+6))
"Performance Review Data" RP(T+2) Rule(T+02)
"Focal goals" RP(T+02) "Focal reviews" RP(T+02) "Quarterly goals" RP(T+02) "Quarterly reviews" RP(T+02) "Final reviews" RP(T+02)
"Other Employee File Information" RP(C+6) Rule(C+06)
"Performance planning" RP(C+06) "Performance counseling" RP(C+06)
"Payroll deduction authorizations" RP(C+04)
"Equity plan" RP(max(C+07,T+06)) Rule(max(C+07,T+06))
"Employee Stock Purchase Plan" RP(C+07) "Exmployee Stock Purchase Documentation" RP(C+07)"Stock Option Plans" RP(C+07)"Stock Option Agreements" RP(C+07)"Other Equitity Plans" RP(C+07)"Other Equitity Agreements" RP(C+07)"Canceled Stock Certificates" RP(T+06)
"401(k) records" RP(C+07)
"ERISA documents" RP(C+7) Rule(C+07)
"all ERISA plan documents" RP(C+07)
"agreements" RP(C+07)
"elections" RP(C+07)
"backup information" RP(C+07)
"Workers Compensation" RP(C+5) Rule(C+05)
"Reports" RP(C+05)
"Payroll information" RP(C+10) Rule(C十lO)
"Payroll records" RP(C+10;)"Wage records" RP(C十IO)"Timecards" RP(C十IO)
"EEO-1 Reports" RP(P)
"Tax" RP(T+10) Rule(T+10)
"Tax Returns" RP(丁十10) Rule(T+10)
"Supporting documentation" RP(T十IO)
"Tax Records" RP(T十IO) Rule(T+10)"W-2" RP(T十IO)"W-4" RP(T十IO)"Pay rates" RP(T十10)"Deductions" RP(T+10)"Timecards" RP(T十IO)
Support" RP(max(max(C+02,T+1 ),max([*],C+02,T+1)))Rule(max(max(C+02,T+l),max([*〗,C+02,T+l)))
Technical Support" RP(max(C+02,T+l)) Rule(max(C+02,T+l))
"Customer contact information" RP(max(C+02,T+l)) Rule(max(C+02,T+l))
"Wizard" RP(C+02)"Siebel" RP(C+02)"Vantive" RP(C+02)
"ATILA/Lotus DB" RP(T+1) Rule(T十Ol)"FAQ Answers" RP(T十Ol)
"Customer Support" RP(max([*],C+02,T+l)) Rule(max([*],C+02,T+l))
'Customer contact information" RP(C+02)
Customer registration information" RP(T+1) Rule(T十Ol)
Sales and Marketing programs" RP(T+1) Rule(T+0)
'Worldwide customer database" RP(T+01)'Customer support databases" RP(T+01)"Pricing information" RP(T十Ol)"Promotional programs" RP(T十Ol)
"Help Desk Engineering" RP(S+1) Rule(S十OI)
"Problem Management System" RP(S十Ol)
"Engineering" RP(max(T+20,C+05)) Rule(max(T+20,C+05))
"Engineering Document" RP(T+20)
"Product source control libraries" RP(T+20) Rule(T+20)
"Visual SourceSafe" RP(T+20) Rule(T+20)
"SS Source code" RP(T+20)"SS Object code" RP(T十20)
"ClearCase" RP(T十20) Rule(T+20)
"CC Source code" RP(T+20)"CC Object code" RP(T+20)
"Perforce" RP(T+20) Rule(T+20)
"PF Source code" RP(T+20)"PF Object code" RP(T+20)
"Product builds" RP(T+20)"Product Life Cycle" RP(C+05)"Purchasing" RP(max(T+01,C+03'T+04)) Rule(max(T+01,C+03,T+04))
"Legal" RP(P) Rule(max(T+20,C+04,T+8,P,T+10,T+5))
"Litigation/Claims" RP(T+20) Rule(max(T+10,T+03,T+20))
"Claims against Adobe" RP(T+10)"Claims by Adobe" RP(T+03)"Major Litigation" RP(T+20)
"Threatened claims" RP(C+04)"Part簡(jiǎn)hips/JVs" RP(T+8) Rule(T+08)
"Joint Ventures" RP(T+08)"Partnership Agreements" RP(T+08)
"Corporate governance documents" RP(P) Rule(P)
"Minutes" RP(P)"Proxies" RP(P)
"Annual Reports" RP(P) Rule(P)
"Annual Report" RP(P)
"SEC/NASDAQ filings" RP(P)"SEC/NASDAQ correspondance" RP(P)"Stock books" RP(P)
"RFPs" RP(T十Ol)"Requisitions" RP(C+03)"Purchase Orders" RP(T+04)"Intellectual Property Registrations" RP(T+10) Rule(T+10)
"Patent" RP(T十IO)"Copyright" RP(T十IO)
"Trademark Registration" RP(T+10) Rule(T十lO)
"Official Correspondence" RP(T十IO)"Official Documentation" RP(T十IO)
"Other" RP(T+5) Rule(T+5)
"Project files" RP(T+5) Rule(T+05)
本例中種子本體包括葉節(jié)點(diǎn)處的DRM和保留規(guī)則。使用上述方法通過(guò)將成組節(jié)點(diǎn)與一個(gè)公共父節(jié)點(diǎn)一起考慮,來(lái)確定分配給該父節(jié)點(diǎn)的代數(shù)最大DRM和保留規(guī)則,在該種子本體上建立代數(shù)匯編過(guò)程。該過(guò)程遞歸地重復(fù),直到達(dá)到根節(jié)點(diǎn),并且在每個(gè)節(jié)點(diǎn)處的規(guī)則可以使用上述的功能性符號(hào)(例如,以XML形式)來(lái)表示。
在某些情況下,為父節(jié)點(diǎn)匯編的策略可能彼此沖突。在某些企業(yè)中,存在這樣的硬性規(guī)則給定類型的文檔在設(shè)定的時(shí)間量后必須銷毀。這種類型的規(guī)則會(huì)與規(guī)定在當(dāng)前年份加十年之前保留文檔的規(guī)則沖突。在這種情況下,可以僅僅將存在兩種沖突的規(guī)則的事
License agreements" RP(T+05)Contracts" RP(T+05)Competitor information" RP(T+05)'Discovery searches" RP(T+05)實(shí)記錄在策略本體中,或記錄在其他位置,或記錄在策略本體和其他位置的組合中。例如,遇到?jīng)_突規(guī)則的事實(shí)以及相關(guān)的規(guī)則可以以符號(hào)形式記錄在日志或查賬索引中,以便用戶可以了解遇到了沖突情況。同樣,如果由于缺少信息而不能評(píng)估策略,(例如,如果策略規(guī)定在合同終止后將文檔保留十年,但是合同終止日期未知),則已知信息可以記錄在策略本體中(例如,"RP(T+10)")。由于記錄和傳播這種信息, 一旦接收到缺少的信息或解決了規(guī)則沖突,就可以完全地評(píng)估策略。注意,系統(tǒng)可以被設(shè)置為當(dāng)可能的時(shí)候自動(dòng)解決沖突規(guī)則。
重新參考圖3,確定320文檔的文體分類。可以使用符號(hào)或機(jī)器訓(xùn)練的文檔分類器來(lái)自動(dòng)對(duì)新的未知文檔進(jìn)行分類。該分類的輸出可以是預(yù)定義的類別結(jié)構(gòu),其可以包括文檔分類器所使用的知識(shí)結(jié)構(gòu)的多個(gè)推理鏈。預(yù)定義的類別結(jié)構(gòu)代表文體分類,因?yàn)槠淇梢蕴峁┓诸惼鞯闹R(shí)結(jié)構(gòu)的分級(jí)上下文中的文檔項(xiàng)和相應(yīng)分?jǐn)?shù),這些可以輔助對(duì)策略本體的比較。實(shí)際上,文檔文體分類代表文檔的一組可能文體以及這些文體的相關(guān)聯(lián)的置信度水平。
應(yīng)當(dāng)注意,這種文體分類可能是不精確的。例如,分類器可能僅僅能夠確定文檔的概括類型(例如,財(cái)務(wù)文檔),而不能確定具體的子類型(例如,年度報(bào)告)。進(jìn)一步地,分類器可能確定尚未分配有明確的安全或保留策略的文檔文體。
通過(guò)將文體分類與文檔控制策略本體進(jìn)行比較在文檔控制策略本體中識(shí)別330 —個(gè)或多個(gè)相關(guān)節(jié)點(diǎn)。該策略本體可以用于定位應(yīng)當(dāng)應(yīng)用到文檔的所有適當(dāng)策略。當(dāng)文檔文體(由文檔分類器計(jì)算得
與該文檔文體相關(guān)聯(lián),則可以獲得和應(yīng)用與該匹配的文檔文體相關(guān)聯(lián)的一個(gè)或多個(gè)策略。
如果分類器不能作出充分精確的分類,并表明了更概括的文檔文體(即,策略本體中的非葉節(jié)點(diǎn)),則可以獲得并應(yīng)用用于該更概括文檔文體的綜合策略。由于可以根據(jù)保守的策略約減代數(shù)將子文檔文體策略綜合到父文體中,可以為每個(gè)文檔提供正確的策略(雖然可能是一個(gè)比非常需要的策略更保守的策略)。
此外,如果分類器識(shí)別了一種不具有直接或明確策略的文檔文體,則可以使用策略本體來(lái)對(duì)該文檔文體進(jìn)行概括。該概括過(guò)程可以通過(guò)追蹤策略本體中子文體與父文體之間的鏈路,并得到每個(gè)相繼的父文檔文體直到找到具有相關(guān)聯(lián)的策略的文體而進(jìn)行。通過(guò)追蹤這些鏈路形成的父文體的列表稱為推理鏈,并且本系統(tǒng)和方法可以使用這些推理鏈來(lái)對(duì)文檔文體進(jìn)行連續(xù)的概括,直到找到策略。
圖4示出了與示例性策略本體430進(jìn)行比較的兩個(gè)示例性分類器推理鏈410和420。推理鏈410和420示意性地表示在圖4中。策略本體430表示在可用于查看和瀏覽策略本體的基于Web瀏覽器的圖形用戶界面(GUI)中。應(yīng)當(dāng)理解,也可以使用相同的GUI或類似的GUI來(lái)查看和瀏覽由文檔文體分類器使用的分類本體。
個(gè)標(biāo)簽可以用于(從底部開(kāi)始依次)尋找策略本體430中的匹配標(biāo)簽。因此,使用節(jié)點(diǎn)412中的第一標(biāo)簽"技術(shù)轉(zhuǎn)讓"搜索策略本體430。在策略本體430的節(jié)點(diǎn)432中找到匹配標(biāo)簽"技術(shù)轉(zhuǎn)讓"。該過(guò)程于是可以終止,并且可以使用與節(jié)點(diǎn)432相關(guān)聯(lián)的保留和DRM策略信息(未示出)來(lái)推薦用于該文檔的策略。
在第二個(gè)例子中,文檔分類器返回推理鏈420。使用節(jié)點(diǎn)422中的第一標(biāo)簽"GUI易用性,,來(lái)搜索策略本體430,并且沒(méi)有找到任何匹配。該搜索在鏈中繼續(xù)到節(jié)點(diǎn)424中的標(biāo)簽"用戶體驗(yàn)",用該標(biāo)簽來(lái)搜索策略本體430。在節(jié)點(diǎn)434中找到匹配標(biāo)簽"用戶體驗(yàn),,,并且返回與節(jié)點(diǎn)434相關(guān)聯(lián)的保留和DRM策略信息436。
在各種實(shí)現(xiàn)中可以以不同的方式進(jìn)行在策略本體內(nèi)的對(duì)文檔文
體進(jìn)行連續(xù)概括的推理。當(dāng)獲得從文檔分類器本體到策略本體中某個(gè)入口點(diǎn)節(jié)點(diǎn)的匹配時(shí),推理過(guò)程使得能夠找到更保守的(且適當(dāng)?shù)?規(guī)則。從子節(jié)點(diǎn)向上一級(jí)到父節(jié)點(diǎn)的行進(jìn)是一個(gè)推理(將該子節(jié)點(diǎn)概括為更概括的文體)。行進(jìn)到下一個(gè)父節(jié)點(diǎn)代表另一個(gè)推理,并且在此節(jié)點(diǎn)處找到的策略具有在該祖父節(jié)點(diǎn)的所有子節(jié)點(diǎn)中最保守的規(guī)則。因此,最初的分類可能在某種程度上是不正確的,但是隨著沿策略本體中的推理鏈向上移動(dòng),將找到更保守的策略,其也更有可能是正確的。
概括地說(shuō),如果最低級(jí)別的分類是不可信的,則可以提起一個(gè)
推理。例如,如果文檔分類器表明文檔是有30%的置信度的年度報(bào)告,則所有其他識(shí)別出的文體具有更低的置信度,而30%沒(méi)有達(dá)到預(yù)定義的置信度閾值(例如50%),則該方法可以在策略本體中向上一級(jí)找到更概括的策略。在決定一個(gè)策略之前要提起的推理的數(shù)目可以是固定的(例如,僅向上一級(jí)),或者是基于所提供的文體分類中的分?jǐn)?shù)的。在典型的使用情形中,分類器返回一個(gè)推理鏈,該鏈中的每個(gè)標(biāo)簽都用于搜索策略本體,直到找到一個(gè)匹配;如果沒(méi)有任何匹配,則過(guò)程結(jié)束,使用策略本體中的根節(jié)點(diǎn)(如果在根級(jí)分配了策略)。
基于相關(guān)節(jié)點(diǎn)推薦340至少一個(gè)文檔控制策略以管理對(duì)文檔的訪問(wèn)。可以使用與候選文體(由文檔分類器提供的)相關(guān)聯(lián)的分?jǐn)?shù)來(lái)確定所識(shí)別的各種策略的可能性。推薦 一 個(gè)或多個(gè)所識(shí)別的策略可以包括輸出多個(gè)推薦的文檔控制策略、相關(guān)聯(lián)的分?jǐn)?shù)和來(lái)自文檔控制策略本體(例如,以XML文檔的形式)的相應(yīng)推理鏈。這些推薦的策略、分?jǐn)?shù)和推理鏈隨后可以由用戶在選擇要應(yīng)用的最佳策略(或者還由另一個(gè)機(jī)器處理)的過(guò)程中查看。備選地,可以選擇和推薦最佳可應(yīng)用策略。在任何一種情況下,可以識(shí)別最佳可應(yīng)用策略并將其用作要應(yīng)用的默認(rèn)策略。然后,推薦的文檔控制策略可以應(yīng)用350到文檔。例如,可以在沒(méi)有人工干預(yù)的情況下,將來(lái)自多個(gè)推薦的文檔控制策略中的最高排名的文檔控制策略自動(dòng)應(yīng)用到文檔。
在本說(shuō)明書(shū)中描述的主題的實(shí)施例和功能性操作可以以數(shù)字電子電路的形式、或者以包括在本說(shuō)明書(shū)中公開(kāi)的結(jié)構(gòu)及其等效結(jié)構(gòu)的計(jì)算機(jī)軟件、固件或硬件的形式、或者以它們中一個(gè)或多個(gè)的組合的形式來(lái)實(shí)現(xiàn)。在本說(shuō)明書(shū)中描述的主題的實(shí)施例可以作為一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,即編碼在計(jì)算機(jī)可讀介質(zhì)上、用于由數(shù)據(jù)處理裝置執(zhí)行或控制數(shù)據(jù)處理裝置的計(jì)算機(jī)程序指令的一個(gè)或多個(gè)模塊來(lái)實(shí)現(xiàn)。該計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)襯底、存儲(chǔ)器設(shè)備、實(shí)現(xiàn)機(jī)器可讀傳播信號(hào)的物質(zhì)構(gòu)成、或者它們中一個(gè)或多個(gè)的組合。術(shù)語(yǔ)"數(shù)據(jù)處理設(shè)備"包括用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī)器,例如包括可編程處理器、計(jì)算機(jī)或多個(gè)處理器或計(jì)算機(jī)。該裝置除硬件外還可以包括創(chuàng)建用于所討論的計(jì)算機(jī)程序的執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件、協(xié)議堆棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或者它們中 一 個(gè)或多個(gè)的組合的代碼。傳播的信號(hào)是人工生成的信號(hào),例如機(jī)器生成的電、光、電磁信號(hào),其生成以編碼要傳送給適當(dāng)?shù)慕邮昭b置的信息。
計(jì)算機(jī)程序(也稱為程序、軟件、軟件應(yīng)用、腳本或代碼)可以以任何形式的編程語(yǔ)言來(lái)編寫(xiě),包括編譯或解釋語(yǔ)言,并且其可以以任何形式來(lái)部署,包括作為獨(dú)立工作的程序或者作為適于在計(jì)算環(huán)境中使用的模塊、部件、子例程或其他單元來(lái)部署。計(jì)算機(jī)程序不必對(duì)應(yīng)于文件系統(tǒng)中的文件。程序可以存儲(chǔ)在具有其他程序或數(shù)據(jù)(例如,存儲(chǔ)在標(biāo)記語(yǔ)言文檔中的一個(gè)或多個(gè)腳本)的文件的一部分中,存儲(chǔ)在專用于所討論的程序的單個(gè)文件中,或者存儲(chǔ)在多個(gè)協(xié)調(diào)文件(例如存儲(chǔ)代碼的一個(gè)或多個(gè)模塊、子程序或代碼部分的文件)中。計(jì)算機(jī)程序可以部署以在一個(gè)計(jì)算機(jī)上或者在位于同一地點(diǎn)或分布在多個(gè)地點(diǎn)并由通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)上執(zhí)行。
在本說(shuō)明書(shū)中描述的過(guò)程和邏輯流可以通過(guò)執(zhí)行一 個(gè)或多個(gè)計(jì)算機(jī)程序的 一 個(gè)或多個(gè)可編程處理器執(zhí)行,以通過(guò)操作輸入數(shù)據(jù)和生成輸出來(lái)執(zhí)行功能。過(guò)程和邏輯流也可以由專用邏輯電路、例如
FPGA (現(xiàn)場(chǎng)可編程門(mén)陣列)或ASIC (專用集成電路)來(lái)執(zhí)行,并且所述裝置也可以實(shí)現(xiàn)為專用邏輯電3各、例如FPGA (現(xiàn)場(chǎng)可編程門(mén)陣列)或ASIC (專用集成電路)。適于執(zhí)行計(jì)算機(jī)程序的處理器例如包括專用和通用微處理器、 以及任意種類的數(shù)字計(jì)算機(jī)中的任意一個(gè)或多個(gè)處理器。通常,處 理器從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或兩者接收指令和數(shù)據(jù)。計(jì)算 機(jī)的基本元件是用于執(zhí)行指令的處理器和用于存儲(chǔ)指令和數(shù)據(jù)的一 個(gè)或多個(gè)存儲(chǔ)器設(shè)備。通常,計(jì)算機(jī)還將包括用于存儲(chǔ)數(shù)據(jù)的一個(gè) 或多個(gè)大容量存儲(chǔ)設(shè)備,例如磁盤(pán)、磁光盤(pán)或光盤(pán),或可操作地連 接到這些設(shè)備以從其接收數(shù)據(jù)或向其發(fā)送數(shù)據(jù),或者兼用兩種方式。 然而,計(jì)算機(jī)不需要一定具有這種設(shè)備。此外,計(jì)算機(jī)可以包含在 另一設(shè)備上,例如,移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻
播放器、全球定位系統(tǒng)(GPS)接收機(jī),僅舉幾例。適于存儲(chǔ)計(jì)算機(jī)
程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性存儲(chǔ) 器、介質(zhì)和存儲(chǔ)器設(shè)備,例如包括示例性半導(dǎo)體存儲(chǔ)器設(shè)備,例如,
EPROM、 EEPROM以及閃存設(shè)備;磁盤(pán),例如內(nèi)部硬盤(pán)或可移除磁 盤(pán);磁光盤(pán);以及CD-ROM和DVD-ROM盤(pán)。處理器和存儲(chǔ)器可以 用專用邏輯電路來(lái)補(bǔ)充,或結(jié)合在專用邏輯電路中。
為了提供與用戶的交互,在本說(shuō)明書(shū)中描述的主題的實(shí)施例可 以在如下的計(jì)算機(jī)上實(shí)現(xiàn),該計(jì)算機(jī)具有顯示設(shè)備例如CRT (陰極 射線管)或LCD (液晶顯示器)監(jiān)視器用于向用戶顯示信息以及具 有鍵盤(pán)和指針設(shè)備例如鼠標(biāo)或軌跡球使用戶可以向計(jì)算機(jī)提供輸 入。其他類型的鼠標(biāo)也可以用于提供與用戶的交互,例如,提供給 用戶的反饋可以是任意形式的感官反饋,例如視覺(jué)反饋、聽(tīng)覺(jué)反饋 或觸覺(jué)反饋;并且來(lái)自用戶的輸入可以以任意形式接收,包括聲音、
:浯音或觸覺(jué)^r入。
在本說(shuō)明書(shū)中描述的主題的實(shí)施例可以在如下計(jì)算系統(tǒng)中實(shí) 現(xiàn),該計(jì)算系統(tǒng)包括后端組件,例如數(shù)據(jù)處理器,或者包括中間件 組件,例如應(yīng)用服務(wù)器,或者包括前端組件,例如客戶端計(jì)算機(jī),
其具有圖形用戶接口或Web瀏覽器,通過(guò)它們用戶可以與在本說(shuō)明 書(shū)中描述的主題的實(shí)現(xiàn)進(jìn)行交互,或者計(jì)算系統(tǒng)可以包括一個(gè)或多 個(gè)這種后端、中間件或前端組件的任意組合。系統(tǒng)的組件可以通過(guò)任意形式的介質(zhì)或數(shù)字?jǐn)?shù)據(jù)通信例如通信網(wǎng)絡(luò)來(lái)互連。通信網(wǎng)絡(luò)的
例子包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN),例如因特網(wǎng)。
計(jì)算系統(tǒng)可以包括客戶端和服務(wù)器??蛻舳撕头?wù)器通常彼此 遠(yuǎn)離并且典型地通過(guò)通信網(wǎng)絡(luò)交互。出現(xiàn)客戶端和服務(wù)器的關(guān)系是 由于運(yùn)行在相應(yīng)計(jì)算機(jī)上且彼此具有客戶端-服務(wù)器關(guān)系的計(jì)算機(jī)出現(xiàn)。
盡管本說(shuō)明書(shū)包含很多細(xì)節(jié),但是這些不應(yīng)被視為對(duì)本發(fā)明或 請(qǐng)求保護(hù)的范圍的限制,而是對(duì)特定于本發(fā)明的具體實(shí)施例的特征 的描述。在多個(gè)單獨(dú)實(shí)施例的上下文中描述的某些特征也可以在一 個(gè)實(shí)施例中以組合形式實(shí)現(xiàn)。相反,在一個(gè)實(shí)施例中描述的各種特 征也可以在多個(gè)實(shí)施例中單獨(dú)實(shí)現(xiàn)或以任意適當(dāng)?shù)淖咏M合的形式實(shí) 現(xiàn)。此外,盡管在上文描述為或者甚至開(kāi)始請(qǐng)求保護(hù)時(shí)是在某種組 合中起作用的,但是來(lái)自該請(qǐng)求保護(hù)的組合的一個(gè)或多個(gè)特征在某 些情況下也可以排除在該組合之外,并且可以將請(qǐng)求保護(hù)的組合集 中為子組合或子組合的變型。
類似地,盡管以特定次序在附圖中描述了操作,這不應(yīng)當(dāng)理解 為需要以示出的次序或以順序的次序執(zhí)行這些操作,或者需要執(zhí)行 所有示出的操作才能獲得期望結(jié)果。在某些情況下,多任務(wù)和并行 處理可能是有利的。此外,上述實(shí)施例中的各種系統(tǒng)組件的分離不 應(yīng)當(dāng)理解為在所有實(shí)施例中都需要這種分離,并且應(yīng)當(dāng)理解所描述 的程序組件和系統(tǒng)可以一起集成在單個(gè)軟件產(chǎn)品中或打包到多個(gè)軟 件產(chǎn)品中。
因此,已經(jīng)描述了本發(fā)明的特定實(shí)施例。其他實(shí)施例也在后文 的權(quán)利要求書(shū)的范圍內(nèi)。例如,權(quán)利要求中引用的動(dòng)作可以以不同 次序來(lái)執(zhí)行并且仍然能取得期望的結(jié)果。此外,盡管單獨(dú)的本體被 描述用于在文檔分類和策略選擇中使用,應(yīng)當(dāng)理解,這些本體可以 組合為一個(gè)單個(gè)分級(jí)知識(shí)結(jié)構(gòu),諸如混合或多面本體。
此外,其他實(shí)施例包括與各種企業(yè)系統(tǒng)的結(jié)合。例如,描述的 系統(tǒng)和技術(shù)可以與電子郵件系統(tǒng) 一 起使用以幫助防止知識(shí)產(chǎn)權(quán)泄漏,即在公司內(nèi)部網(wǎng)內(nèi)部的文檔通過(guò)非授權(quán)方式的電子郵件附件通 往公司外部。在這些實(shí)施例中,可以對(duì)網(wǎng)絡(luò)上分組中的頭部進(jìn)行采 樣以確定文檔是何時(shí)被傳送的??梢詫?duì)文檔進(jìn)行組合或分類以隨后
用DRM和/或保留策略來(lái)保護(hù),以及隨后使用諸如Adobe Policy Server軟件的機(jī)制來(lái)應(yīng)用策略,以便即使文檔離開(kāi)了企業(yè)內(nèi)部網(wǎng), 仍可應(yīng)用正確的DRM或保留策略(例如,在DRM的情況下,文檔
被力口密)。
在這些思想的一個(gè)變型中,還可以自動(dòng)對(duì)所有文檔進(jìn)行分類, 并且可以以安全的方式將分類推理鏈保存為文檔內(nèi)的元數(shù)據(jù)。諸如 電子郵件系統(tǒng)之類的服務(wù)隨后可以檢查這種分類推理鏈,并使用上
述的算法來(lái)找到適當(dāng)?shù)谋A艉虳RM策略。隨后在文檔被粘貼到外發(fā) 的電子郵件之前,通過(guò)Adobe Policy Server軟件將該策略應(yīng)用到文檔。
仍有更多的實(shí)施例在后面的權(quán)利要求書(shū)的范圍內(nèi)。
權(quán)利要求
1.一種方法,包括確定文檔的文體分類,所述文體分類包括多個(gè)項(xiàng)和相應(yīng)的分?jǐn)?shù),每個(gè)分?jǐn)?shù)對(duì)應(yīng)一個(gè)項(xiàng),表示該項(xiàng)關(guān)于該文檔的置信度水平;通過(guò)將所述文體分類與文檔控制策略本體進(jìn)行比較,在文檔控制策略本體中識(shí)別相關(guān)節(jié)點(diǎn);至少部分地基于至少一個(gè)所述分?jǐn)?shù)評(píng)估所述相關(guān)節(jié)點(diǎn)的可用性的置信度水平;如果所評(píng)估的所述相關(guān)節(jié)點(diǎn)的可用性的置信度水平低于閾值,則在文檔控制策略本體中選擇所述相關(guān)節(jié)點(diǎn)的父節(jié)點(diǎn)以代表所述相關(guān)節(jié)點(diǎn);以及基于在文檔控制策略本體中所識(shí)別的或所選擇的相關(guān)節(jié)點(diǎn),推薦至少一個(gè)文檔控制策略以管理對(duì)所述文檔的訪問(wèn)。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述確定包括使用包括 分級(jí)知識(shí)結(jié)構(gòu)的文檔文體本體對(duì)所述文檔進(jìn)行分類,所述分級(jí)知識(shí) 結(jié)構(gòu)包含項(xiàng)和概念的詞匯表、以及用于文檔文體分類的表示詞匯表 項(xiàng)和概念之間的相互關(guān)系的推理鏈,所述文體分類包括所述推理鏈 的子集,以及所述識(shí)別包括檢查與比所述推理鏈的子集的各項(xiàng)的最 低水平高的水平相關(guān)聯(lián)的項(xiàng)。
3. 根據(jù)權(quán)利要求1所述的方法,還包括基于與所述文檔控制 策略本體中的父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略的組合,導(dǎo)出用于所述文檔控制策略本體中的所述父節(jié)點(diǎn)的文檔控制策略,并且將導(dǎo)出的文檔控制策略與所述文檔控制策略本體中的所述父節(jié)點(diǎn)相關(guān)聯(lián)。
4. 根據(jù)權(quán)利要求3所述的方法,其中所述導(dǎo)出的文檔控制策略 包括導(dǎo)出的安全策略和導(dǎo)出的保留策略,并且導(dǎo)出所述文檔控制策 略包括組合與所述父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的安全策略的布爾值,以形成所述導(dǎo)出的安全策略;以及組合所識(shí)別的單獨(dú)情況以形成所述導(dǎo)出的保留策略,所述所識(shí) 別的單獨(dú)情況是基于與子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略的關(guān)聯(lián)變量。
5. 根據(jù)權(quán)利要求3所述的方法,其中所述導(dǎo)出包括從與所述 文檔控制策略本體中的子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略中導(dǎo)出集 合了策略組成的文檔控制策略,默認(rèn)為更保守的策略組成。
6. 根據(jù)權(quán)利要求3所述的方法,其中所述導(dǎo)出包括遞歸地導(dǎo) 出用于所述文檔控制策略本體中的父節(jié)點(diǎn)的文檔控制策略,直至根 節(jié)點(diǎn),并且其中所述導(dǎo)出和所述關(guān)聯(lián)在部署所述文檔控制策略本體 之前執(zhí)行。
7. 根據(jù)權(quán)利要求1所述的方法,其中所述推薦包括輸出多個(gè)鏈。
8. 根據(jù)權(quán)利要求1所述的方法,還包括將來(lái)自多個(gè)推薦的文 檔控制策略的最高排名的文檔控制策略自動(dòng)應(yīng)用于所述文檔。
9. 一種系統(tǒng),包4舌 用戶接口設(shè)備;文檔控制組件,包括包含文檔控制策略的分級(jí)知識(shí)結(jié)構(gòu),所述 文檔控制策略包含根據(jù)與父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的規(guī)則的代數(shù)最大 值而由所述父節(jié)點(diǎn)繼承的至少一個(gè)文檔控制策略;以及一個(gè)或多個(gè)計(jì)算機(jī),其可操作為與所述用戶接口設(shè)備和所述文 檔控制組件進(jìn)行交互,以確定文檔的文體分類,將所述文體分類與 所述分級(jí)知識(shí)結(jié)構(gòu)進(jìn)行比較,以在包括所述父節(jié)點(diǎn)的多個(gè)節(jié)點(diǎn)中識(shí) 別 一 個(gè)相關(guān)節(jié)點(diǎn),并且基于在所述分級(jí)知識(shí)結(jié)構(gòu)中識(shí)別的相關(guān)節(jié)點(diǎn) 推薦至少 一個(gè)文檔控制策略來(lái)管理對(duì)所述文檔的訪問(wèn)。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述一個(gè)或多個(gè)計(jì)算機(jī)包 括可操作為通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)與所述用戶接口設(shè)備進(jìn)行交互的服務(wù) 器,并且所述用戶接口設(shè)備可操作為客戶端與所述服務(wù)器進(jìn)行交互。
11. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述一個(gè)或多個(gè)計(jì)算機(jī)包括一個(gè)個(gè)人計(jì)算機(jī),并且所述個(gè)人計(jì)算機(jī)包括所述用戶接口設(shè)備。
12. 根據(jù)權(quán)利要求9所述的系統(tǒng),還包括用于文檔文體分類的文檔文體本體,所述文檔文體本體包括分 級(jí)知識(shí)結(jié)構(gòu),所述分級(jí)知識(shí)結(jié)構(gòu)包含項(xiàng)和概念的詞匯表,以及表示 詞匯表項(xiàng)和概念之間的相互關(guān)系的推理鏈;應(yīng)用程序接口 (API),配置為向所述文檔控制組件提供對(duì)所述 文檔文體本體中的推理鏈的選定元素的訪問(wèn);其中所述文檔控制組件包括策略本體組件,所述策略本體組件 配置為推薦所述至少一個(gè)文檔控制策略,并且其包括一個(gè)接口,策 略管理組件通過(guò)該接口訪問(wèn)要應(yīng)用到所述文檔的至少 一 個(gè)文檔控制 策略。
13. 根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述策略管理組件包括 策略服務(wù)器。
14. 根據(jù)權(quán)利要求9所述的系統(tǒng),所述 一 個(gè)或多個(gè)計(jì)算機(jī)還可操 作為在所述文檔控制組件中,基于對(duì)與所述分級(jí)知識(shí)結(jié)構(gòu)中的父節(jié) 點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略的組合,導(dǎo)出用于所述分級(jí) 知識(shí)結(jié)構(gòu)中的父節(jié)點(diǎn)的文檔控制策略;以及可操作為將所導(dǎo)出的文 檔控制策略與所述分級(jí)知識(shí)結(jié)構(gòu)中的所述父節(jié)點(diǎn)相關(guān)聯(lián)。
15. 根據(jù)權(quán)利要求9所述的系統(tǒng),所述一個(gè)或多個(gè)計(jì)算機(jī)還可操組件中的分級(jí)知識(shí)結(jié)構(gòu)的推理鏈。
16. 根據(jù)權(quán)利要求9所述的系統(tǒng),所述一個(gè)或多個(gè)計(jì)算機(jī)還可操 作為將多個(gè)所推薦的文檔控制策略中的最高排名的文檔控制策略自 動(dòng)應(yīng)用到所述文檔。
17. —種計(jì)算機(jī)程序產(chǎn)品,編碼于計(jì)算機(jī)可讀介質(zhì)上,可操作為 使得數(shù)據(jù)處理裝置執(zhí)行下述操作接收文檔的文體分類,所述文體分類包括多個(gè)項(xiàng)和相應(yīng)的分?jǐn)?shù), 每個(gè)分?jǐn)?shù)對(duì)應(yīng)一個(gè)項(xiàng),表示該項(xiàng)關(guān)于所述文檔的置信度水平;通過(guò)將所述文體分類與文檔控制策略本體進(jìn)行比較,在文檔控制策略本體中識(shí)別相關(guān)節(jié)點(diǎn);至少部分地基于至少一個(gè)所述分?jǐn)?shù)評(píng)估所述相關(guān)節(jié)點(diǎn)的可用性 的置信度水平;如果所評(píng)估的所述相關(guān)節(jié)點(diǎn)的可用性的置信度水平低于閾值, 則在所述文檔控制策略本體中選擇所述相關(guān)節(jié)點(diǎn)的父節(jié)點(diǎn)代表所述 相關(guān)節(jié)點(diǎn);以及基于在所述文檔控制策略本體中所識(shí)別的或所選擇的相關(guān)節(jié) 點(diǎn),推薦至少 一個(gè)文檔控制策略以管理對(duì)所述文檔的訪問(wèn)。
18. 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)程序產(chǎn)品,其中所述確定包 括.-使用包括分級(jí)知識(shí)結(jié)構(gòu)的文檔文體本體對(duì)所述文檔進(jìn)行分類, 所述分級(jí)知識(shí)結(jié)構(gòu)包含項(xiàng)和概念的詞匯表、以及用于文檔文體分類 的表示詞匯表項(xiàng)和概念之間的相互關(guān)系的推理鏈;所述文體分類包 括所述推理鏈的子集;以及所述識(shí)別包括檢查與高于所述推理鏈的 子集的各項(xiàng)的最低水平高的水平相關(guān)聯(lián)的項(xiàng)。
19. 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)程序產(chǎn)品,所述操作還包括 基于與所述文檔控制策略本體中的父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文 檔控制策略的組合,導(dǎo)出用于所述文檔控制策略本體中的所述父節(jié) 點(diǎn)的文檔控制策略;以及將所導(dǎo)出的文檔控制策略與所述文檔控制 策略本體中的所述父節(jié)點(diǎn)相關(guān)聯(lián)。
20. 根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中所述導(dǎo)出的 文檔控制策略包括導(dǎo)出的安全策略和導(dǎo)出的保留策略,并且導(dǎo)出所 述文檔控制策略包括組合與所述父節(jié)點(diǎn)的子節(jié)點(diǎn)相關(guān)聯(lián)的安全策略的布爾值,以形 成所述導(dǎo)出的安全策略;以及組合所識(shí)別的單獨(dú)情況以形成所述導(dǎo)出的保留策略,所述所識(shí) 別的單獨(dú)情況基于與子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制策略的關(guān)聯(lián)變 量。
21. 根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中所述導(dǎo)出包括從與所述文檔控制策略本體中的子節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)文檔控制 策略中導(dǎo)出集合了策略組成的文檔控制策略,默認(rèn)為更保守的策略組成。
22. 根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中所述導(dǎo)出包 括遞歸地導(dǎo)出用于所述文檔控制策略本體中的父節(jié)點(diǎn)的文檔控制 策略,直至根節(jié)點(diǎn);并且其中所述導(dǎo)出和所述關(guān)聯(lián)在部署所述文檔 控制策略本體之前執(zhí)行。
23. 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)程序產(chǎn)品,其中所述推薦包 括輸出多個(gè)推薦的文檔控制策略以及對(duì)應(yīng)的來(lái)自所述文檔控制策 略本體的推理鏈。
24. 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)程序產(chǎn)品,所述操作還包括 將來(lái)自多個(gè)推薦的文檔控制策略的最高排名的文檔控制策略自動(dòng)應(yīng) 用于所述文檔。
全文摘要
本說(shuō)明書(shū)描述了識(shí)別用于給定文檔的適當(dāng)文檔控制策略的相關(guān)技術(shù)。概括地說(shuō),一種方法可以包括確定文檔的文體分類,該文體分類包括多個(gè)項(xiàng)以及表示該項(xiàng)關(guān)于該文檔的置信度水平的相應(yīng)分?jǐn)?shù);根據(jù)文體分類在文檔控制策略本體中識(shí)別相關(guān)節(jié)點(diǎn);至少部分地基于至少一個(gè)分?jǐn)?shù)評(píng)估該相關(guān)節(jié)點(diǎn)的可用性的置信度水平;如果所評(píng)估的該相關(guān)節(jié)點(diǎn)的可用性的置信度水平低于閾值,則在文檔控制策略本體中選擇該相關(guān)節(jié)點(diǎn)的父節(jié)點(diǎn)以代表該相關(guān)節(jié)點(diǎn);以及基于在文檔控制策略本體中所識(shí)別的或所選擇的相關(guān)節(jié)點(diǎn),推薦至少一個(gè)文檔控制策略以管理對(duì)該文檔的訪問(wèn)。
文檔編號(hào)G06F7/00GK101529373SQ200780039107
公開(kāi)日2009年9月9日 申請(qǐng)日期2007年9月5日 優(yōu)先權(quán)日2006年9月6日
發(fā)明者L·馬斯因特爾, W·錢(qián)格 申請(qǐng)人:奧多比公司