亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于可配置的word文檔結(jié)構(gòu)化提取方法

文檔序號:6628052閱讀:3758來源:國知局
一種基于可配置的word文檔結(jié)構(gòu)化提取方法
【專利摘要】一種基于可配置的WORD文檔結(jié)構(gòu)化提取方法,包括以下步驟:步驟一,定義可配置的模板文件;在讀取Word文檔時,需要定義一個word模板文件,用來定義待讀取文檔的結(jié)構(gòu)和需要提取word的內(nèi)容;步驟二,根據(jù)第一步定義的模板文件為基準(zhǔn),檢測待讀取的Word文檔。本發(fā)明實現(xiàn)的WORD文檔結(jié)構(gòu)提取的易用性好,可擴展性高,適用于各種需要將WORD文檔結(jié)構(gòu)化到數(shù)據(jù)庫中的場合,對于減少人為錯誤出現(xiàn)的機率,提高數(shù)據(jù)質(zhì)量,提升工作效率具有重要作用。
【專利說明】—種基于可配置的WORD文檔結(jié)構(gòu)化提取方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及對WORD文檔結(jié)構(gòu)化提取的【技術(shù)領(lǐng)域】,具體涉及可配置方式的WORD文檔結(jié)構(gòu)化提取的計算機方法。

【背景技術(shù)】
[0002]現(xiàn)代信息化社會中,通過計算機來管理資料是所有企業(yè)都需要面對的問題。一個企業(yè)在信息化過程中,通常都是由文檔管理到數(shù)據(jù)庫管理的一個過程轉(zhuǎn)換,怎樣將積累的文檔資源轉(zhuǎn)化到數(shù)據(jù)庫中,在提高效率的同時也要保證質(zhì)量。如果采用人工的方式轉(zhuǎn)換,對于成千上萬的文檔資料來說,難度是相當(dāng)大的,而且人工轉(zhuǎn)換的方式出現(xiàn)錯誤的概率也很大,數(shù)據(jù)質(zhì)量也難于保障。如何通過一種計算機的數(shù)據(jù)提取方式,實現(xiàn)一種可動態(tài)配置文檔目錄結(jié)構(gòu)的,將WORD文檔通過結(jié)構(gòu)化技術(shù)實現(xiàn)數(shù)據(jù)提?。吭诮档凸ぷ麟y度、提高工作效率的同時也保證數(shù)據(jù)轉(zhuǎn)換的質(zhì)量。
[0003]基于以上的這些原因,需要一個能夠?qū)ORD文檔實現(xiàn)可配置的結(jié)構(gòu)化提取的通用計算機方法,能夠驗證這些文檔的合規(guī)性,并提取相應(yīng)文檔中的內(nèi)容,實現(xiàn)文檔數(shù)據(jù)的結(jié)構(gòu)化。


【發(fā)明內(nèi)容】

[0004]本發(fā)明正是為了解決WORD文檔結(jié)構(gòu)化提取的難題,提出一種基于可配置的WORD文檔結(jié)構(gòu)化提取方法,該方法具有便捷操作、方便使用的特點,同時能夠驗證文檔的合規(guī)性,保障數(shù)據(jù)質(zhì)量。
[0005]實現(xiàn)本發(fā)明的技術(shù)方案如下:
一種基于可配置的WORD文檔結(jié)構(gòu)化提取方法,步驟為:
步驟一、定義可配置的模板文件。在讀取Word文檔時,需要定義一個word模板文件,用來定義待讀取文檔的結(jié)構(gòu),和需要提取word的內(nèi)容。模板文件需要定義的內(nèi)容有:
1)、定制文檔的結(jié)構(gòu),通過采用xml技術(shù),定制文件的樹型結(jié)構(gòu)內(nèi)容,通過XML結(jié)構(gòu)實現(xiàn)可配置的定義文檔的層級結(jié)構(gòu),每個層級作為配置文件的一個節(jié)點。節(jié)點的類型包括:標(biāo)題、文本、表格、圖片;
2)、配置節(jié)點的屬性,根據(jù)各節(jié)點的實際業(yè)務(wù)需求,配置標(biāo)題節(jié)點的屬性,包括標(biāo)題名、標(biāo)題編號、是否為可循環(huán)出現(xiàn)的標(biāo)題;
3)、定義模板節(jié)點的校驗,或者讀取的數(shù)據(jù)應(yīng)該存放到數(shù)據(jù)庫表的哪個字段中;
步驟二、根據(jù)第一步定義了模板文件為基準(zhǔn),檢測待讀取的Word文檔。實現(xiàn)過程包含以下步驟:
1)、加載模板文件,并遍歷其中的所有節(jié)點。根據(jù)XML定義出來的文檔結(jié)構(gòu)是一個樹型結(jié)構(gòu),遍歷過程中需要根據(jù)這個樹型來遍歷,及樹型的深度遍歷;
2)、根據(jù)當(dāng)前的節(jié)點類型來進(jìn)行不同的加載:
2.1標(biāo)題節(jié)點:根據(jù)模板節(jié)點中的標(biāo)題號定位到具體的文檔位置,如果不能定位則表示在模板中的標(biāo)題沒在文檔中,同時根據(jù)這個節(jié)點的屬性‘是否為可選’來判斷是否需要輸出日志信息;
2.2文本節(jié)點:讀取Word文檔中對應(yīng)的文本內(nèi)容,并依據(jù)模板中的節(jié)點定義,把讀取的數(shù)據(jù)保存到對應(yīng)數(shù)據(jù)庫表的字段中;
2.3表格節(jié)點:根據(jù)模板中定義的表格列來驗證,文檔中對應(yīng)的位置的表格是否符合模板定義,如果符合則讀取數(shù)據(jù)并保存到數(shù)據(jù)庫表的字段中;
2.4圖片節(jié)點:讀取Word文檔中對應(yīng)的圖片內(nèi)容,并依據(jù)模板中的節(jié)點定義,把讀取的數(shù)據(jù)保存到對應(yīng)數(shù)據(jù)庫表的字段中。
[0006]本發(fā)明的有益效果是:
本發(fā)明通過采用XML技術(shù),解決了 WORD文檔目錄結(jié)構(gòu)可配置的問題,通過定制模板的不同類型節(jié)點及定義節(jié)點的屬性,能夠根據(jù)業(yè)務(wù)需求進(jìn)行不同類型文檔結(jié)構(gòu)的定制,滿足各種結(jié)構(gòu)的WORD的結(jié)構(gòu)化數(shù)據(jù)提取。通過以模板為基準(zhǔn),提取WORD文檔的數(shù)據(jù),同時進(jìn)行數(shù)據(jù)合規(guī)性的檢查,為數(shù)據(jù)質(zhì)量保證奠定基礎(chǔ)。本方法實現(xiàn)的WORD文檔結(jié)構(gòu)提取的易用性好,可擴展性高,適用于各種需要將WORD文檔結(jié)構(gòu)化到數(shù)據(jù)庫中的場合,對于減少人為錯誤出現(xiàn)的機率,提高數(shù)據(jù)質(zhì)量,提升工作效率具有重要作用。

【專利附圖】

【附圖說明】
[0007]圖1為本發(fā)明WORD結(jié)構(gòu)化提取流程圖。

【具體實施方式】
[0008]下面結(jié)合附圖和實施例對本發(fā)明作時一步詳細(xì)說明。
[0009]如圖1,基于可配置的WORD文檔結(jié)構(gòu)化提取的流程包括定制并加載模板配置文件,遍歷模板樹節(jié)點,解析各節(jié)點并按屬性結(jié)構(gòu)化內(nèi)容。
[0010]以信息化項目建設(shè)的資料結(jié)構(gòu)化為例子,信息化項目一般分為業(yè)務(wù)模型、需求分析、概要設(shè)計、詳細(xì)設(shè)計四個階段,每個階段有幾十個文檔,四個階段全部的文檔加起來有幾百個文檔,每個文檔的大小有十幾M。如果這些文檔全部由人工來進(jìn)行錄入的話,一是工作量大,二是由于文檔大,人工錄入的話出現(xiàn)錯誤的概率很大。以需求分析的文檔為實例,來說明本發(fā)明的實施例子。
[0011]具體實施步驟如下:
步驟一、定制并加載模板配置文件。根據(jù)需求分析文檔的結(jié)構(gòu),采用XML技術(shù)進(jìn)行模板化,生成模板的配置文件;
I )、定制文檔的結(jié)構(gòu),通過采用xml技術(shù),定制文件的樹型結(jié)構(gòu)內(nèi)容,通過XML結(jié)構(gòu)實現(xiàn)可配置的定義文檔的層級結(jié)構(gòu),每個層級作為配置文件的一個節(jié)點。需求分析文檔的結(jié)構(gòu)包括項目概述、需求總體分析、功能規(guī)格、需求清單、功能項、功能子項、業(yè)務(wù)流程圖、接口需求、非功能規(guī)格;
2)、配置各個節(jié)點的屬性,包括標(biāo)題名、標(biāo)題編號、是否為可循環(huán)出現(xiàn)的標(biāo)題,各節(jié)點的屬性如下:
a)項目概述,1,不可循環(huán)出現(xiàn);
b)需求總體分析,2,不可循環(huán)出現(xiàn); c)功能規(guī)格,3,不可循環(huán)出現(xiàn);
d)需求清單,3.1,不可循環(huán)出現(xiàn);
e)功能項,3.2,可循環(huán)出現(xiàn);
f)功能子項3.3,可循環(huán)出現(xiàn);
g)業(yè)務(wù)流程圖,3.4,可循環(huán)出現(xiàn);
h)接口需求,4,不可循環(huán)出現(xiàn);
i)非功能規(guī)格,5,不可循環(huán)出現(xiàn);
3、定義模板節(jié)點的校驗,與數(shù)據(jù)庫表建立關(guān)系,實現(xiàn)文檔節(jié)點與數(shù)據(jù)庫表字段的對應(yīng)映射;
步驟二、遍歷文檔的樹節(jié)點,根據(jù)步驟一定制的模板配置文件進(jìn)行節(jié)點的遍歷。首先加載模板配置文件,然后按順序進(jìn)行標(biāo)題節(jié)點的提取及標(biāo)題下對應(yīng)的文本節(jié)點、表格節(jié)點、圖片節(jié)點的提取,并將提取的數(shù)據(jù)存放到指定的數(shù)據(jù)庫表中的字段。下面以功能規(guī)格目錄及其子目錄為例子,說明數(shù)據(jù)提取并結(jié)構(gòu)化入庫的過程。具體過程如下:
1)、提取標(biāo)題節(jié)點:依據(jù)模板配置文件的定義,掃描當(dāng)前WORD文檔的目錄結(jié)構(gòu),匹配標(biāo)題為“功能規(guī)格”的標(biāo)題節(jié)點。分二種情況處理:
情況一:如果能定位到,則獲取標(biāo)題名,并執(zhí)行2);
情況二:如果不能定位到,而且“功能規(guī)格”不是‘可選’的標(biāo)題節(jié)點,輸出日志信息“功能規(guī)格標(biāo)題節(jié)點找不到,請核對WORD文檔目錄結(jié)構(gòu)! ”。根據(jù)模板配置文件繼續(xù)遍歷文檔的樹節(jié)點;
2)、提取文本節(jié)點:依據(jù)模板配置文件可知,‘功能規(guī)格’為文本節(jié)點。定位到‘功能規(guī)格’的層級目錄,提取‘功能規(guī)格’節(jié)點內(nèi)容,根據(jù)模板配置文件中的節(jié)點定義找到與數(shù)據(jù)庫的映射關(guān)系,將提取的數(shù)據(jù)存入數(shù)據(jù)庫表的指定字段中;
3)、提取表格節(jié)點:依據(jù)模板配置文件可知,‘需求清單’為表格節(jié)點。定位到‘功能規(guī)格’的層級目錄,提取‘需求清單’的表格數(shù)據(jù),根據(jù)模板配置文件中的節(jié)點定義找到與數(shù)據(jù)庫的映射關(guān)系,將提取的數(shù)據(jù)通過結(jié)構(gòu)化處理,存入數(shù)據(jù)庫表的指定字段中;
4)、提取圖片節(jié)點:依據(jù)模板定義可知,‘業(yè)務(wù)流程圖’為圖片節(jié)點。定位到‘功能規(guī)格’的層級目錄,提取‘業(yè)務(wù)流程圖’的流程圖數(shù)據(jù),根據(jù)模板配置文件中的節(jié)點定義找到與數(shù)據(jù)庫的映射關(guān)系,將提取的圖片通過矢量化技術(shù)進(jìn)行解析分析,并進(jìn)行結(jié)構(gòu)化處理,存入數(shù)據(jù)庫表的指定字段中。
[0012]重復(fù)步驟二操作,遍歷步驟一定制的模板配置文件的結(jié)構(gòu)目錄,將項目概述、需求總體分析、功能規(guī)格、需求清單、功能項、功能子項、業(yè)務(wù)流程圖、接口需求、非功能規(guī)格的內(nèi)容進(jìn)行提取,并根據(jù)數(shù)據(jù)庫的映射關(guān)系,將提取的數(shù)據(jù)通過結(jié)構(gòu)化處理,存入數(shù)據(jù)庫表的指定字段。
[0013]同理,重復(fù)以上步驟,通過定制四個階段對應(yīng)的文檔的模板配置文件,并進(jìn)行遍歷模板樹節(jié)點,定位并提取各節(jié)點的內(nèi)容,采用結(jié)構(gòu)化技術(shù)、矢量化技術(shù)存入到數(shù)據(jù)庫表中。
【權(quán)利要求】
1.一種基于可配置的WORD文檔結(jié)構(gòu)化提取方法,其特征在于,包括以下步驟: 步驟一,定義可配置的模板文件;在讀取Word文檔時,需要定義一個word模板文件,用來定義待讀取文檔的結(jié)構(gòu)和需要提取word的內(nèi)容;模板文件需要定義的內(nèi)容有: I )、定制文檔的結(jié)構(gòu),通過采用xml技術(shù),定制文件的樹型結(jié)構(gòu)內(nèi)容,通過XML結(jié)構(gòu)實現(xiàn)可配置的定義文檔的層級結(jié)構(gòu),每個層級作為配置文件的一個節(jié)點;節(jié)點的類型包括:標(biāo)題、文本、表格、圖片; 2)、配置節(jié)點的屬性,根據(jù)各節(jié)點的實際業(yè)務(wù)需求,配置標(biāo)題節(jié)點的屬性,包括標(biāo)題名、標(biāo)題編號、是否為可循環(huán)出現(xiàn)的標(biāo)題; 3)、定義模板節(jié)點的校驗或者讀取的數(shù)據(jù)應(yīng)該存放到數(shù)據(jù)庫表的哪個字段中; 步驟二,根據(jù)第一步定義的模板文件為基準(zhǔn),檢測待讀取的Word文檔;實現(xiàn)過程包含以下步驟:. 1)、加載模板文件,并遍歷其中的所有節(jié)點;根據(jù)XML定義出來的文檔結(jié)構(gòu)是一個樹型結(jié)構(gòu),遍歷過程中需要根據(jù)這個樹型來遍歷,及樹型的深度遍歷; .2)、根據(jù)當(dāng)前的節(jié)點類型來進(jìn)行不同的加載: . 2.1)標(biāo)題節(jié)點:根據(jù)模板節(jié)點中的標(biāo)題號定位到具體的文檔位置,如果不能定位則表示在模板中的標(biāo)題沒在文檔中,同時根據(jù)這個節(jié)點的屬性‘是否為可選’來判斷是否需要輸出日志信息; . 2.2)文本節(jié)點:讀取Word文檔中對應(yīng)的文本內(nèi)容,并依據(jù)模板中的節(jié)點定義,把讀取的數(shù)據(jù)保存到對應(yīng)數(shù)據(jù)庫表的字段中; . 2.3)表格節(jié)點:根據(jù)模板中定義的表格列來驗證,文檔中對應(yīng)的位置的表格是否符合模板定義,如果符合則讀取數(shù)據(jù)并保存到數(shù)據(jù)庫表的字段中; . 2.4)圖片節(jié)點:讀取Word文檔中對應(yīng)的圖片內(nèi)容,并依據(jù)模板中的節(jié)點定義,把讀取的數(shù)據(jù)保存到對應(yīng)數(shù)據(jù)庫表的字段中。
【文檔編號】G06F17/30GK104199975SQ201410492079
【公開日】2014年12月10日 申請日期:2014年9月23日 優(yōu)先權(quán)日:2014年9月23日
【發(fā)明者】詹衛(wèi)許, 于曉義, 董燦, 吳方權(quán), 陳彬, 胡俊楊, 陳曉洪, 李瑜 申請人:中國南方電網(wǎng)有限責(zé)任公司, 云南云電同方科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1