亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法及軟件的制作方法

文檔序號:6581672閱讀:187來源:國知局

專利名稱::一種標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法及軟件的制作方法
技術(shù)領(lǐng)域
:本發(fā)明屬于標(biāo)準(zhǔn)文獻(xiàn)和信息
技術(shù)領(lǐng)域
,具體涉及標(biāo)準(zhǔn)文獻(xiàn)、信息結(jié)構(gòu)化技術(shù)、文檔排版結(jié)構(gòu),以及擴展標(biāo)記語言(XML)技術(shù)。
背景技術(shù)
:標(biāo)準(zhǔn)是技術(shù)積累的結(jié)晶,標(biāo)準(zhǔn)文獻(xiàn)是屬于科技文獻(xiàn)的一種,是現(xiàn)代化企業(yè)組織生產(chǎn)、提高產(chǎn)品質(zhì)量、促進(jìn)產(chǎn)品進(jìn)出口的必備技術(shù)文獻(xiàn),也是技術(shù)監(jiān)督部門、商品檢驗部門進(jìn)行產(chǎn)品檢驗的法律依據(jù)。特別是當(dāng)今科技高速發(fā)展的情況下,最新發(fā)布的標(biāo)準(zhǔn)往往是新技術(shù)的載體。在當(dāng)今全球一體化的激烈競爭中,標(biāo)準(zhǔn)成為了企業(yè)參與競爭的先決條件。目前查詢相關(guān)標(biāo)準(zhǔn)都是首先通過標(biāo)準(zhǔn)題錄數(shù)據(jù)庫進(jìn)行查詢,然后索取標(biāo)準(zhǔn)文本。由于標(biāo)準(zhǔn)題錄數(shù)據(jù)庫涉及標(biāo)準(zhǔn)中規(guī)范的內(nèi)容很少,很難反映出標(biāo)準(zhǔn)涉及規(guī)范的全部內(nèi)容,所以很難滿足有關(guān)主題的標(biāo)準(zhǔn)查全的要求,往往查找的結(jié)果不全,即使查到相關(guān)標(biāo)準(zhǔn),也很難看到相關(guān)規(guī)范內(nèi)容,結(jié)果查找的準(zhǔn)確性不高。目前,雖然有能對word、PDF等格式的標(biāo)準(zhǔn)文獻(xiàn)全文文件進(jìn)行檢索的軟件工具,但很難滿足用戶對標(biāo)準(zhǔn)信息的需求,主要由于(l)由于標(biāo)準(zhǔn)文獻(xiàn)數(shù)量巨大,題錄檢索和手工查找難于滿足要求;(2)紙質(zhì)的標(biāo)準(zhǔn)文獻(xiàn),通過掃描制作成PDF等格式的電子文件,建立了全文數(shù)據(jù)庫,雖然實現(xiàn)了電子化館藏,但由于本身未進(jìn)行文字識別,實現(xiàn)不了全文檢索功能;(3)word、PDF等格式標(biāo)準(zhǔn)文獻(xiàn)全文文件為非結(jié)構(gòu)化數(shù)據(jù),很難實現(xiàn)如結(jié)構(gòu)化數(shù)據(jù)那樣的檢索、過濾、提取、挖掘和分析等功能。
發(fā)明內(nèi)容本發(fā)明的目的在于提出了一種基于擴展標(biāo)記語言(XML)的標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法和軟件,該數(shù)字化方法從標(biāo)準(zhǔn)文獻(xiàn)應(yīng)用角度,結(jié)合標(biāo)準(zhǔn)文獻(xiàn)特點及其排版結(jié)構(gòu)要求,利用XML技術(shù)實現(xiàn)對標(biāo)準(zhǔn)全文的結(jié)構(gòu)化,實現(xiàn)了標(biāo)準(zhǔn)文獻(xiàn)全文檢索的功能。標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法主要包括標(biāo)準(zhǔn)文獻(xiàn)圖像化、字符化和結(jié)構(gòu)化加工過程。標(biāo)準(zhǔn)文獻(xiàn)圖像化加工過程是對紙質(zhì)的標(biāo)準(zhǔn)文獻(xiàn)通過掃描和圖像處理,制作標(biāo)準(zhǔn)文獻(xiàn)的圖像文件。標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工過程是對標(biāo)準(zhǔn)文獻(xiàn)的圖像文件進(jìn)行版面分析、OCR和校對的過程,制作標(biāo)準(zhǔn)文獻(xiàn)雙層PDF、單層PDF、全文TXT文件。標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)化加工過程是標(biāo)準(zhǔn)題錄錄入和結(jié)構(gòu)化全文制作的過程,制作題錄數(shù)據(jù)和全文XML文件。標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)化的方法如下首先建立一個對標(biāo)準(zhǔn)全文XML格式著錄的定義文件,在這個文件中保存了全文XML中的所有通用元素和可選元素的設(shè)置。這些設(shè)置包括元素的類型、名稱、別名、定義、標(biāo)記、注釋等信息,以及元素是否多值、是否必需等數(shù)據(jù)完整性方面的特征。這一文件可以在符合規(guī)范的前提下進(jìn)行修改,例如對通用元素進(jìn)行維護(hù)、增加或刪除標(biāo)準(zhǔn)類型、對某種標(biāo)準(zhǔn)類型的可選元素進(jìn)行維護(hù)等等。標(biāo)準(zhǔn)全文XML格式著錄定義文件包括一個schema文件和一個XML文件。在schema文件中對標(biāo)準(zhǔn)全文XML格式著錄定義文件的編寫進(jìn)行了規(guī)范。標(biāo)準(zhǔn)全文XML格式著錄schema文件的結(jié)構(gòu)如下表<table>tableseeoriginaldocumentpage4</column></row><table><table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage5</column></row><table>以上為標(biāo)準(zhǔn)全文XML格式著錄定義文件中所有的Element和Attribute的定義和約束,標(biāo)準(zhǔn)全文XML格式著錄定義文件需要滿足下列要求1.著錄元素分為兩類必備元素和可選元素,一個標(biāo)準(zhǔn)全文XML中均需著錄必備元素,此外還需要根據(jù)此標(biāo)準(zhǔn)的類別著錄屬于此類別的可選元素;2.在格式著錄定義文件中要每一個元素的名稱、別名、標(biāo)簽、定義和注釋進(jìn)行描述;3.元素的類型分為四種文字、圖片、公式和表格,對這四種元素要著錄不同的信息;4.要設(shè)定元素的ID、名稱、是否必需著錄、是否多值等進(jìn)行設(shè)定,這些設(shè)置會決定全文XML的創(chuàng)建方式;5.元素的ID以下列規(guī)則命名必備元素的ID為A1、A2、A3、編碼,第一種標(biāo)準(zhǔn)類型的元素ID為B1、B2、B3、……,第二種標(biāo)準(zhǔn)類型的元素ID為C1、C2、C3、……,依此類推;6.元素的ID是其唯一標(biāo)識符,在整個加工過程中一旦確定,不得更改。否則就無法找到以原ID著錄的數(shù)據(jù)了。標(biāo)準(zhǔn)文獻(xiàn)全文XML格式著錄定義的schema文件如下〈?xmlversion=〃1.0〃encoding=〃UTF-8"standalone=〃yes">〈xs:schemaxmlns:xs=〃http://www.w3.org/2001/XMLSchema〃elementFormDefault=〃qualified">〈xs:elementname=〃Alias"type=〃xs:string〃/>5〈xs:elementname=〃Define"type=〃xs:string〃/〉〈xs:elementname=〃Name〃type=〃xs:string〃/〉〈xs:elementname=〃NormalStandard〃〉〈xs:complexType〉〈xs:sequence〉〈xs:elementref=〃Section〃maxOccurs=〃unbounded"/〉〈/xs:sequence〉〈/xs:complexType〉〈/xs:element>〈xs:elementname=〃Note〃type=〃xs:string〃/〉〈xs:elementname=〃Other-Names〃〉〈xs:co,lexType〉〈xs:sequence〉〈xs:elementref=〃Alias〃maxOccurs=〃unbounded"/〉〈/xs:sequence〉〈/xs:complexType〉〈/xs:element〉〈xs:elementname=〃Section"〉〈xs:complexType〉〈xs:sequence〉〈xs:elementref=〃Name〃/〉〈xs:elementref=〃Other-Names〃minOccurs=〃0〃/〉〈xs:elementref=〃Tag"minOccurs=〃0〃/〉〈xs:elementref=〃Define〃minOccurs=〃0〃/〉〈xs:elementref=〃Note〃minOccurs=〃0〃/〉〈/xs:sequence〉〈xs:attributename二〃id〃type=〃xs:string〃use=〃required"/〉〈xs:attributename=〃necessary〃default=〃False〃〉〈xs:simpleType〉〈xs:restrictionbase=〃xs:string〃〉〈xs:enumerationvalue=〃True〃/〉〈xs:enumerationvalue=〃False〃/〉〈/xs:restriction〉〈/xs:simpleType〉</xs:attributed〈xs:attributename=〃section-type〃default=〃Text〃〉〈xs:simpleType〉〈xs:restrictionbase=〃xs:string〃〉〈xs:enumerationvalue=〃Text〃/〉〈xs:enumerationvalue=〃Images〃/〉〈xs:enumerationvalue=〃Tables〃/〉〈xs:enumerationvalue=〃Formulas〃/〉〈/xs:restriction〉〈/xs:simpleType〉〈/xs:attributed〈xs:attributename二〃multi-value〃default=〃False〃〉〈xs:simpleType〉〈xs:restrictionbase=〃xs:string〃〉〈xs:e皿me:rationvalue=〃True〃/〉〈xs:enumerationvalue=〃False"/>〈/xs:restriction〉〈/xs:simpleType〉〈/xs:attribute〉〈xs:attributename=〃sub-section〃〉〈xs:simpleType〉〈xs:restrictionbase=〃xs:string〃〉〈xs:enumerationvalue=〃Image〃/〉〈xs:enumerationvalue=〃Table〃/〉〈xs:enumerationvalue=〃Formula〃/〉〈/xs:restriction〉〈/xs:simpleType〉〈/xs:attribute〉〈/xs:complexType〉〈/xs:element〉〈xs:elementname=〃SpecialStandard〃〉〈xs:complexType〉〈xs:sequence〉〈xs:elementref=〃Section〃maxOccurs=〃unbounded"/〉〈/xs:sequence〉〈xs:attributename=〃std-type〃type=〃xs:string〃use=〃required〃/>〈/xs:co,lexType〉〈/xs:element〉〈xs:elementname=〃StructTextDocument〃〉〈xs:complexType〉〈xs:sequence>〈xs:elementref=〃NormalStandard"/>〈xs:elementref=〃SpecialStandard〃minOccurs=〃0〃maxOccurs=〃皿bo皿ded〃/>〈/xs:sequence>〈xs:attributename=〃updatetime"type=〃xs:string"/>〈xs:attributename=〃updateuser"type=〃xs:string"/>〈/xs:complexType>〈/xs:element>〈xs:elementname=〃Tag"type=〃xs:string"/>〈/xs:schema>標(biāo)準(zhǔn)全文XML文件是在數(shù)字化加工過程中產(chǎn)生的最終產(chǎn)品之一。它是在全文XML規(guī)范的框架內(nèi),由加工人員通過"全文XML制作工具"制作的,反映了標(biāo)準(zhǔn)全文結(jié)構(gòu)特點和關(guān)鍵信息的一種文件,包括schema文件和XML文件。在schema文件中對標(biāo)準(zhǔn)全文XML文件的編寫進(jìn)行了規(guī)范。全文XML文件的元素和屬性說明如下[O川]<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>標(biāo)準(zhǔn)的全文XML文件中著錄了標(biāo)準(zhǔn)的標(biāo)準(zhǔn)號和中文名稱,還包含了多個元素(Section)。共有四種元素類型文字、圖像、公式和表格。著錄的元素包括必備元素和標(biāo)準(zhǔn)所屬類別的可選元素。每個元素都要著錄其ID、名稱、元素類型,除此以外,還需要著錄其內(nèi)容。不同的元素,著錄的內(nèi)容有所不同文字類型的元素需要著錄文字所在的頁,以及文字內(nèi)容。圖片類型的元素需要分別著錄每個圖片所在的頁、圖片文件的路徑、圖片的名稱和說明;公式類型的元素需要分別著錄每個公式所在的頁、公式圖片文件的路徑、公式的名稱和說明;表格類型的元素需要分別著錄每個表格所在的頁,表格的名稱和內(nèi)容。標(biāo)準(zhǔn)全文XML文件定義schema文件如下〈?xmlversion=〃1.0〃encoding=〃UTF-8"standalone=〃yes"〈xs:schemaxmlns:xs=〃http://www.w3.org/2001XMLSchema〃elementFormDefault=〃qualified">〈xs:elementname=〃Content"type=〃xs:string"/>〈xs:elementname=〃Desc"type=〃xs:string"/>〈xs:elementname=〃Title"type=〃xs:string"/>〈xs:elementname=〃Formula">〈xs:complexType>〈xs:sequence>〈xs:elementref=〃Title"/>〈xs:elementref=〃Desc"/>:0129]0130]/xs:sequence〉〈xs:attributename=〃path〃type=〃xs:string〃userequired"0131]〈xs:attributenamepagetypexs:stringuserequired〃/0132]〈/xs:complexType〉0133]〈/xs:element〉0134]〈xs:elementname=〃Image'0135]〈xs:complexType〉0136]〈xs:sequence〉0137]〈xs:elementref=0138]〈xs:elementref=■0139]〈/xs:sequence〉■0140]〈xs:attributename=〃required"/〉■0141]〈xs:attributename=〃0142]〈/xs:complexType〉0143]〈/xs:element〉0144]〈xs:elementname=〃Section〃Title〃/〉Desc"/〉=〃path〃type=〃xs:string〃usepage〃type=〃xs:string〃/〉0145]0146]0147]0148]皿boimdecl〃/〉0149]皿bo皿ded'0150]unbounded"0151]0152]〈xs:complexTypemixed=〃true〃〉〈xs:choice〉〈xs:elementref=〃Text〃/〉〈xs:elementref=〃Image〃maxOccurs〈xs:elementref=〃Table〃maxOccurs〈xs:elementref=〃Formula〃maxOccurs〈/xs:choice〉〈xs:attributename=〃id〃type=〃xs:string〃userequired"0153]:xs:attributenametypexs:string"use=〃required'0154]:0155]0156]0157]0158]0159]〈xs:attributen腦e二〃type〃use=〃required'〈xs:simpleType〉〈xs:restrictionbase=〃xs:string〃〉〈xs:enumerationvalue=〃Text〃/〉〈xs:enumerationvalue=〃Image〃/〉〈xs:enumerationvalue=〃Table〃/〉_0160]〈xs:enumerationvalue=〃Formula"/〉_0161]〈/xs:restriction〉_0162]〈/xs:simpleType〉:0163]〈/xs:attribute〉_0164]〈/xs:complexType〉_0165]〈/xs:e1ement>陽0166]〈xs:elementname=〃Standard〃〉陽0167]〈xs:complexType〉■0168]〈xs:sequence〉■0169]〈xs:elementref=〃Section"maxOccurs=〃皿bounclei〃/〉■0170]〈/xs:sequence〉■0171]〈xs:attributename=〃stdno〃type=〃xs:string〃use=〃required"/〉0172]〈xs:attributename=〃name〃type=〃xs:string〃use=〃required"/〉■0173]〈/xs:co即lexType〉■0174]〈/xs:element〉■0175]〈xs:elementname=〃Table〃〉■0176]〈xs:complexType〉■0177]〈xs:sequence〉:0178]〈xs:elementref=〃Title〃/〉:0179]〈xs:elementref=〃Content〃/〉0180]〈/xs:sequence〉■0181]〈xs:attributename=〃page〃type=〃xs:string〃use=〃required〃/〉■0182]〈/xs:complexType〉:0183]〈/xs:element〉:0184]〈xs:elementname=〃Text〃〉0185]〈xs:complexTypemixed=〃true〃〉0186]〈xs:attributename=〃page〃type=〃xs:string〃use二〃required"/〉■0187]〈/xs:co,lexType〉:0188]〈/xs:element〉■0189]〈/xs:schema〉本發(fā)明還提供了一種標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化軟件,包括標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化管理系統(tǒng)、標(biāo)準(zhǔn)信息挖掘平臺。標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng)實現(xiàn)紙質(zhì)標(biāo)準(zhǔn)文獻(xiàn)圖像化、0CR識別、結(jié)構(gòu)化制作。數(shù)據(jù)庫系統(tǒng)是存放和管理標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工的數(shù)據(jù),也是標(biāo)準(zhǔn)信息挖掘平臺的數(shù)據(jù)來源。標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化管理系統(tǒng)實現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工的作業(yè)管理、流程管理,以及數(shù)據(jù)庫維護(hù)和基表維護(hù),標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng)和標(biāo)準(zhǔn)信息挖掘平臺權(quán)限設(shè)置和系統(tǒng)信息查詢等。標(biāo)準(zhǔn)信息挖掘平臺提供在標(biāo)準(zhǔn)的前言、引言、范圍、引用文件、術(shù)語等確定范圍內(nèi)進(jìn)行檢索和導(dǎo)出數(shù)據(jù),同時提供對標(biāo)準(zhǔn)中的圖、表進(jìn)行檢索并以圖的形式展現(xiàn),實現(xiàn)了所見即所得,并提供圖、表下載,同時提供傳統(tǒng)的題錄檢索和分類檢索,可批量導(dǎo)出數(shù)據(jù)。圖1為本發(fā)明的標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化軟件的示意圖圖2標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工工作包目錄結(jié)構(gòu)具體實施例方式如圖1所示為本發(fā)明的標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化軟件的框架示意圖。標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng)由圖像化模塊、字符化模塊、結(jié)構(gòu)化模塊以及標(biāo)準(zhǔn)文獻(xiàn)加工任務(wù)調(diào)度程序和質(zhì)檢及提交程序組成,其中,圖像化模塊主要由圖像掃描程序組成,有掃瞄和導(dǎo)入工序;字符化模塊主要由OCR識別程序組成,有版面分析、OCR、校對、導(dǎo)出工序;結(jié)構(gòu)化模塊由題錄信息編輯器、結(jié)構(gòu)化全文數(shù)據(jù)編輯器、批量題錄編輯器組成,有題錄信息錄入、結(jié)構(gòu)化全文數(shù)據(jù)制作、批量題錄數(shù)據(jù)整理、批量題錄數(shù)據(jù)質(zhì)檢及入庫工序。數(shù)據(jù)庫系統(tǒng)是存放和管理標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化過程中的數(shù)據(jù)。主要由全文數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫組成。標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化管理系統(tǒng)由權(quán)限設(shè)置、作業(yè)管理、數(shù)據(jù)庫維護(hù)、流程管理、基表維護(hù)和系統(tǒng)信息組成。標(biāo)準(zhǔn)信息挖掘平臺提供標(biāo)準(zhǔn)通用檢索、標(biāo)準(zhǔn)題錄檢索、標(biāo)準(zhǔn)全文檢索、標(biāo)準(zhǔn)分類檢索、標(biāo)準(zhǔn)聯(lián)合檢索。標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng)的結(jié)構(gòu)化模塊是依據(jù)標(biāo)準(zhǔn)全文XML格式著錄定義XML文件和標(biāo)準(zhǔn)全文XML文件定義schema文件進(jìn)行開發(fā)的。標(biāo)準(zhǔn)全文XML文件定義schema文件見
發(fā)明內(nèi)容;標(biāo)準(zhǔn)全文XML格式著錄定義XML文件依據(jù)本發(fā)明的標(biāo)準(zhǔn)全文XML格式著錄定義schema文件編寫如下〈?xmlversion=〃1.0〃encoding=〃UTF-8">〈StructTextDocumentxmlns:xsi=〃http://www.w3.org/2001/XMLSchema"xsi:noNamespaceSchemaLocation=〃D:\GDStdDigitize\docs\xmls\std_define,xsd">〈NormalStandard>〈Sectionid=〃Al〃necessary=〃True〃section-type=〃Text"multi—value=〃False">〈Name〉標(biāo)準(zhǔn)類另U〈麵me〉〈0ther-Names〉〈Alias>標(biāo)準(zhǔn)類型〈/Alias>〈Alias〉標(biāo)準(zhǔn)分類〈/Alias>〈/0ther_Names>〈Tag〉標(biāo)準(zhǔn)類別〈/Tag>〈Define〉指標(biāo)準(zhǔn)文獻(xiàn)按全文的結(jié)構(gòu)特點所進(jìn)行的文獻(xiàn)分類,,該值可能有基礎(chǔ)標(biāo)準(zhǔn)、設(shè)計技術(shù)標(biāo)準(zhǔn)、服務(wù)標(biāo)準(zhǔn)、工藝技術(shù)標(biāo)準(zhǔn)、通信產(chǎn)品標(biāo)準(zhǔn)等等?!?Define〉〈Note〉在數(shù)據(jù)加工和檢索功能中,確定該值后,將影響到"B可選元素"部分的檢索視圖?!?Note〉〈/Section>〈Sectionid=〃A2〃necessary=〃True〃section-type=〃Images"multi-value=〃False">〈Name〉封面〈/Name〉〈Tag〉標(biāo)準(zhǔn)封面〈/Tag〉〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的首頁〈/Define〉〈/Section>〈Sectionid=〃A3〃necessary=〃True〃section-type=〃Images"multi-value=〃False">〈Name〉目次〈麵me〉〈Tag〉目次〈/Tag〉〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的目次結(jié)構(gòu)〈/Define〉〈/Section〉〈Sectionid=〃A4〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉前言〈麵me〉〈Tag〉前言〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的前言部分〈/Define>〈/Section〉〈Sectionid=〃A5〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉弓|言〈麵me〉〈Tag〉引言〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的引言部分〈/Define〉〈/Section〉〈Sectionid=〃A6〃necessary=〃True〃section-type=〃Text"multi-value=〃True">〈Name〉名稱〈/Name>〈Tag〉標(biāo)準(zhǔn)名稱〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的名稱〈/Define〉〈/Section〉〈Sectionid=〃A7〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉范圍〈/Name>〈Tag〉標(biāo)準(zhǔn)范圍〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的范圍〈/Define〉〈/Section〉〈Sectionid=〃A8〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉弓|用文件〈/Name>〈0ther-Names〉〈Alias〉引用標(biāo)準(zhǔn)〈/Alias>〈/0ther_Names>〈Tag〉弓|用文件〈/Tag>〈Define>標(biāo)準(zhǔn)文獻(xiàn)的引用文件部分〈/Define>〈/Section〉〈Sectionid=〃A9〃necessary=〃True"section-type=〃Tables"multi-value=〃False">〈Name>術(shù)語〈/Name>〈0ther-Names〉〈Alias>定義〈/Alias>〈Alias>概念〈/Alias>〈/0ther_Names>〈Tag〉術(shù)語表〈/Tag>〈Define>標(biāo)準(zhǔn)文獻(xiàn)的術(shù)語表部分〈/Define>〈/Section〉〈Sectionid=〃All〃necessary=〃True〃section-type=〃Images"multi-value=〃True"sub-section=〃Image">〈Name〉圖〈/Name>〈Tag〉圖〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)中所有的圖〈/Define〉〈Note〉包括修改件元素里所有的圖〈/Note〉〈/Section〉〈Sectionid=〃A12〃necessary=〃True〃section-type=〃Tables"multi-value=〃True"sub-section=〃Table">〈Name〉表格〈/Name>〈Tag〉表格〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)中所有的表格〈/Define〉〈Note〉包括修改件元素里所有的表格〈/Note>〈/Section〉〈Sectionid=〃A13〃necessary=〃True〃section—type=〃Formulas"multi-value=〃Truesub—section=〃Formula">〈Name〉公式〈/Name>〈Tag〉公式〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)中所有的公式〈/Define〉〈Note〉包括修改件元素里所有的公式〈/Note〉〈/Section〉〈Sectionid=〃A14〃necessary=〃False〃section-type=〃Text"multi-value=〃False">〈Name〉修改件〈/Name>〈0ther-Names〉〈Alias>勘誤單〈/Alias>〈Alias〉修改單〈/Alias>〈Alias>補充件〈/Alias>〈/0ther_Names>〈Tag〉術(shù)語表〈/Tag>〈Define>標(biāo)準(zhǔn)文獻(xiàn)的術(shù)語表部分〈/Define>〈/Section〉〈Sectionid=〃A15〃necessary=〃False〃section-type=〃Images"multi-value=〃True"sub-section=〃Image">〈Name〉修改件中的圖〈/Name>〈Tag〉修改件中的圖〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)的修改件中所有的圖〈/Define〉〈/Section〉〈Sectionid=〃A16〃necessary=〃False〃section-type=〃Tables"multi-value=〃True"sub-section=〃Table">〈Name〉修改件中的表格〈/Name>〈Tag〉修改件中的表格〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)中修改件的所有的表格〈/Define〉〈/Section〉〈Sectionid=〃A17"necessary=〃False"section-type=〃Formulas"multi-value=〃True"sub-section=〃Formula">〈Name〉修改件中的公式〈/Name>〈Tag〉修改件中的公式〈/Tag>〈Define〉標(biāo)準(zhǔn)文獻(xiàn)修改件中的所有的公式〈/Define〉〈/Section〉14/20頁〈/NormalSt£irKkrd>〈SpecialStandardstd-type=〃服務(wù)技術(shù)標(biāo)準(zhǔn)">〈Sectionid=〃B1〃necessary=〃True"section-type=〃Text"multi-value=〃False">〈Name〉分類\命名〈/Name>〈/Section>〈Sectionid=〃B2〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉總則\原則〈/Name>〈/Section>〈Sectionid=〃B3〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉類型〈/Name>〈/Section>〈Sectionid=〃B4〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉技術(shù)范圍〈/Name>〈/Section〉〈Sectionid=〃B5〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉內(nèi)容〈麵me〉〈/Section〉〈Sectionid=〃B6〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉實施〈/Name>〈/Section〉〈Sectionid=〃B7〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉評價〈/Name>〈/Section〉〈Sectionid=〃B8〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉要求〈/Name>〈/Section〉〈Sectionid=〃B9〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉程序〈/Name>〈/Section〉〈Sectionid=〃B10〃necessary=〃True"section-type16=〃Text"multi-value=〃False">〈Name〉資料性附錄〈/Name〉〈/Section〉〈Sectionid=〃Bll"necessary=〃True"section-type=〃Text"multi-value=〃False">〈Name〉參考文獻(xiàn)〈/Name>〈/Section>〈/SpecialStandard>〈SpecialStandardstd-type=〃工藝技術(shù)標(biāo)準(zhǔn)">〈Sectionid=〃Cl"necessary=〃True"section-type="Text"multi-value="False">〈Name〉分類\命名〈/Name>〈/Section〉〈Sectionid=〃C2〃necessary=〃True"section-type=〃Text"multi-value=〃False">〈Name〉要求\技術(shù)要求\設(shè)計〈/Name>〈/Section〉〈Sectionid=〃C3〃necessary=〃True〃section-type="Text"multi-value="False">〈Name〉結(jié)構(gòu)〈/Name>〈/Section>〈Sectionid=〃C4〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉性能〈/Name>〈/Section〉〈Sectionid=〃C5〃necessary=〃True〃section-type="Text"multi-value="False">〈Name〉綜合〈/Name>〈/Section〉〈Sectionid=〃C6〃necessary=〃True〃section-type=〃Text"multi-value=〃False">〈Name〉安全〈/Name>〈/Section〉〈Sectionid=〃C7〃necessary=〃True〃section-type="Text"multi-value=〃False">〈Name〉安裝〈/Name>〈/Section〉〈Sectionid=〃C8〃necessary=〃True〃section-type=〃Text"multi—value=〃False">section—typesection—typesection—typesection—typesection—type〈Name〉操作〈/Name>〈/Section〉〈Sectionid=〃C9〃necessary=〃True=〃Text"multi-value=〃False">〈Name〉維護(hù)〈/Name>〈/Section〉〈Sectionid=〃C10〃necessary=〃True=〃Text"multi-value=〃False">〈Name〉事故〈/Name>〈/Section〉〈Sectionid=〃Cll〃necessary=〃True=〃Text"multi-value=〃False">〈Name〉處理〈/Name>〈/Section〉〈Sectionid=〃C12〃necessary=〃True=〃Text"multi-value=〃False">〈Name〉防護(hù)〈/Name>〈/Section〉〈Sectionid=〃C13〃necessary=〃True'=〃Text"multi-value=〃False">〈Name〉電氣〈/Name>〈/Section〉〈Sectionid=〃C14〃necessary=〃True=〃Text"multi-value=〃False">〈Name〉壓力〈/Name>〈/Section〉〈/SpecialStMKkrd>〈/StructTextDocument>標(biāo)準(zhǔn)全文XML格式著錄定義XML文件和標(biāo)準(zhǔn)全文XML文件定義schema文件存儲在WEB服務(wù)器上,它有兩個作用一是用于在標(biāo)準(zhǔn)信息挖掘平臺中進(jìn)行全文檢索時定義用戶可以選擇的標(biāo)準(zhǔn)全文項。如在定義文件中設(shè)定全文XML文件包含前沿、引言、范圍、引用標(biāo)準(zhǔn)和術(shù)語表,那么在檢索界面中也將會列出這五個檢索項。如對這個文件進(jìn)行修改,增加一個"公式",那么在檢索界面中也會增加"公式"這一檢索項。它的第二個作用是為數(shù)字化加工中的全文XML制作工序提供依據(jù)。全文XML制作工具會根據(jù)格式定義文件中設(shè)定的元素列表及其屬性進(jìn)行制作,其中列出的標(biāo)準(zhǔn)類型被用于進(jìn)行對當(dāng)前標(biāo)準(zhǔn)的設(shè)置。這一文件還可以提供對全文XML文件結(jié)構(gòu)的自動構(gòu)造,以及制作完成后進(jìn)行數(shù)據(jù)完整性和正確性的自動檢驗。在進(jìn)行數(shù)字化加工時,全文XML制作工具可根據(jù)標(biāo)準(zhǔn)全文XML格式著錄定義XML文件和標(biāo)準(zhǔn)全文XML文件定義schema文件的定義自動生成標(biāo)準(zhǔn)的全文XML文件,這一文件section—type的格式是事先設(shè)定的,但是其具體結(jié)構(gòu)由標(biāo)準(zhǔn)全文XML格式著錄定義XML文件和標(biāo)準(zhǔn)全文XML文件定義schema文件定義,內(nèi)容則來自于標(biāo)準(zhǔn)本身和加工人員的錄入。全文XML文件由一個XML文件和一個存放圖像文件的同名文件夾組成。圖像文件夾中存放了全文XML中所著錄的圖和公式的圖像。全文XML文件中的文字信息、圖、表、公式的標(biāo)題和文字性的描述信息由全文數(shù)據(jù)庫進(jìn)行索引。這些文件最終存放在標(biāo)準(zhǔn)資料檔案庫中。在對檢索結(jié)果進(jìn)行呈現(xiàn)時,這些文件還會被經(jīng)常調(diào)用。工作包目錄結(jié)構(gòu)如圖2所示,文件說明如下文件名<table>tableseeoriginaldocumentpage19</column></row><table><table>tableseeoriginaldocumentpage20</column></row><table>標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工過程中需要上傳和下載的文件如下表<table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table>標(biāo)準(zhǔn)全文XML文件在制作完成后,會被上傳至全文數(shù)據(jù)庫中建立索引。建立索引的過程是將全文XML中的所有文字信息進(jìn)行索引,圖片和公式并不能直接索引,只能對其圖片、公式的文字說明進(jìn)行索引,表格文字可直接索引。具體地說,會對全文XML中的Text元素中的文字信息,Image元素中的Title和Desc信息、Formula元素中的Title和Desc信息、Table元素中的Title和Content信息進(jìn)行索引。在建立索引時,采用了"元素名稱=著錄內(nèi)容"的方式將全文XML文件的內(nèi)容添加至全文數(shù)據(jù)庫中。針對文字類型的元素,入庫時使用的元素名稱采用了Section的ID屬性,著錄內(nèi)容則是Section的Text類型的值;針對其他三類元素,元素名稱為SectionID與文字信息名稱相結(jié)合的形式,著錄內(nèi)容則是文字信息的內(nèi)容。索引完成后即可通過標(biāo)準(zhǔn)信息挖掘平臺選擇"全文檢索"方式進(jìn)行檢索。可檢索的全文字段包括所有必備元素中的文字信息、公式的標(biāo)題和說明、表格的標(biāo)題和內(nèi)容,以及圖片的標(biāo)題和說明。還包括按照標(biāo)準(zhǔn)類別提供的可選元素。權(quán)利要求一種標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法及軟件,其特征在于標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法由標(biāo)準(zhǔn)文獻(xiàn)圖像化、字符化和結(jié)構(gòu)化模塊構(gòu)成及標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)化方法,依據(jù)以上方法開發(fā)了由標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化管理系統(tǒng)和標(biāo)準(zhǔn)信息挖掘平臺組成的標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化軟件。2.如權(quán)利要求1所述的標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)化方法,其特征在于標(biāo)準(zhǔn)文獻(xiàn)XML格式著錄定義文件和標(biāo)準(zhǔn)全文XML文件。標(biāo)準(zhǔn)文獻(xiàn)XML格式著錄定義文件由schema文件和XML文件組成,標(biāo)準(zhǔn)全文XML文件由schema文件和XML文件組成。3.如權(quán)利要求2所述的標(biāo)準(zhǔn)文獻(xiàn)XML格式著錄定義schema文件,其特征在于文檔豐艮兀素有兩個子兀素NormalStanard禾口SpecialStandard。NormalStanard為必備兀素;SpecialStandard為可選元素,數(shù)目為0至無限,必選屬性stchtype必須設(shè)定,表示標(biāo)準(zhǔn)類型。這兩個子元素都包括Section子元素,數(shù)目為l至無限。4.如權(quán)利要求3所述的Section元素,其特征在于有屬性id、necessary、section-type、multi-value、sub_section,有子兀素Name、Other-Name、Alias、Tag、Define、Note。其中屬性id必須設(shè)定,必備元素設(shè)為Al、A2、A3…,第一個標(biāo)準(zhǔn)類型的可選元素設(shè)為Bl、B2、B3…,第二個標(biāo)準(zhǔn)類型的可選元素設(shè)為Cl、C2、C3…,依此類推;屬性section-type取值有Text、Images、Tables、Formulas。5.如權(quán)利要求2所述的標(biāo)準(zhǔn)全文XML文件定義schema文件,其特征在于文檔根元素Standard有屬性std-no、n謙,子元素Section。其中屬性std-no為標(biāo)準(zhǔn)號、n謙為標(biāo)準(zhǔn)的中文名稱;子元素Section,數(shù)目為1至無限。6.如權(quán)利要求5所述的Section元素,其特征在于有屬性id、name、type,均為必填項,有子兀素Text、Image、Table、Formula。其中屬性type的可選項為Text、Image、Table、Formula;元素Image有屬性page表示圖片所在的頁、path表示存放圖片的路徑,子元素Title表示圖片名稱、Desc表示圖片說明;元素Table有屬性page表示表格所在的頁、path表示存放表格的路徑,子元素Title表示表格名稱、Desc表示表格說明、Content表示表格的內(nèi)容;元素Formula有屬性page表示公式所在的頁、path表示存放公式的路徑,子元素Title表示公式名稱、Desc表示公式說明。7.如權(quán)利要求1所述的標(biāo)準(zhǔn)文獻(xiàn)數(shù)字化加工系統(tǒng),其特征在于有紙本文獻(xiàn)加工全流程、紙本文獻(xiàn)加工流程、圖片式電子文檔加工全流程、圖片式電子文檔加工流程、文字式電子文檔加工全流程、二次加工全流程、批量電子題錄加工流程,有掃描及圖像處理、導(dǎo)入、版面分析、OCR識別、校對、導(dǎo)出、題錄信息錄入、批量題錄數(shù)據(jù)整理、結(jié)構(gòu)化全文數(shù)據(jù)制作、批量題錄數(shù)據(jù)質(zhì)檢及入庫、質(zhì)檢及入庫工序,有標(biāo)準(zhǔn)文獻(xiàn)的原電子文件、題錄數(shù)據(jù)文件、雙層PDF文件、單層PDF文件、全文TXT、全文XML文件。8.如權(quán)利要求7所述的結(jié)構(gòu)化全文數(shù)據(jù)制作,其特征在于依據(jù)權(quán)利要求2所述的標(biāo)準(zhǔn)文獻(xiàn)XML格式著錄定義XML文件進(jìn)行著錄,并依據(jù)標(biāo)準(zhǔn)全文XML文件定義schema文件自動生成標(biāo)準(zhǔn)全文XML文件進(jìn)行著錄。9.如權(quán)利要求1所述的標(biāo)準(zhǔn)信息挖掘平臺,其特征在于依據(jù)權(quán)利要求2所述標(biāo)準(zhǔn)全文XML格式著錄定義XML文件和標(biāo)準(zhǔn)全文XML文件定義schema文件,定義用戶全文檢索時可以選擇的標(biāo)準(zhǔn)全文項。全文摘要一種標(biāo)準(zhǔn)文獻(xiàn)全文數(shù)字化方法及軟件,屬于標(biāo)準(zhǔn)文獻(xiàn)和信息
技術(shù)領(lǐng)域
,解決對標(biāo)準(zhǔn)文獻(xiàn)全文檢索和精細(xì)化檢索的問題,實現(xiàn)標(biāo)準(zhǔn)信息文本挖掘。從標(biāo)準(zhǔn)文獻(xiàn)應(yīng)用前景出發(fā),建立包括圖像化、字符化和結(jié)構(gòu)化過程,由掃描圖像處理、OCR識別校對、標(biāo)準(zhǔn)題錄錄入和結(jié)構(gòu)化全文制作等模塊組成數(shù)字化加工方法,定義了標(biāo)準(zhǔn)全文XML格式著錄定義文件和標(biāo)準(zhǔn)全文XML文件,依據(jù)標(biāo)準(zhǔn)全文XML格式著錄定義XML文件和標(biāo)準(zhǔn)全文XML文件定義schema文件開發(fā)軟件,實現(xiàn)標(biāo)準(zhǔn)題錄、單層PDF文件、雙層PDF文件、全文TXT文件、表、圖等數(shù)據(jù)加工,實現(xiàn)在標(biāo)準(zhǔn)的前言、引言、范圍、引用文件、術(shù)語等確定范圍內(nèi)和對圖、表進(jìn)行檢索和導(dǎo)出數(shù)據(jù)。文檔編號G06F17/30GK101794278SQ20091019250公開日2010年8月4日申請日期2009年9月21日優(yōu)先權(quán)日2009年9月21日發(fā)明者劉華,張曉丹,毛君浩,陳洪江,黎東初申請人:廣東省標(biāo)準(zhǔn)化研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1