亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種結(jié)構(gòu)化文檔的生成方法和系統(tǒng)的制作方法

文檔序號:8430832閱讀:721來源:國知局
一種結(jié)構(gòu)化文檔的生成方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息處理和檢索技術(shù)領(lǐng)域,具體涉及一種結(jié)構(gòu)化文檔的生成方法和系 統(tǒng)。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)的普及,信息已成為生活和工作必不可少的組成部分。龐大的信息量,需 要更加有效的信息處理技術(shù),而對龐大信息量的利用,則需要高效的信息檢索技術(shù)。文檔, 作為一種傳統(tǒng)的信息存儲方式,承載了大量、種類繁多的信息。各級政府,以及行業(yè)領(lǐng)域都 存在大量的文檔資料,但絕大多數(shù)機構(gòu)或組織的文檔資料仍是以非結(jié)構(gòu)化文本形式存在, 尤其中各家單位的業(yè)素材只能以非結(jié)構(gòu)化文檔的方式進(jìn)行保存。這種形式不利于文檔資 料內(nèi)容的理解與宣貫,更不利于長期穩(wěn)定的推廣與實施,很難表現(xiàn)出其應(yīng)用的利用價值。同 時,對于非結(jié)構(gòu)化文檔而言,無論是閱讀或是檢索均不方便,很難發(fā)揮出這些非結(jié)構(gòu)化文檔 應(yīng)有的價值。
[0003] 因此,迫切需要對這些非結(jié)構(gòu)化文檔進(jìn)行向結(jié)構(gòu)化文檔的轉(zhuǎn)化,將非結(jié)構(gòu)化文檔 轉(zhuǎn)化為最貼近原來文檔意思表達(dá)的結(jié)構(gòu)化文檔,并對這些結(jié)構(gòu)化文檔進(jìn)行管理,從而更加 有效、方便的完成對所需信息的讀取和檢索。
[0004] 目前,現(xiàn)有技術(shù)中對非結(jié)構(gòu)化文檔的處理方式,大多僅能針對非結(jié)構(gòu)化文檔的版 本、編號等周邊信息進(jìn)行結(jié)構(gòu)化處理,實現(xiàn)非結(jié)構(gòu)化文檔向結(jié)構(gòu)化文檔的轉(zhuǎn)換,很難涉及到 非結(jié)構(gòu)化文檔本身的描述內(nèi)容,因此,現(xiàn)有技術(shù)無法真正實現(xiàn)對文檔的內(nèi)容處理和檢索。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例的目的是提供一種結(jié)構(gòu)化文檔的生成方法和系統(tǒng),通過基于自定義 規(guī)則,將非結(jié)構(gòu)化文檔生成或轉(zhuǎn)換為結(jié)構(gòu)化文檔,形成一套完整的結(jié)構(gòu)化文檔,通過結(jié)構(gòu)化 文檔實現(xiàn)對原有的非結(jié)構(gòu)化文檔內(nèi)容的管理和應(yīng)用。
[0006] 根據(jù)本發(fā)明的一個方面,提供了一種結(jié)構(gòu)化文檔的生成方法,所述方法包括: 采集非結(jié)構(gòu)化文檔; 提取所述非結(jié)構(gòu)化文檔的屬性; 設(shè)定并提取所述非結(jié)構(gòu)化文檔的關(guān)鍵詞; 利用所述屬性和所述關(guān)鍵詞構(gòu)建與所述非結(jié)構(gòu)化文檔對應(yīng)的結(jié)構(gòu)化文檔。
[0007] 上述方案中,所述設(shè)定并提取所述非結(jié)構(gòu)化文檔的關(guān)鍵詞,進(jìn)一步包括: 預(yù)設(shè)自定義規(guī)則,在所述規(guī)則中預(yù)設(shè)關(guān)鍵詞的級別; 根據(jù)所述自定義規(guī)則從所述非結(jié)構(gòu)化文檔中提取關(guān)鍵詞。
[0008] 上述方案中,所述關(guān)鍵詞的級別包括:首要關(guān)鍵詞級別、次要關(guān)鍵詞級別、一般關(guān) 鍵詞級別。
[0009] 上述方案中,所述非結(jié)構(gòu)化文檔的屬性至少包括:文檔名稱、文檔頁數(shù)、發(fā)布日期、 文檔格式、文檔作者、文檔發(fā)布單位、文檔批準(zhǔn)單位、文檔版本。
[0010] 根據(jù)本發(fā)明的另一個方面,還提供了一種結(jié)構(gòu)化文檔的生成裝置,所述裝置包 括: 采集模塊,用于采集非結(jié)構(gòu)化文檔; 屬性提取模塊,與所述采集模塊相連,用于提取所述非結(jié)構(gòu)化文檔的屬性; 關(guān)鍵詞提取模塊,與所述采集模塊相連,用于設(shè)定并提取所述非結(jié)構(gòu)化文檔的關(guān)鍵 詞; 構(gòu)建模塊,與所述屬性提取模塊和所述關(guān)鍵詞提取模塊相連,用于利用所述屬性和所 述關(guān)鍵詞構(gòu)建與所述非結(jié)構(gòu)化文檔對應(yīng)的結(jié)構(gòu)化文檔。
[0011] 上述方案中,所述關(guān)鍵詞提取模塊包括: 規(guī)則預(yù)設(shè)子模塊,用于預(yù)設(shè)自定義規(guī)則,在所述規(guī)則中預(yù)設(shè)關(guān)鍵詞的級別; 提取子模塊,用于根據(jù)所述自定義規(guī)則從所述非結(jié)構(gòu)化文檔中提取關(guān)鍵詞。
[0012] 上述方案中,所述關(guān)鍵詞的級別包括:首要關(guān)鍵詞級別、次要關(guān)鍵詞級別、一般關(guān) 鍵詞級別。
[0013] 上述方案中,所述非結(jié)構(gòu)化文檔的屬性至少包括:文檔名稱、文檔頁數(shù)、發(fā)布日期、 文檔格式、文檔作者、文檔發(fā)布單位、文檔批準(zhǔn)單位、文檔版本。
[0014] 本文明實施例所公開的結(jié)構(gòu)化文檔生成方法,包括:采集非結(jié)構(gòu)化文檔;提取所 述非結(jié)構(gòu)化文檔的屬性;設(shè)定并提取所述非結(jié)構(gòu)化文檔的關(guān)鍵詞;利用所述屬性和所述關(guān) 鍵詞構(gòu)建與所述非結(jié)構(gòu)化文檔對應(yīng)的結(jié)構(gòu)化文檔。本發(fā)明通過提取非結(jié)構(gòu)化文檔的包括但 不限于文檔名稱、文檔頁數(shù)、發(fā)布日期、文檔格式、文檔作者、文檔發(fā)布單位、文檔批準(zhǔn)單位、 文檔版本等屬性和基于自定義規(guī)則提取的關(guān)鍵詞,并利用所提取的屬性和關(guān)鍵詞來構(gòu)建與 所述非結(jié)構(gòu)化文檔相對應(yīng)的結(jié)構(gòu)化文檔,形成一套完整的結(jié)構(gòu)化文檔,克服了傳統(tǒng)非結(jié)構(gòu) 化文檔普遍以文本形式存在、不利于實際操作和應(yīng)用的缺點,通過結(jié)構(gòu)化文檔實現(xiàn)對原有 的非結(jié)構(gòu)化文檔內(nèi)容的管理和應(yīng)用,更加充分發(fā)揮其應(yīng)用與使用價值。
【附圖說明】
[0015] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0016] 圖1為本發(fā)明第一實施例的結(jié)構(gòu)化文檔的生成方法流程示意圖; 圖2為本發(fā)明第二實施例的結(jié)構(gòu)化文檔的生成方法流程示意圖; 圖3為本發(fā)明第三實施例的結(jié)構(gòu)化文檔的生成裝置結(jié)構(gòu)示意圖; 圖4為圖3所示關(guān)鍵詞提取子模塊的內(nèi)部結(jié)構(gòu)示意圖。
【具體實施方式】
[0017] 本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式"一"、"一 個"、"所述"和"該"也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措 辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加 一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元 件被"連接"或"耦接"到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在 中間元件。此外,這里使用的"連接"或"耦接"可以包括無線連接或耦接。這里使用的措 辭"和/或"包括一個或更多個相關(guān)聯(lián)的列出項的任一單元和全部組合。
[0018] 本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù) 語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該 理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意 義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。
[0019] 為便于對本發(fā)明實施例的理解,下面詳細(xì)描述本發(fā)明的實施方式,通過參考附圖 描述的實施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0020] 本發(fā)明通過提取非結(jié)構(gòu)化文檔的屬性和關(guān)鍵詞,利用所提取的屬性和關(guān)鍵詞來構(gòu) 建與所述非結(jié)構(gòu)化文檔相對應(yīng)的結(jié)構(gòu)化文檔,所述屬性通常包括但不限于文檔名稱、文檔 頁數(shù)、發(fā)布日期、文檔格式、文檔作者、文檔發(fā)布單位、文檔批準(zhǔn)單位、文檔版本等外部基本 屬性,是對原有的非結(jié)構(gòu)化文檔的屬性描述,所述關(guān)鍵詞基于自定義規(guī)則進(jìn)行提取,是對原 有的非結(jié)構(gòu)化文檔的內(nèi)容描述。通過表達(dá)了屬性描述的屬性值和表達(dá)了內(nèi)容描述的關(guān)鍵詞 共同構(gòu)建結(jié)構(gòu)化文檔,形成一套完整的結(jié)構(gòu)化文檔,克服了傳統(tǒng)非結(jié)構(gòu)化文檔普遍以文本 形式存在、不利于實際操作和應(yīng)用的缺點,更加充分發(fā)揮其應(yīng)用與使用價值。下面結(jié)合具體 的實施例及其附圖,對本發(fā)明作詳細(xì)的說明。
[0021] 圖1是本發(fā)明實施例的結(jié)構(gòu)化文檔的生成方法的流程圖。
[0022] 如圖1所示,本實施例的結(jié)構(gòu)化文檔的生成方法,包括如下步
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1