亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法

文檔序號:9200352閱讀:1571來源:國知局
一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,具體地說是實用性強、基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法。
【背景技術(shù)】
[0002]在過去的幾年中,隨著互聯(lián)網(wǎng)的普及,大數(shù)據(jù)憑借超強的數(shù)據(jù)處理分析能力,為各行各業(yè)的人員提供數(shù)據(jù)支持,為企業(yè)高管、政府人員等等提供數(shù)據(jù)參考,極大地增強了決策力、洞察力,以更加具有說服力的數(shù)據(jù)代替了以往的模糊印象,使得決策更加有理、有據(jù)。其中,招標(biāo)和中標(biāo)數(shù)據(jù)對于反映一個區(qū)域市場的活躍性以及對某個公司的綜合示例提供了很好的參考價值。
[0003]據(jù)統(tǒng)計,全國各地省級以及地市級招中標(biāo)網(wǎng)站多達600多個。通過監(jiān)控采集這些網(wǎng)站,每天采集到的數(shù)據(jù)量很大。如何將非結(jié)構(gòu)化的項目公告信息采集并進行結(jié)構(gòu)化存儲是我們所面臨的最大問題。
[0004]在現(xiàn)有的正文文本關(guān)鍵信息提取的研宄過程中,數(shù)據(jù)采集人員往往將文本信息處理的算法或程序作為重點研宄方向以提高數(shù)據(jù)采集效率和準(zhǔn)確度,卻沒有意識到目標(biāo)信息特征值與目標(biāo)信息之間的緊密聯(lián)系。因此,在過去的研宄中,研宄人員往往只是通過對文本中的簡單詞頻進行概率統(tǒng)計。
[0005]基于此,現(xiàn)提供一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法,該方法是伴隨著大數(shù)據(jù)時代的來臨提出的,在大數(shù)據(jù)時代,如何對海量數(shù)據(jù)進行采集、分析、提取并且產(chǎn)生價值,是不得不考慮的一個問題,尤其是提取招投標(biāo)領(lǐng)域的關(guān)鍵信息。由于一個好的特征值庫能夠更好的體現(xiàn)目標(biāo)信息的模式特征和屬性,使得提取效率和準(zhǔn)確度大大提高。故在本發(fā)明提供的方法中,通過目標(biāo)信息的特征值進行目標(biāo)信息提取的提取方式,并不是根據(jù)詞頻來確定目標(biāo)信息的位置,而是根據(jù)目標(biāo)信息的特征值確定目標(biāo)信息的模式,根據(jù)這種模式識別并提取目標(biāo)信息可以有效的提高定位精度并在很大程度上壓縮正文文本的維數(shù)。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種實用性強、基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法。
[0007]一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法,其具體實現(xiàn)過程為: 首先獲取招投標(biāo)公告原文;
進行特征值分析;
正則提取特征值;
將提取的信息存入數(shù)據(jù)庫。
[0008]所述獲取招投標(biāo)公告原文的具體過程為:根據(jù)webclient和htmlunit網(wǎng)絡(luò)爬蟲方法,獲取對應(yīng)頁面的htmlPage,通過page.getBody方法獲取相應(yīng)頁面的body部分源碼和正文。
[0009]所述特征值包括項目名稱特征值、項目編號特征值、時間特征值、招標(biāo)人特征值、代理機構(gòu)提取、中標(biāo)人特征值、中標(biāo)金額特征值,其特征值分析內(nèi)容包括:
項目名稱特征值,為招標(biāo)或中標(biāo)項目的完整名稱,該名稱包括區(qū)域、單位機構(gòu)、采購物品或服務(wù)、采購類型及公告類型;
項目編號特征值,由大小寫字符、_、【、】符號組成的字符串;
時間特征值,包括公告發(fā)布時間、開標(biāo)時間、中標(biāo)時間,分析時采用模糊匹配的特征值模式,首先確定招標(biāo)公告發(fā)布的年份,然后就近提取月份,隨后是日期;
招標(biāo)人特征值,其模式為區(qū)域+機構(gòu)名稱,該機構(gòu)名稱包括公司、交易中心、采購中心; 代理機構(gòu)特征值,其模式為區(qū)域+機構(gòu)名稱,該機構(gòu)名稱包括廳、局、大學(xué);
中標(biāo)人特征值,其模式為區(qū)域+機構(gòu)名稱,該機構(gòu)名稱包括公司、集團、企業(yè);
中標(biāo)金額特征值,表達格式分為大寫和小寫兩種。
[0010]所述正則獲取特征值過程為:通過正則表達式的matchO方法,根據(jù)特征值分析的結(jié)果,對原文使用正則,獲取項目名稱、項目編號信息。
[0011]本發(fā)明的一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法,具有以下優(yōu)占.V.該發(fā)明的一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法通過特征值確定目標(biāo)信息位置,通過語法樹驗證目標(biāo)信息提取的準(zhǔn)確性,大大提高中文文本信息處理效率和準(zhǔn)確度,實用性強,適用范圍廣泛,易于推廣。
【附圖說明】
[0012]附圖1為本發(fā)明的實現(xiàn)流程圖。
【具體實施方式】
[0013]下面結(jié)合附圖及具體實施例對本發(fā)明作進一步說明。
[0014]本發(fā)明的提供一種基于語義分析的招投標(biāo)項目關(guān)鍵信息自動化提取方法,該方法基于銀聯(lián)控件技術(shù)的手機納稅安全支付方法解決了繳稅依賴電腦網(wǎng)上辦稅的地點局限性和大廳辦稅的繁瑣性,而且還保證了手機繳稅的安全可靠性。
[0015]如附圖1所示,該方法的具體實現(xiàn)過程為:
首先獲取招投標(biāo)公告原文;
進行特征值分析;
正則提取特征值;
將提取的信息存入數(shù)據(jù)庫。
[0016]所述獲取招投標(biāo)公告原文的具體過程為:根據(jù)webclient和htmlunit網(wǎng)絡(luò)爬蟲方法,獲取對應(yīng)頁面的htmlPage,通過page.getBody方法獲取相應(yīng)頁面的body部分源碼和正文。
[0017]所述特征值包括項目名稱特征值、項目編號特征值、時間特征值、招標(biāo)人特征值、代理機構(gòu)提取、中標(biāo)人特征值、中標(biāo)金額特征值,其特征值分析內(nèi)容包括:
項目名稱特征值,模式設(shè)計:對于一則招標(biāo)或者中標(biāo)信息來說,一個完整的項目名稱的模式應(yīng)該是“區(qū)域+單位機構(gòu)+ ‘采購’+采購物品或服務(wù)+ ‘的’+采購類型+公告類型”。當(dāng)然,模式并非是唯一的,不同的區(qū)域和代理機構(gòu)的項目名稱命名方式不同,因此我們要對網(wǎng)站進行分類,并為其建立完整的特征值庫。
[0018]項目編號特征值,模式設(shè)計:項目編號是由大小寫字符、”等符號組成的字符串。在網(wǎng)頁結(jié)構(gòu)不規(guī)范的網(wǎng)頁中,窮舉項目編號可能出現(xiàn)的字符,對于不屬于該范圍之內(nèi)的字符進行清空,過濾之后的字符串即為項目編號。
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1