亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)的制作方法

文檔序號:12748003閱讀:398來源:國知局
一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)的制作方法與工藝

本發(fā)明涉及一種電力系統(tǒng)領(lǐng)域的方法,具體講涉及一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)。



背景技術(shù):

根據(jù)中國智能電網(wǎng)發(fā)展規(guī)劃,2011—2015年,中國的智能電網(wǎng)進(jìn)入全面建設(shè)階段。2015年,將完成41項智能電網(wǎng)創(chuàng)新示范工程建設(shè)任務(wù),智能電網(wǎng)中用電信息采集系統(tǒng)用戶互動的功能基本實現(xiàn),包括信息互動、電能和業(yè)務(wù)互動。在互動信息的基礎(chǔ)上通過“分時電價”、“階梯電價”和“雙向調(diào)度”等手段“削峰填谷”作用明顯,并實現(xiàn)了在不停電情況下對用戶負(fù)荷進(jìn)行控制進(jìn)而推進(jìn)了有序用電。結(jié)構(gòu)化的客戶互動信息存儲采用服務(wù)器數(shù)據(jù)庫存儲模式,非結(jié)構(gòu)化互動信息的未來的發(fā)展趨勢是基于Hadoop架構(gòu)的電力數(shù)據(jù)中心。一般大中城市的接入電用戶數(shù)達(dá)到百萬數(shù)量級,隨之而來的是海量互動信息,高效、準(zhǔn)確及全面查找信息成為提高工作效率、充分利用數(shù)據(jù)資源的瓶頸。



技術(shù)實現(xiàn)要素:

為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng),可實現(xiàn)用于現(xiàn)階段存儲于單機或企業(yè)局域網(wǎng)共享文件內(nèi)容的搜索,從而實現(xiàn)對客戶信息的準(zhǔn)確查找。

實現(xiàn)上述目的所采用的解決方案為:

一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng),其中,所述搜索引擎系統(tǒng)基于開源搜索引擎solr構(gòu)建,包括電力詞庫模塊、文檔解析模塊、中文分詞模塊、索引庫模塊和檢索接口模塊。

優(yōu)選的,所述電力詞庫模塊的內(nèi)容有兩方面來源,其一參考國家和電力行業(yè)標(biāo)準(zhǔn)以及國際電網(wǎng)技術(shù)委員會的標(biāo)準(zhǔn),將用戶互動信息中常用專業(yè)詞匯歸入詞庫;其二將核心刊物關(guān)鍵詞和采用正規(guī)化分布熵的領(lǐng)域術(shù)語抽取算法抽取“中國電機工程學(xué)報”等摘要中的相關(guān)術(shù)語歸入詞庫。

優(yōu)選的,所述文檔解析模塊負(fù)責(zé)解析文件,從非結(jié)構(gòu)化數(shù)據(jù)如PDF、Word、Excel和PowerPoint等格式的文檔中提取描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等,在進(jìn)一步進(jìn)行語法分析和語言處理即使用TF—IDF(term frequency-inverse document frequency)加權(quán)算法對正文中的詞進(jìn)行評估,選取權(quán)值大于閾值的詞抽取為文檔的 核心詞匯并進(jìn)一步應(yīng)用信息增益方法(Information Gain)優(yōu)選核心詞匯進(jìn)而形成包含內(nèi)容及核心詞匯的文本文件。

利用開源庫中多種資源完成不同格式的文檔處理。例如,Apache POI程序能完成Microsoft Office格式文檔讀和寫的功能。其結(jié)構(gòu)包括:HSSF提供讀寫Microsoft Excel XLS格式檔案的功能;XSSF提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能;HWPF提供讀寫Microsoft Word DOC格式檔案的功能;HSLF提供讀寫Microsoft PowerPoint格式檔案的功能;HDGF提供讀寫Microsoft Visio格式檔案的功能等。PDFBox提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能。

優(yōu)選的,所述中文分詞模塊負(fù)責(zé)運用中文分詞算法,將文本文件內(nèi)容進(jìn)行全文分詞,將分詞結(jié)果逐個和電力詞庫中標(biāo)準(zhǔn)化術(shù)語比對,刪除詞庫中沒有的分詞,使用電力詞庫的標(biāo)準(zhǔn)詞語,形成索引文件,中文分詞采用“IK Analyzer”工具包,建立索引數(shù)據(jù)庫和搜索時分詞時,都需要和電力詞庫標(biāo)準(zhǔn)庫比對,這樣建立起來的索引數(shù)據(jù)庫容易被使用相同標(biāo)準(zhǔn)詞庫的搜索引擎搜索到。

優(yōu)選的,所述索引庫模塊通過互動信息數(shù)據(jù)預(yù)處理使用數(shù)字簽名算法消重,使用相量空間模型(VSM:Vector Space Model)表示文本的特征信息,建立索引數(shù)據(jù)庫,為用戶搜索提供檢索源;

所述索引庫模塊的索引文件包含索引詞及索引目錄。

有別于其他專題搜索引擎,本系統(tǒng)在形成索引庫時的特點是,索引詞是基于電力詞庫建立,從而形成標(biāo)準(zhǔn)化的索引庫。

優(yōu)選的,所述檢索接口模塊是用戶使用的接口,接受用戶的輸入并輸出查詢結(jié)果。檢索時將輸入的檢索詞分詞后形成關(guān)鍵詞,分詞器分析關(guān)鍵詞,進(jìn)行解析并同電力詞庫對照,形成多個搜索詞,然后對索引文件進(jìn)行搜索,并對結(jié)果進(jìn)行排序輸出給用戶。

有別于其他搜索引擎,本系統(tǒng)在檢索時的特點是,分詞后的關(guān)鍵詞與電力詞庫比對,從而形成標(biāo)準(zhǔn)化的檢索詞。

優(yōu)選的,所述檢索包括:1)建立特征項:對文檔的字、詞、句子建立特征項,Document=D(t1,t2,…tk,…tn),表示為一個維度,其中tk表示第k個特征項;

2)計算特征項的權(quán)重:在一個待檢索對象中,每個特征項都被賦予一個權(quán)重cj,以表示特征項在該文本中的重要程度;

3)建立向量空間模型:在舍棄了各個特征項之間的順序信息之后,一個文本就表示成向 量,即特征空間的一個點;文本d1的表示:V(d1)=(wi1,wi2,……wik,…wim),其中,wik=f(tk,cj)為權(quán)重函數(shù),反映權(quán)重為cj的特征相tk決定文檔di屬于特征集的程度;

4)相似度計算:向量空間模型將所有文檔映射為此文檔的向量空間,從而將文檔信息的匹配問題轉(zhuǎn)化為向量空間中的矢量匹配問題,n維空間中點的距離用向量之間的余弦夾角來度量,即表示了文檔間的相似程度,假設(shè)目標(biāo)文檔為U,查找時和目標(biāo)文檔U比對的某個未知文檔為Vi,夾角越小說明文檔的相似度越高,相似計算公式(1):

其中,wik是未知文檔Vi中第k個特征項的權(quán)重函數(shù),wk是目標(biāo)文檔U中第k個特征項的權(quán)重函數(shù),特征項共有m個即k的取值從1到m;采用詞頻計算權(quán)重函數(shù)即wik=tfk(di)1/2,進(jìn)行歸一化處理:tfk(di)表示第k個特征項在未知文檔Vi中出現(xiàn)的頻率,j的取值從1到m即遍歷所有特征項;dj表示第j項文檔;Wk的計算方法和Wik相同,在目標(biāo)文檔U中采用詞頻計算權(quán)重函數(shù)即wk=tfk(d)1/2,并進(jìn)行歸一化處理:tfk(d)表示第k個特征項在目標(biāo)文檔U中出現(xiàn)的頻率,j的取值從1到m即遍歷所有特征項。

在返回用戶檢索信息時,把相似度從高到低進(jìn)行排序,給出檢索條目。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

本發(fā)明中文分詞技術(shù)和電力詞庫相結(jié)合,建立起標(biāo)準(zhǔn)的索引,搜索時分詞后的關(guān)鍵詞與電力詞庫比對,從而形成標(biāo)準(zhǔn)化的檢索詞,使搜索準(zhǔn)確、全面和快速。

附圖說明

圖1為本發(fā)明的搜索引擎框架圖;

圖2為本發(fā)明的索引框架圖;

圖3為本發(fā)明的檢索框架圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明的具體實施方式做進(jìn)一步的詳細(xì)說明。

本發(fā)明基于開源搜索引擎solr工具包,構(gòu)建一種搜索硬盤文件內(nèi)容的檢索工具,包括電力詞庫模塊、文檔解析模塊、中文分詞模塊、索引庫模塊和檢索接口模塊。電力詞庫模塊建立行業(yè)規(guī)范用語,特別是將用戶互動信息中常用專業(yè)詞庫歸類。文檔解析模塊負(fù)責(zé)解析文件;中文分詞模塊負(fù)責(zé)運用中文分詞算法,將文件內(nèi)容進(jìn)行全文分詞,結(jié)合電力詞庫,建立全文索引。索引庫存儲數(shù)據(jù);檢索接口模塊是用戶使用的接口,接受用戶的輸入并輸出查詢結(jié)果。系統(tǒng)框架如圖1。

文件解析模塊中,從非結(jié)構(gòu)化數(shù)據(jù)如PDF、Word、Excel和PowerPoint等格式的文檔中提取描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等,在進(jìn)一步進(jìn)行語法分析和語言處理進(jìn)而形成索引。利用開源庫中多種資源完成不同格式的文檔處理。例如,Apache POI程序能完成Microsoft Office格式文檔讀和寫的功能。其結(jié)構(gòu)包括:HSSF提供讀寫Microsoft Excel XLS格式檔案的功能;XSSF提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能;HWPF提供讀寫Microsoft Word DOC格式檔案的功能;HSLF提供讀寫Microsoft PowerPoint格式檔案的功能;HDGF提供讀寫Microsoft Visio格式檔案的功能等。PDFBox提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能。

電力詞庫的內(nèi)容主要參考國家和電力行業(yè)標(biāo)準(zhǔn),以及國際電網(wǎng)技術(shù)委員會的標(biāo)準(zhǔn)。由于智能電網(wǎng)是新生事物在不斷完善中,其中的一些常用詞匯需要搜集單獨加入。

中文分詞采用“IK Analyzer”工具包,建立索引數(shù)據(jù)庫和搜索時分詞時,都需要和電力詞庫標(biāo)準(zhǔn)庫比對,這樣建立起來的索引數(shù)據(jù)庫容易被使用相同標(biāo)準(zhǔn)詞庫的搜索引擎搜索到。

索引框架如圖2。Word,Excel,Txt,Pdf等硬盤中存儲的不同類型的文件應(yīng)用相應(yīng)的工具包從文件中提取文件內(nèi)容形成文本文件送給分詞器,分詞器結(jié)合電力專業(yè)詞庫建立索引文件,索引文件中包含的是文本中提取的關(guān)鍵信息并和電力詞庫比對而建立的關(guān)鍵詞。

有別于其他專題搜索引擎,本系統(tǒng)在形成索引庫時的特點是,索引詞是基于電力詞庫建立,從而形成標(biāo)準(zhǔn)化的索引庫。

檢索框架如圖3。用戶輸入關(guān)鍵詞后,分詞器分析關(guān)鍵詞,進(jìn)行解析并同電力詞庫對照,形成多個搜索詞,然后對索引文件進(jìn)行搜索,并對結(jié)果進(jìn)行排序輸出給用戶。

有別于其他搜索引擎,本系統(tǒng)在檢索時的特點是,分詞后的關(guān)鍵詞與電力詞庫比對,從而形成標(biāo)準(zhǔn)化的檢索詞。

具體實現(xiàn)如下:

1)建立特征項:對文檔的字、詞、句子等建立特征項,Document=D(t1,t2,…tk,…tn),其中tk表示第k個特征項,表示為一個維度。具體地,可以將某個客戶用電繳費信息的付款 單位、付款金額、用戶號碼、客戶地址、項目名稱、電費月份、本次實收、合計人民幣等詞分別作為D(t1,t2,…tk,…tn)中的一個特征項。

2)計算特征項的權(quán)重:在一個待檢索對象中(例如文本),每個特征項都被賦予一個權(quán)重cj,以表示特征項在該文本中的重要程度。具體地,對于用戶關(guān)心的特征項:電費月份、項目名稱、應(yīng)收費用、賬戶余額等賦予較重的權(quán)重,而對于與本次檢索關(guān)系較為稀疏的其他特征項:客戶地址、流水號、委托單位等賦予較少的權(quán)重。

3)建立向量空間模型:在舍棄了各個特征項之間的順序信息之后,一個文本就表示成向量,即特征空間的一個點。如文本d1的表示:V(d1)=(wi1,wi2,……wik,…wim)。其中,wik=f(tk,cj)為權(quán)重函數(shù),反映特征tk決定文檔di是否屬于cj的重要性。

4)相似度計算:向量空間模型將所有文檔映射為此文檔的向量空間,從而將文檔信息的匹配問題轉(zhuǎn)化為向量空間中的矢量匹配問題。n維空間中點的距離用向量之間的余弦夾角來度量,也即表示了文檔間的相似程度。假設(shè)目標(biāo)文檔向量為U,未知文檔為Vi,夾角越小說明文檔的相似度越高,相似計算公式(1):

其中的權(quán)重wik是特征項在文檔中所出現(xiàn)頻率的函數(shù),用tfk(di)表示tk在文檔di中出現(xiàn)的頻率,采用詞頻wik=tfk(di)1/2計算權(quán)重函數(shù),并進(jìn)行歸一化后處理:

在返回用戶檢索信息時,以相似度進(jìn)行排序,給出檢索條目。

最后應(yīng)當(dāng)說明的是:以上實施例僅用于說明本申請的技術(shù)方案而非對其保護(hù)范圍的限制,盡管參照上述實施例對本申請進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:本領(lǐng)域技術(shù)人員閱讀本申請后依然可對申請的具體實施方式進(jìn)行種種變更、修改或者等同替換,但這些變更、修改或者等同替換,均在申請待批的權(quán)利要求保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1