一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)的制作方法

文檔序號：12748003閱讀：398來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)的制作方法與工藝

本發(fā)明涉及一種電力系統(tǒng)領(lǐng)域的方法，具體講涉及一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)。

背景技術(shù)：

根據(jù)中國智能電網(wǎng)發(fā)展規(guī)劃，2011—2015年，中國的智能電網(wǎng)進(jìn)入全面建設(shè)階段。2015年，將完成41項智能電網(wǎng)創(chuàng)新示范工程建設(shè)任務(wù)，智能電網(wǎng)中用電信息采集系統(tǒng)用戶互動的功能基本實現(xiàn)，包括信息互動、電能和業(yè)務(wù)互動。在互動信息的基礎(chǔ)上通過“分時電價”、“階梯電價”和“雙向調(diào)度”等手段“削峰填谷”作用明顯，并實現(xiàn)了在不停電情況下對用戶負(fù)荷進(jìn)行控制進(jìn)而推進(jìn)了有序用電。結(jié)構(gòu)化的客戶互動信息存儲采用服務(wù)器數(shù)據(jù)庫存儲模式，非結(jié)構(gòu)化互動信息的未來的發(fā)展趨勢是基于Hadoop架構(gòu)的電力數(shù)據(jù)中心。一般大中城市的接入電用戶數(shù)達(dá)到百萬數(shù)量級，隨之而來的是海量互動信息，高效、準(zhǔn)確及全面查找信息成為提高工作效率、充分利用數(shù)據(jù)資源的瓶頸。

技術(shù)實現(xiàn)要素：

為克服上述現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)，可實現(xiàn)用于現(xiàn)階段存儲于單機或企業(yè)局域網(wǎng)共享文件內(nèi)容的搜索，從而實現(xiàn)對客戶信息的準(zhǔn)確查找。

實現(xiàn)上述目的所采用的解決方案為：

一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)，其中，所述搜索引擎系統(tǒng)基于開源搜索引擎solr構(gòu)建，包括電力詞庫模塊、文檔解析模塊、中文分詞模塊、索引庫模塊和檢索接口模塊。

優(yōu)選的，所述電力詞庫模塊的內(nèi)容有兩方面來源，其一參考國家和電力行業(yè)標(biāo)準(zhǔn)以及國際電網(wǎng)技術(shù)委員會的標(biāo)準(zhǔn)，將用戶互動信息中常用專業(yè)詞匯歸入詞庫；其二將核心刊物關(guān)鍵詞和采用正規(guī)化分布熵的領(lǐng)域術(shù)語抽取算法抽取“中國電機工程學(xué)報”等摘要中的相關(guān)術(shù)語歸入詞庫。

優(yōu)選的，所述文檔解析模塊負(fù)責(zé)解析文件，從非結(jié)構(gòu)化數(shù)據(jù)如PDF、Word、Excel和PowerPoint等格式的文檔中提取描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等，在進(jìn)一步進(jìn)行語法分析和語言處理即使用TF—IDF(term frequency-inverse document frequency)加權(quán)算法對正文中的詞進(jìn)行評估，選取權(quán)值大于閾值的詞抽取為文檔的核心詞匯并進(jìn)一步應(yīng)用信息增益方法(Information Gain)優(yōu)選核心詞匯進(jìn)而形成包含內(nèi)容及核心詞匯的文本文件。

利用開源庫中多種資源完成不同格式的文檔處理。例如,Apache POI程序能完成Microsoft Office格式文檔讀和寫的功能。其結(jié)構(gòu)包括:HSSF提供讀寫Microsoft Excel XLS格式檔案的功能；XSSF提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能；HWPF提供讀寫Microsoft Word DOC格式檔案的功能；HSLF提供讀寫Microsoft PowerPoint格式檔案的功能；HDGF提供讀寫Microsoft Visio格式檔案的功能等。PDFBox提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能。

優(yōu)選的，所述中文分詞模塊負(fù)責(zé)運用中文分詞算法，將文本文件內(nèi)容進(jìn)行全文分詞，將分詞結(jié)果逐個和電力詞庫中標(biāo)準(zhǔn)化術(shù)語比對，刪除詞庫中沒有的分詞，使用電力詞庫的標(biāo)準(zhǔn)詞語，形成索引文件,中文分詞采用“IK Analyzer”工具包，建立索引數(shù)據(jù)庫和搜索時分詞時，都需要和電力詞庫標(biāo)準(zhǔn)庫比對，這樣建立起來的索引數(shù)據(jù)庫容易被使用相同標(biāo)準(zhǔn)詞庫的搜索引擎搜索到。

優(yōu)選的，所述索引庫模塊通過互動信息數(shù)據(jù)預(yù)處理使用數(shù)字簽名算法消重，使用相量空間模型(VSM:Vector Space Model)表示文本的特征信息，建立索引數(shù)據(jù)庫，為用戶搜索提供檢索源；

所述索引庫模塊的索引文件包含索引詞及索引目錄。

有別于其他專題搜索引擎，本系統(tǒng)在形成索引庫時的特點是，索引詞是基于電力詞庫建立，從而形成標(biāo)準(zhǔn)化的索引庫。

優(yōu)選的，所述檢索接口模塊是用戶使用的接口，接受用戶的輸入并輸出查詢結(jié)果。檢索時將輸入的檢索詞分詞后形成關(guān)鍵詞，分詞器分析關(guān)鍵詞，進(jìn)行解析并同電力詞庫對照，形成多個搜索詞，然后對索引文件進(jìn)行搜索，并對結(jié)果進(jìn)行排序輸出給用戶。

有別于其他搜索引擎，本系統(tǒng)在檢索時的特點是，分詞后的關(guān)鍵詞與電力詞庫比對，從而形成標(biāo)準(zhǔn)化的檢索詞。

優(yōu)選的，所述檢索包括：1)建立特征項：對文檔的字、詞、句子建立特征項，Document＝D(t₁,t₂,…t_k,…t_n)，表示為一個維度，其中t_k表示第k個特征項；

2)計算特征項的權(quán)重：在一個待檢索對象中，每個特征項都被賦予一個權(quán)重c_j，以表示特征項在該文本中的重要程度；

3)建立向量空間模型：在舍棄了各個特征項之間的順序信息之后，一個文本就表示成向量，即特征空間的一個點；文本d₁的表示：V(d₁)＝(w_i1，w_i2，……w_ik，…w_im),其中，w_ik＝f(t_k，c_j)為權(quán)重函數(shù)，反映權(quán)重為c_j的特征相t_k決定文檔d_i屬于特征集的程度；

4)相似度計算：向量空間模型將所有文檔映射為此文檔的向量空間，從而將文檔信息的匹配問題轉(zhuǎn)化為向量空間中的矢量匹配問題，n維空間中點的距離用向量之間的余弦夾角來度量，即表示了文檔間的相似程度，假設(shè)目標(biāo)文檔為U，查找時和目標(biāo)文檔U比對的某個未知文檔為V_i，夾角越小說明文檔的相似度越高，相似計算公式(1)：

其中，w_ik是未知文檔V_i中第k個特征項的權(quán)重函數(shù)，w_k是目標(biāo)文檔U中第k個特征項的權(quán)重函數(shù)，特征項共有m個即k的取值從1到m；采用詞頻計算權(quán)重函數(shù)即w_ik＝tf_k(d_i)^1/2，進(jìn)行歸一化處理：tf_k(d_i)表示第k個特征項在未知文檔V_i中出現(xiàn)的頻率，j的取值從1到m即遍歷所有特征項；d_j表示第j項文檔；Wk的計算方法和Wik相同，在目標(biāo)文檔U中采用詞頻計算權(quán)重函數(shù)即w_k＝tf_k(d)^1/2，并進(jìn)行歸一化處理：tf_k(d)表示第k個特征項在目標(biāo)文檔U中出現(xiàn)的頻率，j的取值從1到m即遍歷所有特征項。

在返回用戶檢索信息時，把相似度從高到低進(jìn)行排序，給出檢索條目。

與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

本發(fā)明中文分詞技術(shù)和電力詞庫相結(jié)合，建立起標(biāo)準(zhǔn)的索引，搜索時分詞后的關(guān)鍵詞與電力詞庫比對，從而形成標(biāo)準(zhǔn)化的檢索詞，使搜索準(zhǔn)確、全面和快速。

附圖說明

圖1為本發(fā)明的搜索引擎框架圖；

圖2為本發(fā)明的索引框架圖；

圖3為本發(fā)明的檢索框架圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明的具體實施方式做進(jìn)一步的詳細(xì)說明。

本發(fā)明基于開源搜索引擎solr工具包，構(gòu)建一種搜索硬盤文件內(nèi)容的檢索工具，包括電力詞庫模塊、文檔解析模塊、中文分詞模塊、索引庫模塊和檢索接口模塊。電力詞庫模塊建立行業(yè)規(guī)范用語，特別是將用戶互動信息中常用專業(yè)詞庫歸類。文檔解析模塊負(fù)責(zé)解析文件；中文分詞模塊負(fù)責(zé)運用中文分詞算法，將文件內(nèi)容進(jìn)行全文分詞，結(jié)合電力詞庫，建立全文索引。索引庫存儲數(shù)據(jù)；檢索接口模塊是用戶使用的接口，接受用戶的輸入并輸出查詢結(jié)果。系統(tǒng)框架如圖1。

文件解析模塊中，從非結(jié)構(gòu)化數(shù)據(jù)如PDF、Word、Excel和PowerPoint等格式的文檔中提取描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等，在進(jìn)一步進(jìn)行語法分析和語言處理進(jìn)而形成索引。利用開源庫中多種資源完成不同格式的文檔處理。例如,Apache POI程序能完成Microsoft Office格式文檔讀和寫的功能。其結(jié)構(gòu)包括:HSSF提供讀寫Microsoft Excel XLS格式檔案的功能；XSSF提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能；HWPF提供讀寫Microsoft Word DOC格式檔案的功能；HSLF提供讀寫Microsoft PowerPoint格式檔案的功能；HDGF提供讀寫Microsoft Visio格式檔案的功能等。PDFBox提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能。

電力詞庫的內(nèi)容主要參考國家和電力行業(yè)標(biāo)準(zhǔn)，以及國際電網(wǎng)技術(shù)委員會的標(biāo)準(zhǔn)。由于智能電網(wǎng)是新生事物在不斷完善中，其中的一些常用詞匯需要搜集單獨加入。

中文分詞采用“IK Analyzer”工具包，建立索引數(shù)據(jù)庫和搜索時分詞時，都需要和電力詞庫標(biāo)準(zhǔn)庫比對，這樣建立起來的索引數(shù)據(jù)庫容易被使用相同標(biāo)準(zhǔn)詞庫的搜索引擎搜索到。

索引框架如圖2。Word，Excel，Txt，Pdf等硬盤中存儲的不同類型的文件應(yīng)用相應(yīng)的工具包從文件中提取文件內(nèi)容形成文本文件送給分詞器，分詞器結(jié)合電力專業(yè)詞庫建立索引文件，索引文件中包含的是文本中提取的關(guān)鍵信息并和電力詞庫比對而建立的關(guān)鍵詞。

有別于其他專題搜索引擎，本系統(tǒng)在形成索引庫時的特點是，索引詞是基于電力詞庫建立，從而形成標(biāo)準(zhǔn)化的索引庫。

檢索框架如圖3。用戶輸入關(guān)鍵詞后，分詞器分析關(guān)鍵詞，進(jìn)行解析并同電力詞庫對照，形成多個搜索詞，然后對索引文件進(jìn)行搜索，并對結(jié)果進(jìn)行排序輸出給用戶。

有別于其他搜索引擎，本系統(tǒng)在檢索時的特點是，分詞后的關(guān)鍵詞與電力詞庫比對，從而形成標(biāo)準(zhǔn)化的檢索詞。

具體實現(xiàn)如下:

1)建立特征項：對文檔的字、詞、句子等建立特征項，Document＝D(t₁,t₂,…t_k,…t_n)，其中t_k表示第k個特征項，表示為一個維度。具體地，可以將某個客戶用電繳費信息的付款單位、付款金額、用戶號碼、客戶地址、項目名稱、電費月份、本次實收、合計人民幣等詞分別作為D(t₁,t₂,…t_k,…t_n)中的一個特征項。

2)計算特征項的權(quán)重：在一個待檢索對象中(例如文本)，每個特征項都被賦予一個權(quán)重c_j，以表示特征項在該文本中的重要程度。具體地，對于用戶關(guān)心的特征項：電費月份、項目名稱、應(yīng)收費用、賬戶余額等賦予較重的權(quán)重，而對于與本次檢索關(guān)系較為稀疏的其他特征項：客戶地址、流水號、委托單位等賦予較少的權(quán)重。

3)建立向量空間模型：在舍棄了各個特征項之間的順序信息之后，一個文本就表示成向量，即特征空間的一個點。如文本d₁的表示：V(d₁)＝(w_i1，w_i2，……w_ik，…w_im)。其中，w_ik＝f(t_k，c_j)為權(quán)重函數(shù)，反映特征t_k決定文檔d_i是否屬于c_j的重要性。

4)相似度計算：向量空間模型將所有文檔映射為此文檔的向量空間，從而將文檔信息的匹配問題轉(zhuǎn)化為向量空間中的矢量匹配問題。n維空間中點的距離用向量之間的余弦夾角來度量，也即表示了文檔間的相似程度。假設(shè)目標(biāo)文檔向量為U，未知文檔為V_i，夾角越小說明文檔的相似度越高，相似計算公式(1)：

其中的權(quán)重w_ik是特征項在文檔中所出現(xiàn)頻率的函數(shù)，用tf_k(d_i)表示t_k在文檔d_i中出現(xiàn)的頻率，采用詞頻w_ik＝tf_k(d_i)^1/2計算權(quán)重函數(shù)，并進(jìn)行歸一化后處理：

在返回用戶檢索信息時，以相似度進(jìn)行排序，給出檢索條目。

最后應(yīng)當(dāng)說明的是:以上實施例僅用于說明本申請的技術(shù)方案而非對其保護(hù)范圍的限制,盡管參照上述實施例對本申請進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:本領(lǐng)域技術(shù)人員閱讀本申請后依然可對申請的具體實施方式進(jìn)行種種變更、修改或者等同替換，但這些變更、修改或者等同替換，均在申請待批的權(quán)利要求保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉宣;徐英輝;祝恩國;李造利;竇健;阿遼沙.葉;章宏偉;
技術(shù)所有人：中國電力科學(xué)研究院;國家電網(wǎng)公司;天津大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用電信息采集系統(tǒng)相關(guān)技術(shù)

電力信息采集系統(tǒng)相關(guān)技術(shù)

用電信息采集系統(tǒng)缺點相關(guān)技術(shù)

用電信息采集系統(tǒng)演變相關(guān)技術(shù)

用電信息采集系統(tǒng)作用相關(guān)技術(shù)

用電信息采集系統(tǒng)架構(gòu)相關(guān)技術(shù)

用電信息采集系統(tǒng)培訓(xùn)相關(guān)技術(shù)

用戶用電信息采集系統(tǒng)相關(guān)技術(shù)

電能信息采集系統(tǒng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于用電信息采集系統(tǒng)的客戶互動信息搜索引擎系統(tǒng)的制作方法