一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的制作方法

文檔序號：8361520閱讀：465來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的技術(shù)領(lǐng)域，具體地說是一種對指定非自然人客體發(fā)展過程中的全周期數(shù)據(jù)進(jìn)行的關(guān)聯(lián)分析方法及挖掘引擎的實現(xiàn)技術(shù)。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)時代，數(shù)據(jù)、信息成為重要的企業(yè)資源，在日新月異的海量數(shù)據(jù)里迅速提取有價值信息，同時互聯(lián)網(wǎng)上的信息龐雜且分散，通用搜索引擎已經(jīng)成為人們獲取信息的必要工具，能夠主動搜索信息并能自動索引、提供查詢服務(wù)，當(dāng)用戶輸入關(guān)鍵字查詢時，該網(wǎng)站會返回用戶包含該關(guān)鍵字信息的所有網(wǎng)址，并提供通向該信息的鏈接。目前，互聯(lián)網(wǎng)上已經(jīng)存在很多搜索引擎系統(tǒng)，但是在功能上和性能上都存在一些缺陷，尤其是在查詢公開信息方面，缺乏關(guān)聯(lián)性和準(zhǔn)確性。
[0003]Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu)，是一個可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。
[0004]NoSQL，泛指非關(guān)系型的數(shù)據(jù)庫，具有易擴(kuò)展、大數(shù)據(jù)量、高性能、數(shù)據(jù)模型靈活、高可用性等特點。
[0005]微博是一個基于用戶關(guān)系信息分享、傳播以及獲取的平臺，注重時效性和隨意性，微博客更能表達(dá)出每時每刻的思想和最新動態(tài)。
[0006]微信公眾平臺，給個人、企業(yè)和組織提供業(yè)務(wù)服務(wù)與用戶管理能力的全新服務(wù)平臺。
[0007]通過深度挖掘網(wǎng)站、微博、微信等平臺中流動的公開信息以及關(guān)聯(lián)關(guān)系，真實全面客觀的了解非自然人客體的全周期數(shù)據(jù)已經(jīng)成為一種實際的需求；同時，大數(shù)據(jù)生態(tài)系統(tǒng)提供的分布式存儲、計算、NoSQL數(shù)據(jù)庫、數(shù)據(jù)關(guān)聯(lián)分析工具以及數(shù)據(jù)挖掘算法等的日趨成熟，也為公開信的大數(shù)據(jù)挖掘提供了技術(shù)支撐。目前，還沒有成熟的處理基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎。

【發(fā)明內(nèi)容】

[0008]為了克服上述技術(shù)方案的局限性和不足，本發(fā)明提供了一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎。
[0009]本發(fā)明所采用的技術(shù)方案是按以下方式實現(xiàn)的，具體步驟如下:
[0010](I)采集互聯(lián)網(wǎng)公開信息，采用直接采集和認(rèn)證采集的方式獲得海量公開信息的數(shù)據(jù)源；
[0011]該引擎采集互聯(lián)網(wǎng)所有的公開信息，涵蓋商業(yè)、專有和公共數(shù)據(jù)集，在遵守數(shù)據(jù)集原有訪問規(guī)則的前提下，通過直接采集和認(rèn)證采集兩種方式最大化獲得公開信息的延伸域及其數(shù)據(jù)源。
[0012](2)多來源匹配系統(tǒng)，根據(jù)信息來源的不同(網(wǎng)站、微博、微信、移動應(yīng)用)，進(jìn)行信息相應(yīng)樣式的匹配；信息來源的不同，其相應(yīng)的數(shù)據(jù)源模型也不同，網(wǎng)站、微博、微信和移動應(yīng)用客戶端的信息樣式也是不同的的，開發(fā)適應(yīng)多來源的樣式匹配系統(tǒng)。
[0013](3)多格式信息抽取系統(tǒng)，根據(jù)信息載體的不同格式，抽取指定的數(shù)據(jù)及要素；平臺整合多來源數(shù)據(jù)，將信息樣式不同的信息集置于一個統(tǒng)一的定量分析環(huán)境中。通過構(gòu)建多重模型，簡單的抽取模型成為復(fù)雜模型的組成要素，從而構(gòu)建一個流線型、模塊化的信息抽取流系統(tǒng)。
[0014]格式建模，是數(shù)據(jù)抽取進(jìn)行的基礎(chǔ)。格式模型負(fù)責(zé)對關(guān)鍵信息的識別與轉(zhuǎn)化，其中還包括了對源數(shù)據(jù)的描述信息。這些對象代表的是非自然人客體的社會屬性信息，一個模型可以代表一個機(jī)構(gòu)、一個公司、一個企業(yè)人，任何現(xiàn)實中的自然人客體信息不在此數(shù)據(jù)范圍。
[0015](4)多維關(guān)聯(lián)整析系統(tǒng)，依據(jù)公開信息模型的關(guān)聯(lián)指標(biāo)，通過去重、去噪、去偽、聚類等操作，對匯總后的數(shù)據(jù)進(jìn)行整合分析；包含多套的關(guān)聯(lián)分析工具，以滿足多維度分析和復(fù)雜關(guān)聯(lián)的需要。
[0016]系統(tǒng)對數(shù)據(jù)進(jìn)行復(fù)合、匯總、轉(zhuǎn)換、比較和聚類等深度學(xué)習(xí)操作，包括絕對變量和相對變量，時間序列和各類數(shù)據(jù)維度。將眾多孤立的數(shù)據(jù)匯集到特定的環(huán)境，再經(jīng)由時間序列以及其他深入的分析推論出有價值的結(jié)果，同時具有實時分析的特性。
[0017](5)專家修正系統(tǒng)，基于得到的各項指標(biāo)和數(shù)據(jù)質(zhì)量模型，修正深度學(xué)習(xí)的相關(guān)算法;
[0018]快速迭代結(jié)合微調(diào)分析不斷提升數(shù)據(jù)價值，整個系統(tǒng)因此變得更加聰明，不斷循環(huán)。
[0019](6)可視化展示系統(tǒng)，依據(jù)時間序列原則，將非自然人客體的公開信息予以可視化集成展示。系統(tǒng)將多源數(shù)據(jù)整合為一個統(tǒng)一展示的多維度模型，通過豐富的可視化展現(xiàn)形式將抽象變?yōu)橹庇^，為用戶提供一個所關(guān)注客體關(guān)聯(lián)數(shù)據(jù)的全盤審視角度?？梢暬故倦S著源數(shù)據(jù)實時更新，用戶在任何時間都能看到最精確最及時的信息。
[0020]同時，對外提供擴(kuò)展性、可定制性和應(yīng)用程序接口，從底層數(shù)據(jù)整合、自定義模型到用戶交互界面來實現(xiàn)特定信息流，被設(shè)計成一個開放平臺。這種特定信息可以分享、鏈接、重組，并不是不可更改的產(chǎn)品，而是一種靈活的可以加入到新工作流中的材料，既可以被迭代，也可以作為材料加入新的分析模型中。
[0021]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點:
[0022]本發(fā)明研宄一種新的公開信息關(guān)聯(lián)方法和開發(fā)新的數(shù)據(jù)挖掘引擎，對信息的來源特點進(jìn)行追溯性研宄，對信息的載體格式進(jìn)行抽取性分析，并在此基礎(chǔ)上實現(xiàn)海量公開信息的關(guān)聯(lián)整合分析系統(tǒng):以時間為信息序列的整合分析模塊和基于專家修正系統(tǒng)的關(guān)聯(lián)維度模型。這兩個系統(tǒng)相互影響、相互補(bǔ)充形成一套公開信息的數(shù)據(jù)挖掘引擎。
[0023]本發(fā)明的技術(shù)方案可以幫助個人、企業(yè)和機(jī)構(gòu)便捷、動態(tài)感知指定客體發(fā)展過程中的全周期數(shù)據(jù)，從而為決策分析、行為預(yù)測提供完善和準(zhǔn)確的數(shù)據(jù)支撐，使得最終數(shù)據(jù)的價值發(fā)揮最大的效用。
【具體實施方式】
[0024]下面結(jié)合附圖對本發(fā)明進(jìn)一步說明。
[0025](I)根據(jù)指定非自然人客體的信息模型，確定互聯(lián)網(wǎng)上公開信息的分布來源，依據(jù)信息源性質(zhì)的不同，如:政府網(wǎng)站、門戶

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：不公告發(fā)明人;
技術(shù)所有人：北京得大信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

大數(shù)據(jù)關(guān)聯(lián)分析方法相關(guān)技術(shù)

數(shù)據(jù)關(guān)聯(lián)方法相關(guān)技術(shù)

excel關(guān)聯(lián)表格數(shù)據(jù)相關(guān)技術(shù)

數(shù)據(jù)庫表關(guān)聯(lián)相關(guān)技術(shù)

數(shù)據(jù)關(guān)聯(lián)分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的制作方法