亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的制作方法

文檔序號:8361520閱讀:465來源:國知局
一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎的技術(shù)領(lǐng)域,具體地說是一種對指定非自然人客體發(fā)展過程中的全周期數(shù)據(jù)進(jìn)行的關(guān)聯(lián)分析方法及挖掘引擎的實現(xiàn)技術(shù)。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)時代,數(shù)據(jù)、信息成為重要的企業(yè)資源,在日新月異的海量數(shù)據(jù)里迅速提取有價值信息,同時互聯(lián)網(wǎng)上的信息龐雜且分散,通用搜索引擎已經(jīng)成為人們獲取信息的必要工具,能夠主動搜索信息并能自動索引、提供查詢服務(wù),當(dāng)用戶輸入關(guān)鍵字查詢時,該網(wǎng)站會返回用戶包含該關(guān)鍵字信息的所有網(wǎng)址,并提供通向該信息的鏈接。目前,互聯(lián)網(wǎng)上已經(jīng)存在很多搜索引擎系統(tǒng),但是在功能上和性能上都存在一些缺陷,尤其是在查詢公開信息方面,缺乏關(guān)聯(lián)性和準(zhǔn)確性。
[0003]Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),是一個可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。
[0004]NoSQL,泛指非關(guān)系型的數(shù)據(jù)庫,具有易擴(kuò)展、大數(shù)據(jù)量、高性能、數(shù)據(jù)模型靈活、高可用性等特點。
[0005]微博是一個基于用戶關(guān)系信息分享、傳播以及獲取的平臺,注重時效性和隨意性,微博客更能表達(dá)出每時每刻的思想和最新動態(tài)。
[0006]微信公眾平臺,給個人、企業(yè)和組織提供業(yè)務(wù)服務(wù)與用戶管理能力的全新服務(wù)平臺。
[0007]通過深度挖掘網(wǎng)站、微博、微信等平臺中流動的公開信息以及關(guān)聯(lián)關(guān)系,真實全面客觀的了解非自然人客體的全周期數(shù)據(jù)已經(jīng)成為一種實際的需求;同時,大數(shù)據(jù)生態(tài)系統(tǒng)提供的分布式存儲、計算、NoSQL數(shù)據(jù)庫、數(shù)據(jù)關(guān)聯(lián)分析工具以及數(shù)據(jù)挖掘算法等的日趨成熟,也為公開信的大數(shù)據(jù)挖掘提供了技術(shù)支撐。目前,還沒有成熟的處理基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎。

【發(fā)明內(nèi)容】

[0008]為了克服上述技術(shù)方案的局限性和不足,本發(fā)明提供了一種基于大數(shù)據(jù)的公開信息關(guān)聯(lián)方法及挖掘引擎。
[0009]本發(fā)明所采用的技術(shù)方案是按以下方式實現(xiàn)的,具體步驟如下:
[0010](I)采集互聯(lián)網(wǎng)公開信息,采用直接采集和認(rèn)證采集的方式獲得海量公開信息的數(shù)據(jù)源;
[0011]該引擎采集互聯(lián)網(wǎng)所有的公開信息,涵蓋商業(yè)、專有和公共數(shù)據(jù)集,在遵守數(shù)據(jù)集原有訪問規(guī)則的前提下,通過直接采集和認(rèn)證采集兩種方式最大化獲得公開信息的延伸域及其數(shù)據(jù)源。
[0012](2)多來源匹配系統(tǒng),根據(jù)信息來源的不同(網(wǎng)站、微博、微信、移動應(yīng)用),進(jìn)行信息相應(yīng)樣式的匹配;信息來源的不同,其相應(yīng)的數(shù)據(jù)源模型也不同,網(wǎng)站、微博、微信和移動應(yīng)用客戶端的信息樣式也是不同的的,開發(fā)適應(yīng)多來源的樣式匹配系統(tǒng)。
[0013](3)多格式信息抽取系統(tǒng),根據(jù)信息載體的不同格式,抽取指定的數(shù)據(jù)及要素;平臺整合多來源數(shù)據(jù),將信息樣式不同的信息集置于一個統(tǒng)一的定量分析環(huán)境中。通過構(gòu)建多重模型,簡單的抽取模型成為復(fù)雜模型的組成要素,從而構(gòu)建一個流線型、模塊化的信息抽取流系統(tǒng)。
[0014]格式建模,是數(shù)據(jù)抽取進(jìn)行的基礎(chǔ)。格式模型負(fù)責(zé)對關(guān)鍵信息的識別與轉(zhuǎn)化,其中還包括了對源數(shù)據(jù)的描述信息。這些對象代表的是非自然人客體的社會屬性信息,一個模型可以代表一個機(jī)構(gòu)、一個公司、一個企業(yè)人,任何現(xiàn)實中的自然人客體信息不在此數(shù)據(jù)范圍。
[0015](4)多維關(guān)聯(lián)整析系統(tǒng),依據(jù)公開信息模型的關(guān)聯(lián)指標(biāo),通過去重、去噪、去偽、聚類等操作,對匯總后的數(shù)據(jù)進(jìn)行整合分析;包含多套的關(guān)聯(lián)分析工具,以滿足多維度分析和復(fù)雜關(guān)聯(lián)的需要。
[0016]系統(tǒng)對數(shù)據(jù)進(jìn)行復(fù)合、匯總、轉(zhuǎn)換、比較和聚類等深度學(xué)習(xí)操作,包括絕對變量和相對變量,時間序列和各類數(shù)據(jù)維度。將眾多孤立的數(shù)據(jù)匯集到特定的環(huán)境,再經(jīng)由時間序列以及其他深入的分析推論出有價值的結(jié)果,同時具有實時分析的特性。
[0017](5)專家修正系統(tǒng),基于得到的各項指標(biāo)和數(shù)據(jù)質(zhì)量模型,修正深度學(xué)習(xí)的相關(guān)算法;
[0018]快速迭代結(jié)合微調(diào)分析不斷提升數(shù)據(jù)價值,整個系統(tǒng)因此變得更加聰明,不斷循環(huán)。
[0019](6)可視化展示系統(tǒng),依據(jù)時間序列原則,將非自然人客體的公開信息予以可視化集成展示。系統(tǒng)將多源數(shù)據(jù)整合為一個統(tǒng)一展示的多維度模型,通過豐富的可視化展現(xiàn)形式將抽象變?yōu)橹庇^,為用戶提供一個所關(guān)注客體關(guān)聯(lián)數(shù)據(jù)的全盤審視角度??梢暬故倦S著源數(shù)據(jù)實時更新,用戶在任何時間都能看到最精確最及時的信息。
[0020]同時,對外提供擴(kuò)展性、可定制性和應(yīng)用程序接口,從底層數(shù)據(jù)整合、自定義模型到用戶交互界面來實現(xiàn)特定信息流,被設(shè)計成一個開放平臺。這種特定信息可以分享、鏈接、重組,并不是不可更改的產(chǎn)品,而是一種靈活的可以加入到新工作流中的材料,既可以被迭代,也可以作為材料加入新的分析模型中。
[0021]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
[0022]本發(fā)明研宄一種新的公開信息關(guān)聯(lián)方法和開發(fā)新的數(shù)據(jù)挖掘引擎,對信息的來源特點進(jìn)行追溯性研宄,對信息的載體格式進(jìn)行抽取性分析,并在此基礎(chǔ)上實現(xiàn)海量公開信息的關(guān)聯(lián)整合分析系統(tǒng):以時間為信息序列的整合分析模塊和基于專家修正系統(tǒng)的關(guān)聯(lián)維度模型。這兩個系統(tǒng)相互影響、相互補(bǔ)充形成一套公開信息的數(shù)據(jù)挖掘引擎。
[0023]本發(fā)明的技術(shù)方案可以幫助個人、企業(yè)和機(jī)構(gòu)便捷、動態(tài)感知指定客體發(fā)展過程中的全周期數(shù)據(jù),從而為決策分析、行為預(yù)測提供完善和準(zhǔn)確的數(shù)據(jù)支撐,使得最終數(shù)據(jù)的價值發(fā)揮最大的效用。
【具體實施方式】
[0024]下面結(jié)合附圖對本發(fā)明進(jìn)一步說明。
[0025](I)根據(jù)指定非自然人客體的信息模型,確定互聯(lián)網(wǎng)上公開信息的分布來源,依據(jù)信息源性質(zhì)的不同,如:政府網(wǎng)站、門戶
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1