本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,具體地說是一種實用性強、基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法及系統(tǒng)。
背景技術(shù):
隨著計算機和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,在公安行業(yè)各應(yīng)用系統(tǒng)中數(shù)據(jù)儲備越來越豐富,各類人員行為數(shù)據(jù)存在很大的價值,其中人員關(guān)系挖掘勢在必行。
在人員關(guān)系挖掘方面比較流行的技術(shù)是基于關(guān)系網(wǎng)絡(luò)的相關(guān)挖掘,無論是使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫還是使用新興的大數(shù)據(jù)圖計算方式都避免不了計算人員關(guān)系親密度,在親密度的基礎(chǔ)上得出一系列關(guān)系分析結(jié)果。
目前基于公安數(shù)據(jù)的人員關(guān)系親密度計算采用的是行為次數(shù)界定法,依據(jù)行為次數(shù)定義關(guān)系親密度(例如:兩個人共同住宿15次,則二人住宿行為的親密度為15;共同上網(wǎng)次數(shù)20次,則二人上網(wǎng)行為親密度為20)。
但是在公安數(shù)據(jù)多維人員關(guān)系親密度界定問題中,存在兩大難點:
1、公安數(shù)據(jù)多維度,多種人員行為數(shù)據(jù)之間關(guān)系復(fù)雜,傳統(tǒng)的基于關(guān)系行為次數(shù)的關(guān)系親密度計算方法,很難在多種關(guān)系親密度合并時找到合理的權(quán)重;
2、公安數(shù)據(jù)時間跨度很大,在對人員歷史行為數(shù)據(jù)計算關(guān)系親密度時,忽略了關(guān)系親密度的時間衰退問題。
而且在基于公安數(shù)據(jù)的人員關(guān)系親密度行為次數(shù)界定法中,雖然能夠簡單直觀的反映在某種行為關(guān)系中的親密度,但卻無法有效合理計算多維組合關(guān)系的親疏程度(例如:甲和乙的上網(wǎng)行為親密度為20,甲和丙的住宿行為親密度為20,無法判斷甲與乙、丙誰更親密)。
人員關(guān)系是隨著時間的推移而衰減的,但是在親密度行為次數(shù)界定法中并未考慮到,這樣在準確度方面存在不足。
基于此,本發(fā)明提出一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法及系統(tǒng),在親密度行為次數(shù)界定發(fā)的基礎(chǔ)上進行改進,使之能夠適用于多維關(guān)系親密度計算,并兼顧親密度時間衰減問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種實用性強、基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法及系統(tǒng)。
一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法,其實現(xiàn)過程為:
首先獲取關(guān)系人的數(shù)據(jù),計算相互之間的單一關(guān)系親密度,即通過單一行為表示關(guān)系的親疏程度;
然后使用加權(quán)平均算法對多種單一關(guān)系親密度計算得出多維組合關(guān)系親密度,即通過多種行為表示關(guān)系的親疏程度;
對于關(guān)系人,如果一段時間內(nèi)沒有發(fā)現(xiàn)行為關(guān)系,則關(guān)系親密度根據(jù)時間的推移逐漸衰退直至消失,最后得到以線性、指數(shù)或半衰期方式進行衰退的關(guān)系度衰退函數(shù),基于該衰退函數(shù),重新計算關(guān)系人之間的關(guān)系親密度,從而準確獲取關(guān)系人之間的關(guān)系。
獲取的關(guān)系人數(shù)據(jù)是從公安系統(tǒng)數(shù)據(jù)中獲取的,該數(shù)據(jù)獲取基于Zookeeper集群、Hadoop集群、Spark集群架構(gòu)實現(xiàn):底層采用Spark on Yarn的架構(gòu)模式,使用HDFS作為存儲,Spark作為計算框架,數(shù)據(jù)抽取工具使用Flume、Sqoop;然后將包括賓館住宿、網(wǎng)吧上網(wǎng)、常住人口、暫住人口、嫌疑人手機聯(lián)系人的公安內(nèi)部數(shù)據(jù)抽取到Hadoop的HDFS中,抽取過程中進行初步清洗,處理空值、非法數(shù)據(jù),從而得到關(guān)系人的數(shù)據(jù)信息。
所述關(guān)系親密度通過行為關(guān)系來衡量,該行為關(guān)系包括同住、伴住、同上網(wǎng)、同事、同行、同族,其中,
同?。宏P(guān)系人同時住在同一家賓館的同一房間;
伴?。宏P(guān)系人同時住在同一家賓館的兩個房間,同時開房、同時退房,即時間差在N分鐘以內(nèi),該N為小于等于10;
同上網(wǎng):關(guān)系人同時在同一家網(wǎng)吧上網(wǎng),同時上網(wǎng)、同時下網(wǎng),即即時間差在N分鐘以內(nèi),該N為小于等于10;
同事:關(guān)系人有在同一時間段、同一企業(yè)或單位就職的經(jīng)歷;
同行:關(guān)系人同時從一地去另一地,路線相同且同時到達;
同族:關(guān)系人的戶籍信息屬于同一宗族。
計算單一關(guān)系親密度通過以下公式實現(xiàn):
在該公式中,p1、p2代表兩個關(guān)系人,ri代表規(guī)則;
表示p1和p2在規(guī)則ri下的關(guān)系度;
表示p1和p2在規(guī)則ri下的行為次數(shù);
α為本次計算單一關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,該α取值為1;
a為的收縮量,其取值為0-1,用于控制行為次數(shù)對關(guān)系度的增長速度;
b為的偏移量,控制行為次數(shù)對關(guān)系度的偏移量,當(dāng)行為次數(shù)時,才開始計算關(guān)系度,其取值為1到100之間的整數(shù);
對于函數(shù)即親密度d對行為次數(shù)c的函數(shù),當(dāng)行為次數(shù)趨于無窮時,在規(guī)則ri下,p1、p2的關(guān)系度趨于100%,即:
所述多維組合關(guān)系親密度通過以下公式計算:
p1、p2:代表兩個關(guān)系人,ri:代表規(guī)則;
表示p1和p2在的總關(guān)系度;
表示p1和p2在規(guī)則ri下的關(guān)系度;
wi:規(guī)則ri的權(quán)重,wi∈R+;
α:為本次計算多維組合關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,α取值為1;
為p1→p2的所有關(guān)系規(guī)則集合;
對與p1同p2存在的所有規(guī)則當(dāng)都趨于100%時,總關(guān)系度也趨于100%,即:
所述關(guān)系度衰退函數(shù)Weaken(d)為線性、指數(shù)或半衰期方式進行衰退,基于該關(guān)系度衰退函數(shù),對于有時間衰退屬性的規(guī)則,p1、p2的關(guān)系度具體為:
其中為關(guān)系ri的衰退函數(shù),對于無衰退屬性的規(guī)則對于具有衰退屬性的規(guī)則,通過以下算法實現(xiàn):
線性衰退d′=d(1-aT),其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值;
或,指數(shù)衰退d′=aT×d,其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值。
在獲取關(guān)系度衰退函數(shù),完成人員關(guān)系親密度的界定后,還包括建立人員關(guān)系網(wǎng)的步驟,該步驟為使用圖形可視化工具對現(xiàn)有數(shù)據(jù)建立人員關(guān)系網(wǎng)絡(luò),即對歷史數(shù)據(jù)進行關(guān)系親密度計算后,每天對增量數(shù)據(jù)計算關(guān)系親密度,得到與該人員相關(guān)的人員列表,該人員列表按親密度從高到低排名。
一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的系統(tǒng),其結(jié)構(gòu)包括:
數(shù)據(jù)獲取模塊,用于從公安系統(tǒng)數(shù)據(jù)中獲取相關(guān)關(guān)系人之間的數(shù)據(jù),該數(shù)據(jù)是指包括賓館住宿、網(wǎng)吧上網(wǎng)、常住人口、暫住人口、嫌疑人手機聯(lián)系人的公安內(nèi)部數(shù)據(jù),在數(shù)據(jù)獲取時,該模塊還對數(shù)據(jù)進行初步清洗,處理空值、非法數(shù)據(jù);
單一關(guān)系親密度計算模塊,用于將數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)進行單一關(guān)系親密度計算,即通過某一行為關(guān)系獲取關(guān)系人之間的親疏程度,該行為關(guān)系包括同住、伴住、同上網(wǎng)、同事、同行、同族;
多維組合關(guān)系親密度計算模塊,組合計算多種行為關(guān)系,然后綜合查看關(guān)系人之間的親屬程度;
關(guān)系度衰退計算模塊,用于計算關(guān)系人之間根據(jù)時間的推移產(chǎn)生的衰退函數(shù),并基于該衰退函數(shù)計算關(guān)系人之間的關(guān)系度,所述衰退函數(shù)以線性、指數(shù)或半衰期方式進行衰退。
所述單一關(guān)系親密度計算模塊通過以下公式進行計算:
在該公式中,p1、p2代表兩個關(guān)系人,ri代表規(guī)則;
表示p1和p2在規(guī)則ri下的關(guān)系度;
表示p1和p2在規(guī)則ri下的行為次數(shù);
α為本次計算單一關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,該α取值為1;
a為的收縮量,其取值為0-1,用于控制行為次數(shù)對關(guān)系度的增長速度;
b為的偏移量,控制行為次數(shù)對關(guān)系度的偏移量,當(dāng)行為次數(shù)時,才開始計算關(guān)系度,其取值為1到100之間的整數(shù);
對于函數(shù)即親密度d對行為次數(shù)c的函數(shù),當(dāng)行為次數(shù)趨于無窮時,在規(guī)則ri下,p1、p2的關(guān)系度趨于100%,即:
所述多維組合關(guān)系親密度計算模塊通過以下公式計算:
p1、p2:代表兩個關(guān)系人,ri:代表規(guī)則;
表示p1和p2在的總關(guān)系度;
表示p1和p2在規(guī)則ri下的關(guān)系度;
wi:規(guī)則ri的權(quán)重,wi∈R+;
α:為本次計算多維組合關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,α取值為1;
為p1→p2的所有關(guān)系規(guī)則集合;
對與p1同p2存在的所有規(guī)則當(dāng)都趨于100%時,總關(guān)系度也趨于100%,即:
所述關(guān)系度衰退計算模塊計算關(guān)系度通過以下公式實現(xiàn):
其中為關(guān)系ri的衰退函數(shù),對于無衰退屬性的規(guī)則對于具有衰退屬性的規(guī)則,通過以下算法實現(xiàn):
線性衰退d′=d(1-aT),其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值;
或,指數(shù)衰退d′=aT×d,其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值。
所述系統(tǒng)還包括UI展示模塊,該UI展示模塊在獲取關(guān)系度衰退函數(shù),完成人員關(guān)系親密度的界定后,建立人員關(guān)系網(wǎng),使用圖形可視化工具對現(xiàn)有數(shù)據(jù)建立人員關(guān)系網(wǎng)絡(luò),即對歷史數(shù)據(jù)進行關(guān)系親密度計算后,每天對增量數(shù)據(jù)計算關(guān)系親密度,得到與該人員相關(guān)的人員列表,該人員列表按親密度從高到低排名,然后將該排名在UI界面上展示出來。
本發(fā)明的一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法及系統(tǒng),具有以下優(yōu)點:
本發(fā)明提出的一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法及系統(tǒng),相比于使用傳統(tǒng)的人員關(guān)系親密度行為次數(shù)界定法,在計算單一關(guān)系親密度時差異不明顯,但本發(fā)明可以將親密度限定在0~1之間;在計算多維組合關(guān)系親密度時,傳統(tǒng)方法難以勝任,本方法可有效解決這一問題,并將結(jié)果限定在0~1之間;在人員關(guān)系親密度時間衰退問題上,本發(fā)明根據(jù)不同的情況使用線性衰退或指數(shù)衰退的方法控制親密度隨時間的衰退情況,使最終計算結(jié)果更準確合理;在原有基于行為次數(shù)計算關(guān)系親密度方法的基礎(chǔ)上作出改進,適用于多維關(guān)系親密度界定,同時兼顧關(guān)系親密度時間衰退問題的處理,實用性強,適用范圍廣泛,易于推廣。
附圖說明
為了更清楚的說明本發(fā)明實施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
附圖1為本發(fā)明的系統(tǒng)實現(xiàn)示意圖。
附圖2為單一關(guān)系親密度曲線圖。
附圖3為多維關(guān)系親密度曲線圖。
附圖4為線性衰弱圖。
附圖5為指數(shù)衰弱圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步的詳細說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如附圖所示,一種基于程序軸的信息提示系統(tǒng),具體涉及分布式圖計算、算法領(lǐng)域。其中,采用新型親密度計算方法來界定公安數(shù)據(jù)多維人員關(guān)系親密度,與國內(nèi)外已經(jīng)應(yīng)用的基于公安數(shù)據(jù)的親密度計算方法具有差異化的技術(shù)領(lǐng)先性。
實施例1:
一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法,其實現(xiàn)過程為:
首先獲取關(guān)系人的數(shù)據(jù),計算相互之間的單一關(guān)系親密度,即通過單一行為表示關(guān)系的親疏程度;
然后使用加權(quán)平均算法對多種單一關(guān)系親密度計算得出多維組合關(guān)系親密度,即通過多種行為表示關(guān)系的親疏程度;
對于關(guān)系人,如果一段時間內(nèi)沒有發(fā)現(xiàn)行為關(guān)系,則關(guān)系親密度根據(jù)時間的推移逐漸衰退直至消失,最后得到以線性、指數(shù)或半衰期方式進行衰退的關(guān)系度衰退函數(shù),基于該衰退函數(shù),重新計算關(guān)系人之間的關(guān)系親密度,從而準確獲取關(guān)系人之間的關(guān)系。
獲取的關(guān)系人數(shù)據(jù)是從公安系統(tǒng)數(shù)據(jù)中獲取的,該數(shù)據(jù)獲取基于Zookeeper集群、Hadoop集群、Spark集群架構(gòu)實現(xiàn):底層采用Spark on Yarn的架構(gòu)模式,使用HDFS作為存儲,Spark作為計算框架,數(shù)據(jù)抽取工具使用Flume、Sqoop;然后將包括賓館住宿、網(wǎng)吧上網(wǎng)、常住人口、暫住人口、嫌疑人手機聯(lián)系人的公安內(nèi)部數(shù)據(jù)抽取到Hadoop的HDFS中,抽取過程中進行初步清洗,處理空值、非法數(shù)據(jù),從而得到關(guān)系人的數(shù)據(jù)信息。
所述關(guān)系親密度通過行為關(guān)系來衡量,該行為關(guān)系包括同住、伴住、同上網(wǎng)、同事、同行、同族,其中,
同住:關(guān)系人同時住在同一家賓館的同一房間;
伴?。宏P(guān)系人同時住在同一家賓館的兩個房間,同時開房、同時退房,即時間差在N分鐘以內(nèi),該N為小于等于10;
同上網(wǎng):關(guān)系人同時在同一家網(wǎng)吧上網(wǎng),同時上網(wǎng)、同時下網(wǎng),即即時間差在N分鐘以內(nèi),該N為小于等于10;
同事:關(guān)系人有在同一時間段、同一企業(yè)或單位就職的經(jīng)歷;
同行:關(guān)系人同時從一地去另一地,路線相同且同時到達;
同族:關(guān)系人的戶籍信息屬于同一宗族。
計算單一關(guān)系親密度通過以下公式實現(xiàn),圖2為關(guān)系度隨行為次數(shù)變化曲線:
在該公式中,p1、p2代表兩個關(guān)系人,ri代表規(guī)則;
表示p1和p2在規(guī)則ri下的關(guān)系度;
表示p1和p2在規(guī)則ri下的行為次數(shù);
α為本次計算單一關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,該α取值為1;
a為的收縮量,其取值為0-1,用于控制行為次數(shù)對關(guān)系度的增長速度;
b為的偏移量,控制行為次數(shù)對關(guān)系度的偏移量,當(dāng)行為次數(shù)時,才開始計算關(guān)系度,其取值為1到100之間的整數(shù);
對于函數(shù)即親密度d對行為次數(shù)c的函數(shù),當(dāng)行為次數(shù)趨于無窮時,在規(guī)則ri下,p1、p2的關(guān)系度趨于100%,即:
所述多維組合關(guān)系親密度通過以下公式計算,圖3為關(guān)系度隨行為次數(shù)變化曲線:
p1、p2:代表兩個關(guān)系人,ri:代表規(guī)則;
表示p1和p2在的總關(guān)系度;
表示p1和p2在規(guī)則ri下的關(guān)系度;
wi:規(guī)則ri的權(quán)重,wi∈R+;
α:為本次計算多維組合關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,α取值為1;
為p1→p2的所有關(guān)系規(guī)則集合;
對與p1同p2存在的所有規(guī)則當(dāng)都趨于100%時,總關(guān)系度也趨于100%,即:
所述關(guān)系度衰退函數(shù)Weaken(d)為線性、指數(shù)或半衰期方式進行衰退,基于該關(guān)系度衰退函數(shù),對于有時間衰退屬性的規(guī)則,p1、p2的關(guān)系度具體為:
其中為關(guān)系ri的衰退函數(shù),對于無衰退屬性的規(guī)則對于具有衰退屬性的規(guī)則,通過以下算法實現(xiàn):
線性衰退d′=d(1-aT),曲線如圖4所示,其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值;
或,指數(shù)衰退d′=aT×d,曲線如圖5所示,其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值。
進一步的,下面以賓館住宿和網(wǎng)吧上網(wǎng)數(shù)據(jù)為例,計算2維組合關(guān)系親密度,甲、乙同住20次,同上網(wǎng)20次,甲乙關(guān)系親密度計算如下:
同住關(guān)系親密度,其中:b=2、a=0.5、α=0.5。
同上網(wǎng)關(guān)系親密度,其中:b=5、a=0.3、α=0.5。
組合其密度,其中同住權(quán)重w=0.7,同上網(wǎng)權(quán)重w=0.3,時間衰退采用指數(shù)衰退,衰退放縮量a=0.95,時間為近期,時間距離T=0。
因此,通過上述算法計算人與人之間的關(guān)系親密度,無論關(guān)系種類單一或復(fù)雜,最終都能得到一個0~1之間的數(shù),并且考慮到時間衰弱,隨著時間的推移,親密度變小。
實施例2:
一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法,其實現(xiàn)過程為:
首先獲取關(guān)系人的數(shù)據(jù),計算相互之間的單一關(guān)系親密度,即通過某一行為關(guān)系獲取關(guān)系人之間的親疏程度;
然后對關(guān)系人的多維組合關(guān)系親密度進行計算,即通過多種行為關(guān)系獲取關(guān)系人之間的親疏程度;
對于關(guān)系人,如果一段時間內(nèi)沒有發(fā)現(xiàn)行為關(guān)系,則關(guān)系親密度根據(jù)時間的推移逐漸衰退直至消失,最后得到關(guān)系度衰退函數(shù),具體的,對于個體p1、p2,如果一段時間內(nèi)沒有發(fā)現(xiàn)p1→p2的行為,則關(guān)系度根據(jù)時間的推移逐漸衰退直至消失(如對于p1、p2的同等次數(shù)的上網(wǎng)行為,最近的比十年前的行為對p1、p2的關(guān)系度更具影響力),關(guān)系度衰退函數(shù)Weaken(d)可為線性、指數(shù)、半衰期等方式進行衰退?;谠撍ネ撕瘮?shù),重新計算關(guān)系人之間的關(guān)系親密度,從而準確獲取關(guān)系人之間的關(guān)系。
獲取的關(guān)系人數(shù)據(jù)是從公安系統(tǒng)數(shù)據(jù)中獲取的,該數(shù)據(jù)獲取基于以下架構(gòu)實現(xiàn):底層采用Spark on Yarn的架構(gòu)模式,使用HDFS作為存儲,Spark作為計算框架,數(shù)據(jù)抽取工具使用Flume、Sqoop;因此,首先要搭建Zookeeper集群、Hadoop集群、Spark集群,安裝Flume、Sqoop等工具;然后將包括賓館住宿、網(wǎng)吧上網(wǎng)、常住人口、暫住人口、嫌疑人手機聯(lián)系人的公安內(nèi)部數(shù)據(jù)抽取到Hadoop的HDFS中,抽取過程中進行初步清洗,處理空值、非法數(shù)據(jù),從而得到關(guān)系人的數(shù)據(jù)信息。
所述關(guān)系親密度通過行為關(guān)系來衡量,該行為關(guān)系包括同住、伴住、同上網(wǎng)、同事、同行、同族,其中,
同?。簝扇送瑫r住在同一家賓館的同一房間;
伴?。簝扇送瑫r住在同一家賓館的兩個房間,同時開房、同時退房(時間差2分鐘以內(nèi));
同上網(wǎng):兩人同時在同一家網(wǎng)吧上網(wǎng),同時上網(wǎng)、同時下網(wǎng)(時間差2分鐘以內(nèi));
同事:兩人有在同一時間段、同一企業(yè)或單位就職的經(jīng)歷;
同行:兩人同時從一地去另一地,路線相同且同時到達;
同族:兩人的戶籍信息屬于同一宗族。
計算單一關(guān)系親密度通過以下公式實現(xiàn):
在該公式中,p1、p2代表兩個關(guān)系人,ri代表規(guī)則;
表示p1和p2在規(guī)則ri下的關(guān)系度;
表示p1和p2在規(guī)則ri下的行為次數(shù);
α為本次計算單一關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,該α取值為1;
a為的收縮量,其取值為0-1,用于控制行為次數(shù)對關(guān)系度的增長速度;
b為的偏移量,控制行為次數(shù)對關(guān)系度的偏移量,當(dāng)行為次數(shù)時,才開始計算關(guān)系度,其取值為1到100之間的整數(shù);
對于函數(shù)即親密度d對行為次數(shù)c的函數(shù),當(dāng)行為次數(shù)趨于無窮時,在規(guī)則ri下,p1、p2的關(guān)系度趨于100%,即:
所述多維組合關(guān)系親密度通過以下公式計算:
p1、p2:代表兩個關(guān)系人,ri:代表規(guī)則;
表示p1和p2在的總關(guān)系度;
表示p1和p2在規(guī)則ri下的關(guān)系度;
wi:規(guī)則ri的權(quán)重,wi∈R+;
α:為本次計算多維組合關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,α取值為1;
為p1→p2的所有關(guān)系規(guī)則集合;
對與p1同p2存在的所有規(guī)則當(dāng)都趨于100%時,總關(guān)系度也趨于100%,即:
所述關(guān)系度衰退函數(shù)Weaken(d)為線性、指數(shù)或半衰期方式進行衰退,基于該關(guān)系度衰退函數(shù),對于有時間衰退屬性的規(guī)則,p1、p2的關(guān)系度具體為:
其中為關(guān)系ri的衰退函數(shù),對于無衰退屬性的規(guī)則對于具有衰退屬性的規(guī)則,通過以下算法實現(xiàn):
線性衰退d′=d(1-aT),其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值;
或,指數(shù)衰退d′=aT×d,其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值。
因此,通過上述算法計算人與人之間的關(guān)系親密度,無論關(guān)系種類單一或復(fù)雜,最終都能得到一個0~1之間的數(shù),并且考慮到時間衰弱,隨著時間的推移,親密度變小。
在獲取關(guān)系度衰退函數(shù),完成人員關(guān)系親密度的界定后,還包括建立人員關(guān)系網(wǎng)的步驟,該步驟為使用Spark GraphX工具對現(xiàn)有數(shù)據(jù)建立人員關(guān)系網(wǎng)絡(luò)。系統(tǒng)初期需要很長時間對歷史數(shù)據(jù)進行關(guān)系親密度計算,然后每天對增量數(shù)據(jù)計算關(guān)系親密度,在系統(tǒng)中可搜索任意人員的關(guān)系網(wǎng)絡(luò)組成,并得到與該人員相關(guān)的人員列表(按親密度從高到低排名)。
如附圖1所示,一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的系統(tǒng),其結(jié)構(gòu)包括:
數(shù)據(jù)獲取模塊,用于從公安系統(tǒng)數(shù)據(jù)中獲取相關(guān)關(guān)系人之間的數(shù)據(jù),該數(shù)據(jù)是指包括賓館住宿、網(wǎng)吧上網(wǎng)、常住人口、暫住人口、嫌疑人手機聯(lián)系人的公安內(nèi)部數(shù)據(jù),在數(shù)據(jù)獲取時,該模塊還對數(shù)據(jù)進行初步清洗,處理空值、非法數(shù)據(jù);
單一關(guān)系親密度計算模塊,用于將數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)進行單一關(guān)系親密度計算,即通過某一行為關(guān)系獲取關(guān)系人之間的親疏程度,該行為關(guān)系包括同住、伴住、同上網(wǎng)、同事、同行、同族;
多維組合關(guān)系親密度計算模塊,組合計算多種行為關(guān)系,然后綜合查看關(guān)系人之間的親屬程度;
關(guān)系度衰退計算模塊,用于計算關(guān)系人之間根據(jù)時間的推移產(chǎn)生的衰退函數(shù),并基于該衰退函數(shù)計算關(guān)系人之間的關(guān)系度,所述衰退函數(shù)以線性、指數(shù)或半衰期方式進行衰退。
所述單一關(guān)系親密度計算模塊通過以下公式進行計算:
在該公式中,p1、p2代表兩個關(guān)系人,ri代表規(guī)則;
表示p1和p2在規(guī)則ri下的關(guān)系度;
表示p1和p2在規(guī)則ri下的行為次數(shù);
α為本次計算單一關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,該α取值為1;
a為的收縮量,其取值為0-1,用于控制行為次數(shù)對關(guān)系度的增長速度;
b為的偏移量,控制行為次數(shù)對關(guān)系度的偏移量,當(dāng)行為次數(shù)時,才開始計算關(guān)系度,其取值為1到100之間的整數(shù);
對于函數(shù)即親密度d對行為次數(shù)c的函數(shù),當(dāng)行為次數(shù)趨于無窮時,在規(guī)則ri下,p1、p2的關(guān)系度趨于100%,即:
所述多維組合關(guān)系親密度計算模塊通過以下公式計算:
p1、p2:代表兩個關(guān)系人,ri:代表規(guī)則;
表示p1和p2在的總關(guān)系度;
表示p1和p2在規(guī)則ri下的關(guān)系度;
wi:規(guī)則ri的權(quán)重,wi∈R+;
α:為本次計算多維組合關(guān)系親密度時所針對行為次數(shù)占總體行為次數(shù)的百分比,當(dāng)無法獲取總體行為次數(shù)時,α取值為1;
為p1→p2的所有關(guān)系規(guī)則集合;
對與p1同p2存在的所有規(guī)則當(dāng)都趨于100%時,總關(guān)系度也趨于100%,即:
所述關(guān)系度衰退計算模塊計算關(guān)系度通過以下公式實現(xiàn):
其中為關(guān)系ri的衰退函數(shù),對于無衰退屬性的規(guī)則對于具有衰退屬性的規(guī)則,通過以下算法實現(xiàn):
線性衰退d′=d(1-aT),其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值;
或,指數(shù)衰退d′=aT×d,其中,
d:表示為原規(guī)則i的關(guān)系度;
a:表示指定的函數(shù)T的縮放量,其取值為0-1;
T:為對于當(dāng)前規(guī)則d中的行為距離現(xiàn)在發(fā)生的最大時間的差值。
所述系統(tǒng)還包括UI展示模塊,該UI展示模塊在獲取關(guān)系度衰退函數(shù),完成人員關(guān)系親密度的界定后,建立人員關(guān)系網(wǎng),使用圖形可視化工具對現(xiàn)有數(shù)據(jù)建立人員關(guān)系網(wǎng)絡(luò),即對歷史數(shù)據(jù)進行關(guān)系親密度計算后,每天對增量數(shù)據(jù)計算關(guān)系親密度,得到與該人員相關(guān)的人員列表,該人員列表按親密度從高到低排名,然后將該排名在UI界面上展示出來。
該可視化工具是指包括ECharts工具的圖形工具。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同或相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的模塊及相應(yīng)的數(shù)學(xué)計算步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實施例描述的方法步驟及結(jié)構(gòu)模塊可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
上述具體實施方式僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于上述具體實施方式,任何符合本發(fā)明的一種基于公安數(shù)據(jù)獲取多維人員關(guān)系親密度的方法及系統(tǒng)的權(quán)利要求書的且任何所述技術(shù)領(lǐng)域的普通技術(shù)人員對其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護范圍。