亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種利用大數(shù)據(jù)進行信用評估的方法

文檔序號:9597950閱讀:451來源:國知局
一種利用大數(shù)據(jù)進行信用評估的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種利用大數(shù)據(jù)進行信用評估的方法。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中,對用戶的信用評估主要采取的方法有三種,第一種是讓客戶提供收 入證明、房產(chǎn)證、銀行流水等確定是否具備償還能力;第二種是通過實地考察和直接面對面 溝通,驗證客戶提供資料的真實性;第三種查詢客戶征信記錄被查詢的次數(shù),上述三種方法 存在的不足之處在于多由手工操作,效率低,且資料容易造假,信用評估效果差。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的發(fā)明目的在于提供一種利用大數(shù)據(jù)進行信用評估的方法,自動對原始數(shù) 據(jù)進行篩選評估,效率高,且信用評估效果好。
[0004] 實現(xiàn)本發(fā)明目的的技術(shù)方案: 一種利用大數(shù)據(jù)進行信用評估的方法,其特征在于: 步驟1 :存儲征信原始數(shù)據(jù); 步驟2 :按照征信對象對原始數(shù)據(jù)進行篩選,將原始數(shù)據(jù)劃分成不同的維度,計算用于 表達(dá)征信對象在對應(yīng)維度的好壞分值; 步驟3 :將步驟2獲得的數(shù)據(jù)進行存儲; 步驟4 :利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí),得到各維度的權(quán)重分配, 進而計算獲得各征信對象的最終分值,并進行數(shù)據(jù)存儲。
[0005] 步驟2中,原始征信數(shù)據(jù)具有三個維度, 第一維度是消費力維度,根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用 戶的消費能力維度分值; 第二維度是行為愛好維度,根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好 維度分值; 第三維度是位置維度,根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計 算,得出位置維度分值。
[0006] 步驟1中,采用Hadoop服務(wù)器集群的HDFS文件系統(tǒng)存儲征信原始數(shù)據(jù)。
[0007] 步驟2中,利用Hadoop集群的Yarn框架運行MapReduce,在Mapper中將原始數(shù)據(jù) 按照征信對象進行初步篩選,在Reducer中匯總征信對象的各維度的數(shù)據(jù),計算出用于表 達(dá)征信對象在對應(yīng)維度的好壞分值。
[0008] 步驟3、步驟4中,存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。
[0009] 訪問征信分值數(shù)據(jù)時,可利用MapReduce批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù), 寫入CSV格式的文件;或者實時訪問HBase中的指定征信對象的征信分值數(shù)據(jù)。
[0010] 步驟2中,原始征信數(shù)據(jù)劃分還具有第四維度,第四維度是擴展數(shù)據(jù)維度。
[0011] 本發(fā)明具有的有益效果: 本發(fā)明按照征信對象對原始數(shù)據(jù)進行篩選,將原始數(shù)據(jù)劃分成不同的維度,計算用于 表達(dá)征信對象在對應(yīng)維度的好壞分值;利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué) 習(xí),得到各維度的權(quán)重分配,進而計算獲得各征信對象的最終分值。本發(fā)明可自動對原始數(shù) 據(jù)進行篩選評估,效率高,且信用評估效果好。
[0012] 本發(fā)明原始征信數(shù)據(jù)具有三個維度,第一維度是消費力維度,根據(jù)用戶對應(yīng)的通 信消費賬單、套餐、和終端類型數(shù)據(jù)得出用戶的消費能力維度分值;第二維度是行為愛好維 度,根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好維度分值;第三維度是位 置維度,根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計算,得出位置維度分 值。本發(fā)明基于上述三個維度對原始征信數(shù)據(jù)進行劃分評分,使得信用評估效果更加客觀。
[0013] 本發(fā)明存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。訪問征信分值數(shù)據(jù)時,可利 用MapReduce批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù),寫入CSV格式的文件;或者實時訪問 HBase中的指定征信對象的征信分值數(shù)據(jù),使得查詢征信結(jié)果更加方便。
【具體實施方式】
[0014] 本發(fā)明利用大數(shù)據(jù)進行信用評估的方法,包括如下步驟, 步驟1 :存儲征信原始數(shù)據(jù); 實施時,采用Hadoop服務(wù)器集群的HDFS文件系統(tǒng)存儲征信原始數(shù)據(jù)。多數(shù)據(jù)源條件 下采用FTP,UDP,MQ,kafka多種技術(shù)手段予以實現(xiàn)。
[0015] 步驟2 :按照征信對象對原始數(shù)據(jù)進行篩選,將原始數(shù)據(jù)劃分成不同的維度,計算 用于表達(dá)征信對象在對應(yīng)維度的好壞分值; 原始征信數(shù)據(jù)具有三個維度, 第一維度是消費力維度,根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用 戶的消費能力維度分值;以通信消費賬單為例,對于客戶近12個月消費額波動曲線,計算 出均值、正向波動率、負(fù)向波動率,以及近6個月和近3個月的正向、負(fù)向波動率,最終為這 個維度打出一個分值。
[0016] 第二維度是行為愛好維度,根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為 愛好維度分值;分析過程中,主要中間變量有APP種類數(shù)量、PV按種類的數(shù)量統(tǒng)計、按照休 息時間段、工作時間段、上下班路途時間段等按時間段的PV數(shù)量統(tǒng)計。
[0017] 第三維度是位置維度,根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進 行計算,得出位置維度分值。
[0018] 上述三種維度的分值計算公式:
維度以下所有的可測量屬性分值乘以對應(yīng)權(quán)重的累加即為該維度的分值。其中p(i) 是維度內(nèi)部第i個屬性的分值。通常這個屬性分值來自于該屬性的統(tǒng)計量所在的固定分段 區(qū)間,每個區(qū)間都設(shè)置一個分?jǐn)?shù)。W(i)是維度內(nèi)部第i個屬性的權(quán)重,取值范圍在0到1 之間。同一個維度的所有屬性權(quán)重之和為1。屬性的權(quán)重值的設(shè)定,最初來自于經(jīng)驗值,然 后通過不斷增多的已知樣本數(shù)據(jù)進行機器學(xué)習(xí),經(jīng)過多次迭代就可以得到相對準(zhǔn)確的權(quán)重 值。
[0019] 原始征信數(shù)據(jù)還可具有第四維度,第四維度是擴展數(shù)據(jù)維度,根據(jù)實際情況進行 設(shè)置。
[0020] 實施時,利用Hadoop集群的Yarn框架運行MapReduce,在Mapper中將原始數(shù)據(jù)按 照征信對象進行初步篩選,在Reducer中匯總征信對象的各維度的數(shù)據(jù),計算出用于表達(dá) 征信對象在對應(yīng)維度的好壞分值。
[0021] 步驟3 :將步驟2獲得的數(shù)據(jù)進行存儲。
[0022] 步驟4:利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí),得到各維度的權(quán)重 分配,進而計算獲得各征信對象的最終分值,并進行數(shù)據(jù)存儲。
[0023] 實施時,步驟3、步驟4中存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。
[0024] 訪問征信分值數(shù)據(jù)時,可利用MapReduce批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù), 寫入CSV格式的文件;或者實時訪問HBase中的指定征信對象的征信分值數(shù)據(jù)。
【主權(quán)項】
1. 一種利用大數(shù)據(jù)進行信用評估的方法,其特征在于: 步驟1 :存儲征信原始數(shù)據(jù); 步驟2 :按照征信對象對原始數(shù)據(jù)進行篩選,將原始數(shù)據(jù)劃分成不同的維度,計算用于 表達(dá)征信對象在對應(yīng)維度的好壞分值; 步驟3 :將步驟2獲得的數(shù)據(jù)進行存儲; 步驟4 :利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí),得到各維度的權(quán)重分配, 進而計算獲得各征信對象的最終分值,并進行數(shù)據(jù)存儲。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于: 步驟2中,原始征信數(shù)據(jù)具有三個維度, 第一維度是消費力維度,根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用 戶的消費能力維度分值; 第二維度是行為愛好維度,根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好 維度分值; 第三維度是位置維度,根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計 算,得出位置維度分值。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于:步驟1中,采用Hadoop服務(wù)器集群的HDFS 文件系統(tǒng)存儲征信原始數(shù)據(jù)。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于:步驟2中,利用Hadoop集群的Yarn框架 運行MapReduce,在Mapper中將原始數(shù)據(jù)按照征信對象進行初步篩選,在Reducer中匯總征 信對象的各維度的數(shù)據(jù),計算出用于表達(dá)征信對象在對應(yīng)維度的好壞分值。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于:步驟3、步驟4中,存儲數(shù)據(jù)采用可支持隨 機訪問的HBase存儲。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于:訪問征信分值數(shù)據(jù)時,可利用MapReduce 批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù),寫入CSV格式的文件;或者實時訪問HBase中的指 定征信對象的征信分值數(shù)據(jù)。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于:步驟2中,原始征信數(shù)據(jù)劃分還具有第四 維度,第四維度是擴展數(shù)據(jù)維度。
【專利摘要】本發(fā)明涉及一種利用大數(shù)據(jù)進行信用評估的方法,其特征在于:步驟1:存儲征信原始數(shù)據(jù);步驟2:按照征信對象對原始數(shù)據(jù)進行篩選,將原始數(shù)據(jù)劃分成不同的維度,計算用于表達(dá)征信對象在對應(yīng)維度的好壞分值;步驟3:將步驟2獲得的數(shù)據(jù)進行存儲;步驟4:利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí),得到各維度的權(quán)重分配,進而計算獲得各征信對象的最終分值,并進行數(shù)據(jù)存儲。
【IPC分類】G06F17/30
【公開號】CN105354313
【申請?zhí)枴緾N201510763598
【發(fā)明人】王晟, 黃匯, 饒翔
【申請人】南京安訊科技有限責(zé)任公司
【公開日】2016年2月24日
【申請日】2015年11月11日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1