一種利用大數(shù)據(jù)進行信用評估的方法

文檔序號：9597950閱讀：451來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種利用大數(shù)據(jù)進行信用評估的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種利用大數(shù)據(jù)進行信用評估的方法。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中，對用戶的信用評估主要采取的方法有三種，第一種是讓客戶提供收入證明、房產(chǎn)證、銀行流水等確定是否具備償還能力；第二種是通過實地考察和直接面對面溝通，驗證客戶提供資料的真實性；第三種查詢客戶征信記錄被查詢的次數(shù)，上述三種方法存在的不足之處在于多由手工操作，效率低，且資料容易造假，信用評估效果差。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的發(fā)明目的在于提供一種利用大數(shù)據(jù)進行信用評估的方法，自動對原始數(shù) 據(jù)進行篩選評估，效率高，且信用評估效果好。
[0004] 實現(xiàn)本發(fā)明目的的技術(shù)方案：一種利用大數(shù)據(jù)進行信用評估的方法，其特征在于：步驟1 :存儲征信原始數(shù)據(jù)；步驟2 :按照征信對象對原始數(shù)據(jù)進行篩選，將原始數(shù)據(jù)劃分成不同的維度，計算用于表達(dá)征信對象在對應(yīng)維度的好壞分值；步驟3 :將步驟2獲得的數(shù)據(jù)進行存儲；步驟4 :利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí)，得到各維度的權(quán)重分配，進而計算獲得各征信對象的最終分值，并進行數(shù)據(jù)存儲。
[0005] 步驟2中，原始征信數(shù)據(jù)具有三個維度，第一維度是消費力維度，根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用戶的消費能力維度分值；第二維度是行為愛好維度，根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好維度分值；第三維度是位置維度，根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計算，得出位置維度分值。
[0006] 步驟1中，采用Hadoop服務(wù)器集群的HDFS文件系統(tǒng)存儲征信原始數(shù)據(jù)。
[0007] 步驟2中，利用Hadoop集群的Yarn框架運行MapReduce，在Mapper中將原始數(shù)據(jù) 按照征信對象進行初步篩選，在Reducer中匯總征信對象的各維度的數(shù)據(jù)，計算出用于表達(dá)征信對象在對應(yīng)維度的好壞分值。
[0008] 步驟3、步驟4中，存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。
[0009] 訪問征信分值數(shù)據(jù)時，可利用MapReduce批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù)，寫入CSV格式的文件；或者實時訪問HBase中的指定征信對象的征信分值數(shù)據(jù)。
[0010] 步驟2中，原始征信數(shù)據(jù)劃分還具有第四維度，第四維度是擴展數(shù)據(jù)維度。
[0011] 本發(fā)明具有的有益效果：本發(fā)明按照征信對象對原始數(shù)據(jù)進行篩選，將原始數(shù)據(jù)劃分成不同的維度，計算用于表達(dá)征信對象在對應(yīng)維度的好壞分值；利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué) 習(xí)，得到各維度的權(quán)重分配，進而計算獲得各征信對象的最終分值。本發(fā)明可自動對原始數(shù) 據(jù)進行篩選評估，效率高，且信用評估效果好。
[0012] 本發(fā)明原始征信數(shù)據(jù)具有三個維度，第一維度是消費力維度，根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用戶的消費能力維度分值；第二維度是行為愛好維度，根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好維度分值；第三維度是位置維度，根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計算，得出位置維度分值。本發(fā)明基于上述三個維度對原始征信數(shù)據(jù)進行劃分評分，使得信用評估效果更加客觀。
[0013] 本發(fā)明存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。訪問征信分值數(shù)據(jù)時，可利用MapReduce批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù)，寫入CSV格式的文件；或者實時訪問 HBase中的指定征信對象的征信分值數(shù)據(jù)，使得查詢征信結(jié)果更加方便。
【具體實施方式】
[0014] 本發(fā)明利用大數(shù)據(jù)進行信用評估的方法，包括如下步驟，步驟1 :存儲征信原始數(shù)據(jù)；實施時，采用Hadoop服務(wù)器集群的HDFS文件系統(tǒng)存儲征信原始數(shù)據(jù)。多數(shù)據(jù)源條件下采用FTP，UDP，MQ，kafka多種技術(shù)手段予以實現(xiàn)。
[0015] 步驟2 :按照征信對象對原始數(shù)據(jù)進行篩選，將原始數(shù)據(jù)劃分成不同的維度，計算用于表達(dá)征信對象在對應(yīng)維度的好壞分值；原始征信數(shù)據(jù)具有三個維度，第一維度是消費力維度，根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用戶的消費能力維度分值；以通信消費賬單為例，對于客戶近12個月消費額波動曲線，計算出均值、正向波動率、負(fù)向波動率，以及近6個月和近3個月的正向、負(fù)向波動率，最終為這個維度打出一個分值。
[0016] 第二維度是行為愛好維度，根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好維度分值；分析過程中，主要中間變量有APP種類數(shù)量、PV按種類的數(shù)量統(tǒng)計、按照休息時間段、工作時間段、上下班路途時間段等按時間段的PV數(shù)量統(tǒng)計。
[0017] 第三維度是位置維度，根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計算，得出位置維度分值。
[0018] 上述三種維度的分值計算公式：
維度以下所有的可測量屬性分值乘以對應(yīng)權(quán)重的累加即為該維度的分值。其中p(i) 是維度內(nèi)部第i個屬性的分值。通常這個屬性分值來自于該屬性的統(tǒng)計量所在的固定分段區(qū)間，每個區(qū)間都設(shè)置一個分?jǐn)?shù)。W(i)是維度內(nèi)部第i個屬性的權(quán)重，取值范圍在0到1 之間。同一個維度的所有屬性權(quán)重之和為1。屬性的權(quán)重值的設(shè)定，最初來自于經(jīng)驗值，然后通過不斷增多的已知樣本數(shù)據(jù)進行機器學(xué)習(xí)，經(jīng)過多次迭代就可以得到相對準(zhǔn)確的權(quán)重值。
[0019] 原始征信數(shù)據(jù)還可具有第四維度，第四維度是擴展數(shù)據(jù)維度，根據(jù)實際情況進行設(shè)置。
[0020] 實施時，利用Hadoop集群的Yarn框架運行MapReduce，在Mapper中將原始數(shù)據(jù)按照征信對象進行初步篩選，在Reducer中匯總征信對象的各維度的數(shù)據(jù)，計算出用于表達(dá) 征信對象在對應(yīng)維度的好壞分值。
[0021] 步驟3 :將步驟2獲得的數(shù)據(jù)進行存儲。
[0022] 步驟4:利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí)，得到各維度的權(quán)重分配，進而計算獲得各征信對象的最終分值，并進行數(shù)據(jù)存儲。
[0023] 實施時，步驟3、步驟4中存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。
[0024] 訪問征信分值數(shù)據(jù)時，可利用MapReduce批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù)，寫入CSV格式的文件；或者實時訪問HBase中的指定征信對象的征信分值數(shù)據(jù)。
【主權(quán)項】
1. 一種利用大數(shù)據(jù)進行信用評估的方法，其特征在于：步驟1 :存儲征信原始數(shù)據(jù)；步驟2 :按照征信對象對原始數(shù)據(jù)進行篩選，將原始數(shù)據(jù)劃分成不同的維度，計算用于表達(dá)征信對象在對應(yīng)維度的好壞分值；步驟3 :將步驟2獲得的數(shù)據(jù)進行存儲；步驟4 :利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí)，得到各維度的權(quán)重分配，進而計算獲得各征信對象的最終分值，并進行數(shù)據(jù)存儲。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于：步驟2中，原始征信數(shù)據(jù)具有三個維度，第一維度是消費力維度，根據(jù)用戶對應(yīng)的通信消費賬單、套餐、和終端類型數(shù)據(jù)得出用戶的消費能力維度分值；第二維度是行為愛好維度，根據(jù)用戶的手機APP種類和PV時間分布數(shù)據(jù)得出行為愛好維度分值；第三維度是位置維度，根據(jù)用戶在某坐標(biāo)點上的出現(xiàn)頻率、駐留時間長度數(shù)據(jù)進行計算，得出位置維度分值。3. 根據(jù)權(quán)利要求2所述的方法，其特征在于：步驟1中，采用Hadoop服務(wù)器集群的HDFS 文件系統(tǒng)存儲征信原始數(shù)據(jù)。4. 根據(jù)權(quán)利要求3所述的方法，其特征在于：步驟2中，利用Hadoop集群的Yarn框架運行MapReduce，在Mapper中將原始數(shù)據(jù)按照征信對象進行初步篩選，在Reducer中匯總征信對象的各維度的數(shù)據(jù)，計算出用于表達(dá)征信對象在對應(yīng)維度的好壞分值。5. 根據(jù)權(quán)利要求4所述的方法，其特征在于：步驟3、步驟4中，存儲數(shù)據(jù)采用可支持隨機訪問的HBase存儲。6. 根據(jù)權(quán)利要求5所述的方法，其特征在于：訪問征信分值數(shù)據(jù)時，可利用MapReduce 批量導(dǎo)出HBase中存儲的征信分值數(shù)據(jù)，寫入CSV格式的文件；或者實時訪問HBase中的指定征信對象的征信分值數(shù)據(jù)。7. 根據(jù)權(quán)利要求6所述的方法，其特征在于：步驟2中，原始征信數(shù)據(jù)劃分還具有第四維度，第四維度是擴展數(shù)據(jù)維度。
【專利摘要】本發(fā)明涉及一種利用大數(shù)據(jù)進行信用評估的方法，其特征在于：步驟1：存儲征信原始數(shù)據(jù)；步驟2：按照征信對象對原始數(shù)據(jù)進行篩選，將原始數(shù)據(jù)劃分成不同的維度，計算用于表達(dá)征信對象在對應(yīng)維度的好壞分值；步驟3：將步驟2獲得的數(shù)據(jù)進行存儲；步驟4：利用已知樣本對應(yīng)各維度的計算結(jié)果進行機器學(xué)習(xí)，得到各維度的權(quán)重分配，進而計算獲得各征信對象的最終分值，并進行數(shù)據(jù)存儲。
【IPC分類】G06F17/30
【公開號】CN105354313
【申請?zhí)枴緾N201510763598
【發(fā)明人】王晟, 黃匯, 饒翔
【申請人】南京安訊科技有限責(zé)任公司
【公開日】2016年2月24日
【申請日】2015年11月11日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王晟;黃匯;饒翔;
技術(shù)所有人：南京安訊科技有限責(zé)任公司;
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)遷移方法及裝置的制造方法
上一篇：一種文件存儲方法、下載方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信用評估方法相關(guān)技術(shù)

信用評估系統(tǒng)相關(guān)技術(shù)

信用評估相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種利用大數(shù)據(jù)進行信用評估的方法