亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法及裝置的制造方法

文檔序號(hào):10569997閱讀:323來(lái)源:國(guó)知局
一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法及裝置,用于電信信息安全技術(shù)領(lǐng)域。本發(fā)明裝置包括屬性設(shè)計(jì)模塊、用戶分箱模塊、用戶離散化模塊、評(píng)分計(jì)算模塊以及欺詐判決模塊;屬性設(shè)計(jì)模塊中選擇非累積的屬性表征用戶的通話習(xí)慣,用戶分箱模塊采用等深分箱,獲取被檢測(cè)用戶在每個(gè)屬性上的離散化結(jié)果,評(píng)分計(jì)算模塊計(jì)算用戶間的曼哈頓距離的最小值,欺詐判決模塊根據(jù)閾值判斷是否發(fā)生欺詐。本發(fā)明方法用非累積的屬性刻畫用戶的行為特征,根據(jù)其通話習(xí)慣的相似性進(jìn)行欺詐識(shí)別,采用等深分箱避免高值用戶對(duì)正態(tài)分布偏度的影響,使用曼哈頓距離進(jìn)行評(píng)分計(jì)算。本發(fā)明計(jì)算復(fù)雜度低,實(shí)現(xiàn)了海量數(shù)據(jù)實(shí)時(shí)運(yùn)算,可在欺詐早期進(jìn)行識(shí)別告警。
【專利說(shuō)明】
一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及電信信息安全技術(shù)領(lǐng)域,特別涉及一種基于非累積屬性的實(shí)時(shí)欺詐檢 測(cè)方法及裝置。
【背景技術(shù)】
[0002] 隨著經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步,經(jīng)濟(jì)欺詐行為愈演愈烈,造成了涉及多個(gè)行業(yè)的眾多 組織或個(gè)人的重大損失。相應(yīng)地,從理論研究到業(yè)務(wù)實(shí)踐,欺詐行為的監(jiān)控與識(shí)別引起越來(lái) 越多的關(guān)注。在電信行業(yè),由于國(guó)際業(yè)務(wù)結(jié)算周期較長(zhǎng),極少量后付費(fèi)用戶產(chǎn)生了一些欺詐 行為,如復(fù)制USIM卡盜打、撥打高結(jié)算方向套取國(guó)際結(jié)算費(fèi)、非法輪詢撥測(cè)等,電信運(yùn)營(yíng)商 迫切需要一種能實(shí)時(shí)檢測(cè)出通信網(wǎng)絡(luò)上欺詐行為的軟件工具,其技術(shù)核心就是實(shí)時(shí)欺詐檢 測(cè)方法。該類方法能在用戶實(shí)施欺詐行為的初期及時(shí)反應(yīng),自動(dòng)地向網(wǎng)絡(luò)管理員告警以便 網(wǎng)絡(luò)管理員處理,如切斷用戶網(wǎng)絡(luò)接入能力、暫時(shí)凍結(jié)其USIM卡功能等,有效挽回高額損 失。
[0003] 但是,欺詐用戶的有效識(shí)別是一個(gè)關(guān)鍵的技術(shù)難題,現(xiàn)有的方法主要有規(guī)則集、孤 立點(diǎn)檢測(cè)及分類預(yù)測(cè)三大類。
[0004] 基于規(guī)則集的篩選方法即根據(jù)歷史數(shù)據(jù)中的欺詐用戶特點(diǎn)定義一系列規(guī)則的組 合,當(dāng)某個(gè)待檢測(cè)用戶滿足規(guī)則時(shí),系統(tǒng)主動(dòng)告警供管理員進(jìn)行處理。例如,單手機(jī)號(hào)卡月 度累計(jì)話費(fèi)超過(guò)10萬(wàn)元,則判定為欺詐用戶。
[0005] 孤立點(diǎn)檢測(cè)技術(shù)則是利用數(shù)據(jù)挖掘中的智能模型,找出總體中的特殊用戶樣本, 系統(tǒng)再將這些特殊用戶提交給管理員。例如,采用基于密度的孤立點(diǎn)檢測(cè)算法DB0M算法,數(shù) 據(jù)集中的每個(gè)對(duì)象的異常程度用局部異常因子L0F來(lái)衡量,即將與數(shù)據(jù)集中P%的實(shí)例距離 大于L的實(shí)例判定為孤立點(diǎn),其中P和L為參數(shù)。
[0006] 分類預(yù)測(cè)采用數(shù)據(jù)挖掘中的分類技術(shù),通過(guò)建立決策樹等分類器模型對(duì)新樣本進(jìn) 行分類判決。例如,按照決策樹的IF-THEN規(guī)則,將通話次數(shù)大于1000次且月累計(jì)話費(fèi)大于1 萬(wàn)元的用戶判定為欺詐用戶。
[0007] 對(duì)于基于規(guī)則集的篩選方法,所有規(guī)則來(lái)自于業(yè)務(wù)經(jīng)驗(yàn),參數(shù)不容易設(shè)置,條件苛 刻則漏報(bào)率高,條件松懈則誤報(bào)率高;此外,該類方法沒有自我學(xué)習(xí)的能力,當(dāng)新的欺詐行 為模式產(chǎn)生時(shí),由于規(guī)則集不能覆蓋,會(huì)出現(xiàn)明顯的漏報(bào)情況。
[0008] 對(duì)于孤立點(diǎn)檢測(cè)技術(shù),雖然可以有效識(shí)別出總體中的特殊樣本,但特殊樣本并非 一定是欺詐用戶,誤報(bào)率較高;另外,孤立點(diǎn)檢測(cè)算法需要實(shí)時(shí)計(jì)算用戶之間的距離,計(jì)算 復(fù)雜度高導(dǎo)致計(jì)算量巨大,系統(tǒng)容量有限,無(wú)法滿足電信行業(yè)海量數(shù)據(jù)的實(shí)際應(yīng)用要求。
[0009] 對(duì)于數(shù)據(jù)挖掘中的分類模型,當(dāng)分類器完成訓(xùn)練后,模型應(yīng)用的對(duì)象是整個(gè)周期 的累積數(shù)據(jù);但是,欺詐行為往往集中在短時(shí)間如數(shù)小時(shí)內(nèi),等累計(jì)數(shù)據(jù)達(dá)到分類器if-then 規(guī)則所需要的條件,欺詐行為往往已經(jīng)實(shí)施完成,有效性不高。
[0010] 綜上,現(xiàn)有的三種主要方法均存在著一些局限性,對(duì)于流數(shù)據(jù)形式的實(shí)時(shí)欺詐檢 測(cè)應(yīng)用場(chǎng)景表現(xiàn)出了明顯的不適應(yīng)問題。

【發(fā)明內(nèi)容】

[0011] 為了解決流數(shù)據(jù)環(huán)境下的實(shí)時(shí)欺詐檢測(cè)問題,本發(fā)明提出了一種以基于非累積屬 性的智能評(píng)分算法為核心的實(shí)時(shí)欺詐檢測(cè)方法及裝置。本發(fā)明方法通過(guò)學(xué)習(xí)欺詐用戶的消 費(fèi)行為特征,與普通用戶的行為特征進(jìn)行對(duì)比,從而有效識(shí)別用戶的欺詐行為,提高了欺詐 檢測(cè)的科學(xué)性和實(shí)用性。
[0012] 本發(fā)明提供的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法,實(shí)現(xiàn)步驟如下:
[0013] 步驟1,導(dǎo)入原始數(shù)據(jù),原始數(shù)據(jù)包括被檢測(cè)用戶集和已知欺詐用戶集,被檢測(cè)用 戶和欺詐用戶的數(shù)據(jù)結(jié)構(gòu)完全一致,根據(jù)唯一的用戶編號(hào)以及欺詐標(biāo)識(shí)屬性加以區(qū)分;
[0014] 步驟2,確定所要分析的業(yè)務(wù)目標(biāo);
[0015] 步驟3,設(shè)計(jì)屬性,選擇非累積的屬性表征用戶的通話習(xí)慣,從行為特征的角度上 對(duì)被檢測(cè)用戶和欺詐用戶進(jìn)行相似性比較;
[0016] 步驟4,數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)中邏輯錯(cuò)誤的數(shù)據(jù)刪除;
[0017] 步驟5,采用分箱進(jìn)行離散化,將用戶行為轉(zhuǎn)化為特征向量;所述的分箱為等深分 箱,對(duì)所有屬性,將被檢測(cè)用戶按升序排列后得出分箱臨界值;對(duì)所有被檢測(cè)用戶和欺詐用 戶,都根據(jù)分箱臨界值,映射得到用戶在每一屬性上的分箱號(hào),分箱號(hào)即組成用戶的特征向 量;
[0018] 步驟6,計(jì)算被檢測(cè)用戶的特征向量與所有欺詐用戶的特征向量之間曼哈頓距離 的最小值,作為被檢測(cè)用戶的欺詐評(píng)分;
[0019] 步驟7,當(dāng)被檢測(cè)用戶的欺詐評(píng)分低于設(shè)定的最小門限時(shí),則認(rèn)為該用戶存在較高 的欺詐可能性,觸發(fā)告警;否則不進(jìn)行告警。
[0020] 本發(fā)明提供的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)裝置,包括屬性設(shè)計(jì)模塊、用戶分 箱模塊、用戶離散化模塊、評(píng)分計(jì)算模塊以及欺詐判決模塊。屬性設(shè)計(jì)模塊,用于選擇非累 積的屬性表征用戶的通話習(xí)慣,從行為特征的角度對(duì)被檢測(cè)用戶與欺詐用戶進(jìn)行相似性比 較。用戶分箱模塊,采用等深分箱,將被檢測(cè)用戶在每一屬性下,按屬性值升序排列后得出 分箱臨界值。用戶離散化模塊,根據(jù)分箱臨界值,將所有被檢測(cè)用戶和欺詐用戶在每一屬性 上映射到相應(yīng)的分箱內(nèi),最后由多個(gè)屬性的分箱號(hào)組成用戶的特征向量。評(píng)分計(jì)算模塊,用 于計(jì)算被檢測(cè)用戶的特征向量與所有欺詐用戶的特征向量之間曼哈頓距離的最小值,作為 被檢測(cè)用戶的欺詐評(píng)分。欺詐判決模塊,用于判斷被檢測(cè)用戶的欺詐評(píng)分是否低于設(shè)定的 最小門限,若是則認(rèn)為該用戶存在較高的欺詐可能性,觸發(fā)告警;否則不進(jìn)行告警。
[0021] 本發(fā)明的實(shí)時(shí)欺詐檢測(cè)方法及裝置,相對(duì)現(xiàn)有技術(shù),其優(yōu)點(diǎn)與積極效果在于:
[0022] (1)本發(fā)明主要優(yōu)點(diǎn)為選擇非累積的屬性參與運(yùn)算,很快即可捕捉用戶的通話習(xí) 慣,從行為特征角度分析被檢測(cè)用戶與欺詐用戶的相似性。傳統(tǒng)方法往往從累積型的使用 量角度分析,模型精準(zhǔn)度不高,誤報(bào)次數(shù)多,對(duì)欺詐行為也不夠敏感。
[0023] (2)本發(fā)明用等深分箱代替?zhèn)鹘y(tǒng)等寬分箱對(duì)用戶進(jìn)行離散化,避免了數(shù)據(jù)在低值 區(qū)域用戶的集中性導(dǎo)致分布不均衡的情況,具有更合理的區(qū)分度。
[0024] (3)現(xiàn)有規(guī)則集、孤立點(diǎn)檢測(cè)及分類預(yù)測(cè)這三類主要的欺詐檢測(cè)方法中,與本發(fā)明 最接近的現(xiàn)有技術(shù)為分類預(yù)測(cè)技術(shù)。與該技術(shù)相比,本發(fā)明因計(jì)算復(fù)雜度低,可實(shí)現(xiàn)海量數(shù) 據(jù)實(shí)時(shí)運(yùn)算,可在欺詐早期進(jìn)行識(shí)別告警。而分類模型需要形成了一系列的IF-THEN規(guī)則, 計(jì)算量遠(yuǎn)遠(yuǎn)高于本發(fā)明。
【附圖說(shuō)明】
[0025] 圖1是本發(fā)明的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法的整體流程示意圖;
[0026] 圖2是進(jìn)行分箱的流程示意圖;
[0027]圖3是進(jìn)行離散化的流程示意圖;
[0028]圖4是評(píng)分計(jì)算流程示意圖;
[0029]圖5是進(jìn)行欺詐評(píng)分判決的示意圖;
[0030] 圖6是本發(fā)明的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)裝置的組成框圖。
【具體實(shí)施方式】
[0031] 以下通過(guò)結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述,在這里描述的優(yōu)選實(shí)施 方式并不是限制性的說(shuō)明,本領(lǐng)域技術(shù)人員可以根據(jù)本發(fā)明的原理,對(duì)本發(fā)明做出各種修 改、改進(jìn)而不會(huì)脫離隨附權(quán)利要求所限定保護(hù)范圍。
[0032] 本發(fā)明針對(duì)實(shí)時(shí)欺詐檢測(cè)應(yīng)用場(chǎng)景,尤其適合以流數(shù)據(jù)為輸入形式的情況,提供 了一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法及裝置。本發(fā)明的實(shí)時(shí)欺詐檢測(cè)方法/裝置,是 將被檢測(cè)用戶在非累積型屬性上的概率分布特征與欺詐用戶在對(duì)應(yīng)屬性上的概率分布特 征對(duì)比,如果特征相似程度較高,則提出告警。本發(fā)明的創(chuàng)新點(diǎn)在于:第一,用非累積的屬性 刻畫用戶的行為特征,根據(jù)其通話習(xí)慣的相似性進(jìn)行欺詐識(shí)別;第二,采用等深分箱而非傳 統(tǒng)的等寬分箱,有效避免了低值區(qū)域用戶集中對(duì)正態(tài)分布偏度的影響;第三,使用曼哈頓距 離而非常用的歐氏距離,提升了計(jì)算效率的同時(shí)降低了屬性間的關(guān)聯(lián)性對(duì)評(píng)分造成的系統(tǒng) 性風(fēng)險(xiǎn)。另外,本發(fā)明所實(shí)現(xiàn)系統(tǒng)開發(fā)、部署所需要的軟、硬件平臺(tái)無(wú)特殊限制和需求。
[0033] 本發(fā)明的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法,如圖1所示,包括步驟1~步驟7。 [0034]步驟1,導(dǎo)入原始數(shù)據(jù)。將被檢測(cè)用戶及欺詐用戶的原始數(shù)據(jù)文件導(dǎo)入。
[0035]導(dǎo)入的原始數(shù)據(jù)包括被檢測(cè)用戶集和已知欺詐用戶集,已知欺詐用戶是標(biāo)識(shí)為欺 詐的用戶。被檢測(cè)用戶和已知欺詐用戶的數(shù)據(jù)結(jié)構(gòu)完全一致,根據(jù)唯一的用戶編號(hào)以及欺 詐標(biāo)識(shí)屬性加以區(qū)分。
[0036] 本發(fā)明實(shí)施例中針對(duì)通訊業(yè)務(wù),因此導(dǎo)入的是用戶通信業(yè)務(wù)詳單。由于詳單構(gòu)成 的流數(shù)據(jù)是實(shí)時(shí)欺詐識(shí)別的自然形態(tài),因此,原始數(shù)據(jù)導(dǎo)入為詳單形式,包括欺詐用戶的特 征也通過(guò)其具體詳單來(lái)表示。
[0037] 步驟2,業(yè)務(wù)設(shè)定,用于確定所要分析調(diào)用的業(yè)務(wù)目標(biāo),不同業(yè)務(wù)涉及的屬性一般 具有差異。
[0038] 業(yè)務(wù)目標(biāo)的設(shè)定為接下來(lái)的屬性設(shè)計(jì)步驟提供基礎(chǔ)。
[0039]步驟3,屬性設(shè)計(jì),選擇非累積的屬性,并設(shè)計(jì)各屬性的計(jì)算邏輯。
[0040]屬性設(shè)計(jì)是基于具體的業(yè)務(wù)目標(biāo)來(lái)選擇屬性的過(guò)程,另外還包括設(shè)計(jì)衍生屬性、 設(shè)計(jì)計(jì)算邏輯等任務(wù)。所選擇的屬性為非累積的屬性,例如平均單次通話時(shí)長(zhǎng)、平均單次通 話間隔等,以反應(yīng)用戶的通話習(xí)慣,根據(jù)被檢測(cè)用戶與欺詐用戶在行為特征上的相似性進(jìn) 行判別。對(duì)于累計(jì)型的總通話次數(shù)、總通話時(shí)長(zhǎng)、通話總費(fèi)用等屬性,在本方法中不作為評(píng) 分的輸入。
[0041] 通過(guò)分類匯總操作,可以利用詳單數(shù)據(jù)形成一些動(dòng)態(tài)變化的基礎(chǔ)屬性,如累計(jì)時(shí) 長(zhǎng),累計(jì)次數(shù)等,再通過(guò)基礎(chǔ)屬性衍生出其他屬性,如平均時(shí)長(zhǎng)為累計(jì)時(shí)長(zhǎng)與累計(jì)次數(shù)之 商。在此基礎(chǔ)上,選擇非累積的屬性參與下一步運(yùn)算,即可反映用戶通話行為特征習(xí)慣的屬 性,例如平均單次通話時(shí)長(zhǎng),通話時(shí)長(zhǎng)波動(dòng)等。
[0042] 步驟4,數(shù)據(jù)預(yù)處理,目的是刪除錯(cuò)誤的數(shù)據(jù),比如通話時(shí)長(zhǎng)為負(fù)的詳單,得到清潔 的數(shù)據(jù),以正確地進(jìn)行分類匯總。
[0043]數(shù)據(jù)預(yù)處理是指對(duì)原數(shù)據(jù)進(jìn)行操作以更方便地參與運(yùn)算,包括對(duì)數(shù)據(jù)的抽取轉(zhuǎn) 換、過(guò)濾和清洗等。此過(guò)程主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)或基于映射-規(guī)約(Map-Reduce)框架的大 數(shù)據(jù)平臺(tái)實(shí)現(xiàn)。
[0044]步驟5,離散化,設(shè)置分箱臨界值,將用戶行為表示為特征向量。
[0045]分箱是經(jīng)典的離散化手段之一。一般的離散化任務(wù)都采用等寬分箱方法,即將極 差均勻等分,每個(gè)分箱的值域?qū)挾认嗟?,假設(shè)數(shù)據(jù)集的極差為L(zhǎng),則其K分箱的臨界值為
<?而本方法采用等深分箱,即將實(shí)例數(shù)均勻等分的方法,每個(gè)分箱實(shí)例數(shù) 相等,設(shè)數(shù)據(jù)集有N個(gè)實(shí)例,則記錄順序?yàn)?br>的實(shí)例的值作為K分箱臨 界值。由于實(shí)際數(shù)據(jù)普遍存在正態(tài)分布左偏的問題,等深分箱有效地避免了由于數(shù)據(jù)的集 中所帶來(lái)的分布不均衡問題,具有較高的區(qū)分度。
[0046] 本發(fā)明進(jìn)行等深分箱,即每個(gè)分箱的被檢測(cè)用戶數(shù)相同。如圖2所示,設(shè)有N個(gè)被檢 測(cè)用戶,每個(gè)用戶有M個(gè)屬性,計(jì)算K分箱臨界值序列a,有
,其中 N、M和K均為正整數(shù)。對(duì)每一個(gè)屬性,按屬性值將所有被檢測(cè)用戶升序排列,取序列a對(duì)應(yīng)位 置上的值作為分箱的臨界值。每個(gè)屬性單獨(dú)離散化,在離散化過(guò)程中各個(gè)屬性無(wú)關(guān);同時(shí), 分箱和用戶數(shù)有一定的關(guān)系。用戶數(shù)越大,則分箱參數(shù)K需要越大,否則區(qū)分度降低,模型不 敏感;但是也不能過(guò)大,分的太細(xì)會(huì)造成過(guò)擬合。每個(gè)屬性都有K+1個(gè)分箱臨界值,M個(gè)屬性 共有MX (K+1)個(gè)分箱臨界值,形成一個(gè)臨界值矩陣。此處僅被檢測(cè)用戶參與分箱門限的計(jì) 算,已知欺詐用戶不參與。
[0047] 本步驟中,將被檢測(cè)用戶和欺詐用戶使用同一標(biāo)準(zhǔn)進(jìn)行離散化,如圖3所示,將被 檢測(cè)用戶和欺詐用戶都進(jìn)行離散化。對(duì)于每個(gè)用戶,獲取用戶在每個(gè)屬性上的分箱號(hào)。離散 化后,每個(gè)被檢測(cè)用戶和欺詐用戶都具有一個(gè)長(zhǎng)度為M的特征向量。
[0048]步驟6,評(píng)分,計(jì)算被檢測(cè)用戶的特征向量與所有欺詐用戶特征向量之間曼哈頓距 離的最小值,即可用來(lái)衡量被檢測(cè)用戶與欺詐用戶之間的最相似程度,從而進(jìn)行欺詐識(shí)別。
[0049] 在分箱將原始屬性值離散化以后,計(jì)算任意被檢測(cè)用戶與所有欺詐用戶之間的曼 哈頓距離,并求出其最小值作為該用戶的欺詐評(píng)分。相對(duì)于傳統(tǒng)的歐氏距離,曼哈頓距離不 僅降低了屬性間相關(guān)性帶來(lái)的影響,而且僅進(jìn)行分箱號(hào)的整數(shù)加減運(yùn)算,大大減小了計(jì)算 復(fù)雜度。
[0050] 圖4示意性示出了本發(fā)明評(píng)分計(jì)算流程。經(jīng)過(guò)離散化過(guò)程,被檢測(cè)用戶和欺詐用戶 均可用一組長(zhǎng)為M的特征向量進(jìn)行表示,則用戶評(píng)分定義為與所有欺詐用戶特征向量之間 曼哈頓距離的最小值。對(duì)于任意一組被檢測(cè)用戶與欺詐用戶,計(jì)算兩者在每個(gè)屬性上的分 箱號(hào)差值,作為距離,再將每個(gè)屬性上的距離值累加得到兩個(gè)用戶之間的曼哈頓距離。
[0051 ] 對(duì)于任意兩個(gè)被檢測(cè)用戶u= {ui,U2,H_,um}和欺詐用戶v= {vi,V2,H_,vm},其曼哈 頓距離d(u,v)計(jì)算公式為:
[0052] d(u,v)= | vi-ui| +1V2-U21 +---+1vm~um (1)
[0053]為方便比較,所有評(píng)分要進(jìn)行標(biāo)準(zhǔn)化處理,本發(fā)明實(shí)施例中將評(píng)分范圍映射在0~ 100分內(nèi),也可采用其他分制。標(biāo)準(zhǔn)化的公式為
.,公式中,max、min分別表示 所有評(píng)分值中的最大值和最小值,P表示原始評(píng)分值,P'表示標(biāo)準(zhǔn)化后的評(píng)分值。
[0054]步驟7,判決,若用戶評(píng)分低于門限,則告警。
[0055] 當(dāng)欺詐評(píng)分低于判決門限,則認(rèn)定該用戶存在較高的欺詐可能性,觸發(fā)系統(tǒng)告警; 否則按照詳單到達(dá)情況繼續(xù)更新評(píng)分值。其中,判決門限是重要的參數(shù),可以通過(guò)實(shí)際結(jié)果 來(lái)調(diào)整優(yōu)化。
[0056] 圖5示意性示出了本發(fā)明的判決流程。用戶的欺詐評(píng)分隨著話單的不斷增加實(shí)時(shí) 變化但并非單調(diào)增加。當(dāng)某個(gè)被檢測(cè)用戶的實(shí)時(shí)評(píng)分低于判決門限T,則表示該用戶與某個(gè) 欺詐用戶過(guò)于相似,判定為欺詐用戶,告警處理。系統(tǒng)管理員采用人工或自動(dòng)的方式進(jìn)行確 認(rèn)。所有判決都需要進(jìn)行記錄,為下一周期調(diào)整優(yōu)化模型提供輸入。
[0057]相應(yīng)地,本發(fā)明提供了一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)裝置,主要包括屬性 設(shè)計(jì)模塊、用戶離散化模塊、評(píng)分計(jì)算模塊以及欺詐判決模塊,如圖6所示。此外,還可包括 數(shù)據(jù)導(dǎo)入和預(yù)處理模塊、業(yè)務(wù)設(shè)定模塊、記錄模塊等。
[0058]數(shù)據(jù)導(dǎo)入和預(yù)處理模塊用于導(dǎo)入被檢測(cè)用戶和已知欺詐用戶的原始數(shù)據(jù),并對(duì)原 始數(shù)據(jù)進(jìn)行清理,將其中錯(cuò)誤的數(shù)據(jù)刪除,以方便進(jìn)一步的統(tǒng)計(jì)計(jì)算。
[0059]業(yè)務(wù)設(shè)定模塊用于選定所要分析的業(yè)務(wù)目標(biāo)。
[0060]屬性設(shè)計(jì)模塊,用于選擇非累積的屬性表征用戶的通話習(xí)慣,從行為特征的角度 上對(duì)被檢測(cè)用戶和欺詐用戶進(jìn)行相似性比較。
[0061] 用戶分箱模塊,采用等深分箱,將被檢測(cè)用戶在每一屬性下,按屬性值升序排列后 計(jì)算分箱臨界值。對(duì)N個(gè)被檢測(cè)用戶進(jìn)行K分箱時(shí),計(jì)算K分箱臨界值標(biāo)號(hào)序列a,a =
>假設(shè)每個(gè)用戶有M個(gè)屬性,對(duì)每一個(gè)屬性,按屬性值將所有被檢測(cè) 用戶升序排列,取序列a對(duì)應(yīng)位置上標(biāo)號(hào)的值作為分箱的臨界值。每個(gè)屬性都有K+1個(gè)分箱 臨界值,M個(gè)屬性共有MX (K+1)個(gè)分箱臨界值,形成一個(gè)臨界值矩陣,其中N、M和K均為正整 數(shù)。
[0062] 用戶離散化模塊,根據(jù)分箱臨界值,將所有被檢測(cè)用戶和欺詐用戶在每一屬性上 映射到相應(yīng)的分箱內(nèi),將最后由分箱號(hào)組成用戶的特征向量,完成屬性的離散化過(guò)程。
[0063] 評(píng)分計(jì)算模塊,計(jì)算被檢測(cè)用戶的特征向量與所有欺詐用戶的特征向量曼哈頓距 離的最小值,作為被檢測(cè)用戶的欺詐概率評(píng)分,以減小屬性相關(guān)性,簡(jiǎn)化運(yùn)算。評(píng)分計(jì)算模 塊計(jì)算兩個(gè)用戶的特征向量之間的曼哈頓距離時(shí),將兩個(gè)用戶的特征向量中對(duì)應(yīng)屬性上的 分箱號(hào)相減,求絕對(duì)值再求和,如公式(1)所示,從而獲得兩個(gè)用戶的曼哈頓距離。
[0064]欺詐判決模塊,用于判斷被檢測(cè)用戶的欺詐評(píng)分是否低于設(shè)定的最小門限。當(dāng)某 個(gè)被檢測(cè)用戶的欺詐評(píng)分低于最小門限T時(shí),系統(tǒng)告警;否則不進(jìn)行告警。告警處理包括確 認(rèn)和駁回,確認(rèn)為欺詐用戶的,需要從普通用戶數(shù)據(jù)集中移除,添加到欺詐用戶數(shù)據(jù)集中; 駁回則告警無(wú)效,解除警報(bào)。
[0065] 在進(jìn)行實(shí)時(shí)欺詐檢測(cè)過(guò)程時(shí),需要以流數(shù)據(jù)形式順序不斷輸入話單,本發(fā)明的實(shí) 時(shí)欺詐檢測(cè)裝置將對(duì)用戶進(jìn)行實(shí)時(shí)評(píng)分并根據(jù)詳單到達(dá)情況不斷更新分?jǐn)?shù)和判決狀態(tài),因 此還設(shè)置了記錄模塊。在計(jì)算過(guò)程中產(chǎn)生的所有判定都需要通過(guò)記錄模塊記錄,便于下一 周期模型的及時(shí)調(diào)整優(yōu)化。
[0066] 本發(fā)明提出的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法及裝置,具有三個(gè)主要特點(diǎn): 第一,選擇非累積的屬性參與計(jì)算,根據(jù)被檢測(cè)用戶與欺詐用戶在通話習(xí)慣上的相似性進(jìn) 行預(yù)測(cè)識(shí)別,與被檢測(cè)對(duì)象所處通話生命周期的位置無(wú)關(guān);第二,采用等深分箱進(jìn)行離散 化,具有較高的區(qū)分度,避免了實(shí)際應(yīng)用數(shù)據(jù)低值區(qū)域集中度高對(duì)計(jì)算相似性過(guò)程產(chǎn)生的 影響;第三,計(jì)算復(fù)雜度低,可以實(shí)現(xiàn)話單的動(dòng)態(tài)實(shí)時(shí)計(jì)算,在欺詐行為的早期識(shí)別并告警, 更有效地減小損失。
[0067] 通過(guò)以上描述可以知道,本發(fā)明的實(shí)時(shí)欺詐檢測(cè)裝置并不限于完全按照以上描述 的所有模塊來(lái)實(shí)現(xiàn),本發(fā)明的實(shí)時(shí)欺詐檢測(cè)方法也不限于由以上描述的所有步驟來(lái)實(shí)現(xiàn)。 而應(yīng)當(dāng)理解,有些模塊/步驟是為了更有效、精確的得到本發(fā)明的更有益的效果而采用的優(yōu) 選實(shí)施方式。
【主權(quán)項(xiàng)】
1. 一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法,其特征在于,實(shí)現(xiàn)步驟如下: 步驟1,導(dǎo)入原始數(shù)據(jù),原始數(shù)據(jù)包括被檢測(cè)客戶集和已知欺詐用戶集,被檢測(cè)客戶和 欺詐用戶的數(shù)據(jù)結(jié)構(gòu)完全一致,根據(jù)唯一的用戶編號(hào)以及欺詐標(biāo)識(shí)屬性加以區(qū)分; 步驟2,確定所要分析的業(yè)務(wù)目標(biāo); 步驟3,設(shè)計(jì)屬性,選擇非累積的屬性,以反映用戶通話行為特征; 步驟4,數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)中邏輯錯(cuò)誤的數(shù)據(jù)刪除; 步驟5,采用分箱進(jìn)行離散化,將用戶行為表示為特征向量;所述的分箱為等深分箱,將 被檢測(cè)客戶在每一屬性下,按屬性值升序排列后計(jì)算分箱臨界值;對(duì)被檢測(cè)用戶和欺詐用 戶,都根據(jù)分箱臨界值,映射得到用戶在每一屬性上的分箱號(hào),分箱號(hào)組成用戶的特征向 量; 步驟6,計(jì)算被檢測(cè)用戶特征向量與所有欺詐用戶特征向量的曼哈頓距離的最小值,作 為被檢測(cè)用戶的欺詐評(píng)分; 步驟7,當(dāng)被檢測(cè)用戶的欺詐評(píng)分低于設(shè)定的最小門限時(shí),則認(rèn)為該用戶存在較高的欺 詐可能性,觸發(fā)告警;否則不進(jìn)行告警。2. 根據(jù)權(quán)利要求1所述的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法,其特征在于,所述的步 驟5中,設(shè)有N個(gè)被檢測(cè)用戶,每個(gè)被檢測(cè)用戶有Μ個(gè)屬性,分箱數(shù)目為K,N、M和K均為正整數(shù); 計(jì)算自然數(shù)[〇,N]的K分箱臨界值集合a;對(duì)每一個(gè)屬性,按屬性值將 所有被檢測(cè)用戶升序排列,取集合a對(duì)應(yīng)位置上的值作為分箱的臨界值;每個(gè)屬性單獨(dú)離散 化,每個(gè)屬性有K+1個(gè)分箱臨界值,Μ個(gè)屬性共有MX (K+1)個(gè)分箱臨界值,形成一個(gè)臨界值矩 陣。3. 根據(jù)權(quán)利要求1或2所述的基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)方法,其特征在于,所述 的步驟6中,設(shè)兩個(gè)用戶的特征向量表示為u= {ui,U2,···,um}和v= {vi,V2,…,vm},U和V的曼 哈頓距離d(U,V)的計(jì)算公式為: d(u,v) = I Vl-Ul I + I V2-U2 | +···+ | VM-UM 其中,U1,U2,…,UM為用戶11在皿個(gè)屬性上的分箱號(hào);V1,V2,…,VM為用戶V在Μ個(gè)屬性上的 分箱號(hào)。4. 一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)裝置,其特征在于,包括屬性設(shè)計(jì)模塊、用戶分 箱模塊、用戶離散化模塊、評(píng)分計(jì)算模塊以及欺詐判決模塊; 屬性設(shè)計(jì)模塊,用于選擇非累積的屬性表征用戶的通話習(xí)慣,從行為特征的角度上對(duì) 被檢用戶和欺詐用戶進(jìn)行相似性比較; 用戶分箱模塊,采用等深分箱,將被檢測(cè)用戶在每一屬性下,按屬性值升序排列后計(jì)算 分箱臨界值; 用戶離散化模塊,根據(jù)分箱臨界值,將所有被檢測(cè)用戶和欺詐用戶在每一屬性上映射 到相應(yīng)的分箱內(nèi),最后由分箱號(hào)組成用戶的特征向量; 評(píng)分計(jì)算模塊,用于計(jì)算被檢測(cè)用戶特征向量與所有欺詐用戶特征向量的曼哈頓距離 的最小值,作為被檢測(cè)用戶的欺詐評(píng)分; 欺詐判決模塊,用于判斷被檢測(cè)用戶的欺詐評(píng)分是否低于設(shè)定的最小門限,若是則認(rèn) 為該用戶存在較高的欺詐可能性,觸發(fā)告警;否則不進(jìn)行告警。5. 根據(jù)權(quán)利要求4所述的一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)裝置,其特征在于,所述 的用戶分箱模塊,對(duì)N個(gè)被檢測(cè)用戶進(jìn)行K分箱的方法是:設(shè)每個(gè)用戶有Μ個(gè)屬性,計(jì)算自然 數(shù)[〇,Ν]的Κ分箱邊界值集合a,; N、M和K均為正整數(shù);對(duì)每一個(gè)屬性, 按屬性值將所有被檢測(cè)用戶升序排列,取集合a對(duì)應(yīng)位置上的值作為分箱的臨界值;每個(gè)屬 性都有K+1個(gè)分箱臨界值,Μ個(gè)屬性共有ΜX (K+1)個(gè)分箱臨界值,形成一個(gè)臨界值矩陣。6. 根據(jù)權(quán)利要求4或5所述一種基于非累積屬性的實(shí)時(shí)欺詐檢測(cè)裝置,其特征在于,所 述的評(píng)分計(jì)算模塊,計(jì)算兩個(gè)用戶特征向量的曼哈頓距離的方法是: 設(shè)兩個(gè)用戶的特征向量表示為u= {ui,U2,…,Um}和V= {vi,V2,…,VM},U和V的曼哈頓距 離d(u,v)的計(jì)算公式為: d(u,v) = I Vl-Ul I + I V2-U2 | +···+ | VM-UM 其中,U1,U2,…,UM為用戶11在皿個(gè)屬性上的分箱號(hào);V1,V2,…,VM為用戶V在Μ個(gè)屬性上的 分箱號(hào)。
【文檔編號(hào)】G06F17/30GK105930430SQ201610245288
【公開日】2016年9月7日
【申請(qǐng)日】2016年4月19日
【發(fā)明人】牛琨, 高志鵬, 萬(wàn)能, 焦海珍, 鄧楠潔, 趙旸, 賈冠楠, 陳成
【申請(qǐng)人】北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1