一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法和系統(tǒng)的制作方法
【專利摘要】一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法和系統(tǒng),方法包括:根據(jù)話單記錄,計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的若干個(gè)特征指標(biāo)值,然后采用聚類算法將所有主叫號(hào)碼劃分到三個(gè)簇中,從而使得每個(gè)簇中的主叫號(hào)碼具有相同或相近的特征指標(biāo)值;將已確認(rèn)詐騙號(hào)碼的特征指標(biāo)值分別和三個(gè)簇中主叫號(hào)碼的特征指標(biāo)值進(jìn)行匹配,如果特征指標(biāo)值所構(gòu)成的取值區(qū)間越接近則說明匹配相似度越高,最后將其中匹配相似度最高的簇設(shè)置為詐騙電話簇、匹配相似度次之的簇設(shè)置為疑似詐騙電話簇;將詐騙號(hào)碼簇和疑似詐騙號(hào)碼簇中的所有主叫號(hào)碼分別更新到取證號(hào)碼表和攔截號(hào)碼表中。本發(fā)明屬于網(wǎng)絡(luò)通信【技術(shù)領(lǐng)域】,能在全網(wǎng)范圍內(nèi)實(shí)現(xiàn)詐騙號(hào)碼的自動(dòng)精準(zhǔn)識(shí)別和實(shí)時(shí)攔截。
【專利說明】一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法和系統(tǒng),屬于網(wǎng)絡(luò)通信
【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 隨著移動(dòng)電話的普及,電話詐騙層出不窮。盡管政府有關(guān)部門已經(jīng)向社會(huì)發(fā)出提 醒,各類新聞媒體也頻頻報(bào)道,然而,每天仍有大量用戶上當(dāng)受騙,且經(jīng)濟(jì)損失呈逐年上升 趨勢(shì)。
[0003] 目前對(duì)詐騙電話主要采取的是黑名單攔截方式,即將已確認(rèn)詐騙號(hào)碼寫入黑名單 中。例如:專利申請(qǐng)CN 201310004829. 4(申請(qǐng)名稱:一種基于通話模式識(shí)別的垃圾呼叫攔 截系統(tǒng)及其工作方法, 申請(qǐng)人::上海欣方智能系統(tǒng)有限公司,申請(qǐng)日:2013 -01 -07)基于電 話用戶聽到語音提示時(shí)的行為習(xí)慣和結(jié)合語音識(shí)別技術(shù)而提出,該系統(tǒng)需要在現(xiàn)有通信網(wǎng) 的關(guān)口局或匯接局交換機(jī)上配置疑似風(fēng)險(xiǎn)的電話用戶號(hào)碼,并同時(shí)能根據(jù)用戶簽約的呼叫 攔截業(yè)務(wù)屬性,將疑似垃圾呼叫的信令消息流和媒體流分別送入該系統(tǒng)執(zhí)行呼叫攔截分析 操作;還要增設(shè)下述裝置:通話模式識(shí)別及呼叫攔截服務(wù)器及其業(yè)務(wù)數(shù)據(jù)庫、音頻分析服 務(wù)器、信令網(wǎng)關(guān)和媒體網(wǎng)關(guān)。由于詐騙份子的手段在不斷變換,詐騙號(hào)碼越來越隱蔽,其形 式也越來越多樣化,盡管越來越多的詐騙號(hào)碼被發(fā)現(xiàn)和確認(rèn),但是相對(duì)于全網(wǎng)所存在的詐 騙電話來說,已確認(rèn)詐騙號(hào)碼只是其中很小的一部分。該技術(shù)方案并未涉及到全網(wǎng)范圍內(nèi) 對(duì)詐騙號(hào)碼的自動(dòng)精準(zhǔn)識(shí)別和實(shí)時(shí)攔截。
[0004] 因此,在全網(wǎng)范圍內(nèi)實(shí)現(xiàn)詐騙號(hào)碼的自動(dòng)精準(zhǔn)識(shí)別和實(shí)時(shí)攔截,是一個(gè)值得深入 研究的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明的目的是提供一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法和 系統(tǒng),能在全網(wǎng)范圍內(nèi)實(shí)現(xiàn)詐騙號(hào)碼的自動(dòng)精準(zhǔn)識(shí)別和實(shí)時(shí)攔截。
[0006] 為了達(dá)到上述目的,本發(fā)明提供了一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方 法,包括有:
[0007] 步驟一、根據(jù)所采集的話單記錄,計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的若干個(gè) 特征指標(biāo)值,然后采用聚類算法將所有主叫號(hào)碼劃分到三個(gè)簇中,從而使得每個(gè)簇中的主 叫號(hào)碼具有相同或相近的特征指標(biāo)值;
[0008] 步驟二、將已確認(rèn)詐騙號(hào)碼的特征指標(biāo)值分別和三個(gè)簇中主叫號(hào)碼的特征指標(biāo)值 進(jìn)行匹配,如果特征指標(biāo)值所構(gòu)成的取值區(qū)間越接近則說明匹配相似度越高,最后將其中 匹配相似度最高的簇設(shè)置為詐騙電話簇、匹配相似度次之的簇設(shè)置為疑似詐騙電話簇;
[0009] 步驟三、將詐騙號(hào)碼簇、和疑似詐騙號(hào)碼簇中的所有主叫號(hào)碼分別更新到取證號(hào) 碼表、和攔截號(hào)碼表中。
[0010] 為了達(dá)到上述目的,本發(fā)明還提供了一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的系 統(tǒng),包括有防詐騙平臺(tái),其中,防詐騙平臺(tái)進(jìn)一步包括有:
[0011] 聚類分析裝置,用于根據(jù)所采集的話單記錄,計(jì)算所有主叫號(hào)碼在一定時(shí)間周期 內(nèi)的若干個(gè)特征指標(biāo)值,然后采用聚類算法將所有主叫號(hào)碼劃分到三個(gè)簇中,從而使得每 個(gè)簇中的主叫號(hào)碼具有相同或相近的特征指標(biāo)值,再將已確認(rèn)詐騙號(hào)碼的特征指標(biāo)值分別 和三個(gè)簇中主叫號(hào)碼的特征指標(biāo)值進(jìn)行匹配,如果特征指標(biāo)值所構(gòu)成的取值區(qū)間越接近則 說明匹配相似度越高,最后將其中匹配相似度最高的簇設(shè)置為詐騙電話簇、匹配相似度次 之的簇設(shè)置為疑似詐騙電話簇;
[0012] 號(hào)碼表更新裝置,用于將詐騙號(hào)碼簇、和疑似詐騙號(hào)碼簇中的所有主叫號(hào)碼分別 更新到取證號(hào)碼表、和攔截號(hào)碼表中。
[0013] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過聚類算法進(jìn)行特征分類,將具 有相同或相似特征的主叫號(hào)碼分別劃分到詐騙號(hào)碼簇和疑似詐騙號(hào)碼簇中,然后再各自根 據(jù)邏輯回歸算法遴選出確定的詐騙號(hào)碼和疑似詐騙號(hào)碼,從而能在全網(wǎng)范圍內(nèi)實(shí)現(xiàn)詐騙號(hào) 碼的自動(dòng)精準(zhǔn)識(shí)別和實(shí)時(shí)攔截;對(duì)于詐騙號(hào)碼,本發(fā)明進(jìn)一步進(jìn)行錄音取證,并將錄音文件 保存到樣本庫中,從而能保證樣本庫中的信息越來越豐富,詐騙電話的識(shí)別精度越來越高; 對(duì)于疑似詐騙號(hào)碼,本發(fā)明進(jìn)一步將其錄音文件和樣本庫中的詐騙樣本進(jìn)行自動(dòng)識(shí)別,特 別對(duì)于播放錄音的詐騙電話,通過對(duì)語音進(jìn)行時(shí)間和能量的雙緯度特征值分析,從而能有 效區(qū)分出不同語音,當(dāng)識(shí)別出錄音文件和詐騙樣本是相同語音時(shí),則對(duì)正在進(jìn)行的通話實(shí) 時(shí)攔截中斷。
【專利附圖】
【附圖說明】
[0014] 圖1是本發(fā)明一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法的流程圖。
[0015] 圖2是圖1步驟一的具體操作流程圖。
[0016] 圖3是當(dāng)用戶發(fā)起呼叫時(shí),對(duì)其分別實(shí)施錄音取證和實(shí)時(shí)攔截的具體操作流程 圖。
[0017] 圖4是將錄音文件和重復(fù)音樣本庫中的詐騙樣本一一比對(duì)的具體操作流程圖。
[0018] 圖5是本發(fā)明一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的系統(tǒng)的組成結(jié)構(gòu)示意圖。 [0019] 圖6是聚類分析裝置的組成結(jié)構(gòu)示意圖。
[0020] 圖7是詐騙攔截裝置的組成結(jié)構(gòu)示意圖。
[0021] 圖8是重復(fù)音識(shí)別單元的組成結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步 的詳細(xì)描述。
[0023] 根據(jù)研究發(fā)現(xiàn),詐騙電話、疑似詐騙電話普遍都具有較明顯的特征差異,例如,詐 騙電話具有忙時(shí)高頻呼叫、被叫用戶相對(duì)集中、呼叫時(shí)間間隔離散度較高的特征,疑似詐騙 電話具有高頻呼叫、被叫用戶相對(duì)分散、呼叫圈重合度較高、呼叫時(shí)間離散度較高的特征, 非詐騙電話具有低頻呼叫且時(shí)間集中,呼叫圈重合度較低、主叫呼叫行為較少、忙時(shí)基本無 呼叫行為的特征。因此,本發(fā)明可以采用聚類算法,根據(jù)話單記錄中所有主叫號(hào)碼的多個(gè)特 征指標(biāo)值來對(duì)主叫號(hào)碼進(jìn)行特征分類,將具有相同或相似特征的主叫號(hào)碼分到一個(gè)簇中, 也即是,將全部用戶分為具有明顯特征差異的多個(gè)簇,再通過和已確認(rèn)詐騙電話的特征對(duì) t匕,從而找到和已確認(rèn)詐騙電話特征最接近的詐騙電話簇、以及較接近的疑似詐騙電話簇。 對(duì)于詐騙電話簇和疑似詐騙電話簇,本發(fā)明再進(jìn)一步采用邏輯回歸算法來精準(zhǔn)識(shí)別出其中 的詐騙電話和疑似詐騙電話,從而實(shí)現(xiàn)全網(wǎng)范圍內(nèi)詐騙電話的精準(zhǔn)識(shí)別和攔截。
[0024] 如圖1所示,本發(fā)明一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法,包括有:
[0025] 步驟一、根據(jù)所采集的話單記錄,計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的若干個(gè) 特征指標(biāo)值,然后采用聚類算法將所有主叫號(hào)碼劃分到三個(gè)簇中,從而使得每個(gè)簇中的主 叫號(hào)碼具有相同或相近的特征指標(biāo)值;
[0026] 步驟二、將已確認(rèn)詐騙號(hào)碼的特征指標(biāo)值分別和三個(gè)簇中主叫號(hào)碼的特征指標(biāo)值 進(jìn)行匹配,如果特征指標(biāo)值所構(gòu)成的取值區(qū)間越接近則說明匹配相似度越高,最后將其中 匹配相似度最高的簇設(shè)置為詐騙電話簇、匹配相似度次之的簇設(shè)置為疑似詐騙電話簇;
[0027] 由于詐騙電話、疑似詐騙電話具有相同或相似的特征,可以選取多個(gè)有明顯差異 的特征指標(biāo),通過不斷的試運(yùn)行和驗(yàn)證發(fā)現(xiàn),本發(fā)明可以選取如下特征指標(biāo)來有效識(shí)別詐 騙電話和非詐騙電話:主叫呼叫頻次、被叫號(hào)碼個(gè)數(shù)、呼叫時(shí)間間隔標(biāo)準(zhǔn)差、頻繁被叫號(hào)碼 呼叫次數(shù)、最高呼叫時(shí)段、呼叫同一被叫號(hào)碼次數(shù)的最大值、呼叫同一被叫號(hào)碼次數(shù)的第二 大值、呼叫同一被叫號(hào)碼次數(shù)的第三大值。判斷上述多個(gè)特征指標(biāo)值是否和已確認(rèn)詐騙電 話的特征指標(biāo)值在相同、或相近的區(qū)間范圍內(nèi),當(dāng)特征指標(biāo)值越接近,則說明匹配相似度越 高。同時(shí),還可以將三個(gè)簇中的主叫號(hào)碼和已確認(rèn)詐騙號(hào)碼進(jìn)行比對(duì),從而統(tǒng)計(jì)出三個(gè)簇中 已確認(rèn)詐騙號(hào)碼的個(gè)數(shù)。最后,從多個(gè)特征指標(biāo)值的匹配相似度、已確認(rèn)詐騙號(hào)碼的個(gè)數(shù)等 多種因素綜合考慮,從三個(gè)簇中遴選出一個(gè)詐騙電話簇、和一個(gè)疑似詐騙電話簇;
[0028] 步驟三、采用邏輯回歸算法,分別計(jì)算詐騙號(hào)碼簇、或疑似詐騙號(hào)碼簇中每個(gè)主叫 號(hào)碼的詐騙可疑度指數(shù): 其中,是簇j中的第i個(gè)主叫號(hào)碼, 9 j = 1或2,簇1是詐騙號(hào)碼簇,簇2是疑似詐騙號(hào)碼簇,Y(Zip是主叫號(hào)碼的詐騙特征 值,
【權(quán)利要求】
1. 一種基于聚類算法的實(shí)時(shí)攔截詐騙電話的方法,其特征在于,包括有: 步驟一、根據(jù)所采集的話單記錄,計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的若干個(gè)特征 指標(biāo)值,然后采用聚類算法將所有主叫號(hào)碼劃分到三個(gè)簇中,從而使得每個(gè)簇中的主叫號(hào) 碼具有相同或相近的特征指標(biāo)值; 步驟二、將已確認(rèn)詐騙號(hào)碼的特征指標(biāo)值分別和三個(gè)簇中主叫號(hào)碼的特征指標(biāo)值進(jìn)行 匹配,如果特征指標(biāo)值所構(gòu)成的取值區(qū)間越接近則說明匹配相似度越高,最后將其中匹配 相似度最高的簇設(shè)置為詐騙電話簇、匹配相似度次之的簇設(shè)置為疑似詐騙電話簇; 步驟三、將詐騙號(hào)碼簇、和疑似詐騙號(hào)碼簇中的所有主叫號(hào)碼分別更新到取證號(hào)碼表、 和攔截號(hào)碼表中。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟二和步驟三之間還包括有: 采用邏輯回歸算法,分別計(jì)算詐騙號(hào)碼簇、或疑似詐騙號(hào)碼簇中每個(gè)主叫號(hào)碼的詐 騙可疑度指數(shù)
其中,h是簇j中的第i個(gè)主叫號(hào)碼,j= 1 或2,簇1是詐騙號(hào)碼簇,簇2是疑似詐騙號(hào)碼簇,Y(Zip是主叫號(hào)碼Zu的詐騙特征值, N 巧N是特征指標(biāo)數(shù),aJt是簇j中的特征指標(biāo)t的權(quán)重系數(shù),λ·/是主 tI11 叫號(hào)碼h的特征指標(biāo)t的值,是簇j的極大似然估計(jì)值,然后判斷主叫號(hào)碼的詐騙可疑 度指數(shù)是否大于詐騙可疑度指數(shù)的閾值,如果否,則從主叫號(hào)碼所歸屬的詐騙號(hào)碼簇、或疑 似詐騙號(hào)碼簇中刪除所述主叫號(hào)碼,所述詐騙可疑度指數(shù)的閾值是在區(qū)間[〇,1)之間的一 個(gè)實(shí)數(shù)。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟一進(jìn)一步包括有: 步驟11、計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的若干個(gè)特征指標(biāo)值,并為所有主叫號(hào) 碼分別構(gòu)建對(duì)應(yīng)的特征指標(biāo)集:Xi= (xn,Xu,…,xiN),其中Xi是主叫號(hào)碼Zi的特征指標(biāo) 集,xn、xi2、…xiN分別是主叫號(hào)碼Zi的若干個(gè)特征指標(biāo)值,N是特征指標(biāo)數(shù); 步驟12、構(gòu)建三個(gè)簇:簇1、簇2和簇3,并將所有主叫號(hào)碼隨機(jī)劃分到三個(gè)簇中,其中 每個(gè)主叫號(hào)碼都唯一的歸屬于一個(gè)簇; 步驟13、計(jì)算每個(gè)簇的特征指標(biāo)中心值集Cj : ( < 4 >其中Cj是簇j的 特征指標(biāo)中心值集,j= 1、2或3,e/是中的特征指標(biāo)t的中心值,t是1到N之間的一
?是簇j中的主叫號(hào)碼Zu的特征指標(biāo)t的值; 個(gè)自然數(shù),ii是1到之間的一個(gè)自然數(shù),是簇j中的主叫號(hào)碼數(shù),P Λ?ι 步驟14、計(jì)算所有主叫號(hào)碼的平方誤差和 并判斷E是否
> 小于或等于E的閾值,如果是,則本流程結(jié)束;如果否,則再計(jì)算每個(gè)主叫號(hào)碼和所有簇的 特征指標(biāo)中心值集之間的距離,并從中挑選距離的最小值,然后將主叫號(hào)碼重新劃分到距 離的最小值所對(duì)應(yīng)的簇中,其中主叫號(hào)碼Zi和簇j的特征指標(biāo)中心值集之間的距離的計(jì)算 公式如下:
it是主叫號(hào)碼Zi的特征指標(biāo)t的值,然后轉(zhuǎn)向步驟 13,其中,E的閾值是O到1之間的一個(gè)數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)用戶發(fā)起呼叫時(shí),包括有: 步驟A1、主叫移動(dòng)交換中心MSC將用戶發(fā)起的呼叫觸發(fā)至業(yè)務(wù)控制點(diǎn)SCP,SCP判斷 所述呼叫請(qǐng)求的主叫號(hào)碼是否在取證號(hào)碼表或攔截號(hào)碼表中,如果是,則向主叫MSC返回 呼叫接續(xù)消息,所述呼叫接續(xù)消息中攜帶有取證路由號(hào)或攔截路由號(hào)信息,并指示主叫MSC 將呼叫繼續(xù)觸發(fā)至防詐騙平臺(tái),其中,當(dāng)主叫號(hào)碼在取證號(hào)碼表中時(shí),則呼叫接續(xù)消息中攜 帶取證路由號(hào),當(dāng)主叫號(hào)碼在攔截號(hào)碼表中時(shí),則呼叫接續(xù)消息中攜帶有攔截路由號(hào)。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括有: 步驟A2、防詐騙平臺(tái)接收到主叫MSC發(fā)送來的呼叫請(qǐng)求時(shí),判斷呼叫請(qǐng)求中是否攜帶 有取證路由號(hào),如果是,則對(duì)呼叫請(qǐng)求中主、被叫之間的語音通道進(jìn)行橋接,然后對(duì)主叫語 音進(jìn)行單向錄音,生成一個(gè)錄音文件,然后將所述錄音文件保存到自然音樣本庫、或重復(fù)音 樣本庫中,本流程結(jié)束;如果否,則繼續(xù)下一步; 步驟A3、防詐騙平臺(tái)判斷呼叫請(qǐng)求中是否攜帶有攔截路由號(hào),如果是,則對(duì)呼叫請(qǐng)求中 主、被叫之間的語音通道進(jìn)行橋接,然后對(duì)主叫語音進(jìn)行單向錄音,錄音S秒后生成一個(gè)錄 音文件,然后將錄音文件逐一和重復(fù)音樣本庫、自然音樣本庫中的所有詐騙樣本--比對(duì), 當(dāng)錄音文件和詐騙樣本是相同語音時(shí),則說明所述錄音文件是詐騙電話,指示被叫MSC中 斷主、被叫之間的語音通道。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟A3中,將錄音文件和重復(fù)音樣本庫中 的詐騙樣本 比對(duì),進(jìn)一步包括有: 步驟A31、為錄音文件構(gòu)建一個(gè)時(shí)間特征值集:從錄音文件的語音起始點(diǎn)開始,以η秒 為一幀,逐一從錄音文件中順序提取出G個(gè)W幀語音信息,并利用語音端點(diǎn)檢測(cè)技術(shù),計(jì)算 每個(gè)W幀語音信息中有效語音起始點(diǎn)到結(jié)束點(diǎn)之間的幀數(shù),將所述幀數(shù)記為所述W幀語音 信息的時(shí)間特征值,然后將計(jì)算出的G個(gè)時(shí)間特征值按照錄音文件的先后次序保存到錄音 文件的時(shí)間特征值集中; 步驟Α32、為錄音文件構(gòu)建一個(gè)能量特征值集:從錄音文件的語音起始點(diǎn)開始,以η秒 為一幀,逐一從錄音文件或詐騙樣本中順序提取出G*W幀語音信息,并計(jì)算每一幀語音信 息的短時(shí)能量值,將所述短時(shí)能量值記為每幀語音信息的能量特征值,然后將所述G*W個(gè) 能量特征值按照錄音文件的先后次序保存到錄音文件的能量特征值集中; 步驟A33、從重復(fù)音樣本庫中讀取一個(gè)詐騙樣本的時(shí)間特征值集和能量特征值集; 步驟A34、將錄音文件和詐騙樣本各自的時(shí)間特征值集中處于相同排序位置的時(shí)間特 征值逐一比對(duì),從而計(jì)算出錄音文件和詐騙樣本的時(shí)間特征值集中的時(shí)間特征值相同數(shù)TS; 步驟A35、分別從錄音文件和詐騙樣本的能量特征值集中提取前K個(gè)能量特征值; 步驟A36、計(jì)算詐騙樣本和錄音文件的能量放大倍數(shù):
其中,YEb是詐 騙樣本的能量特征值集中的第b個(gè)能量特征值,GEb是錄音文件的能量特征值集中的第b個(gè) 能量特征值; 步驟A37、根據(jù)能量放大倍數(shù)B,對(duì)錄音文件的能量特征值集中的每個(gè)能量特征值進(jìn)行 調(diào)整:GEb =BXGEb,其中,b是1到G*W之間的自然數(shù); 步驟A38、將錄音文件和詐騙樣本的能量特征值集中處于相同排序位置的能量特征值 逐一比對(duì),從而計(jì)算出錄音文件和詐騙樣本的能量特征值集中的能量特征值相同數(shù)ES;
張?bào)EAl并管吾杳文件和詐騙樣本的詐騙語音置信度: 其中,F(xiàn)是置信度的加權(quán)系數(shù),并判斷錄音文件和詐騙樣本 的詐騙語音置信度是否大于詐騙語音置信度的閾值CC,如果是,則表示錄音文件和詐騙樣 本是相同語音,本流程結(jié)束;如果否,則表示錄音文件和詐騙樣本不是相同語音,繼續(xù)從重 復(fù)音樣本庫中讀取下一個(gè)詐騙樣本的時(shí)間特征值集和能量特征值集,然后轉(zhuǎn)向步驟A34。
7. -種基于聚類算法的實(shí)時(shí)攔截詐騙電話的系統(tǒng),其特征在于,包括有防詐騙平臺(tái),其 中,防詐騙平臺(tái)進(jìn)一步包括有: 聚類分析裝置,用于根據(jù)所采集的話單記錄,計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的 若干個(gè)特征指標(biāo)值,然后采用聚類算法將所有主叫號(hào)碼劃分到三個(gè)簇中,從而使得每個(gè)簇 中的主叫號(hào)碼具有相同或相近的特征指標(biāo)值,再將已確認(rèn)詐騙號(hào)碼的特征指標(biāo)值分別和三 個(gè)簇中主叫號(hào)碼的特征指標(biāo)值進(jìn)行匹配,如果特征指標(biāo)值所構(gòu)成的取值區(qū)間越接近則說明 匹配相似度越高,最后將其中匹配相似度最高的簇設(shè)置為詐騙電話簇、匹配相似度次之的 簇設(shè)置為疑似詐騙電話簇; 號(hào)碼表更新裝置,用于將詐騙號(hào)碼簇、和疑似詐騙號(hào)碼簇中的所有主叫號(hào)碼分別更新 到取證號(hào)碼表、和攔截號(hào)碼表中。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,防詐騙平臺(tái)還包括有: 邏輯回歸裝置,用于采用邏輯回歸算法,分別計(jì)算詐騙號(hào)碼簇、或疑似詐騙號(hào)碼簇中每 個(gè)主叫號(hào)碼的詐騙可疑度指數(shù)
其中,Zu是簇j中的第i個(gè)主叫 號(hào)碼,j= 1或2,簇1是詐騙號(hào)碼簇,簇2是疑似詐騙號(hào)碼簇,Y(Zu)是主叫號(hào)碼~的詐騙 特征值
N是特征指標(biāo)數(shù),α#是簇j中的特征指標(biāo)t的權(quán)重系數(shù), 是主叫號(hào)碼Zu的特征指標(biāo)t的值,h是簇j的極大似然估計(jì)值,然后判斷主叫號(hào)碼的 詐騙可疑度指數(shù)是否大于詐騙可疑度指數(shù)的閾值,如果否,則從主叫號(hào)碼所歸屬的詐騙號(hào) 碼簇、或疑似詐騙號(hào)碼簇中刪除所述主叫號(hào)碼。
9. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,聚類分析裝置還進(jìn)一步包括有: 特征指標(biāo)構(gòu)建單元,用于計(jì)算所有主叫號(hào)碼在一定時(shí)間周期內(nèi)的若干個(gè)特征指標(biāo)值, 并為所有主叫號(hào)碼分別構(gòu)建對(duì)應(yīng)的特征指標(biāo)集=Xi = (xn,Xi2,…,xiN),其中Xi是主叫號(hào) 碼Zi的特征指標(biāo)集,xn、xi2、…xiN分別是主叫號(hào)碼Zi的若干個(gè)特征指標(biāo)值,N是特征指標(biāo) 數(shù); 簇構(gòu)建初始化單元,用于構(gòu)建三個(gè)簇:簇1、簇2和簇3,并將所有主叫號(hào)碼隨機(jī)劃分到 三個(gè)簇中,其中每個(gè)主叫號(hào)碼都唯一的歸屬于一個(gè)簇; 簇中心計(jì)算單元,用于計(jì)算每個(gè)簇的特征指標(biāo)中心值集Cj : c2Gv>其 中q是簇j的特征指標(biāo)中心值集,j= 1、2或3,?1是q中的特征指標(biāo)t的中心值,t是1 到N之間的一個(gè)自然數(shù),i
?是1到之間的一個(gè)自然數(shù),Mj是簇j中的主 f
叫號(hào)碼數(shù),χ/是簇j中的主叫號(hào)碼Zu的特征指標(biāo)t的值,然后通知簇調(diào)整單元計(jì)算所有主 叫號(hào)碼的平方誤差和; 簇調(diào)整單元,用于計(jì)算所有主叫號(hào)碼的平方誤差和 并 判斷E是否小于或等于E的閾值,如果否,則再計(jì)算每個(gè)主叫號(hào)碼和所有簇的特征指標(biāo)中 心值集之間的距離,并從中挑選距離的最小值,然后將主叫號(hào)碼重新劃分到距離的最小值 所對(duì)應(yīng)的簇中,其中主叫號(hào)碼Zi和簇j的特征指標(biāo)中心值集之間的距離的計(jì)算公式如下:
:it是主叫號(hào)碼Zi的特征指標(biāo)t的值,最后通知簇中心計(jì)算單元重 新計(jì)算每個(gè)簇的特征指標(biāo)中心值集,其中,E的閾值是O到1之間的一個(gè)數(shù)。
10. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括有: 業(yè)務(wù)控制點(diǎn)SCP,用于當(dāng)接收到主叫移動(dòng)交換中心MSC轉(zhuǎn)發(fā)來的用戶呼叫請(qǐng)求時(shí),判斷 所述呼叫請(qǐng)求的主叫號(hào)碼是否在取證號(hào)碼表或攔截號(hào)碼表中,如果是,則向主叫MSC返回 呼叫接續(xù)消息,所述呼叫接續(xù)消息中攜帶有取證路由號(hào)或攔截路由號(hào)信息,并指示主叫MSC 將呼叫繼續(xù)觸發(fā)至防詐騙平臺(tái),其中,當(dāng)主叫號(hào)碼在取證號(hào)碼表中時(shí),則呼叫接續(xù)消息中攜 帶取證路由號(hào),當(dāng)主叫號(hào)碼在攔截號(hào)碼表中時(shí),則呼叫接續(xù)消息中攜帶攔截路由號(hào)。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,防詐騙平臺(tái)還包括有: 呼叫轉(zhuǎn)發(fā)裝置,用于接收到主叫MSC發(fā)送來的呼叫請(qǐng)求時(shí),判斷呼叫請(qǐng)求中是否攜帶 有取證路由號(hào)或攔截路由號(hào),如果攜帶有取證路由號(hào),則通知錄音取證裝置,如果攜帶有攔 截路由號(hào),則通知詐騙攔截裝置; 錄音取證裝置,用于對(duì)呼叫請(qǐng)求中主、被叫之間的語音通道進(jìn)行橋接,然后對(duì)主叫語音 進(jìn)行單向錄音,生成一個(gè)錄音文件,并將所述錄音文件保存到自然音樣本庫、或重復(fù)音樣本 庫中; 詐騙攔截裝置,用于對(duì)呼叫請(qǐng)求中主、被叫之間的語音通道進(jìn)行橋接,然后對(duì)主叫語音 進(jìn)行單向錄音,錄音S秒后生成一個(gè)錄音文件,再將錄音文件逐一和重復(fù)音樣本庫、自然音 樣本庫中的所有詐騙樣本 比對(duì),當(dāng)錄音文件和詐騙樣本是相同語音時(shí),則指示被叫MSC 中斷主、被叫之間的語音通道。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,詐騙攔截裝置進(jìn)一步包括有重復(fù)音識(shí) 別單元,所述重復(fù)音識(shí)別單元進(jìn)一步包括有: 時(shí)間特征構(gòu)建部件,用于為錄音文件、或重復(fù)音樣本庫中每個(gè)詐騙樣本構(gòu)建各自的時(shí) 間特征值集:從錄音文件或詐騙樣本的語音起始點(diǎn)開始,以η秒為一巾貞,逐一從錄音文件或 詐騙樣本中順序提取出G個(gè)W幀語音信息,并利用語音端點(diǎn)檢測(cè)技術(shù),計(jì)算每個(gè)W幀語音信 息中有效語音起始點(diǎn)到結(jié)束點(diǎn)之間的幀數(shù),將所述幀數(shù)記為所述W幀語音信息的時(shí)間特征 值,然后將計(jì)算出的G個(gè)時(shí)間特征值按照錄音文件或詐騙樣本中的先后次序保存到錄音文 件或詐騙樣本的時(shí)間特征值集中; 能量特征構(gòu)建部件,用于為錄音文件、或重復(fù)音樣本庫中每個(gè)詐騙樣本構(gòu)建各自的能 量特征值集:從錄音文件或詐騙樣本的語音起始點(diǎn)開始,以η秒為一幀,逐一從錄音文件、 或詐騙樣本中順序提取出G*W幀語音信息,并計(jì)算每一幀語音信息的短時(shí)能量值,將所述 短時(shí)能量值記為每幀語音信息的能量特征值,然后將所述G*W個(gè)能量特征值按照錄音文 件、或詐騙樣本的先后次序保存到錄音文件、或詐騙樣本的能量特征值集中; 詐騙置信度計(jì)算部件,用于從重復(fù)音樣本庫中讀取每個(gè)詐騙樣本的時(shí)間特征值集和能 量特征值集,并將錄音文件和詐騙樣本的時(shí)間特征值集發(fā)送給時(shí)間特征識(shí)別部件,同時(shí)將 錄音文件和詐騙樣本的能量特征值集發(fā)送給能量特征識(shí)別部件,然后計(jì)算錄音文件和詐騙 fg £5 樣本的詐騙語音置信度:Cw?/' = + 其中,F(xiàn)是置信度的加權(quán)系數(shù),并 f 判斷錄音文件和詐騙樣本的詐騙語音置信度是否大于閾值CC,如果是,則表示錄音文件和 詐騙樣本是相同語音;如果否,則表示錄音文件和詐騙樣本不是相同語音; 時(shí)間特征識(shí)別部件,用于將錄音文件和詐騙樣本各自的時(shí)間特征值集中處于相同排序 位置的時(shí)間特征值逐一比對(duì),從而計(jì)算出錄音文件和詐騙樣本的時(shí)間特征值集中的時(shí)間特 征值相同數(shù)TS; 能量特征識(shí)別部件,用于從錄音文件和詐騙樣本各自的能量特征值集中提取前K個(gè)能 量特征值,然后計(jì)算詐騙樣本和錄音文件的能量放大倍數(shù):
其中,YEb是詐 騙樣本的能量特征值集中的第b個(gè)能量特征值,GEb是錄音文件的能量特征值集中的第b個(gè) 能量特征值,再根據(jù)能量放大倍數(shù)B,對(duì)錄音文件的能量特征值集中的每個(gè)能量特征值進(jìn)行 調(diào)整:GEb =BXGEb,其中,b是1到G*W之間的自然數(shù),最后將錄音文件和詐騙樣本的能量 特征值集中處于相同排序位置的能量特征值逐一比對(duì),從而計(jì)算出錄音文件和詐騙樣本的 能量特征值集中的能量特征值相同數(shù)ES。
【文檔編號(hào)】H04M3/436GK104469025SQ201410693578
【公開日】2015年3月25日 申請(qǐng)日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】廖建新, 王彥青, 林大慶, 林建洪, 張錦然, 單瑞超, 馬憲 申請(qǐng)人:杭州東信北郵信息技術(shù)有限公司