基于機器學習來預測數據審核目標的方法及系統(tǒng)的制作方法
【專利摘要】提供了一種基于機器學習來預測數據審核目標的方法及系統(tǒng)。所述方法包括:(A)獲取待審核數據記錄和至少一條驗證數據記錄;(B)基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度;(C)利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。通過上述方式,能夠克服現有的數據審核方式耗費人力的缺陷。
【專利說明】
基于機器學習來預測數據審核目標的方法及系統(tǒng)
技術領域
[0001 ]本發(fā)明總體說來涉及數據科學領域,更具體地說,涉及一種基于機器學習來預測數據審核目標的方法及系統(tǒng)。
【背景技術】
[0002]在現實生活中,常常需要對諸如客戶信息、項目信息、資產信息、交易信息等各種數據進行審核,以基于審核結果來作出業(yè)務判斷。
[0003]例如,在諸如申請事務、辦理交易、報名活動等各種場景中,會產生(手動填寫或通過其他方式來產生)關于身份、資產、聯(lián)系信息、事務特性、交易特性或活動特性等各種屬性信息。相應地,有關單位、組織和機構等需對這些信息數據進行審核,從而作出關于申請是否合規(guī)、交易是否合法或是否準許參加活動等的業(yè)務判斷。
[0004]以申請信用卡作為示例,有關方面會審核申請者填寫的信息數據是否真實準確,以判斷出申請者是否涉及欺詐行為。通常,為了審核出信用卡申請者是否為期望不當獲利的欺詐客戶,信用卡中心的工作人員會人工核實申請者填寫的工作單位、職務、收入、聯(lián)系電話等信息是否準確。具體說來,工作人員需要首先核查工作單位的信息是否有效,然后聯(lián)絡該單位的相關負責人員以詢問申請者的真實職務和收入等。此外,工作人員還需要手動撥打申請者或其緊急聯(lián)系人的聯(lián)系電話以核實該號碼是否屬于申請者或其緊急聯(lián)系人本人等。
[0005]從上述示例可以看出,傳統(tǒng)的審核方式需要耗費較大的人力成本,而且被審核主體可以通過串通等方式輕易地迷惑審核人員,從而達到不正當的目的。
【發(fā)明內容】
[0006]本發(fā)明的示例性實施例旨在克服現有的數據審核方式耗費人力的缺陷。
[0007]根據本發(fā)明的示例性實施例,提供一種基于機器學習來預測數據審核目標的方法,包括:(A)獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息;(B)基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度;(C)利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
[0008]可選地,在所述方法中,所述至少一條驗證數據記錄可分別產生自各個數據源和/或抽取自所述待審核數據記錄。
[0009]可選地,在所述方法中,步驟(B)可包括:(BI)基于所述至少一條驗證數據記錄來預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息;(B2)針對所述每一個屬性,分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異,并且,基于針對所述至少一個屬性計算出的所有差異的集合來獲得待審核數據記錄的屬性真實度特征。
[0010]可選地,在所述方法中,在步驟(B2)中,可通過基于所述每一個屬性的屬性信息分別與預測出的所述至少一個預測屬性信息之間的差值各自的統(tǒng)計分布特性來分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異。
[0011 ]可選地,在所述方法中,在步驟(BI)中,可將所述至少一條驗證數據記錄分別輸入基于機器學習而訓練出的至少一個屬性驗證模型,以預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息。
[0012]可選地,在所述方法中,在步驟(BI)中,可將產生自各個數據源的驗證數據記錄本身包括的關于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關于所述每一個屬性的至少一個預測屬性信息。
[0013]可選地,在所述方法中,在步驟(BI)中,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;并且,在所述驗證數據記錄本身不包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0014]可選地,在所述方法中,在步驟(BI)中,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異未超出預設的時間間隔時,可將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異超出所述時間間隔時,可將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0015]優(yōu)選地,在步驟(C)之后,所述方法可還包括:(D)將預測結果連同屬性真實度特征展示給用戶。
[0016]優(yōu)選地,在所述方法中,在步驟(D)中,可向用戶展示與屬性真實度特征之中的較大差異相應的屬性信息和關于所述屬性信息的預測屬性信息;并且/或者,可向用戶展示與屬性真實度特征之中起主要預測作用的差異相應的屬性信息和關于所述屬性信息的預測屬性信息。
[0017]優(yōu)選地,在所述方法中,在步驟(D)中,可將所展示的預測屬性信息顯示在所述預測屬性信息的統(tǒng)計分布示圖中。
[0018]優(yōu)選地,在步驟(D)之后,所述方法可還包括:(E)從用戶接收關于數據審核目標的實際結果的反饋,其中,所述反饋被用于訓練目標預測模型和/或屬性驗證模型。
[0019]優(yōu)選地,在所述方法中,在步驟(C)中,可根據計算出的屬性真實度特征連同基于待審核數據記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數據記錄關于數據審核目標的預測結果。
[0020]根據本發(fā)明的另一示例性實施例,提供一種基于機器學習來預測數據審核目標的系統(tǒng),包括:數據獲取裝置,用于獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息;屬性驗證裝置,用于基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度;目標預測裝置,用于利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
[0021]優(yōu)選地,在所述系統(tǒng)中,所述至少一條驗證數據記錄可分別產生自各個數據源和/或抽取自所述待審核數據記錄。
[0022]優(yōu)選地,在所述系統(tǒng)中,屬性驗證裝置可基于所述至少一條驗證數據記錄來預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息;并且,屬性驗證裝置可針對所述每一個屬性,分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異,并基于針對所述至少一個屬性計算出的所有差異的集合來獲得待審核數據記錄的屬性真實度特征。
[0023]優(yōu)選地,在所述系統(tǒng)中,屬性驗證裝置可針對所述每一個屬性,通過基于所述每一個屬性的屬性信息分別與預測出的所述至少一個預測屬性信息之間的差值各自的統(tǒng)計分布特性來分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異。
[0024]優(yōu)選地,在所述系統(tǒng)中,屬性驗證裝置可將所述至少一條驗證數據記錄分別輸入基于機器學習而訓練出的至少一個屬性驗證模型,以預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息。
[0025]優(yōu)選地,在所述系統(tǒng)中,屬性驗證裝置可將產生自各個數據源的驗證數據記錄本身包括的關于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關于所述每一個屬性的至少一個預測屬性信息。
[0026]優(yōu)選地,在所述系統(tǒng)中,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗證裝置可將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;并且,在所述驗證數據記錄本身不包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗證裝置可將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0027]優(yōu)選地,在所述系統(tǒng)中,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異未超出預設的時間間隔時,屬性驗證裝置可將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異超出所述時間間隔時,屬性驗證裝置可將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0028]優(yōu)選地,所述系統(tǒng)可還包括:展示裝置,用于將預測結果連同屬性真實度特征展示給用戶。
[0029]優(yōu)選地,在所述系統(tǒng)中,展示裝置可還向用戶展示與屬性真實度特征之中的較大差異相應的屬性信息和關于所述屬性信息的預測屬性信息;并且/或者,展示裝置可還向用戶展示與屬性真實度特征之中起主要預測作用的差異相應的屬性信息和關于所述屬性信息的預測屬性信息。
[0030]優(yōu)選地,在所述系統(tǒng)中,展示裝置可將所展示的預測屬性信息顯示在所述預測屬性信息的統(tǒng)計分布示圖中。
[0031]優(yōu)選地,所述系統(tǒng)可還包括:反饋裝置,用于從用戶接收關于數據審核目標的實際結果的反饋,其中,所述反饋被用于訓練目標預測模型和/或屬性驗證模型。
[0032]優(yōu)選地,在所述系統(tǒng)中,目標預測裝置可根據計算出的屬性真實度特征連同基于待審核數據記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數據記錄關于數據審核目標的預測結果。
[0033]根據本發(fā)明的另一示例性實施例,提供一種基于機器學習來預測數據審核目標的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:(A)獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息;(B)基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度;
(C)利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
[0034]可選地,在所述計算裝置中,所述至少一條驗證數據記錄可分別產生自各個數據源和/或抽取自所述待審核數據記錄。
[0035]可選地,在所述計算裝置中,步驟(B)可包括:(BI)基于所述至少一條驗證數據記錄來預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息;(B2)針對所述每一個屬性,分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異,并且,基于針對所述至少一個屬性計算出的所有差異的集合來獲得待審核數據記錄的屬性真實度特征。
[0036]可選地,在所述計算裝置中,在步驟(B2)中,可通過基于所述每一個屬性的屬性信息分別與預測出的所述至少一個預測屬性信息之間的差值各自的統(tǒng)計分布特性來分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異。
[0037]可選地,在所述計算裝置中,在步驟(BI)中,可將所述至少一條驗證數據記錄分別輸入基于機器學習而訓練出的至少一個屬性驗證模型,以預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息。
[0038]可選地,在所述計算裝置中,在步驟(BI)中,可將產生自各個數據源的驗證數據記錄本身包括的關于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關于所述每一個屬性的至少一個預測屬性信息。
[0039]可選地,在所述計算裝置中,在步驟(BI)中,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;并且,在所述驗證數據記錄本身不包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,可將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0040]可選地,在所述計算裝置中,在步驟(BI)中,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異未超出預設的時間間隔時,可將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異超出所述時間間隔時,可將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0041]可選地,在所述計算裝置中,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,在步驟(C)之后,還可執(zhí)行以下步驟:(D)將預測結果連同屬性真實度特征展示給用戶。
[0042]可選地,在所述計算裝置中,在步驟(D)中,可向用戶展示與屬性真實度特征之中的較大差異相應的屬性信息和關于所述屬性信息的預測屬性信息;并且/或者,可向用戶展示與屬性真實度特征之中起主要預測作用的差異相應的屬性信息和關于所述屬性信息的預測屬性信息。
[0043]可選地,在所述計算裝置中,在步驟(D)中,可將所展示的預測屬性信息顯示在所述預測屬性信息的統(tǒng)計分布示圖中。
[0044]可選地,在所述計算裝置中,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,在步驟(D)之后,還可執(zhí)行以下步驟:(E)從用戶接收關于數據審核目標的實際結果的反饋,其中,所述反饋被用于訓練目標預測模型和/或屬性驗證模型。
[0045]可選地,在所述計算裝置中,在步驟(C)中,可根據計算出的屬性真實度特征連同基于待審核數據記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數據記錄關于數據審核目標的預測結果。
[0046]在根據本發(fā)明示例性實施例的基于機器學習來預測數據審核目標的方法及系統(tǒng)中,能夠借助額外的驗證數據記錄,基于機器學習模型來實現對待審核數據記錄的自動審核。
【附圖說明】
[0047]從下面結合附圖對本發(fā)明實施例的詳細描述中,本發(fā)明的這些和/或其他方面和優(yōu)點將變得更加清楚并更容易理解,其中:
[0048]圖1示出根據本發(fā)明示例性實施例的基于機器學習來預測數據審核目標的系統(tǒng)的框圖;
[0049]圖2示出根據本發(fā)明示例性實施例的基于機器學習來預測數據審核目標的方法的流程圖;
[0050]圖3示出根據本發(fā)明示例性實施例的獲得待審核數據記錄的屬性真實度特征的示例;以及
[0051]圖4示出根據本發(fā)明另一示例性實施例的基于機器學習來預測數據審核目標的系統(tǒng)的框圖。
【具體實施方式】
[0052]為了使本領域技術人員更好地理解本發(fā)明,下面結合附圖和【具體實施方式】對本發(fā)明的示例性實施例作進一步詳細說明。
[0053]在本發(fā)明的示例性實施例中,通過以下方式來實現數據審核:利用基于機器學習技術訓練出的目標預測模型,針對融合有待審核數據和驗證數據兩者的預測樣本特征給出關于數據審核目標的預測結果。機器學習是人工智能研究發(fā)展到一定階段的必然產物,其致力于通過計算的手段,利用經驗來改善系統(tǒng)自身的性能。在計算機系統(tǒng)中,“經驗”通常以“數據”形式存在,通過機器學習算法,可從數據中產生“模型”,也就是說,將經驗數據提供給機器學習算法,就能基于這些經驗數據產生模型,在面對新的情況時,模型會提供相應的判斷,即,預測結果。機器學習可被實現為“有監(jiān)督學習”、“無監(jiān)督學習”或“半監(jiān)督學習”的形式,應注意,本發(fā)明對具體的機器學習算法并不進行特定限制。此外,還應注意,在訓練和應用所述目標預測模型的過程中,還可利用統(tǒng)計算法、業(yè)務規(guī)則和/或專家知識等,以進一步提高預測結果的準確性。
[0054]圖1示出根據本發(fā)明示例性實施例的基于機器學習來預測數據審核目標的系統(tǒng)的框圖。具體說來,所述預測系統(tǒng)提出了一種基于待審核數據和驗證數據來預測數據審核目標的處理體系結構,其中,驗證數據被用于驗證待審核數據的屬性信息。圖1所示的系統(tǒng)可全部通過計算機程序以軟件方式來實現,也可由專門的硬件裝置來實現,還可通過軟硬件結合的方式來實現。相應地,組成圖1所示的系統(tǒng)的各個裝置可以是僅依靠計算機程序來實現相應功能的虛擬模塊,也可以是依靠硬件結構來實現所述功能的通用或專用器件,還可以是運行有相應計算機程序的處理器等。利用所述系統(tǒng),不僅能夠幫助用戶自動審核數據,而且在自動審核過程中,能夠充分利用驗證數據的原始信息,從而較為有效地預測出審核目標。
[0055]如圖1所示,數據獲取裝置10用于獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息。
[0056]根據本發(fā)明的示例性實施例,數據審核是指對待審核數據記錄的屬性信息內容進行審查,這些數據可以是客戶手動填寫的數據、客戶在線提交的數據、預先存儲或生成的數據、也可以是從外部接收的數據。這些數據可涉及客戶自身的信息,例如,身份、學歷、職業(yè)、資產、聯(lián)系方式等信息?;蛘撸@些數據也可涉及業(yè)務相關項目的信息,例如,關于買賣合同的交易額、交易雙方、標的物、交易地點等信息。應注意,本發(fā)明的示例性實施例中提到的信息內容可涉及任何對象或事務在某方面的表現或性質,而不限于對個人、物體、組織、單位、機構、項目、事件等進行限定或描述。實際上,任何能夠通過對其進行審核而作出業(yè)務判斷的信息數據均可應用于本發(fā)明的示例性實施例。
[0057]具體說來,在本發(fā)明的示例性實施例中,對數據進行審核,主要是為了基于數據的屬性信息來作出業(yè)務判斷。也就是說,這里的數據審核目標旨在作出某項業(yè)務判斷,而該業(yè)務判斷的依據是被審核的屬性信息。
[0058]作為示例,這里的業(yè)務判斷可以是關于屬性信息的真實性的結論,S卩,判斷待審核數據記錄是否涉及欺詐。相應地,數據審核目標可指示信用卡申請的欺詐判斷、信用卡交易的欺詐判斷等。例如,申請信用卡的客戶需要填寫自己的身份、職業(yè)、學歷、收入、聯(lián)系方式、緊急聯(lián)系人等各種信息數據,通過對填寫的這些信息數據進行審核可判斷該客戶是否為欺詐客戶。又例如,在客戶試圖使用信用卡付款來完成交易時,可對交易相關的信息進行審核以判斷該交易是否為欺詐交易。此外,又例如,為了在大量項目(例如,申請資助的項目等)中判斷出欺詐項目,可對關于項目的各項信息進行審核以判斷出該項目是否為旨在獲得不當得利但實際上并不實施的欺詐項目。
[0059]作為另一示例,所述業(yè)務判斷也可以是依據屬性信息的真實性(或信息真實性與信息內容等的組合)來作出的進一步判斷,例如,判斷待審核數據記錄所涉及的信用狀況等。相應地,數據審核目標可指示信用卡的額度判斷。
[0060]也就是說,本發(fā)明的示例性實施例并不限于對信息數據進行審核以判斷出相關數據記錄所涉及的欺詐風險,任何可基于信息數據的審核結果作出業(yè)務判斷的情形均適用于本發(fā)明的示例性實施例。相應地,在本發(fā)明的示例性實施例中,可對各種格式和類型的信息數據進行審核,以作出相應的業(yè)務判斷。這里,審核的目的在于對各項信息數據的真實性進行度量以判斷出相關數據記錄的真實性,或進而基于各信息數據的真實度來得到其他的業(yè)務決策。
[0061]數據獲取裝置10可獲取不同來源的結構化或非結構化數據,例如,文本數據或數值數據等。具體說來,數據獲取裝置10可獲取待審核的數據,如上所述,待審核數據記錄可包括關于待審核項的各個屬性的屬性信息。除此之外,數據獲取裝置10還可獲取用于幫助驗證待審核數據的驗證數據,具體說來,數據獲取裝置10可獲取一條或多條驗證數據記錄,這些驗證數據記錄用于驗證待審核數據的至少一個屬性信息的真實性。這里,驗證數據可包括來源于審核部門內部的其他信息數據以及來源于外部數據源的信息數據(例如,來源于數據提供商的數據、來源于互聯(lián)網(例如,社交網站)的數據、來源于移動運營商的數據、來源于APP運營商的數據、來源于快遞公司的數據、來源于信用機構的數據等等),除此之夕卜,驗證數據還可以是由從待審核數據的各個屬性信息中抽取出來的一部分屬性信息所組成的數據,即,可以是從待審核數據的各個屬性信息中至少排除作為驗證目標的屬性信息之后得到的驗證數據。這些待審核數據和驗證數據可通過輸入裝置輸入到數據獲取裝置10,或者由數據獲取裝置10根據已有的數據來自動生成,或者可由數據獲取裝置10從網絡上(例如,網絡上的存儲介質(例如,數據倉庫))獲得,此外,諸如服務器的中間數據交換裝置可有助于數據獲取裝置10從外部數據源獲取相應的數據。這里,獲取的數據可被數據獲取裝置10中的文本分析模塊等數據轉換模塊轉換為容易處理的格式。應注意,數據獲取裝置10可被配置為由軟件、硬件和/或固件組成的各個模塊,這些模塊中的某些模塊或全部模塊可被集成為一體或共同協(xié)作以完成特定功能。
[0062]屬性驗證裝置20用于基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度。
[0063]這里,作為示例,對于產生自各個數據源的驗證數據記錄,屬性驗證裝置20可在機器學習模型的特征層面將這樣的驗證數據記錄與待審核數據記錄進行融合,使得驗證數據記錄的原始信息在預測數據審核目標這方面能夠得到充分的利用。另外,對于抽取自待審核數據記錄自身的驗證數據記錄,屬性驗證裝置20可通過利用這樣的驗證數據記錄進行自洽性校驗,來方便地預測數據審核目標。應注意,根據本發(fā)明的示例性實施例,上述兩種驗證數據記錄可單獨或共同使用。
[0064]具體說來,屬性驗證裝置20可利用一條或多條驗證數據來推算出待審核數據記錄的至少一個屬性信息的真實程度。也就是說,屬性驗證裝置20可利用驗證數據記錄所包括的屬性信息的內容來衡量待審核數據記錄中的某個屬性信息的真實度。作為示例,如果驗證數據記錄已包括關于待審核數據記錄中的某個屬性的屬性信息,則可直接利用驗證數據記錄中的屬性信息來衡量所述待審核數據記錄中的相關屬性信息的真實度。例如,在需要對待審核數據記錄中的客戶性別進行審核的情況下,如果驗證數據記錄已包括客戶的性別信息,則可直接利用驗證數據記錄的客戶性別信息來衡量待審核數據記錄匯總的客戶性別信息的真實程度。
[0065]此外,根據本發(fā)明的示例性實施例,如果驗證數據記錄并不包括關于待審核數據記錄中的某個屬性的屬性信息,則可通過預先訓練出的機器學習模型,基于驗證數據記錄來預測出待審核數據記錄中的相關屬性信息,進而基于預測值來衡量待審核數據記錄中的相關屬性信息的真實度。例如,在需要對待審核的信用卡申請信息數據記錄中的客戶收入進行審核的情況下,如果同樣來自銀行的驗證數據記錄并不包括客戶收入,而是包括了客戶的一些資產信息或日常交易信息,則可通過預先訓練出的利用這些資產信息或日常交易信息來預測客戶收入的機器學習模型,基于驗證數據記錄的資產信息或日常交易信息特征來獲得客戶收入預測值,進而基于客戶收入預測值來衡量待審核數據記錄中的客戶收入的真實度。
[0066]通過上述方式,屬性驗證裝置20可利用每一條獲取的驗證數據記錄,分別計算待審核數據記錄中相應的一個或多個屬性信息的真實度,進而將利用所有驗證數據記錄針對相關屬性信息計算出的所有真實度整合為待審核數據記錄的屬性真實度特征,這個屬性真實度特征用于從整體上反映所使用的全部驗證數據記錄針對待審核數據記錄的真實度交叉驗證結果。
[0067]目標預測裝置30用于利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
[0068]具體說來,在獲取了待審核數據記錄的屬性真實度特征之后,目標預測裝置30可使用之前基于機器學習技術所訓練出的機器學習模型(即,目標預測模型)來預測相應待審核數據記錄的數據審核目標。這里,所述目標預測模型是基于機器學習算法訓練得到的,具體說來,可使用大量的歷史數據作為訓練樣本,基于特定的機器學習算法,訓練出目標預測模型,其中,所述歷史數據包括歷史上存在的屬性真實度特征和相應的數據審核目標,屬性真實度特征作為訓練樣本的特征,相應的數據審核目標作為標記(label)。
[0069]相應地,當新的待審核數據記錄的屬性真實度特征到來時,目標預測裝置30可將該屬性真實度特征作為預測樣本的特征輸入到目標預測模型,即可得到所述新的待審核數據記錄關于數據審核目標的預測結果。
[0070]應理解,上述裝置可被分別配置為執(zhí)行特定功能的軟件、硬件、固件或上述項的任意組合。例如,這些裝置可對應于專用的集成電路,也可對應于純粹的軟件代碼,還可對應于軟件與硬件相結合的單元或模塊。此外,這些裝置所實現的一個或多個功能也可由物理實體設備(例如,處理器、客戶端或服務器等)中的組件來統(tǒng)一執(zhí)行。
[0071]可以看出,屬性驗證裝置20和目標預測裝置30構成了一個用于利用驗證數據來預測待審核數據的數據審核目標的雙層架構,在此架構下,針對目標預測模型而言,待審核數據和驗證數據在特征層面進行了融合和/或實現了自洽性校驗,使得驗證數據和/或待審核數據的原始信息得到了充分的利用。這種方式與傳統(tǒng)的外部數據使用方式相比,在驗證階段設置了統(tǒng)一的屬性真實度特征計算方式,使得擴充數據源變得更加容易和便利,由于驗證數據僅用于獲取待審核數據的真實度,而非直接作為預測數據審核目標的特征,因此能夠在充分地交叉融合各個數據原始信息的同時,保持預測模型的設計一致性。
[0072]除此之外,在使用其他來源驗證數據來獲取待審核數據記錄的屬性真實度特征的過程中,作為優(yōu)選方式,還可進一步引入基于機器學習技術的預測方式,也就是說,即使產生自各個數據源的驗證數據記錄本身并不包括待審核的屬性信息,也可通過機器學習方式來得到相應的預測值,進而基于該預測值來推算待審核屬性信息的真實度,相應地,可有助于引入各種來源的外部數據來幫助完成最終的數據審核目標。
[0073]以下參照圖2來描述根據本發(fā)明示例性實施例的基于機器學習來預測數據審核目標的方法的流程圖。這里,作為示例,圖2所示的方法可由圖1所示的預測系統(tǒng)來執(zhí)行,也可完全通過計算機程序以軟件方式實現,還可通過特定配置的計算裝置來執(zhí)行圖2所示的方法。
[0074]為了描述方便,假設圖2所示的方法由圖1所示的預測系統(tǒng)來執(zhí)行,并且,以關于數據記錄真實性的欺詐作為數據審核目標的示例,相應地,所述方法可適用于從待審核數據中檢測或識別出潛在的欺詐風險,該欺詐風險的潛在性可被表示為出現欺詐情形的概率,這里的欺詐情形可包括但不限于冒名申請信用卡、盜用他人信用卡、偽造他人信息進行交易等,例如,可利用[O,I ]之間的數值來表示這種欺詐概率的大小。
[0075]如圖所示,在步驟SlO中,由數據獲取裝置10獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷。
[0076]這里,作為示例,每條待審核數據記錄可對應于一個待審核項(例如,事件或對象),相應地,待審核數據記錄可包括各種反映事件或對象在某方面的表現或性質(即,屬性)的屬性字段。可對這些屬性字段進行相應的篩選或處理,以進一步獲取用于進行機器學習的樣本特征。這里,數據獲取裝置10可通過手動、半自動或全自動的方式來采集數據,或對采集的原始數據進行初步處理以生成可作為樣本特征的各種處理后的屬性信息。作為示例,數據獲取裝置10可批量地采集數據。
[0077]這里,數據獲取裝置10可通過輸入裝置(例如,工作站)接收用戶手動輸入的待審核數據記錄。此外,數據獲取裝置10可通過全自動的方式從數據源系統(tǒng)地取出待審核數據記錄,例如,通過以軟件、固件、硬件或其組合實現的定時器機制來系統(tǒng)地請求數據源并從響應中得到所請求的數據。所述數據源可包括一個或多個數據庫或其他服務器。可經由內部網絡和/或外部網絡來實現全自動獲取數據的方式,其中可包括通過互聯(lián)網來傳送加密的數據。在服務器、數據庫、網絡等被配置為彼此通信的情況下,可在沒有人工干預的情況下自動進行數據采集,但應注意,在這種方式下仍舊可存在一定的用戶輸入操作。半自動方式介于手動方式與全自動方式之間。半自動方式與全自動方式的區(qū)別在于由用戶激活的觸發(fā)機制代替了定時器機制。在這種情況下,在接收到特定的用戶輸入的情況下,才產生提取數據的請求。每次獲取數據時,優(yōu)選地,可將捕獲的數據存儲在非易失性存儲器中。作為示例,可利用數據倉庫來存儲在獲取期間采集的原始數據以及處理后的數據。
[0078]與現有的數據審核方案僅獲取和分析待審核的數據信息不同,根據本發(fā)明的示例性實施例,數據獲取裝置10還獲取至少一條驗證數據記錄,其用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息。
[0079]作為示例,所述至少一條驗證數據記錄可分別產生自各個數據源。具體說來,這些驗證數據的來源可以與待審核數據的來源相同,例如,為了審核客戶向銀行申請開通信用卡時填寫的信息數據,例如,收入、學歷、職務、資產情況等,作為示例,數據獲取裝置10可獲取該客戶在該銀行的其他數據記錄,例如,貸款記錄、日常交易數據等。此外,所述驗證數據也可以是來源于其他私有源或公共源的數據,例如,來源于數據提供商的數據、來源于互聯(lián)網(例如,社交網站)的數據、來源于移動運營商的數據、來源于APP運營商的數據、來源于快遞公司的數據、來源于信用機構的數據等等。相應地,為了審核客戶向銀行申請開通信用卡時填寫的信息數據,數據獲取裝置10還可獲取該客戶在社交網站、快遞公司、移動運營商、APP運營商的數據記錄等。
[0080]在本發(fā)明的示例性實施例中,借助于其他驗證數據在特征層面的融合,能夠充分地利用這些數據的原始信息來共同對待審核數據的真實性進行審核。這里,數據獲取裝置10可針對待審核的數據記錄從待審核數據的數據源和/或至少一個其他數據源查詢并取回相應的驗證數據記錄;或者,數據獲取裝置100可從維持來自所述待審核數據的數據源和/或至少一個其他數據源的數據記錄的數據倉庫中查詢并取回相應的驗證數據記錄。
[0081]此外,作為另一示例,所述至少一條驗證數據記錄還可分別抽取自所述待審核數據記錄,相應地,數據獲取裝置10可通過從待審核數據記錄中排除預定屬性的屬性信息來抽取出與所述預定屬性相應的驗證數據記錄,該驗證數據記錄可用于針對所述預定屬性的屬性信息進行自洽性檢驗。例如,為了審核客戶向銀行申請開通信用卡時填寫的信息數據中的收入,假設待審核數據記錄包括收入、學歷、職務和資產情況這四個屬性信息,則相應的驗證數據記錄可包括排除了收入之外的學歷、職務和資產情況這三個屬性信息之中的至少一個屬性信息??梢钥闯觯怂鲱A定屬性之外,還可從待審核數據記錄中排除其他一些屬性信息而僅保留后續(xù)可用作屬性驗證模型的預測樣本特征的屬性信息。應注意,實踐中的待審核數據記錄往往包含更多的屬性信息,針對每一種待審核的屬性信息,可相應地通過抽取方式來產生至少一條驗證數據記錄。此外,根據本發(fā)明的示例性實施例,驗證數據記錄還可同時包含產生自數據源的數據記錄和抽取自待審核數據記錄的數據記錄。
[0082]可選地,數據獲取裝置10可借助硬件集群(諸如Hadoop集群)對采集到的數據進行存儲和/或處理,例如,存儲、分類和其他離線操作。此外,數據獲取裝置10也可對采集的數據進行在線的流處理。
[0083]作為示例,數據獲取裝置10中可包括文本分析模塊等數據轉換模塊,用于將文本等非結構化數據轉換為更易于使用的結構化數據以進行進一步的處理或引用?;谖谋镜臄祿砂娮余]件、文檔、網頁、圖形、電子數據表、呼叫中心日志、可疑交易報告等。
[0084]根據本發(fā)明的示例性實施例,作為可選方式,數據獲取裝置10可對獲取的數據記錄進行特征工程處理,即,對數據記錄的屬性字段值進行處理以獲取可用于進行機器學習的樣本特征的屬性信息。例如,數據獲取裝置10可對接收到的數據記錄的原始屬性字段進行諸如離散化、字段組合、提取部分字段值、取整等各種特征工程的處理,從而將原始屬性值轉換為可作為機器學習特征的屬性信息。
[0085]在步驟S20中,由屬性驗證裝置20基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度。
[0086]具體說來,屬性驗證裝置20可針對待審核數據記錄的任一屬性信息,基于一條或多條驗證數據記錄來相應地獲取該屬性信息的一個或多個真實度。
[0087]假設待審核數據記錄的集合為X,每條待審核數據記錄可具有d個屬性信息,S卩,第i個待審核數據記錄XiGX,可表示為Xi = (Xil ;xi2;…;Xid),其中,i和d為正整數。這里,針對X1的第j個屬性信息X小I彡j彡d,屬性驗證裝置20可基于來自第k種來源(包括產生驗證數據的數據源和/或從待審核數據中抽取驗證數據的某種特定方式)的驗證數據Mk之中的第i個驗證數據記錄Mk1來獲取Xlj的一個真實度,其中,l<k<K,K為驗證數據的來源的總數,并且,MkjPx^分別指示同一個示例(S卩,第i個示例)在不同數據來源(S卩,第k種來源和待審核數據源)的相應數據記錄。
[0088]作為示例,屬性驗證裝置20可基于至少一條驗證數據記錄來預測關于待審核數據記錄的至少一個屬性之中的每一個屬性的至少一個預測屬性信息。
[0089]例如,屬性驗證裝置20可將產生自各個數據源的驗證數據記錄本身包括的關于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關于所述每一個屬性的至少一個預測屬性信息。比如,為了獲得關于客戶申請信用卡時填寫的信息數據記錄之中的學歷信息的預測值,如果某條來自招聘網站的驗證數據(例如,該客戶的簡歷數據)中包括學歷信息,則屬性驗證裝置20可將客戶簡歷數據中的學歷信息作為關于該客戶待審核的申請信息之中的學歷信息的預測值。
[0090]又例如,屬性驗證裝置20可將所述至少一條驗證數據記錄分別輸入基于機器學習而訓練出的至少一個屬性驗證模型,以預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息。這里的驗證數據記錄可以是產生自另外的數據來源的數據記錄,其可以包含或不包含關于待預測的屬性的屬性信息?;蛘?,這里的驗證數據也可以是從待審核數據記錄中抽取的數據記錄,其優(yōu)選地不包含待預測的屬性信息。
[0091]具體說來,屬性驗證裝置20可使用預先訓練出的一個或多個屬性驗證模型來預測待審核數據記錄的每一個屬性的屬性信息。這里,屬性驗證模型被訓練為基于特定驗證數據來預測出相應的待審核屬性信息。作為示例,對于來自外部數據源的驗證數據記錄而言,這里的屬性驗證模型的特征可以是經過哈希變換的驗證數據的屬性信息,通過這種方式,數據獲取裝置10從外部數據源獲取的驗證數據可以是經過哈希變換的非明文數據,有助于保證數據共享時的安全性和隱秘性。
[0092]例如,針對每一個Xij,屬性驗證裝置20可選取預先訓練出的基于第k種來源的驗證數據Mk來預測第j個屬性信息的屬性驗證模型,將所述驗證數據Mk之中的第i個驗證數據記錄MkHt為預測樣本輸入所述屬性驗證模型,得到關于X1的第j個屬性信息的預測值Mklj。這里,任何一條驗證數據記錄可用于分別針對一個或多個待審核的屬性信息進行預測,優(yōu)選地,抽取自待審核數據記錄的驗證數據記錄僅能夠用于對其所不具有的屬性信息進行預測。相應地,屬性驗證裝置20可基于K種來源之中的部分或全部來源的驗證數據來分別獲取各個屬性信息的預測值,也就是說,針對不同屬性的屬性信息,屬性驗證裝置20可使用相應的一個或多個屬性驗證模型,這些屬性驗證模型用于基于來自一個或多個來源的驗證數據來預測所述屬性信息。
[0093]應注意,屬性驗證裝置20獲取預測屬性信息的方式并不受限于上述兩種。作為優(yōu)選方式,屬性驗證裝置20還可將上述兩種方式進行有效的融合。
[0094]作為示例,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗證裝置20將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;并且,在所述驗證數據記錄本身不包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,屬性驗證裝置20將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0095]例如,在上述基于簡歷數據來預測信用卡申請信息中的學歷屬性值的示例中,也可存在基于簡歷數據來預測學歷屬性的屬性驗證模型。相應地,屬性驗證裝置20可通過判斷某條具體的簡歷數據記錄中是否包括了學歷字段來選擇相應的預測方式。例如,如果某條簡歷數據記錄中已經包括了學歷信息,則屬性驗證裝置20可直接將該簡歷數據記錄中的學歷信息作為待審核的學歷信息的預測值;而如果該條簡歷數據記錄中缺失了學歷信息,則屬性驗證裝置20可將該條簡歷數據記錄輸入預先訓練出的基于簡歷來預測學歷的屬性驗證模型,以通過機器學習預測的方式來得到關于學歷信息的預測值。
[0096]此外,由于在利用驗證數據記錄來預測待審核數據的屬性信息時,很可能遇到時間不匹配的問題,例如,簡歷數據記錄可能是較長時間之前生成的信息,已無法準確反映客戶申請信用卡時的收入信息,因此,作為優(yōu)選方式,屬性驗證裝置20在執(zhí)行預測時,可基于時間因素來選擇相應的預測方式。
[0097]具體說來,在將輸入任一屬性驗證模型的產生自各個數據源的驗證數據記錄本身包括關于所述任一屬性驗證模型將預測的預測屬性信息所涉及的屬性的屬性信息的情況下,在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異未超出預設的時間間隔時,屬性驗證裝置20將所述驗證數據記錄本身所包括的所述屬性信息作為所述任一屬性驗證模型將預測的預測屬性信息;在生成所述驗證數據記錄的時間點與生成待審核數據記錄的時間點之間的差異超出所述時間間隔時,屬性驗證裝置20將所述驗證數據記錄輸入所述任一屬性驗證模型。
[0098]例如,在基于簡歷數據來預測信用卡申請信息中的收入字段的情況下,即使某條具體的簡歷數據記錄本身包括了收入字段,屬性驗證裝置20還將判斷生成這條簡歷時間記錄的時間與生成待審核的申請信息的時間之間的差異是否超出了預設的時間間隔。如果信息生成的時間差未超出所述時間間隔,則屬性驗證裝置20可直接將該簡歷數據記錄中的收入信息作為待審核的收入信息的預測值;而如果信息生成的時間差超出了所述時間間隔,則屬性驗證裝置20可將該條簡歷數據記錄輸入預先訓練出的基于簡歷數據來預測收入的屬性驗證模型,以通過機器學習預測的方式來得到關于收入信息的預測值。
[0099]在獲得關于各個待審核屬性之中的每一個屬性的屬性預測信息之后,針對所述每一個屬性,屬性驗證裝置20可分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異,并且,基于針對所述至少一個屬性計算出的所有差異的集合來獲得待審核數據記錄的屬性真實度特征。這里,作為優(yōu)選方式,可通過基于所述每一個屬性的屬性信息分別與預測出的所述至少一個預測屬性信息之間的差值各自的統(tǒng)計分布特性來分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異。通過這種方式,可使得所得到的屬性真實度特征能夠直接反應出針對各屬性信息的各種預測差值的統(tǒng)計特性,即,更為有效地將預測差值轉換為機器學習的相關特征,從而進一步確保了屬性驗證模型的預測性能。
[0100]例如,針對第i個待審核數據記錄X1的第j屬性信息Xlp屬性驗證裝置20可分別計算基于一個或多個驗證數據記錄Mk^預測出的一個或多個屬性值Mklj與Xlj之間的差異,以作為XU的一個或多個真實度差異。在針對所有待審核屬性計算出其相應的各個差異之后,屬性驗證裝置20可將所有差異的集合作為待審核數據記錄X1的屬性真實度特征。
[0101]圖3示出根據本發(fā)明示例性實施例的獲得待審核數據記錄的屬性真實度特征的示例。在該示例中,驗證數據記錄全部來自于各個數據源,而不包含抽取自待審核數據記錄的驗證數據記錄。應注意,上述方式僅作為本發(fā)明的示例性實施例,本發(fā)明所采用的驗證數據記錄并不受限于此。
[0102]可以看出,在圖3所示的示例中,待審核數據記錄可以是客戶申請信用卡時填寫的個人信息,例如,可包括客戶的性別、住址、學歷等屬性信息。在這種情況下,屬性驗證裝置20可利用各種外部數據源的驗證數據記錄來獲取上述待審核數據記錄的屬性真實度特征,在這一過程中,實現了客戶的待審核數據與該客戶的其他驗證數據之間的充分融合,進而可在后續(xù)更有效地對待審核數據記錄進行審核。
[0103]作為示例,屬性驗證裝置20可利用社交網站數據來獲取關于客戶性別和學歷的預估真實度(該預估真實度用于表示待審核屬性信息與預測屬性信息之間的差異)。這里,應注意,根據本發(fā)明的示例性實施例,屬性驗證裝置20可根據需要來利用某一來源的驗證數據來獲取待審核數據的一個或多個屬性信息的預估真實度,而不受任何限制。例如,屬性驗證裝置20也可僅利用社交網站數據來獲取關于客戶性別的預估真實度,也可利用社交網站數據來分別獲取關于客戶所有屬性信息的預估真實度。此外,屬性驗證裝置20對于其他驗證數據的使用方式也是如此。
[0104]以下將屬性驗證裝置20利用社交網站數據來獲取客戶性別的預估真實度作為示例進行描述。
[0105]具體說來,假設社交網站為第k種驗證數據來源,針對第i個客戶的待審核數據記錄^,為了得到其第j個屬性Xlj(即,性別)的預估真實度,屬性驗證裝置20可獲取由數據獲取裝置10提供的相應社交網站數據記錄Mki,這里,Xi和Mki可具有相同的用戶ID。在獲取Mki之后,作為示例,屬性驗證裝置20可將Mk1作為預測樣本,輸入預先訓練出的用于基于社交網站數據來預測客戶性別的模型,以得到預測出的第i個客戶的性別Mklj。相應地,屬性驗證裝置20可基于Mkij與Xij之間的差值來得到Xij的一個預估真實度Tkij,例如,Tkij = fkj (Mkij-XlJ),這里,函數fw可用于將Mklj與Xlj之間的差值轉換為可適當地反映真實度的數值。作為優(yōu)選方式,函數fw可被設計為反映出(Mklj-Xlj)在整個或部分客戶示例空間的統(tǒng)計分布。然而,應注意,本發(fā)明并不受限于此,而是可以按照任何適當的方式來設計函數fkp以滿足模型運算和/或模型性能的需求。例如,對于性別這一屬性而言,當Mkij與Xij相等(S卩,Mkij-Xij等于O)時,Tkij = ?(Mkij-xij) = al ;當Mkij與Xij不相等(即,Mkij_xij不等于O)時,Tkij = fkj(Mklj-XU) = a2,其中,al和a2均可為便于進行數值運算的常數。
[0106]應注意,上述預估性別真實度的示例僅用于描述和解釋本發(fā)明的示例性實施例,而非用于限制本發(fā)明的范圍。實際上,本領域技術人員可根據需要,針對待審核數據的任一屬性信息,選擇適合的一個或多個數據源的驗證數據對該屬性分別進行預測,并對預測值與實際值之間的差值進行適當的數值處理,從而得到反映所述屬性信息真實性的一個或多個真實度值。
[0107]例如,在屬性驗證裝置20利用社交網站數據來獲取用戶住址的預估真實度時,實際住址值和預測出的住址值可分別以地理坐標的形式來表示,相應地,兩者之間的差值可通過函數fkj轉換為適當的真實度值。
[0108]屬性驗證裝置20可采用類似的方式,利用諸如快遞公司數據、App數據、移動運營商數據等不同外部數據源的數據分別對待審核數據記錄的一個或多個屬性信息進行驗證。例如,屬性驗證裝置20可使用與驗證數據的數據源和待預測屬性相對應的屬性驗證模型,基于驗證數據記錄的特征來預測所述待預測屬性信息,并基于預測值與實際值之間的差值來獲得反映屬性真實性的真實度值。
[0109]這里,作為可選方式,在某個外部數據源的驗證數據本身已經包含待審核數據中將進行真實性判斷的某個屬性的屬性信息的情況下,屬性驗證裝置20可選擇不使用屬性驗證模型來獲取關于所述某個屬性的真實度值。例如,如果社交網站數據記錄Mk1已經包含第i客戶的性別屬性,則屬性驗證裝置20可在不使用屬性驗證模型的情況下,直接將Mk1所包含的性別屬性作為預測出的第i個客戶的性別Mklj,進而基于預測值Mklj與實際值Xlj之間的差值來獲得真實度值。這里,如果社交網站數據記錄Mk1缺少性別屬性(S卩,數據記錄本身不完整),則屬性驗證裝置20可使用預先訓練出的屬性驗證模型來預測第i個客戶的性別屬性,這里,所述預先訓練出的屬性驗證模型可用于基于社交網站數據的包括性別或除了性別之外的至少一個屬性(或經過哈希變換和/或特征工程處理的屬性)來預測客戶性別。在這種情況下,屬性驗證裝置20可將缺少性別屬性值的社交網站數據記錄Mk1作為預測樣本輸入所述屬性驗證模型,以基于預測樣本的各個特征來預測客戶的性別。
[0110]可以看出,通過上述方式,屬性驗證裝置20可基于不同來源的驗證數據,分別獲取相應的待審核數據記錄的各個屬性的至少一個真實度。在此基礎上,屬性驗證裝置20可通過綜合獲取的所有真實度而得到待審核數據記錄的屬性真實度特征。
[0111]這里,作為示例,可基于某種來源的驗證數據來預測待審核數據的某個屬性的屬性驗證模型可以是基于機器學習技術所訓練出的預測模型。具體說來,對于歷史上經過真實性確認的數據記錄(作為示例,可以是歷史上經過同樣的數據審核且作出的業(yè)務判斷確認了其真實性的數據記錄,例如,歷史上確認為非欺詐的信用卡申請客戶填寫的申請信息數據),可認為這些數據的各個屬性均為真實值,將這些真實值作為有監(jiān)督學習下的標記(label),并將對應的驗證數據記錄的各個屬性作為相應的特征,進而可訓練出用于基于驗證數據來預測屬性值的屬性驗證模型。
[0112]這些屬性驗證模型可以由屬性驗證裝置20預先訓練得出。此外,屬性驗證模型也可以由設置在圖1所示的系統(tǒng)中的模型訓練裝置(未示出)預先訓練得出,或可以由圖1所示的系統(tǒng)以外的外部裝置預先訓練得出,在這樣的情況下,屬性驗證裝置20可從模型訓練裝置或外部裝置接收其所訓練出的屬性驗證模型。
[0113]應注意,以上示出了利用產生自各個數據源的驗證數據記錄來獲得屬性真實度特征的示例,還可將注入抽取自述待審核數據記錄的驗證數據記錄等其他類型的驗證數據記錄應用于本發(fā)明,而不同類型的驗證數據記錄也可共同用來獲得屬性真實度特征。這里,作為示例,針對各驗證數據記錄,可使用相應的屬性驗證模型或其他方式來確定對應的待審核屬性的預測值。
[0114]再次參照圖2,在步驟S30中,由目標預測裝置30利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
[0115]如上所述,根據本發(fā)明的示例性實施例,不同于直接對待審核數據記錄的各個屬性信息進行人工審核的傳統(tǒng)方式,也并非簡單地擴展被審核對象數據(例如,引入用戶的外部數據來直接預測審核目標),而是首先利用各種來源的驗證數據從不同方面驗證待審核數據的真實性,并依據經多方驗證所得出的真實度來預測出數據審核目標。相應地,對于目標預測模型而言,其特征層面充分融合了各種來源的數據信息(包括待審核數據自身的各種信息和/或來源于各種數據源的其他信息),從而顯著提高了針對審核目標的預測性能。
[0116]作為示例,針對第i個待審核數據記錄X1而言,如上所述,屬性驗證裝置20可獲取的各個屬性信息的真實度Tklj組成的屬性真實度特征,這里,k指示驗證數據來源的序號,j指示待審核數據的屬性序號。相應地,目標預測裝置30可將由上述真實度特征構成的預測樣本輸入目標預測模型,進而得到關于數據審核目標的預測結果。
[0117]作為示例,假設數據審核目標是基于客戶申請開通信用卡時填寫的個人信息來作出關于是否屬于開卡欺詐的業(yè)務判斷,具體說來,需要判斷出客戶填寫的信息數據中是否存在虛假信息。為此,屬性驗證裝置20可基于各種來源的驗證數據來獲取客戶填寫的個人信息的真實度值,并綜合出待審核客戶的屬性真實度特征。相應地,目標預測裝置30將屬性真實度特征作為預測樣本輸入目標預測模型,進而得到關于客戶是否涉嫌開卡欺詐的預測結果。
[0118]這里,目標預測模型可以是基于機器學習技術所訓練出的預測模型。具體說來,對于歷史上得到過數據審核結果的數據記錄(例如,最終確定的欺詐數據記錄和非欺詐數據記錄等),將這些審核結果作為有監(jiān)督學習下的標記(label),并將對應的屬性真實度特征作為相應的訓練樣本特征,進而可訓練出用于基于屬性真實度特征來預測數據審核目標的目標預測模型。
[0119]應注意,根據本發(fā)明的示例性實施例,數據審核目標不限于關于待審核數據的屬性信息真實性的欺詐問題,還可以是與屬性信息真實性相關的其他業(yè)務判斷或基于屬性信息真實性連同其他信息的進一步業(yè)務判斷。在這種情況下,目標預測模型可被訓練為基于待審核數據記錄的屬性真實度特征連同待審核數據記錄的至少一部分屬性信息來預測數據審核目標。例如,目標預測模型可被訓練為基于屬性真實度特征以及某些屬性信息的內容來預測信用卡的信用額度。相應地,在步驟S30中,目標預測裝置30可根據計算出的屬性真實度特征連同基于待審核數據記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數據記錄關于數據審核目標的預測結果。
[0120]類似地,目標預測模型可以由目標預測裝置30預先訓練得出。此外,目標預測模型也可以由設置在圖1所示的系統(tǒng)中的模型訓練裝置(未示出)預先訓練得出,或可以由圖1所示的系統(tǒng)以外的外部裝置預先訓練得出,在這樣的情況下,目標預測裝置30可從模型訓練裝置或外部裝置接收其所訓練出的目標預測模型。
[0121]在步驟S30中獲得關于數據審核目標的預測結果之后,目標預測裝置30可將預測結果存儲在相應的存儲器中以在后續(xù)進行進一步的處理,或者,這些預測結果可被發(fā)送到外部的調查裝置。此外,也可通過輸出裝置將預測結果展示給審核用戶,進一步地,作為可選方式,還可從審核用戶接收反饋信息。
[0122]圖4示出根據本發(fā)明另一示例性實施例的基于機器學習來預測數據審核目標的系統(tǒng)的框圖。這里,圖4中所示的數據獲取裝置10、屬性驗證裝置20和目標預測裝置30可按照與圖1所示的各個裝置按照相似的方式進行操作,只是圖4的系統(tǒng)還包括展示裝置40。
[0123]具體說來,在目標預測裝置30獲取了待審核數據記錄關于數據審核目標的預測結果之后,展示裝置40可將預測結果展示給用戶,例如,展示裝置40通過顯示屏將預測結果展示給用戶,相應地,用戶可根據這些預測結果直接作出最終的業(yè)務決策,或者,用戶可根據這些預測結果來人工核查一些重要信息,并在核查了重要信息之后再作出最終的業(yè)務決策。
[0124]這里,為了更好地幫助用戶作出業(yè)務決策,作為可選方式,展示裝置40可不僅將預測結果提供給用戶,還提供一些有助于用戶進行業(yè)務判斷的輔助信息,以便于用戶重點核查這些屬性信息,從而作出業(yè)務判斷。例如,展示裝置40可將預測結果連同屬性真實度特征展示給用戶。由于屬性真實度特征能夠反映待審核數據記錄中各個屬性信息的預估真實度值,因此使得用戶能夠結合預測結果來選擇性地人工核實一些真實度偏差較大的屬性信息。這里,在向用戶展示相關信息時,可對展示的信息進行圖形和/或圖表化處理以增強其可讀性。
[0125]作為優(yōu)選方式,展示裝置40可向用戶展示與屬性真實度特征之中的較大差異相應的屬性信息和關于所述屬性信息的預測屬性信息;并且/或者,向用戶展示與屬性真實度特征之中起主要預測作用的差異相應的屬性信息和關于所述屬性信息的預測屬性信息。
[0126]具體說來,展示裝置40可將與屬性真實度特征之中的較大差異相應的屬性信息和關于所述屬性信息的預測屬性信息進行單獨顯示和/或突出顯示,以便于用戶容易觀察到這些較不真實的屬性信息。此外,對于其主要預測作用的差異(例如,在目標預測模型的目標函數中,與該差異相應的特征具有較高的權重;或者,對于某個待審核數據記錄而言,與差異相應的特征主要影響預測結果),展示裝置40也可進行單獨顯示和/或突出顯示。這里,作為示例,展示裝置40可將所展示的預測屬性信息顯示在所述預測屬性信息的統(tǒng)計分布示圖中。通過這種方式,可使得用戶更加直觀地了解到相關信息的統(tǒng)計特點,有助于用戶作出判斷以進行后續(xù)操作。
[0127]例如,在觀察到這樣的重要屬性信息之后,用戶可對這些屬性信息進行進一步的核查,并基于核查結果來作出最終的業(yè)務決策,即,關于數據審核目標的實際結果。
[0128]作為可選方式,根據本發(fā)明示例性實施例的預測系統(tǒng)可從用戶接收關于這些業(yè)務決策的反饋,這些反饋本身連同相應的屬性真實度特征等預測特征可作為目標預測模型的訓練樣本,其中,反饋所代表的業(yè)務決策可作為目標預測模型中關于數據審核目標的標記,相應的預測樣本特征可作為訓練樣本的特征。
[0129]除此之外,在業(yè)務決策的過程中真實性得到確認的屬性信息也可被反饋給屬性驗證模型,作為與相應的驗證數據記錄對應的標記,相應的驗證數據記錄的屬性信息可作為訓練特征。然而,應注意,獲取屬性驗證模型的標記的方式并不受限于此。
[0130]通過上述方式,使得預測系統(tǒng)能夠有效地根據新增的待審核數據記錄及其實際審核結果來進行增量學習,從而及時更新模型。
[0131]相應地,圖1或圖4所述的系統(tǒng)可還包括反饋裝置(未示出),用于從用戶接收關于數據審核目標的實際結果的反饋,其中,所述反饋被用于訓練目標預測模型和/或屬性驗證模型。作為可選方式,反饋裝置可與展示裝置集成為一體的交互裝置。
[0132]具體說來,審核人員在作出最終的實際業(yè)務決策之后,可將決策的實際結果輸入到反饋裝置,該反饋裝置可利用這些實際業(yè)務決策和/或相關的數據屬性信息作為目標預測模型和/或屬性驗證模型的新增訓練樣本,從而使得模型可以從新增的數據樣本中不斷學習,及時自我修正,適應變化。例如,這種自學習能力可以有效地解決層出不窮的新的欺詐偽冒手段,避免專家需要不斷的根據新的欺詐行為制定新的規(guī)則。
[0133]應注意,上述數據審核目標的預測系統(tǒng)可完全依賴計算機程序的運行來實現相應的功能,即,各個裝置與計算機程序的功能架構中與各步驟相應,使得整個系統(tǒng)通過專門的軟件包(例如,Iib庫)而被調用,以實現相應的預測功能。
[0134]另一方面,圖1或圖4所示的各個裝置也可以通過硬件、軟件、固件、中間件、微代碼或其任意組合來實現。當以軟件、固件、中間件或微代碼實現時,用于執(zhí)行相應操作的程序代碼或者代碼段可以存儲在諸如存儲介質的計算機可讀介質中,使得處理器可通過讀取并運行相應的程序代碼或者代碼段來執(zhí)行相應的操作。
[0135]這里,本發(fā)明的示例性實施例還可以實現為計算裝置,該計算裝置包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行上述數據審核目標的預測方法。
[0136]具體說來,所述計算裝置可以部署在服務器或客戶端中,也可以部署在分布式網絡環(huán)境中的節(jié)點裝置上。此外,所述計算裝置可以是PC計算機、平板裝置、個人數字助理、智能手機、web應用或其他能夠執(zhí)行上述指令集合的裝置。
[0137]這里,所述計算裝置并非必須是單個的計算裝置,還可以是任何能夠單獨或聯(lián)合執(zhí)行上述指令(或指令集)的裝置或電路的集合體。計算裝置還可以是集成控制系統(tǒng)或系統(tǒng)管理器的一部分,或者可被配置為與本地或遠程(例如,經由無線傳輸)以接口互聯(lián)的便攜式電子裝置。
[0138]在所述計算裝置中,處理器可包括中央處理器(CPU)、圖形處理器(GPU)、可編程邏輯裝置、專用處理器系統(tǒng)、微控制器或微處理器。作為示例而非限制,處理器還可包括模擬處理器、數字處理器、微處理器、多核處理器、處理器陣列、網絡處理器等。
[0139]上述關于數據審核目標的預測方法中所描述的某些操作可通過軟件方式來實現,某些操作可通過硬件方式來實現,此外,還可通過軟硬件結合的方式來實現這些操作。
[0140]處理器可運行存儲在存儲部件之一中的指令或代碼,其中,所述存儲部件還可以存儲數據。指令和數據還可經由網絡接口裝置而通過網絡被發(fā)送和接收,其中,所述網絡接口裝置可采用任何已知的傳輸協(xié)議。
[0141]存儲部件可與處理器集成為一體,例如,將RAM或閃存布置在集成電路微處理器等之內。此外,存儲部件可包括獨立的裝置,諸如,外部盤驅動、存儲陣列或任何數據庫系統(tǒng)可使用的其他存儲裝置。存儲部件和處理器可在操作上進行耦合,或者可例如通過I/o端口、網絡連接等互相通信,使得處理器能夠讀取存儲在存儲部件中的文件。
[0142]此外,所述計算裝置還可包括視頻顯示器(諸如,液晶顯示器)和用戶交互接口(諸如,鍵盤、鼠標、觸摸輸入裝置等)。計算裝置的所有組件可經由總線和/或網絡而彼此連接。
[0143]上述關于數據審核目標的預測方法所涉及的操作可被描述為各種互聯(lián)或耦合的功能塊或功能示圖。然而,這些功能塊或功能示圖可被均等地集成為單個的邏輯裝置或按照非確切的邊界進行操作。
[0144]具體說來,如上所述,根據本發(fā)明示例性實施例的基于機器學習來預測數據審核目標的計算裝置可包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:(A)獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息;(B)基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度;(C)利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
[0145]應注意,以上已經結合圖2到圖4描述了根據本發(fā)明示例性實施例的關于數據審核目標的預測方法的各處理細節(jié),這里將不再贅述計算裝置執(zhí)行各步驟時的處理細節(jié)。
[0146]以上已經描述了本發(fā)明的各示例性實施例,應理解,上述描述僅是示例性的,并非窮盡性的,并且本發(fā)明也不限于所披露的各示例性實施例。在不偏離本發(fā)明的范圍和精神的情況下,對于本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。因此,本發(fā)明的保護范圍應該以權利要求的范圍為準。
【主權項】
1.一種基于機器學習來預測數據審核目標的方法,包括: (A)獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息; (B)基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度; (C)利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。2.如權利要求1所述的方法,其中,步驟(B)包括: (BI)基于所述至少一條驗證數據記錄來預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息; (B2)針對所述每一個屬性,分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異,并且,基于針對所述至少一個屬性計算出的所有差異的集合來獲得待審核數據記錄的屬性真實度特征。3.如權利要求2所述的方法,其中,在步驟(B2)中,通過基于所述每一個屬性的屬性信息分別與預測出的所述至少一個預測屬性信息之間的差值各自的統(tǒng)計分布特性來分別計算所述每一個屬性的屬性信息與預測出的所述至少一個預測屬性信息之間的差異。4.如權利要求2所述的方法,其中,在步驟(BI)中,將所述至少一條驗證數據記錄分別輸入基于機器學習而訓練出的至少一個屬性驗證模型,以預測關于所述至少一個屬性之中的每一個屬性的至少一個預測屬性信息。5.如權利要求2所述的方法,其中,在步驟(BI)中,將產生自各個數據源的驗證數據記錄本身包括的關于所述至少一個屬性之中的每一個屬性的至少一個屬性信息作為關于所述每一個屬性的至少一個預測屬性信息。6.如權利要求1或4所述的方法,在步驟(C)之后,還包括: (D)將預測結果連同屬性真實度特征展示給用戶。7.如權利要求6所述的方法,在步驟(D)之后,還包括: (E)從用戶接收關于數據審核目標的實際結果的反饋,其中,所述反饋被用于訓練目標預測模型和/或屬性驗證模型。8.如權利要求1所述的方法,其中,在步驟(C)中,根據計算出的屬性真實度特征連同基于待審核數據記錄的至少一部分屬性信息得到的屬性特征來獲取待審核數據記錄關于數據審核目標的預測結果。9.一種基于機器學習來預測數據審核目標的系統(tǒng),包括: 數據獲取裝置,用于獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息; 屬性驗證裝置,用于基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度; 目標預測裝置,用于利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。10.—種基于機器學習來預測數據審核目標的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟: (A)獲取待審核數據記錄和至少一條驗證數據記錄,其中,所述待審核數據記錄包括關于待審核項的各個屬性的屬性信息,數據審核目標是指通過對待審核數據記錄所包括的屬性信息進行審核而作出的業(yè)務判斷,所述至少一條驗證數據記錄用于驗證所述屬性信息之中關于所述各個屬性之中的至少一個屬性的至少一個屬性信息; (B)基于所述至少一條驗證數據記錄來計算待審核數據記錄的屬性真實度特征,其中,所述屬性真實度特征用于衡量所述至少一個屬性信息的真實程度; (C)利用基于機器學習而訓練出的目標預測模型,根據計算出的屬性真實度特征來獲取待審核數據記錄關于數據審核目標的預測結果,其中,所述目標預測模型被訓練為基于屬性真實度特征來預測關于相應的待審核數據記錄的數據審核目標。
【文檔編號】G06F15/18GK106096657SQ201610420714
【公開日】2016年11月9日
【申請日】2016年6月13日 公開號201610420714.7, CN 106096657 A, CN 106096657A, CN 201610420714, CN-A-106096657, CN106096657 A, CN106096657A, CN201610420714, CN201610420714.7
【發(fā)明人】黃晶, 涂威威, 陳雨強
【申請人】北京物思創(chuàng)想科技有限公司