一種醫(yī)療保險異常數(shù)據(jù)在線智能檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種醫(yī)療保險異常數(shù)據(jù)在線智能檢測方法。
【背景技術(shù)】
[0002] 隨著社會經(jīng)濟的發(fā)展,國家為了給老百姓提供更好的醫(yī)保環(huán)境,醫(yī)保政策越來越 好。然而,總有一些人通過各種各樣的手段來騙取醫(yī)保。
[0003] 當前的醫(yī)療保險,行業(yè)整體業(yè)務經(jīng)營與管理比較粗放,缺乏風險把控;粗放的理賠 服務和條款賠付,缺乏對疾病治療的深度分析、醫(yī)療費用的風險把控、醫(yī)療服務的合理性判 斷,導致大量欺詐、不合理醫(yī)療,嚴重損害了其他真正需要醫(yī)保救治人的權(quán)益,給危害了國 家醫(yī)療保險制度。
[0004] 對于運種問題,一般可W通過分析醫(yī)保人員的就醫(yī)數(shù)據(jù),從而幫助社保機構(gòu)檢測 出異常數(shù)據(jù);然而,面對醫(yī)院每天產(chǎn)生的原始醫(yī)保數(shù)據(jù),如果僅通過人工手段來進行異常檢 測的話,不僅速度慢,浪費人力,且難保證準確度,再加上醫(yī)院每天的數(shù)據(jù)都是動態(tài)增加,加 大了人工處理的難度;因此,目前采用數(shù)據(jù)挖掘技術(shù)是發(fā)現(xiàn)醫(yī)保異常數(shù)據(jù)的重要智能化手 段。 陽〇化]數(shù)據(jù)挖掘技術(shù)是發(fā)現(xiàn)數(shù)據(jù)潛在信息、掲示隱藏模型、預測發(fā)展趨勢的重要技術(shù)手 段;在金融、電信、商業(yè)和保險等行業(yè)廣泛應用并取得成功;國內(nèi)外醫(yī)療保險行業(yè),常設(shè)及 定向營銷策略制定、客戶忠誠度分析、保險產(chǎn)品交叉銷售等;IBM研究中屯、的Marisa等人 基于澳大利亞醫(yī)療機構(gòu),采用關(guān)聯(lián)規(guī)則和神經(jīng)分割技術(shù),從GB級的數(shù)據(jù)中獲取未知模式; MohitKumar等使用數(shù)據(jù)挖掘和機器學習技術(shù),預測和預防保險公司在處理醫(yī)療保險申述過 程中的支付錯誤、異常和欺詐檢測;國內(nèi)研究主要集中在基金風險和控制醫(yī)療費用增長上, 采用簡單規(guī)則的數(shù)據(jù)篩選方法,缺乏全面而強有力的大數(shù)據(jù)分析支持。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種醫(yī)療保險異常數(shù)據(jù)在線智能檢 測方法,首先對原始醫(yī)保數(shù)據(jù)進行篩選,得到可疑特征數(shù)據(jù)簇,再對可疑特征數(shù)據(jù)簇中的數(shù) 據(jù)進行人工審核標注,利用標注后的數(shù)據(jù)進行模型訓練,將訓練成熟后的模型用于醫(yī)保數(shù) 據(jù)的在線自動檢測,大大減少人工檢測的勞動成本,同時可有效提高異常醫(yī)保數(shù)據(jù)檢測的 準確率,從而能夠使得醫(yī)?;鹗褂酶雍侠響玫嚼习傩盏木歪t(yī)中,防止了醫(yī)保欺詐行 為。
[0007] 本發(fā)明的目的是通過W下技術(shù)方案來實現(xiàn)的:一種醫(yī)療保險異常數(shù)據(jù)在線智能檢 測方法,包括W下步驟:
[0008] S1.訓練數(shù)據(jù)集獲取:提取原始醫(yī)保數(shù)據(jù)并進行聚類和篩選得到可疑特征數(shù)據(jù) 簇,對篩選出來的可疑特征數(shù)據(jù)簇中的數(shù)據(jù)進行人工審核和標注,并將標注后的數(shù)據(jù)加入 待訓練數(shù)據(jù)集;
[0009] S2.在線學習:訓練模型利用標注后的可疑特征數(shù)據(jù)簇進行在線訓練學習,直到 訓練模型的成熟度滿足要求后,定義訓練模型訓練成熟,存儲訓練成熟的模型參數(shù);
[0010] S3.在線檢測:讀取成熟的模型參數(shù)初始化相應模型,來對輸入的醫(yī)保數(shù)據(jù)進行 在線檢測和標記,根據(jù)標記結(jié)果判斷醫(yī)保數(shù)據(jù)是異常,將異常數(shù)據(jù)保存到異常數(shù)據(jù)庫中。
[0011] 所述的一種醫(yī)療保險異常數(shù)據(jù)在線智能檢測方法,還包括一個檢測修正步驟S4, 包括W下子步驟:
[0012] S41.醫(yī)保業(yè)務系統(tǒng)在使用檢測后的醫(yī)保數(shù)據(jù)時,發(fā)現(xiàn)數(shù)據(jù)檢測結(jié)果與具體業(yè)務有 差異,則調(diào)整檢測標記值,并將有差異的數(shù)據(jù)存儲到反饋數(shù)據(jù)庫中;
[0013] S42.從反饋數(shù)據(jù)庫提取數(shù)據(jù),跳轉(zhuǎn)至步驟S2,重新利用運部分數(shù)據(jù)進行訓練和學 習,從而調(diào)整模型參數(shù),并將調(diào)整后的模型參數(shù)進行存儲。
[0014] 所述的步驟S1包括W下子步驟:
[0015] S11.從醫(yī)保數(shù)據(jù)庫中提取原始數(shù)據(jù);
[0016] S12.構(gòu)造數(shù)據(jù)篩選器,對提取的原始數(shù)據(jù)進行聚類和篩選,得到可疑數(shù)據(jù)特征簇 C;
[0017] S13.將可疑數(shù)據(jù)特征簇C交由人工進行進一步判斷;
[0018] S14.根據(jù)人工判斷結(jié)果,對可疑數(shù)據(jù)特征簇C中的每條特征數(shù)據(jù)均使用標簽X進 行標注,并將標注后的數(shù)據(jù)加入待訓練數(shù)據(jù)集作為待訓練數(shù)據(jù),標簽X為0或者1,標簽X為 0是代表對應的特征數(shù)據(jù)為正常數(shù)據(jù),標簽X為1時代表對應的特征數(shù)據(jù)為異常數(shù)據(jù)。
[0019] 所述的步驟S2包括W下子步驟:
[0020] S21.初始化訓練模型的參數(shù);
[0021] S22.從待訓練數(shù)據(jù)集中提取待訓練數(shù)據(jù),采用訓練模型對當前訓練數(shù)據(jù)進行檢測 得到其檢測值y;
[0022]S23.計算當前數(shù)據(jù)檢測值y與標簽X之間的差值,記為損失β= |x-yI,利用損 失0 = |x-y|對訓練模型的參數(shù)進行調(diào)整;
[0023] S24.計算當前訓練模型的成熟度,作為在線學習階段模型成熟的依據(jù);判斷訓練 模型的成熟度是否滿足預設(shè)條件:
[0024] (1)訓練模型成熟度滿足條件時,定義認為模型訓練成熟,即可W使用,同時保存 成熟模型的參數(shù),訓練結(jié)束;
[00巧](2)訓練模型成熟度不滿足條件時,保存當前的模型并且跳轉(zhuǎn)至步驟S22,再次從 待訓練數(shù)據(jù)集中提取數(shù)據(jù),在保存的當前模型的基礎(chǔ)上,繼續(xù)進行步驟S22到步驟S24的 訓練。
[00%] 所述的步驟S3包括W下子步驟:
[0027] S31.讀取成熟的模型參數(shù)初始化相應模型,生成模型實例;
[0028] S32.將當前待檢測醫(yī)保數(shù)據(jù)輸入模型實例;
[0029] S33.模型實例檢測當前輸入的醫(yī)保數(shù)據(jù),得到當前醫(yī)保數(shù)據(jù)的檢測值,使用檢測 值標記當前輸入的醫(yī)保數(shù)據(jù);
[0030] S34.根據(jù)當前醫(yī)保數(shù)據(jù)的檢測值,判斷醫(yī)保數(shù)據(jù)是否異常:
[0031] (1)醫(yī)保數(shù)據(jù)正常,跳轉(zhuǎn)至步驟S35 ;
[0032] (2)醫(yī)保數(shù)據(jù)異常,將當前的醫(yī)保數(shù)據(jù)存儲到異常數(shù)據(jù)庫中,并跳轉(zhuǎn)至步驟S35 ;
[0033] S35.依次輸入所有待檢測的醫(yī)保數(shù)據(jù),每次輸入數(shù)據(jù)后重復進行步驟S32~步驟 S34,直到?jīng)]有待檢測醫(yī)保數(shù)據(jù)輸入為止。
[0034] 所述的步驟S21包括W下子步驟:
[0035] S211.在訓練模型中,預先存儲醫(yī)保系統(tǒng)中已知的所有數(shù)據(jù)特征項;
[0036] S212.對每一個數(shù)據(jù)特征項中所有可能出現(xiàn)的特征值分別賦予一個FT化參數(shù) (FT化參數(shù)為特征值參數(shù),用于表征對應數(shù)據(jù)特征項的特征值),并將所有FT化參數(shù)均初始 化為0 ;
[0037] S213.對每一個數(shù)據(jù)特征項中所有可能出現(xiàn)的特征值分別賦予一個FM參數(shù)(FM參 數(shù)為特征關(guān)系參數(shù),用于表示特征項之間的關(guān)系),所述的FM參數(shù)為一列4維向量,并將FM 參數(shù)初始化為高斯概率分布。
[0038] 所述的步驟S22包括W下子步驟:
[0039] S221.將一條包含多個數(shù)據(jù)特征項Ml的訓練數(shù)據(jù)Μ輸入訓練模型;i為大于0的 整數(shù),表示數(shù)據(jù)特征項Ml為訓練數(shù)據(jù)Μ中的第i個特征項;
[0040] S222.根據(jù)每個數(shù)據(jù)特征項Ml的特征值,找到特征項對應的FT化參數(shù)和FM參數(shù);
[0041] S223.將訓練數(shù)據(jù)Μ中所有FT化參數(shù)相加,得到參數(shù)hi;
[0042] S224.將訓練數(shù)據(jù)Μ中相鄰特征項的FM參數(shù)相乘,再將所有得到的乘積進行求和, 得到參數(shù)h2;
[0043] S225.將參數(shù)hi和參數(shù)h2相加,得到參數(shù)S,利用公式
求得訓練 數(shù)據(jù)Μ的檢測值y。
[0044] 所述的步驟S23包括W下子步驟:
[0045] S231.找到當前訓練數(shù)據(jù)Μ的標簽X,計算標簽X與檢測值y的差值,記為損失β =|x-y| ;
[0046] S232.依次調(diào)整當前訓練數(shù)據(jù)Μ中每個數(shù)據(jù)特征項Ml對應的FT化參數(shù),對于每個 數(shù)據(jù)特征項Mi,調(diào)整后的FT化參數(shù)等于調(diào)整前的FT化參數(shù)減去a與β的乘積:
[0047] W;'=Wj-a*β, W48] 公式中,Wi'表