一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法
【專利摘要】本發(fā)明記載了一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法,包括以下步驟:S1、屬性因子離散化;S2、理賠案件主要屬性因子篩選;S3、理賠案件標(biāo)準(zhǔn)模板建立及其權(quán)值量化;S4、檢驗標(biāo)準(zhǔn)合理性。即本發(fā)明摒棄了商業(yè)保險公司采用的傳統(tǒng)人工挨個查看所有的索賠案件以發(fā)現(xiàn)可能存在的欺詐案例,將傳統(tǒng)的信息技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合,更高效地輔助業(yè)務(wù)人員發(fā)現(xiàn)欺詐索賠案件,降低人工成本,提高服務(wù)效率;同時,本方法在樣本年齡離散化處理上,放棄主觀定義年齡分割點,而是根據(jù)樣本實際密度分布函數(shù),確定分割點范圍;此外,通過計算復(fù)雜度,確定初始模板權(quán)值,并且各組也進行差異化計算,使各模板權(quán)值在各事故條件下得到優(yōu)化。
【專利說明】
一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及醫(yī)療保險和商業(yè)保險技術(shù)領(lǐng)域,尤其涉及一種基于商業(yè)醫(yī)療保險理賠 案件的相似度計算方法。
【背景技術(shù)】
[0002] 2012年,國務(wù)院發(fā)布《關(guān)于印發(fā)"十二五"期間深化醫(yī)藥衛(wèi)生體制改革規(guī)劃暨實施 方案的通知》,要求積極探索建立重特大疾病保障機制,在提高基本醫(yī)保最高支付限額和高 額醫(yī)療費用支付比例的基礎(chǔ)上,統(tǒng)籌協(xié)調(diào)基本醫(yī)保和商業(yè)健康保險政策,積極探索利用基 本醫(yī)?;鹳徺I商業(yè)大病保險或建立補充保險等方式,有效提高重特大疾病保障水平。同 年發(fā)改委等六部委《關(guān)于開展城鄉(xiāng)居民大病保險工作的指導(dǎo)意見》,明確采取向商業(yè)保險機 構(gòu)購買大病保險的方式開展城鄉(xiāng)居民大病保險工作。經(jīng)3年左右的探索與實踐,2015年8月, 國務(wù)院辦公廳發(fā)布《關(guān)于全面實施城鄉(xiāng)居民大病保險的意見》,要求在2015年底前,大病保 險覆蓋所有城鎮(zhèn)居民基本醫(yī)療保險、新型農(nóng)村合作醫(yī)療(以下統(tǒng)稱城鄉(xiāng)居民基本醫(yī)保)參保 人群,大病患者看病就醫(yī)負(fù)擔(dān)有效減輕;到2017年,建立起比較完善的大病保險制度,以"大 病保險"為主要代表的商業(yè)醫(yī)療(健康)保險對于我國基本醫(yī)療保險/保障制度的補充作用 與地位已基本明確。
[0003] 商業(yè)保險機構(gòu)以保險合同形式承辦大病保險,主要具有以下優(yōu)勢:
[0004] 第一、能夠充分發(fā)揮商業(yè)保險機構(gòu)的專業(yè)特點,加大對醫(yī)療機構(gòu)和醫(yī)療費用的制 約。
[0005] 第二、可以借助商業(yè)保險機構(gòu)在全國范圍內(nèi)統(tǒng)籌核算的經(jīng)營特點,間接提高大病 保險的統(tǒng)籌層次,增強抗風(fēng)險能力,提高服務(wù)水平,放大保障效應(yīng)。
[0006] 第三、利用商業(yè)保險機構(gòu)專業(yè)化管理優(yōu)勢和市場化運行機制,有利于促進提高基 本醫(yī)保的經(jīng)辦效率。
[0007] 除以上優(yōu)勢之外,商業(yè)保險機構(gòu)作為市場主體,同時能夠以"成本控制"為目的,對 當(dāng)前存在的部分保險理賠欺詐進行更為積極有效的發(fā)現(xiàn)、管理與控制。在此背景之下,商業(yè) 保險公司面對后續(xù)業(yè)務(wù)量的"激增",傳統(tǒng)人工挨個查看所有的索賠案件以發(fā)現(xiàn)可能存在的 欺詐案例已難以為繼。
【發(fā)明內(nèi)容】
[0008] 為了解決上述問題,本發(fā)明提供一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方 法,可以有效的解決理賠案件屬性因子離散化、理賠案件主要屬性因子篩選、理賠案件標(biāo)準(zhǔn) 模板建立及其權(quán)值量化等技術(shù)問題。
[0009] 上述的一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法,包括以下步驟:
[0010] S1、屬性因子離散化:計算各年齡段上的樣本分布密度,根據(jù)密度分布函數(shù),最多 將年齡分割成三段并保證各年齡段的遞增連續(xù)性,同時各分段的樣本量基本均衡;
[0011] S2、理賠案件主要屬性因子篩選:從事故人的基礎(chǔ)信息中選擇屬性因子并判斷案 件的合理性;若屬性因子的值是唯一的,說明該屬性因子不具備分類能力;若該屬性因子分 組大于1組,就以該屬性因子為試探性的分組條件,計算該屬性因子分組后的匯總方差; [0012]分組后屬性因子的匯總方差= var(男性患者的發(fā)票住院金額)X男性患者人數(shù)+ var(女性患者的發(fā)票住院金額)X女性患者人數(shù);
[0013]分組前后性別分組方差下降程度=分組前發(fā)票住院金額的方差一(var(男性患者 的發(fā)票住院金額)X男性患者人數(shù)+var (女性患者的發(fā)票住院金額)X女性患者人數(shù))+ (男 性患者人數(shù)+女性患者人數(shù));
[0014] S3、理賠案件標(biāo)準(zhǔn)模板建立及其權(quán)值量化:建立相似度方法參照匹對的標(biāo)準(zhǔn)和各 個標(biāo)準(zhǔn)的重要程度,并從費用區(qū)間、關(guān)聯(lián)病癥、診療項目、險種責(zé)任特征四個模板來衡量案 件相似性;
[0015] S4、檢驗標(biāo)準(zhǔn)合理性:驗證各個標(biāo)準(zhǔn)集組合在新樣本的使用可靠程度。
[0016] 上述方法中,所述步驟S3包括標(biāo)準(zhǔn)因素模板,具體如下:
[0017] (1)、特定條件下的費用區(qū)間:通過計算各事故原因下不同其他屬性的信息增益率 來確定各個事故原因的分組條件下的費用區(qū)間,并以該固定條件下費用區(qū)間作為第一類模 板;
[0018] (2)、特定條件下的項目出現(xiàn)頻率和項目平均金額比例:項目出現(xiàn)頻率為某特定條 件下某個項目的使用人數(shù)占該條件下總?cè)藬?shù)的比例;項目平均金額比例為使用某個項目的 全部人中該項目金額與發(fā)票住院金額比例的平均值;
[0019] (3 )、特定條件下關(guān)聯(lián)疾病的出現(xiàn)頻率和疾病平均金額比例:關(guān)聯(lián)疾病的出現(xiàn)頻率 為某特定條件下某個疾病代碼的使用人數(shù)占該條件下總?cè)藬?shù)的比例;疾病平均金額比例為 全部使用該疾病代碼的病人中,疾病代碼對應(yīng)的發(fā)票住院金額與案件對應(yīng)的發(fā)票住院金額 的比例的平均值;
[0020] (4)、特定條件下的險種和責(zé)任出現(xiàn)頻率和責(zé)任平均賠付比例:險種和責(zé)任出現(xiàn)頻 率為某特定條件下某個險種和責(zé)任組合的使用人數(shù)占該條件下總?cè)藬?shù)的比例;責(zé)任平均賠 付比例:全部使用該險種和責(zé)任組合的病人中,險種和責(zé)任對應(yīng)的責(zé)任賠付金額與案件的 責(zé)任賠付金額比例的平均值。
[0021 ]上述方法中,所述步驟S3還包括模版權(quán)值確定標(biāo)準(zhǔn),具體如下:
[0022]通過程序訓(xùn)練每個模板的權(quán)值,以使得各組模板能夠具有較強的泛化能力;目標(biāo) 函數(shù)定義為:在滿足樣本量達(dá)總體的95 %以上的基礎(chǔ)上,使得合理案件的相似度盡可能大; 對于各組模板的初始權(quán)值,以模板計算量大??;同時通過多目標(biāo)粒子群優(yōu)化算法優(yōu)化各組 模板權(quán)值,再對各因素權(quán)值進行歸一化處理,生成各個模板的最終權(quán)值;在計算出每個模板 下的各因素權(quán)值后,量化各模板下的每個案件對應(yīng)的模板相似度,按從大到小排列,就可以 算出覆蓋率95 %下的模板相似度閾值。
[0023]本發(fā)明的優(yōu)點和有益效果在于:本發(fā)明提供了一種基于商業(yè)醫(yī)療保險理賠案件的 相似度計算方法,摒棄了商業(yè)保險公司采用的傳統(tǒng)人工挨個查看所有的索賠案件以發(fā)現(xiàn)可 能存在的欺詐案例,將傳統(tǒng)的信息技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合,更高效地輔助業(yè)務(wù)人員發(fā)現(xiàn) 欺詐索賠案件,降低人工成本,提高服務(wù)效率;
[0024]同時,本方法在樣本年齡離散化處理上,放棄主觀定義年齡分割點(兒童、青少年、 成人、中年、老年),根據(jù)樣本實際密度分布函數(shù),確定分割點范圍;
[0025] 此外,由于各事故原因(疾病類型)下,使得各組模板的差異性亦不容忽視,這給業(yè) 務(wù)工作人員帶來了大量的工作和難以完成的精度要求;本方法通過計算復(fù)雜度(信息熵), 確定初始模板權(quán)值,并且各組也進行差異化計算,使各模板權(quán)值在各事故條件下得到優(yōu)化。
【附圖說明】
[0026] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。
[0027] 圖1是本發(fā)明中相似度計算方法的方法流程示意圖。
【具體實施方式】
[0028] 下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進一步描述。以下實施例僅 用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護范圍。
[0029] 如圖1所示,本發(fā)明記載了一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法,主 要包括以下步驟:
[0030] S1、屬性因子離散化:計算各年齡段上的樣本分布密度,根據(jù)密度分布函數(shù),最多 將年齡分割成三段并保證各年齡段的遞增連續(xù)性,同時各分段的樣本量基本均衡;
[0031] S2、理賠案件主要屬性因子篩選:從事故人的基礎(chǔ)信息中選擇屬性因子并判斷案 件的合理性;若屬性因子的值是唯一的,說明該屬性因子不具備分類能力;若該屬性因子分 組大于1組,就以該屬性因子為試探性的分組條件,計算該屬性因子分組后的匯總方差;
[0032] 分組后屬性因子的匯總方差= var(男性患者的發(fā)票住院金額)X男性患者人數(shù)+ var(女性患者的發(fā)票住院金額)X女性患者人數(shù);
[0033] 分組前后性別分組方差下降程度=分組前發(fā)票住院金額的方差一(var(男性患者 的發(fā)票住院金額)X男性患者人數(shù)+var (女性患者的發(fā)票住院金額)X女性患者人數(shù))+ (男 性患者人數(shù)+女性患者人數(shù));以某事故原因為例,在對各個屬性因子試探性分組結(jié)果如下 所示:
[0035]方差下降程度越大,說明該屬性因子能夠使得組內(nèi)差異越小。所以醫(yī)院等級作為 我們首要的分組條件,25個理賠案件的事故人在醫(yī)院等級2中就診,另外11患者在醫(yī)院等級 3中就診。由于11個患者再分組就失去了統(tǒng)計意義,所以不再進行分組。同時,在11個患者的 分組中依次計算各個屬性因子的方差,將方差等于0的變量直接添加入分組條件并且計算 費用區(qū)間。以此類推,直至樣本高內(nèi)聚且樣本數(shù)量滿足最小數(shù)量要求。
[0036] S3、理賠案件標(biāo)準(zhǔn)模板建立及其權(quán)值量化:建立相似度方法參照匹對的標(biāo)準(zhǔn)和各 個標(biāo)準(zhǔn)的重要程度,并從費用區(qū)間、關(guān)聯(lián)病癥、診療項目、險種責(zé)任特征四個模板來衡量案 件相似性,且包括標(biāo)準(zhǔn)因素模板,具體如下:
[0037] (1)、特定條件下的費用區(qū)間:通過計算各事故原因下不同其他屬性的信息增益率 來確定各個事故原因的分組條件下的費用區(qū)間,并以該固定條件下費用區(qū)間作為第一類模 板;
[0038] (2)、特定條件下的項目出現(xiàn)頻率和項目平均金額比例:項目出現(xiàn)頻率為某特定條 件下某個項目的使用人數(shù)占該條件下總?cè)藬?shù)的比例;項目平均金額比例為使用某個項目的 全部人中該項目金額與發(fā)票住院金額比例的平均值;
[0039] (3 )、特定條件下關(guān)聯(lián)疾病的出現(xiàn)頻率和疾病平均金額比例:關(guān)聯(lián)疾病的出現(xiàn)頻率 為某特定條件下某個疾病代碼的使用人數(shù)占該條件下總?cè)藬?shù)的比例;疾病平均金額比例為 全部使用該疾病代碼的病人中,疾病代碼對應(yīng)的發(fā)票住院金額與案件對應(yīng)的發(fā)票住院金額 的比例的平均值;
[0040] (4)、特定條件下的險種和責(zé)任出現(xiàn)頻率和責(zé)任平均賠付比例:險種和責(zé)任出現(xiàn)頻 率為某特定條件下某個險種和責(zé)任組合的使用人數(shù)占該條件下總?cè)藬?shù)的比例;責(zé)任平均賠 付比例:全部使用該險種和責(zé)任組合的病人中,險種和責(zé)任對應(yīng)的責(zé)任賠付金額與案件的 責(zé)任賠付金額比例的平均值。
[0041 ]同時還包括模版權(quán)值確定標(biāo)準(zhǔn),具體如下:
[0042] 通過程序訓(xùn)練每個模板的權(quán)值,以使得各組模板能夠具有較強的泛化能力;目標(biāo) 函數(shù)定義為:在滿足樣本量達(dá)總體的95 %以上的基礎(chǔ)上,使得合理案件的相似度盡可能大; 對于各組模板的初始權(quán)值,以模板計算量大小(或者理賠案件信息量熵,信息熵越大,邏輯 計算越復(fù)雜,模板權(quán)值越高,反之亦然)。例如,某一案件有2個且都在模板之上的關(guān)聯(lián)疾病, 計算其在關(guān)聯(lián)疾病模板下的相似度時,其所需的條件判斷數(shù)量為2。在實際情況中,某個人 的所使用的住院項目和模板越接近,就越能體現(xiàn)其具體病癥和模板越相似。如果只是從關(guān) 聯(lián)疾病模板來看,是不能體現(xiàn)出相同病癥下的嚴(yán)重程度。費用區(qū)間因素、險種和責(zé)任因素, 同樣如此。那么,采用這種方式計算就具有一定的合理性。
[0043] 同時通過多目標(biāo)粒子群優(yōu)化算法優(yōu)化各組模板權(quán)值,再對各因素權(quán)值進行歸一化 處理,生成各個模板的最終權(quán)值;在計算出每個模板下的各因素權(quán)值后,量化各模板下的每 個案件對應(yīng)的模板相似度,按從大到小排列,就可以算出覆蓋率95%下的模板相似度閾值。 [0044] S4、檢驗標(biāo)準(zhǔn)合理性:驗證各個標(biāo)準(zhǔn)集組合在新樣本的使用可靠程度。
[0045]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法,其特征在于,包括以下步驟: 51、 屬性因子離散化:計算各年齡段上的樣本分布密度,根據(jù)密度分布函數(shù),最多將年 齡分割成三段并保證各年齡段的遞增連續(xù)性,同時各分段的樣本量基本均衡; 52、 理賠案件主要屬性因子篩選:從事故人的基礎(chǔ)信息中選擇屬性因子并判斷案件的 合理性;若屬性因子的值是唯一的,說明該屬性因子不具備分類能力;若該屬性因子分組大 于1組,就以該屬性因子為試探性的分組條件,計算該屬性因子分組后的匯總方差; 分組后屬性因子的匯總方差= var(男性患者的發(fā)票住院金額)X男性患者人數(shù)+var (女性患者的發(fā)票住院金額)X女性患者人數(shù); 分組前后性別分組方差下降程度=分組前發(fā)票住院金額的方差一(var(男性患者的發(fā) 票住院金額)X男性患者人數(shù)+var(女性患者的發(fā)票住院金額)X女性患者人數(shù))+ (男性患 者人數(shù)+女性患者人數(shù)); 53、 理賠案件標(biāo)準(zhǔn)模板建立及其權(quán)值量化:建立相似度方法參照匹對的標(biāo)準(zhǔn)和各個標(biāo) 準(zhǔn)的重要程度,并從費用區(qū)間、關(guān)聯(lián)病癥、診療項目、險種責(zé)任特征四個模板來衡量案件相 似性; 54、 檢驗標(biāo)準(zhǔn)合理性:驗證各個標(biāo)準(zhǔn)集組合在新樣本的使用可靠程度。2. 如權(quán)利要求1所述的一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法,其特征在 于,所述步驟S3包括標(biāo)準(zhǔn)因素模板,具體如下: (1) 、特定條件下的費用區(qū)間:通過計算各事故原因下不同其他屬性的信息增益率來確 定各個事故原因的分組條件下的費用區(qū)間,并以該固定條件下費用區(qū)間作為第一類模板; (2) 、特定條件下的項目出現(xiàn)頻率和項目平均金額比例:項目出現(xiàn)頻率為某特定條件下 某個項目的使用人數(shù)占該條件下總?cè)藬?shù)的比例;項目平均金額比例為使用某個項目的全部 人中該項目金額與發(fā)票住院金額比例的平均值; (3 )、特定條件下關(guān)聯(lián)疾病的出現(xiàn)頻率和疾病平均金額比例:關(guān)聯(lián)疾病的出現(xiàn)頻率為某 特定條件下某個疾病代碼的使用人數(shù)占該條件下總?cè)藬?shù)的比例;疾病平均金額比例為全部 使用該疾病代碼的病人中,疾病代碼對應(yīng)的發(fā)票住院金額與案件對應(yīng)的發(fā)票住院金額的比 例的平均值; (4)、特定條件下的險種和責(zé)任出現(xiàn)頻率和責(zé)任平均賠付比例:險種和責(zé)任出現(xiàn)頻率為 某特定條件下某個險種和責(zé)任組合的使用人數(shù)占該條件下總?cè)藬?shù)的比例;責(zé)任平均賠付比 例:全部使用該險種和責(zé)任組合的病人中,險種和責(zé)任對應(yīng)的責(zé)任賠付金額與案件的責(zé)任 賠付金額比例的平均值。3. 如權(quán)利要求2所述的一種基于商業(yè)醫(yī)療保險理賠案件的相似度計算方法,其特征在 于,所述步驟S3還包括模版權(quán)值確定標(biāo)準(zhǔn),具體如下: 通過程序訓(xùn)練每個模板的權(quán)值,以使得各組模板能夠具有較強的泛化能力;目標(biāo)函數(shù) 定義為:在滿足樣本量達(dá)總體的95 %以上的基礎(chǔ)上,使得合理案件的相似度盡可能大;對于 各組模板的初始權(quán)值,以模板計算量大??;同時通過多目標(biāo)粒子群優(yōu)化算法優(yōu)化各組模板 權(quán)值,再對各因素權(quán)值進行歸一化處理,生成各個模板的最終權(quán)值;在計算出每個模板下的 各因素權(quán)值后,量化各模板下的每個案件對應(yīng)的模板相似度,按從大到小排列,就可以算出 覆蓋率95 %下的模板相似度閾值。
【文檔編號】G06F17/30GK105868555SQ201610185861
【公開日】2016年8月17日
【申請日】2016年3月29日
【發(fā)明人】陳杰
【申請人】陳杰