一種分類方法及裝置的制造方法
【專利摘要】本發(fā)明涉及數據分類領域,公開了一種分類方法及裝置,包括:獲取待歸類對象的名稱;將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配,若匹配成功,則獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類別,所述對應關系表用于存儲關鍵詞與對象類別的對應關系;將獲取到的對象類別確定為所述待歸類對象的類別;其中,所述對應關系由以下方式得到:獲取樣本對象的名稱以及所述樣本對象的類別;根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。本發(fā)明用以將未細分的對象進行更細致的分類。
【專利說明】
一種分類方法及裝置
技術領域
[0001]本發(fā)明涉及數據分類領域,尤其涉及一種分類方法及裝置。
【背景技術】
[0002]目前,金融行業(yè)內部進行商戶分類,是根據商戶類別碼(簡稱MCC碼)進行劃分。MCC碼由收單機構為特約商戶設置,用于標明銀聯(lián)卡交易環(huán)境、所在商戶的主營業(yè)務范圍和行業(yè)歸屬,是判斷境內跨行交易商戶結算手續(xù)費標準的主要依據;也是開展銀聯(lián)卡交易行業(yè)分析和報告,銀聯(lián)卡業(yè)務風險管理和控制的重要基礎數據之一。
[0003]MCC碼參照ISO國際標準《金融零售業(yè)商戶類別碼》進行制定,保障了銀行卡在跨國跨境使用時以相同的方式標記商戶行業(yè)。但是僅通過MCC碼進行商戶類別劃分,會造成商戶分類粒度過大,無法細分商戶的情況。
[0004]如對于餐飲業(yè),現(xiàn)有的MCC碼中,僅將商戶分為就餐場所和餐館、飲酒場所(酒吧、酒館、夜總會、雞尾酒大廳、迪斯科舞廳)、便民餐飲店等幾類。而隨著商戶的日益增多,需要對商戶進行更深入的數據挖掘,金融行業(yè)中現(xiàn)有的商戶分類已滿足不了要求,需要將商戶進行更詳細的分類。
【發(fā)明內容】
[0005]本發(fā)明實施例提供一種分類方法及裝置,用以將未細分的對象進行更細致的分類。
[0006]本發(fā)明實施例提供的分類方法包括:
[0007]獲取待歸類對象的名稱;
[0008]將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配,若匹配成功,則獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類別,所述對應關系表用于存儲關鍵詞與對象類別的對應關系;
[0009]將獲取到的對象類別確定為所述待歸類對象的類別;
[0010]其中,所述對應關系表由以下方式得到:
[0011]獲取樣本對象的名稱以及所述樣本對象的類別;
[0012]根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。
[0013]較佳地,所述待歸類對象已被初始歸類,且初始歸類為N級類別,從第一級至第N級類別范圍依次縮小;所述對應關系表中的對象類別具有M級類別,從第一級至第M級類別范圍依次縮小,其中M ^ N,且所述對應關系表中的對象類別中第k級類別的顆粒度小于初始歸類的第k級類別的顆粒度,Kk^M;
[0014]所述將獲取到的對象類別確定為所述待歸類對象的類別,包括:將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+P級類別至第M級類別,OΜ-Ν。
[0015]較佳地,所述將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+1級類別至第M級類別之后,還包括:
[0016]將所述關鍵詞在所述對應關系表中對應的對象類別的第一級類別與所述待歸類對象的第一級類別相比較,若不匹配,則將所述關鍵詞在所述對應關系表中對應的樣本對象的第一級類別設置為所述待歸類對象的第一級類別。
[0017]較佳地,所述根據所述樣本對象的名稱得到關鍵詞,具體包括:
[0018]將所述樣本對象的名稱與詞庫中的詞條進行匹配,得到第一組分詞和第二組分詞,所述第一組分詞中包含的字串為所述樣本對象的名稱中與詞條相匹配的字串,所述第二組分詞中包含的字串為單字;將所述第一組分詞和所述第二組分詞中的無效字串進行過濾,得到關鍵詞。
[0019]較佳地,所述將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配,包括:將所述待歸類對象的名稱與對應關系表中的關鍵詞進行比對,若所述待歸類對象的名稱中包含關鍵詞,則所述待歸類對象的名稱與所述關鍵詞匹配成功。
[0020]較佳地,所述方法應用于金融服務系統(tǒng),所述待歸類對象為金融服務系統(tǒng)中的客戶。
[0021]—種分類裝置,包括:獲取模塊、匹配模塊、讀取模塊、歸類模塊和處理模塊;
[0022]所述獲取模塊,用于獲取待歸類對象的名稱;
[0023]所述匹配模塊,用于將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配;
[0024]所述讀取模塊,用于當所述待歸類對象的名稱與所述對應關系表中的關鍵詞匹配成功后,獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類另IJ,所述對應關系表用于存儲關鍵詞與對象類別的對應關系;
[0025]所述歸類模塊,用于將獲取到的對象類別確定為所述待歸類對象的類別;
[0026]其中,所述對應關系表由以下方式得到:所述獲取模塊獲取樣本對象的名稱以及所述樣本對象的類別;所述處理模塊根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。
[0027]較佳地,所述待歸類對象已被初始歸類,且初始歸類為N級類別,從第一級至第N級類別范圍依次縮?。凰鰧P系表中的對象類別具有M級類別,從第一級至第M級類別范圍依次縮小,其中M ^ N,且所述對應關系表中的對象類別中第k級類別的顆粒度小于初始歸類的第k級類別的顆粒度,Kk^M;
[0028]所述歸類模塊,還用于將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+P級類別至第M級類別,O彡P彡M-N。
[0029]較佳地,還包括檢測模塊,用于:將所述關鍵詞在所述對應關系表中對應的對象類別的第一級類別與所述待歸類對象的第一級類別相比較,若不匹配,則將與所述關鍵詞在所述對應關系表中對應的樣本對象的第一級類別匹配的待歸類對象的第一級類別設置為所述待歸類對象的第一級類別。
[0030]較佳地,所述處理模塊,具體用于:將所述樣本對象的名稱與詞庫中的詞條進行匹配,得到第一組分詞和第二組分詞,所述第一組分詞中包含的字串為所述樣本對象的名稱中與詞條相匹配的字串,所述第二組分詞中包含的字串為單字;將所述第一組分詞和所述第二組分詞中的無效字串進行過濾,得到關鍵詞。
[0031]較佳地,所述匹配模塊,用于:將所述待歸類對象的名稱與對應關系表中的關鍵詞進行比對,若所述待歸類對象的名稱中包含關鍵詞,則所述待歸類對象的名稱與所述關鍵詞匹配成功。
[0032]較佳地,所述裝置應用于金融服務系統(tǒng),所述待歸類對象為金融服務系統(tǒng)中的客戶。
[0033]本發(fā)明實施例中,將樣本對象的名稱進行處理,得到關鍵詞,同一樣本對象的關鍵詞與其類別相對應,由此可得到對應關系表,即可通過查找關鍵詞,找到與之相對應的樣本對象的類別。由此,可依據關鍵詞將待歸類對象按樣本對象的分類方法進行進一步分類,具體為,將待歸類對象的名稱與關鍵詞相匹配,若匹配成功,則表示待歸類對象可被歸類為該關鍵詞代表的樣本對象的類別,即將關鍵詞對應的樣本對象的類別作為該待歸類對象的類別。因此,若待歸類對象未被歸類,樣本對象已被分類,則可按照樣本對象的分類方法對待歸類對象進行分類;或樣本對象具有至少二級類別,而待歸類對象只有一級類別,則本發(fā)明實施例可依據樣本對象的第二級類別對歸為一級類別的待歸類對象進行更細致的分類;再或者,樣本對象和待歸類對象進行相同級別的分類,但待歸類對象的類別的分類顆粒度大于樣本對象的類別的分類顆粒度,則可將樣本對象的類別作為待分類對象的類別,從而滿足待歸類對象的分類要求。
【附圖說明】
[0034]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域的普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0035]圖1為本發(fā)明實施例中分類方法的流程圖;
[0036]圖2為本發(fā)明實施例的應用場景的示意圖;
[0037]圖3為本發(fā)明實施例中商戶分類方法的流程圖;
[0038]圖4為本發(fā)明實施例中商戶分類方法的對應關系表建立的流程圖;
[0039]圖5為本發(fā)明實施例中又一商戶分類方法的對應關系表建立的流程圖;
[0040]圖6為本發(fā)明實施例中又一商戶分類方法的流程圖;
[0041]圖7為本發(fā)明實施例中分類裝置的結構圖。
【具體實施方式】
[0042]為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明作進一步地詳細描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0043]為了將未細分的對象進行更細致的分類,本發(fā)明實施例提供了一種分類方法,該方法的流程如圖1所示,包括:
[0044]SlOl:獲取待歸類對象的名稱;
[0045]S102:將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配,若匹配成功,則執(zhí)行步驟S103 ;
[0046]S103:獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類別,所述對應關系表用于存儲關鍵詞與對象類別的對應關系;
[0047]S104:將獲取到的對象類別確定為所述待歸類對象的類別。
[0048]其中,所述對應關系表由以下方式得到:
[0049]獲取樣本對象的名稱以及所述樣本對象的類別;
[0050]根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。
[0051]本發(fā)明實施例中,將樣本對象的名稱進行處理,得到關鍵詞,同一樣本對象的關鍵詞與其類別相對應,由此可得到對應關系表,即可通過查找關鍵詞,找到與之相對應的樣本對象的類別。由此,可依據關鍵詞將待歸類對象按樣本對象的分類方法進行進一步分類,具體為,將待歸類對象的名稱與關鍵詞相匹配,若匹配成功,則表示待歸類對象可被歸類為該關鍵詞代表的樣本對象的類別,即將關鍵詞對應的樣本對象的類別作為該待歸類對象的類別。因此,若待歸類對象未被歸類,樣本對象已被分類,則可按照樣本對象的分類方法對待歸類對象進行分類;或樣本對象具有至少二級類別,而待歸類對象只有一級類別,則本發(fā)明實施例可依據樣本對象的至少二級類別對歸為一級類別的待歸類對象進行更細致的分類;再或者,樣本對象具有二級類別,待歸類對象也具有二級類別,但待歸類對象的第二級類別的分類顆粒度大于樣本對象的第二級類別的分類顆粒度,則可將樣本對象的第二級類別作為待分類對象的第二級類別,從而滿足待歸類對象的分類要求。
[0052]在上述分類方法中,若所述待歸類對象已被初始歸類,且初始歸類為N級類別,從第一級至第N級類別范圍依次縮?。凰鰧P系表中的對象類別具有M級類別,從第一級至第M級類別范圍依次縮小,其中M ^ N,且所述對應關系表中的對象類別中第k級類別的顆粒度小于初始歸類的第k級類別的顆粒度,Kk^M;
[0053]則步驟S104包括:將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+P級類別至第M級類別,O彡P彡M-N。
[0054]舉例來說,待歸類對象已具有二級類別,而對應關系表中的對象類別具有三級類另IJ,且對應關系表中的第二級類別的分類顆粒度小于初始歸類的第二級類別的分類顆粒度,即對應關系表中的第二級類別比初始歸類的第二級類別的分類更為細致,則若待歸類對象的名稱與對應關系表中的關鍵詞匹配成功,則可將對應關系表中的關鍵詞對應的對象類別的第二級類別和第三級類別,確定為待歸類對象的第二級類別和第三級類別。同時,待歸類對象的原第一級類別保持不變。
[0055]按上述方法將待歸類對象進行更細致的分類后,還可過根據新的分類對待歸類對象的原分類進行檢測,具體為:將所述關鍵詞在所述對應關系表中對應的對象類別的第一級類別與所述待歸類對象的第一級類別相比較,若不匹配,則將與所述關鍵詞在所述對應關系表中對應的樣本對象的第一級類別匹配的待歸類對象的第一級類別設置為所述待歸類對象的第一級類別。
[0056]由于待歸類對象已具有二級類別,可根據與待歸類對象相匹配的關鍵詞在對應關系表中對應的第一級類別對待歸類對象的原第一級類別進行校正,若兩者匹配,則表示待歸類對象的原第一級類別無誤,保持不變;若兩者不匹配,則表示待歸類對象的原第一級類別有誤,需對待歸類對象進行檢測,將與對應關系表中的第一級類別相匹配的待歸類對象的第一級類別設置為待歸類對象的第一級類別。
[0057]較佳地,根據所述樣本對象的名稱得到關鍵詞,具體包括:將所述樣本對象的名稱與詞庫中的詞條進行匹配,得到第一組分詞和第二組分詞,所述第一組分詞中包含的字串為所述樣本對象的名稱中與詞條相匹配的字串,所述第二組分詞中包含的字串為單字;將所述第一組分詞和所述第二組分詞中的無效字串進行過濾,得到關鍵詞。
[0058]即將樣本對象的名稱進行分詞,然后進行數據清洗,得到關鍵詞。具體來說,將樣本對象的名稱與詞庫中的詞條進行匹配,將樣本對象的名稱中與詞庫中的某些詞條匹配成功的詞組放入第一組分詞中,剩下樣本對象的名稱中未匹配成功的則拆為單字,放入第二組分詞中。然后對分詞結果進行數據清洗,將分詞結果中的無效字段、符號、亂碼和通用詞語等刪去,從而得到關鍵詞。
[0059]此外,較佳地,步驟S102可以包括:將所述待歸類對象的名稱與對應關系表中的關鍵詞進行比對,若所述待歸類對象的名稱中包含關鍵詞,則所述待歸類對象的名稱與所述關鍵詞匹配成功。
[0060]本發(fā)明實施例的應用場景為金融服務系統(tǒng),所述待歸類對象為金融服務系統(tǒng)中的客戶,可以適用于對金融行業(yè)中的商戶進行更細致的分類,所適用的系統(tǒng)架構如圖2所示,包括第一網站服務器101、第二網站服務器102、商戶分類裝置103以及內部數據庫104。第一網站服務器101和第二網站服務器102為已將商戶進行細致分類的網站,可從網站服務器上獲取樣本商戶信息;內部數據庫104中存儲的是按MCC碼進行歸類的商戶信息,如銀行內部的數據庫。
[0061]具體的,第一網站服務器101和第二網站服務器102可為代表不同商業(yè)領域的服務器,如第一網站服務器101內包含的商戶為餐飲服務業(yè)的,第二網站服務器102內包含的商戶為零售業(yè)的;第一網站服務器101和第二網站服務器102也可以都是電商服務平臺,SP包含多個商業(yè)領域,如淘寶、大眾點評等。網站服務器的數量和類型本實施例中均不做具體規(guī)定,以實際使用情況來定。
[0062]商戶分類裝置103獲取第一網站服務器101和第二網站服務器102的商戶分類信息作為樣本商戶信息,對樣本商戶的名稱進行處理得到關鍵詞,根據關鍵詞和樣本商戶的類別建立對應關系表;從內部數據庫104獲取待識別的商戶信息,將其與對應關系表中的關鍵詞進行匹配處理,匹配成功后,更新內部數據庫104中待識別的商戶的類別信息。
[0063]為了將金融行業(yè)中按照MCC碼進行分類的商戶進行進一步地細分類,本發(fā)明實施例提供了一種商戶分類的方法,該方法的流程如圖3所示,可以包括如下步驟:
[0064]S201、獲取待歸類商戶的名稱;
[0065]S202、將待歸類商戶名稱與對應關系中的關鍵詞進行匹配,若匹配成功則執(zhí)行步驟 S203 ;
[0066]S203、獲取對應關系表中與待歸類商戶的名稱相匹配的關鍵詞所對應的商戶類別;
[0067]S204、將獲取到的商戶類別確定為待歸類商戶的類別。
[0068]其中,對應關系表由以下步驟獲得,如圖4:
[0069]S301、獲取樣本商戶的信息,所述樣本商戶信息中包括商戶的名稱和商戶的類別;
[0070]S302、處理樣本商戶信息中的商戶的名稱,得到關鍵詞,根據關鍵詞與對應的樣本商戶的類別,得到對應關系表。
[0071]現(xiàn)有技術中,某些行業(yè)內部,如銀行,是按照MCC碼對商戶進行分類,商戶的類別很少,難以滿足現(xiàn)階段商戶分類的要求。本發(fā)明實施例中,通過獲取其它的商戶分類方式,將按照MCC碼進行粗分類的商戶按照獲取到的分類方式進一步地細分類,具體可以有兩種處理方式:一種是將按照MCC碼分類的商戶類別作為一級類別,將獲取到的其它的商戶分類作為該商戶一級類別下的二級類別,甚至三級、四級更多級別的類別,由此在原有的商戶分類基礎上,對商戶進行更詳細的分類,細化了商戶的類別,增加了商戶數據的價值,可以挖掘出更多更有用的商戶信息。另一種可以將獲取到的其它的商戶分類方式作為按照MCC碼分類的補充,通過引入其它的商戶類別,增加了銀行等行業(yè)內部的商戶的分類方式,豐富了商戶的分類,豐富了對商戶進行分析的參考信息。
[0072]在步驟S201中,具體獲取樣本的商戶信息的方式可以為,通過API (應用程序編程接口,Applicat1n Programming Interface),導入樣本商戶的信息。API是一些預先定義的函數,目的是為應用程序和/或開發(fā)者提供基于某軟件或硬件得以訪問一組例程的能力,而開發(fā)者無需訪問源碼或理解內部工作機制的細節(jié)。
[0073]基于互聯(lián)網的應用正變得越來越普及,有更多的站點將自身的資源開放給開發(fā)者來調用。如大眾點評中已對商戶進行了細致的分類,以餐飲業(yè)為例,在大眾點評中分類為“美食”,“美食”分類下有“江浙菜”、“川菜”、“日本菜”、“西餐”等細分類,即商戶與分類已相對應,每個餐飲類的商戶已進行詳細分類,而每個餐飲類的詳細分類下有多個商戶,這種對應可以是商戶名稱與商戶類別的對應。本發(fā)明實施例通過API,將大眾點評中的商戶名稱和與之對應的商戶類別進行下載,獲取樣本商戶的信息,如“蘇浙匯(東方路店)”對應的分類為“江浙菜”,將“蘇浙匯(東方路店)”、“美食”、“江浙菜”作為一條商戶信息進行保存。
[0074]進一步地,步驟S202可以為:將樣本商戶的名稱與詞庫中的詞條進行匹配,將樣本商戶名稱中匹配成功的字串作為一組分詞,將匹配失敗的字串分成單字作為一組分詞;根據預設的無效字段清洗每組分詞,將符合所述無效字段的組分詞刪除;將清洗后的組分詞作為關鍵詞。
[0075]仍以“蘇浙匯(東方路店)”為例。首先,將商戶名稱“蘇浙匯(東方路店)”進行分詞,具體可以使用現(xiàn)有的分詞軟件,如街霸中文分詞,將“蘇浙匯(東方路店)”與詞庫中的詞條進行匹配,如詞庫中之前已收錄“蘇浙匯”這一詞條,則將“蘇浙匯”作為一組分詞,分詞結果為“蘇浙匯”、“東方路”、“店”,將此作為情況I ;若為情況2,即詞庫中未收錄“蘇浙匯”這一詞條,則將“蘇”、“浙”、“匯”分別作為一組分詞,分詞結果為“蘇”、“浙”、“匯”、“東方路”、“店”。接著,對分詞結果進行數據清洗,即根據預設的無效字段清洗每組分詞,將分詞中的無效字段、符號、通用詞語等刪去,如“蘇浙匯(東方路店)”中,可將“東方路”、“店”、“匯”這類通用詞語刪去,同時刪去商戶名稱中的括號等符號。最后,情況I中留下的組分詞為“蘇浙匯”,作為關鍵詞;情況2中留下的組分詞為“蘇”、“浙”,即為關鍵詞,即“蘇浙匯”或“蘇”、“浙”與商戶類別“江浙菜”相對應。
[0076]之后,步驟S204中,將待識別商戶的名稱與各關鍵詞進行匹配,可以包括:將待識別商戶的名稱與關鍵詞進行比對,若待識別的商戶的名稱中包含關鍵詞,則待識別的商戶的名稱與所述關鍵詞匹配成功。
[0077]具體來說,步驟S202中將商戶的名稱進行分詞和數據清洗后形成關鍵詞,通過步驟S204將關鍵詞與銀行內部存儲的商戶的名稱進行比對。在情況I中,將“蘇浙匯”與銀行內部存儲的商戶的名稱進行對比,如銀行內部存儲的商戶的名稱為“南京東路蘇浙匯”,其中包含“蘇浙匯”這一組分詞,則表明該商戶的名稱與“蘇浙匯”這一關鍵詞匹配成功。或者在情況2中,如銀行內部存儲的商戶的名稱為“大連路姑蘇小菜”,其中包含“蘇”這一分詞,表明該商戶的名稱與“蘇”這一關鍵詞匹配成功。
[0078]相應地,銀行內部存儲的待識別商戶的名稱與關鍵詞匹配成功后,則可將關鍵詞對應的商戶的至少第二級類別做為待識別商戶的類別,即在情況I中,關鍵詞“蘇浙匯”對應的商戶類別為“美食”、“江浙菜”,則將“江浙菜”作為“南京東路蘇浙匯”的二級類別。由此,“南京東路蘇浙匯”的商戶類別的一級類別為“餐飲業(yè)”,二級類別為“江浙菜”。同理,情況2中“大連路姑蘇小菜”的一級類別為“餐飲業(yè)”,二級類別為“江浙菜”。
[0079]還有一種情況,如某個商戶可以對應不止一個同級別的商戶類別,例如銀行內部存儲的待識別的商戶的名稱為“五角場四川香天下火鍋”,其中包含關鍵詞“四川”、“火鍋”,關鍵詞“四川”對應商戶類別“川菜”,關鍵詞“火鍋”對應商戶類別“火鍋”,則將“川菜”、“火鍋”均作為“四川香天下火鍋”的二級類別。進一步地,若商戶具有三級類別、四級類別等更細致的分類類別,可將所有的分類類別均作為銀行內部存儲的待識別的商戶的類別。
[0080]將待識別的商戶進行新的分類之后,還可以利用新的分類對待識別商戶的原有分類進行檢驗,具體可為:將所述待識別商戶的第一級類別與關鍵詞在對應關系表中對應的商戶類別的第一級類別相比較,若不匹配,則與關鍵詞在對應關系表中對應的樣本商戶的第一級類別設置為待識別的商戶的第一級類別。
[0081]具體來說,首先可以建立一個第二對應關系表,即將樣本商戶的第一級類別和按MCC碼分類的商戶的第一級類別進行對應,將關鍵詞與樣本商戶的類別的對應關系表作為第一對應關系表。若待識別商戶的第一級類別與關鍵詞在第一對應關系表中對應的第一級類別不匹配,則需查找第二對應關系表,找到關鍵詞在第一對應關系表中對應的第一級類另Ij,所對應的按MCC碼分類的商戶的第一級類別,并替換原有的待識別商戶的第一級類別。
[0082]舉例來說,將待識別商戶分類為某二級類別,如“江浙菜”,而銀行內部存儲的該待識別商戶按MCC碼進行分類的第一級類別為“零售業(yè)”,第二級類別“江浙菜”明顯不是第一級類別“零售業(yè)”的細分類。因此需建立樣本商戶的第一級類別和按MCC碼進行分類的第一級類別的對應表,如,將樣本商戶的第一級類別中的“美食”與按MCC碼進行分類的第一級類別中的“餐飲業(yè)”相對應。通過查找上述對應表,將按MCC碼進行分類的商戶的第一級類別設置為與第一級類別“美食”對應的第一級類別“餐飲業(yè)”。通過以上方式,有效解決了MCC的套用問題,針對現(xiàn)有市場上商戶套用MCC以降低刷卡手續(xù)費的現(xiàn)象,通過商戶的名稱是否包含細分類的關鍵詞組,判斷出該商戶所屬行業(yè),可以有效防范商戶MCC套用。另一種處理方法可以是,待識別的商戶與關鍵詞相匹配得出的第一級分類為“美食”,而銀行內部存儲的一級分類為“零售業(yè)”,兩者不一致,則需更改該商戶的第一級分類。
[0083]為了更清楚地理解本發(fā)明,下面以具體實例對上述流程進行詳細描述,可以包括建立對應關系表和進行商戶分類。建立對應關系表的具體流程如圖5所示:
[0084]S401、通過大眾點評網的API,導入樣本商戶。如“望湘園(人民廣場店)”,第一級類別為“美食”,第二級類別為“湘菜”。
[0085]S402、將獲得的所有商戶的名稱與詞庫中的詞條進行匹配,將匹配成功的字串作為一組分詞,將匹配失敗的單字作為一組分詞,則“望湘園(人民廣場店)”得到的分詞為“望”、“湘”、“園”、“人民廣場”、“店”。
[0086]S403、根據預設的無效字段清洗每組分詞,將符合所述無效字段的組分詞刪除,SP將“望”、“園”、“人民廣場”、“店”以及左右括號刪去。
[0087]S404、將清洗后的組分詞作為關鍵詞,即將“湘”作為關鍵詞,可代表第一級類別“美食”以及第二級類別“湘菜”。
[0088]S405、建立關鍵詞與對應的樣本商戶的類別的對應關系表。
[0089]建立對應關系表后,可依據對應關系表對銀行內部的商戶進行進一步分類,如圖6所示:
[0090]S501、獲取待識別商戶的名稱,即商戶分類裝置103從銀行內部數據庫104中獲取商戶的名稱,如“湘樂匯”。
[0091]S502、將待識別商戶的名稱與對應關系表的各關鍵詞進行匹配,即將待識別商戶的名稱與關鍵詞進行對比,若待識別商戶的名稱中包含步驟S304中得到的關鍵詞,則表明匹配成功。如“湘樂匯”中包含了關鍵詞“湘”,則表明商戶的名稱“湘樂匯”與“湘”匹配成功。
[0092]S503、將匹配成功的關鍵詞在對應關系表中對應的第二級類別作為待識別商戶的名稱對應的第二級類別,即將第二級類別“湘菜”作為“湘樂匯”的第二級類別。
[0093]S504、通過待識別商戶的第二級類別檢驗存儲的待識別商戶的第一級類別是否正確。
[0094]基于相同的技術構思,本發(fā)明實施例還提供一種分類裝置,如圖7所示,包括:獲取模塊1、匹配模塊2、讀取模塊3、歸類模塊4和處理模塊5 ;
[0095]獲取模塊1,用于獲取待歸類對象的名稱;
[0096]匹配模塊2,用于將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配;
[0097]讀取模塊3,用于當所述待歸類對象的名稱與所述對應關系表中的關鍵詞匹配成功后,獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類另IJ,所述對應關系表用于存儲關鍵詞與對象類別的對應關系;
[0098]歸類模塊4,用于將獲取到的對象類別確定為所述待歸類對象的類別;
[0099]其中,所述對應關系表由以下方式得到:
[0100]獲取模塊I獲取樣本對象的名稱以及所述樣本對象的類別;
[0101]處理模塊5根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。
[0102]較佳地,所述待歸類對象已被初始歸類,且初始歸類為N級類別,從第一級至第N級類別范圍依次縮小;所述對應關系表中的對象類別具有M級類別,從第一級至第M級類別范圍依次縮小,其中M ^ N,且所述對應關系表中的對象類別中第k級類別的顆粒度小于初始歸類的第k級類別的顆粒度,Kk^M;
[0103]歸類模塊4,還用于將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+P級類別至第M級類別,O彡P彡M-N。
[0104]較佳地,裝置還包括檢測模塊,用于:將所述關鍵詞在所述對應關系表中對應的對象類別的第一級類別與所述待歸類對象的第一級類別相比較,若不匹配,則將與所述關鍵詞在所述對應關系表中對應的樣本對象的第一級類別匹配的待歸類對象的第一級類別設置為所述待歸類對象的第一級類別。
[0105]較佳地,所述處理模塊5,具體用于:將所述樣本對象的名稱與詞庫中的詞條進行匹配,得到第一組分詞和第二組分詞,所述第一組分詞中包含的字串為所述樣本對象的名稱中與詞條相匹配的字串,所述第二組分詞中包含的字串為單字;將所述第一組分詞和所述第二組分詞中的無效字串進行過濾,得到關鍵詞。
[0106]較佳地,匹配模塊2,用于:將所述待歸類對象的名稱與對應關系表中的關鍵詞進行比對,若所述待歸類對象的名稱中包含關鍵詞,則所述待歸類對象的名稱與所述關鍵詞匹配成功。
[0107]較佳地,所述裝置應用于金融服務系統(tǒng),所述待歸類對象為金融服務系統(tǒng)中的客戶。
[0108]從上述內容可以看出:本發(fā)明實施例中,將樣本對象的名稱進行處理,得到關鍵詞,同一樣本對象的關鍵詞與其類別相對應,由此可得到對應關系表,即可通過查找關鍵詞,找到與之相對應的樣本對象的類別。由此,可依據關鍵詞將待歸類對象按樣本對象的分類方法進行進一步分類,具體為,將待歸類對象的名稱與關鍵詞相匹配,若匹配成功,則表示待歸類對象可被歸類為該關鍵詞代表的樣本對象的類別,即將關鍵詞對應的樣本對象的類別作為該待歸類對象的類別。因此,若待歸類對象未被歸類,樣本對象已被分類,則可按照樣本對象的分類方法對待歸類對象進行分類;或樣本對象具有至少二級類別,而待歸類對象只有一級類別,則本發(fā)明實施例可依據樣本對象的第二級類別對歸為一級類別的待歸類對象進行更細致的分類;再或者,樣本對象和待歸類對象進行相同級別的分類,但待歸類對象的類別的分類顆粒度大于樣本對象的類別的分類顆粒度,則可將樣本對象的類別作為待分類對象的類別,從而滿足待歸類對象的分類要求。
[0109]本發(fā)明是參照根據本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0110]這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0111]這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0112]盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
[0113]顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。
【主權項】
1.一種分類方法,其特征在于,包括: 獲取待歸類對象的名稱; 將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配,若匹配成功,則獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類別,所述對應關系表用于存儲關鍵詞與對象類別的對應關系; 將獲取到的對象類別確定為所述待歸類對象的類別; 其中,所述對應關系表由以下方式得到: 獲取樣本對象的名稱以及所述樣本對象的類別; 根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。2.如權利要求1所述的方法,其特征在于,所述待歸類對象已被初始歸類,且初始歸類為N級類別,從第一級至第N級類別范圍依次縮??;所述對應關系表中的對象類別具有M級類別,從第一級至第M級類別范圍依次縮小,其中M ^ N,且所述對應關系表中的對象類別中第k級類別的顆粒度小于初始歸類的第k級類別的顆粒度,Kk^M; 所述將獲取到的對象類別確定為所述待歸類對象的類別,包括: 將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+P級類別至第M級類別,O彡P彡M-N03.如權利要求2所述的方法,其特征在于,所述將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+1級類別至第M級類別之后,還包括: 將所述關鍵詞在所述對應關系表中對應的對象類別的第一級類別與所述待歸類對象的第一級類別相比較,若不匹配,則將所述關鍵詞在所述對應關系表中對應的樣本對象的第一級類別設置為所述待歸類對象的第一級類別。4.如權利要求1所述的方法,其特征在于,所述根據所述樣本對象的名稱得到關鍵詞,具體包括: 將所述樣本對象的名稱與詞庫中的詞條進行匹配,得到第一組分詞和第二組分詞,所述第一組分詞中包含的字串為所述樣本對象的名稱中與詞條相匹配的字串,所述第二組分詞中包含的字串為單字; 將所述第一組分詞和所述第二組分詞中的無效字串進行過濾,得到關鍵詞。5.如權利要求1所述的方法,其特征在于,所述將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配,包括: 將所述待歸類對象的名稱與對應關系表中的關鍵詞進行比對,若所述待歸類對象的名稱中包含關鍵詞,則所述待歸類對象的名稱與所述關鍵詞匹配成功。6.如權利要求1至5任一所述的方法,其特征在于,所述方法應用于金融服務系統(tǒng),所述待歸類對象為金融服務系統(tǒng)中的客戶。7.一種分類裝置,其特征在于,包括:獲取模塊、匹配模塊、讀取模塊、歸類模塊和處理豐吳塊; 所述獲取模塊,用于獲取待歸類對象的名稱; 所述匹配模塊,用于將所述待歸類對象的名稱與對應關系表中的關鍵詞進行匹配; 所述讀取模塊,用于當所述待歸類對象的名稱與所述對應關系表中的關鍵詞匹配成功后,獲取所述對應關系表中與所述待歸類對象的名稱相匹配的關鍵詞所對應的對象類別,所述對應關系表用于存儲關鍵詞與對象類別的對應關系; 所述歸類模塊,用于將獲取到的對象類別確定為所述待歸類對象的類別; 其中,所述對應關系表由以下方式得到: 所述獲取模塊獲取樣本對象的名稱以及所述樣本對象的類別; 所述處理模塊根據所述樣本對象的名稱得到關鍵詞,根據得到的關鍵詞與對應的樣本對象的類別,得到所述對應關系表。8.如權利要求7所述的裝置,其特征在于,所述待歸類對象已被初始歸類,且初始歸類為N級類別,從第一級至第N級類別范圍依次縮?。凰鰧P系表中的對象類別具有M級類別,從第一級至第M級類別范圍依次縮小,其中M ^ N,且所述對應關系表中的對象類別中第k級類別的顆粒度小于初始歸類的第k級類別的顆粒度,Kk^M; 所述歸類模塊,還用于將與所述待歸類對象的名稱相匹配的關鍵詞在所述對應關系表中對應的對象類別中的第N+P級類別至第M級類別,確定為所述待歸類對象的第N+P級類別至第M級類別,O彡P彡M-N09.如權利要求8所述的裝置,其特征在于,還包括檢測模塊,用于: 將所述關鍵詞在所述對應關系表中對應的對象類別的第一級類別與所述待歸類對象的第一級類別相比較,若不匹配,則將與所述關鍵詞在所述對應關系表中對應的樣本對象的第一級類別匹配的待歸類對象的第一級類別設置為所述待歸類對象的第一級類別。10.如權利要求7所述的裝置,其特征在于,所述處理模塊,具體用于: 將所述樣本對象的名稱與詞庫中的詞條進行匹配,得到第一組分詞和第二組分詞,所述第一組分詞中包含的字串為所述樣本對象的名稱中與詞條相匹配的字串,所述第二組分詞中包含的字串為單字; 將所述第一組分詞和所述第二組分詞中的無效字串進行過濾,得到關鍵詞。11.如權利要求7所述的裝置,其特征在于,所述匹配模塊,用于: 將所述待歸類對象的名稱與對應關系表中的關鍵詞進行比對,若所述待歸類對象的名稱中包含關鍵詞,則所述待歸類對象的名稱與所述關鍵詞匹配成功。12.如權利要求7至11任一所述的裝置,其特征在于,所述裝置應用于金融服務系統(tǒng),所述待歸類對象為金融服務系統(tǒng)中的客戶。
【文檔編號】G06Q50/12GK105989184SQ201510527902
【公開日】2016年10月5日
【申請日】2015年8月25日
【發(fā)明人】劉為懷
【申請人】中國銀聯(lián)股份有限公司