專利名稱:一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息安全領(lǐng)域的計(jì)算機(jī)技術(shù),特別是涉及一種能識(shí)破利用統(tǒng)一碼(Unicode)的字符或由統(tǒng)一碼的字符組成的文本進(jìn)行(身份)欺詐的方法及系統(tǒng)。
背景技術(shù):
Unicode是為了解決信息技術(shù)中字符表達(dá)的局限性而出現(xiàn)的一種技術(shù)。Unicode字符集中幾乎包括了所有目前人類自然語言中所需要的符號(hào)。然而,Unicode字符集中有非常多的字形相同或相似,語義上相同或相似的字符。比如字符“a”“b”“c”會(huì)有多個(gè)對(duì)應(yīng)的字形或字義相似的其它字符存在,如下表1所示(在下表1中每個(gè)字符下面是其相對(duì)應(yīng)的十六進(jìn)制的Unicode代碼)。
統(tǒng)一碼在互聯(lián)網(wǎng)上的廣泛應(yīng)用帶來了一些安全問題,特別是一些人可以利用統(tǒng)一碼的字符及文本進(jìn)行(身份)欺詐。由于統(tǒng)一碼中有非常多的相似字符,甚至是視覺上一模一樣的字符,“黑客”或“網(wǎng)釣者”可以利用這一點(diǎn),即利用相似的字符替代常見的字符來迷惑用戶的眼睛,如冒用一些知名網(wǎng)站或網(wǎng)名,進(jìn)而進(jìn)行網(wǎng)上欺騙。例如,paypal.com中的第二個(gè)a的統(tǒng)一碼是0x0430而不是常用的0x0061或ASCII0x61,但由于統(tǒng)一碼為0x0430的a與常用的統(tǒng)一碼為0x0061的a在形狀上很相似,普通的用戶基本無法區(qū)分,因此容易將paypal.com(第二個(gè)a的統(tǒng)一碼是0x0430)誤認(rèn)為是paypal.com(第二個(gè)a的統(tǒng)一碼是0x0061),而在此假冒網(wǎng)頁上泄露了各種重要的信息如銀行卡及密碼等。又如,詐騙者利用″囯″與″國(guó)″的相似,用中囯銀行.com冒名中國(guó)銀行.com,來進(jìn)行網(wǎng)上欺騙。其中,這里所述的“常用”是相對(duì)于“生僻”而言的,如″國(guó)″是常用字,而″囯″是生僻字。按照使用的頻率,可將漢字劃分為常用或不常用。其中,漢字中的常用字包括一級(jí)字庫3千多和二級(jí)字庫3千多,一級(jí)字比二級(jí)字庫常用得多,也即是被使用的頻率高得多。類似地,其它的語言字符如英文字符按照其使用頻率的高低也有常用與不常用的區(qū)分,如0x0061是最常用的字符a的統(tǒng)一碼,0x0430比較少用。發(fā)送垃圾郵件者也可能利用這個(gè)方法來繞開垃圾過濾器的過濾。騙子也可以注冊(cè)與名人的網(wǎng)名極其相似的網(wǎng)名來假冒名人行騙。
在Internet上誘騙網(wǎng)站通常都是利用網(wǎng)址和網(wǎng)頁本身的視覺相似性來進(jìn)行誘騙。以往用戶僅僅依靠小心謹(jǐn)慎,是有可能辨別出假冒網(wǎng)站的鏈接與真實(shí)鏈接不同的。而隨著統(tǒng)一碼的出現(xiàn),人類僅靠肉眼是很難分辨出兩個(gè)由統(tǒng)一碼字符構(gòu)成的相似鏈接的區(qū)別,例如上文所述的paypal例子。因此用計(jì)算機(jī)代替人眼來識(shí)別由統(tǒng)一碼組成的相似網(wǎng)址和文本是迫在眉睫的。但目前現(xiàn)有技術(shù)中還不存在可以準(zhǔn)確友好地對(duì)用戶給出類似的提示的方法。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法及系統(tǒng),用于幫助用戶或系統(tǒng)管理員識(shí)破利用統(tǒng)一碼進(jìn)行網(wǎng)絡(luò)欺詐的行為。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,包括分組步驟,確定由統(tǒng)一碼表示的文本和/或鏈接中的字符所屬統(tǒng)一碼分區(qū);及著色步驟,對(duì)所述文本和/或鏈接中的字符根據(jù)其所屬的不同統(tǒng)一碼分區(qū)及其在其統(tǒng)一碼字符相似索引表中的排序位置選用不同的顏色顯示其背景或其前景。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述統(tǒng)一碼分區(qū)為標(biāo)準(zhǔn)劃分的統(tǒng)一碼語言區(qū)域、對(duì)標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域進(jìn)一步劃分形成的語言區(qū)域子區(qū)、或按預(yù)設(shè)方式對(duì)所有統(tǒng)一碼劃分形成的分區(qū)。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,根據(jù)統(tǒng)一碼分區(qū)數(shù)目、各統(tǒng)一碼分區(qū)字符的使用頻率、當(dāng)前可用顏色集合為字符所屬的每一統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述統(tǒng)一碼字符相似索引表為與所述字符的相似度大于或等于一相似度閾值的字符集合或列表,并按字符的地址、相似度或使用頻率的方式進(jìn)行排序索引。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述著色步驟進(jìn)一步包括對(duì)所述字符是否為使用正常的字符或使用異常的字符進(jìn)行判斷的步驟。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,根據(jù)所述字符所在上下文判斷所述字符與前后字符所組成的詞是否被收錄在詞庫中來判斷所述字符為使用正常的字符還是使用異常的字符,若被收錄在詞庫中,則所述字符為使用正常的字符;若未被收錄在詞庫中或詞庫為空時(shí),則所述字符為使用異常的字符。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述著色步驟進(jìn)一步包括當(dāng)所述字符為使用正常的字符時(shí),用其所屬的統(tǒng)一碼分區(qū)的基本顏色對(duì)所述字符進(jìn)行著色;當(dāng)所述字符為使用異常的字符時(shí),選取二級(jí)區(qū)分顏色集之中的顏色對(duì)所述字符進(jìn)行著色,其中,所述二級(jí)區(qū)分顏色集為除去所述各統(tǒng)一碼分區(qū)對(duì)應(yīng)的基本顏色后的畫板顏色集合。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述著色步驟進(jìn)一步包括相似字符查找步驟,查找一字符的統(tǒng)一碼字符相似索引表中與該字符相似的相似字符列表;及相似字符著色步驟,根據(jù)該字符在所述相似字符列表中按詞頻排序的排名序號(hào)從所述二級(jí)區(qū)分顏色集之中為其選取進(jìn)行著色時(shí)的顏色。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述相似字符查找步驟進(jìn)一步包括計(jì)算所有統(tǒng)一碼字符兩兩之間的相似度;根據(jù)所述相似度為每一統(tǒng)一碼字符建立統(tǒng)一碼字符相似索引表。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述著色步驟進(jìn)一步包括按照顏色的視覺距離,從視覺可識(shí)別(即,可區(qū)分)的顏色中選擇不同的顏色組成一畫板顏色集合;及從所述畫板顏色集合中選擇不同的顏色顯示所述不同統(tǒng)一碼分區(qū)的字符或其背景。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述著色步驟進(jìn)一步包括對(duì)所述畫板顏色集合中的顏色進(jìn)行排序形成一序列,使得在該序列中任一顏色與其前面的所有顏色的最小視覺距離都不大于位于其前的任一顏色與其前面的所有顏色的最小視覺距離;及對(duì)需要著色的統(tǒng)一碼分區(qū)按不同語言統(tǒng)一碼分區(qū)中的字符在全世界文本中的使用頻率進(jìn)行降序排序或按統(tǒng)一碼的所有分區(qū)的起始地址進(jìn)行升序排序,并按此順序從已排序的畫板顏色集合中挨個(gè)選取顏色賦給所述每一需要著色的字符的統(tǒng)一碼分區(qū)作為其基本顏色。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其中,所述著色步驟進(jìn)一步包括對(duì)整個(gè)著色系統(tǒng)設(shè)置給定的背景色和前景色;及給定前景色和背景色后,對(duì)剩下的顏色按預(yù)設(shè)的排序方式排序或按與所述畫板顏色集合中的顏色相同的排序方式排序,并按此排序依次賦給所述文本和/或鏈接中的每個(gè)字符的所屬統(tǒng)一碼分區(qū),作為基本顏色,其余顏色作為所述二級(jí)區(qū)分顏色集用于對(duì)每個(gè)分區(qū)內(nèi)部的相似字符的著色。
為了實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,包括分組模塊,用于確定由統(tǒng)一碼表示的文本和/或鏈接中的字符所屬統(tǒng)一碼分區(qū);及著色模塊,用于對(duì)所述文本和/或鏈接中的字符根據(jù)其所屬的不同統(tǒng)一碼分區(qū)及其在其統(tǒng)一碼字符相似索引表中的排序位置選用不同的顏色顯示其背景或其前景。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述統(tǒng)一碼分區(qū)為標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域、對(duì)標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域進(jìn)一步劃分形成的子區(qū)、或按預(yù)設(shè)方式對(duì)所有統(tǒng)一碼劃分形成的分區(qū)。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,根據(jù)統(tǒng)一碼分區(qū)數(shù)目、各統(tǒng)一碼分區(qū)字符的使用頻率、當(dāng)前可用顏色集合為字符所屬的每一統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述統(tǒng)一碼字符相似索引表為與所述字符的相似度大于或等于一相似度閾值的字符集合或列表,并按字符的地址、相似度或使用頻率的方式進(jìn)行排序索引。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述著色模塊根據(jù)所述字符所在上下文判斷所述字符與前后字符所組成的詞是否被收錄在詞庫中來判斷所述字符為使用正常的字符還是使用異常的字符,若被收錄在詞庫中,則所述字符為使用正常的字符;若未被收錄在詞庫中或詞庫為空時(shí),則所述字符為使用異常的字符。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,當(dāng)所述字符為使用正常的字符時(shí),所述著色模塊用其所屬的統(tǒng)一碼分區(qū)的基本顏色對(duì)所述字符進(jìn)行著色;當(dāng)所述字符為使用異常的字符時(shí),所述著色模塊選取二級(jí)區(qū)分顏色集之中的顏色對(duì)所述字符進(jìn)行著色,其中,所述二級(jí)區(qū)分顏色集為除去所述各統(tǒng)一碼分區(qū)對(duì)應(yīng)的基本顏色后的畫板顏色集合。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述著色模塊進(jìn)一步包括相似字符查找模塊,用于查找一字符的統(tǒng)一碼字符相似索引表中與該字符相似的相似字符列表;及相似字符著色模塊,用于根據(jù)該字符在所述相似字符列表中按詞頻排序的排名序號(hào)從所述二級(jí)區(qū)分顏色集之中為其選取進(jìn)行著色時(shí)的顏色。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述相似字符查找模塊進(jìn)一步包括相似度計(jì)算模塊,用于計(jì)算所有統(tǒng)一碼字符兩兩間的相似度;及統(tǒng)一碼字符相似索引表建立模塊,用于根據(jù)所述相似度為每一統(tǒng)一碼字符建立統(tǒng)一碼字符相似索引表。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述著色模塊進(jìn)一步包括色彩選擇模塊,用于按照顏色的視覺距離,從視覺可識(shí)別(即,可區(qū)分)的顏色中選擇不同的顏色組成一畫板顏色集合;其中,所述畫板顏色集合中存儲(chǔ)的顏色可供選擇用于顯示所述不同統(tǒng)一碼分區(qū)的字符或其背景。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述著色模塊進(jìn)一步包括顏色排序模塊,用于對(duì)所述畫板顏色集合中的顏色進(jìn)行排序形成一序列,使得在該序列中任一顏色與其前面的所有顏色的最小視覺距離都不大于位于其前的任一顏色與其前面的所有顏色的最小視覺距離;及統(tǒng)一碼分區(qū)的排序并著色模塊,用于對(duì)需要著色的統(tǒng)一碼分區(qū)按不同語言統(tǒng)一碼分區(qū)中的字符在全世界文本中的使用頻率進(jìn)行降序排序或按統(tǒng)一碼的所有分區(qū)的起始地址進(jìn)行升序排序,并按此順序從已排序的畫板顏色集合中挨個(gè)選取顏色賦給所述每一需要著色的分區(qū)作為其基本顏色。
所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其中,所述著色模塊進(jìn)一步包括背景色和前景色設(shè)置模塊,用于對(duì)整個(gè)著色系統(tǒng)設(shè)置給定的背景色和前景色;及給定前景色和背景色后的排序著色模塊,用于在給定前景色和背景色后,對(duì)剩下的顏色按預(yù)設(shè)的排序方式排序或按與所述畫板顏色集合中的顏色相同的排序方式排序,并按此順序依次賦給所述文本和/或鏈接中的每個(gè)字符的所屬統(tǒng)一碼分區(qū)作為基本顏色;其余顏色作為所述二級(jí)區(qū)分顏色集用于對(duì)每個(gè)分區(qū)內(nèi)部的相似字符的著色。
本發(fā)明通過對(duì)由統(tǒng)一碼字符構(gòu)成的文本、鏈接進(jìn)行著色來幫助用戶區(qū)分文本或者鏈接中摻雜的不同的統(tǒng)一碼分區(qū)的字符及相似的字符,從而可防止犯罪分子利用統(tǒng)一碼字符的視覺、語義相似性進(jìn)行網(wǎng)絡(luò)欺詐。
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述,但不作為對(duì)本發(fā)明的限定。
圖1是本發(fā)明一實(shí)施例的統(tǒng)一碼分區(qū)及為各分區(qū)選擇的基本顏色的示意圖;圖2是在本發(fā)明的一實(shí)施例中,利用固定著色方案對(duì)citibank可能欺詐鏈接著色的結(jié)果;圖3(a)、圖3(b)、圖3(c)是在本發(fā)明的一實(shí)施例中,利用動(dòng)態(tài)著色方案對(duì)統(tǒng)一碼文本進(jìn)行著色的結(jié)果;圖4是本發(fā)明一實(shí)施例系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
本發(fā)明的方法及系統(tǒng)根據(jù)由統(tǒng)一碼表示的文本和/或鏈接中的字符的屬性來對(duì)具有不同屬性的字符進(jìn)行不同著色,即用不同的顏色顯示具有不同屬性的字符(前景著色方式),或者用不同的顏色作為字符背景(背景著色方式),從而提醒用戶文本或者鏈接中摻雜不同的統(tǒng)一碼編碼,幫助用戶或系統(tǒng)管理員識(shí)破利用統(tǒng)一碼進(jìn)行的欺詐。其中,統(tǒng)一碼字符的屬性包括字符所處的統(tǒng)一碼分區(qū),該分區(qū)包括標(biāo)準(zhǔn)劃分的統(tǒng)一碼語言區(qū)域,以及在標(biāo)準(zhǔn)劃分的統(tǒng)一碼的語言區(qū)域上進(jìn)一步細(xì)分形成的語言區(qū)域子區(qū)等。進(jìn)一步地,本發(fā)明的方法或系統(tǒng)還可以對(duì)位于同一分區(qū)中的相似字符用不同的顏色進(jìn)行著色。類似地,還可按照需要根據(jù)統(tǒng)一碼字符具有的其它屬性對(duì)字符進(jìn)行著色區(qū)分。
如對(duì)于paypal.com,除第二個(gè)a的統(tǒng)一碼是0x0430外,其它的字符都是最常用的基本拉丁區(qū)字符,利用本發(fā)明的方法可用黑色顯示基本拉丁區(qū)字符,而用不同于黑色的藍(lán)色或其它顏色顯示處于Cyrillic區(qū)(西里爾字母區(qū))的第二個(gè)a或其背景,由此向用戶提示所述第二個(gè)a與人們通常使用的基本拉丁區(qū)字符a不相同。又如中囯銀行.com中的″囯″與″國(guó)″非常相似,而且同屬于統(tǒng)一碼中文分區(qū),但并不常用,因此當(dāng)用紅色顯示中國(guó)銀行時(shí),可用區(qū)別于紅色的″國(guó)″的絳紅色或其它不同的顏色顯示″囯″或其背景,以向用戶示出″囯″與″國(guó)″的區(qū)別。
一個(gè)好的著色方案應(yīng)該符合下述規(guī)則11),可閱讀性好,對(duì)一串或一段包含多種語言文字的文本的著色結(jié)果仍然要易于閱讀;12),區(qū)分能力強(qiáng),對(duì)一串或一段包含多種語言文字的文本的著色結(jié)果要能用顏色區(qū)分各種語言文字及同一語言中相似的字符;13),可擴(kuò)展性好,在以后統(tǒng)一碼加入更多種語言文字時(shí),該方法仍然可以應(yīng)用。
本發(fā)明利用著色這一方法來提醒用戶文本或者鏈接中摻雜著不同的統(tǒng)一碼編碼,具體實(shí)現(xiàn)流程可包括第一步確定字符所屬統(tǒng)一碼區(qū)域現(xiàn)有統(tǒng)一碼字符可劃分成多個(gè)不同的語言區(qū)域,如,基本拉丁區(qū)(BasicLatin),其范圍是起始地址0000-終止地址007F,包括128個(gè)字符;西里爾字母區(qū)(Cyrillic),其范圍是起始地址0400-終止地址04FF,包括256個(gè)字符。具體的一個(gè)標(biāo)準(zhǔn)劃分參見附圖1的第一列,也可參考出版物(The UnicodeStandard(《統(tǒng)一碼標(biāo)準(zhǔn)》),Version 2.0(第2版),The Unicode Consortium,Addison-Wesley Longman,August 1996)。本發(fā)明根據(jù)字符地址查找其所在統(tǒng)一碼區(qū)域。
圖1示出了本發(fā)明一實(shí)施例的統(tǒng)一碼分區(qū)表,即《統(tǒng)一碼標(biāo)準(zhǔn)》第2版中推薦的標(biāo)準(zhǔn)分區(qū)表。如圖1所示,從左往右,第一列為語言分區(qū)(或簡(jiǎn)稱分區(qū)),第二列為各分區(qū)對(duì)應(yīng)的起始地址,第三列為各分區(qū)對(duì)應(yīng)的終止地址,第四列為該分區(qū)的字符個(gè)數(shù),第五列為該分區(qū)建議使用的顏色的紅、綠、藍(lán)值(將在后面著色步驟中用到),第六列為該顏色與其上方各顏色的距離的最小值(MinDistance)。
第二步根據(jù)字符所屬分區(qū)確定字符基本顏色為了區(qū)分來自統(tǒng)一碼不同分區(qū)的字符,本發(fā)明需要確定各分區(qū)字符的基本顏色,即對(duì)每一分區(qū)分配一個(gè)基本顏色。具體分配結(jié)果取決于有多少分區(qū)、各分區(qū)字符的使用頻率、當(dāng)前可用顏色集合等因素。此步驟具體可分為以下三個(gè)步驟21),獲得可用顏色集合并對(duì)其顏色按各顏色之間的差異(即距離)進(jìn)行從大到小排序;22),獲得需著色的統(tǒng)一碼字符的各所屬分區(qū)集合;23),為每個(gè)需著色的統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
21),獲得可用顏色集合并對(duì)其顏色按各顏色之間的差異(即距離)進(jìn)行從大到小排序;為每一分區(qū)分配可用的顏色時(shí),應(yīng)盡量使各分區(qū)顏色之間的差異最大化,以保證人眼很容易地區(qū)分開這些顏色,因而能區(qū)分開字符的所屬區(qū)域。不同顏色之間的差異,即顏色或色調(diào)值之間的距離,也即色調(diào)視覺區(qū)分度(color visualdifference),是指給定兩個(gè)顏色在人眼中成像后所給人帶來的視覺上的不同度量,本發(fā)明可以用色調(diào)值之間的距離來衡量其視覺區(qū)分度,如下公式(1)(參見Riemersma T.,Colour Metric,http://www.compuphase.com/cmetric.htm)。
r‾=C1,R+C2,R2]]>ΔR=C1,R-C2,R(1)ΔG=C1,G-C2,GΔB=C1,B-C2,B
ΔC(C1,C2)=(2+r‾256)×ΔR2+4×ΔG2+(2+255-r‾256)×ΔB2]]>式(1)中C1,R,C1,G,C1,B為字符C1的紅,綠,藍(lán)三顏色分量。同理C2,R,C2,G,C2,B,為字符C2的紅,綠,藍(lán)三顏色分量,ΔC(C1,C2)表征了字符C1和C2的顏色差異。圖1中,最右側(cè)的一列中顏色距離(MinDistance)即是用此公式(1)計(jì)算出的。但此度量顏色差異的方法不作為對(duì)本發(fā)明的限定。
考慮到世界上有8%的男性和0.5%的女性為色盲色弱,所以作為廣泛可用的顏色一共只有216種(參見出版物L(fēng)ynda Weinman,Bruce Heavin,and AliKar,Coloring Web Graphics.2(《網(wǎng)頁圖形著色》,第二版),New RidersPublishing,1997.)。圖1中,第五列中列出了這216種顏色的RGB值。
從這216種顏色中為每一個(gè)統(tǒng)一碼分區(qū)選取基本顏色,同時(shí)保證各分區(qū)字符顏色的視覺區(qū)分度最大,是一個(gè)NP(non-deterministic polynomial time,非多項(xiàng)式解法)完全問題。在本發(fā)明的一實(shí)施例中采用一種如下面程序所描述的貪心算法GetcoloringPalette來選擇合適的畫板顏色集合(又稱可用顏色集合),通過對(duì)顏色的視覺區(qū)分度從大到小進(jìn)行排序,使畫板顏色集合中所選的顏色能夠相互之間區(qū)別彼此。但此算法不作為對(duì)本發(fā)明的限定,可以采用任何其它可行的算法,如隨機(jī)選取方法、人工配色法等。在選取基本顏色時(shí),如果已約定使用某固定背景色BG(其一般用于顯示多數(shù)正常使用的字符的背景),如白色(255,255,255)和固定前景色FG(其一般用于顯示多數(shù)正常使用的字符),如黑色(0,0,0),應(yīng)先把它們?cè)诳捎妙伾现信旁谇懊妗E旁谇懊娴念伾话阌糜陲@示文本中最常用的分區(qū)的字符。如使用前景著色(即用所分配顏色顯示字符的前景/筆畫),則把背景顏色排在第一位,前景色FG排在第二位。如使用背景著色(即用所分配顏色顯示字符的背景),則把前景色FG排在第一位,背景色BG排在第二位。Function GetcoloringPalette(BG,F(xiàn)G)//函數(shù)GetcoloringPalette//輸入背景色BG,如白色(255,255,255)和前景色FG,如黑色(0,0,0),計(jì)算輸出畫板顏色集合{ Define PCA;//定義集合PCA,PCA為已分配的顏色集合Define UCA;//定義集合UCA,UCA為沒有處理的顏色集合Empty PCA;//清空PCAInitialize UCA with the set of all N available colors;//初始化UCA(如216種色盲安全色)
Move BG from UCA to PCA
;//將背景色BG從UCA移到PCA中,作為PCA
Move FG from UCA to PCA[1];//將前景色FG從UCA移到PCA中,作為PCA[1]For(int i=2;i<N;i++){Define color maxMinColor;Define maxMinDist=0;For each color c1 in UCA//對(duì)于UCA中每個(gè)點(diǎn)c1,計(jì)算它到PCA中所有點(diǎn)的最小距離{Define color minColor=Infinite;//定義最小距離minColor并初始化為無窮For each color c2 in PCA//求PCA中距c1最近的點(diǎn)minColor和最小距離minDist{If(ΔC(c1,c2)<minDis)//顏色距離按上面公式進(jìn)行計(jì)算{minDist=ΔC(c1,c2);minColor=c2;}}If(mindist>maxMinDist)//求UCA中具有最大的minDist的點(diǎn)maxMincolor{maxMinDist=mindist;maxMincolor=mincolor;}}Move maxMinColor from UCA to PCA[i];//將具有最大的最小距離的顏色輸出}}圖1中,第五列從上到下的顏色序列即為利用上述算法計(jì)算得到的相互距離最大的畫板顏色集合,此序列中任一顏色與其前面的所有顏色的最小距離(MinDistance)都不大于其前面的任一顏色與其前面的所有顏色的最小距離。因此,該顏色序列是從上到下以此最小距離的降序排列,如,排在第四行的(255102 0)與前面的所有顏色之間的最小距離是431,而排在第三行的(0 255 51)與前面的所有顏色之間的最小距離是516。
22),獲得需著色的統(tǒng)一碼字符的各所屬分區(qū)集合。
需著色的統(tǒng)一碼字符可以是《統(tǒng)一碼標(biāo)準(zhǔn)》中所列出的所有統(tǒng)一碼字符,此時(shí)需著色的統(tǒng)一碼字符分區(qū)集合為《統(tǒng)一碼標(biāo)準(zhǔn)》中列出的所有分區(qū),如圖1;也可以是當(dāng)前需顯示的一小段統(tǒng)一碼字符文本,此時(shí)需著色的統(tǒng)一碼字符分區(qū)集合只是當(dāng)前該段文本中出現(xiàn)的字符的所屬分區(qū)。
23),為每個(gè)需著色的統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
首先,對(duì)需著色的各統(tǒng)一碼字符所屬各分區(qū)按某種需要的方式(或按預(yù)先設(shè)定的順序)進(jìn)行排序。如,可根據(jù)不同語言統(tǒng)一碼分區(qū)中的字符在全世界文本中的使用頻率,對(duì)統(tǒng)一碼的所有分區(qū)按降序排序;也可以按統(tǒng)一碼的各分區(qū)的起始地址按升序排序(即圖1的排序方法)等等。
然后,根據(jù)所得的各分區(qū)排序結(jié)果,從已排序的畫板顏色集合中依次選取顏色賦給每一分區(qū)作為其基本顏色。一般從第二個(gè)顏色開始選,因?yàn)榈谝粋€(gè)顏色被當(dāng)作整個(gè)文本的主要背景色或前景色。
去除這些為各分區(qū)所選顏色后,畫板顏色集合中剩余的顏色被當(dāng)作二級(jí)區(qū)分顏色。二級(jí)區(qū)分顏色用于對(duì)使用異常的字符的著色(見后面第五步)。
當(dāng)需著色的統(tǒng)一碼字符分區(qū)集合是《統(tǒng)一碼標(biāo)準(zhǔn)》中列出的所有分區(qū)時(shí),此時(shí),著色方案又叫做固定著色方案(或稱靜態(tài)著色方案),因?yàn)槊總€(gè)分區(qū)得到的是一個(gè)固定的且不隨當(dāng)前文本內(nèi)容變化的顏色。當(dāng)需著色的統(tǒng)一碼字符分區(qū)集合是當(dāng)前需著色文本中出現(xiàn)的字符的所屬分區(qū)時(shí),此時(shí),著色方案又叫做動(dòng)態(tài)著色方案,因?yàn)槊總€(gè)分區(qū)所獲得的顏色在不同的當(dāng)前顯示文本中可能不同。
圖2示出了利用靜態(tài)著色方案對(duì)citibank可能欺詐網(wǎng)址進(jìn)行著色的結(jié)果。圖2中,最左邊一列為統(tǒng)一碼的一些分區(qū)。在各分區(qū)名稱的下方有分配給該分區(qū)字符的基本顏色。如基本拉丁區(qū)(Basic Latin)的基本顏色為(0,0,0),拉丁-1增補(bǔ)區(qū)(Latin-1 Supplement)的基本顏色為(0,255,51)。對(duì)于基本拉丁區(qū)的“citibank”中的每一個(gè)字符,許多分區(qū)都有與之相似的字符。如“c(0063)”,其在希臘及古埃及字符區(qū)(c(03F2)),西里爾字符區(qū)(c(0441)),數(shù)字符號(hào)區(qū)(c(217D)),半寬與全寬字符區(qū)(c(FF43))都有與其相似的字符。雖然這些字符很像,但用它們所屬分區(qū)的基本顏色進(jìn)行著色,就可以將它們進(jìn)行區(qū)分。如圖2中最下方一行的例子,對(duì)每個(gè)字符用其所屬分區(qū)的基本顏色(即其所屬分區(qū)名稱下方的RGB值)進(jìn)行著色,雖然混合了不同分區(qū)的相似字符,但該著色方法可以提醒用戶某些字符并不是常用的基本拉丁區(qū)的字符。
圖3(a)、圖3(b)、圖3(c)示出了利用動(dòng)態(tài)著色方案對(duì)一段統(tǒng)一碼編碼文字進(jìn)行著色的結(jié)果。其中,對(duì)黑白兩色外的其他顏色的字符(或其背景)用其下方的線段類型加以區(qū)分。動(dòng)態(tài)著色方案非常適合對(duì)文字段落進(jìn)行著色區(qū)分。通常情況下,一段文本不會(huì)出現(xiàn)統(tǒng)一碼的所有分區(qū)。所以,本發(fā)明掃描文本確定出現(xiàn)了哪些分區(qū)以及各分區(qū)字符的使用頻率并排序,然后利用畫板顏色集合中最前面的顏色依次分配給這些分區(qū)并對(duì)這些字符進(jìn)行著色。
如圖3(a)中,總共出現(xiàn)5個(gè)統(tǒng)一碼分區(qū),又其背景色為黑色,根據(jù)各分區(qū)字符出現(xiàn)的頻率排序,依次選用(255,255,255)、(0,255,255)、(255,0,153)、(0,255,0)、(0,0,153),對(duì)分區(qū)簡(jiǎn)體中文、繁體中文、基本拉丁、數(shù)字符號(hào)、日文漢字進(jìn)行著色。
如圖3(b)中,因背景色為白色,所以其文本中的5個(gè)統(tǒng)一碼分區(qū),按各分區(qū)字符出現(xiàn)的頻率排序后,依次用(0,0,0)、(255,0,153)、(0,255,0)、(255,0,0)、(0,0,153),對(duì)分區(qū)日文平假名、日文漢字、日文片假名、全角字符、繁體中文進(jìn)行著色。
與靜態(tài)著色方案相比,動(dòng)態(tài)方案能夠根據(jù)文本情況,最優(yōu)利用畫板顏色集合。畫板顏色集合中位于前面的顏色之間的差別比后面的顏色大,故動(dòng)態(tài)著色方案每次都可以根據(jù)文本情況從最前面開始利用畫板顏色,而靜態(tài)著色方案只能根據(jù)已固定分配的顏色進(jìn)行著色。同理,對(duì)字符背景著色的例子,只是用所分配顏色顯示字符的背景,如圖3(c)所示。
第三步判斷字符的使用是否異常。
根據(jù)字符所在上下文,判斷該字符與前后字符所組成的詞,是否被收錄在詞庫中;如果在詞庫中存在,則該字符的使用為正常,否則為異常。如果詞庫為空,則該字符的使用也為異常。
如中囯銀行.com,詞庫中并沒有詞“中囯”或“囯銀”,所以字符“囯”是使用異常的字符,但詞庫中有詞“銀行”,所以“銀”,“行”都是使用正常的字符。又如“paypal.com“(其中第二個(gè)a的統(tǒng)一碼是0x0430而不是常用的0x0061或ASCII0x61),因?yàn)榈诙€(gè)“a”字符并不屬于拉丁字符區(qū),所以“paypal”在詞庫中不存在,則該詞的所有字符“p”,“a”,“y”,“p”,“a”,“l(fā)”使用都存在異常。
第四步對(duì)使用正常的字符著色對(duì)于第三步判斷得到的使用正常的字符,用該字符所屬統(tǒng)一碼分區(qū)的基本顏色(即第二步所得到的基本顏色)進(jìn)行著色。
如“中囯銀行.com”,“銀行”是一個(gè)詞,對(duì)于使用正常的字符“銀”,“行”都采用它們所屬的統(tǒng)一碼中文字符區(qū)的基本顏色對(duì)其進(jìn)行著色;“com”也是一個(gè)詞,因此這三個(gè)字符都采用它們所屬的基本拉丁字符區(qū)的基本顏色對(duì)其進(jìn)行著色。
本發(fā)明也可以不判斷字符使用是否異常,即不執(zhí)行第三步和第四步,直接將所有字符作為使用異常的字符,進(jìn)入第五步處理。此時(shí),則不需要詞庫。
第五步對(duì)使用異常的字符著色對(duì)使用異常的字符,本發(fā)明利用SUCI(統(tǒng)一碼相似字符索引表)查找與其相似的字符列表,根據(jù)該字符在該列表中的使用頻率(詞頻)排名決定對(duì)其進(jìn)行著色時(shí)的顏色。如果其使用頻率排名序號(hào)為1,則用其所屬統(tǒng)一碼分區(qū)的基本顏色(即第二步所得到的基本顏色)進(jìn)行著色,否則,根據(jù)此排名序號(hào)在二級(jí)區(qū)分顏色集合(即除去各分區(qū)基本顏色后的畫板顏色集合,獲取方式參見上述步驟23)選取顏色進(jìn)行著色。
如字符“A(0041)”,“A(FF21)”,“A(0410)”,查詢其相似度為1的SUCI分別為
上述相似字符列表排序均為
如果字符“A(0041)”被判斷為使用異常,因?yàn)槠湓诹斜碇邪词褂妙l率的排名序號(hào)為1,則選取其所屬拉丁區(qū)的基本顏色對(duì)其著色。對(duì)于字符“A(FF21)”,如果其被判斷為使用異常,因其排名序號(hào)為2,則從畫板顏色集合的二級(jí)區(qū)分顏色集合中,從上至下選取第一個(gè)顏色對(duì)其進(jìn)行著色。對(duì)于字符“A(0410)”,同理,因其排名序號(hào)為3,從二級(jí)區(qū)分顏色集合中從上至下選取第二個(gè)顏色對(duì)其進(jìn)行著色。
又如字符“律(F9D8)”,“律(5F8B)”,“侓(4F93)”,查詢其相似度為0.8級(jí)以上的SUCI分別為
相似字符列表使用排名均為
如果字符“律(5F8B)”被判斷為使用異常,其在列表中按使用頻率的排名序號(hào)為1,則選取其所屬統(tǒng)一碼中文分區(qū)的基本顏色對(duì)其著色;而字符“律(F9D8)”和“侓(4F93)”,因?yàn)槠渑琶蛱?hào)分別為2和3,從畫板顏色集合的二級(jí)區(qū)分顏色集合中,從上至下分別選取第一個(gè)顏色和第二個(gè)顏色對(duì)其進(jìn)行著色。如果畫板顏色集合采用圖1中的顏色序列,并且第二步選擇采用固定著色方案對(duì)各個(gè)統(tǒng)一碼分區(qū)進(jìn)行顏色分配,則“律(5F8B)”根據(jù)其地址屬于CJKUnified Ideographs(CJK統(tǒng)一漢字)分區(qū),該分區(qū)根據(jù)靜態(tài)著色方案分配的顏色為(R,G,B)=(153,204,204),所以“律(5F8B)”用(R,G,B)=(153,204,204)進(jìn)行著色;而字符“律(F9D8)”、“侓(4F93)”則只能選擇二級(jí)區(qū)分顏色,即圖1中最下面左邊沒有分區(qū)的顏色集合,其中第一個(gè)顏色和第二個(gè)顏色分別為(R,G,B)=(153,204,153),(R,G,B)=(153,51,153),字符“律(F9D8)”、“侓(4F93)”就用這兩個(gè)顏色進(jìn)行著色。
本發(fā)明實(shí)施例的相似度指視覺相似度,視覺相似度是用于描述給定兩個(gè)字符之間視覺上相像程度的量,可以用任意一個(gè)印刷體字符識(shí)別(OCR)算法計(jì)算。在本發(fā)明的實(shí)施例中,利用字符所在位圖中像素點(diǎn)的數(shù)目定義,考慮兩字符在位圖中重復(fù)的點(diǎn)數(shù)比例,具體如公式(2)vs(c1,c2)=n12max(n1,n2)---(2)]]>式中n1,n2分別為字符c1,c2在位圖中所占像素點(diǎn)的數(shù)目。n12為c1和c2在位圖中重復(fù)的點(diǎn)的數(shù)目。但此方法不作為對(duì)本發(fā)明的限定。
統(tǒng)一碼字符相似索引表(SUCI)可以用來迅速查找與某個(gè)字符相似的所有字符。因?yàn)楸容^字符的相似度是非常耗時(shí)的工作,所以在本發(fā)明的一實(shí)施例中要求預(yù)先計(jì)算好統(tǒng)一碼中所有字符兩兩之間的相似度,并存入統(tǒng)一碼字符相似索引表(SUCI)中,以備查找。
用SUCIT(c)來表示與一給定字符c的相似度大于等于相似度閾值T的字符。比如,SUCI0.8(0042)表示對(duì)于字符(0042),只包含與其相似度大于等于0.8的字符,這樣可以有效利用存儲(chǔ)空間。相似度閾值T越大,列表中的字符視覺上越相像。本發(fā)明中的“相似”與相似度閾值T有直接關(guān)系,若相似度大于某一相似度閾值T,即為相似;如未特別說明本發(fā)明中的“相似”指相似度大于0.8,此相似度閾值T可以根據(jù)不同應(yīng)用情形進(jìn)行相應(yīng)調(diào)節(jié),不作為對(duì)本發(fā)明的限定。
統(tǒng)一碼字符相似索引表(SUCI)的優(yōu)點(diǎn)在于通過預(yù)先計(jì)算字符庫中字符兩兩之間的視覺相似度,并且采用字典式哈希的組織方式存成一索引表,使得查詢時(shí)只需根據(jù)輸入字符的編碼地址,就可以快速查找到與其相似的字符列表并輸出。
下面通過舉例說明本發(fā)明的一實(shí)施例中SUCI的結(jié)構(gòu)。其中,每個(gè)字符的SUCI是一個(gè)與之相似度大于等于相似度閾值T的字符集合或列表,該字符集合用三種方式進(jìn)行排序索引,以便快速查找相關(guān)字符。分別為1),按字符的地址(即統(tǒng)一碼編碼);2),按相似度;3),按使用頻率(詞頻)。
下面的SUCI列出了字符段Latin(0041-0043)和Chinese(F9D8-F9E9)在相似度閾值T為1.0和0.8時(shí)的按相似度排序的相似字符列表。計(jì)算兩字符在位圖中重復(fù)的點(diǎn)數(shù)比例,比例值大于等于相似度閾值T的即列入表中。其中,每一行中第一列的數(shù)字是該字符的16進(jìn)制統(tǒng)一碼編碼,其右側(cè)各列所列出的是與該字符在視覺上相似度大于等于相似度閾值T的所有字符,每個(gè)字符的格式為“視覺上相似度的值字符的16進(jìn)制統(tǒng)一碼編碼字符的圖形本身”,如當(dāng)相似度閾值T為0.8時(shí)對(duì)應(yīng)的相似字符列表,其最后一行第三列中“0.9982964:7406:理”表示16進(jìn)制統(tǒng)一碼為7406字符“理”與16進(jìn)制統(tǒng)一碼為F9E4的字符“理”在視覺上的相似度為0.9982964。一般第一列與其相似的字符是其本身,所以其視覺上相似度的值為1。
T=1.0
T=0.8
本系統(tǒng)包括以下幾個(gè)數(shù)據(jù)庫31),統(tǒng)一碼分區(qū)表(可以是按語言的標(biāo)準(zhǔn)分區(qū)表,也可以在其基礎(chǔ)上做些調(diào)整);32),已排序的畫板顏色集合;33),詞庫(可以不用),包括各種語言的詞庫;34),SUCI。
圖4是本發(fā)明一實(shí)施例系統(tǒng)的結(jié)構(gòu)示意圖。如圖4所示,本發(fā)明一實(shí)施例的系統(tǒng)100包括分組模塊401,用于確定由統(tǒng)一碼表示的文本和/或鏈接中的字符所屬統(tǒng)一碼分區(qū);著色模塊400,用于對(duì)文本和/或鏈接中的字符根據(jù)其所屬的不同統(tǒng)一碼分區(qū)及其在其統(tǒng)一碼字符相似索引表中的排序位置選用不同的顏色顯示其背景或其前景。
著色模塊400根據(jù)字符在其統(tǒng)一碼字符相似索引表中的詞頻排序位置選用不同的顏色顯示其背景或其前景。
統(tǒng)一碼分區(qū)為標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域、對(duì)標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域進(jìn)一步劃分形成的子區(qū)、或按預(yù)設(shè)方式對(duì)所有統(tǒng)一碼劃分形成的分區(qū)。
根據(jù)統(tǒng)一碼分區(qū)數(shù)目、各統(tǒng)一碼分區(qū)字符的使用頻率、當(dāng)前可用顏色集合為字符所屬的每一統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
著色模塊400根據(jù)字符所在上下文判斷字符與前后字符所組成的詞是否被收錄在詞庫中來判斷字符為使用正常的字符還是使用異常的字符,若被收錄在詞庫中,則字符為使用正常的字符;若未被收錄在詞庫中或詞庫為空時(shí),則字符為使用異常的字符。
當(dāng)字符為使用正常的字符時(shí),著色模塊400用其所屬的統(tǒng)一碼分區(qū)的基本顏色對(duì)字符進(jìn)行著色;當(dāng)字符為使用異常的字符時(shí),著色模塊400選取二級(jí)區(qū)分顏色集之中的顏色對(duì)字符進(jìn)行著色,其中,二級(jí)區(qū)分顏色集為除去各統(tǒng)一碼分區(qū)對(duì)應(yīng)的基本顏色后的畫板顏色集合。
進(jìn)一步地,著色模塊400還包括相似字符查找模塊402,用于查找一字符的統(tǒng)一碼字符相似索引表SUCI中與其相似的相似字符列表;及相似字符著色模塊405,用于根據(jù)所查相似字符列表中其使用頻率的排名序號(hào)從二級(jí)區(qū)分顏色集中選取進(jìn)行著色時(shí)的顏色。
相似字符查找模塊402又包括相似度計(jì)算模塊403,用于計(jì)算所有統(tǒng)一碼字符兩兩之間的相似度,及統(tǒng)一碼字符相似索引表建立模塊404,用于根據(jù)相似度為每一統(tǒng)一碼字符建立統(tǒng)一碼字符相似索引表,該統(tǒng)一碼字符相似索引表根據(jù)地址排序、相似度排序、詞頻排序分別建立三個(gè)對(duì)應(yīng)的索引表。
進(jìn)一步地,著色模塊400還包括色彩選擇模塊407,用于按照顏色的視覺距離,從可用顏色集408中選擇不同的顏色組成一畫板顏色集合;其中,畫板顏色集合中存儲(chǔ)的顏色可供選擇用于顯示不同統(tǒng)一碼分區(qū)的統(tǒng)一碼字符或其背景。
進(jìn)一步地,著色模塊400還包括顏色排序模塊,用于對(duì)畫板顏色集合中的顏色進(jìn)行排序形成一序列,使得在該序列中任一顏色與其前面的所有顏色的最小視覺距離都不大于位于其前的任一顏色與其前面的所有顏色的最小視覺距離;統(tǒng)一碼分區(qū)的排序并著色模塊,用于對(duì)需要著色的統(tǒng)一碼分區(qū)按不同語言統(tǒng)一碼分區(qū)中的字符在全世界文本中的使用頻率進(jìn)行降序排序或按統(tǒng)一碼的所有分區(qū)的起始地址進(jìn)行升序排序,并按此順序從已排序的畫板顏色集合中挨個(gè)選取顏色賦給每一需要著色的統(tǒng)一碼分區(qū)作為其基本顏色;上述固定著色方案著色時(shí),需要著色的統(tǒng)一碼字符分區(qū)為《統(tǒng)一碼標(biāo)準(zhǔn)》中列出的所有分區(qū);利用上述動(dòng)態(tài)著色方案著色時(shí),需要著色的統(tǒng)一碼字符分區(qū)是當(dāng)前需著色文本中出現(xiàn)的字符的所屬分區(qū),著色前需要掃描文本,以判斷其中使用的統(tǒng)一碼分區(qū)的數(shù)目;除去各分區(qū)基本顏色后的畫板顏色集合,用于相似字符著色模塊405對(duì)分區(qū)內(nèi)的相似字符進(jìn)行著色。
進(jìn)一步地,著色模塊400還包括背景色和前景色設(shè)置模塊,用于對(duì)整個(gè)著色系統(tǒng)設(shè)置給定的背景色和前景色;給定前景色和背景色后的排序著色模塊,用于在給定前景色和背景色后,對(duì)剩下的顏色按預(yù)設(shè)的排序方式排序或按與畫板顏色集合中的顏色相同的排序方式(參見上述貪心算法GetcoloringPalette)排序,并按此順序依次賦給文本和/或鏈接中的每個(gè)字符的所屬統(tǒng)一碼分區(qū),作為每一分區(qū)的基本顏色,并用二級(jí)區(qū)分顏色集對(duì)每個(gè)分區(qū)內(nèi)部的相似字符用不同顏色區(qū)分。
其中,本發(fā)明系統(tǒng)的各模塊的功能分別與上述本發(fā)明方法的各相應(yīng)步驟相對(duì)應(yīng)。
在本發(fā)明的一實(shí)施例中,色彩選擇模塊407用于從可用的顏色中如從上面所述的216種廣泛使用的顏色中選擇出視覺距離最大和用戶體驗(yàn)最好的顏色。該模塊可以作為整個(gè)發(fā)明的后臺(tái)程序運(yùn)行。在畫板顏色選擇好之后,就對(duì)需要處理的文本中的字符進(jìn)行統(tǒng)一碼分區(qū)。按照統(tǒng)一碼的區(qū)域劃分對(duì)字符進(jìn)行分區(qū),但分區(qū)過程中也可考慮到子區(qū)的劃分,例如統(tǒng)一碼CJK分區(qū)包含了簡(jiǎn)體中文、繁體中文、日文和韓文四種語言,因此在本發(fā)明的一實(shí)施例中對(duì)將其加以區(qū)分。
本發(fā)明通過對(duì)由統(tǒng)一碼字符構(gòu)成的文本、鏈接進(jìn)行著色來幫助用戶區(qū)分文本或者鏈接中摻雜的不同的統(tǒng)一碼分區(qū)的字符及相似的字符,從而可防止犯罪分子利用統(tǒng)一碼字符的視覺、語義相似性進(jìn)行網(wǎng)絡(luò)欺詐。
當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,包括分組步驟,確定由統(tǒng)一碼表示的文本和/或鏈接中的字符所屬統(tǒng)一碼分區(qū);及著色步驟,對(duì)所述文本和/或鏈接中的字符根據(jù)其所屬的不同統(tǒng)一碼分區(qū)及其在其統(tǒng)一碼字符相似索引表中的排序位置選用不同的顏色顯示其背景或其前景。
2.根據(jù)權(quán)利要求1所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述統(tǒng)一碼分區(qū)為標(biāo)準(zhǔn)劃分的統(tǒng)一碼語言區(qū)域、對(duì)標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域進(jìn)一步劃分形成的語言區(qū)域子區(qū)、或按預(yù)設(shè)方式對(duì)所有統(tǒng)一碼劃分形成的分區(qū)。
3.根據(jù)權(quán)利要求1所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,根據(jù)統(tǒng)一碼分區(qū)數(shù)目、各統(tǒng)一碼分區(qū)字符的使用頻率、當(dāng)前可用顏色集合為字符所屬的每一統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
4.根據(jù)權(quán)利要求1所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述統(tǒng)一碼字符相似索引表為與所述字符的相似度大于或等于一相似度閾值的字符集合或列表,并按字符的地址、相似度或使用頻率的方式進(jìn)行排序索引。
5.根據(jù)權(quán)利要求1-4任一所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述著色步驟進(jìn)一步包括對(duì)所述字符是否為使用正常的字符或使用異常的字符進(jìn)行判斷的步驟。
6.根據(jù)權(quán)利要求5所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,根據(jù)所述字符所在上下文判斷所述字符與前后字符所組成的詞是否被收錄在詞庫中來判斷所述字符為使用正常的字符還是使用異常的字符,若被收錄在詞庫中,則所述字符為使用正常的字符;若未被收錄在詞庫中或詞庫為空時(shí),則所述字符為使用異常的字符。
7.根據(jù)權(quán)利要求6所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述著色步驟進(jìn)一步包括當(dāng)所述字符為使用正常的字符時(shí),用其所屬的統(tǒng)一碼分區(qū)的基本顏色對(duì)所述字符進(jìn)行著色;當(dāng)所述字符為使用異常的字符時(shí),選取二級(jí)區(qū)分顏色集之中的顏色對(duì)所述字符進(jìn)行著色,其中,所述二級(jí)區(qū)分顏色集為除去所述各統(tǒng)一碼分區(qū)對(duì)應(yīng)的基本顏色后的畫板顏色集合。
8.根據(jù)權(quán)利要求1-4、6或7所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述著色步驟進(jìn)一步包括相似字符查找步驟,查找一字符的統(tǒng)一碼字符相似索引表中與該字符相似的相似字符列表;及相似字符著色步驟,根據(jù)該字符在所述相似字符列表中按詞頻排序的排名序號(hào)從所述二級(jí)區(qū)分顏色集之中為其選取進(jìn)行著色時(shí)的顏色。
9.根據(jù)權(quán)利要求8所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述相似字符查找步驟進(jìn)一步包括計(jì)算所有統(tǒng)一碼字符兩兩之間的相似度;根據(jù)所述相似度為每一統(tǒng)一碼字符建立統(tǒng)一碼字符相似索引表。
10.根據(jù)權(quán)利要求1-4、6、7或9所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述著色步驟進(jìn)一步包括按照顏色的視覺距離,從視覺可識(shí)別的顏色中選擇不同的顏色組成一畫板顏色集合;及從所述畫板顏色集合中選擇不同的顏色顯示所述不同統(tǒng)一碼分區(qū)的字符或其背景。
11.根據(jù)權(quán)利要求10所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述著色步驟進(jìn)一步包括對(duì)所述畫板顏色集合中的顏色進(jìn)行排序形成一序列,使得在該序列中任一顏色與其前面的所有顏色的最小視覺距離都不大于位于其前的任一顏色與其前面的所有顏色的最小視覺距離;及對(duì)需要著色的統(tǒng)一碼分區(qū)按不同語言統(tǒng)一碼分區(qū)中的字符在全世界文本中的使用頻率進(jìn)行降序排序或按統(tǒng)一碼的所有分區(qū)的起始地址進(jìn)行升序排序,并按此順序從已排序的畫板顏色集合中挨個(gè)選取顏色賦給所述每一需要著色的字符的統(tǒng)一碼分區(qū)作為其基本顏色。
12.根據(jù)權(quán)利要求11所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法,其特征在于,所述著色步驟進(jìn)一步包括對(duì)整個(gè)著色系統(tǒng)設(shè)置給定的背景色和前景色;及給定前景色和背景色后,對(duì)剩下的顏色按預(yù)設(shè)的排序方式排序或按與所述畫板顏色集合中的顏色相同的排序方式排序,并按此排序依次賦給所述文本和/或鏈接中的每個(gè)字符的所屬統(tǒng)一碼分區(qū),作為基本顏色,其余顏色作為所述二級(jí)區(qū)分顏色集用于對(duì)每個(gè)分區(qū)內(nèi)部的相似字符的著色。
13.一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,包括分組模塊,用于確定由統(tǒng)一碼表示的文本和/或鏈接中的字符所屬統(tǒng)一碼分區(qū);及著色模塊,用于對(duì)所述文本和/或鏈接中的字符根據(jù)其所屬的不同統(tǒng)一碼分區(qū)及其在其統(tǒng)一碼字符相似索引表中的排序位置選用不同的顏色顯示其背景或其前景。
14.根據(jù)權(quán)利要求13所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述統(tǒng)一碼分區(qū)為標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域、對(duì)標(biāo)準(zhǔn)的統(tǒng)一碼語言區(qū)域進(jìn)一步劃分形成的子區(qū)、或按預(yù)設(shè)方式對(duì)所有統(tǒng)一碼劃分形成的分區(qū)。
15.根據(jù)權(quán)利要求13所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,根據(jù)統(tǒng)一碼分區(qū)數(shù)目、各統(tǒng)一碼分區(qū)字符的使用頻率、當(dāng)前可用顏色集合為字符所屬的每一統(tǒng)一碼分區(qū)分配一個(gè)基本顏色。
16.根據(jù)權(quán)利要求13所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述統(tǒng)一碼字符相似索引表為與所述字符的相似度大于或等于一相似度閾值的字符集合或列表,并按字符的地址、相似度或使用頻率的方式進(jìn)行排序索引。
17.根據(jù)權(quán)利要求13-16任一所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述著色模塊根據(jù)所述字符所在上下文判斷所述字符與前后字符所組成的詞是否被收錄在詞庫中來判斷所述字符為使用正常的字符還是使用異常的字符,若被收錄在詞庫中,則所述字符為使用正常的字符;若未被收錄在詞庫中或詞庫為空時(shí),則所述字符為使用異常的字符。
18.根據(jù)權(quán)利要求17所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,當(dāng)所述字符為使用正常的字符時(shí),所述著色模塊用其所屬的統(tǒng)一碼分區(qū)的基本顏色對(duì)所述字符進(jìn)行著色;當(dāng)所述字符為使用異常的字符時(shí),所述著色模塊選取二級(jí)區(qū)分顏色集之中的顏色對(duì)所述字符進(jìn)行著色,其中,所述二級(jí)區(qū)分顏色集為除去所述各統(tǒng)一碼分區(qū)對(duì)應(yīng)的基本顏色后的畫板顏色集合。
19.根據(jù)權(quán)利要求13-16或18所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述著色模塊進(jìn)一步包括相似字符查找模塊,用于查找一字符的統(tǒng)一碼字符相似索引表中與該字符相似的相似字符列表;及相似字符著色模塊,用于根據(jù)該字符在所述相似字符列表中按詞頻排序的排名序號(hào)從所述二級(jí)區(qū)分顏色集之中為其選取進(jìn)行著色時(shí)的顏色。
20.根據(jù)權(quán)利要求19所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述相似字符查找模塊進(jìn)一步包括相似度計(jì)算模塊,用于計(jì)算所有統(tǒng)一碼字符兩兩間的相似度;及統(tǒng)一碼字符相似索引表建立模塊,用于根據(jù)所述相似度為每一統(tǒng)一碼字符建立統(tǒng)一碼字符相似索引表。
21.根據(jù)權(quán)利要求13-16、18或20所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述著色模塊進(jìn)一步包括色彩選擇模塊,用于按照顏色的視覺距離,從視覺可識(shí)別的顏色中選擇不同的顏色組成一畫板顏色集合;其中,所述畫板顏色集合中存儲(chǔ)的顏色可供選擇用于顯示所述不同統(tǒng)一碼分區(qū)的字符或其背景。
22.根據(jù)權(quán)利要求21所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述著色模塊進(jìn)一步包括顏色排序模塊,用于對(duì)所述畫板顏色集合中的顏色進(jìn)行排序形成一序列,使得在該序列中任一顏色與其前面的所有顏色的最小視覺距離都不大于位于其前的任一顏色與其前面的所有顏色的最小視覺距離;及統(tǒng)一碼分區(qū)的排序并著色模塊,用于對(duì)需要著色的統(tǒng)一碼分區(qū)按不同語言統(tǒng)一碼分區(qū)中的字符在全世界文本中的使用頻率進(jìn)行降序排序或按統(tǒng)一碼的所有分區(qū)的起始地址進(jìn)行升序排序,并按此順序從已排序的畫板顏色集合中挨個(gè)選取顏色賦給所述每一需要著色的分區(qū)作為其基本顏色。
23.根據(jù)權(quán)利要求22所述的識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的系統(tǒng),其特征在于,所述著色模塊進(jìn)一步包括背景色和前景色設(shè)置模塊,用于對(duì)整個(gè)著色系統(tǒng)設(shè)置給定的背景色和前景色;及給定前景色和背景色后的排序著色模塊,用于在給定前景色和背景色后,對(duì)剩下的顏色按預(yù)設(shè)的排序方式排序或按與所述畫板顏色集合中的顏色相同的排序方式排序,并按此順序依次賦給所述文本和/或鏈接中的每個(gè)字符的所屬統(tǒng)一碼分區(qū)作為基本顏色;其余顏色作為所述二級(jí)區(qū)分顏色集用于對(duì)每個(gè)分區(qū)內(nèi)部的相似字符的著色。
全文摘要
本發(fā)明公開了一種識(shí)破利用統(tǒng)一碼進(jìn)行欺詐的方法及系統(tǒng),其中,該系統(tǒng)包括分組模塊,用于確定由統(tǒng)一碼表示的文本和/或鏈接中的字符所屬統(tǒng)一碼分區(qū);及著色模塊,用于對(duì)所述文本和/或鏈接中的字符根據(jù)其所屬的不同統(tǒng)一碼分區(qū)及其在其統(tǒng)一碼字符相似索引表中的排序位置選用不同的顏色顯示其背景或其前景。本發(fā)明通過對(duì)由統(tǒng)一碼字符構(gòu)成的文本、鏈接行著色來幫助用戶區(qū)分文本或者鏈接中摻雜的不同的統(tǒng)一碼分區(qū)的字符及相似的字符,從而可防止犯罪分子利用統(tǒng)一碼字符的視覺、語義相似性進(jìn)行網(wǎng)絡(luò)欺詐。
文檔編號(hào)G06F21/00GK101030847SQ200710065020
公開日2007年9月5日 申請(qǐng)日期2007年3月30日 優(yōu)先權(quán)日2007年3月30日
發(fā)明者劉文印 申請(qǐng)人:劉文印