
本申請涉及計(jì)算機(jī)
技術(shù)領(lǐng)域:
,尤其涉及一種識別用戶所屬地區(qū)的方法及裝置。
背景技術(shù):
:隨著社會(huì)的不斷發(fā)展,電子郵箱已經(jīng)成為人們進(jìn)行信息交流的重要方式,并且在實(shí)際應(yīng)用中,人們除了能夠通過電子郵箱進(jìn)行信息交流,還可以使用電子郵箱注冊其他網(wǎng)站的賬號,從而使用該網(wǎng)站中所提供的服務(wù),如,使用電子郵箱注冊論壇的賬號,從而在論壇內(nèi)進(jìn)行相互交流,目前,網(wǎng)站為了更好的為用戶提供服務(wù),通常需要知道該用戶是哪個(gè)地區(qū)的,這樣可以針對不同地區(qū)的用戶,提供相應(yīng)的服務(wù),如,為不同國家的用戶提供天氣服務(wù)。由于用戶通常都是在自己國家的電子郵箱網(wǎng)站上注冊并使用的,因此,在現(xiàn)有技術(shù)中,主要通過電子郵箱(如,xxx@163.com)來確定電子郵箱所屬的國家,進(jìn)而確定用戶所屬的國家,具體有兩種實(shí)施方式:第一種:服務(wù)器在獲取到某一用戶的電子郵箱后,直接根據(jù)電子郵箱中的后綴(也就是@后面的字符部分,如,xxx@hotmail.fr中hotmail.fr就是后綴),確定出該電子郵箱的用戶所屬的國家(如,由于xxx@hotmail.fr中fr代表該電子郵箱來自法國,因此,可以確定出該電子郵箱的用戶的來自法國)。第二種:服務(wù)器預(yù)先統(tǒng)計(jì)出不同類型的電子郵箱的提供商所提供的區(qū)域服務(wù),也就是說,每個(gè)電子郵箱的提供商,他們所提供的區(qū)域服務(wù)通常是有一定地理范圍的,如,xxx@163.com的提供商只在中國提供區(qū)域服務(wù),而@hotmail的提供商則在全世界提供區(qū)域服務(wù)。顯然,可以看出第一種方式對于電子郵箱的后綴中沒有包含指明地區(qū)(如,國家)的字符符號時(shí),則無法通過這個(gè)方式來確定電子郵箱所屬的地區(qū),從而就無法確定用戶所屬的地區(qū)。第二種方式對于電子郵箱的提供商所提供的區(qū)域服務(wù)涉及多個(gè)地區(qū)時(shí)(如,hotmail,gmail等國際性電子郵箱的提供商是在全世界各個(gè)國家都提供區(qū)域服務(wù)的),則無法通過這個(gè)方式來確定電子郵箱所屬的地區(qū)(如,國家),從而就無法確定用戶所屬的地區(qū)。技術(shù)實(shí)現(xiàn)要素:本申請實(shí)施例提供一種識別用戶所屬地區(qū)的方法及裝置,用以解決現(xiàn)有技術(shù)中對于電子郵箱的后綴中沒有包含指明地區(qū)(如,國家)的字符符號或電子郵箱的提供商所提供的區(qū)域服務(wù)涉及多個(gè)地區(qū)的情況下,無法通過電子郵箱識別出用戶所屬的地區(qū)的問題。本申請實(shí)施例提供的一種識別用戶所屬地區(qū)的方法,所述方法包括:獲取用戶的電子郵箱;將所述電子郵箱拆分成前綴信息與后綴信息;針對每個(gè)地區(qū),確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率,確定所述后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率;根據(jù)每個(gè)地區(qū)對應(yīng)的前綴判斷概率和后綴判斷概率,確定所述電子郵箱屬于每個(gè)地區(qū)的最終判斷概率;根據(jù)各最終判斷概率,識別所述用戶所屬的地區(qū)。本申請實(shí)施例提供的一種識別用戶所屬地區(qū)的裝置,所述裝置包括:獲取模塊,用于獲取用戶的電子郵箱;拆分模塊,用于將所述電子郵箱拆分成前綴信息與后綴信息;第一確定模塊,用于針對每個(gè)地區(qū),確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率,確定所述后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率;第二確定模塊,用于根據(jù)每個(gè)地區(qū)對應(yīng)的前綴判斷概率和后綴判斷概率,確定所述電子郵箱屬于每個(gè)地區(qū)的最終判斷概率;識別模塊,用于根據(jù)各最終判斷概率,識別所述用戶所屬的地區(qū)。本申請實(shí)施例提供一種識別用戶所屬地區(qū)的方法及裝置,該方法由服務(wù)器獲取用戶的電子郵箱,將該電子郵箱拆分成前綴信息與后綴信息,針對每個(gè)地區(qū),確定該前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率,確定該后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率,根據(jù)每個(gè)地區(qū)對應(yīng)的前綴判斷概率和后綴判斷概率,確定該電子郵箱屬于每個(gè)地區(qū)的最終判斷概率,根據(jù)各最終判斷概率,識別該用戶所屬的地區(qū)。通過上述方法,即使電子郵箱的后綴中沒有包含指明地區(qū)(如,國家)的字符符號或電子郵箱的提供商所提供的區(qū)域服務(wù)涉及多個(gè)地區(qū),也可以通過電子郵箱有效的識別出用戶所屬的地區(qū)。附圖說明此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:圖1為本申請實(shí)施例提供的識別用戶所屬地區(qū)的過程;圖2為本申請實(shí)施例提供的識別用戶所屬地區(qū)的裝置結(jié)構(gòu)示意圖。具體實(shí)施方式為使本申請的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請具體實(shí)施例及相應(yīng)的附圖對本申請技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。圖1為本申請實(shí)施例提供的識別用戶所屬地區(qū)的過程,具體包括以下步驟:s101:獲取用戶的電子郵箱。在實(shí)際應(yīng)用中,由于用戶通常都是在自己地區(qū)的電子郵箱網(wǎng)站上注冊并使用電子郵箱的,因此,網(wǎng)站通常通過電子郵箱(如,ok@163.com)來確定電子所屬的地區(qū),進(jìn)而確定出用戶所屬的地區(qū),以便于針對不同地區(qū)的用戶,提供相應(yīng)的服務(wù)。在確定用戶所屬的地區(qū)的整個(gè)過程中,本申請首先需要獲取用戶的電子郵箱,而獲取用戶的電子郵箱可以由服務(wù)器完成的,也可以由其他具有數(shù)據(jù)處理功能的設(shè)備完成的。在此需要說明的是,在本申請中,地區(qū)可以指的是省市縣,也可以指的是國家,為了更清晰的闡明本申請的具體實(shí)施步驟,本申請以下以地區(qū)為國家進(jìn)行詳細(xì)說明。例如,假設(shè)某網(wǎng)站需要知道用戶a是哪個(gè)國家的,因此,該網(wǎng)站的服務(wù)器獲取該用戶a的電子郵箱aabaaab@hotmail.com。s102:將所述電子郵箱拆分成前綴信息與后綴信息。由于電子郵箱的組成通常都是xxx@yyy(在本申請中,@前面的xxx稱之為前綴信息,而@后面的yyy稱之為后綴信息)這種格式的,而用戶在注冊電子郵箱的時(shí)候,前綴信息通常都是自己定義的,后綴信息是電子郵箱的提供商設(shè)定的,因此,為了提高識別電子郵箱所屬的地區(qū)(如,國家),進(jìn)而識別出用戶所屬的地區(qū)的準(zhǔn)確率,在本申請中,采用的是將前綴信息和后綴信息分別進(jìn)行處理的方式。因此,服務(wù)器在獲取到用戶的電子郵箱后,將電子郵箱進(jìn)行拆分,拆分成前綴信息與后綴信息。沿用上例,服務(wù)器在接收到用戶a的電子郵箱aabaaab@hotmail.com后,將電子郵箱aabaaab@hotmail.com拆分成aabaaab(即,前綴信息)與hotmail.com(即,后綴信息)。s103:針對每個(gè)地區(qū),確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率,確定所述后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率。由于每個(gè)地區(qū)(如,國家)的思維方式、生活習(xí)慣以及社會(huì)文化都不太一樣,因此,不同地區(qū)的人在注冊電子郵箱時(shí),同一個(gè)前綴信息出現(xiàn)在不同地區(qū)的可能性是不同的,也就是說,中國的用戶在注冊電子郵箱時(shí)所定義的前綴信息,通常都使用自己的中文名字拼音,而美國的用戶在注冊電子郵箱時(shí)所定義的前綴信息,通常也使用自己的英文名字字母,由于中文名字和英文名字存在著不小的差異,因此,當(dāng)前綴信息為中文名字拼音時(shí),該用戶所屬的國家為中國的可能性較大,當(dāng)然也有外國的用戶的電子郵箱中包含的前綴信息有可能是中文名字拼音,因此,在本申請中,采用前綴判斷概率來表示前綴信息出現(xiàn)在該地區(qū)(如,國家)的可能性的大小,前綴判斷概率越大,則說明前綴信息出現(xiàn)在該地區(qū)的可能性越大,前綴判斷概率越小,則說明前綴信息出現(xiàn)在該地區(qū)的可能性越小。另外,如果只考慮前綴信息而不考慮后綴信息,其實(shí)前綴信息出現(xiàn)在該地區(qū)(如,國家)的可能性的大小也就是該前綴信息對應(yīng)的電子郵箱屬于該地區(qū)的可能性的大小,前綴判斷概率越大,則說明前綴信息對應(yīng)的電子郵箱屬于該地區(qū)的可能性越大,前綴判斷概率越小,則說明前綴信息對應(yīng)電子郵箱屬于該地區(qū)的可能性越小。進(jìn)一步的,本申請?zhí)峁┝酸槍γ總€(gè)地區(qū),確定前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率,具體實(shí)施方式如下:針對每個(gè)地區(qū),將該前綴信息拆分成若干個(gè)字符串,在預(yù)先針對該地區(qū)建立的前綴概率表中,確定出每個(gè)字符串出現(xiàn)在該地區(qū)的概率,根據(jù)每個(gè)字符串出現(xiàn)在該地區(qū)的概率,以及貝葉斯公式,確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率。其中,在將該前綴信息拆分成若干個(gè)字符串的過程中,拆分出的字符串包含的字符串的數(shù)量與預(yù)先針對該地區(qū)建立的前綴概率表中的字符串中包含的字符數(shù)量相等,與此同時(shí),本申請?zhí)峁┝艘环N拆分方式是n元拆分(n為預(yù)先針對該地區(qū)建立的前綴概率表中的字符串中包含的字符數(shù)量,且大于等于1并小于前綴信息中包含的字符數(shù)量的正整數(shù),),即,按照預(yù)先針對該地區(qū)建立的前綴概率表中的字符串中包含的字符數(shù)量(如,n個(gè)),針對字符串中的每個(gè)字符,將與該字符緊挨著的后面連續(xù)n個(gè)字符組合成一個(gè)字符串。另外,本申請?jiān)诟鶕?jù)每個(gè)字符串出現(xiàn)在該地區(qū)的概率,以及貝葉斯公式,確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率的過程中,也提供了具體的計(jì)算方式,具體為:根據(jù)每個(gè)字符串出現(xiàn)在該地區(qū)的概率,確定出在給定該地區(qū)的情況下,該前綴信息出現(xiàn)在該地區(qū)的概率,進(jìn)而根據(jù)公式確定出前綴信息出現(xiàn)在地區(qū)i的前綴判斷概率,其中,p地區(qū)i|前綴)表示在給定前綴信息的情況下,前綴信息出現(xiàn)在地區(qū)i的前綴判斷概率,p前綴|地區(qū)i)表示在給定地區(qū)i的情況下,在該地區(qū)i中出現(xiàn)前綴信息的概率,p地區(qū)i)表示前綴信息出現(xiàn)在地區(qū)i的經(jīng)驗(yàn)概率,表示每個(gè)地區(qū)的p前綴|地區(qū)i)與該地區(qū)的p地區(qū)i)的乘積之和。在此需要說明的是,p地區(qū)i)表示前綴信息出現(xiàn)在地區(qū)i的經(jīng)驗(yàn)概率的計(jì)算方式具體為,在已知的大量歷史電子郵箱前綴信息里面,確定出屬于地區(qū)i的電子郵箱前綴信息所占有的頻率,也即經(jīng)驗(yàn)概率。沿用上例,為了方便的闡述本申請的實(shí)施方案,在此例子中,只以兩個(gè)國家為例進(jìn)行說明(也就是說,只有這兩個(gè)國家的用戶使用電子郵箱,實(shí)際上只要是使用電子郵箱的國家都需要建立該國家對應(yīng)的前綴概率表),假設(shè)預(yù)先針對美國建立的前綴概率表如表1所示:表1預(yù)先針對英國建立的前綴概率表如表2所示:前綴信息前綴判斷概率aaa0.5/1aab0.5/1aba1/3abb2/3baa0.5/2.5bab2/2.5bba2/2.5bbb0.5/2.5表2服務(wù)器按照預(yù)先針對美國建立的前綴概率表中的字符串中包含的字符數(shù)量,按照上述介紹的n元拆分方式,即,三元拆分方式,將aabaaab(即,前綴信息)拆分成五個(gè)字符串“aab”、“aba”、“baa”、“aaa”、“aab”,根據(jù)表1中確定出每個(gè)字符串出現(xiàn)在美國的概率如表3所示:字符串字符串出現(xiàn)在美國的概率aab2/3aba3/4baa1/3aaa1/3aab2/3表3服務(wù)器根據(jù)表3,確定出在給定美國的情況下,該前綴信息出現(xiàn)在美國的概率為0.0370,即,p前綴|美國)=0.0370。同樣的,服務(wù)器根據(jù)表2確定出每個(gè)字符串出現(xiàn)在英國的概率如表4所示:字符串字符串出現(xiàn)在美國的概率aab0.5/1aba1/3baa0.5/2.5aaa0.5/1aab0.5/1表4服務(wù)器根據(jù)表4,確定出在給定英國的情況下,該前綴信息出現(xiàn)在英國的概率為0.0083,即,p前綴|英國)=0.0083。假設(shè)前綴信息出現(xiàn)在美國的經(jīng)驗(yàn)概率為3/5,即p美國)=3/5,前綴信息出現(xiàn)在美國的經(jīng)驗(yàn)概率為2/5,即p英國)=2/5,服務(wù)器通過上述提到公式確定出前綴信息出現(xiàn)在美國的前綴判斷概率為0.87,即p美國|前綴)=0.87,確定出前綴信息出現(xiàn)在英國的前綴判斷概率為0.13,即p英國|前綴)=0.13。以上是針對每個(gè)地區(qū),確定前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率的過程,由于本申請時(shí)對前綴信息和后綴信息分別進(jìn)行處理的,因此,下面介紹本申請中對后綴信息的處理過程。同樣是由于每個(gè)地區(qū)(如,國家)的思維方式、生活習(xí)慣以及社會(huì)文化都不太一樣,因此,對于某一種類型的后綴信息而言,每個(gè)地區(qū)(如,國家)注冊并使用該類型的后綴信息對應(yīng)的電子郵箱人數(shù)通常是有差異的,也就是說,有的地區(qū)使用該類型的后綴信息對應(yīng)的電子郵箱的人數(shù)較多,有的地區(qū)使用該類型的后綴信息對應(yīng)的電子郵箱的人數(shù)較少,因此,在本申請中,可以采用后綴判斷概率來表示后綴信息出現(xiàn)在該地區(qū)的可能性大小,后綴判斷概率越大,則說明后綴信息出現(xiàn)在該地區(qū)的可能性越大,后綴判斷概率越小,則說明后綴信息出現(xiàn)在該地區(qū)的可能性越小。同樣的,如果只考慮后綴信息而不考慮前綴信息,其實(shí)后綴信息出現(xiàn)在該地區(qū)(如,國家)的可能性的大小也就是該后綴信息對應(yīng)的電子郵箱屬于該地區(qū)的可能性的大小,后綴判斷概率越大,則說明后綴信息對應(yīng)的電子郵箱屬于該地區(qū)的可能性越大,后綴判斷概率越小,則說明后綴信息對應(yīng)電子郵箱屬于該地區(qū)的可能性越小。進(jìn)一步的,本申請?zhí)峁┝酸槍γ總€(gè)地區(qū),確定后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率,具體實(shí)施方式如下:針對每個(gè)地區(qū),在預(yù)先針對該地區(qū)建立的后綴概率表中,確定該后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率。在此需要說明的是,對于上述確定前綴判斷概率的方式并不是唯一的,只要能夠確定出的結(jié)果能夠反映出前綴信息出現(xiàn)在該地區(qū)(如,國家)的可能性的大小即可,如,采用字符串相似度的判斷方式來確定前綴判斷概率,也就是說,針對每個(gè)地區(qū),計(jì)算并選取前綴信息與預(yù)先建立的該地區(qū)對應(yīng)的標(biāo)準(zhǔn)字符串中相似度最大的,再將相似度作為每個(gè)地區(qū)的前綴判斷概率。同樣的對于上述確定后綴判斷概率的方式也并不是唯一的,在此不再一一贅述。沿用上例,假設(shè)預(yù)先針對美國建立的后綴概率表如表5所示:后綴信息后綴判斷概率gmail.com2/3hotmail.com1/2表5預(yù)先針對英國建立的后綴概率表如表6所示:后綴信息后綴判斷概率gmail.com1/3hotmail.com1/2表6服務(wù)器針對拆分出的hotmail.com,根據(jù)表5確定出該后綴信息出現(xiàn)在美國的后綴判斷概率1/2,即,p美國|后綴)=1/2,根據(jù)表6確定出該后綴信息出現(xiàn)在英國的后綴判斷概率1/2,即,p英國|后綴)=1/2。s104:根據(jù)每個(gè)地區(qū)對應(yīng)的前綴判斷概率和后綴判斷概率,確定所述電子郵箱屬于每個(gè)地區(qū)的最終判斷概率。由于電子郵箱是前綴信息和后綴信息共同組成的,因此,前綴信息和后綴信息共同決定了電子郵箱屬于哪個(gè)地區(qū),也就是說,前綴判斷概率和后綴判斷概率共同決定了電子郵箱屬于哪個(gè)地區(qū)。因此,在本申請中,服務(wù)器在確定出每個(gè)地區(qū)對應(yīng)的前綴判斷概率和后綴判斷概率后,可直接確定出前綴信息以及后綴信息共同對應(yīng)的電子郵箱屬于每個(gè)地區(qū)的最終判斷概率,所述最終判斷概率表示該電子郵箱屬于每個(gè)地區(qū)的可能性的大小,針對每個(gè)地區(qū),最終判斷概率越大,則說明該電子郵箱屬于該地區(qū)的可能性越大,最終判斷概率越小,則說明該電子郵箱屬于該地區(qū)的可能性越小。另外,本申請還提供了確定前綴信息和后綴信息共同對應(yīng)的電子郵箱屬于每個(gè)地區(qū)的最終判斷概率具體計(jì)算方式:通過公式p=p(地區(qū)i|前綴)*p(地區(qū)i|后綴)/p(地區(qū)i),確定出所述電子郵箱屬于每個(gè)地區(qū)的最終判斷概率;其中:p表示所述電子郵箱屬于地區(qū)i的最終判斷概率,p(地區(qū)i|前綴)表示所述前綴信息出現(xiàn)在地區(qū)i前綴判斷概率,p(地區(qū)i|后綴)表示所述后綴信息出現(xiàn)在地區(qū)i的后綴判斷概率,p(地區(qū)i)表示所述電子郵箱屬于地區(qū)i的經(jīng)驗(yàn)概率。延用上例,服務(wù)器在確定出美國對應(yīng)的前綴判斷概率和后綴判斷概率后,根據(jù)步驟s104中提到的公式,確定出用戶a的電子郵箱aabaaab@hotmail.com屬于美國的最終判斷概率0.725,同樣的,服務(wù)器確定出用戶a的電子郵箱aabaaab@hotmail.com屬于英國的最終判斷概率0.1625。s105:根據(jù)各最終判斷概率,識別所述用戶所屬的地區(qū)。服務(wù)器在確定出該用戶的電子郵箱屬于每個(gè)地區(qū)(如,國家)的最終判斷概率后,將各最終判斷概率中最大的最終判斷概率對應(yīng)的地區(qū),識別為該用戶的電子郵箱的歸屬地,另外,由于用戶通常都是在自己地區(qū)的電子郵箱網(wǎng)站上注冊并使用電子郵箱的,因此,將識別為該用戶的電子郵箱的歸屬地的地區(qū),作為該用戶所屬的地區(qū)。延用上例,服務(wù)器在確定出用戶a的電子郵箱aabaaab@hotmail.com屬于美國的最終判斷概率0.1625以及用戶a的電子郵箱aabaaab@hotmail.com屬于美國的最終判斷概率0.725后,將美國識別為該用戶a的電子郵箱的歸屬地,后續(xù),將美國作為該用戶a所屬的地區(qū)。通過上述方法,即使電子郵箱的后綴中沒有包含指明地區(qū)(如,國家)的字符符號或電子郵箱的提供商所提供的區(qū)域服務(wù)涉及多個(gè)地區(qū),也可以通過電子郵箱有效的識別出用戶所屬的地區(qū)。在此需要說明的是,在針對每個(gè)地區(qū),確定電子郵箱的后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率的過程中,對于后綴信息里包含有指明地區(qū)(如,國家)的字符符號時(shí),則可以直接確定后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率為1,后綴信息出現(xiàn)在其他地區(qū)的后綴判斷概率為0。另外,本申請?zhí)峁┝嗽诓襟Es103中涉及到的預(yù)先針對該地區(qū)建立的前綴概率表的具體建立方式,具體如下:預(yù)先獲取已知所屬地區(qū)的各樣本郵箱,提取各樣本郵箱中的樣本前綴信息,將提取的各樣本前綴信息拆分成若干個(gè)字符串,針對由樣本前綴信息拆分出的每個(gè)字符串,提取該字符串的前序字符,確定該字符串出現(xiàn)在該地區(qū)的次數(shù)與該字符串的前序字符出現(xiàn)在該地區(qū)的次數(shù)的比值,作為該字符串出現(xiàn)在該地區(qū)的概率,根據(jù)針對由樣本前綴信息拆分出的每個(gè)字符串統(tǒng)計(jì)出的概率,建立該地區(qū)對應(yīng)的前綴概率表。在此需要說明的是,假設(shè)是采用n元拆分來將提取的各樣本前綴信息拆分成若干個(gè)字符串,則在提取每個(gè)字符串的前序字符時(shí),是從該字符串中位于最前端的字符開始提取連續(xù)(n-1)個(gè)字符,作為提取該字符串的前序字符。例如,針對上述步驟s101~s105中的例子而言,假設(shè)服務(wù)器獲取到已知所屬國家為美國的各樣本郵箱,提取各樣本郵箱中的樣本前綴信息,并將提取的各樣本前綴信息按照三元拆分方式,拆分成若干個(gè)字符串,確定每種類型的字符串出現(xiàn)在美國的次數(shù),如表7所示:字符串次數(shù)aaa1aab2aba3abb1baa1bab2bbb1表7服務(wù)器再提取各字符串的前兩位的字符(即,前序字符),確定出每種類型的前序字符出現(xiàn)在美國的次數(shù),如表8所示:字符串次數(shù)aa3ab4ba3bb1表8服務(wù)器確定該字符串出現(xiàn)在美國的次數(shù)與該字符串的前序字符出現(xiàn)在美國的次數(shù)的比值(也即,該字符串出現(xiàn)在美國的概率),并根據(jù)確定出的各比值建立美國對應(yīng)的前綴概率表如表1所示。同樣的,服務(wù)器確定每種類型的字符串出現(xiàn)在英國的次數(shù),如表9所示:表9服務(wù)器再提取各字符串的前兩位的字符(即,前序字符),確定出每種類型的前序字符出現(xiàn)在英國的次數(shù),如表10所示:字符串次數(shù)ab3ba2bb2表10服務(wù)器確定該字符串出現(xiàn)在英國的次數(shù)與該字符串的前序字符出現(xiàn)在英國的次數(shù)的比值(也即,該字符串出現(xiàn)在英國的概率),并根據(jù)確定出的各比值建立英國對應(yīng)的前綴概率表如表2所示。另外,本申請還提供了另一種預(yù)先建立每個(gè)地區(qū)對應(yīng)的前綴概率表的方式,具體如下:預(yù)先獲取已知各所屬地區(qū)的各樣本郵箱,提取各樣本郵箱中的樣本前綴信息,將提取的各樣本前綴信息按(n-1)元拆分方式拆分成若干個(gè)轉(zhuǎn)移字符串,針對由樣本前綴信息拆分出的每個(gè)轉(zhuǎn)移字符串,將各轉(zhuǎn)移字符串組成每個(gè)地區(qū)對應(yīng)的轉(zhuǎn)移次數(shù)矩陣,根據(jù)每個(gè)地區(qū)對應(yīng)的轉(zhuǎn)移次數(shù)矩陣,確定每個(gè)地區(qū)對應(yīng)的轉(zhuǎn)移概率矩陣,根據(jù)轉(zhuǎn)移概率矩陣,建立每個(gè)地區(qū)對應(yīng)的前綴概率表,其中,所述轉(zhuǎn)移字符串包含的字符數(shù)量比步驟s103中涉及到的字符串包含的字符數(shù)量少一個(gè)字符。例如,針對上述步驟s101~s105中的例子而言,假設(shè)服務(wù)器獲取到已知所屬國家為美國和英國的各樣本郵箱,提取各樣本郵箱中的樣本前綴信息,并將提取的各樣本前綴信息按照二元拆分方式,拆分成若干個(gè)轉(zhuǎn)移字符串,針對由樣本前綴信息拆分出的每個(gè)轉(zhuǎn)移字符串,將各轉(zhuǎn)移字符串組成美國對應(yīng)的轉(zhuǎn)移次數(shù)矩陣,如表11所示:表11服務(wù)器根據(jù)表11確定出美國對應(yīng)的轉(zhuǎn)移概率矩陣,如表12所示:aaabbabbaa1/32/300ab003/41/4ba1/32/300bb000.5/1.50.5/2.5表12服務(wù)器根據(jù)表12建立美國對應(yīng)的前綴概率表,如表1所示。同樣的,服務(wù)器針對由樣本前綴信息拆分出的每個(gè)轉(zhuǎn)移字符串,將各轉(zhuǎn)移字符串組成英國對應(yīng)的轉(zhuǎn)移次數(shù)矩陣,如表13所示:aaabbabbaa0000ab0012ba0200bb0020表13服務(wù)器根據(jù)表13確定出英國對應(yīng)的轉(zhuǎn)移概率矩陣,如表14所示:aaabbabbaa0.5/10.5/100ab001/32/3ba0.5/2.52/2.500bb002/2.50.5/2.5表14服務(wù)器根據(jù)表14建立英國對應(yīng)的前綴概率表,如表2所示。在此需要說明的是,上述根據(jù)轉(zhuǎn)移次數(shù)矩陣確定每個(gè)地區(qū)對應(yīng)的轉(zhuǎn)移概率矩陣的過程中,對于轉(zhuǎn)移次數(shù)矩陣中所有為0的項(xiàng),如果該0所處行的轉(zhuǎn)移字符串的后(n-2)位與該0所處列的轉(zhuǎn)移字符串前(n-2)位相同,則該0次以0.5次計(jì)算,如果該0所處行的轉(zhuǎn)移字符串的后(n-2)位與該0所處列的轉(zhuǎn)移字符串的前(n-2)位不同,則該0次依然按0次計(jì)算,如,在表13中,位于第二行第三列項(xiàng)的0,該0所處行的轉(zhuǎn)移字符串a(chǎn)a的后一位a與該0所處列的轉(zhuǎn)移字符串a(chǎn)b的前一位a相同,則該0次以0.5次計(jì)算,但是位于第二行第四列項(xiàng)的0,該0所處行的轉(zhuǎn)移字符串a(chǎn)a的后一位a與該0所處列的轉(zhuǎn)移字符串ba的前一位b不相同。進(jìn)一步的,本申請也提供了在步驟s103中涉及到的預(yù)先針對該地區(qū)建立后綴概率表的具體建立方式,具體如下:預(yù)先獲取已知所屬地區(qū)的各樣本郵箱,提取各樣本郵箱中的樣本后綴信息,針對每個(gè)樣本后綴信息,統(tǒng)計(jì)該樣本后綴信息出現(xiàn)在該地區(qū)的概率,根據(jù)針對每個(gè)樣本后綴信息統(tǒng)計(jì)出的概率,建立該地區(qū)對應(yīng)的后綴概率表。另外,針對每個(gè)樣本后綴信息,統(tǒng)計(jì)該樣本后綴信息出現(xiàn)在該地區(qū)的概率的過程中,本申請首先針對每個(gè)樣本后綴信息,先統(tǒng)計(jì)出該樣本后綴信息出現(xiàn)在該地區(qū)的次數(shù),再針對每個(gè)樣本后綴信息,統(tǒng)計(jì)出該樣本后綴信息出現(xiàn)在各個(gè)地區(qū)的總次數(shù),后續(xù),將統(tǒng)計(jì)出各樣本后綴信息出現(xiàn)在該地區(qū)的次數(shù)與統(tǒng)計(jì)出該樣本后綴信息出現(xiàn)在各個(gè)地區(qū)的總次數(shù)的比值,作為各樣本后綴信息出現(xiàn)在該地區(qū)的概率。例如,針對上述步驟s101~s105中的例子而言,假設(shè)從已知的美國和英國的各樣本郵箱中提取出樣本后綴信息如表15所示:表15服務(wù)器統(tǒng)計(jì)出樣本后綴信息gmail.com出現(xiàn)在美國的次數(shù)為2次,統(tǒng)計(jì)出樣本后綴信息gmail.com出現(xiàn)在美國和英國的總次數(shù)為3次,將2次(即,統(tǒng)計(jì)出樣本后綴信息gmail.com出現(xiàn)在美國的次數(shù))與3次(即,統(tǒng)計(jì)出樣本后綴信息gmail.com出現(xiàn)在美國和英國的總次數(shù))的比值為2/3,作為樣本后綴信息gmail.com出現(xiàn)在美國的概率,同樣的,針對美國,統(tǒng)計(jì)出的各樣本后綴信息出現(xiàn)在美國的概率如表5所示,針對英國,統(tǒng)計(jì)出的各樣本后綴信息出現(xiàn)在英國的概率如表6所示。以上為本申請實(shí)施例提供的識別用戶所屬地區(qū)的的方法,基于同樣的思路,本申請實(shí)施例提供一種識別用戶所屬地區(qū)的裝置,如圖2所示。圖2為本申請實(shí)施例提供的識別用戶所屬地區(qū)的裝置結(jié)構(gòu)示意圖,所述裝置包括:獲取模塊201,用于獲取用戶的電子郵箱;拆分模塊202,用于將所述電子郵箱拆分成前綴信息與后綴信息;第一確定模塊203,用于針對每個(gè)地區(qū),確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率,確定所述后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率;第二確定模塊204,用于根據(jù)每個(gè)地區(qū)對應(yīng)的前綴判斷概率和后綴判斷概率,確定所述電子郵箱屬于每個(gè)地區(qū)的最終判斷概率;識別模塊205,用于根據(jù)各最終判斷概率,識別所述用戶所屬的地區(qū)。所述第一確定模塊203具體用于,將所述前綴信息拆分成若干個(gè)字符串,在預(yù)先針對該地區(qū)建立的前綴概率表中,確定出每個(gè)字符串出現(xiàn)在該地區(qū)的概率,根據(jù)每個(gè)字符串出現(xiàn)在該地區(qū)的概率,以及貝葉斯公式,確定所述前綴信息出現(xiàn)在該地區(qū)的前綴判斷概率。所述第一確定模塊203具體用于,預(yù)先獲取已知所屬地區(qū)的各樣本郵箱,提取各樣本郵箱中的樣本前綴信息,將提取的各樣本前綴信息拆分成若干個(gè)字符串,針對由樣本前綴信息拆分出的每個(gè)字符串,提取該字符串的前序字符,確定該字符串出現(xiàn)在該地區(qū)的次數(shù)與該字符串的前序字符出現(xiàn)在該地區(qū)的次數(shù)的比值,作為該字符串出現(xiàn)在該地區(qū)的概率,根據(jù)針對由樣本前綴信息拆分出的每個(gè)字符串統(tǒng)計(jì)出的概率,建立該地區(qū)對應(yīng)的前綴概率表。所述第一確定模塊203具體用于,在預(yù)先針對該地區(qū)建立的后綴概率表中,確定所述后綴信息出現(xiàn)在該地區(qū)的后綴判斷概率。所述第一確定模塊203具體用于,預(yù)先獲取已知所屬地區(qū)的各樣本郵箱,提取各樣本郵箱中的樣本后綴信息,針對每個(gè)樣本后綴信息,統(tǒng)計(jì)該樣本后綴信息出現(xiàn)在該地區(qū)的概率,根據(jù)針對每個(gè)樣本后綴信息統(tǒng)計(jì)出的概率,建立該地區(qū)對應(yīng)的后綴概率表。所述第二確定模塊204具體用于,通過公式p=p(地區(qū)i|前綴)*p(地區(qū)i|后綴)/p(地區(qū)i),確定出所述電子郵箱屬于每個(gè)地區(qū)的最終判斷概率;其中:p表示所述電子郵箱屬于地區(qū)i的最終判斷概率,p(地區(qū)i|前綴)表示所述前綴信息出現(xiàn)在地區(qū)i前綴判斷概率,p(地區(qū)i|后綴)表示所述后綴信息出現(xiàn)在地區(qū)i的后綴判斷概率,p(地區(qū)i)表示所述電子郵箱屬于地區(qū)i的經(jīng)驗(yàn)概率。所述地區(qū)包括所述國家。在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。以上所述僅為本申請的實(shí)施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。當(dāng)前第1頁12