用戶性別分析方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,尤其涉及一種用戶性別分析方法和裝置。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)環(huán)境下,用戶的性別是一項(xiàng)十分重要的信息。根據(jù)用戶的性別,互聯(lián)網(wǎng)內(nèi) 容提供者可以向不同用戶展現(xiàn)不同的內(nèi)容。例如,男性用戶可能相比女性用戶對電子競技 更感興趣,而女性用戶可能相比男性用戶對時(shí)尚服飾更感興趣。在這種情況下,如果用戶的 性別得到識別,互聯(lián)網(wǎng)廣告提供商就可以為男性用戶展示電子競技的廣告,為女性用戶展 示時(shí)尚服飾的廣告,從而使得廣告更有針對性,取得更好的廣告效果。
[0003] 對于注冊博客、微博或其他社交網(wǎng)站的用戶來說,很多服務(wù)提供商都會(huì)在用戶完 成必要的注冊信息后,建議用戶填寫一些用戶本身的屬性,例如性別,年齡,工作狀態(tài),為自 己設(shè)置個(gè)性域名等,而往往這些屬性中在涉及到用戶隱私的信息注冊事項(xiàng)通常都是選擇性 填寫事項(xiàng),而非必須填寫事項(xiàng),這樣,就導(dǎo)致了相當(dāng)一部分用戶選擇不填寫此類信息,例如 用戶為保護(hù)自己的信息不外漏,會(huì)選擇不填寫年齡,性別等,那么,對于數(shù)據(jù)分析機(jī)構(gòu)或供 應(yīng)商本身來說,也就無法直接獲取用戶的性別信息。但對于不涉及隱私的選擇性填寫事項(xiàng) 來說,被填寫的成功率往往很高。例如,個(gè)性域名,服務(wù)提供商為了增加用戶體驗(yàn)和親和力, 往往允許用戶為自己的微博或個(gè)人空間主頁設(shè)置具有代表用戶本身性質(zhì)的虛擬url。用 戶可以將這些域名格式設(shè)置為自己的名字,或任意自己喜歡的數(shù)字,或字母組合,即時(shí)尚又 方便。然而,出于人類自身的性別差異,在對個(gè)性域名的設(shè)置上,男性和女性往往本能的去 設(shè)置一些代表自身屬性的域名。例如,某用戶可能注冊一個(gè)個(gè)性域名:http://weibo.com/ basketballfans,其中weibo. com是微博服務(wù)提供商的域名,basketballfans部分即用戶 選擇的個(gè)性域名。那么,通過具有用戶代表性的個(gè)性域名來推算出用戶的性別信息,即不侵 犯用戶又可收集用戶信息。
[0004] 在現(xiàn)有的技術(shù)中,最相似的技術(shù)是美國專利7,447,996[1]。這一專利提出了一 種軟件模塊,用于在即時(shí)通訊系統(tǒng)中根據(jù)不同的用戶名推斷用戶的性別,根據(jù)不同的性別 展示不同的虛擬形象。依賴于特定的人類行為學(xué)數(shù)據(jù),即特定語言中的人名和性別之間的 關(guān)系。例如,這一專利中提及,針對中文姓名,通過人類行為學(xué)數(shù)據(jù)庫的檢索,"Xiuxiu"和 "lili"更可能是女性的名字。
[0005] 人類行為學(xué)數(shù)據(jù)庫并不適用于多種網(wǎng)絡(luò)應(yīng)用場景,尤其不適用于個(gè)性域名和姓名 關(guān)聯(lián)較弱的場合。個(gè)性域名的組成通常包括了超出常見姓名范疇的大量成分,這些成分很 難通過人類行為學(xué)數(shù)據(jù)分析。例如,個(gè)性域名中可能包括"basketball",即籃球;而可能將 籃球放入個(gè)性域名的籃球愛好者中,男性可能占主導(dǎo)地位。如果將"籃球?qū)?yīng)男性"這類數(shù) 據(jù)加入數(shù)據(jù)庫,所需的工作將極大增加,并且很難完備。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供了一種用戶性別分析方法和裝置,解決了現(xiàn)有分析方式不適用于個(gè)性 域名和姓名關(guān)聯(lián)較弱的場合的問題。
[0007] -種用戶性別分析方法,包括:
[0008] 采集樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括多對用戶個(gè)性域名和對應(yīng)的用戶性別;
[0009] 統(tǒng)計(jì)所述樣本數(shù)據(jù)集中的用戶個(gè)性域名中各順位上不同字母和相鄰若干順位上 不同字母組合按照性別出現(xiàn)的概率;
[0010] 以所述樣本數(shù)據(jù)集中男性的比例和所述概率作為參考參數(shù),對未知用戶性別的用 戶個(gè)性域名進(jìn)行分析,判斷所述用戶性別。
[0011] 優(yōu)選的,所述統(tǒng)計(jì)所述樣本數(shù)據(jù)集中的用戶個(gè)性域名中各順位上不同字母和相鄰 若干順位上不同字母組合按照性別出現(xiàn)的概率的步驟之前,還包括:
[0012] 計(jì)算所述樣本數(shù)據(jù)集中男性的比例。
[0013] 優(yōu)選的,統(tǒng)計(jì)所述樣本數(shù)據(jù)集中的用戶個(gè)性域名中各順位上不同字母和相鄰若干 順位上字母組合按照性別出現(xiàn)的概率包括 :
[0014] 步驟a :取一個(gè)用戶個(gè)性域名中用戶指定的部分,同時(shí)記錄該用戶個(gè)性域名對應(yīng) 的用戶性別;
[0015] 步驟b :對所述指定的部分的各順位上字母出現(xiàn)的次數(shù)和/或相鄰若干順位上不 同字母組合出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù);
[0016] 步驟c :對所述樣本數(shù)據(jù)集中的全部用戶個(gè)性域名進(jìn)行如步驟a至b的處理,直至 所述樣本數(shù)據(jù)集遍歷完成;
[0017] 步驟d :統(tǒng)計(jì)所述用戶個(gè)性域名各順位上字母對于不同性別出現(xiàn)的次數(shù)和/或相 鄰若干順位上的字母組合對于不同性別出現(xiàn)的次數(shù),并計(jì)算各順位上字母和/或相鄰若干 順位上字母組合對于不同性別出現(xiàn)的概率。
[0018] 優(yōu)選的,統(tǒng)計(jì)所述用戶個(gè)性域名各順位上字母對于不同性別出現(xiàn)的次數(shù)和/或相 鄰若干順位上的字母組合對于不同性別出現(xiàn)的次數(shù),并計(jì)算各順位上字母和/或相鄰若干 順位上字母組合對于不同性別出現(xiàn)的概率具體為 :
[0019] 根據(jù)表達(dá)式
[0020]
【主權(quán)項(xiàng)】
1. 一種用戶性別分析方法,其特征在于,包括: 采集樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括多對用戶個(gè)性域名和對應(yīng)的用戶性別; 統(tǒng)計(jì)所述樣本數(shù)據(jù)集中的用戶個(gè)性域名中各順位上不同字母和相鄰若干順位上不同 字母組合按照性別出現(xiàn)的概率; W所述樣本數(shù)據(jù)集中男性的比例和所述概率作為參考參數(shù),對未知用戶性別的用戶個(gè) 性域名進(jìn)行分析,判斷所述用戶性別。
2. 根據(jù)權(quán)利要求1所述的用戶性別分析方法,其特征在于,所述統(tǒng)計(jì)所述樣本數(shù)據(jù)集 中的用戶個(gè)性域名中各順位上不同字母和相鄰若干順位上不同字母組合按照性別出現(xiàn)的 概率的步驟之前,還包括: 計(jì)算所述樣本數(shù)據(jù)集中男性的比例。
3. 根據(jù)權(quán)利要求1所述的用戶性別分析方法,其特征在于,統(tǒng)計(jì)所述樣本數(shù)據(jù)集中 的用戶個(gè)性域名中各順位上不同字母和相鄰若干順位上字母組合按照性別出現(xiàn)的概率包 括: 步驟a ;取一個(gè)用戶個(gè)性域名中用戶指定的部分,同時(shí)記錄該用戶個(gè)性域名對應(yīng)的用 戶性別; 步驟b ;對所述指定的部分的各順位上字母出現(xiàn)的次數(shù)和/或相鄰若干順位上不同字 母組合出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù); 步驟C ;對所述樣本數(shù)據(jù)集中的全部用戶個(gè)性域名進(jìn)行如步驟a至b的處理,直至所述 樣本數(shù)據(jù)集遍歷完成; 步驟d ;統(tǒng)計(jì)所述用戶個(gè)性域名各順位上字母對于不同性別出現(xiàn)的次數(shù)和/或相鄰若 干順位上的字母組合對于不同性別出現(xiàn)的次數(shù)