亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用戶(hù)性別分析方法和裝置的制造方法_2

文檔序號(hào):8282274閱讀:來(lái)源:國(guó)知局
,并計(jì)算各順位上字母和/或相鄰若干順位 上字母組合對(duì)于不同性別出現(xiàn)的概率。
4. 根據(jù)權(quán)利要求3所述的用戶(hù)性別分析方法,其特征在于,統(tǒng)計(jì)所述用戶(hù)個(gè)性域名各 順位上字母對(duì)于不同性別出現(xiàn)的次數(shù)和/或相鄰若干順位上的字母組合對(duì)于不同性別出 現(xiàn)的次數(shù),并計(jì)算各順位上字母和/或相鄰若干順位上字母組合對(duì)于不同性別出現(xiàn)的概率 具體為: 根據(jù)表達(dá)式
分別計(jì)算各順位上各字母和相鄰若干順位上各字母組合對(duì)應(yīng)為男性的概率;其中,等 式左側(cè)的P(n-gram對(duì)應(yīng)男性)為長(zhǎng)度為n的相鄰若干順位上的字母組合對(duì)應(yīng)為男性的 概率,n為1時(shí)P(n-gram對(duì)應(yīng)男性)為單一順位上的字母對(duì)應(yīng)為男性的概率;等式右側(cè)的 n-gram對(duì)應(yīng)男性頻率為單一順位上的字母或長(zhǎng)度為n的相鄰若干順位上的字母組合對(duì)應(yīng) 為男性的次數(shù),n-gram對(duì)應(yīng)女性頻率為單一順位上的字母或長(zhǎng)度為n的相鄰若干順位上的 字母組合對(duì)應(yīng)為女性的次數(shù)。
5. 根據(jù)權(quán)利要求1所述的用戶(hù)性別分析方法,其特征在于,W所述概率作為參考參數(shù), 對(duì)未知用戶(hù)性別的用戶(hù)個(gè)性域名進(jìn)行分析,判斷所述用戶(hù)性別包括: 步驟a ;獲取所述未知用戶(hù)性別的用戶(hù)個(gè)性域名的長(zhǎng)度,記為k ;
步驟b;按照表達(dá)式
計(jì)算所述用戶(hù)的性別為男性的概率,其中,url表示個(gè)性域名中用戶(hù)指定的部分; substHurl,j,i)表示url中第j位字符開(kāi)始長(zhǎng)度為i的相鄰若干順位上的字母組合構(gòu)成 的子字符串,i為1時(shí)為單一順位上的字母構(gòu)成的子字符串;n表示substr (url, j,i)的個(gè) 數(shù);Wh表示該字母或字母組合的權(quán)重;P(substr(url,j,i)在樣本數(shù)據(jù)集中對(duì)應(yīng)男性)表示 上述子字符串上的字母或字母組合對(duì)應(yīng)的男性概率; 步驟C ;比較步驟b中的計(jì)算結(jié)果與所述樣本數(shù)據(jù)集中男性的比例; 步驟d ;在步驟b中的計(jì)算結(jié)果大于等于步驟C計(jì)算得到的比例時(shí),判定所述未知性別 用戶(hù)的性別為男性。
6. 根據(jù)權(quán)利要求5所述的用戶(hù)性別分析方法,其特征在于,所述步驟d之后,還包括: 步驟e ;在步驟b中的計(jì)算結(jié)果小于步驟C計(jì)算得到的比例時(shí),判定所述未知性別用戶(hù) 的性別為女性。
7. -種用戶(hù)性別分析裝置,其特征在于,包括: 采樣模塊,用于采集樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括多對(duì)用戶(hù)個(gè)性域名和對(duì)應(yīng)的用 戶(hù)性別; 參考參數(shù)計(jì)算模塊,用于統(tǒng)計(jì)所述樣本數(shù)據(jù)集中的用戶(hù)個(gè)性域名中各順位上不同字母 和相鄰若干順位上不同字母組合按照性別出現(xiàn)的概率; 分析模塊,用于W所述樣本數(shù)據(jù)集中男性的比例和所述概率作為參考參數(shù),對(duì)未知用 戶(hù)性別的用戶(hù)個(gè)性域名進(jìn)行分析,判斷所述用戶(hù)性別。
8. 根據(jù)權(quán)利要求7所述的用戶(hù)性別分析裝置,其特征在于,該裝置還包括: 參考比例計(jì)算模塊,用于計(jì)算所述樣本數(shù)據(jù)集中男性的比例。
9. 根據(jù)權(quán)利要求8所述的用戶(hù)性別分析裝置,其特征在于,所述參考參數(shù)計(jì)算模塊包 括: 性別提取單元,用于取一個(gè)用戶(hù)個(gè)性域名中用戶(hù)指定的部分,同時(shí)記錄該用戶(hù)個(gè)性域 名對(duì)應(yīng)的用戶(hù)性別; 計(jì)數(shù)單元,用于對(duì)所述指定的部分的各順位上字母出現(xiàn)的次數(shù)和/或相鄰若干順位上 不同字母組合出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù); 統(tǒng)計(jì)單元,用于對(duì)所述樣本數(shù)據(jù)集中的全部用戶(hù)個(gè)性域名進(jìn)行所述計(jì)數(shù)單元的處理, 直至所述樣本數(shù)據(jù)集遍歷完成,統(tǒng)計(jì)所述用戶(hù)個(gè)性域名各順位上字母對(duì)于不同性別出現(xiàn)的 次數(shù)和/或相鄰若干順位上的字母組合對(duì)于不同性別出現(xiàn)的次數(shù),并計(jì)算各順位上字母和 /或相鄰若干順位上字母組合對(duì)于不同性別出現(xiàn)的概率。
10. 根據(jù)權(quán)利要求9所述的用戶(hù)性別分析裝置,其特征在于,所述統(tǒng)計(jì)單元計(jì)算各順位 上字母和/或相鄰若干順位上字母組合對(duì)于不同性別出現(xiàn)的概率具體為: 根據(jù)表達(dá)式
分別計(jì)算各順位上各字母和相鄰若干順位上各字母組合對(duì)應(yīng)的男性概率,其中, P (n-gram對(duì)應(yīng)男性)為長(zhǎng)度為n的相鄰若干順位上一字母組合對(duì)應(yīng)為男性的概率,n為1時(shí) P(n-gram對(duì)應(yīng)男性)為單一順位上一字母對(duì)應(yīng)為男性的概率,n-gram對(duì)應(yīng)男性頻率為單一 順位上一字母或長(zhǎng)度為n的相鄰若干順位上一字母組合對(duì)應(yīng)為男性的次數(shù),n-gram對(duì)應(yīng)女 性頻率為單一順位上一字母或長(zhǎng)度為n的相鄰若干順位上一字母組合對(duì)應(yīng)為女性的次數(shù)。
11. 根據(jù)權(quán)利要求8所述的用戶(hù)性別分析裝置,其特征在于,所述分析模塊包括: 域名長(zhǎng)度獲取單元,用于獲取所述未知用戶(hù)性別的用戶(hù)個(gè)性域名的長(zhǎng)度,記為k ; 概率計(jì)算單元,用于按照表達(dá)式
計(jì)算所述用戶(hù)的性別為男性的概率,其中,url表示個(gè)性域名中用戶(hù)指定的部分, substHurl,j,i)表示url中第j位字符開(kāi)始長(zhǎng)度為i的相鄰字符構(gòu)成的子字符串,n表 示substHurl, j,i)的個(gè)數(shù),Wh表示該字母或字母組合的權(quán)重,P(substr(u;rl, j, i)在樣 本數(shù)據(jù)集中對(duì)應(yīng)男性)表示url中第j位字符或第j位字符開(kāi)始長(zhǎng)度為i的相鄰字符構(gòu)成 的子字符串上的字母或字母組合對(duì)應(yīng)的男性概率; 比較單元,用于比較概率計(jì)算單元的計(jì)算結(jié)果與參考比例計(jì)算模塊計(jì)算得到的比例; 判定單元,用于在所述比較單元比較的結(jié)果為比較概率計(jì)算單元的計(jì)算結(jié)果大于等于 參考比例計(jì)算模塊計(jì)算得到的比例時(shí),判定所述未知性別用戶(hù)的性別為男性。
12. 根據(jù)權(quán)利要求11所述的用戶(hù)性別分析裝置,其特征在于, 所述判定單元,還用于在所述比較單元比較的結(jié)果為比較概率計(jì)算單元的計(jì)算結(jié)果小 于所述參考比例計(jì)算模塊計(jì)算得到的比例時(shí),判定所述未知性別用戶(hù)的性別為女性。

【專(zhuān)利摘要】本發(fā)明提供了一種用戶(hù)性別分析方法和裝置。涉及數(shù)據(jù)分析領(lǐng)域;解決了現(xiàn)有分析方式不適用于個(gè)性域名和姓名關(guān)聯(lián)較弱的場(chǎng)合的問(wèn)題。該方法包括:采集樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括多對(duì)用戶(hù)個(gè)性域名和對(duì)應(yīng)的用戶(hù)性別;統(tǒng)計(jì)所述樣本數(shù)據(jù)集中的用戶(hù)個(gè)性域名中各順位上不同字母和相鄰若干順位上不同字母組合按照性別出現(xiàn)的概率;以所述樣本數(shù)據(jù)集中男性的比例和所述概率作為參考參數(shù),對(duì)未知用戶(hù)性別的用戶(hù)個(gè)性域名進(jìn)行分析,判斷所述用戶(hù)性別。本發(fā)明提供的技術(shù)方案適用于數(shù)據(jù)分析,實(shí)現(xiàn)了基于自動(dòng)化算法的用戶(hù)性別分析。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104598452
【申請(qǐng)?zhí)枴緾N201310526980
【發(fā)明人】丁若谷, 陳家耀, 馮是聰, 吳明輝
【申請(qǐng)人】北京思博途信息技術(shù)有限公司
【公開(kāi)日】2015年5月6日
【申請(qǐng)日】2013年10月30日
當(dāng)前第2頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1