亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

利用網(wǎng)頁瀏覽行為來進行性別預測的方法與流程

文檔序號:12177134閱讀:384來源:國知局
利用網(wǎng)頁瀏覽行為來進行性別預測的方法與流程
本發(fā)明涉及一種性別預測方法,尤其涉及一種在博客網(wǎng)站上利用使用者的網(wǎng)頁瀏覽行為來進行性別預測的方法。
背景技術
:博客網(wǎng)站通常指以時間排序,并時時更新的網(wǎng)站,其多半以日記型態(tài)存在并且包含文章及回復功能。網(wǎng)絡日志的內(nèi)容可以是個人生活,甚至到政治話題,而其主題可以是一個小眾的議題,或是大范圍的話題。在目前較知名的博客網(wǎng)站中,其網(wǎng)頁上的廣告收入主要為其收入來源之一,而若是要吸引著名的廣告商加入其網(wǎng)站,則此網(wǎng)站必須要有極高的點擊率或是人氣。然而,無論是網(wǎng)站中的廣告或是其內(nèi)部的網(wǎng)站內(nèi)容,目前大多是以單向播放方式來進行,即將網(wǎng)頁的檔案在一定的時間周期內(nèi)進行反復地播放,然而此種方式卻極有可能招致使用者的反感,而使得點擊率下降。舉例來說,當一男性使用者瀏覽博客網(wǎng)站時,看到的卻是有關女性的文章內(nèi)容或是廣告信息等,此男性用戶便可能不耐煩地直接跳離此博客網(wǎng)站而不繼續(xù)瀏覽。歸究發(fā)生此情況的最主要原因在于,此網(wǎng)站無法得知在計算機前的用戶的性別,進而根據(jù)其性別來播放相關聯(lián)的廣告或文章,而使得使用者能愿意停留在此博客網(wǎng)站中。也因為如此,導致目前部份的博客網(wǎng)站可能偏向于以一特定主題為主,如僅吸引部份的少女族群或是上班族群,無法廣泛的適用于不同的使用者。如此一來,對于博客網(wǎng)站來說,其廣告商的來源便只能局限于一個領域,將導致其收入減少。而對于使用者而言,其也只能看到由博客網(wǎng)站固定擺放的文章內(nèi)容以及廣告。再者,對于廣告商而言,其營銷通路亦無法有效地進行擴增,而造成三輸?shù)木置娈a(chǎn)生。因此,本發(fā)明人提出一種通過博客網(wǎng)站來進行性別預測的方法以解決以上的問題。技術實現(xiàn)要素:根據(jù)上述
背景技術
的問題,本發(fā)明用來解決無法得知瀏覽一博客網(wǎng)站的使用者性別的問題。根據(jù)上述
背景技術
的問題,本發(fā)明用來解決無法針對用戶播放適當信息及廣告內(nèi)容的問題?;谏鲜瞿康?,本發(fā)明提供一種利用網(wǎng)頁瀏覽行為的性別預測方法,適用于博客網(wǎng)站,此博客網(wǎng)站架設在網(wǎng)站服務器上,網(wǎng)站服務器分別存儲多個第一用戶的性別數(shù)據(jù)以及多個第一使用者登錄陸博客網(wǎng)站時的網(wǎng)頁瀏覽信息,性別預測方法包含下列步驟:離散化多個第一用戶的連續(xù)特征以形成至少一離散特征,連續(xù)特征可包含連續(xù)數(shù)值。根據(jù)至少一離散特征以及多個第一特征產(chǎn)生多個測試特征,多個第一特征包含文章類別、登錄來源網(wǎng)址、文章瀏覽信息及登錄博客網(wǎng)站時的前一網(wǎng)站信息。計算對應多個測試特征的多個男性比例以及多個女性比例。將第二使用者瀏覽博客網(wǎng)站時的多個第二特征代入至分類器,由分類器依據(jù)多個男性比例以及多個女性比例計算第二使用者的性別比例。多個第一使用者以及多個第二使用者通過博客網(wǎng)站瀏覽網(wǎng)頁兩次以上。優(yōu)選地,本發(fā)明的性別預測方法進一步包含利用一拉普拉斯平滑(LaplaceSmoothing)以正規(guī)化男性比例以及女性比例。優(yōu)選地,分類器可包含單純貝氏分類器(BayesClassifier)。優(yōu)選地,登錄來源網(wǎng)址可包含國別信息或組織信息。優(yōu)選地,文章瀏覽信息可包含作者信息。優(yōu)選地,連續(xù)特征可為瀏覽博客網(wǎng)站的時間。優(yōu)選地,本發(fā)明的性別預測方法進一步包含利用假設檢驗方法以減少多個第一特征的個數(shù),假設檢驗方法可為卡方檢驗測試(chi-squaretest)。優(yōu)選地,登錄博客網(wǎng)站時的前一網(wǎng)站信息可包含不同于博客網(wǎng)站的外部網(wǎng)頁以及在博客網(wǎng)站內(nèi)的另一網(wǎng)頁。優(yōu)選地,本發(fā)明的性別預測方法進一步包含根據(jù)性別比例以實時變動博客網(wǎng)站內(nèi)廣告的內(nèi)容、版面的設計以及推薦的文章。附圖說明圖1為根據(jù)本發(fā)明的性別預測方法的流程圖。圖2為根據(jù)本發(fā)明另一實施例的性別預測方法的第一示意圖。圖3為根據(jù)本發(fā)明另一實施例的性別預測方法的第二示意圖。具體實施方式為了解本發(fā)明的特征、內(nèi)容與優(yōu)點及其所能達成的功效,茲將本發(fā)明配合附圖,并以實施例的表達形式詳細說明如下,而其中所使用的圖式,其主旨僅為示意及輔助說明書之用,未必為本發(fā)明實施后的真實比例與精準配置,故不應就所附的附圖的比例與配置關系解讀、局限本發(fā)明于實際實施上的權(quán)利范圍。本發(fā)明的優(yōu)點、特征以及達到的技術方法將參照例示性實施例及所附圖式進行更詳細地描述而更容易理解,且本發(fā)明或可以不同形式來實現(xiàn),故不應被理解僅限于此處所陳述的實施例,相反地,對本領域技術人員而言,所提供的實施例將更加透徹與全面且完整地傳達本發(fā)明的范疇,且本發(fā)明將僅為所附加的權(quán)利要求所定義。如圖1所示,為根據(jù)本發(fā)明的性別預測方法的流程圖。如圖1所示,此利用網(wǎng)頁瀏覽行為的性別預測方法適用于博客網(wǎng)站,此博客網(wǎng)站安裝在網(wǎng)站服務器上,網(wǎng)站服務器可為工作站主機或是計算機主機且其可用存儲多個第一用戶的性別數(shù)據(jù)以及多個第一使用者登錄博客網(wǎng)站時的網(wǎng)頁瀏覽信息,其性別數(shù)據(jù)可以在第一用戶加入此博客網(wǎng)站的會員時加以記錄,而在每一次此第一使用者登錄此博客網(wǎng)站之后,在其瀏覽網(wǎng)頁時同時存儲此第一用戶的瀏覽記錄,如其IP位置、點擊的網(wǎng)頁等等。而本發(fā)明的性別預測方法包含下列步驟。步驟S11,離散化多個第一用戶的一連續(xù)特征以形成至少一離散特征,其中此連續(xù)特征可包含一連續(xù)數(shù)值,如登錄的時間或是瀏覽網(wǎng)頁的時間總和。步驟S12,根據(jù)至少一離散特征以及多個第一特征產(chǎn)生多個測試特征,其中此多個第一特征可包含文章類別、登錄來源網(wǎng)址、文章瀏覽信息及登錄博客網(wǎng)站時的前一網(wǎng)站信息,登錄來源網(wǎng)址可包含國別信息(如.tw或cn)或組織信息(如com或org),文章瀏覽信息可包含作者信息,登錄博客網(wǎng)站時的前一網(wǎng)站信息可包含不同于博客網(wǎng)站的外部網(wǎng)頁,即通過外部網(wǎng)頁鏈接至此博客網(wǎng)站,以及在博客網(wǎng)站內(nèi)的另一網(wǎng)頁,即通過此博客網(wǎng)站的另一網(wǎng)頁而鏈接此目前瀏覽的網(wǎng)頁。步驟S13,計算對應多個測試特征的多個男性比例以及多個女性比例,并將多個男性比例以及多個女性比例代入分類器。步驟S14,將一第二使用者瀏覽博客網(wǎng)站時的多個第二特征代入至分類器,并由分類器依據(jù)多個男性比例以及多個女性比例計算第二使用者的性別比例。其中此分類器可以為單純貝氏分類器(BayesClassifier),并且此多個第二特征包含于多個測試特征內(nèi),并且多個第一使用者以及多個第二使用者通過博客網(wǎng)站瀏覽網(wǎng)頁兩次以上。在本發(fā)明的性別預測方法中更可以包含根據(jù)步驟14所計算出的性別比例以實時變動博客網(wǎng)站內(nèi)廣告的內(nèi)容、版面的設計以及推薦的文章。本發(fā)明的性別預測方法更可包含利用一假設檢驗方法以減少多個第一特征的個數(shù),其中此假設檢驗方法可為卡方檢驗測試(chi-squaretest)。通過上述可以得知,本發(fā)明的性別預測方法可以通過已注冊在博客網(wǎng)站上會員的網(wǎng)頁瀏覽行為,來預測瀏覽此博客網(wǎng)站的非會員使用者的性別,并根據(jù)所預測到的性別立即產(chǎn)生與使用者性別有關的內(nèi)容、廣告等等,以具體改進傳統(tǒng)博客網(wǎng)站無法針對用戶播放適當信息及廣告內(nèi)容的問題。本發(fā)明的另一優(yōu)選實施例以一博客網(wǎng)站的登錄會員及非登錄會員來舉例實施,其中此博客網(wǎng)站架設在網(wǎng)站服務器上。此網(wǎng)站服務器中記錄了會員登錄此博客網(wǎng)站時的瀏覽信息,包含會員的姓名、性別、年紀、工作性質(zhì)、年紀以及其國別、登錄的ip地址、使用的瀏覽器、在此博客網(wǎng)站所瀏覽的頁面、瀏覽的博客文章及其類別、登錄時間、瀏覽網(wǎng)頁的博客文章的前后網(wǎng)頁等等信息。表一說明五個會員(p1~p5)登錄此博客網(wǎng)站時所被記錄的瀏覽文章類別與登錄時間,如表一所示,p1、p2為男性使用者,而p3~p5則均為女性使用者。值得一提的是,表一的內(nèi)容為已經(jīng)過離散化的記錄結(jié)果,此離散化的方式為根據(jù)將一天的登錄時間切割為24等分,即以小時來進行區(qū)分,并記錄每小時內(nèi)會員所瀏覽的文章類別,如p1的男性使用者曾在06:00AM以及07:00AM的時間區(qū)段瀏覽有關“財經(jīng)”及“運動”類別的文章,而p3的女性使用者曾在03:00PM及04:00PM分別瀏覽“美妝”以及“美妝”與“旅游”類別的文章。然而表一中所挑選的“瀏覽文章類別”與“登錄時間”僅為舉例實施,但不以此為限,亦可以以其他用戶瀏覽行為的特征來舉例實施,如所觀看博客文章的作者、類別、瀏覽一網(wǎng)頁時的前一個網(wǎng)頁信息或是國別(即以ip來進行推定)。表一使用者類別登錄時間p1(男)財經(jīng)06:00AMp1運動07:00AMp2(男)運動08:00AMp2旅游06:00AMp3(女)旅游04:00PMp3美妝04:00PMp3美妝03:00PMp4(女)旅游06:00AMp4運動03:00PMp5(女)美妝05:00PMp5美妝05:00PM表二為利用表一所整理出來的特征特性表,其中以特征“hour_6”的特征來說,在男性特性“2/2”“表示在2個男性會員中,此2個男性會員均有在6:00時登錄”,而在女性特性“1/3”則“表示在3個女性會員中,只有一個會員會在6:00時登錄”,此計算方式即計算“瀏覽文章類別”與“登錄時間”相對于“性別”的條件機率值,其他特征與其所對應的男性特性以及女性特性的表示內(nèi)容等同于特征“our_6”與其所對應的男性特性以及女性特性的內(nèi)容,故在此不進行贅述。表二特征男性比例女性比例hour_62/21/3hour_71/20/3hour_81/20/3hour_150/22/3hour_160/21/3hour_170/21/3cate_財金1/20/3cate_運動2/21/3cate_旅游1/21/3cate_美妝0/22/3進一步地,可將表二進行拉普拉斯平滑(LaplaceSmoothing)以正規(guī)化男性比例以及女性比例以形成如下的表三,此拉普拉斯平滑正規(guī)化方式利用分子加1以及分母加2的方式來加以進行運算。表三在建立表三內(nèi)的男性比例以及女性比例之后,網(wǎng)站服務器可將此結(jié)果存儲于其內(nèi)部的存儲單元內(nèi),其中此存儲單元可以為一物理內(nèi)存或是一硬盤。當有一非會員的使用者瀏覽此博客網(wǎng)站時,網(wǎng)站服務器可以利用表三所存儲的男性比例以及女性比例來預測此非會員使用者的性別。舉例來說,當一非會員使用者p6瀏覽此博客網(wǎng)站時,若是其分別在06:30AM以及07:15AM瀏覽了運動以及旅游的文章類別時,則此時用戶p6被記錄的“瀏覽文章類別”與“登錄時間”可離散化成如表四所示。表四使用者類別登錄時間p6運動6p6旅游7在本實施例中利用單純貝氏分類器(BayesClassifier)作為分類器使用,其公式如下所述:,P(x|yj)=Пi=n(P(i|yj)×xi+(1-xi)(1-P(i|yi))),i∈{1,2,~n}其中,為了方便計算,我們將其以上公式取對數(shù)進行計算,而根據(jù)以上兩個公式,我們可以分別計算出使用者p6為男性的分數(shù)為-2.3(log(2/5)+log(3/4)+log(2/4)+log(1-2/4)+log(1-1/4)+log(1-1/4)+log(1-1/4)+log(1-2/4)+log(3/4)+log(2/4)+log(1-1/4)~=-2.3),其中第一個(2/5)表示五個使用者中為男性的機率,為女性的分數(shù)為-3.54(log(3/5)+log(2/5)+log(1/5)+log(1-1/5)+log(1-3/5)+log(1-2/5)+log(1-2/5)+log(1-1/5)+log(2/5)+log(2/5)+log(1-3/5)~=-3.54),其中第一個(3/5)表示五個使用者中為女性的機率,而由于男性的分數(shù)較高,故通過本發(fā)明的性別預測方法可預測使用者p6的性別為一男性。而在網(wǎng)站服務器計算出使用者p6為男性之后,其便可以將使用者p6正在瀏覽的網(wǎng)頁畫面進行更新,如更新成有關男性使用者的廣告內(nèi)容,包含運動器材、3C用品或是汽車廣告等等,或是更新成男性使用者有興趣的博客文章,以增加p6停留在此博客網(wǎng)站的瀏覽時間,進而增加博客網(wǎng)站的點擊率或是人氣。而值得一提的是,本發(fā)明所使用的使用者p1~p6的網(wǎng)頁瀏覽記錄指其必須在此博客網(wǎng)站瀏覽網(wǎng)頁兩次以上,換句話說,使用者必須停留在此博客網(wǎng)站并進行最少一次的頁面切換動作,若是使用者點擊至此博客網(wǎng)站后而直接離開此博客網(wǎng)站者,則此種網(wǎng)頁瀏覽記錄將不被使用于本發(fā)明的內(nèi)。如圖2和圖3所示,是根據(jù)本發(fā)明另一實施例的性別預測方法的第一示意圖及第二示意圖。在此實施例中,博客網(wǎng)站100架設在網(wǎng)站服務器101上,其中此網(wǎng)站服務器101可包含計算機主機、工作站或是服務器。如圖2所示,當?shù)诙脩?0利用計算機瀏覽至本發(fā)明的博客網(wǎng)站100的網(wǎng)頁時,若是此第二使用者20并未以會員的身份登錄至此博客網(wǎng)站100內(nèi),且其在此博客網(wǎng)站100上瀏覽至少兩個以上頁面時,此時網(wǎng)站服務器101可以通過網(wǎng)絡接收第二用戶20點擊網(wǎng)頁時所送出的封包,以得知第二使用者20瀏覽網(wǎng)頁時的多個第二特征21,其中此第二特征21可包含登錄的時間、文章類別、登錄來源網(wǎng)址以及所瀏覽文章的類別、作者及其他相關信息等。如圖3所示,當網(wǎng)站服務器101接收到此第二特征21后,利用本發(fā)明的性別預測方法即可預測出目前瀏覽此博客網(wǎng)站100的第二使用者20的性別為何,而其利用第一用戶的網(wǎng)頁瀏覽信息進行預測的計算方式已于上述實施例公開,故在此不進行贅述。而當預測出第二使用者20的性別為女性時,則此時博客網(wǎng)站100便可以傳送更新頁面22,包含女性的廣告頁面、博客文章頁面,或是更新為較柔合的版面設計至第二使用者20正在瀏覽的頁面上,以增加此第二使用者20在此博客網(wǎng)站100的停留時間或是點擊率。盡管本發(fā)明的內(nèi)容已經(jīng)通過上述優(yōu)選實施例作了詳細介紹,但應當認識到上述的描述不應被認為是對本發(fā)明的限制。在本領域技術人員閱讀了上述內(nèi)容后,對于本發(fā)明的多種修改和替代都將是顯而易見的。因此,本發(fā)明的保護范圍應由所附的權(quán)利要求來限定。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1