一種微博用戶交互式性別識別方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及自然語言處理和社交網絡領域,尤其涉及一種微博用戶交互式性別識 別方法及裝置。
【背景技術】
[0002] 互聯(lián)網的開放性、虛擬性與共享性使其漸漸成為人們表達觀點、態(tài)度、感覺、情緒 等各種情感的公共平臺,并且產生大量的社交網站,同時微型博客(Microblog)也隨之產 生,成為又一個跨時代產品。用戶通過微博發(fā)表的文本中蘊含了大量的信息,且越來越多的 研宄工作開始關注微博,其中重要的一類研宄是微博用戶性別類別。
[0003] 所謂微博用戶性別類別,就是通過對微博用戶的信息和關系數(shù)據進行決策樹分 析、相關性分析和關聯(lián)規(guī)則來挖掘用戶性別特征,并根據這些特征來對單個用戶的性別類 別進行分類。然而目前的研宄工作主要集中在通過用戶的注冊信息,對單個用戶的性別進 行預測。
【發(fā)明內容】
[0004] 有鑒于此,本發(fā)明提供一種微博用戶交互式性別識別方法和裝置,通過用戶之間 的交互文本信息,對用戶的性別進行預測。
[0005] 為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
[0006] 一種微博用戶交互式性別識別方法,包括:
[0007] 獲取微博用戶的個人資料信息和用戶之間的交互文本信息;
[0008] 根據所述個人資料信息,對用戶之間的交互文本信息對交互式性別類別進行標 注,其中所述交互式性別類別包括:女對女、女對男、男對女和男對男;
[0009] 將已經標注的所述交互文本信息作為訓練樣本,并利用所述訓練樣本建立最大熵 分類器;
[0010] 利用所述最大熵分類器對測試樣本的交互文本信息進行交互式性別類別,以對測 試樣本性別進行識別。
[0011] 優(yōu)選的,所述獲取微博用戶的個人資料信息和用戶之間的交互文本信息,包括:
[0012] 構建一個用戶隊列;
[0013] 從用戶隊列取出一個種子用戶,抓取種子用戶個人資料信息和種子用戶與其他用 戶之間的交互文本信息,其中所述用戶個人資料信息包括用戶名、用戶ID、性別、及關注用 戶和粉絲用戶,并將關注用戶和粉絲用戶加入到用戶隊列中;
[0014] 反復抓取多個種子用戶,直到抓取的種子用戶數(shù)目達到設定數(shù)值。
[0015] 優(yōu)選的,所述根據所述個人資料信息,對用戶之間的交互文本信息對交互式性別 類別進行標注,包括:
[0016] 根據所述個人資料信息中的性別信息對用戶之間的交互文本信息進行交互時性 別類別進行標注。
[0017] 優(yōu)選的,所述將進行標注的所述交互文本信息作為訓練樣本,并利用所述訓練樣 本建立最大摘分類器,包括:
[0018] 利用所述訓練樣本及Mallet提供的最大熵工具包構建最大熵分類器。
[0019] -種微博用戶交互式性別識別裝置,包括:
[0020] 信息采集模塊,用于獲取微博用戶的個人資料信息和用戶之間的交互文本信息;
[0021] 交互式性別類別標注模塊,用于根據所述個人資料信息,對用戶之間的交互文本 信息對交互式性別類別進行標注,其中所述交互式性別類別包括:女對女、女對男、男對女 和男對男;
[0022] 分類器構建模塊,用于將已經標注的所述交互文本信息作為訓練樣本,并利用所 述訓練樣本建立最大熵分類器;
[0023] 測試樣本性別識別模塊,用于利用所述最大熵分類器對測試樣本的交互文本信息 進行交互式性別類別,以對測試樣本性別進行識別。
[0024] 優(yōu)選的,所述信息采集模塊包括:
[0025] 用戶列隊構建單元,用于構建一個用戶隊列;
[0026] 種子用戶選定單元,用于從用戶隊列取出一個種子用戶,抓取種子用戶個人資料 信息和種子用戶與其他用戶之間的交互文本信息,其中所述用戶個人資料信息包括用戶 名、用戶ID、性別、及關注用戶和粉絲用等,并將關注用戶和粉絲用戶加入到用戶隊列中; 反復抓取多個種子用戶,直到抓取的種子用戶數(shù)目達到設定數(shù)值。
[0027] 優(yōu)選的,所述交互式性別類別標注模塊包括:
[0028] 類別標注子模塊,用于根據所述個人資料信息中的性別信息對用戶之間的交互文 本信息進行交互時性別類別進行標注。
[0029] 優(yōu)選的,所述分類器構建模塊包括:
[0030] 分類器構建子模塊,用于利用所述訓練樣本及Mallet提供的最大熵工具包構建 最大摘分類器。
[0031 ] 經由上述的技術方案可知,與現(xiàn)有技術相比,本方案公開了 一種微博用戶交互式 性別識別方法及裝置。該方法基于微博中用戶之間的交互文本,用以識別某兩個交互的微 博用戶的交互式性別是女對女、女對男、男對女還是男對男。首先,獲取微博用戶的個人資 料信息和用戶之間的交互微博文本,并利用交互用戶個人資料中的性別信息對交互文本的 交互式性別類別進行標注;然后利用標注好的用戶之間的交互文本作為訓練樣本,并利用 訓練樣本訓練最大熵分類器;最后,對某測試交互用戶集進行分類。綜合來看,本發(fā)明可以 利用交互文本對微博中的兩個交互用戶的交互式性別進行識別,且在訓練樣本數(shù)量有限的 情況下,達到較高的準確率。
【附圖說明】
[0032] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據 提供的附圖獲得其他的附圖。
[0033] 圖1示出了本發(fā)明一種微博用戶交互式性別識別方法的一個實施例的流程示意 圖;
[0034] 圖2示出了本發(fā)明一種微博用戶交互式性別識別裝置的一個實施例的結構示意 圖。
【具體實施方式】
[0035] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領域普通技術人員