一種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法、裝置及系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝艘环N互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法、裝置及系統(tǒng),互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法使用最大熵分類器計算每個詞特征對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率;確定待測樣本的類別為正或負或客觀,實現(xiàn)了使用最大熵分類器對待測樣本類別的預(yù)測。在待測樣本的類別為正時,確定出待測樣本的發(fā)言者的學歷類型為大專以上,在待測樣本的類別為負時,確定出待測樣本的發(fā)言者的學歷類型為高中及中專,在待測樣本的類別為客觀時,確定待測樣本的發(fā)言者的學歷類型為初中以下,從而實現(xiàn)了對互聯(lián)網(wǎng)用戶的學歷類型的識別。
【專利說明】
一種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法、裝置及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本申請涉及自然語言處理及社交網(wǎng)絡(luò)領(lǐng)域,特別涉及一種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方 法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002] 近幾年來,隨著互聯(lián)網(wǎng)的迅猛發(fā)展,社交網(wǎng)絡(luò)產(chǎn)品越來越多,如微博、論壇和貼吧 等。社交網(wǎng)絡(luò)產(chǎn)品的出現(xiàn)使得互聯(lián)網(wǎng)用戶由被動地接受互聯(lián)網(wǎng)信息向主動創(chuàng)造互聯(lián)網(wǎng)信息 轉(zhuǎn)變,互聯(lián)網(wǎng)用戶既可以在社交網(wǎng)絡(luò)產(chǎn)品上發(fā)表自己的言論,也可以評論其他用戶發(fā)表的 內(nèi)容,使得社交網(wǎng)絡(luò)產(chǎn)品既具有媒體傳播特性,又具有社交網(wǎng)絡(luò)特性。
[0003] 目前,社交網(wǎng)絡(luò)產(chǎn)品具備的媒體傳播特性和社交網(wǎng)絡(luò)特性,吸引了眾多研究人員 對社交網(wǎng)絡(luò)產(chǎn)品上的用戶數(shù)據(jù)進行分析研究。其中,對社交網(wǎng)絡(luò)產(chǎn)品上的用戶數(shù)據(jù)進行分 析研究中,識別用戶的學歷類型是比較重要的,因為能夠識別出互聯(lián)網(wǎng)用戶的學歷類型將 有利于社交網(wǎng)絡(luò)產(chǎn)品企業(yè)制定精準的廣告投放及進行相關(guān)分析,以此來幫助社交網(wǎng)絡(luò)產(chǎn)品 企業(yè)更好的開發(fā)社交網(wǎng)絡(luò)產(chǎn)品。
[0004] 但是,目前尚不存在一種行之有效的方法來識別出互聯(lián)網(wǎng)用戶的學歷類型。
【發(fā)明內(nèi)容】
[0005] 為解決上述技術(shù)問題,本申請實施例提供一種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法、裝置及 系統(tǒng),以達到實現(xiàn)對互聯(lián)網(wǎng)用戶的學歷類型的識別的目的,技術(shù)方案如下:
[0006] -種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法,包括:
[0007] 分別對待測樣本中的各個語句進行分詞,得到多個詞特征,其中,所述待測樣本為 互聯(lián)網(wǎng)用戶發(fā)表的內(nèi)容;
[0008] 使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負類和客觀類 時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件 概率,所述最大熵分類器為使用發(fā)言者為大專以上學歷的正類樣本、發(fā)言者為高中及中專 學歷的負類樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的;
[0009] 將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算,得到待分類正預(yù)測條 件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算,得到待分類負預(yù)測條 件概率,及將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運算,得到待分類客觀 預(yù)測條件概率;
[0010]比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和所述待分類客觀 預(yù)測條件概率的大小;
[0011] 在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情況下,確定所述待測樣本的類 別為正;
[0012] 在比較結(jié)果為所述待分類負預(yù)測條件概率最大的情況下,確定所述待測樣本的類 別為負;
[0013] 在比較結(jié)果為所述待分類客觀預(yù)測條件概率最大的情況下,確定所述待測樣本的 類別為客觀;
[0014] 在所述待測樣本的類別為正時,確定所述待測樣本的發(fā)言者的學歷類型為大專以 上;
[0015] 在所述待測樣本的類別為負時,確定所述待測樣本的發(fā)言者的學歷類型為高中及 中專;
[0016] 在所述待測樣本的類別為客觀時,確定所述待測樣本的發(fā)言者的學歷類型為初中 以下。
[0017]優(yōu)選的,所述使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負 類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀 預(yù)測子條件概率的過程,包括:
[0018] 使用最大熵目標函數(shù)公式
,分別計算每個詞特征在a 分別為+1、-1和〇時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類 客觀預(yù)測子條件概率,其中,該a為待測樣本預(yù)設(shè)類別,該b為詞特征,PUalb)為待分類預(yù)測 子條件概率,exp()為自然數(shù)e為底的指數(shù)函數(shù),fd )為二值特征函數(shù),所述
為特征函數(shù)值fi(a,b)在a為+1時的正最優(yōu)權(quán)值或在a為-1時的負最 優(yōu)權(quán)值或在a為0時的客觀最優(yōu)權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,
個詞特征對應(yīng)的k個特征函數(shù)值進行求和的函數(shù),k等于3,i = l, 2,…,k,為對a為不同值 時對應(yīng)的數(shù)據(jù)進行求和的函數(shù);
[0019] 其中,所述a為+1表示所述待測樣本預(yù)設(shè)為正類,所述a為-1表示所述待測樣本預(yù) 設(shè)為負類,所述a為0表示所述待測樣本預(yù)設(shè)為客觀類,在計算待分類正預(yù)測子條件概率時, 若詞特征包含在預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的正最優(yōu)權(quán)值,否則λ為〇,在計算 待分類負預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng) 的負最優(yōu)權(quán)值,否則λ為0,在計算待分類客觀預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè) 詞特征集合中,則λ為該詞特征對應(yīng)的客觀最優(yōu)權(quán)值,否則λ為0。
[0020] 優(yōu)選的,所述最大熵分類器的訓練過程包括:
[0021] 獲取多個不同的正類樣本、多個不同的負類樣本和多個不同的客觀類樣本;
[0022] 分別對各個所述正類樣本中的各個語句、各個所述負類樣本中的各個語句和各個 所述客觀類樣本中的各個語句進行分詞,得到多個訓練詞特征;
[0023]
,分別計算每個訓練詞特征在a分別為+1、_ 1和0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概率;
[0024] 其中,該a為訓練樣本預(yù)設(shè)類別,該b為訓練詞特征,PUa|b)為預(yù)測條件概率,exp 0為自然數(shù)e為底的指數(shù)函數(shù),f i ()為二值特征函數(shù),
,λ?為特征函數(shù)值fi (a,b)的權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,
為對每個訓練詞特征對應(yīng)的k 個特征函數(shù)值進行求和的函數(shù),k等于3,i = l,2,~,k
為對a為不同值時對應(yīng)的數(shù)據(jù)進行 求和的函數(shù),所述\的初始值已知;
[0025] 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概率,直至每個訓練詞特征 各自的正預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的正預(yù)測條件概率對應(yīng)的λ作 為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值;
[0026] 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概率,直至每個訓練詞特征 各自的負預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的負預(yù)測條件概率對應(yīng)的λ作 為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值;
[0027] 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件概率,直至每個訓練詞特 征各自的客觀預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的客觀預(yù)測條件概率對應(yīng) 的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的客觀最優(yōu)權(quán)值。
[0028] 優(yōu)選的,分別對待測樣本中的各個語句進行分詞,得到多個詞特征的過程,包括: [0029]利用FudanNLP-1.6.1工具分別對待測樣本中的各個語句進行分詞,得到多個詞特 征。
[0030] 優(yōu)選的,所述待測樣本為互聯(lián)網(wǎng)用戶在微博上發(fā)表的內(nèi)容。
[0031] 優(yōu)選的,所述待測樣本為互聯(lián)網(wǎng)用戶在貼吧上發(fā)表的內(nèi)容。
[0032] 一種學歷類型分類裝置,包括:
[0033] 第一分詞單元,用于分別對待測樣本中的各個語句進行分詞,得到多個詞特征,其 中,所述待測樣本為互聯(lián)網(wǎng)用戶發(fā)表的內(nèi)容;
[0034] 第一計算單元,用于使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為 正類、負類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分 類客觀預(yù)測子條件概率,所述最大熵分類器為使用發(fā)言者為大專以上學歷的正類樣本、發(fā) 言者為高中及中專學歷的負類樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的;
[0035] 第二計算單元,用于將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算, 得到待分類正預(yù)測條件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算, 得到待分類負預(yù)測條件概率,及將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運 算,得到待分類客觀預(yù)測條件概率;
[0036] 比較單元,用于比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和 所述待分類客觀預(yù)測條件概率的大小,在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情 況下,觸發(fā)第一確定單元確定所述待測樣本的類別為正,在比較結(jié)果為所述待分類負預(yù)測 條件概率最大的情況下,觸發(fā)第二確定單元確定所述待測樣本的類別為負,在比較結(jié)果為 所述待分類客觀預(yù)測條件概率最大的情況下,觸發(fā)第三確定單元確定所述待測樣本的類別 為客觀;
[0037] 第四確定單元,用于在所述待測樣本的類別為正時,確定所述待測樣本的發(fā)言者 的學歷類型為大專以上;
[0038] 第五確定單元,用于在所述待測樣本的類別為負時,確定所述待測樣本的發(fā)言者 的學歷類型為高中及中專;
[0039]第六確定單元,用于在所述待測樣本的類別為客觀時,確定所述待測樣本的發(fā)言 者的學歷類型為初中以下。
[0040]優(yōu)選的,所述第一計算單元包括:
[0041 ]第一計算子單元,用于使用最大熵目標函數(shù)公式
別計算每個詞特征在a分別為+1、_1和0時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測 子條件概率和待分類客觀預(yù)測子條件概率,其中,該a為待測樣本預(yù)設(shè)類別,該b為詞特征, PUa|b)為待分類預(yù)測子條件概率,expO為自然數(shù)e為底的指數(shù)函數(shù),為二值特征函數(shù),
,為特征函數(shù)值fi (a,b)在a為+1時的正最優(yōu)權(quán)值或在a為-1時的 負最優(yōu)權(quán)值或在a為0時的客觀最優(yōu)權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同
對每個詞特征對應(yīng)的k個特征函數(shù)值進行求和的函數(shù),k等于3,i = 1,2,…,k,
為對a為不 同值時對應(yīng)的數(shù)據(jù)進行求和的函數(shù);
[0042]其中,所述a為+1表示所述待測樣本預(yù)設(shè)為正類,所述a為-1表示所述待測樣本預(yù) 設(shè)為負類,所述a為0表示所述待測樣本預(yù)設(shè)為客觀類,在計算待分類正預(yù)測子條件概率時, 若詞特征包含在預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的正最優(yōu)權(quán)值,否則λ為〇,在計算 待分類負預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng) 的負最優(yōu)權(quán)值,否則λ為0,在計算待分類客觀預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè) 詞特征集合中,則λ為該詞特征對應(yīng)的客觀最優(yōu)權(quán)值,否則λ為0。
[0043]優(yōu)選的,所述第一分詞單元包括:
[0044] 分詞子單元,用于利用FudanNLP-1.6.1工具分別對待測樣本中的各個語句進行分 詞,得到多個詞特征。
[0045] -種學歷類型分類系統(tǒng),包括:最大熵分類器訓練裝置和如上述任意一項所述的 學歷類型分類裝置,其中所述最大熵分類器訓練裝置包括:獲取單元、第二分詞單元、第三 計算單元、第四計算單元和第五計算單元;
[0046] 所述獲取單元,用于獲取多個不同的正類樣本、多個不同的負類樣本和多個不同 的客觀類樣本;
[0047] 所述第二分詞單元,用于分別對各個所述正類樣本中的各個語句、各個所述負類 樣本中的各個語句和各個所述客觀類樣本中的各個語句進行分詞,得到多個訓練詞特征;
[0048]第三計算單元,用于依據(jù)公式
,分別計算每個訓練詞 特征在a分別為+1、_1和0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概 率;
[0049]其中,該a為訓練樣本預(yù)設(shè)類別,該b為訓練詞特征,PUa|b)為預(yù)測條件概率,exp ()為自然數(shù)e為底的指數(shù)函數(shù),f i ()為二值特征函數(shù)
,λ?為特征函數(shù)值f i (a,b)的權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同
為對每個訓練詞特征對應(yīng)的k 個特征函數(shù)值進行求和的函數(shù),k等于3,i = l,2,~,k,為對a為不同值時對應(yīng)的數(shù)據(jù)進行 求和的函數(shù),所述\的初始值已知;
[0050] 所述第四計算單元,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概 率,直至每個訓練詞特征各自的正預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的正 預(yù)測條件概率對應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值;
[0051] 所述第五計算單元,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概 率,直至每個訓練詞特征各自的負預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的負 預(yù)測條件概率對應(yīng)的Μ乍為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值;
[0052] 第六計算單元,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件概 率,直至每個訓練詞特征各自的客觀預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的 客觀預(yù)測條件概率對應(yīng)的Μ乍為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的客觀最優(yōu)權(quán)值。 [0053]與現(xiàn)有技術(shù)相比,本申請的有益效果為:
[0054]在本申請中,使用最大熵分類器計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負 類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀 預(yù)測子條件概率;將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算,得到待分類 正預(yù)測條件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算,得到待分類 負預(yù)測條件概率,將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運算,得到待分 類客觀預(yù)測條件概率;比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和所 述待分類客觀預(yù)測條件概率的大小;在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情況 下,確定所述待測樣本的類別為正;在比較結(jié)果為所述待分類負預(yù)測條件概率最大的情況 下,確定所述待測樣本的類別為負,在比較結(jié)果為所述待分類客觀預(yù)測條件概率最大的情 況下,確定所述待測樣本的類別為客觀,實現(xiàn)了使用最大熵分類器對待測樣本類別的預(yù)測。 [0055]在預(yù)測出待測樣本的類別為正時,確定出待測樣本的發(fā)言者的學歷類型為大專以 上,在預(yù)測出待測樣本的類別為負時,確定出待測樣本的發(fā)言者的學歷類型為高中及中專, 在預(yù)測出待測樣本的類別為客觀時,確定待測樣本的發(fā)言者的學歷類型為初中以下,從而 實現(xiàn)了對互聯(lián)網(wǎng)用戶的學歷類型的識別。
【附圖說明】
[0056]為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。
[0057]圖1是本申請?zhí)峁┑幕ヂ?lián)網(wǎng)用戶數(shù)據(jù)處理方法的一種流程圖;
[0058] 圖2是本申請?zhí)峁┑淖畲箪胤诸惼鞯挠柧毜囊环N流程圖;
[0059] 圖3是本申請?zhí)峁┑膶W歷類型分類裝置的一種邏輯結(jié)構(gòu)示意圖;
[0060] 圖4是本申請?zhí)峁┑膶W歷類型分類系統(tǒng)的一種邏輯結(jié)構(gòu)示意圖。
【具體實施方式】
[0061] 下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;?本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本申請保護的范圍。
[0062] 實施例一
[0063]請參見圖1,其示出了本申請?zhí)峁┑幕ヂ?lián)網(wǎng)用戶數(shù)據(jù)處理方法的一種流程圖,可以 包括以下步驟:
[0064] 步驟S11:分別對待測樣本中的各個語句進行分詞,得到多個詞特征。
[0065] 其中,所述待測樣本為互聯(lián)網(wǎng)用戶發(fā)表的內(nèi)容。
[0066] 在本實施例中,由于對待測樣本中各個語句進行分詞的過程相同,因此僅對待測 樣本中任意一個語句進行分詞的過程進行說明,例如,對"今天我非常高興"進行分詞,則分 詞后得到的詞特征分別為"今天"、"我"、"非常"、"高興"。
[0067] 步驟S12:使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負類 和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù) 測子條件概率。
[0068]在本實施例中,最大熵分類器為使用發(fā)言者為大專以上學歷的正類樣本、發(fā)言者 為高中及中專學歷的負類樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的。
[0069]其中,使用發(fā)言者為大專以上學歷的正類樣本、發(fā)言者為高中及中專學歷的負類 樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的最大熵分類器可以對待測樣本的 發(fā)言者的學歷類型進行分類,確定待測樣本的發(fā)言者的學歷類型是大專以上或高中及中專 或初中以下。
[0070]在本實施例中,使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、 負類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客 觀預(yù)測子條件概率的過程即使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正 類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條 件概率,及使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為負類時,對應(yīng)的待分 類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率,及使用最 大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為客觀類時,對應(yīng)的待分類正預(yù)測子條 件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率。
[0071] 步驟S13:將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算,得到待分類 正預(yù)測條件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算,得到待分類 負預(yù)測條件概率,及將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運算,得到待 分類客觀預(yù)測條件概率。
[0072] 步驟S14:比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和所述待 分類客觀預(yù)測條件概率的大小。
[0073] 在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情況下,執(zhí)行步驟S15,在比較結(jié) 果為所述待分類負預(yù)測條件概率最大的情況下,執(zhí)行步驟S16,在比較結(jié)果為所述待分類客 觀預(yù)測條件概率最大的情況下,執(zhí)行步驟S17。
[0074]步驟S15:確定所述待測樣本的類別為正。
[0075] 步驟S16:確定所述待測樣本的類別為負。
[0076] 步驟S17:確定所述待測樣本的類別為客觀。
[0077] 步驟S18:在所述待測樣本的類別為正時,確定所述待測樣本的發(fā)言者的學歷類型 為大專以上。
[0078] 在本實施例中,大專以上具體指大專、大學、碩士或博士。
[0079] 步驟S19:在所述待測樣本的類別為負時,確定所述待測樣本的發(fā)言者的學歷類型 為高中及中專。
[0080] 步驟S110:在所述待測樣本的類別為客觀時,確定所述待測樣本的發(fā)言者的學歷 類型為初中以下。
[0081] 在本實施例中,初中以下具體指初中、小學或小學以下。
[0082] 在本申請中,使用最大熵分類器計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負 類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀 預(yù)測子條件概率;將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算,得到待分類 正預(yù)測條件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算,得到待分類 負預(yù)測條件概率,將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運算,得到待分 類客觀預(yù)測條件概率;比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和所 述待分類客觀預(yù)測條件概率的大小;在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情況 下,確定所述待測樣本的類別為正;在比較結(jié)果為所述待分類負預(yù)測條件概率最大的情況 下,確定所述待測樣本的類別為負,在比較結(jié)果為所述待分類客觀預(yù)測條件概率最大的情 況下,確定所述待測樣本的類別為客觀,實現(xiàn)了使用最大熵分類器對待測樣本類別的預(yù)測。
[0083] 在預(yù)測出待測樣本的類別為正時,確定出待測樣本的發(fā)言者的學歷類型為大專以 上,在預(yù)測出待測樣本的類別為負時,確定出待測樣本的發(fā)言者的學歷類型為高中及中專, 在預(yù)測出待測樣本的類別為客觀時,確定待測樣本的發(fā)言者的學歷類型為初中以下,從而 實現(xiàn)了對互聯(lián)網(wǎng)用戶的學歷類型的識別。
[0084] 進一步的,由于學歷分類結(jié)果是由最大熵分類器根據(jù)待測樣本的全部文本內(nèi)容, 計算所有詞特征的待分類正預(yù)測子條件概率和待分類負預(yù)測子條件概率之后得到的,因此 有效的提高了學歷類型分類性能,使分類正確率更加精確。
[0085] 在本實施例中,分別對待測樣本中的各個語句進行分詞,得到多個詞特征的過程 具體可以為:利用FudanNLP-1.6.1工具分別對待測樣本中的各個語句進行分詞,得到多個 詞特征。
[0086] 在本實施例中,上述待測樣本具體可以但不局限于為互聯(lián)網(wǎng)用戶在微博上發(fā)表的 內(nèi)容或互聯(lián)網(wǎng)用戶在貼吧上發(fā)表的內(nèi)容。
[0087] 在待測樣本為互聯(lián)網(wǎng)用戶在貼吧上發(fā)表的內(nèi)容時,待測樣本具體為貼吧中帖子的 標題和對應(yīng)的用戶評價內(nèi)容。相應(yīng)的,訓練樣本可以為互聯(lián)網(wǎng)用戶在貼吧上發(fā)表的內(nèi)容或 互聯(lián)網(wǎng)用戶在微博上發(fā)表的內(nèi)容。
[0088]在待測樣本為互聯(lián)網(wǎng)用戶在微博上發(fā)表的內(nèi)容時,訓練樣本可以為互聯(lián)網(wǎng)用戶在 貼吧上發(fā)表的內(nèi)容或互聯(lián)網(wǎng)用戶在微博上發(fā)表的內(nèi)容。
[0089] 實施例二
[0090] 在本實施例中,示出的是使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù) 設(shè)為正類、負類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和 待分類客觀預(yù)測子條件概率的具體過程。
[0091] 使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負類和客觀類 時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件 概率的具體過程為:
[0092] 使用最大熵目標函數(shù)公式
,分別計算每個詞特征在a 分別為+1、-1和〇時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類 客觀預(yù)測子條件概率,其中,該a為待測樣本預(yù)設(shè)類別,該b為詞特征,PUa|b)為待分類預(yù)測 子條件概率,exp()為自然數(shù)e為底的指數(shù)函數(shù),fd )為二值特征函數(shù),所述
.,\為特征函數(shù)值fi(a,b)在a為+1時的正最優(yōu)權(quán)值或在a為-1時的負最 優(yōu)權(quán)值或在a為0時的客觀最優(yōu)權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同:
為對每 個詞特征對應(yīng)的k個特征函數(shù)值進行求和的函數(shù),k等于3,i = l, 2,…,k
為對a為不同值 時對應(yīng)的數(shù)據(jù)進行求和的函數(shù)。
[0093] 其中,所述a為+1表示所述待測樣本預(yù)設(shè)為正類,所述a為-1表示所述待測樣本預(yù) 設(shè)為負類,所述a為0表示所述待測樣本預(yù)設(shè)為客觀類,在計算待分類正預(yù)測子條件概率時, 若詞特征包含在預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的正最優(yōu)權(quán)值,否則λ為〇,在計算 待分類負預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng) 的負最優(yōu)權(quán)值,否則λ為0,在計算待分類客觀預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè) 詞特征集合中,則λ為該詞特征對應(yīng)的客觀最優(yōu)權(quán)值,否則λ為0。
[0094] 在本實施例中,使用最大熵目標函數(shù)公式
,分別計算 每個詞特征在a分別為+1、_1和0時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件 概率和待分類客觀預(yù)測子條件概率的具體過程即使用最大熵目標函數(shù)公式
,計算每個詞特征在a分別為+1時,對應(yīng)的待分類正預(yù)測子條 件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率,及使用最大熵目標函數(shù)
,計算每個詞特征在a分別為-1時,對應(yīng)的待分類正預(yù)測 子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率,及使用最大熵目標
,計算每個詞特征在a分別為0時,對應(yīng)的待分類正預(yù) 測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率。
[0095] 在本實施例中,預(yù)設(shè)詞特征集合為在訓練最大熵分類器的過程中,對各個訓練樣 本中的各個語句進行分詞后,得到的詞特征的集合。
[0096] 實施例三
[0097] 在本實施例中,示出的是最大熵分類器的訓練過程,請參見圖2,可以包括以下步 驟:
[0098] 步驟S21:獲取多個不同的正類樣本、多個不同的負類樣本和多個不同的客觀類樣 本。
[0099] 在本實施例中,正類樣本的發(fā)言者的學歷類型為大專以上,負類樣本的發(fā)言者的 學歷類型為高中及中專,客觀類樣本的發(fā)言者的學歷類型為初中以下。即從正類樣本的內(nèi) 容可以確定正類樣本的發(fā)言者的學歷類型是大專以上,從負類樣本的內(nèi)容可以確定負類樣 本的發(fā)言者的學歷類型是高中及中專,從客觀類樣本的內(nèi)容可以確定客觀類樣本的發(fā)言者 的學歷類型是初中以下。
[0100] 其中,正類樣本的發(fā)言者的學歷類型為大專以上,負類樣本的發(fā)言者的學歷類型 為高中及中專,客觀類樣本的發(fā)言者的學歷類型為初中以下,是為了訓練出來的最大熵分 類器可以對待測樣本的發(fā)言者的學歷類型進行分類,確定待測樣本的發(fā)言者的學歷類型是 大專以上或高中及中?;虺踔幸韵隆?br>[0101] 步驟S22:分別對各個所述正類樣本中的各個語句、各個所述負類樣本中的各個語 句和各個所述客觀類樣本中的各個語句進行分詞,得到多個訓練詞特征。
[0102]
,分別計算每個訓練詞特征在a分 別為+1、-1和0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概率。
[0103] 其中,該a為訓練樣本預(yù)設(shè)類別,該b為訓練詞特征,PUa|b)為預(yù)測條件概率,exp 0為自然數(shù)e為底的指數(shù)函數(shù),f i ()為二值特征函數(shù),
,Ai為特征函數(shù)值f i (a,b)的權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,
為對每個訓練詞特征對應(yīng)的k 個特征函數(shù)值進行求和的函數(shù),k等于3,i = l,2,~,k:為對a為不同值時對應(yīng)的數(shù)據(jù)進行 求和的函數(shù),所述\的初始值已知。
[0104] 在本實施例中,
,分別計算每個訓練詞特征 在a分別為+1、_1和0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概率的具 體過程即依據(jù)公式
,分別計算每個訓練詞特征在a分別為+1 時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概率,及依據(jù)公式
,分別計算每個訓練詞特征在a分別為-1時,對應(yīng)的正預(yù)測條 件概率、負預(yù)測條件概率和客觀預(yù)測條件概率,.
分別計算每個訓練詞特征在a分別為0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀 預(yù)測條件概率。
[0105] 步驟S24:利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概率,直至每個訓 練詞特征各自的正預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的正預(yù)測條件概率對 應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值。
[0106] 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概率,直至每個訓練詞特征 各自的正預(yù)測條件概率收斂的原理為已有的原理,在此不再贅述。
[0107] 在本實施例中,每個訓練詞特征值各自的正預(yù)測條件概率收斂即每個訓練詞特征 各自的正預(yù)測條件概率達到最大值。
[0108] 步驟S25:利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概率,直至每個訓 練詞特征各自的負預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的負預(yù)測條件概率對 應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值。
[0109] 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概率,直至每個訓練詞特征 各自的負預(yù)測條件概率收斂的原理為已有的原理,在此不再贅述。
[0110] 在本實施例中,每個訓練詞特征值各自的負預(yù)測條件概率收斂即每個訓練詞特征 各自的負預(yù)測條件概率達到最大值。
[0111] 步驟S26:利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件概率,直至每個 訓練詞特征各自的客觀預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的客觀預(yù)測條件 概率對應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的客觀最優(yōu)權(quán)值。
[0112] 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件概率,直至每個訓練詞特 征各自的客觀預(yù)測條件概率收斂的原理為已有的原理,在此不再贅述。
[0113] 在本實施例中,每個訓練詞特征值各自的客觀預(yù)測條件概率收斂即每個訓練詞特 征各自的客觀預(yù)測條件概率達到最大值。
[0114] 在本實施例中,在得到每個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值、每 個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值及每個訓練詞特征各自對應(yīng)的特征函 數(shù)值的客觀最優(yōu)權(quán)值后
中的λ?為已知值,完成了對最大 熵分類器的訓練。
[0115] 在對待測樣本的發(fā)言者進行學歷類型分類時,即可以使用λ ,已知的
公式(即訓練完成的最大熵分類器)進行分類。
[0116] 實施例四
[0117] 與上述方法實施例相對應(yīng),本實施例提供了一種學歷類型分類裝置,請參見圖3, 學歷類型分類裝置包括:第一分詞單元31、第一計算單元32、第二計算單元33、比較單元34、 第一確定單元35、第二確定單元36、第三確定單元37、第四確定單元38、第五確定單元39和 第六確定單元310。
[0118] 第一分詞單元31,用于分別對待測樣本中的各個語句進行分詞,得到多個詞特征, 其中,所述待測樣本為互聯(lián)網(wǎng)用戶發(fā)表的內(nèi)容。
[0119] 第一計算單元32,用于使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè) 為正類、負類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待 分類客觀預(yù)測子條件概率,所述最大熵分類器為使用發(fā)言者為大專以上學歷的正類樣本、 發(fā)言者為高中及中專學歷的負類樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的。 [0120]第二計算單元33,用于將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運 算,得到待分類正預(yù)測條件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運 算,得到待分類負預(yù)測條件概率,及將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行 乘運算,得到待分類客觀預(yù)測條件概率。
[0121] 比較單元34,用于比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率 和所述待分類客觀預(yù)測條件概率的大小,在比較結(jié)果為所述待分類正預(yù)測條件概率最大的 情況下,觸發(fā)第一確定單元35確定所述待測樣本的類別為正,在比較結(jié)果為所述待分類負 預(yù)測條件概率最大的情況下,觸發(fā)第二確定單元36確定所述待測樣本的類別為負,在比較 結(jié)果為所述待分類客觀預(yù)測條件概率最大的情況下,觸發(fā)第三確定單元37確定所述待測樣 本的類別為客觀。
[0122] 第四確定單元38,用于在所述待測樣本的類別為正時,確定所述待測樣本的發(fā)言 者的學歷類型為大專以上。
[0123] 第五確定單元39,用于在所述待測樣本的類別為負時,確定所述待測樣本的發(fā)言 者的學歷類型為高中及中專。
[0124] 第六確定單元310,用于在所述待測樣本的類別為客觀時,確定所述待測樣本的發(fā) 言者的學歷類型為初中以下。
[0125] 在本實施例中,第一計算單元32具體可以包括:第一計算子單元。
[0126] 第一計算子單元,用于使用最大熵目標函數(shù)公式
別計算每個詞特征在a分別為+1、_1和0時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測 子條件概率和待分類客觀預(yù)測子條件概率,其中,該a為待測樣本預(yù)設(shè)類別,該b為詞特征, PUa|b)為待分類預(yù)測子條件概率,expO為自然數(shù)e為底的指數(shù)函數(shù),為二值特征函數(shù),
Ai為特征函數(shù)值fi (a,b)在a為+1時的正最優(yōu)權(quán)值或在a為-1時的
負最優(yōu)權(quán)值或在a為0時的客觀最優(yōu)權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同
對每個詞特征對應(yīng)的k個特征函數(shù)值進行求和的函數(shù),k等于3,i = 1,2,…,k,為對a為不 同值時對應(yīng)的數(shù)據(jù)進行求和的函數(shù);
[0127] 其中,所述a為+1表示所述待測樣本預(yù)設(shè)為正類,所述a為-1表示所述待測樣本預(yù) 設(shè)為負類,所述a為0表示所述待測樣本預(yù)設(shè)為客觀類,在計算待分類正預(yù)測子條件概率時, 若詞特征包含在預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的正最優(yōu)權(quán)值,否則λ為〇,在計算 待分類負預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng) 的負最優(yōu)權(quán)值,否則λ為0,在計算待分類客觀預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè) 詞特征集合中,則λ為該詞特征對應(yīng)的客觀最優(yōu)權(quán)值,否則λ為0。在本實施例中,第一分詞單 元31具體可以包括:分詞子單元。
[0128] 分詞子單元,用于利用FudanNLP-1.6.1工具分別對待測樣本中的各個語句進行分 詞,得到多個詞特征。
[0129] 實施例五
[0130] 在本實施例中,提供了一種學歷類型分類系統(tǒng),請參見圖4,學歷類型分類系統(tǒng)包 括:最大熵分類器訓練裝置41和學歷類型分類裝置42。
[0131] 學歷類型分類裝置42的具體結(jié)構(gòu)請參見實施例四示出的學歷類型分類裝置,在此 不再贅述。
[0132] 最大熵分類器訓練裝置41具體包括:獲取單元411、第二分詞單元412、第三計算單 元413、第四計算單元414、第五計算單元415和第六計算單元416。
[0133] 獲取單元411,用于獲取多個不同的正類樣本、多個不同的負類樣本和多個不同的 客觀類樣本。
[0134] 第二分詞單元412,用于分別對各個所述正類樣本中的各個語句、各個所述負類樣 本中的各個語句和各個所述客觀類樣本中的各個語句進行分詞,得到多個訓練詞特征。
[0135] 第三計算單元413,
,.分別計算每個訓 練詞特征在a分別為+1、_1和0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件 概率;
[0136] 其中,該a為訓練樣本預(yù)設(shè)類別,該b為訓練詞特征,PUa|b)為預(yù)測條件概率,exp ()為自然數(shù)e為底的指數(shù)函數(shù),f i ()為二值特征函數(shù)
Ai為特征函數(shù)值f i (a,b)的權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同
為對每個訓練詞特征對應(yīng)的k 個特征函數(shù)值進行求和的函數(shù),k等于3,i = l,2,~,k,
為對a為不同值時對應(yīng)的數(shù)據(jù)進行 求和的函數(shù),所述\的初始值已知。
[0137] 第四計算單元414,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概 率,直至每個訓練詞特征各自的正預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的正 預(yù)測條件概率對應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值;
[0138] 第五計算單元415,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概 率,直至每個訓練詞特征各自的負預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的負 預(yù)測條件概率對應(yīng)的Μ乍為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值。
[0139] 第六計算單元416,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件 概率,直至每個訓練詞特征各自的客觀預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂 的客觀預(yù)測條件概率對應(yīng)的Μ乍為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的客觀最優(yōu)權(quán) 值。
[0140]需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重 點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。 對于裝置類實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參 見方法實施例的部分說明即可。
[0141] 最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將 一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作 之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變體意 在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那 些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者 設(shè)備所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排 除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0142] 以上對本申請所提供的一種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法、裝置及系統(tǒng)進行了詳細介 紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只 是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申 請的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理 解為對本申請的限制。
【主權(quán)項】
1. 一種互聯(lián)網(wǎng)用戶數(shù)據(jù)處理方法,其特征在于,包括: 分別對待測樣本中的各個語句進行分詞,得到多個詞特征,其中,所述待測樣本為互聯(lián) 網(wǎng)用戶發(fā)表的內(nèi)容; 使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、負類和客觀類時,對 應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀預(yù)測子條件概率, 所述最大熵分類器為使用發(fā)言者為大專以上學歷的正類樣本、發(fā)言者為高中及中專學歷的 負類樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的; 將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算,得到待分類正預(yù)測條件概 率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算,得到待分類負預(yù)測條件概 率,及將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運算,得到待分類客觀預(yù)測 條件概率; 比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和所述待分類客觀預(yù)測 條件概率的大小; 在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情況下,確定所述待測樣本的類別為 正; 在比較結(jié)果為所述待分類負預(yù)測條件概率最大的情況下,確定所述待測樣本的類別為 負; 在比較結(jié)果為所述待分類客觀預(yù)測條件概率最大的情況下,確定所述待測樣本的類別 為客觀; 在所述待測樣本的類別為正時,確定所述待測樣本的發(fā)言者的學歷類型為大專以上; 在所述待測樣本的類別為負時,確定所述待測樣本的發(fā)言者的學歷類型為高中及中 專; 在所述待測樣本的類別為客觀時,確定所述待測樣本的發(fā)言者的學歷類型為初中以 下。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用最大熵分類器,計算每個詞特征 在所述待測樣本預(yù)設(shè)為正類、負類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負 預(yù)測子條件概率和待分類客觀預(yù)測子條件概率的過程,包括: 使用最大熵目標函數(shù)公式,分別計算每個詞特征在a分別 -a ?':Ι 為+1、-1和0時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客觀 預(yù)測子條件概率,其中,該a為待測樣本預(yù)設(shè)類別,該b為詞特征,PUab)為待分類預(yù)測子條 件概率,exp()為自然數(shù)e為底的指數(shù)函數(shù),fd)為二值特征函數(shù),所述.Xi為特征函數(shù)值fi(a,b)在a為+1時的正最優(yōu)權(quán)值或在a為-1時的負最優(yōu)權(quán)值或在a為0時的 客觀最優(yōu)權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,t為對每個詞特征對應(yīng)的k個特 ?-1 征函數(shù)值進行求和的函數(shù),k等于3,1 = 1,2,一上,1為對&為不同值時對應(yīng)的數(shù)據(jù)進行求和 ? 的函數(shù); 其中,所述a為+1表示所述待測樣本預(yù)設(shè)為正類,所述a為-1表示所述待測樣本預(yù)設(shè)為 負類,所述a為0表示所述待測樣本預(yù)設(shè)為客觀類,在計算待分類正預(yù)測子條件概率時,若詞 特征包含在預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的正最優(yōu)權(quán)值,否則λ為0,在計算待分 類負預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的負 最優(yōu)權(quán)值,否則λ為0,在計算待分類客觀預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特 征集合中,則λ為該詞特征對應(yīng)的客觀最優(yōu)權(quán)值,否則λ為〇。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述最大熵分類器的訓練過程包括: 獲取多個不同的正類樣本、多個不同的負類樣本和多個不同的客觀類樣本; 分別對各個所述正類樣本中的各個語句、各個所述負類樣本中的各個語句和各個所述 客觀類樣本中的各個語句進行分詞,得到多個訓練詞特征;依據(jù)公另 _:,分別計算每個訓練詞特征在a分別為+1、_1和0 (: 時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概率; 其中,該a為訓練樣本預(yù)設(shè)類別,該b為訓練詞特征,PJa I b)為預(yù)測條件概率,exp()為自 然數(shù)e為底的指數(shù)函數(shù),fi()為二值特征函數(shù)、為特征函數(shù)值f i(a,b) 的權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,;^為對每個訓練詞特征對應(yīng)的k個特征 ?~1· 函數(shù)值進行求和的函數(shù),k等于3,1 = 1,2,一上,1為對&為不同值時對應(yīng)的數(shù)據(jù)進行求和的 a 函數(shù),所述\的初始值已知; 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概率,直至每個訓練詞特征各自 的正預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的正預(yù)測條件概率對應(yīng)的λ作為每 個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值; 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概率,直至每個訓練詞特征各自 的負預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的負預(yù)測條件概率對應(yīng)的λ作為每 個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值; 利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件概率,直至每個訓練詞特征各 自的客觀預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的客觀預(yù)測條件概率對應(yīng)的λ 作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的客觀最優(yōu)權(quán)值。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,分別對待測樣本中的各個語句進行分詞, 得到多個詞特征的過程,包括: 利用FudanNLP-1.6.1工具分別對待測樣本中的各個語句進行分詞,得到多個詞特征。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待測樣本為互聯(lián)網(wǎng)用戶在微博上發(fā)表 的內(nèi)容。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待測樣本為互聯(lián)網(wǎng)用戶在貼吧上發(fā)表 的內(nèi)容。7. -種學歷類型分類裝置,其特征在于,包括: 第一分詞單元,用于分別對待測樣本中的各個語句進行分詞,得到多個詞特征,其中, 所述待測樣本為互聯(lián)網(wǎng)用戶發(fā)表的內(nèi)容; 第一計算單元,用于使用最大熵分類器,計算每個詞特征在所述待測樣本預(yù)設(shè)為正類、 負類和客觀類時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條件概率和待分類客 觀預(yù)測子條件概率,所述最大熵分類器為使用發(fā)言者為大專以上學歷的正類樣本、發(fā)言者 為高中及中專學歷的負類樣本和發(fā)言者為初中以下學歷的客觀類樣本訓練而成的; 第二計算單元,用于將各個詞特征對應(yīng)的待分類正預(yù)測子條件概率進行乘運算,得到 待分類正預(yù)測條件概率,將各個詞特征對應(yīng)的待分類負預(yù)測子條件概率進行乘運算,得到 待分類負預(yù)測條件概率,及將各個詞特征對應(yīng)的待分類客觀預(yù)測子條件概率進行乘運算, 得到待分類客觀預(yù)測條件概率; 比較單元,用于比較所述待分類正預(yù)測條件概率、所述待分類負預(yù)測條件概率和所述 待分類客觀預(yù)測條件概率的大小,在比較結(jié)果為所述待分類正預(yù)測條件概率最大的情況 下,觸發(fā)第一確定單元確定所述待測樣本的類別為正,在比較結(jié)果為所述待分類負預(yù)測條 件概率最大的情況下,觸發(fā)第二確定單元確定所述待測樣本的類別為負,在比較結(jié)果為所 述待分類客觀預(yù)測條件概率最大的情況下,觸發(fā)第三確定單元確定所述待測樣本的類別為 客觀; 第四確定單元,用于在所述待測樣本的類別為正時,確定所述待測樣本的發(fā)言者的學 歷類型為大專以上; 第五確定單元,用于在所述待測樣本的類別為負時,確定所述待測樣本的發(fā)言者的學 歷類型為高中及中專; 第六確定單元,用于在所述待測樣本的類別為客觀時,確定所述待測樣本的發(fā)言者的 學歷類型為初中以下。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一計算單元包括: 第一計算子單元,用于使用最大熵目標函數(shù)公式,分別計 算每個詞特征在a分別為+1、_1和0時,對應(yīng)的待分類正預(yù)測子條件概率、待分類負預(yù)測子條 件概率和待分類客觀預(yù)測子條件概率,其中,該a為待測樣本預(yù)設(shè)類別,該b為詞特征,Ρλ(a b)為待分類預(yù)測子條件概率,expO為自然數(shù)e為底的指數(shù)函數(shù),fK)為二值特征函數(shù),所述 I \Jfh e a , Ai為特征函數(shù)值f i (a, b)在a為+1時的正最優(yōu)權(quán)值或在a為-1時的負最優(yōu) \{)jjthers 權(quán)值或在a為0時的客觀最優(yōu)權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,Σ為對每個 詞特征對應(yīng)的k個特征函數(shù)值進行求和的函數(shù),k等于3,i = 1,2,…,k,Σ:為對a為不同值時 a 對應(yīng)的數(shù)據(jù)進行求和的函數(shù); 其中,所述a為+1表示所述待測樣本預(yù)設(shè)為正類,所述a為-1表示所述待測樣本預(yù)設(shè)為 負類,所述a為0表示所述待測樣本預(yù)設(shè)為客觀類,在計算待分類正預(yù)測子條件概率時,若詞 特征包含在預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的正最優(yōu)權(quán)值,否則λ為0,在計算待分 類負預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特征集合中,則λ為該詞特征對應(yīng)的負 最優(yōu)權(quán)值,否則λ為0,在計算待分類客觀預(yù)測子條件概率時,若詞特征包含在所述預(yù)設(shè)詞特 征集合中,則λ為該詞特征對應(yīng)的客觀最優(yōu)權(quán)值,否則λ為〇。9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一分詞單元包括: 分詞子單元,用于利用FudanNLP-1.6.1工具分別對待測樣本中的各個語句進行分詞, 得到多個詞特征。10. -種學歷類型分類系統(tǒng),其特征在于,包括:最大熵分類器訓練裝置和如權(quán)利要求 7-9任意一項所述的學歷類型分類裝置,其中所述最大熵分類器訓練裝置包括:獲取單元、 第二分詞單元、第三計算單元、第四計算單元和第五計算單元; 所述獲取單元,用于獲取多個不同的正類樣本、多個不同的負類樣本和多個不同的客 觀類樣本; 所述第二分詞單元,用于分別對各個所述正類樣本中的各個語句、各個所述負類樣本 中的各個語句和各個所述客觀類樣本中的各個語句進行分詞,得到多個訓練詞特征; 第三計算單元,用于依據(jù)公式,分別計算每個訓練詞特征 在a分別為+1、_1和0時,對應(yīng)的正預(yù)測條件概率、負預(yù)測條件概率和客觀預(yù)測條件概率; 其中,該a為訓練樣本預(yù)設(shè)類別,該b為訓練詞特征,PUa|b)為預(yù)測條件概率,expO為自 然數(shù)e為底的指數(shù)函數(shù),f i ()為二值特征函數(shù),:,Xi為特征函數(shù)值f i (a,b) 的權(quán)值且相同b對應(yīng)的不同特征函數(shù)值的權(quán)值相同,?為對每個訓練詞特征對應(yīng)的k個特征 ;.-1. 函數(shù)值進行求和的函數(shù),k等于3,1 = 1,2,一上,1為對&為不同值時對應(yīng)的數(shù)據(jù)進行求和的 a 函數(shù),所述\的初始值已知; 所述第四計算單元,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的正預(yù)測條件概率, 直至每個訓練詞特征各自的正預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的正預(yù)測 條件概率對應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的正最優(yōu)權(quán)值; 所述第五計算單元,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的負預(yù)測條件概率, 直至每個訓練詞特征各自的負預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的負預(yù)測 條件概率對應(yīng)的λ作為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的負最優(yōu)權(quán)值; 第六計算單元,用于利用GIS算法,調(diào)整每個訓練詞特征對應(yīng)的客觀預(yù)測條件概率,直 至每個訓練詞特征各自的客觀預(yù)測條件概率收斂,并將每個訓練詞特征各自收斂的客觀預(yù) 測條件概率對應(yīng)的Μ乍為每個訓練詞特征各自對應(yīng)的特征函數(shù)值的客觀最優(yōu)權(quán)值。
【文檔編號】G06Q30/02GK105869073SQ201610221212
【公開日】2016年8月17日
【申請日】2016年4月11日
【發(fā)明人】李壽山, 殷昊, 周國棟, 李軍輝
【申請人】蘇州大學