本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,具體涉及一種基于智能手機姿態(tài)行為大數(shù)據(jù)的用戶性別識別方法。
背景技術(shù):
隨著移動互聯(lián)網(wǎng)的高速發(fā)展,智能手機的用戶畫像或者說是用戶標(biāo)簽對于在龐大的移動互聯(lián)網(wǎng)用戶群體中對精準(zhǔn)人群進(jìn)行品牌營銷尤為關(guān)鍵。用戶畫像是將用戶信息標(biāo)簽化,即企業(yè)通過收集與分析用戶的消費習(xí)慣、生活習(xí)慣和社會屬性等主要信息的數(shù)據(jù)后,抽象出用戶的商業(yè)全貌。移動互聯(lián)網(wǎng)企業(yè)可以通過用戶畫像尋找匹配人群,精準(zhǔn)推送營銷廣告或服務(wù)信息,最終實現(xiàn)個性化營銷與服務(wù)推送。
經(jīng)過20多年的發(fā)展,隨著技術(shù)的進(jìn)步,手機無論從造型還是功能都發(fā)生了翻天覆地的變化,已經(jīng)不再是一個簡單的通信工具,而是具有多樣化的功能。在這種情況下,各種傳感器在iphone、ipad、android系統(tǒng)和其它系統(tǒng)的智能手機中得到廣泛應(yīng)用。其中,加速度/運動傳感器、陀螺儀可通過感知設(shè)備的加速度/重力和運動狀態(tài),從而得到當(dāng)前設(shè)備的姿態(tài)。
針對用戶的畫像研判,當(dāng)前已經(jīng)有了一些研究工作,主要集中在用戶的網(wǎng)絡(luò)日志和搜索內(nèi)容上。對網(wǎng)絡(luò)日志的書寫習(xí)慣和用語習(xí)慣、以及用戶的搜索內(nèi)容,通過基于文本的分類方法、統(tǒng)計分析和關(guān)聯(lián)預(yù)測方法,建立搜索內(nèi)容、用語習(xí)慣等與用戶基本屬性之間的聯(lián)系,從而預(yù)測用戶的性別、年齡、職業(yè)等用戶畫像屬性。
但是,對于智能手機,其瀏覽器一般沒有cookie,用戶的網(wǎng)絡(luò)日志難以獲取。用戶的搜索一般只能由搜索引擎公司獲得,第三方公司無法得到。因此,在手機上要獲取用戶信息,建立用戶畫像是比較困難的。因此一些新的方法被提出。例如專利《一種基于智能手機加速度傳感器的用戶基礎(chǔ)屬性預(yù)測方法》提出通過收集用戶智能手機的流量數(shù)據(jù),例如app流量的精確使用情況,包括app的名字、使用時間和流量等特征數(shù)據(jù),再通過svm模型對這些數(shù)據(jù)進(jìn)行分析,建立用戶分類預(yù)測模型。但是該方法的準(zhǔn)確性不是很高。
技術(shù)實現(xiàn)要素:
針對上述問題,本發(fā)明的目的在于提供一種基于智能手機姿態(tài)行為大數(shù)據(jù)的用戶性別識別方法,實現(xiàn)通過用戶使用智能手機的姿態(tài)行為的不同精確識別智能手機用戶性別的方法。
本發(fā)明通過以下技術(shù)手段解決上述問題:
一種基于智能手機姿態(tài)行為大數(shù)據(jù)的用戶性別識別方法,包括如下步驟:
s1、使用智能手機操作系統(tǒng)提供的api,記錄智能手機一段時間內(nèi)加速傳感器、陀螺傳感器和方向傳感器返回的數(shù)據(jù);
s2、通過加速傳感器和陀螺傳感器返回的數(shù)據(jù)采用算法得到智能手機用戶的運動狀態(tài),對運動狀態(tài)進(jìn)行分類,記錄每個運動狀態(tài)下的加速傳感器、陀螺傳感器和方向傳感器的數(shù)據(jù);
s3、對加速傳感器的數(shù)據(jù)進(jìn)行處理,得到每個運動狀態(tài)下的加速特征值組;
s4、將每個運動狀態(tài)下的加速特征值組放到大數(shù)據(jù)分類算法模型中,首先使用已知性別的每個運動狀態(tài)下的加速特征值組作為樣本數(shù)據(jù)輸入到大數(shù)據(jù)分類算法模型中進(jìn)行訓(xùn)練,再用訓(xùn)練好的數(shù)據(jù)預(yù)測用戶的性別;
s5、對陀螺傳感器的數(shù)據(jù)進(jìn)行處理,得到每個運動狀態(tài)下的角速度特征值組;
s6、將每個運動狀態(tài)下的角速度特征值組放到大數(shù)據(jù)分類算法模型中,首先使用已知性別的每個運動狀態(tài)下的角速度特征值組作為樣本數(shù)據(jù)輸入到大數(shù)據(jù)分類算法模型中進(jìn)行訓(xùn)練,再用訓(xùn)練好的數(shù)據(jù)預(yù)測用戶的性別;
s7、對方向傳感器的數(shù)據(jù)進(jìn)行處理,得到每個運動狀態(tài)下的方向特征值組;
s8、將每個運動狀態(tài)下的方向特征值組放到大數(shù)據(jù)分類算法模型中,首先使用已知性別的每個運動狀態(tài)下的方向特征值組作為樣本數(shù)據(jù)輸入到大數(shù)據(jù)分類算法模型中進(jìn)行訓(xùn)練,再用訓(xùn)練好的數(shù)據(jù)預(yù)測用戶的性別;
s9、將步驟s4、步驟s6和步驟s8結(jié)果加權(quán)平均得到最終的用戶的性別。
進(jìn)一步地,步驟s3-s4、步驟s5-s6和步驟s7-s8是同時進(jìn)行的。
進(jìn)一步地,所述運動狀態(tài)包括走路、跑步、上樓、下樓、乘坐交通工具、坐和靜止。
進(jìn)一步地,步驟s2中,采用android官方api文檔和iphone官方api文檔中敘述的算法得到智能手機用戶的運動狀態(tài)。
進(jìn)一步地,步驟s7具體包括如下步驟:
s71、方向傳感器數(shù)據(jù)記錄三個維度數(shù)據(jù):智能手機繞著z軸旋轉(zhuǎn)的角度、智能手機繞著x軸旋轉(zhuǎn)的角度和智能手機繞著y軸旋轉(zhuǎn)的角度;
s72、對每個運動狀態(tài)下的方向傳感器數(shù)據(jù)按時間順序進(jìn)行統(tǒng)計,將突然上升或突然下降超過一定閥值的數(shù)據(jù)記錄為一個峰值;
s73、對相鄰兩個峰值之間的數(shù)據(jù)計算數(shù)據(jù)的平均值、最大值、最小值和標(biāo)準(zhǔn)差;
s74、所有數(shù)據(jù)的平均值、最大值、最小值和標(biāo)準(zhǔn)差按時間順序組成用戶的每個運動狀態(tài)下的方向特征值組。
進(jìn)一步地,s72中,所述閥值設(shè)為90°。
進(jìn)一步地,所述大數(shù)據(jù)分類算法模型為svm、adaboost或lda。
本發(fā)明通過用戶使用智能手機的姿態(tài)行為的不同,通過大數(shù)據(jù)方法統(tǒng)計大量人群的使用習(xí)慣,能對智能手機用戶的性別進(jìn)行準(zhǔn)確的識別,準(zhǔn)確度更高。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明基于智能手機姿態(tài)行為大數(shù)據(jù)的用戶性別識別方法的步驟圖;
圖2是本發(fā)明基于智能手機姿態(tài)行為大數(shù)據(jù)的用戶性別識別方法的流程圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面將結(jié)合附圖和具體的實施例對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。需要指出的是,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例,基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1、圖2所示,本發(fā)明提供一種基于智能手機姿態(tài)行為大數(shù)據(jù)的用戶性別識別方法,包括如下步驟:
s1、使用智能手機操作系統(tǒng)提供的api,記錄智能手機一段時間內(nèi)加速傳感器、陀螺傳感器和方向傳感器返回的數(shù)據(jù);
s2、通過加速傳感器和陀螺傳感器返回的數(shù)據(jù)采用算法得到智能手機用戶的運動狀態(tài),相關(guān)算法在android官方api文檔和iphone官方api文檔中都有敘述,對運動狀態(tài)進(jìn)行分類,運動狀態(tài)包括走路、跑步、上樓、下樓、乘坐交通工具、坐和靜止,記錄每個運動狀態(tài)下的加速傳感器、陀螺傳感器和方向傳感器的數(shù)據(jù);
s3、對加速傳感器的數(shù)據(jù)進(jìn)行處理,得到每個運動狀態(tài)下的加速特征值組;
s4、將每個運動狀態(tài)下的加速特征值組放到大數(shù)據(jù)分類算法模型中,首先使用已知性別的每個運動狀態(tài)下的加速特征值組作為樣本數(shù)據(jù)輸入到大數(shù)據(jù)分類算法模型中進(jìn)行訓(xùn)練,再用訓(xùn)練好的數(shù)據(jù)預(yù)測用戶的性別,大數(shù)據(jù)分類算法模型為svm(supportvectormachine)、adaboost或lda(lineardiscriminantanalysis);
s5、對陀螺傳感器的數(shù)據(jù)進(jìn)行處理,得到每個運動狀態(tài)下的角速度特征值組;
s6、將每個運動狀態(tài)下的角速度特征值組放到大數(shù)據(jù)分類算法模型中,首先使用已知性別的每個運動狀態(tài)下的角速度特征值組作為樣本數(shù)據(jù)輸入到大數(shù)據(jù)分類算法模型中進(jìn)行訓(xùn)練,再用訓(xùn)練好的數(shù)據(jù)預(yù)測用戶的性別;
s7、對方向傳感器的數(shù)據(jù)進(jìn)行處理,得到每個運動狀態(tài)下的方向特征值組;
具體包括如下步驟:
s71、方向傳感器數(shù)據(jù)記錄三個維度數(shù)據(jù):智能手機繞著z軸旋轉(zhuǎn)的角度、智能手機繞著x軸旋轉(zhuǎn)的角度和智能手機繞著y軸旋轉(zhuǎn)的角度;
s72、對每個運動狀態(tài)下的方向傳感器數(shù)據(jù)按時間順序進(jìn)行統(tǒng)計,將突然上升或突然下降超過一定閥值(例如90°)的數(shù)據(jù)記錄為一個峰值;
s73、對相鄰兩個峰值之間的數(shù)據(jù)計算數(shù)據(jù)的平均值、最大值、最小值和標(biāo)準(zhǔn)差;
s74、所有數(shù)據(jù)的平均值、最大值、最小值和標(biāo)準(zhǔn)差按時間順序組成用戶的每個運動狀態(tài)下的方向特征值組。
s8、將每個運動狀態(tài)下的方向特征值組放到大數(shù)據(jù)分類算法模型中,首先使用已知性別的每個運動狀態(tài)下的方向特征值組作為樣本數(shù)據(jù)輸入到大數(shù)據(jù)分類算法模型中進(jìn)行訓(xùn)練,再用訓(xùn)練好的數(shù)據(jù)預(yù)測用戶的性別;
s9、將步驟s4、步驟s6和步驟s8結(jié)果加權(quán)平均得到最終的用戶的性別。
其中,步驟s3-s4、步驟s5-s6和步驟s7-s8是同時進(jìn)行的。
由于男女?dāng)y帶智能手機的習(xí)慣不同,導(dǎo)致手機的姿態(tài)不同。例如在走路時男子多將手機放在褲袋內(nèi),女子多將手機放在手提包中。褲袋中的手機一般接近豎立的角度,手提包中的手機一般接近側(cè)臥的角度。在坐下時,男女的手機姿態(tài)都有可能是側(cè)臥角度;但褲袋中的手機會因為腿的小幅度運動而運動,手提包中的手機會一直靜止不動。上下樓和乘坐交通工具時褲袋中的手機運動方向與手提包中的手機有著顯著差異。
由于現(xiàn)代智能手機內(nèi)部都配置了手機重力感應(yīng)技術(shù),利用壓電效應(yīng),測量內(nèi)部一片重物重力正交兩個方向的分力大小,來判定水平方向,從而能夠感受手機在變換姿勢時,重心的變化。智能手機內(nèi)部的三軸陀螺儀測量手機的三維方向,能更精確地檢測手機的三維方向變化。加速度傳感器能感知手機在三維方向的加速度。這些傳感器可以用來測量手機的運動狀態(tài)和姿態(tài)。
本發(fā)明通過用戶使用智能手機的姿態(tài)行為的不同,通過大數(shù)據(jù)方法統(tǒng)計大量人群的使用習(xí)慣,能對智能手機用戶的性別進(jìn)行準(zhǔn)確的識別,準(zhǔn)確度更高。
以上所述實施例僅表達(dá)了本發(fā)明的幾種實施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。