亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于用戶管理應(yīng)用行為的應(yīng)用質(zhì)量判別方法及系統(tǒng)的制作方法

文檔序號:9865681閱讀:700來源:國知局
一種基于用戶管理應(yīng)用行為的應(yīng)用質(zhì)量判別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種基于移動設(shè)備用戶的應(yīng)用管理行為抽取行為特征,然后基于該行為特征利用回歸算法對缺乏用戶評價的應(yīng)用的質(zhì)量進行預(yù)測的方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著移動設(shè)備(智能手機、平板電腦、智能手表等)的發(fā)展,移動設(shè)備應(yīng)用程序(SPapp,簡稱應(yīng)用)的種類、數(shù)量都呈現(xiàn)了爆發(fā)式增長的趨勢。如何能夠準(zhǔn)確的衡量一個應(yīng)用的質(zhì)量好壞成為了一個非常重要的問題。這對于用戶在下載應(yīng)用前快速了解應(yīng)用從而做出更合適的選擇、對于開發(fā)者更快速地了解自己和競爭對手的應(yīng)用在市場中的反饋、以及對于應(yīng)用市場管理人員提供更準(zhǔn)確的推薦都有著非常重要的意義。最為直觀且準(zhǔn)確的評價標(biāo)準(zhǔn)是應(yīng)用市場上用戶對于應(yīng)用的評價,包括自然語言評價與打分,其中又以打分最為直觀有效。但是,目前的移動應(yīng)用市場上普遍存在著用戶不習(xí)慣于評價應(yīng)用、導(dǎo)致應(yīng)用的用戶評價很少的問題。對于這部分應(yīng)用,其質(zhì)量很難通過用戶評價進行判別。
[0003]除用戶評價這種相對直觀、準(zhǔn)確的評價方式外,主流應(yīng)用市場基本以應(yīng)用的下載總次數(shù)或者以下載過該應(yīng)用的人數(shù)來衡量應(yīng)用的好壞,其基本出發(fā)點是通過用戶對于應(yīng)用的選擇行為來判斷應(yīng)用質(zhì)量的好壞。對于上述所提及的評價較少的應(yīng)用,這成為了唯一的評價指標(biāo)。但是,僅僅依靠這種簡單的指標(biāo)可能并不能真正準(zhǔn)確的反映出應(yīng)用的質(zhì)量高低。例如,一些應(yīng)用下載總量與下載總?cè)藬?shù)均較高,但是這可能是由于應(yīng)用在上線期間所做的營銷工作成功而導(dǎo)致的,應(yīng)用本身質(zhì)量并不高,用戶在簡單嘗試使用之后很大部分會直接將其卸載。同時,也可能存在一類應(yīng)用,它們的下載量與下載人數(shù)雖然不是非常多,但是其用戶會對其保持使用,并跟隨版本的迭代隨時更新,這類應(yīng)用往往是質(zhì)量較高的。因此,單純的通過下載量、下載人數(shù)這樣簡單的指標(biāo)可能并不能得到準(zhǔn)確的評價。
[0004]該指標(biāo)基于用戶行為的出發(fā)點是合理的,但是其存在的一個問題在于淺嘗轍止,沒有充分挖掘出用戶行為中的信息量。例如,如果一個應(yīng)用的多數(shù)用戶在下載了該應(yīng)用后不久就進行了卸載,那么很可能說明該應(yīng)用質(zhì)量不高因此大量用戶在使用之后選擇了放棄;另一方面,如果一個應(yīng)用存在部分用戶在已經(jīng)卸載了該應(yīng)用之后又選擇了重新安裝,那么很有可能說明這個應(yīng)用質(zhì)量較好因此用戶的確需要它因此重新安裝。受此啟示,用戶對應(yīng)用的管理行為序列中可能存在很多有價值的特征。如果能夠挖掘出有效特征,就可能利用這些特征得出更準(zhǔn)確的應(yīng)用質(zhì)量評價。
[0005]現(xiàn)有技術(shù)中,授權(quán)公告號為CN101404650B的專利“一種細(xì)分網(wǎng)絡(luò)應(yīng)用服務(wù)質(zhì)量的方法和系統(tǒng)”,根據(jù)用戶當(dāng)前使用的應(yīng)用程序情況,提供一個合適的網(wǎng)絡(luò)質(zhì)量標(biāo)記,實現(xiàn)細(xì)分網(wǎng)絡(luò)應(yīng)用服務(wù)質(zhì)量。此外,“一種應(yīng)用程序的質(zhì)量確定方法和系統(tǒng)”(申請?zhí)?201110247330.7)通過獲取的應(yīng)用程序的質(zhì)量指標(biāo)的衡量值基于大量移動終端上報的平均值的收斂值,體現(xiàn)了應(yīng)用程序的通用質(zhì)量狀態(tài),能夠反映應(yīng)用程序的質(zhì)量。但這些技術(shù)都沒有有效利用用戶對應(yīng)用的管理行為中的有價值的特征,從而不能得出更準(zhǔn)確的應(yīng)用質(zhì)量評價。
[0006]綜上所述,需要一種從應(yīng)用管理行為中抽取行為特征,并利用抽取出的行為特征對用戶評價較少的應(yīng)用的質(zhì)量進行判斷的方法。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的是通過用戶管理行為中的特征,利用回歸算法來判斷應(yīng)用質(zhì)量的好壞。利用含有較多用戶評價的應(yīng)用,針對這部分應(yīng)用的管理行為進行回歸模型訓(xùn)練,用訓(xùn)練得到的模型對用戶評論較少的應(yīng)用進行質(zhì)量預(yù)測。
[0008]本發(fā)明中,用戶的應(yīng)用管理行為數(shù)據(jù)當(dāng)中包括三種行為:下載應(yīng)用、卸載應(yīng)用、更新應(yīng)用。行為記錄中包含三個域:進行該行為的用戶標(biāo)識、該行為管理的應(yīng)用的標(biāo)識(即應(yīng)用包名)、以及該行為發(fā)生的時間。
[0009]本發(fā)明的基于用戶管理應(yīng)用行為的應(yīng)用質(zhì)量判別方法,包含四個主要步驟:(I)數(shù)據(jù)預(yù)處理;(2)行為特征抽取;(3)模型訓(xùn)練;(4)利用特征進行應(yīng)用質(zhì)量判別。
[0010](I)數(shù)據(jù)預(yù)處理:
[0011]首先根據(jù)閾值、統(tǒng)計分析等方法篩選出可靠的應(yīng)用進入訓(xùn)練集。然后,對與訓(xùn)練集中應(yīng)用相關(guān)的用戶應(yīng)用管理行為進行如下數(shù)據(jù)預(yù)處理:以“D”表示下載應(yīng)用行為、“U”表示卸載應(yīng)用行為、“P”表示更新應(yīng)用行為。將每個用戶與每個應(yīng)用之間的所有管理行為排序,按時間先后順序得到一個管理行為序列。例如,序列:
[0012]DPPU
[0013]該序列表示該用戶先對應(yīng)用進行了一次卸載,然后更新了兩次,最后卸載了該應(yīng)用。此外,在上述原始序列的頭部添加標(biāo)識“S”表示序列開始,在尾部添加標(biāo)識“E”表示序列結(jié)束,得到最終的序列:
[0014]SDPPUE
[0015]為保證方法盡可能準(zhǔn)確,需要進一步對序列數(shù)據(jù)進行篩選。最終根據(jù)篩選之后的管理行為序列構(gòu)成模型的訓(xùn)練集。本方法的行為特征抽取工作將基于該訓(xùn)練集進行。
[0016](2)行為特征抽取:
[0017]每個應(yīng)用的特征包括以下兩項:該應(yīng)用擁有的管理行為序列數(shù)、管理行為序列的平均長度。除此兩項之外,應(yīng)用的特征還可以包括:管理行為序列中至多連續(xù)若干步(包括S和E在內(nèi))考慮時間間隔長短的連續(xù)管理行為。
[0018]對于每一種特征,抽取得到該應(yīng)用中該種特征的個數(shù),最后得到平均每一個管理行為序列的該種特征個數(shù),即為此種特征的值(例如:某應(yīng)用共有100個管理序列,其一個特征的。出現(xiàn)個數(shù)為200,則最終該特征的值為200/100 = 2)。特征總數(shù)為N。
[0019](3)模型訓(xùn)練:
[0020]行為特征抽取完成后,利用N個特征建立一個N+1維自變量空間。每一個訓(xùn)練集中的應(yīng)用被視作空間當(dāng)中的一個點,每個自變量維度的值即為該維度對應(yīng)的特征的值,因變量的值為該應(yīng)用的用戶評分線性規(guī)約至[0,I]區(qū)間后的值(O為最低、I為最高)。根據(jù)此空間,用多折訓(xùn)練的方法對模型進行訓(xùn)練,調(diào)試出最優(yōu)的模型參數(shù),最終得到一個確定的回歸模型。
[0021 ] (4)利用特征進行應(yīng)用質(zhì)量判別:
[0022]利用訓(xùn)練得到的回歸模型,將每一個待預(yù)測的應(yīng)用的管理行為數(shù)據(jù)按照上述步驟(1)、(2)的方式進行整理,然后輸入模型,模型的輸出即為對應(yīng)用質(zhì)量的判別結(jié)果。
[0023]本發(fā)明的基于用戶管理應(yīng)用行為的應(yīng)用質(zhì)量判別系統(tǒng),其包括:
[0024]數(shù)據(jù)預(yù)處理器,負(fù)責(zé)對用戶的應(yīng)用管理行為進行數(shù)據(jù)預(yù)處理,將每個用戶與每個應(yīng)用之間的所有管理行為按照時間先后順序進行排序,得到管理行為序列,作為訓(xùn)練集;
[0025]行為特征抽取器,負(fù)責(zé)利用得到的管理行為序列,對用戶的應(yīng)用管理行為進行特征抽??;
[0026]訓(xùn)練器,負(fù)責(zé)利用抽取的行為特征建立多維自變量空間,每一個訓(xùn)練集中的應(yīng)用被視作該空間當(dāng)中的一個點,每個自變量維度的值即為該維度對應(yīng)的特征的值;根據(jù)此空間進行模型訓(xùn)練,調(diào)試出最優(yōu)的模型參數(shù),最終得到一個確定的回歸模型;
[0027]預(yù)測器,負(fù)責(zé)通過數(shù)據(jù)預(yù)處理器和行為特征抽取器抽取其特征,然后將得到的特征輸入訓(xùn)練好的回歸模型,模型的輸出即為對應(yīng)用質(zhì)量的判別結(jié)果。
[0028]本發(fā)明從應(yīng)用管理行為中抽取行為特征,并利用抽取出的行為特征對用戶評價較少的應(yīng)用的質(zhì)量進行判斷,得出更準(zhǔn)確的應(yīng)用質(zhì)量評價結(jié)果。該方法對于用戶在下載應(yīng)用前快速了解應(yīng)用從而做出更合適的選擇、對于開發(fā)者更快速地了解自己和競爭對手的應(yīng)用在市場中的反饋、以及對于應(yīng)用市場管理人員提供更準(zhǔn)確的推薦等具有重要的意義。
[0029]與現(xiàn)有技術(shù)相比,本發(fā)明是首個采用多個連續(xù)用戶管理行為、及管理行為間的時間間隔來判別應(yīng)用質(zhì)量好壞的方法。同時,本發(fā)明也是首個采用回歸算法,利用用戶管理行為對應(yīng)用質(zhì)量進行判別的方法。以上特點使得本發(fā)明在判別應(yīng)用質(zhì)量的過程中可以更為有效地去除無關(guān)特征,并且更加有效地發(fā)揮有關(guān)特征的質(zhì)量表達能力。因此,總結(jié)而言,本發(fā)明相較于現(xiàn)有技術(shù)可以獲得更為準(zhǔn)確的評價結(jié)果。
【附圖說明】
[0030]圖1為本發(fā)明的技術(shù)架構(gòu)圖。
【具體實施方式】
[0031]下面給出一個基于原始的評價數(shù)據(jù)進行應(yīng)用質(zhì)量判別的具體部署,包括數(shù)據(jù)描述、硬件部署、具體軟件實現(xiàn)。圖1為具體的技術(shù)架構(gòu)圖。
[0032]1、數(shù)據(jù)描述
[0033]本部署使用的數(shù)據(jù)來自于一個大型的Android移動應(yīng)用市場,均為文本文件,包括以下兩部分:
[0034](I)應(yīng)用的管理行為數(shù)據(jù)。每個行為用一行數(shù)據(jù)來記錄,包括前文描述的全部域,即進行該行為的用戶標(biāo)識、該行為管理的應(yīng)用的標(biāo)識(即應(yīng)用包名)、以及該行為發(fā)生的時間。
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1