一種惡意賬號(hào)的識(shí)別方法,及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,特別涉及一種惡意賬號(hào)識(shí)別方法,及裝置。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)文學(xué),指新近產(chǎn)生的,以互聯(lián)網(wǎng)為展示平臺(tái)和傳播媒介的,借助超文本連接和多媒體演繹等手段來表現(xiàn)的文學(xué)作品、類文學(xué)文本及含有一部分文學(xué)成分的網(wǎng)絡(luò)藝術(shù)品。其中,以網(wǎng)絡(luò)原創(chuàng)作品為主。
[0003]網(wǎng)絡(luò)文學(xué)是隨著互聯(lián)網(wǎng)的普及而產(chǎn)生的?;ヂ?lián)網(wǎng)絡(luò)為上億網(wǎng)民提供了多如恒沙的各類文學(xué)資料信息,與此同時(shí),一種以這種新興媒體為載體、依托、手段,以網(wǎng)民為接受對(duì)象,具有不同于傳統(tǒng)文學(xué)特點(diǎn)的網(wǎng)絡(luò)文學(xué)悄然勃興。
[0004]網(wǎng)絡(luò)文學(xué)與傳統(tǒng)文學(xué)不是對(duì)立的兩極,而是互相滲透的有機(jī)體系。不少傳統(tǒng)文學(xué)通過電子化成為了網(wǎng)絡(luò)文學(xué)的一部分,網(wǎng)絡(luò)文學(xué)的作者也都接受過傳統(tǒng)文學(xué)的熏陶。同時(shí),網(wǎng)絡(luò)文學(xué)通過出版進(jìn)入了傳統(tǒng)文學(xué)領(lǐng)域;并依靠網(wǎng)絡(luò)巨大的影響力,成為流行文化的重要組成部分,進(jìn)而影響到傳統(tǒng)文學(xué)。
[0005]由于借助強(qiáng)大的網(wǎng)絡(luò)媒介,網(wǎng)絡(luò)文學(xué)具有多樣性、互動(dòng)性和知識(shí)產(chǎn)權(quán)保護(hù)困難的特點(diǎn)。其形式可以類似傳統(tǒng)文學(xué),也可以是博文、帖子等非傳統(tǒng)文體。實(shí)時(shí)回復(fù)、實(shí)時(shí)評(píng)論和投票是網(wǎng)絡(luò)文學(xué)的重要特征。由于網(wǎng)絡(luò)文學(xué)傳播的便捷,導(dǎo)致知識(shí)產(chǎn)權(quán)不易受到保護(hù)。
[0006]為讀者提供優(yōu)秀的暢銷圖書電子、最熱的網(wǎng)絡(luò)原創(chuàng)小說在線閱讀,為熱愛文學(xué)寫作的網(wǎng)友提供在線創(chuàng)作、在線宣傳和在線銷售的綜合原創(chuàng)文學(xué)平臺(tái);目前已經(jīng)出現(xiàn)了大量的網(wǎng)絡(luò)文學(xué)平臺(tái)。
[0007]原創(chuàng)作者或者CP (content provide,內(nèi)容提供商)在網(wǎng)絡(luò)文學(xué)平臺(tái)上發(fā)布自己的作品,作為回報(bào),網(wǎng)絡(luò)文學(xué)平臺(tái)會(huì)根據(jù)文學(xué)作品的有效閱讀用戶數(shù)、閱讀字?jǐn)?shù)、收藏訂閱等數(shù)據(jù)確定支付給發(fā)布文學(xué)作品的一方,使知識(shí)產(chǎn)權(quán)的所有者能夠得到相應(yīng)的報(bào)酬,從而形成良性的創(chuàng)作環(huán)境,促進(jìn)文學(xué)的發(fā)展。
[0008]但是,發(fā)布文學(xué)作品的一方存在“刷書”現(xiàn)象。刷書是指:作者或者CP為了自己的書能獲得更多收入、更好的排行榜位置和推薦位置,通過不正當(dāng)手段閱讀書籍,使其有效閱讀用戶數(shù)、閱讀字?jǐn)?shù)、收藏訂閱等數(shù)據(jù)異常增長的行為。因此,刷書行為不僅擾亂了網(wǎng)絡(luò)文學(xué)平臺(tái)的正常運(yùn)營秩序,也極大的損害了未作弊作者或CP的利益,使他們不能獲得應(yīng)用的報(bào)酬。因此如何識(shí)別那些用來刷書的惡意賬號(hào),成為了必要的技術(shù)需求。
[0009]目前,識(shí)別惡意賬號(hào)的方式如下:人工設(shè)定一個(gè)最大字?jǐn)?shù)閥值,如果某一賬號(hào)閱讀的字?jǐn)?shù)超過了這個(gè)閾值,則確定為惡意賬號(hào)。上述最大字?jǐn)?shù)閥值通常來說,是根據(jù)經(jīng)驗(yàn)確定的一個(gè)固定值,為了減少誤判通常是一個(gè)較大的值。
[0010]以上方案中,最高閱讀字?jǐn)?shù)的閥值由人工設(shè)定,不僅沒有理論依據(jù),而且極容易被CP或者作者發(fā)現(xiàn)找出其中的規(guī)律,調(diào)整刷書策略,限定每天刷書字?jǐn)?shù)在閥值以下。所以手工設(shè)定閱讀字?jǐn)?shù)來區(qū)別刷書用戶,效果不明顯,區(qū)分度不高。因此以上方案并不能準(zhǔn)確識(shí)別惡意賬號(hào)。
【發(fā)明內(nèi)容】
[0011]本發(fā)明實(shí)施例提供了一種惡意賬號(hào)的識(shí)別方法,及裝置,用于準(zhǔn)確識(shí)別刷書的惡意賬號(hào)。
[0012]一種惡意賬號(hào)的識(shí)別方法,包括:
[0013]以已知的正常賬號(hào)集的有效閱讀速度為訓(xùn)練樣本,確定所述正常賬號(hào)集的有效閱讀速度的分布數(shù)據(jù);
[0014]依據(jù)所述分布數(shù)據(jù)確定正常賬號(hào)上限的閱讀速度閾值;
[0015]獲取待確認(rèn)賬號(hào)的閱讀速度,若所述待確認(rèn)賬號(hào)的閱讀速度超過所述閱讀速度閾值,則確定所述待確認(rèn)賬號(hào)為惡意賬號(hào)。
[0016]一種惡意賬號(hào)的識(shí)別裝置,包括:
[0017]訓(xùn)練單元,用于以已知的正常賬號(hào)集的有效閱讀速度為訓(xùn)練樣本,確定所述正常賬號(hào)集的有效閱讀速度的分布數(shù)據(jù);
[0018]閾值確定單元,用于依據(jù)所述訓(xùn)練單元確定的分布數(shù)據(jù)確定正常賬號(hào)上限的閱讀速度閾值;
[0019]判決單元,用于獲取待確認(rèn)賬號(hào)的閱讀速度,若所述待確認(rèn)賬號(hào)的閱讀速度超過所述閱讀速度閾值,則確定所述待確認(rèn)賬號(hào)為惡意賬號(hào)。
[0020]從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):已知的正常賬號(hào)集的有效閱讀速度為訓(xùn)練樣本,確定所述正常賬號(hào)集的有效閱讀速度的分布數(shù)據(jù);并依據(jù)所述分布數(shù)據(jù)確定正常賬號(hào)上限的閱讀速度閾值。不再使用人工設(shè)定的固定閾值,閾值的設(shè)定具有基于統(tǒng)計(jì)的理論依據(jù)不再由人工任意設(shè)定,從而能夠準(zhǔn)確識(shí)別刷書的惡意賬號(hào)。
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1為本發(fā)明實(shí)施例方法流程示意圖;
[0023]圖2為本發(fā)明實(shí)施例有效閱讀字?jǐn)?shù)的用戶理論和實(shí)際分布示意圖;
[0024]圖3為本發(fā)明實(shí)施例方法流程示意圖;
[0025]圖4為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
[0026]圖5為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
[0027]圖6為本發(fā)明實(shí)施例惡意賬號(hào)的識(shí)別裝置結(jié)構(gòu)示意圖;
[0028]圖7為本發(fā)明實(shí)施例服務(wù)器結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0029]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部份實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0030]本發(fā)明實(shí)施例提供了一種惡意賬號(hào)的識(shí)別方法,如圖1所示,包括:
[0031]101:以已知的正常賬號(hào)集的有效閱讀速度為訓(xùn)練樣本,確定上述正常賬號(hào)集的有效閱讀速度的分布數(shù)據(jù);
[0032]在本發(fā)明實(shí)施例中,正常賬號(hào)集是包含正常賬戶的一個(gè)集合,該集合中的樣本數(shù)量可以任意設(shè)定,通常來說可以設(shè)置得較大一些以增加數(shù)據(jù)的準(zhǔn)確性。有效閱讀速度可以是字?jǐn)?shù)與時(shí)間的比值;其表現(xiàn)形式可以是計(jì)算得出的一個(gè)值,也可以是以一個(gè)時(shí)間段為依據(jù)獲取的有效閱讀字?jǐn)?shù),例如:一天的有效閱讀字?jǐn)?shù)。在本發(fā)明實(shí)施例中“有效”是相對(duì)于“無效”而言的,例如:一個(gè)賬號(hào)對(duì)同一段文字的重復(fù)點(diǎn)擊,只應(yīng)當(dāng)統(tǒng)計(jì)一次字?jǐn)?shù);那么第一次點(diǎn)擊為有效的,除第一次點(diǎn)擊以外的重復(fù)點(diǎn)擊則為無效的,這樣可以更準(zhǔn)確的統(tǒng)計(jì)真實(shí)的閱讀量。
[0033]102:依據(jù)上述分布數(shù)據(jù)確定正常賬號(hào)上限的閱讀速度閾值;
[0034]根據(jù)實(shí)際統(tǒng)計(jì),用戶的正常閱讀速度具有高斯分布的特征,也即是閱讀速度集中在一個(gè)中間區(qū)域,遠(yuǎn)大于這個(gè)區(qū)域的人會(huì)很少,遠(yuǎn)小于這個(gè)區(qū)域的人也會(huì)很少。那么可以依據(jù)這個(gè)分布特征來數(shù)據(jù)來確定一個(gè)閾值,超過這個(gè)閾值則可以認(rèn)為較大可能性為惡意賬號(hào)。
[0035]103:獲取待確認(rèn)賬號(hào)的閱讀速度,若上述待確認(rèn)賬號(hào)的閱讀速度超過上述閱讀速度閾值,則確定上述待確認(rèn)賬號(hào)為惡意賬號(hào)。
[0036]本發(fā)明實(shí)施例,已知的正常賬號(hào)集的有效閱讀速度為訓(xùn)練樣本,確定上述正常賬號(hào)集的有效閱讀速度的分布數(shù)據(jù);并依據(jù)上述分布數(shù)據(jù)確定正常賬號(hào)上限的閱讀速度閾值。不再使用人工設(shè)定的固定閾值,閾值的設(shè)定具有基于統(tǒng)計(jì)的理論依據(jù)不再由人工任意設(shè)定,從而能夠準(zhǔn)確識(shí)別刷書的惡意賬號(hào)。
[0037]本發(fā)明實(shí)施例還提供了具體如何確定分布數(shù)據(jù),以及如何依據(jù)分布數(shù)據(jù)確定閱讀速度閾值的具體實(shí)現(xiàn)方案,具體如下:上述確定上述正常賬號(hào)集的有效閱讀速度的分布數(shù)據(jù)包括:
[0038]確定上述正常賬號(hào)集的有效閱讀速度符合高斯分布的分布模型;
[0039]上述依據(jù)上述分布數(shù)據(jù)確定正常賬號(hào)上限的閱讀速度閾值包括:
[0040]使用高斯分布的累積分布函數(shù),確定上述分布模型中正常賬號(hào)上限的閱讀速度閾值。
[0041]可選地,上述有