一種為用戶推送訂閱類別的消息的方法和服務(wù)器的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種為用戶推送訂閱類別的消息的方法和服務(wù)器。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)中存在海量的信息,從互聯(lián)網(wǎng)中獲取信息時,一般采用的方法是用戶在搜索引擎中搜索、或者在相關(guān)網(wǎng)站中查詢,這些都是用戶主動獲取的方式,目前尚沒有根據(jù)用戶的訂閱類別主動向用戶推送相關(guān)信息的技術(shù)。
[0003]以股票信息為例,用戶需要獲取與一個股票相關(guān)的財經(jīng)新聞時,通常采用的方式為:
[0004]第一種,在門戶網(wǎng)站的財經(jīng)頻道搜索股票相關(guān)字。
[0005]第二種,在搜索引擎的新聞搜索中根據(jù)股票關(guān)鍵詞查詢。
[0006]第一種方式可以獲取相關(guān)股票的新聞,但是需要用戶主動進行搜索觸發(fā),并且只能看到該門戶網(wǎng)站內(nèi)有關(guān)該股票的財經(jīng)新聞。
[0007]第二種方式同樣需要用戶進行搜索觸發(fā),能看到全網(wǎng)的關(guān)于該股票關(guān)鍵詞的新聞,但是有些新聞可能和財經(jīng)不相關(guān)。
【發(fā)明內(nèi)容】
[0008]本發(fā)明提供了一種為用戶推送訂閱類別的消息的方法,能夠根據(jù)用戶訂閱的類別主動為用戶推送該類別的消息。
[0009]本發(fā)明還提供了一種為用戶推送訂閱類別的消息的服務(wù)器,能夠根據(jù)用戶訂閱的類別主動為用戶推送該類別的消息。
[0010]本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
[0011]一種為用戶推送訂閱類別的消息的方法,包括:
[0012]獲取消息;
[0013]預(yù)先保存不同類別所對應(yīng)的關(guān)鍵詞及代表關(guān)鍵詞相對于該類別權(quán)重的分數(shù)值;
[0014]對獲取的消息進行分詞處理,提取所述消息中包含的關(guān)鍵詞,根據(jù)代表關(guān)鍵詞相對于不同類別權(quán)重的分數(shù)值、關(guān)鍵詞在所述消息中出現(xiàn)的頻率、關(guān)鍵詞在所述消息中出現(xiàn)的位置和所述消息的長度中的至少一項為所述消息針對不同類別打分,并根據(jù)所述消息針對不同類別的分數(shù)判定所述消息對應(yīng)的類別;
[0015]根據(jù)用戶訂閱的類別向用戶推送該類別對應(yīng)的消息。
[0016]上述方法中,獲取消息的方式可以為:
[0017]選取消息索引頁,抓取消息索引頁內(nèi)針對消息的URL鏈接,采用聚類算法對抓取的URL鏈接進行分類,得到需要推送的URL鏈接集合;
[0018]針對所述需要推送的URL鏈接集合中的各個URL鏈接,采用布隆過濾器判斷所述URL鏈接是否已被抓取過,如果是,則從所述需要推送的URL鏈接集合中刪除該URL鏈接;否則,獲取所述URL鏈接對應(yīng)的消息,將所述URL鏈接放入布隆過濾器。
[0019]其中,抓取消息索引頁內(nèi)針對消息的URL鏈接的方式可以為:
[0020]設(shè)置Actor模型,設(shè)置不同Actor抓取不同域名下的URL鏈接,通過有限狀態(tài)機(FSM)控制各個Actor中的抓取頻率,保證不同域名下URL鏈接以預(yù)設(shè)的頻率進行抓取。
[0021]上述方法中,根據(jù)消息針對不同類別的分數(shù)判定消息對應(yīng)的類別的方式可以為:
[0022]過濾分數(shù)小于預(yù)先設(shè)定的相應(yīng)閾值的類別;或者,當(dāng)消息存在針對兩個以上類別的分數(shù)時,如果一個類別的分數(shù)低,并且該分數(shù)與其他類別的分數(shù)的差值超過預(yù)先設(shè)定的閾值,則過濾該類別;或者,當(dāng)消息存在針對兩個以上類別的分數(shù),并且類別的個數(shù)大于預(yù)先設(shè)定的相應(yīng)閾值時,過濾分數(shù)低的類別;
[0023]對于過濾后剩余的類別,取分數(shù)高的類別作為該消息對應(yīng)的類別。
[0024]根據(jù)用戶訂閱的類別向用戶推送該類別對應(yīng)的消息的方式可以為:
[0025]將同一類別的消息去重;
[0026]獲取用戶上報的訂閱類別,根據(jù)所述訂閱類別向用戶推送該類別對應(yīng)的消息。
[0027]對同一類別的消息去重的方式可以為:
[0028]針對每一個消息,計算該消息的標(biāo)題與已有消息的標(biāo)題的余弦相似度,如果余弦相似度大于預(yù)先設(shè)定的相應(yīng)閾值,則刪除該消息;
[0029]或者,針對每一個消息,采用SimHash算法計算該消息的正文的Hash值和已有消息正文的Hash值,根據(jù)計算得到的Hash值對該消息和已有消息進行分區(qū)間對比,得到該消息與已有消息Hamming距離,當(dāng)Hamming距離大于預(yù)先設(shè)定的相應(yīng)閾值時,計算該消息的正文與已有消息的正文的余弦相似度,如果余弦相似度大于預(yù)先設(shè)定的相應(yīng)閾值,則刪除該消息。
[0030]一種為用戶推送訂閱類別的消息的服務(wù)器,包括:
[0031]消息獲取模塊,用于獲取消息;
[0032]存儲模塊,用于預(yù)先保存不同類別所對應(yīng)的關(guān)鍵詞及代表關(guān)鍵詞相對于該類別權(quán)重的分數(shù)值;
[0033]消息類別判定模塊,用于對所述獲取的消息進行分詞處理,提取所述消息中包含的關(guān)鍵詞,根據(jù)代表關(guān)鍵詞相對于不同類別權(quán)重的分數(shù)值、關(guān)鍵詞在所述消息中出現(xiàn)的頻率、關(guān)鍵詞在所述消息中出現(xiàn)的位置和所述消息的長度中的至少一項為所述消息針對不同類別打分,并根據(jù)所述消息針對不同類別的分數(shù)判定所述消息對應(yīng)的類別;
[0034]消息推送模塊,用于根據(jù)用戶訂閱的類別向用戶推送該類別對應(yīng)的消息。
[0035]上述服務(wù)器中,消息獲取模塊可以包括:
[0036]抓取子模塊,用于選取消息索引頁,抓取消息索引頁內(nèi)針對消息的URL鏈接,采用聚類算法對抓取的URL鏈接進行分類,得到需要推送的URL鏈接集合;
[0037]過濾子模塊,用于針對所述需要推送的URL鏈接集合中的各個URL鏈接,采用布隆過濾器判斷所述URL鏈接是否已被抓取過,如果是,則從所述需要推送的URL鏈接集合中刪除該URL鏈接;否則,獲取所述URL鏈接對應(yīng)的消息,將所述URL鏈接放入布隆過濾器。
[0038]抓取子模塊抓取消息索引頁內(nèi)針對消息的URL鏈接的方式可以為:
[0039]設(shè)置Actor模型,設(shè)置不同Actor抓取不同域名下的URL鏈接,通過有限狀態(tài)機FSM控制各個Actor中的抓取頻率,保證不同域名下URL鏈接以預(yù)設(shè)的頻率進行抓取。
[0040]消息類別判定模塊根據(jù)消息針對不同類別的分數(shù)判定消息對應(yīng)的類別的方式可以為:
[0041]過濾分數(shù)小于預(yù)先設(shè)定的相應(yīng)閾值的類別;或者,當(dāng)消息存在針對兩個以上類別的分數(shù)時,如果一個類別的分數(shù)低,并且該分數(shù)與其他類別的分數(shù)的差值超過預(yù)先設(shè)定的閾值,則過濾該類別;或者,當(dāng)消息存在針對兩個以上類別的分數(shù),并且類別的個數(shù)大于預(yù)先設(shè)定的相應(yīng)閾值時,過濾分數(shù)低的類別;
[0042]對于過濾后剩余的類別,取分數(shù)高的類別作為該消息對應(yīng)的類別。
[0043]消息推送模塊可以包括:
[0044]去重子模塊,用于將同一類別的消息去重;
[0045]推送子模塊,用于獲取用戶上報的訂閱類別,根據(jù)所述訂閱類別向用戶推送該類別對應(yīng)的消息。
[0046]去重子模塊對同一類別的消息去重的方式可以為:
[0047]針對每一個消息,計算該消息的標(biāo)題與已有消息的標(biāo)題的余弦相似度,如果余弦相似度大于預(yù)先設(shè)定的相應(yīng)閾值,則刪除該消息;
[0048]或者,針對每一個消息,采用SimHash算法計算該消息的正文的Hash值和已有消息正文的Hash值,根據(jù)計算得到的Hash值對該消息和已有消息進行分區(qū)間對比,得到該消息與已有消息Hamming距離,當(dāng)Hamming距離大于預(yù)先設(shè)定的相應(yīng)閾值時,計算該消息的正文與已有消息的正文的余弦相似度,如果余弦相似度大于預(yù)先設(shè)定的相應(yīng)閾值,則刪除該消息。
[0049]可見,本發(fā)明提出的為用戶推送訂閱類別的消息的方法和服務(wù)器,通過獲取消息,并根據(jù)消息中的關(guān)鍵詞為該消息針對不同類別打分,根據(jù)打分結(jié)果判定該消息對應(yīng)的類另IJ,從而實現(xiàn)根據(jù)用戶訂閱的類別主動向用戶推送對應(yīng)的消息,
【附圖說明】
[0050]圖1為本發(fā)明提出的為用戶推送訂閱類別的消息的方法實現(xiàn)流程圖;
[0051]圖2為本發(fā)明提出的為用戶推送訂閱類別的消息的服務(wù)器結(jié)果示意圖。
【具體實施方式】
[0052]本發(fā)明提出一種為用戶推送訂閱類別的消息的方法,如圖1為該方法實現(xiàn)流程圖,包括:
[0053]步驟101:獲取消息;
[0054]步驟102:預(yù)先保存不同類別所對應(yīng)的關(guān)鍵詞及代表關(guān)鍵詞相對于該類別權(quán)重的分數(shù)值;對獲取的消息進行分詞處理,提取所述消息中包含的關(guān)鍵詞,根據(jù)代表關(guān)鍵詞相對于不同類別權(quán)重的分數(shù)值、關(guān)鍵詞在所述消息中出現(xiàn)的頻率、關(guān)鍵詞在所述消息中出現(xiàn)的位置和所述消息的長度中的至少一項為