一種商品評價信息過濾方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種商品評價信息過濾方法及系統(tǒng),方法包括:獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識;建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫;獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。本發(fā)明利用發(fā)表評價的用戶標(biāo)識,來識別廣告垃圾評價。為廣告垃圾評價識別的【技術(shù)領(lǐng)域】,提供了一個全新的方法,解決了雜亂無章的垃圾評價難以識別的問題。
【專利說明】一種商品評價信息過濾方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及商品評價相關(guān)【技術(shù)領(lǐng)域】,特別是一種商品評價信息過濾方法及系統(tǒng)?!颈尘凹夹g(shù)】
[0002]隨著電子商務(wù)的高速發(fā)展,越來越多的人選擇在網(wǎng)上購買商品,然后進(jìn)行評價,產(chǎn)生大量的商品評價信息。一個商品的全部評價信息會展示出來,供其他用戶購買前參考,而有一些評價信息是用戶基于其他目的或者隨意評價而生成的,主要表現(xiàn)為廣告評價和雜亂無章的垃圾評價,舉例如下:
[0003]一、廣告類評價,例如:
[0004]樣例1:寶貝不錯,描述一致,質(zhì)量上乘,性價比很高的一款寶貝,物超所值了 !很喜歡,是我想要的!買完后才知道,原來這款產(chǎn)品有內(nèi)部秒殺地址,秒殺的價格要便宜好多好多哦,還是這家店,這款產(chǎn)品(復(fù)制下面的鏈接在瀏覽器中打開,時間有限)url.cn/XXXXX。
[0005]樣例2:轉(zhuǎn)讓一雙全新匡威,尺碼38碼,有需要請聯(lián)系QQ XXXXXXXXX。
[0006]樣例3:幫忙宣傳一下,在這個群買可以打折,電商優(yōu)惠群:XXXXXXXX,各種200-10100-5優(yōu)惠免費得,網(wǎng)購達(dá)人可以關(guān)注一下,蚊子腿也是肉啊。
[0007]二、垃圾類評價,例如:
[0008]樣例1:我吐兔兔繼續(xù)找我下咯我。
[0009]樣例2:啊啊啊啊啊啊啊啊啊輕輕輕輕輕輕輕輕啊啊啊啊啊啊啊輕輕啊啊啊啊啊啊企:鵝卩阿啊B阿啊B阿瓦B阿啊B阿啊B阿啊B阿啊B阿啊B阿啊B阿啊B阿啊B阿啊M啊去啊啊。
[0010]樣例3:佛書店就是了空間的快速拉低斯卡拉迪歐但是的角度講哦回看守所看看四i類到拉薩卡死哦奇偶的幾歲偶加快速度拉薩的空間愛哦老大色歐賠抖擻說了寬度搜譜搜批評交付是滴哦開了德律風(fēng)收到了漸叟的開發(fā)恐怕死艘平底那死都及深咖啡搜哎哈維企鵝王王企鵝我去額健康王企鵝邏輯氣溫死啊對期望企鵝啊風(fēng)路記錄卡附屬的方式來開到付搜帶我那看來是數(shù)量大賽。
[0011]上述這二類評價,都不是對一個商品自身相關(guān)的評價,并且,這些評價對其他購買該商品的用戶起著噪音的作用,所以這類的評價展示是沒有意義的,需要做識別過濾。
[0012]現(xiàn)有的廣告與垃圾識別技術(shù)方案,主要有兩種,分別為基于人工建立詞典的識別過濾方法和基于統(tǒng)計的機(jī)器學(xué)習(xí)分類識別過濾方法,這兩種方法如下:
[0013](I)基于人工建立詞典的識別方法:先抽取一部分樣本評價數(shù)據(jù),然后通過人工查看判斷,總結(jié)提煉出一系列的具有廣告評價代表性的關(guān)鍵詞,組成詞典。然后利用這些詞典,對新的評價文本進(jìn)行布爾型包含檢查,如果一個評價同時包含字典中的一個或者多個關(guān)鍵詞,就斷定這個評價為廣告評價。如上述示例中,可以提煉出關(guān)鍵詞為:秒殺地址、QQ、請聯(lián)系、優(yōu)惠群,由這些關(guān)鍵詞組成詞典。這種方法主要用于廣告評價的識別過濾。
[0014](2)基于統(tǒng)計的機(jī)器學(xué)習(xí)分類識別方法:同樣先由人工抽取一部分評價樣本數(shù)據(jù),并以這些樣本數(shù)據(jù)為語料進(jìn)行標(biāo)注,如果一條評價信息屬于廣告或者垃圾評價,就標(biāo)記為1,否則標(biāo)記為O。待這些樣本全部標(biāo)記完成之后,將這些數(shù)據(jù)用作文本分類的訓(xùn)練集,然后選擇一個文本分類算法,如樸素貝葉斯分類算法、Libsvm分類算法等,構(gòu)造分類器,然后對一個新的評價文本進(jìn)行自動分類,如果分到I這一類,就代表這條評價屬于廣告或者垃圾,反之,屬于正常評價。這種方法的過濾準(zhǔn)確率是和樣本標(biāo)注量成正比的,也就是樣本集的標(biāo)注量越大越好。
[0015]現(xiàn)有的二種技術(shù)方案,雖然對廣告或者垃圾類評價識別過濾有較為明顯的效果,但是都存在一定的缺陷。
[0016]對于第一種基于人工建立詞典的過濾方法,該方法對廣告類評價識別效果較好,但是主要存在如下缺陷:1)詞典的建立完全依賴人工,需要人工觀察到大量的廣告評價,并且提取代表性廣告關(guān)鍵詞具有較強(qiáng)的主觀性,這就會導(dǎo)致詞典的建立不準(zhǔn)確、不完整、不科學(xué),從而導(dǎo)致準(zhǔn)確率與召回率不可控。如果建立的詞典包含了一些不夠具有廣告代表性的關(guān)鍵詞,將會導(dǎo)致識別的準(zhǔn)確率較低;如果建立的詞典包含的代表性關(guān)鍵詞數(shù)量不足,那將會導(dǎo)致召回率較低,也就是本來有很多新的廣告評價,卻識別出來的數(shù)量較少。2)無法對垃圾評價識別過濾,因為垃圾評價表現(xiàn)形式主要為變化多端的無語言規(guī)律文本,如上述垃圾評價的三個樣例,代表性特征關(guān)鍵詞不明顯,所以很難建立一套詞典專門用于識別垃圾評價。
[0017]對于第二種基于統(tǒng)計的機(jī)器學(xué)習(xí)分類過濾方法,該方法將廣告與垃圾評價的識別過濾轉(zhuǎn)為一個二類分類的問題,相比第一種方法,該方法不僅對廣告類評價識別有較明顯的效果,而且對垃圾類評價識別也有一定的效果,但是該方法主要存在如下缺陷:1)用作訓(xùn)練集的樣本語料標(biāo)注要足夠多,需要大量的人力。2)對于垃圾類評價的識別,雖然有一定的效果,但是準(zhǔn)確率較低。因為垃圾類評價,不僅文本語言本身沒有規(guī)律,而且在預(yù)處理階段,分詞之后的詞語特征比較常規(guī),不具有代表性,同時這些詞語的產(chǎn)生都是隨機(jī)的,本身語言也沒有明確的含義。所以,垃圾類評價識別率比較低。
【發(fā)明內(nèi)容】
[0018]基于此,有必要針對現(xiàn)有技術(shù)對廣告和垃圾評價的分類不準(zhǔn)確的技術(shù)問題,提供一種商品評價信息過濾方法及系統(tǒng)。
[0019]一種商品評價信息過濾方法,包括:
[0020]獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識;
[0021]建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫;
[0022]獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。
[0023]一種商品評價信息過濾系統(tǒng),包括:
[0024]樣本獲取模塊,用于獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識;
[0025]標(biāo)識庫建立模塊,用于建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫;
[0026]新評價判斷模塊,用于獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。
[0027]本發(fā)明利用發(fā)表評價的用戶標(biāo)識,來識別廣告垃圾評價。為廣告垃圾評價識別的【技術(shù)領(lǐng)域】,提供了一個全新的方法,解決了雜亂無章的垃圾評價難以識別的問題,并且,使得廣告垃圾識別的準(zhǔn)確率與召回率明顯提高。這些對電子商務(wù)領(lǐng)域的廣告與垃圾商品評價的準(zhǔn)確有效的識別、過濾,起著關(guān)鍵的促進(jìn)作用。
【專利附圖】
【附圖說明】
[0028]圖1為本發(fā)明一種商品評價信息過濾方法的工作流程圖;
[0029]圖2為本發(fā)明一個例子的工作流程圖;
[0030]圖3為本發(fā)明一種商品評價信息過濾系統(tǒng)的結(jié)構(gòu)模塊圖。
【具體實施方式】
[0031]下面結(jié)合附圖和具體實施例對本發(fā)明做進(jìn)一步詳細(xì)的說明。
[0032]如圖1所示為本發(fā)明一種商品評價信息過濾方法的工作流程圖,包括:
[0033]步驟SlOl,獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識;
[0034]步驟S102,建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫;
[0035]步驟S103,獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。
[0036]本發(fā)明利用用戶與評價的關(guān)系識別廣告評價與垃圾評價。一個商品評價的出現(xiàn),一定屬于一個用戶,通過用戶標(biāo)識就可以識別不同的用戶。一個用戶如果曾經(jīng)發(fā)過廣告評價或垃圾評價,則其再次發(fā)廣告評價或垃圾評價的可能性會比未發(fā)過廣告評價或垃圾評價的用戶的可能性要大。因此,本發(fā)明在步驟SlOl中,將廣告垃圾樣本的用戶標(biāo)識組成一個廣告垃圾用戶標(biāo)識庫,從而使得當(dāng)該庫中的用戶標(biāo)識再次發(fā)表評價時,能迅速將其確定為廣告垃圾評價。
[0037]在其中一個實施例中,還包括:
[0038]建立包括多個所述廣告垃圾樣本的評價文本的廣告垃圾評價集合,將所述廣告垃圾評價集合作為文本分類器的訓(xùn)練集對文本分類器進(jìn)行訓(xùn)練,所述文本分類器對輸入的評價文本進(jìn)行分類確定為廣告垃圾評價文本或者非廣告垃圾評價文本;
[0039]獲取到新評價后,如果所述新評價的用戶標(biāo)識不包含在所述廣告垃圾用戶標(biāo)識庫中,則文本分類器對所述新評價的評價文本進(jìn)行分類,如果文本分類器將所述新評價的評價文本分類為廣告垃圾評價文本,則所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
[0040]本實施例增加文本分類器,將廣告垃圾樣本的評價文本,作為文本分類器的訓(xùn)練集,則當(dāng)新評價的用戶標(biāo)識不包含在所述廣告垃圾用戶標(biāo)識庫中,采用文本分類器進(jìn)行分類判斷,以避免漏檢。
[0041]在其中一個實施例中,還包括:
[0042]從所述廣告垃圾評價集合中抽取廣告關(guān)鍵詞組成廣告詞典;[0043]如果文本分類器將所述新評價分類為非廣告垃圾評價文本,則通過所述廣告詞典對所述新評價的評價文本進(jìn)行過濾,如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量大于或等于預(yù)設(shè)廣告閾值,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
[0044]本實施例增加從所述廣告垃圾評價集合中抽取廣告關(guān)鍵詞組成廣告詞典,如果文本分類器將所述新評價分類為非廣告垃圾評價文本,則通過所述廣告詞典對所述新評價的評價文本進(jìn)行過濾,以避免漏檢。
[0045]在其中一個實施例中,還包括:
[0046]如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量小于預(yù)設(shè)廣告閾值,則對所述評價文本進(jìn)行垃圾評價文本分析,如果所述評價文本進(jìn)行垃圾評價文本分析的結(jié)果為垃圾評價文本,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
[0047]本實施例增加對垃圾評價文本的進(jìn)一步分析。
[0048]優(yōu)選地,所述垃圾評價文本分析包括:
[0049]計算所述評價文本分詞后的單字占比率,如果所述單字占比率大于或等于預(yù)設(shè)的占比率閾值,則判斷所述評價文本為垃圾評價文本。
[0050]如圖2所示為本發(fā)明一個例子的工作流程圖,包括:
[0051]步驟S201,從數(shù)據(jù)庫中獲取一部分商品評價作為樣本,該樣本數(shù)據(jù)由用戶ID與評價文本兩列組成;
[0052]步驟S202,對樣本數(shù)據(jù)進(jìn)行人工標(biāo)注,屬于廣告垃圾評價標(biāo)記為1,否則標(biāo)記為0,同時建立廣告詞典;
[0053]步驟S203,將評價文本這一列用作文本分類器的訓(xùn)練集;
[0054]步驟S204,將標(biāo)記為I的全部樣本用戶ID保存下來形成一個ID庫作為廣告垃圾用戶標(biāo)識庫;
[0055]步驟205,對于一個新的評價,如果廣告垃圾用戶標(biāo)識庫包含這個評價的用戶ID,將這個評價作為廣告垃圾評價的候選集,并初步判斷,這個評價屬于廣告垃圾評價,交付人工處理,執(zhí)行步驟S209 ;
[0056]步驟S206,利用步驟S203標(biāo)注的語料用作訓(xùn)練集,通過文件分類器進(jìn)行文本分類識別,如果屬于I類,將這個評價作為廣告垃圾評價的候選集,并初步判斷,這個評價屬于廣告垃圾評價,交付人工處理,執(zhí)行標(biāo)準(zhǔn)S209,如果屬于O類,執(zhí)行步驟S207 ;
[0057]步驟S207,利用建立的詞典進(jìn)行識別。對于識別為廣告垃圾評價,將這個評價作為廣告垃圾評價的候選集,交付人工處理,執(zhí)行步驟S209,否則,執(zhí)行步驟S208 ;
[0058]步驟S208,執(zhí)行垃圾評價文本分析,如果識別為廣告垃圾評價,將這個評價作為廣告垃圾評價的候選集,交付人工處理;
[0059]步驟S209,將候選集加入樣本,轉(zhuǎn)到步驟S204進(jìn)行標(biāo)識。
[0060]其中,垃圾評價文本分析具體如下:
[0061]利用計算評價文本分詞后單字占比率,來識別垃圾評價。一個垃圾評價通常是用戶隨意敲擊鍵盤亂寫的評價,如前文提到的垃圾類評價示例“我吐兔兔繼續(xù)找我下咯我”??梢园l(fā)現(xiàn),組成這種評價文本的詞多數(shù)是單字詞,例如示例分詞之后為“我\吐\兔\兔\繼續(xù)\找我\下\咯\我”,一共有9個詞,其中單字詞有7個,計算出占比為77.78%。假設(shè)一個評價文本分詞之后,總詞數(shù)數(shù)學(xué)描述為n,單字詞數(shù)為m,那么單字詞占比率為f,計算公式如下:
[0062]f = m/n (m ^ η),
[0063]假定滿足垃圾評價的條件閾值為t (O < t < I),如果f > t,系統(tǒng)將判定該條評價為垃圾評價,其中t的值可以由人工做實驗并靈活設(shè)定。
[0064]如圖3所示為本發(fā)明一種商品評價信息過濾系統(tǒng)的結(jié)構(gòu)模塊圖,包括:
[0065]樣本獲取模塊301,用于獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識;
[0066]標(biāo)識庫建立模塊302,用于建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫;
[0067]新評價判斷模塊303,用于獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。
[0068]在其中一個實施例中,還包括:
[0069]建立包括多個所述廣告垃圾樣本的評價文本的廣告垃圾評價集合,將所述廣告垃圾評價集合作為文本分類器的訓(xùn)練集對文本分類器進(jìn)行訓(xùn)練,所述文本分類器對輸入的評價文本進(jìn)行分類確定為廣告垃圾評價文本或者非廣告垃圾評價文本;
[0070]獲取到新評價后,如果所述新評價的用戶標(biāo)識不包含在所述廣告垃圾用戶標(biāo)識庫中,則文本分類器對所述新評價的評價文本進(jìn)行分類,如果文本分類器將所述新評價的評價文本分類為廣告垃圾評價文本,則所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
[0071]在其中一個實施例中,還包括:
[0072]從所述廣告垃圾評價集合中抽取廣告關(guān)鍵詞組成廣告詞典;
[0073]如果文本分類器將所述新評價分類為非廣告垃圾評價文本,則通過所述廣告詞典對所述新評價的評價文本進(jìn)行過濾,如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量大于或等于預(yù)設(shè)廣告閾值,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
[0074]在其中一個實施例中,還包括:
[0075]如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量小于預(yù)設(shè)廣告閾值,則對所述評價文本進(jìn)行垃圾評價文本分析,如果所述評價文本進(jìn)行垃圾評價文本分析的結(jié)果為垃圾評價文本,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
[0076]在其中一個實施例中,所述垃圾評價文本分析包括:
[0077]計算所述評價文本分詞后的單字占比率,如果所述單字占比率大于或等于預(yù)設(shè)的占比率閾值,則判斷所述評價文本為垃圾評價文本。
[0078]以上所述實施例僅表達(dá)了本發(fā)明的幾種實施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種商品評價信息過濾方法,其特征在于,包括: 獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識; 建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫; 獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。
2.根據(jù)權(quán)利要求1所述的商品評價信息過濾方法,其特征在于,還包括: 建立包括多個所述廣告垃圾樣本的評價文本的廣告垃圾評價集合,將所述廣告垃圾評價集合作為文本分類器的訓(xùn)練集對文本分類器進(jìn)行訓(xùn)練,所述文本分類器對輸入的評價文本進(jìn)行分類確定為廣告垃圾評價文本或者非廣告垃圾評價文本; 獲取到新評價后,如果所述新評價的用戶標(biāo)識不包含在所述廣告垃圾用戶標(biāo)識庫中,則文本分類器對所述新評價的評價文本進(jìn)行分類,如果文本分類器將所述新評價的評價文本分類為廣告垃圾評價文本,則所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
3.根據(jù)權(quán)利要求2所述的商品評價信息過濾方法,其特征在于,還包括: 從所述廣告垃圾評價集合中抽取廣告關(guān)鍵詞組成廣告詞典; 如果文本分類器將所述新評價分類為非廣告垃圾評價文本,則通過所述廣告詞典對所述新評價的評價文本進(jìn)行過濾,如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量大于或等于預(yù)設(shè)廣告閾值,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
4.根據(jù)權(quán)利要求3所述的商品評價信息過濾方法,其特征在于,還包括: 如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量小于預(yù)設(shè)廣告閾值,則對所述評價文本進(jìn)行垃圾評價文本分析,如果所述評價文本進(jìn)行垃圾評價文本分析的結(jié)果為垃圾評價文本,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
5.根據(jù)權(quán)利要求4所述的商品評價信息過濾方法,其特征在于,所述垃圾評價文本分析包括: 計算所述評價文本分詞后的單字占比率,如果所述單字占比率大于或等于預(yù)設(shè)的占比率閾值,則判斷所述評價文本為垃圾評價文本。
6.一種商品評價信息過濾系統(tǒng),其特征在于,包括: 樣本獲取模塊,用于獲取多個預(yù)先確定的廣告垃圾樣本,所述廣告垃圾樣本包括評價文本和用戶標(biāo)識; 標(biāo)識庫建立模塊,用于建立包括多個所述廣告垃圾樣本的用戶標(biāo)識的廣告垃圾用戶標(biāo)識庫; 新評價判斷模塊,用于獲取包含用戶標(biāo)識和評價文本的新評價,如果所述新評價的用戶標(biāo)識包含在所述廣告垃圾用戶標(biāo)識庫中,則確定所述新評價為廣告垃圾評價。
7.根據(jù)權(quán)利要求6所述的商品評價信息過濾系統(tǒng),其特征在于,還包括:建立包括多個所述廣告垃圾樣本的評價文本的廣告垃圾評價集合,將所述廣告垃圾評價集合作為文本分類器的訓(xùn)練集對文本分類器進(jìn)行訓(xùn)練,所述文本分類器對輸入的評價文本進(jìn)行分類確定為廣告垃圾評價文本或者非廣告垃圾評價文本; 獲取到新評價后,如果所述新評價的用戶標(biāo)識不包含在所述廣告垃圾用戶標(biāo)識庫中,則文本分類器對所述新評價的評價文本進(jìn)行分類,如果文本分類器將所述新評價的評價文本分類為廣告垃圾評價文本,則所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
8.根據(jù)權(quán)利要求7所述的商品評價信息過濾系統(tǒng),其特征在于,還包括: 從所述廣告垃圾評價集合中抽取廣告關(guān)鍵詞組成廣告詞典; 如果文本分類器將所述新評價分類為非廣告垃圾評價文本,則通過所述廣告詞典對所述新評價的評價文本進(jìn)行過濾,如果所述新評價的評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量大于或等于預(yù)設(shè)廣告閾值,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
9.根據(jù)權(quán)利要求8所述的商品評價信息過濾系統(tǒng),其特征在于,還包括: 如果所述新評價的 評價文本包含所述廣告詞典中的廣告關(guān)鍵詞的數(shù)量小于預(yù)設(shè)廣告閾值,則對所述評價文本進(jìn)行垃圾評價文本分析,如果所述評價文本進(jìn)行垃圾評價文本分析的結(jié)果為垃圾評價文本,則判斷所述新評價為廣告垃圾評價,將所述新評價的用戶標(biāo)識加入所述廣告垃圾用戶標(biāo)識庫,將所述新評價的評價文本加入所述廣告垃圾評價集合,并對所述文本分類器重新訓(xùn)練。
10.根據(jù)權(quán)利要求9所述的商品評價信息過濾系統(tǒng),其特征在于,所述垃圾評價文本分析包括: 計算所述評價文本分詞后的單字占比率,如果所述單字占比率大于或等于預(yù)設(shè)的占比率閾值,則判斷所述評價文本為垃圾評價文本。
【文檔編號】G06Q30/02GK103996130SQ201410178839
【公開日】2014年8月20日 申請日期:2014年4月29日 優(yōu)先權(quán)日:2014年4月29日
【發(fā)明者】周東 申請人:北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司