亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種內(nèi)容審核方法和系統(tǒng)的制作方法

文檔序號:6493307閱讀:412來源:國知局
一種內(nèi)容審核方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種內(nèi)容審核方法和系統(tǒng),用于使用哈希審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),其中內(nèi)容審核方法包括:A、讀取用戶發(fā)布的數(shù)據(jù),從用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算有效內(nèi)容的哈希摘要值;B、判斷哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于有效內(nèi)容的哈希摘要值,若判斷為是,則執(zhí)行步驟C,若判斷為否,則執(zhí)行步驟D;C、將該存儲項之中的審核參數(shù)作為所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果;D、使用敏感詞庫審核有效內(nèi)容,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
【專利說明】—種內(nèi)容審核方法和系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及計算機和通信領域,特別涉及一種內(nèi)容審核方法和系統(tǒng)。
【背景技術】
[0002]目前用戶應用內(nèi)容審核系統(tǒng)接入的用戶發(fā)布內(nèi)容,數(shù)據(jù)量每月都在快速增長,并且數(shù)據(jù)量呈現(xiàn)如下特點:
[0003]接入的內(nèi)容類型雖然很多,但主要集中在有限的幾個類型,可以占總量的90%;相同的內(nèi)容轉(zhuǎn)發(fā)頻繁,轉(zhuǎn)發(fā)量非常大。
[0004]現(xiàn)有內(nèi)容審核系統(tǒng)的基本審核流程如下:
[0005]首先人工維護一套敏感詞庫,并實時生效;內(nèi)容接入之后進行敏感詞過濾,命中其中一條則進行人工審核,如果沒有命中那么就通過。
[0006]此流程在系統(tǒng)最初上線,用戶發(fā)布內(nèi)容不是很多的時候,沒有問題。但是當內(nèi)容數(shù)量暴增時,人工審核經(jīng)常會有積壓,并且在審核時經(jīng)常需要審核相同多重復出現(xiàn)的數(shù)據(jù),造成人力浪費。因此,需要一種能夠針對重復出現(xiàn)的內(nèi)容,實時更新、動態(tài)調(diào)整審核基準,以提升自動審核比例的內(nèi)容審核方法和系統(tǒng)。

【發(fā)明內(nèi)容】

[0007]本發(fā)明提供一種內(nèi)容審核方法和系統(tǒng),以達到實時更新、動態(tài)調(diào)整審核基準,提升自動審核比例的效果。為達到上述目的,本發(fā)明采用如下技術方案:
[0008]本發(fā)明公開了一種內(nèi)容審核方法,使用哈希審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),該方法包括:
[0009]A、讀取用戶發(fā)布的數(shù)據(jù),從所述用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算所述有效內(nèi)容的哈希摘要值;
[0010]B、判斷所述哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于所述有效內(nèi)容的哈希摘要值,若判斷為是,則執(zhí)行步驟C,若判斷為否,則執(zhí)行步驟D ;
[0011]C、將該存儲項之中的審核參數(shù)作為所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果;
[0012]D、使用敏感詞庫審核所述有效內(nèi)容,若所述有效內(nèi)容未命中敏感詞庫之中的敏感詞,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果為通過,則用戶發(fā)布的數(shù)據(jù)合格;若所述有效內(nèi)容命中敏感詞庫之中的敏感詞,接收管理人的審核指令,根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
[0013]其中,所述根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后,該方法進一步包括步驟E:根據(jù)所述審核結(jié)果更新記錄表中的記錄,其中該記錄表中的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù);判斷所述更新后的記錄的審核次數(shù)是否達到最大閾值,若判斷為是,則在所述記錄表中刪除該條記錄,并將該條記錄中的哈希值和審核參數(shù)移動到所述哈希審核列表中作為存儲項,實現(xiàn)所述哈希審核列表的更新;其中,所述每一條記錄的哈希值是所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)表示所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果,審核次數(shù)為獲得所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果的次數(shù)。
[0014]其中,所述更新記錄表中的記錄,具體包括:判斷記錄表中是否存在一條記錄,該記錄包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值,若判斷為是則修改該條記錄,若判斷為否則新增一條記錄。
[0015]其中當判斷記錄表中存在一條其包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值的記錄時,所述修改該條記錄,具體包括:判斷所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果是否等于該條記錄的審核參數(shù),若判斷為是則將該條記錄的審核次數(shù)增加1,若判斷為否,則將審核次數(shù)減小1,若審核次數(shù)小于預設的最小值,則刪除該條記錄。
[0016]其中,所述哈希審核列表的每個存儲項還包括有效時間參數(shù),該有效時間參數(shù)會隨時間遞減;步驟C進一步包括:將該存儲項之中的有效時間參數(shù)設置為預設的最大有效時間;該方法進一步包括:當一存儲項的有效時間參數(shù)隨時間遞減為O時,刪除該存儲項。
[0017]其中,所述從用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,具體包括:對用戶發(fā)布的數(shù)據(jù)進行切詞分析,濾除對文義沒有影響的標點符號及字符。
[0018]本發(fā)明還公開了一種內(nèi)容審核系統(tǒng),使用哈希審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),該系統(tǒng)包括:數(shù)據(jù)讀取分析單元、哈希審核單元和內(nèi)容審核單元,數(shù)據(jù)讀取分析單元,用于讀取用戶發(fā)布的數(shù)據(jù),從所述用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算所述有效內(nèi)容的哈希摘要值;哈希審核單元,用于判斷所述哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于所述有效內(nèi)容的哈希摘要值,以及若判斷為是,則將該存儲項之中的審核參數(shù)作為審核所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果;內(nèi)容審核單元,用于當哈希審核單元判斷哈希審核列表中不存在哈希值等于有效內(nèi)容的哈希摘要值的存儲項時,使用敏感詞庫審核有效內(nèi)容,若所述有效內(nèi)容未命中敏感詞庫之中的敏感詞,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果為通過,則用戶發(fā)布的數(shù)據(jù)合格;若所述有效內(nèi)容命中敏感詞庫之中的敏感詞,接收管理人的審核指令,根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果O
[0019]其中,該系統(tǒng)還包括哈希審核列表處理單元,用于當內(nèi)容審核單元根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后,根據(jù)所述審核結(jié)果更新記錄表中的記錄,其中該記錄表中的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù);判斷所述更新后的記錄的審核次數(shù)是否達到最大閾值,若判斷為是,則在所述記錄表中刪除該條記錄,并將該條記錄中的哈希值和審核參數(shù)移動到所述哈希審核列表中作為存儲項,實現(xiàn)所述哈希審核列表的更新;其中,所述每一條記錄的哈希值是所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)表示所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果,審核次數(shù)為獲得所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果的次數(shù)。
[0020]其中,哈希審核列表處理單元具體用于:當判斷記錄表中存在一條其包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值的記錄時,判斷所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果是否等于該條記錄的審核參數(shù),若判斷為是,則將該條記錄的審核次數(shù)增加1,若判斷為否,則將審核次數(shù)減小1,若審核次數(shù)小于預設的最小值,則刪除該條記錄。[0021]其中,哈希審核列表的每個存儲項還包括有效時間參數(shù),該有效時間參數(shù)會隨時間遞減;哈希審核單元進一步用于:當判斷哈希審核列表中存在哈希值等于有效內(nèi)容的哈希摘要值的存儲項時,將該存儲項之中的有效時間參數(shù)設置為預設的最大有效時間;哈希審核列表處理單元進一步用于:當一存儲項的有效時間參數(shù)隨時間遞減為O時,刪除該存儲項;數(shù)據(jù)讀取分析單元,具體用于對用戶發(fā)布的數(shù)據(jù)進行切詞分析,濾除對文義沒有影響的標點符號及字符以選取有效內(nèi)容。
[0022]本發(fā)明實施例的有益效果是:通過選取有效內(nèi)容,去除無文義的字符,使得哈希運算更精準;通過設置哈希審核列表并且動態(tài)地修改哈希審核列表,提升自動審核的比例,降低人力消耗。
【專利附圖】

【附圖說明】
[0023]圖1為本發(fā)明較佳實施例提供的一種內(nèi)容審核方法的流程圖;
[0024]圖2為本發(fā)明較佳實施例提供的一種內(nèi)容審核方法中更新哈希審核列表的詳細的流程圖;
[0025]圖3為本發(fā)明較佳實施例提供的一種內(nèi)容審核系統(tǒng)的框圖;
[0026]圖4為本
【發(fā)明內(nèi)容】
審核系統(tǒng)的應用示意圖。
【具體實施方式】
[0027]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步的詳細描述。
[0028]圖1為本發(fā)明較佳實施例提供的一種內(nèi)容審核方法的流程圖。該方法使用哈希(hash)審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),方法包括以下的步驟:
[0029]SlOO:讀取用戶發(fā)布的數(shù)據(jù),從用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算有效內(nèi)容的哈希摘要值。
[0030]S200:判斷哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于有效內(nèi)容的哈希摘要值,若判斷為是,則執(zhí)行步驟S300,若判斷為否,則執(zhí)行步驟S410。
[0031]S300:將該存儲項之中的審核參數(shù)作為審核用戶發(fā)布的數(shù)據(jù)的結(jié)果。
[0032]S410:判斷有效內(nèi)容是否命中敏感詞庫中的敏感詞,若判斷為否,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果為通過,則用戶發(fā)布的數(shù)據(jù)合格并退出流程;若判斷為是,則執(zhí)行步驟S420。
[0033]S420:接收管理人的審核指令,根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
[0034]其中,步驟SlOO之中,從用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,具體是對用戶發(fā)布的數(shù)據(jù)進行切詞分析,濾除對文義沒有影響的標點符號及字符,從而使得哈希運算更精準。而且提取有效內(nèi)容計算哈希摘要值,可以提高匹配的準確率。例如,標點符號、空格、對文意沒有影響的“啊、的”等字詞會被去除,此時哈希運算更精確,含義內(nèi)容相同但是格式不同的數(shù)據(jù),也可以由哈希審核列表審核,加大了哈希審核范圍。
[0035]與現(xiàn)有技術相比,本發(fā)明使用哈希審核列表,由系統(tǒng)自動審核代替了部分的人工審核,降低了人力的消耗。
[0036]圖2為本發(fā)明較佳實施例提供的一種內(nèi)容審核方法中更新哈希審核列表的詳細的流程圖。使用記錄表對步驟S420中得到的有效內(nèi)容及其審核結(jié)果進行匯聚、判斷處理,最終生成并更新哈希審核列表,具體包括在如圖1所示的步驟S420之后的如下步驟:
[0037]S510:判斷記錄表中是否存在一條記錄,該記錄包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值,若判斷為否,則執(zhí)行步驟S 5 2 O,若判斷為是,則執(zhí)行步驟S530,其中該記錄表的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù)。
[0038]S520:新增一條記錄,該新增的記錄的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)為所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
[0039]S530:判斷所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果是否等于該條記錄的審核參數(shù),若判斷為是,則執(zhí)行步驟S540,若判斷為否,則執(zhí)行步驟S550。
[0040]S540:將該條記錄的審核次數(shù)增加1,并執(zhí)行步驟S560。
[0041]S550:將審核次數(shù)減小I,若審核次數(shù)小于預設的最小值,則刪除該條記錄。
[0042]S560:判斷更新后的記錄的審核次數(shù)是否達到最大閾值,若判斷為是,則執(zhí)行步驟S570,若判斷為否,則退出流程。
[0043]S570:在所述記錄表中刪除該條記錄,并將該條記錄中的哈希值和審核參數(shù)移動到所述哈希審核列表中作為存儲項,從而實現(xiàn)所述哈希審核列表的更新。
[0044]其中,所述每一條記錄的哈希值是所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)表示所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果,審核次數(shù)為獲得所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果的次數(shù)。
[0045]通過在步驟S510-S570,可以生成并實時地更新緩存的哈希審核列表。在實際的審核中,用戶發(fā)布的內(nèi)容經(jīng)常與時間相關,一段時間之內(nèi)某些數(shù)據(jù)(例如熱點內(nèi)容)會被許多用戶重復性地發(fā)布,不同時間段內(nèi)用戶發(fā)布的內(nèi)容往往不同,因此實時更新哈希審核列表,可以提高自動審核的概率。
[0046]本實施例中,哈希審核列表的每個存儲項還包括有效時間參數(shù),該有效時間參數(shù)會隨時間遞減;步驟S300進一步包括:將該存儲項之中的有效時間參數(shù)設置為預設的最大有效時間;另外,還會判斷有效時間參數(shù)是否為0,當哈希審核列表的一存儲項的有效時間參數(shù)隨時間遞減為O時,刪除該存儲項。本實施例中,通過設置最大有效時間參數(shù)判斷是否刪除存儲項。當在一段時間之內(nèi)接收到的一個有效內(nèi)容的哈希摘要值等于哈希審核列表的一個存儲項包括的哈希值時,將有效時間參數(shù)設置為最大有效時間參數(shù),進一步地,當某一存儲項的哈希值連續(xù)沒有被匹配的時間達到最大有效時間參數(shù)時,刪除存儲項,可以將使用頻率低的存儲項從哈希審核列表中刪除,使得哈希審核列表的容量維持在適當?shù)囊?guī)模,避免過分增加哈希值比對時的計算量。最大有效時間參數(shù),可以根據(jù)實際的應用需要設置,最大有效時間參數(shù)越大則哈希審核列表的尺寸往往越大,最大有效時間參數(shù)越小則需要后續(xù)通過敏感詞進行審核的概率往往越大。
[0047]本實施例的步驟S510-S570之中,通過設置審核次數(shù),當對于具有同一哈希摘要值的有效內(nèi)容,判斷連續(xù)數(shù)次審核的結(jié)果相同時,表示同樣的有效內(nèi)容重復性地出現(xiàn),此時將哈希摘要補充到哈希審核列表之中,可以實時更新哈希審核列表,提高自動審核的概率;通過設置記錄表記錄審核的結(jié)果,根據(jù)記錄的審核結(jié)果修改哈希審核列表,當對于同一有效內(nèi)容的審核結(jié)果不同時,不會在哈希審核列表之中新增存儲項,可以避免過于頻繁地修改哈希審核列表。當然,也可以進一步在記錄表的各條記錄中設置有效時間參數(shù),隨時間遞減并在記錄被修改時重置,與哈希審核列表的存儲項中的有效時間參數(shù)作用相同。
[0048]本實施例之中,較佳地,審核次數(shù)預設的最小值可以是在新增記錄時初始的審核次數(shù),例如為O ;審核次數(shù)的最大閾值可以根據(jù)實際的需要預設,也可以根據(jù)哈希審核列表已有的存儲項的數(shù)目動態(tài)地調(diào)整。例如當哈希審核列表已有的存儲項的數(shù)目已足夠大,則動態(tài)地增大最大閾值,當哈希審核列表已有的存儲項的數(shù)目較小,則動態(tài)地減小最大閾值。
[0049]另外,通過分別使用敏感詞和哈希審核列表來進行審核,可以分別審核通用的敏感詞和時效性強的內(nèi)容,與現(xiàn)有的審核方法相比較,不需要頻繁地人工修改敏感詞記錄,使得對系統(tǒng)的維護更簡單。
[0050]圖3為本發(fā)明較佳實施例提供的一種內(nèi)容審核系統(tǒng)的框圖。內(nèi)容審核系統(tǒng)使用哈希審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),包括:數(shù)據(jù)讀取分析單元100、哈希審核單元200和內(nèi)容審核單元300。
[0051]本實施例中,數(shù)據(jù)讀取分析單元100,用于讀取用戶發(fā)布的數(shù)據(jù),從用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算有效內(nèi)容的哈希摘要值;哈希審核單元200,用于判斷哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于有效內(nèi)容的哈希摘要值,以及若判斷為是,則將該存儲項之中的審核參數(shù)作為所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果;內(nèi)容審核單元300,用于當哈希審核單元判斷哈希審核列表中不存在哈希值等于有效內(nèi)容的哈希摘要值的存儲項時,使用敏感詞庫審核有效內(nèi)容,若所述有效內(nèi)容未命中敏感詞庫之中的敏感詞,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果為通過,則用戶發(fā)布的數(shù)據(jù)合格;若所述有效內(nèi)容命中敏感詞庫之中的敏感詞,接收管理人的審核指令,根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
[0052]本實施例的內(nèi)容審核系統(tǒng),還包括哈希審核列表處理單元400,用于當內(nèi)容審核單元300根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后,根據(jù)所述審核結(jié)果更新記錄表中的記錄,以及根據(jù)記錄表中的記錄更新哈希審核列表。具體而言,若有效內(nèi)容命中敏感詞庫中的敏感詞,則得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后更新一個記錄表中的記錄,即在記錄表中新增一條記錄或修改記錄表中的記錄,記錄表的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù),更新記錄表中的記錄之后,尤其是修改記錄表中的記錄之后,判斷該條記錄的審核次數(shù)是否達到最大閾值,若判斷為是,則在記錄表中刪除該條記錄并將該條記錄中的哈希值和審核參數(shù)移動到哈希審核列表中作為存儲項,從而實現(xiàn)哈希審核列表的更新;其中,每一條記錄的哈希值是所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)表示所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果,審核次數(shù)為獲得所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果的次數(shù)。
[0053]更具體地,數(shù)據(jù)讀取分析單元100讀取用戶發(fā)布的數(shù)據(jù)、選取有效內(nèi)容并計算哈希摘要值,其中,數(shù)據(jù)讀取分析單元100對用戶發(fā)布的數(shù)據(jù)進行切詞分析,濾除對文義沒有影響的標點符號及字符以選取有效內(nèi)容。
[0054]哈希審核單元200會將計算得到的哈希摘要值與哈希審核列表的各個存儲項的哈希值比對,判斷是否相等。[0055]內(nèi)容審核單元300類似于現(xiàn)有的通用的審核單元:使用包括敏感詞的敏感詞庫審核有效內(nèi)容,判斷有效內(nèi)容是否命中敏感詞庫中的敏感詞,以及在有效內(nèi)容命中敏感詞時,接收管理人的審核指令以得到審核結(jié)果。
[0056]本實施例中,哈希審核列表的每個存儲項還包括有效時間參數(shù),該有效時間參數(shù)會隨時間遞減;當哈希審核單元200判斷哈希審核列表中存在哈希值等于有效內(nèi)容的哈希摘要值的存儲項時,哈希審核單元200將該存儲項之中的有效時間參數(shù)設置為預設的最大有效時間;哈希審核列表處理單元400,當判斷一存儲項的有效時間參數(shù)隨時間遞減為O時,刪除該存儲項。
[0057]本實施例之中,哈希審核列表處理單元400,會通過使用記錄表自動調(diào)整哈希審核列表,記錄表的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù)。若內(nèi)容審核單元300判斷有效內(nèi)容命中敏感詞,則在根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后,哈希審核列表處理單元400會判斷記錄表中是否存在一條記錄,該記錄包括的哈希值等于有效內(nèi)容的哈希摘要值,若判斷為是則修改該條記錄,若判斷為否則新增一條記錄,該新增的記錄的哈希值等于有效內(nèi)容的哈希摘要值,審核參數(shù)為對應的審核指令。
[0058]本實施例中,哈希審核列表處理單元400,當判斷記錄表中存在一條其包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值的記錄時,修改該條記錄的操作具體包括:判斷所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果是否等于該條記錄的審核參數(shù),若判斷為是則將該條記錄的審核次數(shù)增加1,若判斷為否,則將審核次數(shù)減小1,若審核次數(shù)小于預設的最小值,貝1J刪除該條記錄。通過修改審核次數(shù),當對于命中敏感詞的同一有效內(nèi)容的審核結(jié)果不同時,不會在哈希審核列表之中新增存儲項。當然,也可以進一步在記錄表的各條記錄中設置有效時間參數(shù),隨時間遞減并在記錄被修改時重置,與哈希審核列表的存儲項中的有效時間參數(shù)作用相同。
[0059]圖4為本
【發(fā)明內(nèi)容】
審核系統(tǒng)的應用示意圖。圖4顯示了本
【發(fā)明內(nèi)容】
審核系統(tǒng)應用于審核用戶發(fā)布數(shù)據(jù)的示例,由圖可知,讀取數(shù)據(jù)接入之后首先選取有效內(nèi)容,根據(jù)選取的有效內(nèi)容計算哈希摘要值。計算數(shù)據(jù)的哈希摘要值后,與緩存中的哈希審核列表進行匹配,如果命中則根據(jù)哈希審核結(jié)果直接進入審核日志庫,將哈希審核結(jié)果反饋給業(yè)務線進行后續(xù)業(yè)務線處理,不再需要進一步審核。其中哈希審核結(jié)果在審核日志庫中以數(shù)據(jù)反饋任務表的形式進行存儲。
[0060]如果沒有命中哈希審核列表則進行敏感詞過濾。如果沒有命中敏感詞,數(shù)據(jù)審核通過,并進入審核日志庫。如果命中敏感詞,則進行進一步審核,例如人工審核。進一步進行審核結(jié)果匯聚,修改記錄表,并根據(jù)記錄表更新緩存中的哈希審核列表。
[0061]本發(fā)明的實施例具有以下的優(yōu)點:
[0062](一)通過使用哈希審核列表,對于一段時間內(nèi)頻繁出現(xiàn)的數(shù)據(jù),由系統(tǒng)自動審核代替了部分的人工審核,降低了人力的消耗。
[0063](二)對用戶發(fā)布的數(shù)據(jù)進行切詞分析,選取有效內(nèi)容,濾除對文義沒有影響的標點符號及字符,從而使得哈希運算更精準,加大了哈希審核范圍。
[0064](三)利用哈希摘要算法計算哈希摘要值,可以實現(xiàn)對數(shù)據(jù)的快速審核。
[0065](四)通過動態(tài)地修改哈希審核列表,提升自動審核的比例。[0066](五)通過設置記錄表記錄審核的結(jié)果,根據(jù)記錄的審核結(jié)果修改哈希審核列表,滿足條件的哈希值才會被寫入哈希審核列表,使得審核準確性高且可以避免過于頻繁地修改哈希審核列表。
[0067](六)通過將使用頻率低的存儲項從哈希審核列表中刪除,使得哈希審核列表的容量維持在適當?shù)囊?guī)模,避免過分增加對有效內(nèi)容的哈希摘要值進行比對時的計算量。
[0068]需要說明的是,在本文中,術語“包括”、“包含”或者其任何其它變體意在涵蓋非排它性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其它要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0069]本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0070]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術領域】的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保 護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以權(quán)利要求的保護范圍為準。
【權(quán)利要求】
1.一種內(nèi)容審核方法,其特征在于,使用哈希審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),該方法包括: A、讀取用戶發(fā)布的數(shù)據(jù),從所述用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算所述有效內(nèi)容的哈希摘要值; B、判斷所述哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于所述有效內(nèi)容的哈希摘要值,若判斷為是,則執(zhí)行步驟C,若判斷為否,則執(zhí)行步驟D ; C、將該存儲項之中的審核參數(shù)作為所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果; D、使用敏感詞庫審核所述有效內(nèi)容,若所述有效內(nèi)容未命中敏感詞庫之中的敏感詞,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果為通過,則用戶發(fā)布的數(shù)據(jù)合格;若所述有效內(nèi)容命中敏感詞庫之中的敏感詞,接收管理人的審核指令,根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后,該方法進一步包括步驟E:根據(jù)所述審核結(jié)果更新記錄表中的記錄,其中該記錄表中的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù);判斷所述更新后的記錄的審核次數(shù)是否達到最大閾值,若判斷為是,則在所述記錄表中刪除該條記錄,并將該條記錄中的哈希值和審核參數(shù)移動到所述哈希審核列表中作為存儲項,實現(xiàn)所述哈希審核列表的更新;其中,所述每一條記錄的哈希值是所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)表示所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果,審核次數(shù)為獲得所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果的次數(shù)。
3.根據(jù) 權(quán)利要求2所述的方法,其特征在于, 所述更新記錄表中的記錄,具體包括: 判斷記錄表中是否存在一條記錄,該記錄包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值,若判斷為是則修改該條記錄,若判斷為否則新增一條記錄。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于, 當判斷記錄表中存在一條其包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值的記錄時,所述修改該條記錄,具體包括: 判斷所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果是否等于該條記錄的審核參數(shù),若判斷為是則將該條記錄的審核次數(shù)增加1,若判斷為否,則將審核次數(shù)減小1,若審核次數(shù)小于預設的最小值,則刪除該條記錄。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述哈希審核列表的每個存儲項還包括有效時間參數(shù),該有效時間參數(shù)會隨時間遞減; 步驟C進一步包括:將該存儲項之中的有效時間參數(shù)設置為預設的最大有效時間; 該方法進一步包括:當一存儲項的有效時間參數(shù)隨時間遞減為O時,刪除該存儲項。
6.根據(jù)權(quán)利要求1至5任一權(quán)利要求所述的方法,其特征在于, 所述從用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,具體包括:對用戶發(fā)布的數(shù)據(jù)進行切詞分析,濾除對文義沒有影響的標點符號及字符。
7.一種內(nèi)容審核系統(tǒng),其特征在于,使用哈希審核列表審核用戶發(fā)布的內(nèi)容,哈希審核列表的每個存儲項包括哈希值和審核參數(shù),該系統(tǒng)包括:數(shù)據(jù)讀取分析單元、哈希審核單元和內(nèi)容審核單元, 數(shù)據(jù)讀取分析單元,用于讀取用戶發(fā)布的數(shù)據(jù),從所述用戶發(fā)布的數(shù)據(jù)中選取有效內(nèi)容,使用哈希摘要算法計算所述有效內(nèi)容的哈希摘要值; 哈希審核單元,用于判斷所述哈希審核列表中是否存在一個存儲項,該存儲項包括的哈希值等于所述有效內(nèi)容的哈希摘要值,以及若判斷為是,則將該存儲項之中的審核參數(shù)作為所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果; 內(nèi)容審核單元,用于當哈希審核單元判斷哈希審核列表中不存在哈希值等于有效內(nèi)容的哈希摘要值的存儲項時,使用敏感詞庫審核有效內(nèi)容,若所述有效內(nèi)容未命中敏感詞庫之中的敏感詞,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果為通過,則用戶發(fā)布的數(shù)據(jù)合格;若所述有效內(nèi)容命中敏感詞庫之中的敏感詞,接收管理人的審核指令,根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于, 該系統(tǒng)還包括哈希審核列表處理單元,用于當內(nèi)容審核單元根據(jù)所述審核指令對所述命中敏感詞的有效內(nèi)容進行審核,得到所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果之后,根據(jù)所述審核結(jié)果更新記錄表中的記錄,其中該記錄表中的每一條記錄包括哈希值、審核參數(shù)和審核次數(shù);判斷所述更新后的記錄的審核次數(shù)是否達到最大閾值,若判斷為是,則在所述記錄表中刪除該條記錄,并將該條記錄中的哈希值和審核參數(shù)移動到所述哈希審核列表中作為存儲項,實現(xiàn)所述哈希審核列表的更新;其中,所述每一條記錄的哈希值是所述命中敏感詞的有效內(nèi)容的哈希摘要值,審核參數(shù)表示所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果,審核次數(shù)為獲得所述命中敏感詞的有效內(nèi)容對應的用戶發(fā)布的數(shù)據(jù)的審核結(jié)果的次數(shù)。
9.根據(jù)權(quán)利要求8所 述的系統(tǒng),其特征在于, 哈希審核列表處理單元具體用于:當判斷記錄表中存在一條其包括的哈希值等于所述命中敏感詞的有效內(nèi)容的哈希摘要值的記錄時,判斷所述用戶發(fā)布的數(shù)據(jù)的審核結(jié)果是否等于該條記錄的審核參數(shù),若判斷為是,則將該條記錄的審核次數(shù)增加1,若判斷為否,則將審核次數(shù)減小1,若審核次數(shù)小于預設的最小值,則刪除該條記錄。
10.根據(jù)權(quán)利要求7至9任一權(quán)利要求所述的系統(tǒng),其特征在于,哈希審核列表的每個存儲項還包括有效時間參數(shù),該有效時間參數(shù)會隨時間遞減; 哈希審核單元進一步用于:當判斷哈希審核列表中存在哈希值等于有效內(nèi)容的哈希摘要值的存儲項時,將該存儲項之中的有效時間參數(shù)設置為預設的最大有效時間; 哈希審核列表處理單元進一步用于:當一存儲項的有效時間參數(shù)隨時間遞減為O時,刪除該存儲項; 數(shù)據(jù)讀取分析單元,具體用于對用戶發(fā)布的數(shù)據(jù)進行切詞分析,濾除對文義沒有影響的標點符號及字符以選取有效 內(nèi)容。
【文檔編號】G06F17/30GK103885964SQ201210559036
【公開日】2014年6月25日 申請日期:2012年12月20日 優(yōu)先權(quán)日:2012年12月20日
【發(fā)明者】石海濤, 楊剛 申請人:北京新媒傳信科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1