亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

敏感詞過濾方法

文檔序號:9564585閱讀:12442來源:國知局
敏感詞過濾方法
【技術領域】
[0001]本發(fā)明涉及一種過濾方法,尤其涉及一種敏感詞過濾方法。
【背景技術】
[0002]就現(xiàn)有技術來看,網(wǎng)站上對于用戶提交評論信息,如果想要進行敏感詞過濾或是篩選,則大部分需要人工審核,或者通過程序處理經(jīng)常出現(xiàn)的幾個敏感詞。這種方式處理起來比較繁瑣,需要人消耗很多時間參與。同時,需要不斷補充可能存在的敏感詞,對重疊詞則不容易判斷。更為重要的是,伴隨著瀏覽用戶的增加,當評論越來越多的時候,這種方式幾乎是不可行的。為了解決這種問題,需要一個很強大的敏感詞處理方法配合軟件的執(zhí)行來解決此類問題。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的就是為了解決現(xiàn)有技術中存在的上述問題,提供一種敏感詞過濾方法。
[0004]本發(fā)明的目的通過以下技術方案來實現(xiàn):
敏感詞過濾方法,其中:至少采用下述方法,采用中文判斷算法;通過最大正向匹配算法,進行敏感詞判斷;通過連續(xù)重復詞進行判讀,采用正向檢測,如果有兩個重復詞,就開始進入重復檢測模式,直到滿足最小重復詞個數(shù);采用郵箱、手機號、網(wǎng)址分析,判斷郵箱的@、手機號、網(wǎng)址的域名是否為特征的連續(xù)字符串;上述方法中凡符合過濾需求的則進行過濾處理,否則予以放行。
[0005]上述的敏感詞過濾方法,其中:所述的中文判斷算法通過底層編碼落在中文編碼范圍內(nèi)來判斷,所述的中文編碼范圍為,第一節(jié)字,行碼0x81至OxFE第二節(jié)字,列碼0x40至 0x7E,OxAl 至 OxFEο
[0006]進一步地,上述的敏感詞過濾方法,其中:所述的敏感詞判斷過程如下:步驟①,建立敏感詞字典,將需要判斷的敏感詞全部放入字典里。
[0007]步驟②,進行判斷初始化,設s=l,n=l,s表示從第幾個字開始取,η表示取幾個字。步驟③,取輸入詞的第s個往后η個字,與詞典里的詞比較是否存在,如果存在則執(zhí)行步驟④,如果不存在,則η=η+1,繼續(xù)執(zhí)行步驟③。步驟④,將匹配到的詞放入匹配列表中,如果s=輸入詞的最大長度,則執(zhí)行步驟⑤。如果s+n已經(jīng)等于輸入詞的最大長度,則設置s=s+l,n=l ;否則n=n+l,繼續(xù)執(zhí)行步驟③。步驟⑤,匹配列表去重并返回。
[0008]更進一步地,上述的敏感詞過濾方法,其中:所述的連續(xù)重復詞判讀過程為,步驟①,進行初始化,設s=l。步驟②,取第s個字,并往后查找個相同的字,找到則記錄相同字的位置,設為P,并執(zhí)行步驟③;如果沒找到,則s=s+l,并繼續(xù)執(zhí)行此步,如果s等于輸入詞的最大長度,則執(zhí)行步驟④。步驟③,設置n=l,如果s+n>p則s=s+l并執(zhí)行步驟②;比較s+n個字是否和P+n個字相同,如果相同,則n=n+l繼續(xù)執(zhí)行此步;如果不同,且s+n=p,則取前面s+η-Ι個詞,放入重復詞列表;如果s+n〈p則s=s+l執(zhí)行步驟②。步驟④對重復內(nèi)容進行去重處理,返回相應重復詞列表。
[0009]更進一步地,上述的敏感詞過濾方法,其中:所述的采用郵箱分析過程為,步驟①,進行初始化,設s=l。步驟②,從第s個字開始查找@符號的位置,設為P,若找到,則執(zhí)行步驟③,若沒找到,則s=s+l,繼續(xù)執(zhí)行此步。步驟③,從P位置分別往左和往右查找符合郵箱的字,所述的字包括,字母、數(shù)字、下劃線、點號,中的一種或是多種,設最左位置記為m,最右位置記為n,取m到η之間的字判斷是否是郵箱,若是郵箱,則放入郵箱列表,若不是,則設置s=p+l,并執(zhí)行步驟②。步驟④,將郵箱列表去重并返回。
[0010]更進一步地,上述的敏感詞過濾方法,其中:所述的手機號分析過程為,步驟①,進行初始化,設s=l。步驟②,從第S個字開始查找數(shù)字的位置,設為P,若找到,則執(zhí)行步驟③,若沒找到,則s=s+l,繼續(xù)執(zhí)行此步。步驟③,從P位置分別往左和往右查找數(shù)字,最左位置記為m,最右位置記為n,取m到η之間的字判斷是否是手機號,如果是,則就放入手機號列表,如果不是,則設置s=p+l,并執(zhí)行步驟②。步驟④,將手機號列表去重并返回。
[0011]更進一步地,上述的敏感詞過濾方法,其中:所述的網(wǎng)址分析過程為,步驟①,進行初始化,設s=l。步驟②,從第S個字開始查找”符號的位置,設為P,若找到,則執(zhí)行步驟③,若沒找到,則s=s+l,繼續(xù)執(zhí)行此步。步驟③,從P位置往右查找符合域名后綴的字,最左位置記為m,最右位置記為n,取m到η之間的字判斷是否屬于域名后綴,若不屬于域名后綴,則執(zhí)行s=P+l,返回步驟②,若屬于域名后綴,則從P位置往前查找匹配信息,設最左位置記為q,取q到η之間的字判斷是否是網(wǎng)址內(nèi)容,若是,則放入網(wǎng)址列表,若不是,則設置s=p+l,執(zhí)行步驟②。
[0012]再進一步地,上述的敏感詞過濾方法,其中:所述的字包括字母、數(shù)字、點號,所述的域名后綴是“.com”或是“.cn”,所述的所需內(nèi)容包括字母、數(shù)字、點號、反斜杠、冒號,所述的網(wǎng)址內(nèi)容是“http://”或是“ftp://”。
[0013]本發(fā)明技術方案的優(yōu)點主要體現(xiàn)在:能夠從中文詞句判斷出發(fā),結合郵箱、手機號、網(wǎng)址等各類字符,實現(xiàn)全面的敏感詞的判斷與過濾。更為重要的是,采用本發(fā)明后可以通過軟件配合算法,能夠?qū)崿F(xiàn)免人工參與的自動化連續(xù)重復詞判讀檢測,郵箱、手機號、網(wǎng)址分析,匹配連續(xù)字符串,自動對比敏感詞字典,提高了網(wǎng)站數(shù)據(jù),尤其是用戶評論的審核效率。
【具體實施方式】
[0014]敏感詞過濾方法,其與眾不同之處在于:至少采用下述方法,首先,采用中文判斷算法。同時,通過最大正向匹配算法,進行敏感詞判斷。為了擴大敏感詞的判斷范圍,同時結合中文的用于習慣,敏感詞判斷可以支持拼音。并且,能夠連續(xù)重復詞進行判讀,采用正向檢測,如果有兩個重復詞,就開始進入重復檢測模式,直到滿足最小重復詞個數(shù)。再者,采用郵箱、手機號、網(wǎng)址分析,判斷郵箱的@、手機號、網(wǎng)址的域名是否為特征的連續(xù)字符串,提升整體的判斷效率。上述方法中凡符合過濾需求的則進行過濾處理,否則予以放行。
[0015]同時,考慮到中文字符的編碼特殊性,為了提高判斷效果,中文判斷算法通過底層編碼落在中文編碼范圍內(nèi)來判斷。具體來說,中文編碼范圍為,第一節(jié)字,行碼0x81至OxFE第二節(jié)字,列碼0x40至0x7E, OxAl至OxFE。
[0016]就本發(fā)明一較佳的實施方式來看,采用的敏感詞判斷過程如下:步驟①,建立敏感詞字典,將需要判斷的敏感詞全部放入字典里。步驟②,進行判斷初始化,設s=l,n=l, s表示從第幾個字開始取,η表示取幾個字。步驟③,取輸入詞的第s個往后η個字,與詞典里的詞比較是否存在,如果存在則執(zhí)行步驟④,如果不存在,則η=η+1,繼續(xù)執(zhí)行步驟③。步驟④,將匹配到的詞放入匹配列表中,如果s=輸入詞的最大長度,則執(zhí)行步驟⑤。如果s+n已經(jīng)等于輸入詞的最大長度,則設置s=s+l,n=l ;否則n=n+l,繼續(xù)執(zhí)行步驟③。步驟⑤,匹配列表去重并返回。
[0017]進一步來看,采用的連續(xù)重復詞判讀過程為:步驟①,進行初始化,設s=l。步驟②,取第s個字,并往后查找個相同的字,找到則記錄相同字的位置,設為P,并執(zhí)行步驟③。如果沒找到,則s=s+l,并繼續(xù)執(zhí)行此步,如果s等于輸入詞的最大長度,則執(zhí)行步驟④。具體來說,采用的步驟③為,設置n=l,如果s+n>P則s=s+l并執(zhí)行步驟②。并且,比較s+n個字是否和P+n個字相同,如果相同,則n=n+l繼續(xù)執(zhí)行此步。如果不同,且s+n=p,則取前面s+η-Ι個詞,放入重復詞列表。如果s+n〈p則s=s+l執(zhí)行步驟②。步驟④對重復內(nèi)容進行去重處理,返回相應重復詞列表。
[0018]再進一步來看,本發(fā)明采用郵箱分析過程為:步驟①,進行初始化,設s=l。步驟②,從第s個字開始查找@符號的位置,設為P,若找到,則執(zhí)行步驟③,若沒找到,則s=s+l,繼續(xù)執(zhí)行此步。步驟③,從P位置分別往左和往右查找符合郵箱的字,所述的字包括,字母、數(shù)字、下劃線、點號,中的一種或是多種,設最左位置記為m,最右位置記為n,取m到η之間的字判斷是否是郵箱,若是郵箱,則放入郵箱列表,若不是,則設置s=p+l,并執(zhí)行步驟②。最終,通過步驟④將郵箱列表去重并返回。
[0019]同樣的,為了有效實現(xiàn)對手機號的監(jiān)管排查,采用的手機號分析過程如下:步驟①,進行初始化,設s=l。之后,進入步驟②,從第s個字開始查找數(shù)字的位置,設為p,若找至IJ,則執(zhí)行步驟③,若沒找到,則s=s+
當前第1頁1 2 
網(wǎng)友詢問留言 已有2條留言
  • 訪客 來自[中國] 2020年09月28日 10:17
    大家好今天去拍個視頻剪輯好上傳抖音
    0
  • 訪客 來自[中國] 2020年09月28日 09:54
    我特別珍惜抖音里不聊天卻天天給我點贊的人,因為我知道不是我的作品拍得有多好,而是有一種感情叫關注! 
    0
1