亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種敏感詞過濾方法及系統(tǒng)的制作方法

文檔序號:9810617閱讀:1691來源:國知局
一種敏感詞過濾方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及字符串多模式匹配領(lǐng)域,尤其涉及一種敏感詞過濾方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)站內(nèi)容日益豐富,互聯(lián)網(wǎng)的開放性向用戶提供了UGC(UserGenerated Content,用戶生產(chǎn)內(nèi)容)網(wǎng)站或者社交應用軟件等,用戶共享信息的同時伴隨著許多不符合互聯(lián)網(wǎng)使用環(huán)境甚至違反國家法律法規(guī)的內(nèi)容,如政治敏感、色情詞匯等等,給互聯(lián)網(wǎng)管理工作帶來了巨大的壓力。
[0003]文本內(nèi)容的發(fā)布渠道越來越多樣,發(fā)布者也越來越大眾化,有時甚至是匿名的,面對紛繁大量的文本,互聯(lián)網(wǎng)管理者希望能從中過濾出非法的和對自己不利的信息,此外,內(nèi)容的搜集者在從網(wǎng)絡上搜集文本時,也希望能通過有效的技術(shù)手段獲取自己感興趣的信息,而排除掉大量的無關(guān)信息,從而營造一個良好的互聯(lián)網(wǎng)使用環(huán)境。
[0004]現(xiàn)有技術(shù)中的敏感詞過濾方法中敏感詞匹配模式單一,容易造成敏感詞的誤匹配或者漏匹配,并且匹配策略性能較低,給敏感詞的過濾速度帶來了很大的壓力。

【發(fā)明內(nèi)容】

[0005]為克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是:提供一種敏感詞過濾方法及系統(tǒng),一方面有效減少敏感詞的誤判,另一方面利用不同形式的過濾策略及近似匹配,有效減少敏感詞的漏判,從而保證敏感詞過濾的準確率和召回率。
[0006]為了解決【背景技術(shù)】中的技術(shù)問題,本發(fā)明提供了一種敏感詞過濾方法,包括以下步驟:
[0007]S1、對敏感詞、排除詞以及文本的字符進行規(guī)格化處理,對敏感詞規(guī)格化處理形成敏感詞管理規(guī)則,對排除詞規(guī)格化處理形成排除詞管理規(guī)則;
[0008]S2、根據(jù)所述敏感詞管理規(guī)則和排除詞管理規(guī)則建立敏感詞過濾模型,利用所述敏感詞過濾模型對規(guī)格化處理后的文本的字符或分詞進行掃描;
[0009]S3、根據(jù)敏感詞過濾策略,將所述敏感詞過濾模型與被掃描的字符或者分詞進行匹配,判斷所述字符或者分詞是否為敏感詞或者排除詞;
[0010]S4、若判斷結(jié)果為敏感詞,且根據(jù)敏感詞的上下文判定所述敏感詞成立,則記錄所述敏感詞的屬性,否則,執(zhí)行S3,直至完成對所述文本的掃描。
[0011]優(yōu)選地,所述步驟S3中的敏感詞過濾策略包括缺省敏感詞過濾策略、英文敏感詞過濾策略、網(wǎng)址敏感詞過濾策略、中文敏感詞過濾策略、中文分詞敏感詞過濾策略和中文敏感詞近似匹配過濾策略。
[0012]進一步地,所述缺省敏感詞過濾策略為以字符作為文本的基本組成單元,過濾非英文、非網(wǎng)址、非中文形式的敏感詞;所述英文敏感詞過濾策略為過濾英文敏感詞,以及中文敏感詞的全屏和拼音縮寫;所述網(wǎng)址敏感詞過濾策略為過濾網(wǎng)址敏感詞;所述中文敏感詞過濾策略為過濾以字符為基本組成單元的中文敏感詞;所述中文分詞敏感詞過濾策略為過濾以分詞為基本組成單元的中文敏感詞;所述中文敏感詞近似匹配過濾策略為采用跳躍式掃描文本,利用中文敏感詞及其殘缺詞對高敏感級別的中文敏感詞進行匹配。
[0013]本發(fā)明還提供了一種敏感詞過濾系統(tǒng),包括以下模塊:
[0014]規(guī)格化處理模塊,用于對敏感詞、排除詞以及文本的字符進行規(guī)格化處理;
[0015]敏感詞管理模塊,用于通過所述規(guī)格化處理模塊對敏感詞進行規(guī)格化處理,進而維護管理敏感詞庫中的敏感詞;
[0016]排除詞管理模塊,用于通過所述規(guī)格化處理模塊對排除詞進行規(guī)格化處理,進而維護管理敏感詞對應的排除詞;
[0017]敏感詞過濾模塊,用于根據(jù)敏感詞管理模塊和排除詞管理模塊建立的過濾模型,實現(xiàn)對文本中敏感詞的匹配與判定,并匯總過濾結(jié)果。
[0018]優(yōu)選地,所述敏感詞過濾模塊包括缺省敏感詞過濾子模塊、英文敏感詞過濾子模塊、網(wǎng)址敏感詞過濾子模塊、中文敏感詞過濾子模塊、中文分詞敏感詞過濾子模塊及中文敏感詞近似匹配過濾子模塊。
[0019]具體地,所述規(guī)格化處理模塊進一步用于:將多個連續(xù)空白字符替換為單個空格字符、將繁體中文字符轉(zhuǎn)換為簡體中文字符、將大寫字母轉(zhuǎn)為小寫字母、僅保留多個連續(xù)標點符號的第一個、對英文單詞進行詞形還原。
[OO2O ]具體地,所述過濾模型為由敏感詞及其排除詞構(gòu)造形成的Aho -Cor a s i c k自動機,所述敏感詞過濾模塊包括的各子模塊利用Aho-Corasick自動機匹配算法,并行執(zhí)行對文本的敏感詞過濾。
[0021 ]進一步地,所述缺省敏感詞過濾子模塊用于過濾非英文、非網(wǎng)址、非中文形式的敏感詞,以字符作為文本的基本組成單元;所述英文敏感詞過濾子模塊用于過濾英文敏感詞,以及中文敏感詞的全屏和拼音縮寫;所述網(wǎng)址敏感詞過濾子模塊用于過濾網(wǎng)址敏感詞;所述中文敏感詞過濾子模塊用于過濾以字符為基本組成單元的中文敏感詞;所述中文分詞敏感詞過濾子模塊用于過濾以分詞為基本組成單元的中文敏感詞;所述中文敏感詞近似匹配過濾子模塊用于采用跳躍式掃描文本,利用中文敏感詞及其殘缺詞對高敏感級別的中文敏感詞進行匹配。
[0022]具體地,所述敏感詞過濾模塊在匹配過程中,即匹配敏感詞,又匹配排除詞;在判定過程中,如果敏感詞作為排除詞的子串出現(xiàn),則不添加到過濾結(jié)果中,否則,將所述敏感詞及其出現(xiàn)位置和敏感級別添加到所述過濾結(jié)果中。
[0023]本發(fā)明的敏感詞過濾系統(tǒng)還包括詞庫數(shù)據(jù)庫模塊,用于存儲敏感詞和排除詞,對所述敏感詞和排除詞的管理包括對所述詞庫數(shù)據(jù)庫模塊的增加、修改、刪除和查詢操作。
[0024]采用上述技術(shù)方案,本發(fā)明具有如下有益效果:①針對不同存在形式的敏感詞,采用專門的過濾策略,保證了過濾中文敏感詞、英文敏感詞、網(wǎng)址敏感詞的高準確率和高召回率;②通過特殊的字符規(guī)格化等預處理技術(shù),消除了特殊字符、不同的字符格式等造成的干擾;③通過排除詞和其它匹配成功后的判定規(guī)則,減少了敏感詞在特定上下文的誤判;④支持分詞,減少了因組詞錯誤而引起的誤判;⑤針對敏感級別高的中文敏感詞,能夠做到一定程度的近似匹配,提高了召回率;⑥采用成熟高效的Aho-Corasick自動機算法和多線程分布式技術(shù),解決了過濾大量敏感詞的性能問題。綜上所述,本發(fā)明的敏感詞過濾方法及系統(tǒng)一方面能夠有效減少敏感詞的誤判,另一方面利用不同形式的過濾策略及近似匹配,有效減少敏感詞的漏判,保證了敏感詞過濾的準確率和召回率。
【附圖說明】
[0025]為了更清楚地說明本發(fā)明的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它附圖。
[0026]圖1是本發(fā)明實施例提供的敏感詞過濾系統(tǒng)的模塊示意圖;
[0027]圖2是本發(fā)明實施例提供的規(guī)格化處理模塊的工作流程圖;
[0028]圖3是本發(fā)明實施例提供的敏感詞與排除詞的實體關(guān)系圖;
[0029]圖4是本發(fā)明實施例提供的敏感詞過濾方法的流程圖;
[0030]圖5是本發(fā)明實施例提供的用于中文敏感詞近似匹配的Aho-Corasick自動機示例圖;
[0031]圖6是本發(fā)明實施例提供的中文敏感詞近似匹配的掃描路徑示例圖;
[0032]圖7是本發(fā)明實施例提供的中文敏感詞近似匹配過程的狀態(tài)轉(zhuǎn)移示例圖。
【具體實施方式】
[0033]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0034]實施例1:圖4是本發(fā)明實施例提供的敏感詞過濾方法的流程圖,從圖中可以清楚地看出,本實施例提供的敏感詞過濾方法包括以下步驟:
[0035]S1、對敏感詞、排除詞以及文本的字符進行規(guī)格化處理,對敏感詞規(guī)格化處理形成敏感詞管理規(guī)則,對排除詞規(guī)格化處理形成排除詞管理規(guī)則;
[0036]S2、根據(jù)所述敏感詞管理規(guī)則和排除詞管理規(guī)則建立敏感詞過濾模型,利用所述敏感詞過濾模型對規(guī)格化處理后的文本的字符或分詞進行掃描;
[0037]S3、根據(jù)敏感詞過濾策略,將所述敏感詞過濾模型與被掃描的字符或者分詞進行匹配,判斷所述字符或者分詞是否為敏感詞或者排除詞;
[0038]S4、若判斷結(jié)果為敏感詞,且根據(jù)敏感詞的上下文判定所述敏感詞成立,則記錄所述敏感詞的屬性,否則,執(zhí)行S3,直至完成對所述文本的掃描,其中,所述敏感詞主要包括兩個屬性:存在形式、敏感級別,敏感詞按存在形式可分為中文敏感詞、英文敏感詞、網(wǎng)址敏感詞和缺省形式敏感詞,中文敏感詞的
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1