專利名稱:關(guān)鍵詞過(guò)濾系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息過(guò)濾技術(shù)領(lǐng)域,特別涉及一種關(guān)鍵詞過(guò)濾系統(tǒng)及方法。
背景技術(shù):
在web 2.0時(shí)代,互聯(lián)網(wǎng)用戶所產(chǎn)生的內(nèi)容十分廣泛,例如在電子布告欄系統(tǒng)(Bulletin Board System,BBS)論壇上發(fā)布帖子、在博客上發(fā)布文章、以及在最新興起的微博上發(fā)布文本信息,使得互聯(lián)網(wǎng)中每天都有海量的文本內(nèi)容生成。用戶產(chǎn)生的文本內(nèi)容包羅廣泛,但有些內(nèi)容會(huì)涉及色情、欺詐、以及政治敏感信息,而產(chǎn)生的這些內(nèi)容可能會(huì)影響讀者的上網(wǎng)體驗(yàn),或者帶來(lái)精神上、甚至經(jīng)濟(jì)上的危害。無(wú)論是從凈化論壇數(shù)據(jù),還是從提升讀者使用感受的角度出發(fā),各ICP (論壇、博客、微博的提供商)必須對(duì)用戶產(chǎn)生的數(shù)據(jù)進(jìn)行及時(shí)地、有效地過(guò)濾。
現(xiàn)有技術(shù)中,為了及時(shí)地過(guò)濾包含敏感信息的內(nèi)容,比較常用的做法是基于關(guān)鍵詞內(nèi)容的掃描技術(shù),具體為使用與敏感信息有關(guān)的關(guān)鍵詞掃描,比如通過(guò)掃描“色情門”、“艷照”、“偷拍”等關(guān)鍵詞來(lái)發(fā)現(xiàn)與“色情門”有關(guān)的帖子,通過(guò)掃描帖子中的文本內(nèi)容,只要發(fā)現(xiàn)所述文本內(nèi)容中包含任意一個(gè)上述關(guān)鍵詞,即可認(rèn)定該內(nèi)容為與“色情門”有關(guān)的敏感信息,但在實(shí)際發(fā)布文本內(nèi)容的過(guò)程中,有些用戶會(huì)通過(guò)對(duì)準(zhǔn)備發(fā)布的文本內(nèi)容進(jìn)行“微加工”,而逃避審查和過(guò)濾。以“色情門”關(guān)鍵詞為例,用戶可以將準(zhǔn)備發(fā)布的文本內(nèi)容中的“色情門”修改為“色X門”、“色〇門”、“色情門”、“色情門”、“色X情X門”,“色XO情O門”,“色**林*情*林林林林林林林*門”等變形內(nèi)容;雖然這些變化并不會(huì)影響讀者對(duì)文本內(nèi)容的理解,但能夠輕易避開(kāi)現(xiàn)有技術(shù)中基于關(guān)鍵詞內(nèi)容的掃描技術(shù)對(duì)文本內(nèi)容中敏感信息的掃描,繼續(xù)發(fā)布涉及色情、欺詐、以及政治敏感信息,從而使得現(xiàn)有技術(shù)中基于關(guān)鍵詞內(nèi)容的掃描技術(shù)失去意義。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是如何提高對(duì)敏感信息的識(shí)別力,并提高對(duì)敏感信息過(guò)濾的適應(yīng)性。為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種關(guān)鍵詞過(guò)濾系統(tǒng),所述系統(tǒng)包括文本獲取模塊,適于獲取待過(guò)濾文本內(nèi)容;掃描模塊,適于通過(guò)預(yù)設(shè)的關(guān)鍵詞詞典對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距;判斷過(guò)濾模塊,適于判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。其中,所述關(guān)鍵詞為組成敏感信息的詞語(yǔ),所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。
其中,所述關(guān)鍵詞為組成敏感信息的單個(gè)字,所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。其中,所述系統(tǒng)還包括有向性判斷模塊,適于根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置判斷所述各個(gè)關(guān)鍵詞是否滿足有向性。 其中,所述關(guān)鍵詞詞典還存有預(yù)設(shè)的所述關(guān)鍵詞的有向性次序。其中,所述有向性判斷模塊具體包括次序獲得子模塊,用于根據(jù)所述待過(guò)濾文本內(nèi)容中的各個(gè)關(guān)鍵詞的位置獲得所述關(guān)鍵詞的先后次序;有向性匹配子模塊,用于將所述關(guān)鍵詞的先后次序與所述關(guān)鍵詞詞典中預(yù)設(shè)的所述關(guān)鍵詞的有向性次序進(jìn)行匹配,若匹配成功,則判定所述關(guān)鍵詞滿足有向性。其中,所述文本獲取模塊采用網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁(yè),以獲取待過(guò)濾文本內(nèi)容。其中,所述文本獲取模塊通過(guò)接收待過(guò)濾文本,以獲取待過(guò)濾文本內(nèi)容。本發(fā)明還公開(kāi)了一種關(guān)鍵詞過(guò)濾方法,所述方法包括以下步驟獲取待過(guò)濾文本內(nèi)容;通過(guò)預(yù)設(shè)的關(guān)鍵詞詞典對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距;判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。其中,所述關(guān)鍵詞為組成敏感信息的詞語(yǔ),所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。其中,所述關(guān)鍵詞為組成敏感信息的單個(gè)字,所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。其中,判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距之前,還包括以下步驟根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置判斷所述各個(gè)關(guān)鍵詞是否滿足有向性,若是,則執(zhí)行后續(xù)步驟。其中,所述關(guān)鍵詞詞典還存有預(yù)設(shè)的所述關(guān)鍵詞的有向性次序。其中,在判斷所述各個(gè)關(guān)鍵詞是否滿足有向性時(shí),具體包括以下步驟根據(jù)所述待過(guò)濾文本內(nèi)容中的各個(gè)關(guān)鍵詞的位置獲得所述關(guān)鍵詞的先后次序;將所述關(guān)鍵詞的先后次序與所述關(guān)鍵詞詞典中預(yù)設(shè)的所述關(guān)鍵詞的有向性次序進(jìn)行匹配,若匹配成功,則判定所述關(guān)鍵詞滿足有向性。其中,采用網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁(yè),以獲取待過(guò)濾文本內(nèi)容。其中,通過(guò)接收待過(guò)濾文本,以獲取待過(guò)濾文本內(nèi)容。本發(fā)明通過(guò)獲取待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距,并通過(guò)字符間距進(jìn)行判斷,提高了對(duì)敏感信息的識(shí)別力,并提高了對(duì)敏感信息過(guò)濾的適應(yīng)性。
圖I是按照本發(fā)明一種實(shí)施方式的關(guān)鍵詞過(guò)濾系統(tǒng)的結(jié)構(gòu)框圖;圖2是按照本發(fā)明另一種實(shí)施方式的關(guān)鍵詞過(guò)濾系統(tǒng)的結(jié)構(gòu)框圖;圖3是按照本發(fā)明一種實(shí)施方式的關(guān)鍵詞過(guò)濾方法的流程圖;圖4是按照本發(fā)明另一種實(shí)施方式的關(guān)鍵詞過(guò)濾方法的流程圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。以下實(shí)施例適于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。圖I是按照本發(fā)明一種實(shí)施方式的關(guān)鍵詞過(guò)濾系統(tǒng)的結(jié)構(gòu)框圖;參照?qǐng)D1,所述系統(tǒng)包括文本獲取模塊101,適于獲取待過(guò)濾文本內(nèi)容,本實(shí)施例中,所述文本獲取模塊101可采用網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁(yè),以獲取待過(guò)濾文本內(nèi)容,還可通過(guò)接收待過(guò)濾文本(即論壇、博客、微博等信息服務(wù)系統(tǒng)接收由用戶輸入的待發(fā)布文本),以獲取待過(guò)濾文本內(nèi)容;掃描模塊102,適于通過(guò)預(yù)設(shè)的關(guān)鍵詞詞典對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距;判斷過(guò)濾模塊103,適于判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。優(yōu)選地,所述關(guān)鍵詞為能組成敏感信息的詞語(yǔ)或單個(gè)字,所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。所述敏感信息是由多個(gè)詞語(yǔ)構(gòu)成的詞組時(shí),例如,“美國(guó)”、“公交車”、“爆炸”這三個(gè)詞各自獨(dú)立存在時(shí),不會(huì)包含任何敏感信息,但是,當(dāng)這三個(gè)詞同時(shí)出現(xiàn)在一段文本內(nèi)容中時(shí),則有很大可能形成敏感信息,在一般情況下,多個(gè)詞語(yǔ)構(gòu)成的詞組作為敏感信息時(shí)為離散型信息,即無(wú)需具備有向性,并且字符間距很長(zhǎng),甚至整個(gè)文章篇幅中同時(shí)出現(xiàn)仍然可以反映出上述敏感信息,為識(shí)別該詞組,本實(shí)施方式中,將該詞組中的每個(gè)詞作為關(guān)鍵詞;假設(shè)所述關(guān)鍵詞詞典包括3個(gè)關(guān)鍵詞“美國(guó)”、“公交車”及“爆炸”,與其對(duì)應(yīng)的預(yù)設(shè)字符間距為50,并假設(shè)掃描結(jié)果(掃描結(jié)果的格式一 “關(guān)鍵詞”:位置)為“公交車”:34、“美國(guó)”:48、“爆炸”:57 ;掃描結(jié)果中“美國(guó)”、“公交車”、“爆炸”三個(gè)詞都出現(xiàn)了,并且任意兩個(gè)詞之間的字符間距小于50,因此在待過(guò)濾文本內(nèi)容中識(shí)別為由這三個(gè)關(guān)鍵詞所組成的敏感信息,對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行過(guò)濾處理或等待人工審查。優(yōu)選地,所述關(guān)鍵詞為組成敏感信息的單個(gè)字時(shí),參照?qǐng)D2,所述系統(tǒng)還包括有向性判斷模塊104,適于根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置判斷所述各個(gè)關(guān)鍵詞是否滿足有向性,所述有向性為各個(gè)關(guān)鍵詞是否按照一定次序排列。所述關(guān)鍵詞詞典還存有預(yù)設(shè)的所述關(guān)鍵詞的有向性次序。 優(yōu)選地,所述有向性判斷模塊具體包括次序獲得子模塊,用于根據(jù)所述待過(guò)濾文本內(nèi)容中的各個(gè)關(guān)鍵詞的位置獲得所述關(guān)鍵詞的先后次序;
有向性匹配子模塊,用于將所述關(guān)鍵詞的先后次序與所述關(guān)鍵詞詞典中預(yù)設(shè)的所述關(guān)鍵詞的有向性次序進(jìn)行匹配,若匹配成功,則判定所述關(guān)鍵詞滿足有向性。敏感信息是詞語(yǔ)時(shí),例如,“色情門”,在一般情況下,詞語(yǔ)作為敏感信息時(shí)為向量型信息,即具備有向性的信息,組成該敏感信息的關(guān)鍵詞必須按照一定先后次序,才能反映出上述敏感信息,因此,為識(shí)別加工后的該詞語(yǔ),本實(shí)施方式將該詞語(yǔ)按單個(gè)字進(jìn)行拆分,并將拆分后的單個(gè)字作為關(guān)鍵詞;假設(shè)所述關(guān)鍵詞詞典包括3個(gè)關(guān)鍵詞“色”、“情”、“門”,與其對(duì)應(yīng)的預(yù)設(shè)字符間距為10,并且所述關(guān)鍵詞詞典中的有向性次序設(shè)置成依次為“色”、“情”、“門”,并假設(shè)待過(guò)濾文本內(nèi)容中的掃描結(jié)果為(掃描結(jié)果的格式一 “關(guān)鍵詞”:位置)為“情” 67、77、“色” :87、“門” 90 ;掃描結(jié)果中,“色”、“情”、“門”三個(gè)關(guān)鍵詞都出現(xiàn)了,但在所述待過(guò)濾文本內(nèi)容中出現(xiàn)的次序?yàn)榍槌?)->情(77)->色(87)->門(90),所述順序的格式一 “關(guān)鍵詞”(位置),不滿足預(yù)設(shè)的次序排列,因此在待過(guò)濾文本內(nèi)容中未識(shí)別敏感信息“色情門”。
而由于上述詞語(yǔ)還可通過(guò)“色X門”、“色〇門”等省略部分字的情況來(lái)進(jìn)行表示,同樣能反映出上述敏感信息,因此,可采用識(shí)別力更強(qiáng)、但誤判率略高的方式進(jìn)行識(shí)別,該方式如下假設(shè)所述關(guān)鍵詞詞典包括3個(gè)關(guān)鍵詞“色”、“情”、“門”,與其對(duì)應(yīng)的預(yù)設(shè)字符間距為10,并且所述關(guān)鍵詞詞典中的有向性次序包括(I)依次為“色”、“情” ;(2)依次為“色”、“門”;(3)依次為“情”、“門”,并假設(shè)待過(guò)濾文本內(nèi)容中的掃描結(jié)果為(掃描結(jié)果的格式—“關(guān)鍵詞”:位置)為“情” :67、77、“色” :87、“門” 90 ;掃描結(jié)果中,“色”、“情”、“門”三個(gè)關(guān)鍵詞都出現(xiàn)了,但在所述待過(guò)濾文本內(nèi)容中出現(xiàn)的次序?yàn)榍?67)->情(77)->色(87)->門(90),在判斷時(shí),滿足所述有向性次序中的(2)和(3),并且色(87)->門(90)之間的字符間距小于預(yù)設(shè)字符間距,因此,在待過(guò)濾文本內(nèi)容中識(shí)別了敏感信息“色情門”,需要對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行過(guò)濾處理或等待人工
審查;圖3是按照本發(fā)明一種實(shí)施方式的關(guān)鍵詞過(guò)濾方法的流程圖;參照?qǐng)D3,所述方法包括以下步驟S201 :獲取待過(guò)濾文本內(nèi)容,本實(shí)施例中,可采用網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁(yè),以獲取待過(guò)濾文本內(nèi)容,還可通過(guò)接收待過(guò)濾文本(即論壇、博客、微博等信息服務(wù)系統(tǒng)接收由用戶輸入的待發(fā)布文本),以獲取待過(guò)濾文本內(nèi)容;S202:通過(guò)預(yù)設(shè)的關(guān)鍵詞詞典對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距;S203:判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。步驟S202中,若所述待過(guò)濾文本內(nèi)容中沒(méi)有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則直接結(jié)束流程;步驟S203中,若是,則直接結(jié)束流程優(yōu)選地,所述關(guān)鍵詞為組成敏感信息的詞語(yǔ),所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。
優(yōu)選地,所述關(guān)鍵詞為組成敏感信息的單個(gè)字,所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。參照?qǐng)D4,優(yōu)選地,步驟S203之前,還包括以下步驟S204:根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置判斷所述各個(gè)關(guān)鍵詞是否滿足有向性,若是,則執(zhí)行后續(xù)步驟。
優(yōu)選地,所述關(guān)鍵詞詞典還存有預(yù)設(shè)的所述關(guān)鍵詞的有向性次序。優(yōu)選地,在判斷所述各個(gè)關(guān)鍵詞是否滿足有向性時(shí),具體包括以下步驟根據(jù)所述待過(guò)濾文本內(nèi)容中的各個(gè)關(guān)鍵詞的位置獲得所述關(guān)鍵詞的先后次序;將所述關(guān)鍵詞的先后次序與所述關(guān)鍵詞詞典中預(yù)設(shè)的所述關(guān)鍵詞的有向性次序進(jìn)行匹配,若匹配成功,則判定所述關(guān)鍵詞滿足有向性。應(yīng)當(dāng)注意的是,在本發(fā)明的系統(tǒng)的各個(gè)部件中,根據(jù)其要實(shí)現(xiàn)的功能而對(duì)其中的部件進(jìn)行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據(jù)需要對(duì)各個(gè)部件進(jìn)行重新劃分或者組合,例如,可以將一些部件組合為單個(gè)部件,或者可以將一些部件進(jìn)一步分解為更多的子部件。 本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。以上實(shí)施方式僅適于說(shuō)明本發(fā)明,而并非對(duì)本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
1.一種關(guān)鍵詞過(guò)濾系統(tǒng),其特征在于,所述系統(tǒng)包括 文本獲取模塊,適于獲取待過(guò)濾文本內(nèi)容; 掃描模塊,適于通過(guò)預(yù)設(shè)的關(guān)鍵詞詞典對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距; 判斷過(guò)濾模塊,適于判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。
2.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述關(guān)鍵詞為組成敏感信息的詞語(yǔ),所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。
3.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述關(guān)鍵詞為組成敏感信息的單個(gè)字,所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。
4.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 有向性判斷模塊,適于根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置判斷所述各個(gè)關(guān)鍵詞是否滿足有向性。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述關(guān)鍵詞詞典還存有預(yù)設(shè)的所述關(guān)鍵詞的有向性次序。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述有向性判斷模塊具體包括 次序獲得子模塊,用于根據(jù)所述待過(guò)濾文本內(nèi)容中的各個(gè)關(guān)鍵詞的位置獲得所述關(guān)鍵詞的先后次序; 有向性匹配子模塊,用于將所述關(guān)鍵詞的先后次序與所述關(guān)鍵詞詞典中預(yù)設(shè)的所述關(guān)鍵詞的有向性次序進(jìn)行匹配,若匹配成功,則判定所述關(guān)鍵詞滿足有向性。
7.如權(quán)利要求1飛中任一項(xiàng)所述的系統(tǒng),其特征在于,所述文本獲取模塊采用網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁(yè),以獲取待過(guò)濾文本內(nèi)容。
8.如權(quán)利要求1飛中任一項(xiàng)所述的系統(tǒng),其特征在于,所述文本獲取模塊通過(guò)接收待過(guò)濾文本,以獲取待過(guò)濾文本內(nèi)容。
9.一種關(guān)鍵詞過(guò)濾方法,其特征在于,所述方法包括以下步驟 獲取待過(guò)濾文本內(nèi)容; 通過(guò)預(yù)設(shè)的關(guān)鍵詞詞典對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有所述預(yù)設(shè)的關(guān)鍵詞詞典中所存儲(chǔ)的關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距; 判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。
10.如權(quán)利要求9所述的方法,其特征在于,所述關(guān)鍵詞為組成敏感信息的詞語(yǔ),所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。
11.如權(quán)利要求9所述的方法,其特征在于,所述關(guān)鍵詞為組成敏感信息的單個(gè)字,所述預(yù)設(shè)的關(guān)鍵詞詞典存有需要過(guò)濾的所有關(guān)鍵詞。
12.如權(quán)利要求11所述的方法,其特征在于,判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距之前,還包括以下步驟 根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置判斷所述各個(gè)關(guān)鍵詞是否滿足有向性,若是,則執(zhí)行后續(xù)步驟。
13.如權(quán)利要求12所述的方法,其特征在于,所述關(guān)鍵詞詞典還存有預(yù)設(shè)的所述關(guān)鍵詞的有向性次序。
14.如權(quán)利要求13所述的方法,其特征在于,在判斷所述各個(gè)關(guān)鍵詞是否滿足有向性時(shí),具體包括以下步驟 根據(jù)所述待過(guò)濾文本內(nèi)容中的各個(gè)關(guān)鍵詞的位置獲得所述關(guān)鍵詞的先后次序; 將所述關(guān)鍵詞的先后次序與所述關(guān)鍵詞詞典中預(yù)設(shè)的所述關(guān)鍵詞的有向性次序進(jìn)行匹配,若匹配成功,則判定所述關(guān)鍵詞滿足有向性。
15.如權(quán)利要求擴(kuò)14中任一項(xiàng)所述的方法,其特征在于,采用網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁(yè),以獲取待過(guò)濾文本內(nèi)容。
16.如權(quán)利要求擴(kuò)14中任一項(xiàng)所述的系統(tǒng),其特征在于,通過(guò)接收待過(guò)濾文本,以獲取待過(guò)濾文本內(nèi)容。
全文摘要
本發(fā)明公開(kāi)了一種關(guān)鍵詞過(guò)濾系統(tǒng)及方法,涉及網(wǎng)絡(luò)信息過(guò)濾技術(shù)領(lǐng)域,所述系統(tǒng)包括文本獲取模塊,適于獲取待過(guò)濾文本內(nèi)容;掃描模塊,適于對(duì)所述待過(guò)濾文本內(nèi)容進(jìn)行掃描,若所述待過(guò)濾文本內(nèi)容中具有關(guān)鍵詞,則記錄所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置,并根據(jù)所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞的位置來(lái)獲取所述待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距;間距判斷模塊,適于判斷所述字符間距是否超過(guò)了預(yù)設(shè)字符間距,若否,則將所述待過(guò)濾文本內(nèi)容中的所述關(guān)鍵詞進(jìn)行過(guò)濾處理。本發(fā)明通過(guò)獲取待過(guò)濾文本內(nèi)容中各個(gè)關(guān)鍵詞之間的字符間距,并通過(guò)字符間距進(jìn)行判斷,提高了對(duì)敏感信息的識(shí)別力,并提高了對(duì)敏感信息過(guò)濾的適應(yīng)性。
文檔編號(hào)G06F17/30GK102779176SQ20121021855
公開(kāi)日2012年11月14日 申請(qǐng)日期2012年6月27日 優(yōu)先權(quán)日2012年6月27日
發(fā)明者劉緒平, 李鐵鈞, 韓孟崗 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司