專利名稱:用于檢測欺詐性文本消息的設(shè)備和相關(guān)方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及一種方式,通過該方式來檢測接收的電子郵件或其他文本消息是 垃圾或其他欺詐性消息。更具體而言,本發(fā)明涉及一種設(shè)備和相關(guān)方法,通過該設(shè)備和相關(guān) 方法,通過針對非母語說話者(non-native language speaker)使用的文本所特有的文本 對消息進行分析來確定該消息是否是欺詐性的。包括非母語說話者通常所犯的語法和使用錯誤的列表的規(guī)則集被訪問且用于分 析接收消息的文本。如果接收消息被確定為很可能由非母語說話者所寫且具有指示欺詐性 消息的其他特性,則該消息被認為很可能是欺詐性消息。
背景技術(shù):
通信技術(shù)的進步已經(jīng)允許新類型的通信服務(wù)的開發(fā)、部署和常規(guī)使用。對于很多 人而言,能夠使用這些通信服務(wù)來進行通信是他們?nèi)粘I畹牟豢苫蛉钡牟糠?,無論是用 于業(yè)務(wù)通信還是用于個人通信。例如,常常通過使用諸如可連接到通信網(wǎng)絡(luò)的計算機站的基于處理器的裝置來實 施通信。常規(guī)的個人計算機可連接到私有網(wǎng)絡(luò)和公共網(wǎng)絡(luò),例如互聯(lián)網(wǎng)。一旦連接,在計算 機站發(fā)源的通信數(shù)據(jù)能夠被傳送到其他地點,諸如傳送到另一類似連接的計算機站。到通 信網(wǎng)絡(luò)的連接通過有線連接或無線連接以各種方式進行。例如,無線連接通過各種蜂窩通 信系統(tǒng)、基于WiFi的通信、基于IEEE 802. 11的通信等的任意一種中定義的任何無線電空 中接口。諸如電子郵件消息的文本消息常常通過通信網(wǎng)絡(luò)在計算機或其他通信站之間傳 送。電子郵件服務(wù)有時被稱為存儲轉(zhuǎn)發(fā)服務(wù),因為為了實施創(chuàng)建的消息的發(fā)送和接收,消息 的發(fā)源者和消息的接收者不需要同時可用。而是,一旦創(chuàng)建,消息被路由到郵件服務(wù)服務(wù)器 或其他裝置,以在接收者可用于接收消息時將其遞送給接收者。郵件服務(wù)器或類似裝置存 儲消息,直到接收者可用為止,且當接收者可用時,消息被轉(zhuǎn)發(fā)給接收者。一般地,消息包括消息的發(fā)源者的識別、消息的預(yù)期接收者的識別、包括主題行的 消息主體且有時包括附件。典型地,消息的發(fā)送者和接收者不需要付費。而是,消息的發(fā)送和接收一般包括在 對網(wǎng)絡(luò)連接收費的服務(wù)預(yù)訂或者周期訪問中。消息的發(fā)送的通常免費的性質(zhì)有時導致這種通信服務(wù)的濫用。如使用郵件服務(wù)發(fā) 送或接收消息的幾乎任何人所意識到的,很多消息由未知發(fā)送者發(fā)送,經(jīng)常懇求出售接收 者不想要的產(chǎn)品或服務(wù),并且經(jīng)常是令人討厭的。這些消息有時被稱為垃圾消息。并且, 一些消息試圖引誘接收者購買決不會被運送的物品,或者提供使得接收者被欺詐的金融信 息。所有這些消息在此處有時被稱為欺詐性消息。很多時候,這些欺詐性消息源于遠離接 收者所處的管轄區(qū)域的位置。不幸的是,大量垃圾消息被傳送。一些人估計,垃圾消息的數(shù)目明顯超過了通過公 共網(wǎng)絡(luò)傳送的合法消息的數(shù)目。如很多人所知道的,在打開接收者的郵件客戶端或者應(yīng)用時,在接收者的收件箱接收的垃圾消息數(shù)目常包括這種垃圾或其他欺詐性消息。為了減小 寄至接收者的郵件客戶端或應(yīng)用的接收者的收件箱的欺詐性消息的數(shù)目,開發(fā)了過濾器來 過濾這種消息。當過濾器檢測到欺詐性消息時,消息被刪除或路由到不同于接收者收件箱 的文件夾。也就是說,過濾器的操作過濾了欺詐性消息,使得接收者的收件箱文件夾不會被 不想要的消息充斥。垃圾過濾器以各種方式工作以區(qū)分合法消息和欺詐性即垃圾消息。有時利用關(guān)鍵 詞或字符串識別。概念識別、用戶限定的基于規(guī)則的過濾、發(fā)源者的身份的分析、消息內(nèi)容 的統(tǒng)計分析以及與類似消息的過濾器數(shù)據(jù)庫的比較有時都被使用。然而,盡管做出了最大的努力,現(xiàn)有的過濾器經(jīng)常過濾合法消息或者不能過濾欺 詐性消息。接收的消息的過度過濾和不充分過濾都是有問題的。如果能夠提供一種改進的方式,通過該方式來更好地過濾接收的消息,則將減輕 與過度過濾和不充分過濾相關(guān)的問題。正是鑒于與傳送消息相關(guān)的這種背景信息而發(fā)展了本發(fā)明的顯著改進。
發(fā)明內(nèi)容
因此,本發(fā)明有利地提供一種設(shè)備和相關(guān)方法,通過該設(shè)備和相關(guān)方法來檢測接 收的電子郵件或其他文本消息是垃圾或其他欺詐性消息。通過本發(fā)明的實施例的操作,提供一種方式,通過該方式,通過結(jié)合欺詐分析的常 規(guī)方法(即,關(guān)鍵詞或內(nèi)容分析),針對非母語說話者鍵入的文本特有的文本部分對消息進 行分析,來確定該消息是否是欺詐性的。在本發(fā)明的一個方面中,包括非母語說話者常犯的語法和使用錯誤的列表的規(guī)則 集被訪問且用于分析接收的消息。如果包含潛在欺詐性內(nèi)容的接收消息被確定為很可能由 非母語說話者所寫,則指示較高的欺詐概率。通過考慮包括語法錯誤和使用模式的句法模 式,提供對接收消息的改善過濾。在本發(fā)明的另一方面,在通信裝置(諸如計算機站、移動站或者能夠留下電子郵 件、或其他文本消息的任意其他類型的裝置)處接收消息。接收的消息是任意常規(guī)格式,且 例如包括在消息的報頭部分中的識別接收者的IP (網(wǎng)際協(xié)議)地址以及形成消息內(nèi)容的文 本部分。文本部分包含ASCII文本或以任意常規(guī)方式格式化的文本。在本發(fā)明的另一方面中,接收的消息最初在初始過濾器級被過濾。在初始過濾級 執(zhí)行的過濾例如包括常規(guī)過濾技術(shù)。常規(guī)過濾技術(shù)例如包括關(guān)鍵詞或字符串識別以及相關(guān) 內(nèi)容分析、概念識別、用戶限定的基于規(guī)則的過濾、郵件路由(例如發(fā)源IP地址、發(fā)源郵件 地址)的分析,消息的批量傳輸?shù)臋z測、消息內(nèi)容的統(tǒng)計分析以及與其他消息的過濾器數(shù)據(jù) 庫的比較。在本發(fā)明的另一方面中,向文本分析引擎提供接收消息的文本部分。文本分析引 擎解析接收的消息以分析其內(nèi)容且確定該消息是否很可能由非母語說話者創(chuàng)建。在本發(fā)明的另一方面中,提供識別由非母語說話者常犯的語法錯誤的規(guī)則集。所 述錯誤例如包括由不完全熟悉在消息的文本部分中使用的語言的語法規(guī)則和詞語使用的 那些人所犯的動詞時態(tài)、主語-動詞錯誤等。在本發(fā)明的另一方面中,提供指示通常由非母語說話者利用的使用模式的規(guī)則
5集。盡管語法上正確,該使用模式是該語言的流利說話者一般不用的模式。該使用模式是 一般不被流利的語言說話者使用的那些模式,且這種使用一般能夠被流利使用該語言的人 注意到。在本發(fā)明的另一方面中,提供識別非母語說話者和母語說話者二者所犯的一般性 錯誤的規(guī)則集。例如英語的母語和非母語說話者常犯的一般性錯誤包括拼接(splice)和 名詞動詞不一致。在本發(fā)明的另一方面中,文本分析器訪問每個規(guī)則集且依照接收的消息的文本部 分的分析使用其中的指示和規(guī)則。例如,順序地執(zhí)行分析。也就是說,例如,首先訪問與非 母語說話者的錯誤相關(guān)的規(guī)則,且關(guān)于該第一規(guī)則集分析接收的消息的文本。然后,例如訪 問識別非母語說話者的使用模式的規(guī)則。并且,關(guān)于該第二規(guī)則集分析接收的消息的文本。 然后,例如訪問與一般性錯誤相關(guān)的規(guī)則,且關(guān)于該第三規(guī)則集分析接收的消息的文本。在本發(fā)明的另一方面中,在每一次迭代中文本分析器檢測的錯誤被加權(quán)。加權(quán)因 子通過加權(quán)因子計算確定。一旦執(zhí)行了加權(quán)因子計算,獲得加權(quán)因子且將其與相關(guān)分析結(jié) 果相組合。在本發(fā)明的另一方面中,提供概率值。該概率表示接收消息是欺詐性消息即垃圾 消息的概率。概率是在文本分析器的分析過程中識別的內(nèi)容、非母語錯誤、非母語使用以及 一般性錯誤的數(shù)學函數(shù)。例如,通過文本分析引擎的計算器執(zhí)行數(shù)學函數(shù),且獲得所得的概 率。所得的概率用于警告消息的查看者接收消息是欺詐性消息的可能性?;蛘撸撝涤糜?促使消息自動路由到諸如垃圾文件夾的文件夾。由此提供接收消息的改善過濾,因為確定為由非母語說話者構(gòu)建的消息更可能是 常規(guī)過濾技術(shù)否則可能不能檢測的垃圾消息。因此,在這些和其他方面中,提供用于促進檢測接收的文本消息形成欺詐性消息 的設(shè)備和相關(guān)方法。文本分析器配置成分析接收的文本消息的文本部分以檢測非母語內(nèi) 容。檢測器配置成基于文本分析器做出的分析檢測指示接收的消息是否形成欺詐性消息的 至少一個標記。通過結(jié)合下面簡要概括的附圖參考目前優(yōu)選的實施例的下面的詳細描述且通過 參考所附權(quán)利要求可以獲得本發(fā)明的范圍及其實現(xiàn)上述和其他改進的方式的更完整的理解。
圖1示出其中本發(fā)明實施例可操作的布置的功能框圖。圖2示出代表圖1中示出的布置的示例性操作序列的序列圖。圖3示出代表本發(fā)明實施例的操作方法的方法流程圖。
具體實施例方式首先轉(zhuǎn)向圖1,大體以10示出的布置形成互連通信裝置的通信系統(tǒng)。此處通信裝 置包括由計算機站12形成的通信站以及通信站14和16。計算機站12以及站14和16通過 諸如互聯(lián)網(wǎng)的數(shù)據(jù)網(wǎng)絡(luò)18互連。計算機站12此處代表接收從其他站(此處為站14或16) 產(chǎn)生的消息的接收站。站14代表產(chǎn)生合法電子郵件的發(fā)源電子郵件產(chǎn)生器,且站16代表產(chǎn)生垃圾或欺詐性消息的欺詐性電子郵件消息產(chǎn)生器。該布置還示出郵件服務(wù)器22,郵件 消息通過該郵件服務(wù)器22路由到計算機站12。一開始應(yīng)當注意,圖1中示出的布置10僅 是示例性的。在其他實現(xiàn)中,通信系統(tǒng)以其他方式配置。此處重要的是電子郵件消息向接 收者(即裝置12)的遞送以及其處的接收的消息是欺詐性例如垃圾消息的可能性的確定。站14的消息傳送通過網(wǎng)絡(luò)18和郵件服務(wù)器22完成,以便最終遞送到計算機站 12。類似地,源于站16且尋址到計算機站12的用戶的消息通過網(wǎng)絡(luò)18、郵件服務(wù)器22路 由,且當計算機站12處的用戶的電子郵件應(yīng)用打開時被引導至計算機站12。盡管欺詐性消息源于很多位置中的任意一個,很多這種欺詐性消息來源于管轄權(quán) 不同于消息接收者的管轄權(quán)的站。欺詐性消息產(chǎn)生者有時選擇處于管理接收者所處的區(qū)域 的本地執(zhí)法和監(jiān)管機構(gòu)的管轄權(quán)之外的這種位置。處于本地執(zhí)法和監(jiān)管機構(gòu)的作用范圍之 外使得欺詐性郵件消息可能是其一部分的欺詐性活動不太可能被起訴或防止。由于欺詐性 消息的發(fā)源的離岸(offshore)位置的盛行,該消息常由對接收者區(qū)域中使用的語言不流利 的語言說話者創(chuàng)建。例如,如果接收者位于美國,在東亞或遠東亞國家發(fā)源的消息很有可能 由英語不完全流利的人創(chuàng)作。在本發(fā)明實施例的操作中利用這種盛行狀況。計算機站12或類似裝置形成接收者使用的接收站,其包括本發(fā)明實施例的設(shè)備 28。該設(shè)備的元件被在功能上進行表示,可以以任意希望的方式實現(xiàn),例如包括通過可由處 理電路執(zhí)行的算法、硬件元件和其組合實現(xiàn)。并且,盡管在示例性實施方式中設(shè)備觀在接 收者所處的站12處被實施,在其他實施方式中,該設(shè)備在其他地點或者在多于一個物理位 置處被實施。此處,設(shè)備觀包括文本分析引擎32和存儲器元件34。文本分析引擎32能夠訪問 存儲器元件;34。文本分析引擎包括分析器36和檢測器38。并且,存儲器元件包括過濾規(guī)則集42、 44、46和48。規(guī)則集42記載初始過濾規(guī)則。過濾集44記載通常由非母語說話者所犯的語 法錯誤。規(guī)則集46記載非母語說話者特有的使用錯誤。并且,規(guī)則集48記載非母語說話 者以及母語說話者所犯的一般性錯誤。操作中,至少接收的消息的文本部分被提供到文本分析引擎32。在示例性實施方 式中,文本分析引擎32的分析器36迭代地對接收消息的文本進行操作和解析以針對指示 欺詐性消息的特性對該消息進行分析。首先,規(guī)則集42被調(diào)用。該規(guī)則集提供消息的初始過濾。初始過濾例如包括常規(guī) 過濾操作,諸如關(guān)鍵詞或字符串識別和相關(guān)內(nèi)容分析、概念識別、消息與類似消息的過濾器 數(shù)據(jù)庫的比較、用戶限定的基于規(guī)則的過濾操作以及消息內(nèi)容的統(tǒng)計分析。在一個實施方 式中,初始過濾也在郵件服務(wù)器22執(zhí)行或者在網(wǎng)絡(luò)的其他地點處執(zhí)行以分析消息的路由、 確定消息的發(fā)源地址、其IP地址以及因此做出的批量電子郵件消息檢測。在一個實施方式 中,如果初始過濾指示消息是欺詐性消息,則使得消息被路由到特殊文件夾,例如垃圾文件 夾,或者被拒絕。在另一實施方式中,消息并不被立即拒絕,而是被進一步分析。在初始過濾之后,分析器調(diào)用規(guī)則集44。規(guī)則集44由分析器使用以針對非母語說 話者通常所犯的語法錯誤分析接收的消息文本。例如,對于英語而言,非母語說話者經(jīng)常做 出動詞時態(tài)(諸如過去分詞時態(tài))的不當變形。英語是使用現(xiàn)在時態(tài)動詞來描述過去動作的 僅僅少數(shù)語言之一。例如,“what did you had for lunch”是非母語說話者犯下的語法錯誤的代表。并且,“what did you had”也是非母語說話者犯下的典型錯誤的示例。另外,在 名詞前沒有冠詞,例如 “going to American continent,,而不是 “going to the American continent”也是典型的語法錯誤。其他典型的語法錯誤例如包括在名詞之后而不是在名詞 之前放置形容詞,例如“house white”而不是“white house,,。并且,介詞“ in”和“on”的 不當使用以及數(shù)目不一致,例如,"one of my client has not collected his money,,也 是英語非母語說話者犯下的典型語法錯誤的示例。當規(guī)則集44被訪問和調(diào)用時,分析器針 對這種語法錯誤的發(fā)生分析接收的文本。錯誤的指示被提供到檢測器38。此處,接下來,分析器還訪問規(guī)則集46且使用其中記載的錯誤規(guī)則對接收的文本 進行操作。規(guī)則集46的錯誤規(guī)則識別非母語說話者特有的句法以及不尋常的詞語使用。再 次,對于英語而言,示例性異常使用模式包括以“please”開頭的引導從句,例如“please if you are interested, reply by tomorrow”。另一示例性非母語使用模式包含使用“of” 而不是 “’ S” 來表示擁有,例如,“at the house of my mother,,而不是"at my mother’ s house”。并且,另一示例性非母語說話者使用模式例如包含“inside the morning”而不是 "in the morning”。在這個迭代中分析器36形成的分析結(jié)果也被提供到檢測器38。另外,且此處,接下來,分析器訪問且調(diào)用規(guī)則集48。規(guī)則集48識別母語說話者和 非母語說話者二者犯下的語法錯誤。再次對于英語而言,示例性的這種錯誤包括逗號拼接 錯誤以及名詞動詞不一致。當連同規(guī)則集44和46識別的錯誤一起犯下這種錯誤時,接收 的消息是欺詐性消息的可能性增大。在這個迭代中分析器做出的分析結(jié)果也被提供到檢測 器38 ο檢測器38加權(quán)分析結(jié)果且形成此處在線56上的值,該值指示接收的消息是欺詐 性消息的可能性。該值例如用于警告查看者消息是欺詐性的或者自動將該消息路由到特殊 文件夾。在示例性實施方式中,檢測器38包含或包括計算欺詐概率值的計算器。欺詐概率 值是內(nèi)容、非母語錯誤、非母語使用以及一般性錯誤(諸如在文本分析引擎的分析器的操作 過程中探知的那些錯誤)的數(shù)學函數(shù)。在示例性實施方式中,進一步執(zhí)行值的加權(quán),且還執(zhí)行權(quán)重因子。例如,非母語錯 誤的權(quán)重N是概率計算的分量之一。對于在文本中出現(xiàn)的每種類型的錯誤Ε,出現(xiàn)次數(shù)被求 和且除以文本消息的總字數(shù)。針對每種類型的錯誤的計算然后相加,且將它們的權(quán)重增加 一定量,諸如增加50%。這種相加代表與非母語使用相比非母語錯誤更加重要。字數(shù)最終 通過除以諸如2、3等的數(shù)字而被調(diào)節(jié),以使得所得權(quán)重更容易在整體欺詐計算中使用。用于非母語使用權(quán)重U的計算類似于且相似于用于非母語錯誤值N的計算。加 一,使得在最終算法中N+G (—般性錯誤因子)總是增加內(nèi)容分數(shù)。如果N+G導致小于1的 任意結(jié)果,則該結(jié)果將是不可能的。用于一般性錯誤權(quán)重G的計算也類似。1/1被加到針對 每種類型的一般性錯誤的計算的總和。這防止與零相乘。欺詐概率值或分數(shù)的數(shù)學表示F為 F=C+ θ C (( α N+U) + β G)),其中:
C=內(nèi)容分數(shù); F=欺詐概率分數(shù); N=非母語錯誤因子;U=使用因子;以及 G= —般性錯誤因子;并且 θ、α、β是在訓練過程中優(yōu)化的參數(shù)。本領(lǐng)域技術(shù)人員將意識到θ =10、α =1.5、以及β =1的初始設(shè)置組成自身似乎合 理的參數(shù),當針對一組預(yù)先分類的數(shù)據(jù)測試模型時可以優(yōu)化該參數(shù)。參數(shù)Theta(e)支配 與純C分數(shù)相比錯誤分量作為整體貢獻多少權(quán)重。參數(shù)Alfa(Ci)和beta( β)使得每個分 量的權(quán)重可調(diào)節(jié)。舉例而言,如果內(nèi)容分數(shù)C是20,N是.4,且G是1.2,則當考慮加權(quán)時,F(xiàn) (所得的 欺詐概率分數(shù))是45. 2。在該示例中,如果在文本消息中不存在非母語錯誤或使用的實例,內(nèi)容分數(shù)20簡 單地乘以1.2 (G),僅稍微增加了欺詐概率分數(shù)(因為一般性的重要性相對于其他三個因子 的權(quán)重增加和減小)。相反,一個或兩個金融相關(guān)的關(guān)鍵詞觸發(fā)的低內(nèi)容分數(shù)5例如可以通過非母語錯 誤、非母語使用以及一般性錯誤的存在而被增加,導致欺詐概率提升到較高的水平。圖2示出代表圖1中示出的布置10的部分的操作的序列圖62。此處,在由通信站 16形成的欺詐性消息產(chǎn)生器處產(chǎn)生欺詐性消息。由片段64指示的,將該消息通過網(wǎng)絡(luò)發(fā)送 到郵件服務(wù)器22。在郵件服務(wù)器22處首先執(zhí)行初始過濾。并且,此處,由片段66指示的, 該消息被轉(zhuǎn)發(fā)到計算機站12。在計算機站12,由方框68指示的,執(zhí)行附加初始過濾,由方框 70指示的,進行消息的分析,以包括非母語說話者常犯的語法錯誤。然后,如方框72所示, 對接收的消息進行分析以檢測消息是否包括非母語說話者常犯的使用錯誤。并且,然后,如 方框74所示,對接收的文本進行分析以確定消息是否包含一般性語法錯誤。響應(yīng)于方框70、72和74指示的分析,諸如通過概率值的計算檢測接收的消息是否 很可能是欺詐性消息。如果消息包含欺詐性消息,由片段80所示的,產(chǎn)生告警,該告警在計 算機站的顯示器82處顯示。圖3示出大體以88示出的一種方法,其代表本發(fā)明實施例的操作方法。該方法促 進檢測接收的文本消息形成欺詐性消息。首先,如92所示,分析接收的文本消息的文本部 分以檢測非母語內(nèi)容。然后,如94所示,基于所述分析,檢測指示接收的消息是否形成欺詐 性消息的至少一個標記。此后,如方框96所示,在接收的消息看上去形成欺詐性消息的情況下采取告警動作。因為欺詐性消息確定考慮了創(chuàng)作欺詐性消息的非母語說話者犯下的語法、句法以 及其他錯誤,檢測出欺詐性消息且響應(yīng)于這種檢測而采取告警動作的可能性增大。前述描述是用于實現(xiàn)本發(fā)明的優(yōu)選示例的描述,且本發(fā)明的范圍應(yīng)不必受此描述 限制。本發(fā)明的范圍由所附權(quán)利要求限定。
權(quán)利要求
1.一種用于促進檢測接收的文本消息形成欺詐性消息的設(shè)備,所述設(shè)備包含文本分析器,其配置成分析接收的文本消息的文本部分以檢測非母語內(nèi)容;以及檢測器,其配置成基于所述文本分析器做出的分析,檢測指示接收的消息是否形成欺 詐性消息的至少一個標記。
2.根據(jù)權(quán)利要求1所述的設(shè)備,還包含語法規(guī)則錯誤集,所述語法規(guī)則錯誤集識別非 母語句法。
3.根據(jù)權(quán)利要求2所述的設(shè)備,其中所述文本分析器配置成訪問該語法規(guī)則集且依 據(jù)所述文本分析器做出的分析使用該語法規(guī)則集。
4.根據(jù)權(quán)利要求2所述的設(shè)備,其中該語法規(guī)則錯誤集包含與非母語說話者犯下的 語法錯誤相關(guān)的規(guī)則。
5.根據(jù)權(quán)利要求2所述的設(shè)備,其中該語法規(guī)則錯誤集包含與非母語說話者犯下的 使用錯誤相關(guān)的規(guī)則。
6.根據(jù)權(quán)利要求2所述的設(shè)備,其中該語法規(guī)則錯誤集包含與一般性句法錯誤相關(guān) 的規(guī)則。
7.根據(jù)權(quán)利要求1所述的設(shè)備,其中所述檢測器配置成計算可能性值,該可能性值指 示接收的消息形成欺詐性消息的可能性。
8.根據(jù)權(quán)利要求1所述的設(shè)備,其中該可能性值包含文本部分、其中的非母語語法錯 誤、其中的非母語使用錯誤以及其中的一般性錯誤的函數(shù)。
9.根據(jù)權(quán)利要求8所述的設(shè)備,其中該函數(shù)包含加權(quán)函數(shù)。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中所述檢測器用于計算可能性值做出的計算還包 含計算加權(quán)因子的計算,且其中該可能性值包含第一加權(quán)因子加權(quán)的加權(quán)文本部分、第二 加權(quán)因子加權(quán)的加權(quán)非母語語法錯誤、第三加權(quán)因子加權(quán)的加權(quán)非母語使用以及第四加權(quán) 因子加權(quán)的加權(quán)一般性錯誤的函數(shù)。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其中該加權(quán)因子具有不等值。
12.根據(jù)權(quán)利要求1所述的設(shè)備,還包含警告器,其配置成產(chǎn)生警告以警告由所述檢 測器檢測到指示接收的消息形成欺詐性消息的標記。
13.—種垃圾郵件檢測器,用于在接收的電子郵件是垃圾電子郵件時進行檢測,所述 垃圾郵件檢測器包含分析器,其配置成分析接收的電子郵件中是否存在通常由非母語作者形成的內(nèi)容;以及告警產(chǎn)生器,其配置成如果所述分析器做出的分析指示接收的電子郵件是垃圾電子郵 件則在顯示接收的電子郵件之前產(chǎn)生告警顯示。
14.一種用于促進檢測接收的文本消息形成欺詐性消息的方法,所述方法包含分析接收的文本消息的文本部分以檢測非母語內(nèi)容;以及基于在所述分析期間做出的分析,檢測指示接收的消息是否形成欺詐性消息的至少一 個標記。
15.根據(jù)權(quán)利要求14所述的方法,還包含如果在所述分析期間檢測到的標記指示接 收的消息形成欺詐性消息則產(chǎn)生告警。
16.根據(jù)權(quán)利要求15所述的方法,還包含提供是否顯示接收的消息的選擇。
17.根據(jù)權(quán)利要求14所述的方法,其中所述分析包含訪問語法規(guī)則錯誤集且將其中 的錯誤規(guī)則與接收的消息進行比較。
18.根據(jù)權(quán)利要求17所述的方法,其中該語法規(guī)則錯誤集包含識別非母語句法的規(guī)則。
19.根據(jù)權(quán)利要求17所述的方法,其中該語法規(guī)則錯誤集包含與非母語說話者犯下 的語法錯誤相關(guān)的規(guī)則。
20.根據(jù)權(quán)利要求17所述的方法,其中該語法規(guī)則錯誤集包含與非母語說話者犯下 的使用錯誤相關(guān)的規(guī)則。
全文摘要
一種設(shè)備和相關(guān)方法檢測發(fā)送到接收站的垃圾和其他欺詐性消息。接收消息的文本部分被分析以確定消息是否包括非母語說話者在創(chuàng)建文本消息時犯下的錯誤。文本分析引擎使用識別非母語說話者犯下的語法錯誤、非母語說話者犯下的使用錯誤和其他錯誤的規(guī)則集分析文本。
文檔編號G06Q50/00GK102124485SQ200980131791
公開日2011年7月13日 申請日期2009年8月4日 優(yōu)先權(quán)日2008年8月15日
發(fā)明者C·W·維克, M·里索夫 申請人:惠普開發(fā)有限公司