亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文本分析的系統(tǒng)和方法

文檔序號:6475132閱讀:224來源:國知局
專利名稱:文本分析的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明總體上涉及自然語言處理,具體涉及文本分析的系統(tǒng)和方法。
背景技術(shù)
對通過使用計算技術(shù)而進行的自然語言處理(NLP)研究的關(guān)鍵理解已經(jīng)允許將這樣的領(lǐng)域應(yīng)用到當(dāng)今真實世界的問題的解決上,所述問題僅舉幾個例子,諸如信息檢索或基于萬維網(wǎng)的服務(wù)。
但是,人類語言的復(fù)雜性已經(jīng)導(dǎo)致進行獨立的語言學(xué)分析以提供高性能的NLP系統(tǒng),其中之一是語句的形態(tài)句法學(xué)(morphosyntactic)分析,它也被稱為加標(biāo)記。事實上,由于人類語言的高模糊性,其中一個詞可以具有不同的語法值(諸如作為動詞或名詞),因此正確地解決模糊性以便避免誤解是很重要的。為了解決那些問題,已經(jīng)出現(xiàn)了幾種手段,具體上●統(tǒng)計語音部分(POS)標(biāo)記器,它一般使用所謂的隱藏馬爾可夫(Markov)模型(HWM)和維特比(Viterbi)算法;●正式規(guī)則系統(tǒng);●或上述兩者的混合。
在市場上可以獲得的所述POS系統(tǒng)工作得很好,并且提供很高的成功率,例如對于書寫標(biāo)準英語為大于80%。
但是,統(tǒng)計POS很依賴于它們用來學(xué)習(xí)它們所使用的三字母組(trigram)或二字母組(bigram)頻率的全集(corpus),此外,它們需要操作人員以手工來標(biāo)記很大的全集以產(chǎn)生足夠的學(xué)習(xí)集。
在所述POS標(biāo)記器中,使用約束性語法的那些由于其速度、其魯棒性和其精度而得到特別關(guān)注。大部分基于約束性語法的系統(tǒng)都將表示具有模糊性的文本的有向(Directed)非循環(huán)圖(DAG)與表示一組約束的有向圖(有限狀態(tài)變換器)交叉。但是,這樣的實現(xiàn)方式的主要缺點是所述圖示處理起來很復(fù)雜,需要難以編程的復(fù)雜算法,并且在它們的實現(xiàn)中經(jīng)常依賴于機器。這些問題將這樣的系統(tǒng)的使用限制到它們被開發(fā)所用于的特定語言。
因此,所需要的是一種系統(tǒng)和方法,用于克服如上所述的傳統(tǒng)技術(shù)的缺陷。

發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種計算機實現(xiàn)的系統(tǒng)和方法,它們使得可以進行更簡單、更快和更便攜的文本分析。
通過本發(fā)明來實現(xiàn)這個目的,其中,通過要以簡單有限的狀態(tài)自動控制來處理的“DAG”串來表示有向非循環(huán)圖。
在一個優(yōu)選實施例中,本發(fā)明的方法可操作于一種計算機系統(tǒng),所述計算機系統(tǒng)包括用于建立有向非循環(huán)圖(DAG)的裝置,所述有向非循環(huán)圖(DAG)表示施加到初始串多鏈的至少一個約束。所述方法優(yōu)選地包括步驟(a)從所述至少一個約束來建立至少一個規(guī)律表達;(b)使用所述至少一個規(guī)律表達來在其中所述至少一個約束所施加到的所述初始串多鏈中尋找;(c)對于所述至少一個約束所施加之處將所述初始串多鏈拆分為子多鏈;(d)向每個子多鏈施加步驟(b)和(c),直到所述至少一個約束不施加。


通過下面參照附圖更具體地說明本發(fā)明,本發(fā)明的上述和其他目的、特點和優(yōu)點將會變得更好理解,其中圖1是圖解可以用于實現(xiàn)本發(fā)明的所述優(yōu)選實施例的示例性硬件環(huán)境的方框圖。
圖2是圖解通過本發(fā)明的方法而執(zhí)行的步驟的流程圖。
具體實施例方式
圖1是圖解可以用于實現(xiàn)本發(fā)明的所述優(yōu)選實施例的示例性硬件環(huán)境的方框圖。在所述示例性硬件環(huán)境中,計算機100,在其它的事物中(inter alia),可以包括處理器102、存儲器104(例如隨機存取存儲器(RAM))、輸入器件106(例如鍵盤、鼠標(biāo)指示器件、語音激活的輸入器件等)、顯示器件108(例如陰極射線管、液晶顯示器等)以及數(shù)據(jù)存儲器件110(例如硬盤、軟盤和/或CD-ROM盤驅(qū)動器等)和/或數(shù)據(jù)通信器件112(例如,調(diào)制解調(diào)器、網(wǎng)絡(luò)接口等)??梢韵胂?,附接到計算機100的可以是其他器件,諸如只讀存儲器(ROM)、視頻卡、總線接口、打印機等。本領(lǐng)域的技術(shù)人員將認識到上述部件的任何組合、或任何數(shù)量的不同部件、外圍設(shè)備、和在本領(lǐng)域內(nèi)公知的其他器件可以用于計算機100。計算機100在操作系統(tǒng)(OS)114的控制下操作,所述操作系統(tǒng)諸如OS/390(商標(biāo))、MVS(商標(biāo))、VM(商標(biāo))、OS/2(商標(biāo))、AIX(商標(biāo))、UNIX(商標(biāo))、WINDOWS(商標(biāo))、MACINTOSH(商標(biāo))等。當(dāng)計算機100啟動或重新啟動時,操作系統(tǒng)114被引導(dǎo)入計算機100的存儲器104以執(zhí)行。操作系統(tǒng)114然后依次控制一個或多個計算機程序的執(zhí)行,所述程序諸如約束檢查器120。所述約束檢查器使得可以從規(guī)律表達和串(string)多鏈二者來建立本發(fā)明的新穎DAG表示。一般從初始多鏈來獲得所述串多鏈,初始多鏈是要消除模糊性和存儲在串多鏈數(shù)據(jù)庫118中的短語的通用DAG表示。所述短語可以是在數(shù)據(jù)存儲器件110上的文本文件中存儲的文本,并且/或者由編程人員從輸入器件106交互地輸入。
所述規(guī)律表達被存儲在規(guī)律表達數(shù)據(jù)庫116中。規(guī)律表達(一般縮寫為regexp或regex)是按照特定的句法規(guī)則(也稱為約束)描述整組串的實體序列。這些表達被許多文本編輯器和實用程序(utility)使用來對文本體搜索特定模式,并且例如使用特定的其他串來替代所找到的串。存在一些基本類型的、需要熟悉的匹配字符匹配、重復(fù)匹配和位置匹配。規(guī)律表達因此實際上是很小的、高度專用的編程語言,使得可以指定要被匹配的可能串組的規(guī)則。規(guī)律表達頻繁用于Unix操作系統(tǒng)和Unix類的操作系統(tǒng)中(Unix是Unix系統(tǒng)實驗室的商標(biāo))。為了更多地了解規(guī)律表達,讀者可以參見A.Aho、R.Sethi和J.Ullman的、ADDISON WESLEY出版的、題目為“Compilers,Principles,Techniques and Tools(編譯器、原理、技術(shù)和工具)”的書。
規(guī)律表達數(shù)據(jù)庫116、串多鏈數(shù)據(jù)庫118和約束檢查器120由邏輯和/或數(shù)據(jù)組成,它們當(dāng)被處理器102訪問、解譯和/或執(zhí)行時使得計算機100執(zhí)行實現(xiàn)和/或使用本發(fā)明所需要的步驟。一般,規(guī)律表達數(shù)據(jù)庫116、串多鏈數(shù)據(jù)庫118和約束檢查器120被包含在和/或可讀取自器件、載體或媒體,諸如存儲器104、數(shù)據(jù)存儲器件110和/或經(jīng)由數(shù)據(jù)通信器件12耦接到計算機100的遠程器件。因此,本發(fā)明可以被實現(xiàn)為使用用于生產(chǎn)軟件、固件、硬件或其組合的標(biāo)準編程和/或工程技術(shù)的一種方法、裝置或制造品。在此使用的術(shù)語“制造品”(或“計算機程序產(chǎn)品”)意欲涵蓋被包含在和/或可讀取自任何器件、載體或媒體的邏輯和/或數(shù)據(jù)。當(dāng)然,本領(lǐng)域的技術(shù)人員可以認識到在不脫離本發(fā)明的范圍的情況下可以對這種配置進行許多修改。本領(lǐng)域的技術(shù)人員將認識到圖1中圖解的示例性環(huán)境不意欲限定本發(fā)明。事實上,本領(lǐng)域的技術(shù)人員將認識到可以在不脫離本發(fā)明的范圍的情況下使用其他的替代硬件環(huán)境和程序。
在參見圖2之前,首先對圖(Graph)、有向圖和有向非循環(huán)圖進行背景概述。有限狀態(tài)機(FSM)或有限狀態(tài)自動機(FSA)是在計算和語言的研究中使用的抽象機,它僅僅具有有限的恒定存儲量(狀態(tài))。它可以被概念化為有向圖。存在有限數(shù)量的狀態(tài),每個狀態(tài)具有向零或多個狀態(tài)的躍變。存在輸入串,它確定要遵從哪個躍變。圖描述了在對象之間的一組連接。每個對象被稱為節(jié)點。它也可以被稱為頂點。所述連接本身被稱為邊或弧。根節(jié)點是在樹數(shù)據(jù)結(jié)構(gòu)中的頂節(jié)點??梢酝ㄟ^根節(jié)點來訪問在樹中的所有數(shù)據(jù)。在一些樹中,根節(jié)點具有特殊屬性(諸如允許比子節(jié)點的正常數(shù)量更大或更小)。葉節(jié)點是具有零個子(child)的樹的節(jié)點。經(jīng)常,葉節(jié)點是距離根節(jié)點最遠的節(jié)點。一些樹僅僅在葉節(jié)點中存儲數(shù)據(jù)。父節(jié)點或先輩節(jié)點是鏈接到一個或多個子節(jié)點的、在樹數(shù)據(jù)結(jié)構(gòu)中的節(jié)點。子節(jié)點或后代節(jié)點是由父節(jié)點鏈接的、在樹數(shù)據(jù)結(jié)構(gòu)中的節(jié)點。
表示要被消除模糊的短語的有向非循環(huán)圖(DAG)具有先前所述被稱為多鏈的特定形式。多鏈是具有下述屬性的有向非循環(huán)圖●多鏈具有僅僅一個根和僅僅一個葉。
●來自給定節(jié)點的每個頂點到達相同的節(jié)點。
下面是多鏈(MC)的圖示說明,其中節(jié)點1是根,節(jié)點6是葉。
從上面的示例,我們解釋約束、即給定規(guī)則如何被施加到這樣的多鏈。我們聲明,作為約束,序列“ac”要從上述的多鏈排除。技術(shù)人員將容易地通過下圖(CT)來表示這個約束 在這個圖示中,符號@表示“除了標(biāo)注來自同一節(jié)點的邊的那些之外的任何字符”。節(jié)點1是根(起始節(jié)點),節(jié)點2是結(jié)尾節(jié)點。另外,節(jié)點3表示匯點(sink),即沒有后輩(issue)的節(jié)點。
所述前面兩個圖MC與CT的相交導(dǎo)致所得的有向非循環(huán)圖(DAG) 在這個DAG中,作為預(yù)期的結(jié)果,沒有包含序列“ac”的路徑。它可以被分解為一組5個多鏈(MC1到MC5)
技術(shù)人員可以明白在上述前者的多鏈(MC1到MC5)的一個或多個中能找到上述所得的DAG(DAG)的每個鏈。
發(fā)明人已經(jīng)使用了多鏈的特殊表示,以便提供當(dāng)前的計算機實現(xiàn)的簡單方法。然后以在計算機上更容易操作的“串”表達的形式來表示多鏈。例如,可以將第一圖解的多鏈(MC)表達為下面的串(ST)●ST=<a b c><a b><a b c><a c><a c>,其中<a b c>表示兩個節(jié)點通過邊a、b和c鏈接。然后使用這種形式,上述的串(ST)表示通過邊a、b或c中任意一個從節(jié)點(或位置)1到達節(jié)點(或位置)2。然后,通過邊a或b到達位置3。通過邊a、b或c到達位置4。通過邊a或c到達位置5,并且最后通過邊a或c到達位置6。
以相同的方式,可以由下列串(ST1到ST5)分別表達通過應(yīng)用下列約束而獲得的其他多鏈(MC1到MC5),該約束聲明避免序列“ac”●ST1=<a b c><a b><b><c><a c>
●ST2=<a b c><a b><a b><a><a>
●ST3=<a b c><b><a b c><a><a>
●ST4=<a b c><b><b c><a c><a>
●ST5=<a b c><b><b c><c><a c>
現(xiàn)在參見圖2,發(fā)明人已經(jīng)設(shè)計了一種方法,用于當(dāng)向被表示為串(ST)多鏈(206)的初始多鏈(MC)施加所定義的約束(200)時直接導(dǎo)出串多鏈(ST1到ST5)。在第一操作(202)中,建立規(guī)律表達,使得可以檢測在多鏈中的所希望約束(200)。從上面的示例,當(dāng)要檢測序列“ac”時,可以建立對應(yīng)的規(guī)律表達如下P=“<”^(@*“>”@*)“a”^(@*“>”@*)“>”“<”^(@*“>”@*)“c”^(@*“>”@*)“>”其中,●符號@表示任何字符;●‘pattern’*是公知的星運算符,它表示規(guī)律表達‘pattern’的0或幾次出現(xiàn)(occurrence),因此@*0或幾次出現(xiàn)任何字符;●^(‘pattern’)表示不匹配規(guī)律表達‘pattern’的任何內(nèi)容,以這種方式,^(@*“>”@*)表示不包含字符>的任何串;●兩個表達的拼接是隱含的,因此“<”^(@*“>”@*)“a”^(@*“>”@*)“>”表示字符<,后隨不包含字符>的任何內(nèi)容,后隨字符a,后隨不包含字符>的任何內(nèi)容,后隨字符>.
像這樣,規(guī)律表達P表示在兩個定界符<和>之間包含a的某些內(nèi)容,后隨在兩個定界符<和>之間包含c的某些內(nèi)容。模式P從位置1起匹配在初始串ST中的子串<a b><a b c>,并且這個子串違反了所述約束,因為“ac”是在多鏈<a b><a b c>中的可能鏈。在這個多鏈中的其他鏈(除了ac之外)被包含在下述兩個多鏈中●<b><a b c>
●<a b><a b>
在下一個步驟,在本發(fā)明的DAG建立器(塊208)算法的第一次運行中,將由規(guī)律表達(塊204)表達的約束施加到初始串ST(206)。則提供了新串,即子多鏈,在所討論的示例中的兩個STA1和STA2●STA1=<a b c><b><a b c><a c><a c>
●STA2=<a b c><a b><a b><a c><a c>
模式P從位置3匹配在STA1中的子串<a b c><a c>。在STA1上操作所述DAG建立器算法的第二次運行,并且獲得新串STA11和STA12●STA11=<a b c><b><b c><a c><a c>
●STA12=<a b c><b><a b c><a><a c>
類似地,在串多鏈STA2中,模式P在位置3匹配,并且通過操作DAG建立器,獲得新的串STA21和STA22●STA21=<a b c><a b><b><a c><a c>
●STA22=<a b c><a b><a b><a><a c>
所述DAG建立器在STA11上運行,其中模式在位置4匹配,并且獲得新串STA111和STA112●STA111=<a b c><b><b c><c><a c>
●STA112=<a b c><b><b c><a c><a>
類似地,在串多鏈STA12中,模式P在位置4匹配,并且通過操作DAG建立器,獲得新的串STA121和STA122●STA121=<a b c><b><a b c><a><a>
●STA122=<a b c><b><a b c><><a c>
應(yīng)當(dāng)注意,STA122不是有效的串(因為空括號)。
關(guān)于STA12,DAG建立器運行在STA21上,其中所述模式在位置4匹配,并且獲得新串STA211和STA212●STA211=<a b c><a b><b><c><a c>
●STA212=<a b c><a b><b><a><a>
最后,DAG建立器在STA22上運行,其中,所述模式在位置4匹配,并且獲得新串STA221和STA222●STA221=<a b c><a b><a b><><a c>它是無效的●STA222=<a b c><a b><a b><a><a>
并且應(yīng)當(dāng)注意,STA221不是有效的串(因為空括號)。
DAG建立器的幾個先前的操作已經(jīng)產(chǎn)生最終的串,在其上,模式P不再匹配。一些可以被忽略為無效(STA122和STA221)或為復(fù)制(在STA222中包括的STA212)。因此,由DAG建立器獲得的最終的有效串被列出如下●STA111=<a b c><b><b c><c><a c>
●STA112=<a b c><b><b c><a c><a>
●STA121=<a b c><b><a b c><a><a>
●STA211=<a b c><a b><b><c><a c>
●STA222=<a b c><a b><a b><a><a>
并且,應(yīng)當(dāng)明白,這些串多鏈分別對應(yīng)于表示當(dāng)施加所定義的約束時的初始多鏈(MC)的串多鏈(ST1到ST5)。
現(xiàn)在進行本發(fā)明的更一般化的說明。技術(shù)人員公知,約束語法使用兩種主要的規(guī)則否定規(guī)則,指出不能在給定的上下文中出現(xiàn)給定的表達。在一般使用的形式中,以下述方式來表達這樣的規(guī)則C<=L_R它表示規(guī)律表達C不能出現(xiàn)在規(guī)律表達L和規(guī)律表達R之間。
肯定規(guī)則,指出給定的表達在給定上下文中是強制的。在一般使用的形式中,以下述方式來表達這樣的規(guī)則C=>L_R它表示規(guī)律表達C在規(guī)律表達L和規(guī)律表達R之間是必需的。
以描述在節(jié)點之間的基本連接的規(guī)律表達來建立規(guī)律表達L、C和R,例如●<b>=“<”^(@*(“>”|“<b”|“b”)@*)(“<b”|“b”)^(@*(“>”|“<b”|“b”)@*)“>”表示在包含被標(biāo)注為b的邊的兩個節(jié)點之間的連接匹配例如下述連接●<b c>、<a b c>或<b>
但是不是●<a c>或<a>
或者,規(guī)律表達建立器可以被設(shè)計來產(chǎn)生三種串●對于第一所得的串,它將僅僅重寫諸如“<”、“>”、“<b”或“b”之類的顯式表達,并且以這種方式擦除由元字符@匹配的全部內(nèi)容,所述方式中,評估器像在UNIX中的公知sed程序或公知的PERL程序的替代命令那樣工作,它擦除除了b和定界符<和>之外的所有字符,對于這個示例,它可以以這個形式被寫s/<[^<b]*b[^<b]*>/<b>/。
●對于第二所得的串,它將僅僅重寫定界符“<”和“>”和除了b之外的所有字符。在PERL語言中,這可以被寫為s/<([^<b]*)b([^<b]*)>/<$1$2>/。
●最后的所得的串是匹配的串本身。
優(yōu)選的是,在要被分析的多鏈中遇到的每個邊x對應(yīng)于基本的規(guī)律表達<x>。以這種方式,在上述段落中給出的示例給出了基本規(guī)律表達<a>、<b>和<c>。在這個同一示例中用于防止序列ac的規(guī)則于是被寫為●<a><=_<c>
從這個規(guī)則,可以建立下面的規(guī)律表達●0“<L>”<a>0“<C>”<c>0“<R>”其中,<L>、<C>和<R>是允許將所匹配的多鏈拆分為其左、中和右的標(biāo)記(0<xyz>表示要產(chǎn)生串“xyz”)。這種表達被應(yīng)用到下述串●MC=<a b c><a b><a b c><a c><a c>
通過運行,所述建立器從第一位置提供了下述三個串●MC1-1=<L><a><C><><R>
●MC1-2=<L><b c><C><a b><R>以及●MC1-3=<L><a b c><C><a b><R>
當(dāng)在<C>和<R>之間的連接為空時,所述規(guī)則從這個位置起失效。
從第二位置,表達MC產(chǎn)生●MC2-1=<L><a><C><c><R>
●MC2-2=<L><b><C><a b><R>以及●MC2-3=<L><a b><C><a b c><R>
從這三個串,可以建立防止在多鏈<a b><a b c>中鏈<a><c>的發(fā)生而需要的兩個多鏈●<b><a b c>,因為跟隨在除了<a>之外的內(nèi)容之后的任何內(nèi)容不受所述規(guī)則影響;以及●<a><a b>,因為跟隨<a>之后的任何內(nèi)容必須不包含c。
整個算法因此如下首先,對于約束語法的每個規(guī)則(200)建立對應(yīng)的規(guī)律表達(202)對于每個規(guī)則R=C<=L_R或R=C=>L_R建立規(guī)律表達P=L 0“<L>”C 0“<C>”R 0“<R>”然后,對于要分析的多鏈MC(206),設(shè)置“分支”是多鏈的空列表;“位置”是空的雙條目列表,它對于每個規(guī)則號和每個分析號分支提供在分支中應(yīng)用規(guī)則的位置;“規(guī)則”是從規(guī)則組先前建立的規(guī)律表達的列表,所述規(guī)則具有規(guī)則的性質(zhì)的指示符(肯定或否定)。
本方法優(yōu)選地實現(xiàn)功能“applyRule(應(yīng)用規(guī)則)”(204),它執(zhí)行上述的操作,將來自規(guī)則列表中的規(guī)則、來自分支的分析分支和來自在分支上應(yīng)用規(guī)則的位置的位置作為變元。
然后,如上詳細描述,只要規(guī)則匹配,則DAG建立器功能(208)運行在多鏈上以分析。當(dāng)獲得最終的串、即最后剩余的分支時,處理結(jié)束。
雖然已經(jīng)以其基本模式來描述了所述算法,但是可以以多種方式來進行許多修改和改進,例如,有效地查找第一位置,規(guī)則可以被應(yīng)用到分支上,或者通過利用規(guī)則的所留(left)上下文以同一所留上下文對它們編組。而且,作為另一種替代方式,可以考慮被標(biāo)注為不操作的分支來改進位置和分支的管理。
這種手段的優(yōu)點是其簡單和其便攜性,因為僅僅需要字符串來實現(xiàn)它。本發(fā)明的原理在于對于文獻中普通所述的串使用簡單模式的匹配技術(shù),主要思想是可以通過表示多鏈的一組串來描述DAG。
最后,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)明白,雖然已經(jīng)參照其優(yōu)選實施例特別示出和說明了本發(fā)明,但是在不脫離本發(fā)明的精神和范圍的情況下,可以進行形式和細節(jié)上的各種改變。
權(quán)利要求
1.一種計算機實現(xiàn)的方法,用于建立有向非循環(huán)圖(DAG),所述有向非循環(huán)圖表示施加到初始串多鏈的至少一個約束,所述方法包括步驟(a)從所述至少一個約束來建立至少一個規(guī)律表達;(b)使用所述至少一個規(guī)律表達來在所述至少一個約束所施加的所述初始串多鏈中尋找;(c)對于所述至少一個約束所施加之處,將所述初始串多鏈拆分為子多鏈;(d)向每個子多鏈施加步驟(b)和(c),直到所述至少一個約束不施加。
2.按照權(quán)利要求1的方法,還包括在步驟(c)后的步驟在所述至少一個約束不施加之處,刪除所述子多鏈。
3.按照權(quán)利要求1或2的方法,還包括在步驟(c)之后的步驟組合至少兩個子多鏈。
4.按照權(quán)利要求1-3的任何一個的方法,其中,在步驟(a)建立的所述至少一個規(guī)律表達包括左部、中部和右部,使得可以識別所述至少一個約束的上下文。
5.按照權(quán)利要求4的方法,其中,步驟(b)還包括步驟在左部、在中部、在右部尋找。
6.按照權(quán)利要求1-5的任何一個的方法,其中,所述至少一個約束是否定規(guī)則。
7.按照權(quán)利要求1-6的任何一個的方法,其中,所述至少一個約束是肯定規(guī)則。
8.按照權(quán)利要求1-7的任何一個的方法,其中,初始串多鏈是要消除模糊的短語的串表示。
9.一種系統(tǒng),包括用于操作權(quán)利要求1-8的任何一個的方法的每個步驟的裝置。
10.一種計算機程序產(chǎn)品,被存儲在計算機可用介質(zhì)上,包括用于使計算機執(zhí)行按照權(quán)利要求1-8的任何一個的方法的計算機可讀程序裝置。
全文摘要
所公開的本發(fā)明允許通過將以簡單有限的狀態(tài)自動控制處理的“DAG”串來表示有向非循環(huán)圖。被表示為有限狀態(tài)自動控制的約束被施加,以排除包含特定模式的替代物。提供了一種允許更簡單、更快和更便攜的文本分析的計算機實現(xiàn)的系統(tǒng)和方法。
文檔編號G06F17/27GK1717680SQ200480001633
公開日2006年1月4日 申請日期2004年1月23日 優(yōu)先權(quán)日2003年1月30日
發(fā)明者克里斯琴·莫塞里 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1