亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

信息處理系統(tǒng)的制作方法

文檔序號(hào):6618721閱讀:318來(lái)源:國(guó)知局
專利名稱:信息處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用在語(yǔ)言鑒別中的信息處理系統(tǒng),用于鑒別文件中的語(yǔ)言以及在全文本檢索中進(jìn)行關(guān)鍵字檢索,從而在觀察包含在作為對(duì)象的一輸入文件中的所有文本(字符串)的同時(shí),檢索/登錄一輸入文本。
現(xiàn)有技術(shù)中進(jìn)行的在信息檢索處理領(lǐng)域中鑒別文件中描述的文本(字符串)的語(yǔ)言的方法有基于對(duì)文字的鑒別,通過(guò)提供語(yǔ)言的文字詞典來(lái)鑒別該語(yǔ)言的方法,它在未審查的日本專利公開文本Hei 8-137886中所公開;基于語(yǔ)言的字符代碼的特定位(這里是兩位)來(lái)鑒別該語(yǔ)言的方法,它在未審查的日本專利公開文本Hei 8-160929中所公開;以及基于語(yǔ)言所特有的特定信息(例如,域名等)來(lái)鑒別該語(yǔ)言的方法,它在未審查的日本專利公開文本Hei10-171810中所公開。
此外,現(xiàn)有技術(shù)中進(jìn)行的在信息檢索處理領(lǐng)域中的登錄/檢索文件中所描述的文本的關(guān)鍵字檢索方法有利用文字表的方法,該文字表中將分離字符附加到關(guān)鍵字的開始和結(jié)尾,它在未審查的日本專利公開文本Hei 8-16617中所公開。
除上面所述的之外,作為現(xiàn)有技術(shù),在未審查的日本專利公開文本Hei5-282360中公開了能夠有效輸入混合了多種語(yǔ)言的文本的多語(yǔ)言輸入系統(tǒng)。更具體地講,該系統(tǒng)通過(guò)查詢相應(yīng)詞典而將輸入文本轉(zhuǎn)換為顯示文本,然后定義該顯示文本,之后將其中未知文字?jǐn)?shù)變?yōu)樽钌俚恼Z(yǔ)言確定為輸入語(yǔ)言,或者優(yōu)先將先前使用的語(yǔ)言用作輸入語(yǔ)言。
在未審查的日本專利公開文本Hei 7-262188中,公開了能夠?qū)Υ鎯?chǔ)或發(fā)送的文件的語(yǔ)言或類型進(jìn)行鑒別處理的語(yǔ)言鑒別處理方法。對(duì)象語(yǔ)言的普通文字包含在對(duì)象語(yǔ)言/類型(genre)的文字出現(xiàn)頻度表中,并且,文字代碼分別具有相關(guān)的歸一化出現(xiàn)頻度值,并且,利用這樣的歸一化出現(xiàn)頻度值來(lái)檢測(cè)所述語(yǔ)言/類型。此外,作為語(yǔ)言/類型鑒別處理,還公開了這樣的系統(tǒng)該系統(tǒng)從輸入文件中接收一連串的文字,然后將這些文字與所述文字出現(xiàn)頻度表中的所有文字進(jìn)行比較,然后,將這些文字的相關(guān)的歸一化出現(xiàn)頻度值與相關(guān)累加器中存在的總和相加,然后,通過(guò)讀取文件的文字而將所有累加器中累加的總和值鑒別為語(yǔ)言鑒別值。
在未審查的日本專利公開文本Hei 10-124513中,公開了利用分別最頻繁用在多種候選語(yǔ)言中的文字集來(lái)鑒別文件中所描述的語(yǔ)言的語(yǔ)言鑒別方法和系統(tǒng)。按照最頻繁使用文字的各個(gè)集的字符對(duì),將最頻繁使用文字的各個(gè)集存儲(chǔ)在用于相應(yīng)候選語(yǔ)言的文字表的相應(yīng)集中。各文字表是N×N位表。所述位表示在用于一個(gè)候選語(yǔ)言中的最頻繁使用文字的一個(gè)位置上的給定字符對(duì)。將來(lái)自文件的文字與所述文字表中存儲(chǔ)的最頻繁使用文字進(jìn)行比較。對(duì)在來(lái)自文件的文字與存儲(chǔ)在文字表中的各個(gè)集中的文字之間匹配的數(shù)目進(jìn)行計(jì)數(shù),然后對(duì)各個(gè)語(yǔ)言繼續(xù)。具有最大匹配數(shù)目的候選語(yǔ)言被選擇為文件語(yǔ)言。
然而,在上面解釋的現(xiàn)有技術(shù)的方法中,例如,在未審查的日本專利公開文本Hei 8-137886中,每個(gè)文件都可以實(shí)現(xiàn)自動(dòng)鑒別,但必須提供用來(lái)鑒別文字的詞典。在未審查的日本專利公開文本Hei 8-160929中,很難利用諸如unicode(單一碼)等相同的字符代碼來(lái)對(duì)付諸如JCK統(tǒng)合漢字(JCKintegrated kanji)的不同語(yǔ)言。在未審查的日本專利公開文本Hei 10-171810中,存在的問(wèn)題是每一位客戶機(jī)(client)都進(jìn)行鑒別。
在上面解釋的現(xiàn)有技術(shù)的方法中(例如,JP 8-16617),存在的問(wèn)題是必須與用在普通文件檢索中的索引獨(dú)立地準(zhǔn)備文字表文件。
在上面解釋的現(xiàn)有技術(shù)的方法中(例如,JP 5-282360),存在的問(wèn)題是,如果在文本中出現(xiàn)相同的字符代碼,很難確定這種字符代碼屬于哪種語(yǔ)言。此外,還存在這樣的問(wèn)題由于必須事先準(zhǔn)備用于鑒別語(yǔ)言的詞典,不可能鑒別未知術(shù)語(yǔ)的語(yǔ)言。此外,還存在這樣的問(wèn)題已知的文字,即,日語(yǔ)情況下的“recognition(識(shí)別)”等可被識(shí)別為文字,因?yàn)檫@種文字作為詞典數(shù)據(jù)包含在詞典中,然而,不包含在詞典中而出現(xiàn)在普通語(yǔ)句中的文字不能被鑒別,因?yàn)檫@種文字按照傳統(tǒng)配置不包含在詞典中。此外,還存在這樣的問(wèn)題由于必須對(duì)每一種鑒別語(yǔ)言都準(zhǔn)備用于剪切(cutting out)文字的規(guī)則,故除非存在應(yīng)用于特定語(yǔ)言的規(guī)則,否則不會(huì)對(duì)文字進(jìn)行處理。
本發(fā)明就是為克服上述現(xiàn)有技術(shù)中的問(wèn)題而作出的。首先,本發(fā)明的一個(gè)目的是通過(guò)利用本國(guó)語(yǔ)言的描述特征,即通過(guò)檢測(cè)作為鑒別對(duì)象的文本的特定字符的出現(xiàn)率,或者檢測(cè)特定字符之間的平均文本長(zhǎng)度,或者檢測(cè)特定范圍中的字符的出現(xiàn)率,同時(shí)觀察在該語(yǔ)言中頻繁出現(xiàn)的特定字符(例如韓語(yǔ)的空白(space)字符)或者特定范圍中的特定字符(例如日語(yǔ)中的“平假名”、“漢字”),來(lái)鑒別在特定語(yǔ)言中描述的輸入文本的語(yǔ)言。
第二,本發(fā)明的另一個(gè)目的是利用將二字符鏈(two-character chains)用作由文件檢索準(zhǔn)備的索引的檢索系統(tǒng),并能通過(guò)將分離字符的信息原樣附加到在輸入文本中進(jìn)行登錄時(shí)準(zhǔn)備的索引而進(jìn)行關(guān)鍵字檢索,其中在所述輸入文本中將分離字符插入到關(guān)鍵字的開始和結(jié)尾。
第三,本發(fā)明的再一個(gè)目的是提供一種能夠基于給定文本自動(dòng)鑒別該給定文本所屬的語(yǔ)言的信息處理系統(tǒng),并提供一種在將文本的特征確定為代碼,尤其是這種特征被以字符模式輪廓(例如,字體等)分類的條件下,能夠自動(dòng)鑒別語(yǔ)言或組類型的信息處理系統(tǒng)。
為實(shí)現(xiàn)上述主題,按照本發(fā)明,首先,在一種信息處理系統(tǒng)中提供了下列裝置用于根據(jù)一輸入文本的特定字符的出現(xiàn)次數(shù)來(lái)檢測(cè)特定字符的出現(xiàn)率的裝置;用于存儲(chǔ)一檢測(cè)的目標(biāo)語(yǔ)言的特定字符的標(biāo)準(zhǔn)出現(xiàn)率的裝置;和用于將所述輸入文本的特定字符的出現(xiàn)率與所述檢測(cè)的目標(biāo)語(yǔ)言的特定字符的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較的裝置。第二,在一種信息處理系統(tǒng)中提供了下列裝置用于檢測(cè)輸入文本的特定字符之間的非特定文本的平均文本長(zhǎng)度的裝置;用于存儲(chǔ)檢測(cè)的目標(biāo)語(yǔ)言的非特定字符的標(biāo)準(zhǔn)平均文本長(zhǎng)度的裝置;和用于將所述輸入文本的非特定字符的平均文本長(zhǎng)度與所述檢測(cè)的目標(biāo)語(yǔ)言的非特定字符的標(biāo)準(zhǔn)平均文本長(zhǎng)度進(jìn)行比較的裝置。第三,在一種信息處理系統(tǒng)中提供了下列裝置用于根據(jù)輸入文本的特定范圍字符的出現(xiàn)次數(shù),來(lái)檢測(cè)特定范圍字符的出現(xiàn)率的裝置;用于存儲(chǔ)檢測(cè)的目標(biāo)語(yǔ)言的特定范圍字符的標(biāo)準(zhǔn)出現(xiàn)率的裝置;和用于將所述輸入文本的特定范圍字符的出現(xiàn)率與所述檢測(cè)的目標(biāo)語(yǔ)言的特定范圍字符的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較的裝置。因此,可獲得這樣的優(yōu)點(diǎn)通過(guò)將從出現(xiàn)率計(jì)算器中得出的輸入文本的特定字符的出現(xiàn)率與從標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器中得出的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較,以確定該輸入文本是否對(duì)應(yīng)于具有與目標(biāo)語(yǔ)言相配的特征的文本,能夠鑒別輸入文本中的目標(biāo)語(yǔ)言。
此外,按照本發(fā)明,第四,提供了下列裝置在進(jìn)行關(guān)鍵字檢索時(shí)將分離字符插入庫(kù)文本中的裝置;用于當(dāng)在插入了分離字符的文本中發(fā)現(xiàn)了分離字符時(shí)檢測(cè)將該分離字符置于中間的三字符鏈的裝置;用于產(chǎn)生由位于所述分離字符之前和之后的字符組成的字符鏈、由所述分離字符和位于所述分離字符之前的字符組成的字符鏈、以及由所述分離字符和位于所述分離字符之后的字符組成的字符鏈的裝置;和用于在檢索時(shí)將所述分離字符插入到所述輸入文本的開始、或者所述輸入文本的結(jié)尾、或者所述輸入文本的開始和結(jié)尾的裝置。因此,可以獲得這樣的優(yōu)點(diǎn)可排除使用文本而不是關(guān)鍵字進(jìn)行的檢索。
此外,按照本發(fā)明,第五,在一種從幾種預(yù)定語(yǔ)言類別中唯一地模式識(shí)別包含文本數(shù)據(jù)的一種語(yǔ)言的信息處理系統(tǒng)中,提供了一存儲(chǔ)媒體,用于記錄構(gòu)成模式組的程序,該模式組由用于字符代碼的字符代碼組的組合構(gòu)成,其中用于模式識(shí)別的編碼字符被分類為作為代碼表的多個(gè)一維代碼組,并且所述存儲(chǔ)媒體具有一模式存儲(chǔ)裝置,用于存儲(chǔ)第一數(shù)據(jù)、第二數(shù)據(jù)和第三數(shù)據(jù),第一數(shù)據(jù)由一n-字符組合組成,并包含多個(gè)字符組,其中在任何一個(gè)字符組中都含有構(gòu)成組合的代碼,第二數(shù)據(jù)具有相應(yīng)于所述第一數(shù)據(jù)的組合模式的數(shù)值,第三數(shù)據(jù)根據(jù)所述第一數(shù)據(jù)和第二數(shù)據(jù)的組合而被分配給預(yù)定模式類型。此外,還提供了下列裝置一字符鏈提取裝置,用于從一文本中檢測(cè)二字符鏈,并確定包含組成二字符鏈的字符的字符組;一模式計(jì)算裝置,用于比較由所述字符鏈提取裝置確定的字符組的組合是否與一模式存儲(chǔ)裝置中的模式相符,并計(jì)算相符模式的數(shù)值;和一模式確定裝置,用于確定具有由所述模式計(jì)算裝置計(jì)算的所有字符鏈的最大數(shù)值的一模式以及它們的組合模式,作為模式存儲(chǔ)裝置中的模式組合,這些模式組合與所述第一數(shù)據(jù)、第二數(shù)據(jù)和第三數(shù)據(jù)中的那些模式組合相符。此外,還提供了這樣的模式確定裝置該裝置對(duì)所有字符鏈計(jì)算由所述模式計(jì)算裝置計(jì)算的數(shù)值的平均值,并確定與模式存儲(chǔ)裝置的第二數(shù)據(jù)最接近的值,作為該模式存儲(chǔ)裝置的模式組合;或者該模式計(jì)算裝置對(duì)所有字符鏈計(jì)算由所述模式計(jì)算裝置計(jì)算的數(shù)值的最大頻度值,并確定與模式存儲(chǔ)裝置的第二數(shù)據(jù)最接近的值,作為該模式存儲(chǔ)裝置的模式組合。因此,可以獲得這樣的優(yōu)點(diǎn)可根據(jù)模式集自動(dòng)確定數(shù)據(jù)應(yīng)當(dāng)屬于的模式,其中這些數(shù)據(jù)被分配給諸如字符集等的所有模式,并且這些模式被分類為幾種類型的涵義(meaning)模式組,并且多個(gè)涵義組由模式組的組合來(lái)表示。
此外,按照本發(fā)明,第六,提供了一存儲(chǔ)媒體,它構(gòu)成由用于模式識(shí)別的模式組的組合組成的模式組,并且存儲(chǔ)第一數(shù)據(jù)、第二數(shù)據(jù)和第三數(shù)據(jù),第一數(shù)據(jù)由用于模式組的二字符組合模式組成,其中模式組為先前已知的,第二數(shù)據(jù)由指示所述第一數(shù)據(jù)的模式類型組成,第三數(shù)據(jù)說(shuō)明所述第一數(shù)據(jù)和所述第二數(shù)據(jù)的組合的出現(xiàn)次數(shù)。還提供了下列裝置一字符鏈提取裝置,用于從所述存儲(chǔ)媒體中提取先前分配了模式類型的模式數(shù)據(jù)的所有二字符鏈;一字符鏈頻度計(jì)數(shù)裝置,用于計(jì)算各個(gè)字符鏈的出現(xiàn)次數(shù),并將每個(gè)字符類型的字符鏈模式和出現(xiàn)次數(shù)存儲(chǔ)在所述存儲(chǔ)媒體中;所述字符鏈提取裝置,用于從一給定模式中提取二字符鏈;一頻度計(jì)數(shù)裝置,用于對(duì)每一個(gè)模式類型從所述存儲(chǔ)媒體中提取相應(yīng)于所提取的字符鏈的字符鏈模式的出現(xiàn)次數(shù);和一對(duì)照(collating)裝置,用于將從所述頻度計(jì)數(shù)裝置得出的出現(xiàn)次數(shù)與所有提取的字符鏈進(jìn)行對(duì)照,然后確定具有最大總出現(xiàn)次數(shù)的模式類型,作為包含給定模式的模式類型。在這種情況下,所述對(duì)照裝置確定其總出現(xiàn)次數(shù)超過(guò)某個(gè)閾值的模式類型,作為包含給定模式的模式類型,或者,所述對(duì)照裝置確定具有字符鏈模式的最大總出現(xiàn)頻度的模式類型,作為包含給定模式的模式類型,在所有字符鏈中所述字符鏈模式的出現(xiàn)次數(shù)超過(guò)某個(gè)閾值。因此,可以獲得這樣的優(yōu)點(diǎn)可自動(dòng)確定測(cè)試數(shù)據(jù)所屬的模式,并且,除非字符類型、字體等被編碼,否則模式可被分類,此外,在不對(duì)逐個(gè)語(yǔ)言準(zhǔn)備詞典的情況下,模式也可被分類。
此外,按照本發(fā)明,第七,提供了下面的裝置一分離裝置,當(dāng)從事先在存儲(chǔ)媒體中分配了模式類型的模式數(shù)據(jù)中提取出所有字符鏈時(shí),用于分離字符類型或至少一種語(yǔ)言成為文字,所述存儲(chǔ)媒體構(gòu)成由用于模式識(shí)別的模式組的組合組成的模式組;一字符鏈提取裝置,用于基于所述分離裝置來(lái)提取字符鏈;一鏈轉(zhuǎn)換裝置,如果字符鏈由一個(gè)字符組成,則重復(fù)相同的字符,以形成字符鏈;所述字符鏈頻度計(jì)數(shù)裝置;所述字符鏈提取裝置;及所述頻度計(jì)數(shù)裝置。因此,可以獲得這樣的優(yōu)點(diǎn)可自動(dòng)確定測(cè)試數(shù)據(jù)所屬的模式,并且還具有這樣的優(yōu)點(diǎn)除非字符類型、字體等被編碼,否則模式可被分類,此外,在不對(duì)逐個(gè)語(yǔ)言準(zhǔn)備所有規(guī)則的情況下,模式也可被分類。
此外,按照本發(fā)明,第八,在構(gòu)成由用在模式識(shí)別中的字符代碼組的組合組成的模式組的存儲(chǔ)媒體中提供了一模式存儲(chǔ)裝置,用于存儲(chǔ)由二字符組合組成的字符鏈模式的文件號(hào),以及每個(gè)模式類別的或語(yǔ)言的文本數(shù)據(jù)的字符鏈模式。此外,還提供了下列裝置一字符鏈提取裝置,用于提取一文本數(shù)據(jù)的所有二字符鏈,一字符鏈頻度計(jì)數(shù)裝置,用于計(jì)算各字符鏈的出現(xiàn)次數(shù),并計(jì)算每個(gè)字符類型的字符鏈模式和文件號(hào);和一字符頻度比較裝置,用于對(duì)每個(gè)模式類別,提取由所述字符鏈頻度計(jì)數(shù)裝置獲得的字符鏈模式以及一存儲(chǔ)媒體中的字符鏈模式的頻度,對(duì)每個(gè)模式類別比較所述字符鏈模式的頻度的總值,并且將字符鏈模式、出現(xiàn)次數(shù)和文件數(shù)目存儲(chǔ)到具有大模式類別的存儲(chǔ)媒體的模式類別中。在這種情況下,所述字符頻度比較裝置確定其總出現(xiàn)次數(shù)超過(guò)某個(gè)閾值的模式類型,作為含有給定模式的模式類型,或者,所述字符頻度比較裝置確定其中出現(xiàn)次數(shù)在所有字符鏈中超過(guò)某個(gè)閾值的字符鏈模式的總出現(xiàn)頻度最大的模式類型,作為含有給定模式的模式類型。因此,可以獲得這樣的優(yōu)點(diǎn)可自動(dòng)確定測(cè)試數(shù)據(jù)所屬的模式,并且,除非字符類型、字體等被編碼,否則模式可被分類。
此外,按照本發(fā)明,第九,在一種信息處理系統(tǒng)中,該信息處理系統(tǒng)從幾種預(yù)定語(yǔ)言類別中唯一地模式識(shí)別含有文本數(shù)據(jù)的一種語(yǔ)言,其中字符代碼對(duì)每一種字符字體都限定,在所述系統(tǒng)中提供了一存儲(chǔ)媒體,該存儲(chǔ)媒體構(gòu)成由用于模式識(shí)別的字符代碼組的組合組成的模式組,并將構(gòu)成每種語(yǔ)言的字符的二字符組合存儲(chǔ)在一單獨(dú)語(yǔ)言分布表中,其中對(duì)漢字、平假名/片假名、符號(hào)、Hangul(韓文文字)和其它字符的每個(gè)字符類型都存儲(chǔ)第一字符的出現(xiàn)率;一單獨(dú)代碼指定裝置,用于讀取一統(tǒng)合代碼或一本地(local)代碼,作為一應(yīng)用的字符代碼系統(tǒng);一字符鏈提取裝置,用于從輸入文本數(shù)據(jù)中提取所有的二字符鏈;一出現(xiàn)次數(shù)計(jì)數(shù)裝置,用于按照指定的代碼系統(tǒng),對(duì)每種語(yǔ)言分類漢字、平假名/片假名、符號(hào)、Hangul和其它字符的二字符鏈,然后分別計(jì)算它們的出現(xiàn)率;一單獨(dú)語(yǔ)言互分布距離(interdistributiondistance)計(jì)算裝置,用于計(jì)算基于指定的代碼系統(tǒng)的每種語(yǔ)言的漢字、平假名/片假名、符號(hào)、Hangul的出現(xiàn)率與以及由存儲(chǔ)裝置管理的漢字、平假名/片假名、符號(hào)、Hangul的出現(xiàn)率之間的距離總數(shù);和一比較裝置,用于使所述單獨(dú)語(yǔ)言互分布距離計(jì)算裝置計(jì)算最小距離值,然后確定具有最小距離值的語(yǔ)言類別,作為輸入文本的語(yǔ)言。因此,由于可計(jì)算漢字、平假名/片假名、符號(hào)等的出現(xiàn)分布之間的距離,因而可容易地確定語(yǔ)言類別。


圖1是說(shuō)明按照本發(fā)明第一個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖2是說(shuō)明按照本發(fā)明的字符代碼語(yǔ)言鑒別的第一個(gè)方法的概念圖;圖3是說(shuō)明按照本發(fā)明第二個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖4是說(shuō)明按照本發(fā)明的字符代碼語(yǔ)言鑒別的第二個(gè)方法的概念圖;圖5是說(shuō)明按照本發(fā)明第三個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖6是說(shuō)明按照本發(fā)明的字符代碼語(yǔ)言鑒別的第三個(gè)方法的概念圖;圖7是說(shuō)明按照本發(fā)明第四個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖8是說(shuō)明按照本發(fā)明的檢索關(guān)鍵字的第四個(gè)方法的概念圖;圖9是說(shuō)明按照本發(fā)明第五個(gè)方法實(shí)施例的代碼表的圖;圖10是說(shuō)明按照本發(fā)明第五個(gè)方法實(shí)施例的模式存儲(chǔ)裝置結(jié)構(gòu)的圖;圖11是說(shuō)明按照本發(fā)明第五個(gè)方法實(shí)施例的作為鑒別對(duì)象的文本的概念圖;圖12是說(shuō)明按照本發(fā)明第五個(gè)方法實(shí)施例的模式鑒別中間的數(shù)據(jù)結(jié)構(gòu)的圖;圖13是說(shuō)明按照本發(fā)明第五個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖14是說(shuō)明按照本發(fā)明第六個(gè)方法實(shí)施例的樣本數(shù)據(jù)的概念圖;圖15是說(shuō)明按照本發(fā)明第六個(gè)方法實(shí)施例的字符鏈出現(xiàn)率的圖;圖16是說(shuō)明按照本發(fā)明第六個(gè)方法實(shí)施例的頻度存儲(chǔ)器的數(shù)據(jù)結(jié)構(gòu)以及該數(shù)據(jù)的概念圖;圖17是說(shuō)明按照本發(fā)明第六個(gè)方法實(shí)施例的測(cè)試文本的概念圖;圖18是說(shuō)明按照本發(fā)明第六個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖19是說(shuō)明按照本發(fā)明第七個(gè)方法實(shí)施例的樣本數(shù)據(jù)的概念圖;圖20是說(shuō)明按照本發(fā)明第七個(gè)方法實(shí)施例的鏈轉(zhuǎn)換數(shù)據(jù)的概念圖;圖21是說(shuō)明按照本發(fā)明第七個(gè)方法實(shí)施例的頻度存儲(chǔ)器的數(shù)據(jù)結(jié)構(gòu)以及該數(shù)據(jù)的概念圖;圖22是說(shuō)明按照本發(fā)明第七個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖23是說(shuō)明按照本發(fā)明第八個(gè)方法實(shí)施例的代碼表的圖;圖24是說(shuō)明按照本發(fā)明第八個(gè)方法實(shí)施例的字符鏈數(shù)據(jù)的概念圖;圖25是說(shuō)明按照本發(fā)明第八個(gè)方法實(shí)施例的在進(jìn)行字符鏈對(duì)照時(shí)的字符鏈數(shù)據(jù)的概念圖;圖26是說(shuō)明按照本發(fā)明第八個(gè)方法實(shí)施例的頻度存儲(chǔ)器的數(shù)據(jù)結(jié)構(gòu)以及該數(shù)據(jù)的概念圖;圖27是說(shuō)明按照本發(fā)明第八個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖;圖28是說(shuō)明按照本發(fā)明第九個(gè)方法實(shí)施例的單獨(dú)字符集代碼表存儲(chǔ)器的結(jié)構(gòu)的方框圖;圖29是說(shuō)明按照本發(fā)明第九個(gè)方法實(shí)施例的單獨(dú)語(yǔ)言分布表存儲(chǔ)器的結(jié)構(gòu)的方框圖;圖30是說(shuō)明按照本發(fā)明第九個(gè)方法實(shí)施例的輸入文本數(shù)據(jù)的概念圖;圖31是說(shuō)明按照本發(fā)明第九個(gè)方法實(shí)施例的計(jì)算距離確定結(jié)果的方法的圖;和圖32是說(shuō)明按照本發(fā)明第九個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)的方框圖。
下面將參照附圖描述本發(fā)明的實(shí)施例。
(實(shí)施例1)圖1示出了按照本發(fā)明第一個(gè)方法實(shí)施例的字符代碼語(yǔ)言鑒別系統(tǒng)的結(jié)構(gòu)。
在圖1中,標(biāo)號(hào)101表示一特定字符鑒別器,用于鑒別輸入文本(字符串)中的字符是否相應(yīng)于檢測(cè)的目標(biāo)語(yǔ)言的特定字符;標(biāo)號(hào)102表示一特定字符計(jì)數(shù)器,用于對(duì)由所述特定字符鑒別器鑒別的特定字符的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù);標(biāo)號(hào)103表示一輸入字符計(jì)數(shù)器,用于對(duì)輸入文本的所有字符的出現(xiàn)進(jìn)行計(jì)數(shù);標(biāo)號(hào)104表示一出現(xiàn)率計(jì)算器,用于根據(jù)由特定字符計(jì)數(shù)器102計(jì)數(shù)的特定字符的出現(xiàn)次數(shù)和由輸入字符計(jì)數(shù)器103計(jì)數(shù)的輸入文本的字符數(shù),來(lái)計(jì)算所述特定字符的出現(xiàn)率;標(biāo)號(hào)105表示一標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器,用于存儲(chǔ)檢測(cè)的目標(biāo)語(yǔ)言的特定字符的標(biāo)準(zhǔn)出現(xiàn)率;標(biāo)號(hào)106表示一比較器,用于將由出現(xiàn)率計(jì)算器104檢測(cè)出的出現(xiàn)率與存儲(chǔ)在標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器105中的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較;以及,標(biāo)號(hào)107表示一文本結(jié)束檢測(cè)器,用于檢測(cè)輸入文本的結(jié)束。
圖2示出了按照本發(fā)明的字符代碼語(yǔ)言鑒別的第一個(gè)方法的概念。
在圖2中,標(biāo)號(hào)201表示應(yīng)用語(yǔ)言鑒別的輸入文本,而標(biāo)號(hào)202表示在該輸入文本中出現(xiàn)的特定字符。在本發(fā)明的第一個(gè)方法中,通過(guò)檢測(cè)輸入文本中的特定字符的出現(xiàn)率來(lái)鑒別目標(biāo)語(yǔ)言。假定輸入文本201的字符總數(shù)為m,而特定字符202的出現(xiàn)次數(shù)為n,則該輸入文本201中的該特定字符的出現(xiàn)率k由n/m給出。假定目標(biāo)語(yǔ)言中特定字符的出現(xiàn)率的最小值為a而最大值為b,如果輸入文本201中特定字符的出現(xiàn)率k為a≤k≤b,則本發(fā)明的第一個(gè)方法在此時(shí)確定該輸入文本相應(yīng)于所述目標(biāo)語(yǔ)言。利用上面的方法,可實(shí)現(xiàn)文本的語(yǔ)言鑒別。
當(dāng)通過(guò)將“空白字符”指定為象韓語(yǔ)那樣的特定字符202而鑒別輸入文本中的韓語(yǔ)時(shí),本發(fā)明也是有效的。此時(shí),可根據(jù)對(duì)由十二萬(wàn)個(gè)字符組成的韓語(yǔ)報(bào)紙計(jì)算數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)而采用a=0.14、b=0.23。按照本方法,可從其它文件中,例如從日語(yǔ)文件中,鑒別出以韓語(yǔ)Hangul描述的文件。
如上所述,當(dāng)由文本結(jié)束檢測(cè)器107檢測(cè)出文本的結(jié)束時(shí),通過(guò)將從出現(xiàn)率計(jì)算器104中得出的輸入文本中特定字符的出現(xiàn)率與從標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器105中得出的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較,以確定所述輸入文本是否相應(yīng)于具有與目標(biāo)語(yǔ)言相配的特征的文本,從而鑒別出所述輸入文本中的目標(biāo)語(yǔ)言。
(實(shí)施例2)圖3示出了按照本發(fā)明第二個(gè)方法實(shí)施例的字符代碼語(yǔ)言鑒別系統(tǒng)的結(jié)構(gòu)。
在圖3中,標(biāo)號(hào)301表示一特定字符鑒別器,用于鑒別輸入文本中的字符是否相應(yīng)于檢測(cè)的目標(biāo)語(yǔ)言的特定字符;標(biāo)號(hào)302表示一文本長(zhǎng)度計(jì)數(shù)器,用于對(duì)沒(méi)有由所述特定字符鑒別器301鑒別的非特定字符的連續(xù)出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù);標(biāo)號(hào)303表示一加法器,用于計(jì)算從文本長(zhǎng)度計(jì)數(shù)器302輸出的文本長(zhǎng)度的總和;標(biāo)號(hào)304表示一特定字符計(jì)數(shù)器,用于對(duì)由特定字符鑒別器301鑒別出的特定字符的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù);標(biāo)號(hào)305表示一平均文本長(zhǎng)度計(jì)算器,用于計(jì)算通過(guò)將由加法器303計(jì)算出的文本長(zhǎng)度的總數(shù)除以從特定字符計(jì)數(shù)器304得出的特定字符數(shù)目,而得出的平均文本長(zhǎng)度;標(biāo)號(hào)306表示一標(biāo)準(zhǔn)文本長(zhǎng)度存儲(chǔ)器,用于存儲(chǔ)檢測(cè)的目標(biāo)語(yǔ)言的平均文本長(zhǎng)度;標(biāo)號(hào)307表示一比較器,用于將由平均文本長(zhǎng)度計(jì)算器305得到的平均文本長(zhǎng)度與存儲(chǔ)在標(biāo)準(zhǔn)文本長(zhǎng)度存儲(chǔ)器306中的標(biāo)準(zhǔn)平均文本長(zhǎng)度進(jìn)行比較;以及,標(biāo)號(hào)308表示一文本結(jié)束檢測(cè)器,用于檢測(cè)輸入文本的結(jié)束。
圖4示出了按照本發(fā)明的字符代碼語(yǔ)言鑒別的第二個(gè)方法的概念。
在圖4中,標(biāo)號(hào)401表示應(yīng)用語(yǔ)言鑒別的輸入文本;標(biāo)號(hào)402表示在該輸入文本中出現(xiàn)的特定字符;并且,標(biāo)號(hào)411、412、41n表示由特定字符劃分的非特定字符的文本(非特定文本)。在本發(fā)明的第二個(gè)方法中,通過(guò)檢測(cè)非特定文本411、412、41n的平均長(zhǎng)度來(lái)鑒別目標(biāo)語(yǔ)言,所述非特定文本411、412、41n是通過(guò)由特定字符402劃分輸入文本401來(lái)給出的。假定輸入文本401的非特定字符是以n-1個(gè)特定字符來(lái)劃分的,因而該輸入文本包含n個(gè)非特定文本,并且此時(shí)這些非特定文本的長(zhǎng)度為a1,a2,a3,…,an,輸入文本401中這些非特定文本的平均文本長(zhǎng)度k由(a1+a2+a3+…+an)/n來(lái)給出。假定目標(biāo)語(yǔ)言中由特定字符劃分的非特定字符的平均文本長(zhǎng)度的最小值為a而最大值為b,如果輸入文本401中非特定字符的平均文本長(zhǎng)度k為a≤k≤b,則按照本發(fā)明第二方法的鑒別方法在此時(shí)確定輸入文本401相應(yīng)于所述目標(biāo)語(yǔ)言。利用上面的方法,可實(shí)現(xiàn)文本的語(yǔ)言鑒別。
按照本發(fā)明,例如,可通過(guò)將“空白字符”指定為象韓語(yǔ)那樣的特定字符402而鑒別輸入文本中的韓語(yǔ)。此時(shí),可根據(jù)對(duì)由十二萬(wàn)個(gè)字符組成的韓語(yǔ)報(bào)紙計(jì)算數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)而采用a=3、b=5。
此外,例如,在日語(yǔ)和漢語(yǔ)之間進(jìn)行鑒別的過(guò)程中,可通過(guò)將“、”(在漢語(yǔ)情況下為“,”)、“的”和“。”指定為特定字符402來(lái)鑒別輸入文本中的語(yǔ)言。此時(shí),可根據(jù)對(duì)由五萬(wàn)四千個(gè)字符組成的日語(yǔ)報(bào)紙計(jì)算數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)而采用a=10、b=22,并且,可根據(jù)對(duì)由八萬(wàn)四千個(gè)字符組成的漢語(yǔ)條例文件的統(tǒng)計(jì)數(shù)據(jù)而采用a=4、b=9。按照本方法,可通過(guò)比較輸入文本的描述語(yǔ)言相應(yīng)于日語(yǔ)或者漢語(yǔ)的上述平均文本長(zhǎng)度而容易地進(jìn)行鑒別。
如上所述,當(dāng)由文本結(jié)束檢測(cè)器308檢測(cè)出文本的結(jié)束時(shí),通過(guò)將從平均文本長(zhǎng)度計(jì)算器305中得出的輸入文本中的平均文本長(zhǎng)度與從標(biāo)準(zhǔn)文本長(zhǎng)度存儲(chǔ)器306中得出的標(biāo)準(zhǔn)文本長(zhǎng)度進(jìn)行比較,以確定所述輸入文本是否相應(yīng)于具有與目標(biāo)語(yǔ)言相配的特征的文本,從而鑒別出所述輸入文本中的目標(biāo)語(yǔ)言。
(實(shí)施例3)圖5示出了按照本發(fā)明第三個(gè)方法實(shí)施例的字符代碼語(yǔ)言鑒別系統(tǒng)的結(jié)構(gòu)。
在圖5中,標(biāo)號(hào)501表示一特定范圍字符鑒別器,用于鑒別輸入文本中的字符是否相應(yīng)于檢測(cè)的目標(biāo)語(yǔ)言的特定范圍中的字符;標(biāo)號(hào)502表示一特定范圍字符計(jì)數(shù)器,用于對(duì)由所述特定范圍字符鑒別器所鑒別的特定范圍字符的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù);標(biāo)號(hào)503表示一輸入字符計(jì)數(shù)器,用于對(duì)輸入文本中的所有字符代碼的出現(xiàn)進(jìn)行計(jì)數(shù);標(biāo)號(hào)504表示一出現(xiàn)率計(jì)算器,用于根據(jù)由所述特定范圍字符計(jì)數(shù)器502計(jì)數(shù)的特定范圍字符的出現(xiàn)次數(shù)和由所述輸入字符計(jì)數(shù)器503計(jì)數(shù)的輸入文本的字符數(shù)目,來(lái)計(jì)算特定范圍字符的出現(xiàn)率;標(biāo)號(hào)505表示一標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器,用于存儲(chǔ)檢測(cè)的目標(biāo)語(yǔ)言的特定范圍字符的標(biāo)準(zhǔn)出現(xiàn)率;標(biāo)號(hào)506表示一比較器,用于將從所述出現(xiàn)率計(jì)算器504得出的出現(xiàn)率與存儲(chǔ)在所述標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器505中的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較;以及,標(biāo)號(hào)507表示一文本結(jié)束檢測(cè)器,用于檢測(cè)輸入文本的結(jié)束。
圖6示出了按照本發(fā)明的字符代碼語(yǔ)言鑒別的第三個(gè)方法的概念。在圖6中,標(biāo)號(hào)601表示應(yīng)用語(yǔ)言鑒別的輸入文本;標(biāo)號(hào)602表示在該輸入文本中出現(xiàn)的特定范圍中的字符的字符代碼范圍;并且,標(biāo)號(hào)611、612、613表示包含在范圍602中的特定范圍中的字符。在本發(fā)明的第三個(gè)方法中,通過(guò)檢測(cè)輸入文本的特定范圍中的字符的出現(xiàn)率來(lái)鑒別目標(biāo)語(yǔ)言。假定輸入文本601的字符總數(shù)為m,并且所述特定范圍中包含的字符的出現(xiàn)次數(shù)為n,則輸入文本601的特定范圍中的字符的出現(xiàn)率k由n/m給出。假定目標(biāo)語(yǔ)言中特定范圍中的字符的出現(xiàn)率的最小值為a而最大值為b,如果輸入文本601中的特定范圍中的字符的出現(xiàn)率k為a≤k≤b,則按照本發(fā)明第三方法的鑒別方法在此時(shí)確定輸入文本601相應(yīng)于所述目標(biāo)語(yǔ)言。利用上面的方法,可實(shí)現(xiàn)文本的語(yǔ)言鑒別。
按照本發(fā)明,例如,可通過(guò)將“平假名”或“漢字”指定為象日語(yǔ)那樣的特定范圍中的字符的范圍602而鑒別輸入文本中的日語(yǔ)。此時(shí),可根據(jù)對(duì)由五萬(wàn)四千個(gè)字符組成的日語(yǔ)報(bào)紙計(jì)算數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)而采用“平假名”的a=0.1、b=0.5和“漢字”的a=0.2、b=0.6。按照本方法,可容易地鑒別輸入文本的描述語(yǔ)言是否相應(yīng)于日語(yǔ)。
如上所述,當(dāng)由文本結(jié)束檢測(cè)器507檢測(cè)出文本的結(jié)束時(shí),通過(guò)將從出現(xiàn)率計(jì)算器504中得出的輸入文本的特定范圍中的字符的出現(xiàn)率與從標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器505中得出的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較,以確定所述輸入文本是否相應(yīng)于具有與目標(biāo)語(yǔ)言相配的特征的文本,從而鑒別出所述輸入文本中的目標(biāo)語(yǔ)言。
(實(shí)施例4)
圖8示出了按照本發(fā)明的檢索關(guān)鍵字的第四個(gè)方法的概念。在圖8中,標(biāo)號(hào)801表示在登錄時(shí)輸入的一文本“いろはに”;標(biāo)號(hào)811、812、813分別表示一關(guān)鍵字;標(biāo)號(hào)802表示一分離字符插入文本,其中將分離字符“a”插入到輸入文本801的關(guān)鍵字811、812、813之間的邊界;標(biāo)號(hào)803表示首先登錄到所述分離字符插入文本802中的一個(gè)二字符鏈“aい”;標(biāo)號(hào)804表示在二字符鏈803之后出現(xiàn)的一個(gè)二字符鏈“いろ”;標(biāo)號(hào)805表示一個(gè)二字符鏈“ろa”,它包含從一個(gè)三字符鏈“ろaは”產(chǎn)生的分離字符,在該三字符鏈“ろaは”中將分離字符“a”置于中間;標(biāo)號(hào)806表示一個(gè)二字符鏈“aろ”,它包含所述三字符鏈“ろaは”中的分離字符;標(biāo)號(hào)807表示一個(gè)二字符鏈“ろは”,它不包含在所述三字符鏈“ろaは”中的分離字符,而在所述分離字符擴(kuò)展;標(biāo)號(hào)808表示緊接著二字符鏈807出現(xiàn)的一個(gè)二字符鏈“はに”;并且,標(biāo)號(hào)809表示在808之后出現(xiàn)的一個(gè)二字符鏈“にa”。
此外,在圖8中,分別地為二字符鏈803存儲(chǔ)“a”和“い”的出現(xiàn)次數(shù)n、n1;二字符鏈804存儲(chǔ)“い”和“ろ”的出現(xiàn)次數(shù)n1、n2;二字符鏈805存儲(chǔ)“ろ”和“a”的出現(xiàn)次數(shù)n2、n;二字符鏈806存儲(chǔ)“a”和“は”的出現(xiàn)次數(shù)n、n3;二字符鏈807存儲(chǔ)“ろ”和“は”的出現(xiàn)次數(shù)n2、n3;二字符鏈808存儲(chǔ)“は”和“に”的出現(xiàn)次數(shù)n3、n4;以及,二字符鏈809存儲(chǔ)“に”和“a”的出現(xiàn)次數(shù)n4、n。
此外,在圖8中,標(biāo)號(hào)821表示在檢索時(shí)檢索到的文本“いろはに”;標(biāo)號(hào)822表示將分離字符“a”插入到821的開始和結(jié)尾的一檢索文本,用于通過(guò)將檢索文本821用作關(guān)鍵字而進(jìn)行完全相符檢索;標(biāo)號(hào)823表示在檢索文本322中首先檢索到的一個(gè)二字符鏈“a い”;標(biāo)號(hào)824表示在823之后出現(xiàn)的一個(gè)二字符鏈“いろ”;標(biāo)號(hào)825表示在824之后出現(xiàn)的一個(gè)二字符鏈“ろは”;標(biāo)號(hào)826表示在825之后出現(xiàn)的一個(gè)二字符鏈“はに”;以及,標(biāo)號(hào)827表示在826之后出現(xiàn)的一個(gè)二字符鏈“にa”。
圖7示出了按照本發(fā)明第四個(gè)方法實(shí)施例的用于文本檢索方法的信息處理系統(tǒng)的結(jié)構(gòu)。
在圖7和圖8中,標(biāo)號(hào)701表示一文本轉(zhuǎn)換器,用于將特定分離字符“a”插入到庫(kù)文本801的關(guān)鍵字之間的邊界;標(biāo)號(hào)702表示一分離字符檢測(cè)器,用于從自文本轉(zhuǎn)換器701輸出并插入了分離字符的庫(kù)文本802中檢測(cè)所述分離字符;標(biāo)號(hào)703表示一個(gè)二字符鏈產(chǎn)生器,用于檢測(cè)當(dāng)在文本802中沒(méi)有發(fā)現(xiàn)分離字符時(shí)產(chǎn)生和登錄的所述二字符鏈804、808;標(biāo)號(hào)704表示一分離字符鏈產(chǎn)生器,用于從文本802檢測(cè)所述二字符鏈805、806、807以及二字符鏈803、809,所述二字符鏈805、806、807是從在中間具有分離字符“a”的三字符鏈“ろaは”中產(chǎn)生的,所述二字符鏈803、809分別在所述文本的開始和結(jié)尾具有分離字符;標(biāo)號(hào)705表示一個(gè)二字符鏈存儲(chǔ)器,用于存儲(chǔ)由所述二字符鏈產(chǎn)生器703和分離字符鏈產(chǎn)生器704檢測(cè)的二字符鏈803、804、805、806、807、808、809,其中分離字符表示一固定值,而其它字符表示它們的出現(xiàn)次數(shù);標(biāo)號(hào)706表示一文本轉(zhuǎn)換器,用于將特定分離字符“a”插入檢索文本821的開始和結(jié)尾;標(biāo)號(hào)707表示一個(gè)二字符鏈檢測(cè)器,用于從由所述文本轉(zhuǎn)換器706產(chǎn)生的檢索文本822中檢測(cè)二字符鏈823、824、825、826、827;標(biāo)號(hào)708表示一比較器,用于從二字符鏈存儲(chǔ)器705中檢測(cè)由二字符鏈檢測(cè)器707檢測(cè)的二字符鏈823、824、825、826、827,然后確定所檢測(cè)的二字符鏈的前面字符的出現(xiàn)次數(shù)是否與在這之前剛檢測(cè)到的二字符鏈之后的字符的出現(xiàn)次數(shù)相符;以及,標(biāo)號(hào)709表示一控制部分,用于通過(guò)使比較器708確定從二字符鏈檢測(cè)器707檢測(cè)的所有二字符鏈來(lái)確定文本的相符性。此時(shí),按照本發(fā)明的第四個(gè)方法,檢測(cè)出與二字符鏈823的“a い”相當(dāng)?shù)亩址?03,此外還檢測(cè)出此時(shí)“い”的出現(xiàn)次數(shù)n1,并且,檢測(cè)出與鏈823之后的二字符鏈824的“いろ”相當(dāng)?shù)亩址?04,此外還檢測(cè)出此時(shí)“い”和“ろ”的出現(xiàn)次數(shù)n1、n2。確定二字符鏈803和804之間的“い”的出現(xiàn)次數(shù)n1是否相互一致。如果是相互一致,則檢測(cè)出相當(dāng)于二字符鏈825的“ろは”的二字符鏈807,此外還檢測(cè)出此時(shí)“ろ”和“は”的出現(xiàn)次數(shù)n2、n3。確定二字符鏈804和807之間的“ろ”的出現(xiàn)次數(shù)n2是否相互一致。如果是相互一致,則檢測(cè)出相當(dāng)于二字符鏈826的“はに”的二字符鏈808,此外還檢測(cè)出此時(shí)“は”和“に”的出現(xiàn)次數(shù)n3、n4。確定二字符鏈807和808之間的“は”的出現(xiàn)次數(shù)n3是否相互一致。如果是相互一致,則檢測(cè)出相當(dāng)于二字符鏈827的“にa”的二字符鏈809。然后,確定此時(shí)“は”的出現(xiàn)次數(shù)n4是否與二字符鏈808的“に”的出現(xiàn)次數(shù)相互一致。如果是相互一致,則根據(jù)關(guān)鍵字的完全一致性確定文本821與文本801相互一致。利用上面的方法,可實(shí)現(xiàn)文本的對(duì)照。
按照本發(fā)明的系統(tǒng),可排除使用文本而不是關(guān)鍵字進(jìn)行的檢索。例如,如果應(yīng)當(dāng)使用文本“いろは”來(lái)進(jìn)行檢索,該文本“いろは”不是關(guān)鍵字,就象圖8中的文本831,則這樣的檢索可使用就象832那樣的檢索文本來(lái)進(jìn)行,其中在該檢索文本中將分離字符插入到了其開始和結(jié)尾。在這種情況下,由于文本831不與關(guān)鍵字811、812、813對(duì)應(yīng),故產(chǎn)生但不檢索不能從檢索文本832中檢測(cè)出的二字符鏈836的“はa”。
在這種情況下,本發(fā)明的系統(tǒng)可類似地應(yīng)用于采用字符的定位信息來(lái)替代各個(gè)二字符鏈中的字符的出現(xiàn)次數(shù)的情況。
(實(shí)施例5)下面將解釋作為本發(fā)明第五實(shí)施例的字符模式鑒別方法的例子。
圖9示出了用于編碼多個(gè)字符模式并存儲(chǔ)這些模式的代碼表。在這種情況下,例如,模式代碼一維地形成,并且將unicode等選為文本代碼的對(duì)象。A組901是由所謂的平假名和片假名組成的組,比如字符“あ”,…,“カ”,…,。將代碼號(hào)分配給A組901的各個(gè)字符,以使將#1分配給“あ”,#2分配給“い”等。類似地,B組902是由漢字組成的組,并且將從#100開始的代碼號(hào)分配給各個(gè)漢字,并且,C組903是由諸如×、○、△等符號(hào)組成的組,并且將從#200開始的代碼號(hào)分配給各個(gè)符號(hào)。在這種情況下,上述代碼號(hào)是出于方便考慮而分配的,任何代碼號(hào)只要它們?cè)诖a表中唯一便可被應(yīng)用。
接下來(lái),圖10示出了用于存儲(chǔ)由字符組成的模式分類類型及其數(shù)據(jù)的的模式存儲(chǔ)裝置的結(jié)構(gòu)。此時(shí),假定由字符集的組合形成的文本數(shù)據(jù)是由要鑒別的模式中的任何一種文本構(gòu)成的。對(duì)于兩個(gè)字符模式集,各個(gè)模式及它們值存儲(chǔ)在代碼表的各個(gè)集中,該代碼表中包含第一字符模式和第二字符模式。如果(第一字符,第二字符)分別與(A組中的字符,A組中的字符)(下文中簡(jiǎn)稱為(A組,A組))或(B組,B組)相符,則出現(xiàn)模式相應(yīng)于組合D1,并被定義為包含在模式1中。數(shù)值1被分配給該模式。此外,數(shù)值1還被分配給模式1中的(A組,B組)或(B組,A組)的組合。數(shù)值還分配給模式2和模式3,就象圖10中的模式2、3。例如,由于日語(yǔ)包含平假名、片假名和漢字,模式1可被定義為日語(yǔ)。類似地,如果C組被假定為Hangul,則模式2可被定義為韓語(yǔ),并且模式3可被定義為漢語(yǔ)。
接下來(lái),下面將解釋確定字符串屬于哪個(gè)模式的方法。在圖11中,標(biāo)號(hào)1101表示字符串(string)數(shù)據(jù)。從字符串?dāng)?shù)據(jù)1101中可提取出二字符組合。從該二字符組合中可提取出二字符鏈(日、本)、(あ、い)、(漢、力)。(B組,B組)、(A組,A組)和(B組,A組)被分別檢測(cè)為含有提取出的字符鏈的組。結(jié)果,如圖12所示,(日、本)屬于模式1或2,(あ、い)屬于模式1,并且(漢、力)屬于模式1。
此外,相應(yīng)于這些模式的分值(score)(數(shù)值)可作為1或2、1、1給出。當(dāng)將這些數(shù)值的個(gè)數(shù)相互比較時(shí),可檢測(cè)出數(shù)值1為最頻繁數(shù)值,并檢測(cè)出模式1為與數(shù)值1相配的模式。因此,可確定文本數(shù)據(jù)包含在模式1中。盡管在該第五實(shí)施例中計(jì)算出數(shù)值1具有最高頻度,但在數(shù)值的平均值和模式的數(shù)值之間具有最小差值的模式被確定為含有文本數(shù)據(jù)和模式。此外,可計(jì)算數(shù)值的最高頻度值而不是平均值。
按照本發(fā)明方法,在分析了實(shí)際數(shù)據(jù)之后,可知道,在日語(yǔ)的情況下(將報(bào)紙說(shuō)明作為對(duì)象),符號(hào)的出現(xiàn)率約為所有字符集的10%,除漢字/符號(hào)之外的平假名/片假名等的出現(xiàn)率為約41%,并且漢字的出現(xiàn)率為約49%。在漢語(yǔ)的情況下(將條例書籍作為對(duì)象),符號(hào)的出現(xiàn)率約為所述字符集的3%,除漢字/符號(hào)之外的平假名/片假名等的出現(xiàn)率為約22%,并且漢字的出現(xiàn)率為約74%。在Hangul的情況下(將報(bào)紙說(shuō)明作為對(duì)象),符號(hào)的出現(xiàn)率約為所述字符集的15%,除漢字/符號(hào)之外的平假名/片假名等的出現(xiàn)率為約3%,Hangul字符的出現(xiàn)率為約73%,漢字的出現(xiàn)率為約4%,并且其它情況的出現(xiàn)率為7%。據(jù)此,僅以符號(hào)、平假名/片假名、漢字、和Hangul字符等的形式管理字符代碼,如果除符號(hào)之外的平假名/片假名與漢字的比率為41∶49,則語(yǔ)言為日語(yǔ),如果該比率為22∶74,則語(yǔ)言為漢語(yǔ),并且如果該比率為3∶73,則語(yǔ)言為Hangul。最接近這些比率中的一個(gè)的語(yǔ)言可被歸類為要鑒別的語(yǔ)言。
圖13示出了按照本發(fā)明第五個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)。在圖13中,標(biāo)號(hào)1301表示一字符鏈提取器,用于從文本數(shù)據(jù)中剪切出二字符鏈;標(biāo)號(hào)1303表示一代碼表,其中存儲(chǔ)模式的代碼;標(biāo)號(hào)1305表示一模式存儲(chǔ)器,其中存儲(chǔ)模式集和數(shù)值;標(biāo)號(hào)1302表示一模式計(jì)算器,用于將組成提取的二字符鏈的字符代碼組的集與模式存儲(chǔ)器1305中的集進(jìn)行比較,然后對(duì)所有提取出的二字符鏈計(jì)算相應(yīng)模式的數(shù)值;以及標(biāo)號(hào)1304表示一模式鑒別器,用于根據(jù)由模式計(jì)算器1302計(jì)算出的數(shù)值來(lái)計(jì)算每個(gè)數(shù)值的出現(xiàn)頻度或者平均值或者最頻繁值,然后計(jì)算其出現(xiàn)頻度與存儲(chǔ)在模式存儲(chǔ)器1305中的模式的數(shù)值最相符的模式,或者與平均值的差值或者與最頻繁值的差值,然后確定具有最小值的模式。
因此,按照該方法,可根據(jù)模式集自動(dòng)確定數(shù)據(jù)應(yīng)當(dāng)屬于的模式,其中數(shù)據(jù)被分配給諸如字符集等的所有模式,并且這些模式被分類為幾種涵義模式組(meaning pattern groups),多個(gè)涵義模式組由模式組的組合來(lái)表達(dá)。
特別是,當(dāng)字符類型和字體作為模式被分類為多種模式時(shí),本發(fā)明對(duì)行篩選很有效。將unicode用作代碼的一個(gè)例子。在這種情況下,如果模式1為“平假名/片假名”,模式2為“漢字(CJK漢字)”,并且模式3為“Hangul”,則例如通過(guò)將由模式1和模式2的組合組成的涵義組定義為“日語(yǔ)”、將由模式2和模式3的組合組成的涵義組定義為“韓語(yǔ)”、并且將僅由模式2組成的涵義組定義為“漢語(yǔ)”,可以篩選出語(yǔ)言。
在第五實(shí)施例中,模式如果是編碼模式則不限于字符模式,并且對(duì)象如果是編碼對(duì)象,比如為象◎、◇等的符號(hào)、圖形等,則不受到特別限制。盡管對(duì)字符是以每?jī)蓚€(gè)字符進(jìn)行剪切的,但如果采用兩個(gè)字符,則對(duì)剪切字符的單位沒(méi)有限制。
(實(shí)施例6)下面將解釋作為本發(fā)明第六實(shí)施例的鑒別字符模式的方法的一個(gè)例子。首先,下面將解釋形成信息以鑒別模式的方法。
圖14示出了形成信息的樣本數(shù)據(jù)。在圖14中,標(biāo)號(hào)1401表示漢語(yǔ)樣本數(shù)據(jù),并且從該樣本數(shù)據(jù)中取出了兩個(gè)字符鏈。于是,標(biāo)號(hào)1402表示字符鏈“那些”,并且標(biāo)號(hào)1403表示字符鏈“些都”。這些字符鏈?zhǔn)窍噜彾〉?。將記錄?hào)1分配給樣本數(shù)據(jù)1401的數(shù)據(jù)。隨后將所有的字符鏈都從樣本數(shù)據(jù)中取出。在圖14中,假定通過(guò)后面的解釋說(shuō)明了四個(gè)字符鏈1402到1405。在圖14中,標(biāo)號(hào)1406、1412是日語(yǔ)樣本數(shù)據(jù),并且就象上面那樣從該樣本數(shù)據(jù)中提取出所有的二字符鏈。就象對(duì)漢語(yǔ)樣本數(shù)據(jù)的解釋那樣,在第六實(shí)施例中示出作為二字符鏈的字符鏈1407到1411、1413到1416。在這種情況下,將記錄號(hào)2、3分配給數(shù)據(jù)1406、1412。
接下來(lái),按照象漢語(yǔ)和日語(yǔ)那樣的模式類型,將提取的字符鏈模式的組合模式、記錄號(hào)、和出現(xiàn)次數(shù)單獨(dú)存儲(chǔ)在存儲(chǔ)媒體中。
作為圖15中的出現(xiàn)模式1501到1504,當(dāng)模式類型為漢語(yǔ)時(shí),存儲(chǔ)模式和記錄號(hào)。類似地,作為圖15中的出現(xiàn)模式1505到1509,當(dāng)模式類型為日語(yǔ)時(shí),存儲(chǔ)模式和記錄號(hào)。由于出現(xiàn)模式1501到1504包含樣本數(shù)據(jù)1401,因此對(duì)它們存儲(chǔ)記錄號(hào)1。此外,由于出現(xiàn)模式1505到1509包含樣本數(shù)據(jù)1406或1412,因而當(dāng)僅包含一條記錄時(shí)存儲(chǔ)記錄號(hào)2,而當(dāng)包含兩條記錄時(shí)存儲(chǔ)記錄號(hào)“2、3”。字符鏈的出現(xiàn)次數(shù)由存儲(chǔ)在圖15中的記錄號(hào)的數(shù)目來(lái)指示,并作為圖16所示的二維表示出。
在圖16中,標(biāo)號(hào)1601表示漢語(yǔ)的出現(xiàn)次數(shù),而標(biāo)號(hào)1602表示日語(yǔ)的出現(xiàn)次數(shù)。在圖16的表中,縱坐標(biāo)表示模式組合(第一字符、第二字符)的第一字符,而橫坐標(biāo)表示其第二字符。圖15和16的數(shù)據(jù)存儲(chǔ)在模式鑒別存儲(chǔ)媒體中。第六實(shí)施例中具有任何數(shù)目的記錄數(shù)的模式在下面存儲(chǔ)在存儲(chǔ)媒體中。結(jié)果,每個(gè)模式類型的出現(xiàn)次數(shù)都可存儲(chǔ)在所述表中。
盡管在第六實(shí)施例中已對(duì)漢語(yǔ)和日語(yǔ)這兩種模式進(jìn)行了解釋,但由類似方法可在所述表中存儲(chǔ)多個(gè)模式類型中的每個(gè)模式類型。接下來(lái),將解釋利用測(cè)試模式的鑒別語(yǔ)言的方法。在圖17中,從測(cè)試模式1701中提取出相鄰的二字符鏈。這些提取出的二字符鏈就象鏈1702“同事”、鏈1703“事件”、鏈1704“件と”、鏈1705“と我”和鏈1706“我々”。然后,從圖16的存儲(chǔ)媒體的表中檢測(cè)出相應(yīng)于鏈1702、1703、1704、1705、1706的出現(xiàn)次數(shù)。在漢語(yǔ)表的情況下(圖16的1601),模式(同,事)的出現(xiàn)次數(shù)為1,而其它的出現(xiàn)次數(shù)不存在。相反,在日語(yǔ)表的情況下(圖16的1602),模式(我、々)的出現(xiàn)次數(shù)為2,模式(同,時(shí))的出現(xiàn)次數(shù)為1,并且模式(事,件)的出現(xiàn)次數(shù)為2。如果對(duì)每個(gè)模式類型都計(jì)算這些出現(xiàn)次數(shù)的總數(shù),則該數(shù)在漢語(yǔ)情況下為1并且在日語(yǔ)情況下為5。通過(guò)比較這兩種結(jié)果來(lái)檢測(cè)具有較大數(shù)值的模式類型,結(jié)果便可確定這種測(cè)試模式相應(yīng)于日語(yǔ)。
盡管在上述第六實(shí)施例中計(jì)算了出現(xiàn)次數(shù)的總和,但這樣的方法也可被采用該方法能計(jì)算出其總出現(xiàn)次數(shù)超過(guò)n的模式類型,或者計(jì)算出其中每個(gè)字符鏈的出現(xiàn)次數(shù)超過(guò)n的字符鏈的總出現(xiàn)次數(shù)。
按照本方法,在應(yīng)用于實(shí)施例5中所引用的實(shí)際數(shù)據(jù)的各個(gè)例子中,特意檢驗(yàn)了在日語(yǔ)/漢語(yǔ)/Hangul中使用相同字符代碼的本地代碼中具有大出現(xiàn)率的出現(xiàn)字符類型的數(shù)目。此時(shí),在漢語(yǔ)數(shù)據(jù)中采用了3469種漢字(約為74%);在Hangul數(shù)據(jù)中采用了218種Hangul(約為73%);在日語(yǔ)數(shù)據(jù)中采用了4006種漢字(約為49%);并且在日語(yǔ)數(shù)據(jù)中采用了130種平假名/片假名(約為23%)(如果包含符號(hào)則為510種(約為41%))。根據(jù)上面的出現(xiàn)率和字符類型的組合,對(duì)漢語(yǔ)漢字代碼中的74%的出現(xiàn)頻度和3469個(gè)出現(xiàn)字符類型、Hangul字符代碼中的73%的出現(xiàn)頻度和218個(gè)出現(xiàn)字符類型、日語(yǔ)平假名/片假名代碼中的23%的出現(xiàn)頻度和130個(gè)出現(xiàn)字符類型、以及日語(yǔ)漢字代碼中的49%的出現(xiàn)頻度和4006個(gè)出現(xiàn)字符類型進(jìn)行相互比較,然后,如果在漢語(yǔ)代碼中漢字的出現(xiàn)頻度和出現(xiàn)字符類型大,則確定語(yǔ)言為漢語(yǔ)。同樣,可根據(jù)各種語(yǔ)言代碼中的出現(xiàn)頻度和出現(xiàn)字符類型來(lái)確定語(yǔ)言為日語(yǔ)或Hangul。
圖18示出了按照本發(fā)明第六個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)。在圖18中,標(biāo)號(hào)1801表示一字符鏈提取器,用于從文本數(shù)據(jù)中提取相鄰的二字符鏈;標(biāo)號(hào)1802表示一字符鏈頻度計(jì)數(shù)器,用于對(duì)每個(gè)字符(語(yǔ)言)類型讀取字符鏈的出現(xiàn)次數(shù)和記錄號(hào),并將它們存儲(chǔ)在頻度存儲(chǔ)器1803中;標(biāo)號(hào)1804表示一頻度計(jì)數(shù)器,用于對(duì)每個(gè)模式類型從所述頻度存儲(chǔ)器1803中取出由所述字符鏈提取器1801正檢測(cè)的字符鏈的出現(xiàn)次數(shù);以及,標(biāo)號(hào)1805表示一對(duì)照器,用于計(jì)算從所述頻度計(jì)數(shù)器1804檢測(cè)出的總的出現(xiàn)次數(shù),或者每個(gè)模式類型的某個(gè)閾值的總的出現(xiàn)次數(shù),然后通過(guò)計(jì)算每個(gè)模式類型超過(guò)所述某個(gè)閾值的模式或者比較它們的每個(gè)模式類型的幅度,來(lái)確定包含測(cè)試模式的模式類型。
因此,按照本方法,可自動(dòng)確定測(cè)試數(shù)據(jù)所屬的模式。此外,還具有這樣的優(yōu)點(diǎn)除非字符類型、字體等被編碼,否則模式可被分類。此外,在不對(duì)逐個(gè)語(yǔ)言準(zhǔn)備詞典的情況下,模式也可被分類。
(實(shí)施例7)下面將解釋作為本發(fā)明第七實(shí)施例的鑒別字符模式的方法的一個(gè)例子。首先,下面將解釋形成鑒別模式的信息的一種方法。
圖19示出了形成信息的樣本數(shù)據(jù)。在圖19中,標(biāo)號(hào)1901表示一漢語(yǔ)樣本模式,從該樣本數(shù)據(jù)取出多個(gè)二字符鏈。如果字符類型(例如,漢字、片假名等字符代碼)相同,則這些二字符鏈在被取出時(shí)形成。在這種情況下,如果先前指定的語(yǔ)言(例如詞典中包括該語(yǔ)言)在取出二個(gè)字符時(shí)被剪切,則剪切的第二字符與后續(xù)字符之間不形成鏈。在第七實(shí)施例中,由于采用了對(duì)日語(yǔ)的剪切,故對(duì)樣本模式1901形成相鄰字符鏈。隨后,對(duì)二字符鏈1902到1905施加與在第六實(shí)施例中類似的操作。在圖19,標(biāo)號(hào)1906表示一日語(yǔ)樣本模式。在對(duì)每個(gè)字符類型檢驗(yàn)鏈信息后,不形成諸如“は”、“な”等平假名的字符鏈。如果日語(yǔ)詞典存在象字符鏈“事件”這樣的字符鏈,則前面字符“同”和二字符鏈“事件”是分開的。結(jié)果,字符鏈被分成二字符鏈1907、1911和單字符1908、1909、1910等。反過(guò)來(lái)講,單字符1908、1909、1910可通過(guò)重復(fù)相同的字符而形成二字符鏈。圖20示出了當(dāng)模式被確定為單字符時(shí)通過(guò)轉(zhuǎn)換為二字符鏈而形成的字符鏈。
接著,按照第六實(shí)施例,對(duì)于漢語(yǔ)、日語(yǔ)等每個(gè)模式類型,所有字符鏈模式的組合模式、記錄號(hào)和出現(xiàn)次數(shù)都分別存儲(chǔ)到存儲(chǔ)媒體中。數(shù)據(jù)作為二維表被存儲(chǔ)的例子示于圖21。在圖21中,標(biāo)號(hào)2101表示漢語(yǔ)的出現(xiàn)次數(shù),而2102表示日語(yǔ)的出現(xiàn)次數(shù),并且該表結(jié)構(gòu)與第六實(shí)施例中的表結(jié)構(gòu)相同。在第七實(shí)施例中的存儲(chǔ)媒體中順序存儲(chǔ)各模式,直到任何記錄號(hào),結(jié)果,可將用于各模式類型的出現(xiàn)次數(shù)存儲(chǔ)到所述表中。就象第六實(shí)施例那樣,通過(guò)類似方法可將多個(gè)模式(語(yǔ)言)類型中的每個(gè)模式類型存儲(chǔ)到所述表中。
接下來(lái),將解釋利用測(cè)試模式來(lái)鑒別模式的方法。采用了圖17中的測(cè)試模式。在這種情況下,要依照字符分離規(guī)則提取出的數(shù)據(jù)被提取出,就象二字符鏈1703“事件”和1706“我々”。然后。從圖21的存儲(chǔ)媒體的表中檢測(cè)出相應(yīng)于二字符鏈1703、1706的出現(xiàn)次數(shù)。在漢語(yǔ)表的情況下(圖21中的2101),模式(同,事)的出現(xiàn)次數(shù)為1,并且沒(méi)有其它的數(shù)值。
相比之下,在日語(yǔ)表的情況下(圖21的2102),模式(我,々)的出現(xiàn)次數(shù)為2,并且模式(事,件)的出現(xiàn)次數(shù)為2。當(dāng)對(duì)每個(gè)模式類型計(jì)算這些出現(xiàn)次數(shù)的總數(shù)時(shí),在漢語(yǔ)情況下該總數(shù)為1而在日語(yǔ)情況下為4。結(jié)果,可確定該測(cè)試模式相應(yīng)于日語(yǔ)。
盡管在上述第七實(shí)施例中計(jì)算了出現(xiàn)次數(shù)的總和,但也可以采用這樣的方法該方法計(jì)算其總出現(xiàn)次數(shù)超過(guò)n的模式類型,或者計(jì)算其中每個(gè)字符鏈的出現(xiàn)次數(shù)超過(guò)n的字符鏈的總出現(xiàn)次數(shù)。盡管將分離規(guī)則用作提取相應(yīng)于測(cè)試模式的字符鏈的方法,但不用該分離規(guī)則,就象第六實(shí)施例中那樣,也可以取出相鄰二字符鏈的所有字符鏈。
按照本方法,根據(jù)應(yīng)用于在第五實(shí)施例或第六實(shí)施例中所引用的實(shí)際數(shù)據(jù)的例子,通過(guò)將與出現(xiàn)頻度百分比(%)相配的字符數(shù)目設(shè)置為n,作為出現(xiàn)次數(shù)的標(biāo)準(zhǔn),可確定模式。例如,在漢語(yǔ)的情況下,如果漢語(yǔ)漢字代碼中的出現(xiàn)率為74%,并且出現(xiàn)字符類型為3469個(gè)類型到100個(gè)字符,則相應(yīng)于漢字代碼的出現(xiàn)次數(shù)的總和n可設(shè)定為74。
圖22示出了按照本發(fā)明第七個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)。在圖22中,標(biāo)號(hào)2202表示一中斷(break)鑒別器,用于按照分離規(guī)則從文本數(shù)據(jù)中剪切出樣本數(shù)據(jù);標(biāo)號(hào)2201表示一字符鏈提取器,用于在從中斷鑒別器2202中獲得結(jié)果時(shí),獲得二字符鏈或單字符鏈并讀取出現(xiàn)次數(shù)和記錄號(hào),而在沒(méi)有從中斷鑒別器2202中獲得結(jié)果時(shí),提取所有的相鄰字符鏈;標(biāo)號(hào)2203表示一鏈轉(zhuǎn)換器,用于當(dāng)字符鏈提取器2201提取出單字符時(shí),通過(guò)重復(fù)單字符來(lái)形成二字符鏈;標(biāo)號(hào)2204表示一字符鏈頻度計(jì)數(shù)器,用于對(duì)每一個(gè)模式(語(yǔ)言)類型,將二字符鏈、記錄號(hào)和出現(xiàn)次數(shù)存儲(chǔ)到頻度存儲(chǔ)器2205中;標(biāo)號(hào)2206表示一頻度計(jì)數(shù)器,用于對(duì)每一個(gè)模式類型,從頻度存儲(chǔ)器2205中提取由字符鏈提取器2201或鏈轉(zhuǎn)換器2203獲得的字符鏈的出現(xiàn)次數(shù);標(biāo)號(hào)2207表示一對(duì)照器,用于計(jì)算從頻度計(jì)數(shù)器2206檢測(cè)出的出現(xiàn)次數(shù)的總數(shù),或者每個(gè)模式類型的某個(gè)閾值的出現(xiàn)次數(shù)的總數(shù),然后通過(guò)計(jì)算每個(gè)模式類型超過(guò)所述某個(gè)閾值的模式或者比較它們的每個(gè)模式類型的幅度,來(lái)確定包含測(cè)試模式的模式類型。
因此,按照本方法,可自動(dòng)確定測(cè)試數(shù)據(jù)所屬的模式。此外,還具有這樣的優(yōu)點(diǎn)除非字符類型、字體等被編碼,否則模式可被分類。此外,在不對(duì)逐個(gè)語(yǔ)言準(zhǔn)備詞典的情況下,模式也可被分類。
(實(shí)施例8)下面將解釋作為本發(fā)明第八實(shí)施例的鑒別字符模式的方法的一個(gè)例子。首先,下面將解釋形成鑒別模式的信息的一種方法。假定分類的模式被設(shè)定為2(日語(yǔ)和漢語(yǔ)等)。圖23示出了存儲(chǔ)編碼的字符模式的代碼表的一種結(jié)構(gòu)。A組2301是由比如字符“と”,…,等的所謂的平假名和片假名組成的組。將代碼號(hào)分配給A組2301的各個(gè)字符,以使#10被分配給“と”。類似地,B組2302是由漢字組成的組,并且將代碼號(hào)分配給各個(gè)漢字,以使#100被分配給“我”,#101被分配給“同”,…。在這種情況下,上述代碼號(hào)是出于方便考慮而分配的,任何代碼號(hào)只要它們?cè)诖a表中唯一便可被應(yīng)用。
通過(guò)將與由圖14中的標(biāo)號(hào)1401、1406、1412所指示的樣本模式相同的數(shù)據(jù)用作用于形成鑒別模式的信息的樣本數(shù)據(jù),來(lái)解釋第八實(shí)施例。在這種情況下,在該第八實(shí)施例中,假定不知道圖14中的樣本模式1401、1406、1412所屬的模式類別(語(yǔ)言)。圖24示出了從圖14的樣本表中提取字符鏈模式的例子。響應(yīng)于字符鏈,例如,存儲(chǔ)圖14中的1404“我同”、1405“同事”、文件號(hào)1、第一字符的字符代碼101、第二字符的字符代碼102、和字符鏈模式2401“我同”的出現(xiàn)次數(shù)1。類似地,標(biāo)號(hào)2402表示字符鏈“同事”的字符鏈模式。然后是作為圖14中的字符鏈模式1406的,圖24中的字符鏈模式2403、2404、2405等。類似地,還有作為圖14中的字符鏈模式1412的,圖24中的字符鏈模式2406、2407等。
接下來(lái),對(duì)每個(gè)字符鏈模式都綜合考慮多個(gè)字符鏈模式。這里,根據(jù)文件號(hào)來(lái)匯集含有相同字符鏈模式的模式,并計(jì)算這種模式的數(shù)目。圖25示出了分別收集字符鏈模式的例子。如由圖25中的標(biāo)號(hào)2501所指示的,在文件號(hào)1中,“同事”對(duì)其它文件共用,相關(guān)的文件號(hào)為1,并且共用字符鏈模式的數(shù)目為2(其中,數(shù)目1指示沒(méi)有共用的字符鏈模式)。
同時(shí),如由圖25的標(biāo)號(hào)2502所指示的,“我々”、“事件”對(duì)其它文件共用,并且共用字符鏈模式的數(shù)目為4。類似地,在文件號(hào)3中,共用字符鏈模式的數(shù)目為4。據(jù)此,確定文件號(hào)2和3與文件號(hào)1不同,然后將文件號(hào)1分類到模式2而將文件號(hào)2、3分類到模式1。然后,存儲(chǔ)字符鏈模式。圖26示出了在文件被分類到模式1、2之后將它們存儲(chǔ)在存儲(chǔ)媒體中的例子。隨后,從樣本數(shù)據(jù)中形成二字符鏈,然后從存儲(chǔ)在存儲(chǔ)媒體中的兩種模式(模式1、模式2)中取出各字符鏈模式,然后,對(duì)每個(gè)模式類型,將樣本數(shù)據(jù)的字符鏈與存儲(chǔ)在存儲(chǔ)媒體中的字符鏈模式進(jìn)行比較,然后,將樣本數(shù)據(jù)中具有大數(shù)目的模式類型的字符鏈模式存儲(chǔ)到所述存儲(chǔ)媒體中。
在上述第八實(shí)施例中,將具有大數(shù)目的模式類型的字符鏈模式存儲(chǔ)到所述存儲(chǔ)媒體中,但通過(guò)提取比某個(gè)閾值大的字符鏈模式,或者通過(guò)比較提取的字符鏈模式的類型大于某個(gè)閾值的事件數(shù)目(case number),可確定模式類型。
按照本方法,在分析實(shí)際數(shù)據(jù)時(shí),就象實(shí)施例5、6、7中所引用的例子那樣,由出現(xiàn)次數(shù)、字符代碼及它們的組合組成的分布對(duì)漢語(yǔ)/Hangul/日語(yǔ)來(lái)說(shuō)是不同的。尤其是,如在實(shí)施例6中所解釋的那樣,在Hangul中頻度集中于幾個(gè)Hangul字符上,而在日語(yǔ)中頻度集中于平假名/片假名的組合上,并且在漢語(yǔ)情況下頻度均勻分布于多種漢字字符上。根據(jù)三種語(yǔ)言代碼中的出現(xiàn)頻度和出現(xiàn)字符類型之間的最小差別,可確定語(yǔ)言最接近于哪種分布。
接下來(lái),下面將解釋利用測(cè)試模式來(lái)鑒別包含該測(cè)試模式的模式類型的一種方法。該鑒別方法可利用與用在第四到第七實(shí)施例中的方法類似的方法來(lái)實(shí)現(xiàn)。
圖27示出了按照本發(fā)明第八個(gè)方法實(shí)施例的信息處理系統(tǒng)的結(jié)構(gòu)。在圖27中,標(biāo)號(hào)2701表示一字符鏈提取器,用于從文本數(shù)據(jù)中拾取相鄰的二字符鏈;標(biāo)號(hào)2702表示一字符鏈頻度計(jì)數(shù)器,用于讀取字符鏈的出現(xiàn)次數(shù)及記錄號(hào);標(biāo)號(hào)2703表示一頻度計(jì)數(shù)器,用于對(duì)每一個(gè)模式類型,從頻度存儲(chǔ)器2705中提取由字符鏈提取器2701正檢測(cè)的字符鏈的出現(xiàn)次數(shù),或者如果不存在出現(xiàn)次數(shù),則計(jì)算由字符鏈頻度計(jì)數(shù)器2702獲得的字符鏈的頻度;以及,標(biāo)號(hào)2704表示一模式篩選器,用于計(jì)算字符鏈模式的總出現(xiàn)次數(shù),或者某個(gè)閾值的總出現(xiàn)次數(shù),以對(duì)每個(gè)模式類型檢測(cè)其中包含從頻度計(jì)數(shù)器2703獲得的字符鏈或字符鏈模式的模式類型,然后比較它們的每個(gè)模式類型的幅度,然后,以較大總數(shù)的順序,將字符鏈模式存儲(chǔ)到頻度存儲(chǔ)器2705的各個(gè)模式類型中,然后,作為結(jié)果形成該模式類型的測(cè)試模式。
因此,按照本方法,可自動(dòng)確定測(cè)試數(shù)據(jù)所屬的模式。此外,還具有這樣的優(yōu)點(diǎn)除非字符類型、字體等被編碼,否則模式可被分類。此外,在不對(duì)各種語(yǔ)言準(zhǔn)備詞典的情況下,模式也可被分類。此外,通過(guò)遵照規(guī)則來(lái)形成單獨(dú)的語(yǔ)言文件和根據(jù)語(yǔ)言或模式的出現(xiàn)關(guān)系重構(gòu)該語(yǔ)言或模式的類別,可確定輸入文本所屬的語(yǔ)言或模式。
(實(shí)施例9)然后,下面將討論這樣的情況作為文本語(yǔ)言鑒別的例子其中共用用在單一碼(unicode)或本地代碼(EUC,等)中的文本數(shù)據(jù)。下面將按照?qǐng)D32的方框配置圖中的流程來(lái)解釋一個(gè)實(shí)施例。
首先,當(dāng)輸入文本由統(tǒng)合代碼或本地代碼管理時(shí),字符代碼的例子存儲(chǔ)在圖28所示的單獨(dú)字符集代碼表存儲(chǔ)器(圖32中的3203)中。在圖28中,標(biāo)號(hào)2801到2804表示統(tǒng)合代碼的表,其中標(biāo)號(hào)2801表示一平假名/片假名代碼表;標(biāo)號(hào)2802表示一漢字代碼表;標(biāo)號(hào)2803表示一符號(hào)代碼表;標(biāo)號(hào)2804表示一Hangul代碼表。將代碼號(hào)唯一地分配給各個(gè)表。在圖28中,標(biāo)號(hào)2805到2809表示本地代碼表,其中標(biāo)號(hào)2805表示一日語(yǔ)情況下的平假名/片假名本地代碼表;標(biāo)號(hào)2806表示一漢語(yǔ)情況下的平假名/片假名本地代碼表;并且標(biāo)號(hào)2807表示一Hangul情況下的平假名/片假名本地代碼表。它們的代碼號(hào)根據(jù)字符類型的不同而不同。此外,標(biāo)號(hào)2808表示一漢字本地代碼表,并且標(biāo)號(hào)2809表示一符號(hào)本地代碼表。輸入數(shù)據(jù)為圖30所示的文本。
在此第九實(shí)施例中解釋采用統(tǒng)合代碼的例子,并且,在該第九實(shí)施例中還適當(dāng)解釋采用統(tǒng)合代碼的情況與采用本地代碼的情況的差異。
在圖30中,代碼號(hào)與“日本にあう漢字”的各個(gè)字符相關(guān)。此時(shí),代碼鑒別指定器3201讀取指定的字符代碼系統(tǒng)(統(tǒng)合代碼或本地代碼),并且,二字符鏈提取器3202從該輸入數(shù)據(jù)中剪切出二字符鏈“日本”、“本に”、“にあ”、“あう”、“う漢”、“漢字”。然后,單獨(dú)語(yǔ)言出現(xiàn)頻度計(jì)數(shù)器3204根據(jù)單獨(dú)字符集代碼表存儲(chǔ)器3203來(lái)檢測(cè)相應(yīng)于unicode文本的代碼號(hào),然后檢驗(yàn)二字符鏈的第一字符的代碼號(hào),然后,計(jì)算漢字、平假名、…的字符類型的出現(xiàn)數(shù)目。例如,在圖30的輸入文本的情況下,二字符鏈的數(shù)目為6,以漢字作為第一字符的鏈為3,以平假名/片假名作為第一字符的鏈為3,其它情況為0。相應(yīng)地,漢字的出現(xiàn)程度為50%,并且平假名/片假名的出現(xiàn)程序?yàn)?0%。然后,單獨(dú)語(yǔ)言出現(xiàn)頻度計(jì)數(shù)器3204將二字符鏈的出現(xiàn)程度發(fā)送給單獨(dú)語(yǔ)言互分布距離(interdistribution distance)計(jì)算器3206。
然后,從單獨(dú)語(yǔ)言分布表存儲(chǔ)器3205中讀取字符出現(xiàn)率百分比(%)。單獨(dú)語(yǔ)言分布表存儲(chǔ)器3205是一個(gè)學(xué)習(xí)表,其中根據(jù)在各個(gè)語(yǔ)言中描述的數(shù)據(jù)來(lái)計(jì)算二字符鏈的出現(xiàn)模式率。用于每個(gè)字符類型,比如日語(yǔ)、漢語(yǔ)、Hangul等中的漢字、平假名/片假名、符號(hào)、Hangul等的出現(xiàn)百分比作為表格存儲(chǔ)。單獨(dú)語(yǔ)言互分布距離計(jì)算器3206按照?qǐng)D32的距離計(jì)算規(guī)則來(lái)測(cè)量已提取的數(shù)據(jù)與上述學(xué)習(xí)表之間的互分布距離。例如,在日語(yǔ)標(biāo)準(zhǔn)情況下,該距離是由(50%(漢字出現(xiàn)百分比)-49%)2+(50%(平假名出現(xiàn)百分比)-41%)2+(0%(符號(hào)出現(xiàn)百分比)-10%)2+(0%(Hangul出現(xiàn)百分比)-0%)2=182。類似地,在漢語(yǔ)標(biāo)準(zhǔn)情況下,所述距離由1376給出。在Hangul標(biāo)準(zhǔn)情況下,所述距離由9895給出。這些結(jié)果都發(fā)送到比較器3207。比較器3207檢驗(yàn)日語(yǔ)、漢語(yǔ)和Hangul標(biāo)準(zhǔn)的最低標(biāo)準(zhǔn),然后檢測(cè)所述182的日語(yǔ)標(biāo)準(zhǔn)。根據(jù)上述結(jié)果來(lái)確定輸入文本為日語(yǔ)。
在這種情況下,圖31的距離是由(各字符類型的出現(xiàn)百分比-學(xué)習(xí)表中的出現(xiàn)百分比)2來(lái)計(jì)算的。然而,如果這種距離可滿足一個(gè)三角不等式(即,d(x,z)≤d(x,y)+d(y,z),其中d為距離函數(shù),并且x,y為任意值),則可采用任何距離。此外,在上述第九實(shí)施例中,如果模式為編碼的模式,則這種模式不限于字符模式。此外,如果對(duì)象是編碼的對(duì)象,比如為象◎、◇等的符號(hào)、圖形等,則這種對(duì)象不受到特別限制。
如上所述,本發(fā)明具有這樣的優(yōu)點(diǎn)通過(guò)利用本國(guó)語(yǔ)言的描述特征,即通過(guò)檢測(cè)作為鑒別對(duì)象的文本的特定字符的出現(xiàn)率,或者檢測(cè)特定字符之間的平均文本長(zhǎng)度,或者檢測(cè)特定范圍中的字符的出現(xiàn)率,同時(shí)觀察在該語(yǔ)言中頻繁出現(xiàn)的特定字符或者所述特定范圍中的特定字符,來(lái)鑒別在某種語(yǔ)言中描述的輸入文本的語(yǔ)言。
第二,本發(fā)明的另一個(gè)優(yōu)點(diǎn)是在利用將二字符鏈用作由文件檢索準(zhǔn)備的索引的檢索系統(tǒng)的同時(shí),通過(guò)將分離字符的信息原樣附加到在輸入文本中進(jìn)行登錄時(shí)準(zhǔn)備的索引,而實(shí)現(xiàn)關(guān)鍵字檢索,其中在所述輸入文本中將分離字符插入到關(guān)鍵字的開始和結(jié)尾。
第三,本發(fā)明的再一個(gè)優(yōu)點(diǎn)是可基于給定文本自動(dòng)鑒別該給定文本所屬的語(yǔ)言,并且,在將文本的特征確定為代碼,尤其是這種特征被以字符模式輪廓(例如,字體等)分類的條件下,能夠自動(dòng)鑒別語(yǔ)言或組類型。
權(quán)利要求
1.一種信息處理系統(tǒng),包含特定字符計(jì)數(shù)裝置,用于從一輸入文本的所有字符中檢測(cè)并計(jì)數(shù)具有檢測(cè)的目標(biāo)語(yǔ)言的特定字符代碼的特定字符;出現(xiàn)率計(jì)算裝置,用于根據(jù)由所述特定字符計(jì)數(shù)裝置檢測(cè)的特定字符數(shù)和所述輸入文本中的所有字符數(shù),來(lái)計(jì)算特定字符出現(xiàn)率;標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)裝置,用于事先存儲(chǔ)目標(biāo)語(yǔ)言的特定字符的標(biāo)準(zhǔn)出現(xiàn)率;和比較器,用于將從所述出現(xiàn)率計(jì)算裝置得出的輸入文本的特定字符出現(xiàn)率與從所述標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)裝置檢測(cè)出的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較;其中,確定所述輸入文本是否相應(yīng)于具有與所述目標(biāo)語(yǔ)言相配的特征的文本。
2.一種信息處理系統(tǒng),包含特定字符檢測(cè)裝置,用于從一輸入文本的所有字符中檢測(cè)并計(jì)數(shù)檢測(cè)的目標(biāo)語(yǔ)言的字符代碼中的一個(gè)或多個(gè)特定字符;非特定文本檢測(cè)裝置,用于提取由從所述特定字符檢測(cè)裝置得出的特定字符之間的非特定字符組成的文本,并檢測(cè)所述非特定字符數(shù);平均文本長(zhǎng)度計(jì)算裝置,用于計(jì)算從所述非特定文本檢測(cè)裝置得出的非特定文本的平均文本長(zhǎng)度;標(biāo)準(zhǔn)文本長(zhǎng)度存儲(chǔ)裝置,用于事先存儲(chǔ)所述目標(biāo)語(yǔ)言的非特定字符的標(biāo)準(zhǔn)平均文本長(zhǎng)度;和比較裝置,用于將從所述平均文本長(zhǎng)度計(jì)算裝置得出的輸入文本的非特定字符長(zhǎng)度與從所述標(biāo)準(zhǔn)文本長(zhǎng)度存儲(chǔ)裝置得出的標(biāo)準(zhǔn)平均文本長(zhǎng)度進(jìn)行比較;其中,確定所述輸入文本是否相應(yīng)于具有與所述目標(biāo)語(yǔ)言相配的特征的文本。
3.一種信息處理系統(tǒng),包含特定范圍字符計(jì)數(shù)裝置,用于從一輸入文本的所有字符中檢測(cè)并計(jì)數(shù)特定范圍字符,這些特定范圍字符是檢測(cè)的目標(biāo)語(yǔ)言的特定范圍中的字符代碼中的字符;出現(xiàn)率計(jì)算裝置,用于根據(jù)由所述特定范圍字符計(jì)數(shù)裝置檢測(cè)的特定范圍字符數(shù)和所述輸入文本中的字符數(shù),來(lái)計(jì)算特定范圍字符出現(xiàn)率;標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)裝置,用于事先存儲(chǔ)所述目標(biāo)語(yǔ)言的特定范圍字符的標(biāo)準(zhǔn)出現(xiàn)率;和比較裝置,用于將從所述出現(xiàn)率計(jì)算裝置得出的輸入文本的特定范圍字符出現(xiàn)率與從所述標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)裝置檢測(cè)出的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較;其中,確定所述輸入文本是否相應(yīng)于具有與所述目標(biāo)語(yǔ)言相配的特征的文本。
4.如權(quán)利要求3所述的信息處理系統(tǒng),其中所述比較裝置具有規(guī)定特定范圍字符的多于兩個(gè)的范圍,以比較多于兩個(gè)的特定范圍字符的出現(xiàn)率。
5.一種信息處理系統(tǒng),包含第一分離字符插入裝置,用于將分離字符作為不存在于輸入文本中的特殊控制字符插入在作為文本的關(guān)鍵字之間的邊界,利用所述作為文本的關(guān)鍵字即可在登錄文本時(shí)分離輸入文本的涵義;檢測(cè)裝置,如果在插入了分離字符的文本中找到分離字符,則檢測(cè)其中將分離字符放入中間的三字符鏈;字符鏈產(chǎn)生裝置,用于產(chǎn)生由位于分離字符之前和之后的字符組成的字符鏈、由分離字符和位于分離字符之前的字符組成的字符鏈、和以及由分離字符和位于分離字符之后的字符組成的字符鏈;和第二分離字符插入裝置,用于在檢索時(shí)將分離字符插入輸入文本的開始,或者輸入文本的結(jié)尾,或者輸入文本的開始和結(jié)尾。
6.一種信息處理系統(tǒng),包含分離字符插入裝置,用于在登錄文本時(shí)將分離字符插入到關(guān)鍵字之間的邊界;第一字符鏈產(chǎn)生裝置,如果由所述分離字符插入裝置產(chǎn)生的輸入文本的字符為特定分離字符,則產(chǎn)生由分離字符和位于分離字符之前的字符組成的字符鏈、由分離字符和位于分離字符之后的字符組成的字符鏈、以及由位于分離字符之前和之后的字符組成的字符鏈;第二字符鏈產(chǎn)生裝置,如果輸入字符不是分離字符,則產(chǎn)生由第一字符和一后續(xù)字符組成的二字符鏈;字符鏈存儲(chǔ)裝置,用于存儲(chǔ)二字符鏈的出現(xiàn)次數(shù)和該二字符鏈中的各個(gè)字符;檢索文本產(chǎn)生裝置,用于將特定分離字符插入一對(duì)照文本的開始和結(jié)尾;第三分離字符產(chǎn)生裝置,用于產(chǎn)生由所述檢索文本產(chǎn)生裝置產(chǎn)生的檢索文本的第一字符和一后續(xù)字符組成的二字符鏈;檢測(cè)裝置,用于從所述字符鏈存儲(chǔ)裝置檢測(cè)與由所述第三字符鏈產(chǎn)生裝置產(chǎn)生的字符鏈相同的字符鏈,并檢測(cè)其出現(xiàn)次數(shù);和比較裝置,用于確定兩個(gè)連續(xù)字符鏈的前一鏈的第二字符的出現(xiàn)次數(shù)是否與后一鏈的第一字符的出現(xiàn)次數(shù)相等,其中所述前一鏈的第二字符相應(yīng)于所述后一鏈的第一字符;其中,由所述比較裝置在對(duì)由所述第三字符鏈產(chǎn)生裝置提取的所有鏈進(jìn)行對(duì)照之后,確定前一鏈的第二字符的出現(xiàn)次數(shù)是否與后一鏈的第一字符的出現(xiàn)次數(shù)相等,從而通過(guò)檢測(cè)檢索文本以及由在檢索文本中插入分離字符而形成的邊界,來(lái)進(jìn)行關(guān)鍵字檢索。
7.一種信息處理系統(tǒng),包含分離字符插入裝置,用于在登錄文本時(shí)將分離字符插入到關(guān)鍵字之間的邊界;第一字符鏈產(chǎn)生裝置,如果由所述分離字符插入裝置產(chǎn)生的輸入文本的字符為特定分離字符,則產(chǎn)生由分離字符和位于分離字符之前的字符組成的字符鏈、由分離字符和位于分離字符之后的字符組成的字符鏈、以及由位于分離字符之前和之后的字符組成的字符鏈;第二字符鏈產(chǎn)生裝置,如果輸入字符不是分離字符,則產(chǎn)生由第一字符和一后續(xù)字符組成的二字符鏈;字符鏈存儲(chǔ)裝置,用于存儲(chǔ)二字符鏈和該二字符鏈中各個(gè)字符的出現(xiàn)位置;檢索文本產(chǎn)生裝置,用于將特定分離字符插入一對(duì)照文本的開始和結(jié)尾;第三分離字符產(chǎn)生裝置,用于產(chǎn)生由所述檢測(cè)文本產(chǎn)生裝置產(chǎn)生的檢索文本的第一字符和一后續(xù)字符組成的二字符鏈;檢測(cè)裝置,用于從所述字符鏈存儲(chǔ)裝置檢測(cè)與由所述第三字符鏈產(chǎn)生裝置產(chǎn)生的字符鏈相同的字符鏈,并檢測(cè)其出現(xiàn)次數(shù);和比較裝置,用于確定兩個(gè)連續(xù)字符鏈的前一鏈的第二字符的出現(xiàn)位置是否與后一鏈的第一字符的出現(xiàn)位置相等,其中所述前一鏈的第二字符相應(yīng)于所述后一鏈的第一字符;其中,由所述比較裝置在對(duì)由所述第三字符鏈產(chǎn)生裝置提取的所有鏈進(jìn)行對(duì)照之后,確定前一鏈的第二字符的出現(xiàn)位置是否與后一鏈的第一字符的出現(xiàn)位置相等,從而通過(guò)檢測(cè)檢索文本以及由在檢索文本中插入分離字符而形成的邊界,來(lái)進(jìn)行關(guān)鍵字檢索。
8.如權(quán)利要求6或7所述的信息處理系統(tǒng),其中,提供用于將特定分離字符插入一對(duì)照文本的開始的一第二檢索文本產(chǎn)生裝置,以替代所述檢索文本產(chǎn)生裝置,從而通過(guò)檢測(cè)所述檢索文本的頭字符的邊界而進(jìn)行所述檢索文本的前相符檢索。
9.如權(quán)利要求6或7所述的信息處理系統(tǒng),其中,提供用于將特定分離字符插入一對(duì)照文本的結(jié)尾的一第三檢索文本產(chǎn)生裝置,以替代所述檢索文本產(chǎn)生裝置,從而通過(guò)檢測(cè)所述檢索文本的尾字符的邊界而進(jìn)行所述檢索文本的尾相符檢索。
10.一種計(jì)算機(jī)可讀存儲(chǔ)媒體,用在信息處理系統(tǒng)中,該信息處理系統(tǒng)從幾種預(yù)定語(yǔ)言類別中唯一地模式識(shí)別含有文本數(shù)據(jù)的一種語(yǔ)言,所述計(jì)算機(jī)可讀存儲(chǔ)媒體用于記錄程序,該程序構(gòu)成由用于字符代碼的字符代碼組的組合組成的模式組,其中將用于模式識(shí)別的編碼字符分類為作為代碼表的多個(gè)一維代碼組,所述程序包含模式存儲(chǔ)下列數(shù)據(jù)的步驟,第一數(shù)據(jù),由一n-字符組合組成,并包含多個(gè)字符組,其中在任何一個(gè)字符組中都含有構(gòu)成組合的代碼;第二數(shù)據(jù),具有相應(yīng)于所述第一數(shù)據(jù)的組合模式的數(shù)值;和第三數(shù)據(jù),根據(jù)所述第一數(shù)據(jù)和第二數(shù)據(jù)的組合而被分配給預(yù)定模式類型。
11.如權(quán)利要求10所述的存儲(chǔ)媒體,其中所述第一數(shù)據(jù)由二字符組合組成,并且,在多個(gè)字符組的任何一個(gè)字符組中含有構(gòu)成所述組合的代碼的字符組被相互組合。
12.一種信息處理系統(tǒng),包含一存儲(chǔ)媒體,其中含有幾種預(yù)定語(yǔ)言類別的文本數(shù)據(jù),該存儲(chǔ)媒體用于記錄程序,該程序構(gòu)成由用于字符代碼的字符代碼組的組合組成的模式組,其中將用于模式識(shí)別的編碼字符分類為作為代碼表的多個(gè)一維代碼組,所述程序包含模式存儲(chǔ)下列數(shù)據(jù)的步驟第一數(shù)據(jù),由一n-字符組合組成,并包含多個(gè)字符組,其中在任何一個(gè)字符組中都含有構(gòu)成組合的代碼;第二數(shù)據(jù),具有相應(yīng)于所述第一數(shù)據(jù)的組合模式的數(shù)值;和第三數(shù)據(jù),根據(jù)所述第一數(shù)據(jù)和第二數(shù)據(jù)的組合而被分配給預(yù)定模式類型;字符鏈提取裝置,用于從一文本中檢測(cè)二字符鏈,并確定含有構(gòu)成二字符鏈的字符的字符組;模式計(jì)算裝置,用于比較由所述字符鏈提取裝置確定的字符組的組合是否與模式存儲(chǔ)裝置中的模式一致,并計(jì)算一致模式的數(shù)值;和模式確定裝置,用于確定由所述模式計(jì)算裝置計(jì)算的所有字符鏈的最大數(shù)值的模式及它們的模式組合,所述模式組合與存儲(chǔ)在所述模式存儲(chǔ)裝置中的第一數(shù)據(jù)、第二數(shù)據(jù)和第三數(shù)據(jù)中的模式一致,并作為一模式存儲(chǔ)裝置的模式組合。
13.如權(quán)利要求12所述的信息處理系統(tǒng),其中所述模式確定裝置對(duì)于所有字符鏈計(jì)算由所述模式計(jì)算裝置計(jì)算出的數(shù)值的平均值,并確定與所述模式存儲(chǔ)裝置的第二數(shù)據(jù)最接近的值,作為所述模式存儲(chǔ)裝置的模式組合。
14.如權(quán)利要求12所述的信息處理系統(tǒng),其中所述模式確定裝置對(duì)于所有字符鏈計(jì)算由所述模式計(jì)算裝置計(jì)算出的數(shù)值的最大頻度值,并確定與所述模式存儲(chǔ)裝置的第二數(shù)據(jù)最接近的值,作為所述模式存儲(chǔ)裝置的模式組合。
15.一種計(jì)算機(jī)可讀存儲(chǔ)媒體,用在信息處理系統(tǒng)中,該信息處理系統(tǒng)從幾種預(yù)定語(yǔ)言類別中唯一地模式識(shí)別含有文本數(shù)據(jù)的一種語(yǔ)言,如果字符代碼分別疊加在模式組中,在該模式組中模式由字符代碼的組合構(gòu)成,則所述計(jì)算機(jī)可讀存儲(chǔ)媒體用于記錄這樣的程序該程序構(gòu)成由用于模式識(shí)別的字符組的組合組成的模式組,所述程序包含模式存儲(chǔ)下列數(shù)據(jù)的步驟,第一數(shù)據(jù),由用于模式組的二字符組合模式組成,其中模式組為事先已知的;第二數(shù)據(jù),由指示所述第一數(shù)據(jù)的模式類型組成;和第三數(shù)據(jù),說(shuō)明所述第一數(shù)據(jù)和第二數(shù)據(jù)的組合的出現(xiàn)次數(shù)。
16.一種信息處理系統(tǒng),包含一字符鏈提取裝置,用于提取記錄在一計(jì)算機(jī)可讀存儲(chǔ)媒體中的模式數(shù)據(jù)的所有二字符鏈,其中含有幾種預(yù)定語(yǔ)言類別的文本數(shù)據(jù),如果字符代碼分別疊加在模式組中,在該模式組中模式由字符代碼的組合構(gòu)成,則所述計(jì)算機(jī)可讀存儲(chǔ)媒體用于記錄這樣的程序該程序構(gòu)成由用于模式識(shí)別的字符組的組合組成的模式組,所述程序包含模式存儲(chǔ)下列數(shù)據(jù)的步驟第一數(shù)據(jù),由用于模式組的二字符組合模式組成,其中模式組為事先已知的;第二數(shù)據(jù),由指示所述第一數(shù)據(jù)的模式類型組成;和第三數(shù)據(jù),說(shuō)明所述第一數(shù)據(jù)和第二數(shù)據(jù)的組合的出現(xiàn)次數(shù),一字符鏈頻度計(jì)數(shù)裝置,用于計(jì)算各字符鏈的出現(xiàn)次數(shù),并對(duì)每個(gè)模式類型將字符鏈模式和出現(xiàn)次數(shù)存儲(chǔ)在所述存儲(chǔ)媒體中;所述字符鏈提取裝置,用于從一給定模式中提取二字符鏈;一頻度計(jì)數(shù)裝置,用于對(duì)每個(gè)模式類型從所述存儲(chǔ)媒體中提取相應(yīng)于所提取的字符鏈的字符鏈模式的出現(xiàn)次數(shù);和一對(duì)照裝置,用于將從所述頻度計(jì)數(shù)裝置得出的出現(xiàn)次數(shù)與所有提取的字符鏈進(jìn)行對(duì)照,然后確定具有最大總出現(xiàn)次數(shù)的模式類型,作為含有給定模式的模式類型。
17.如權(quán)利要求16所述的信息處理系統(tǒng),其中所述對(duì)照裝置確定其總出現(xiàn)次數(shù)超過(guò)一定閾值的模式類型,作為含有給定模式的模式類型。
18.如權(quán)利要求17所述的信息處理系統(tǒng),其中所述對(duì)照裝置確定其中出現(xiàn)次數(shù)在所有字符鏈中超過(guò)一定閾值的字符鏈模式的總出現(xiàn)頻度最大的模式類型,作為含有給定模式的模式類型。
19.如權(quán)利要求10、11或15所述的信息處理系統(tǒng),還包含一分離裝置,用于當(dāng)從模式數(shù)據(jù)中提取出所有字符鏈時(shí),分離字符類型或者至少一種語(yǔ)言成為文字;一字符鏈提取裝置,用于基于所述分離裝置來(lái)提取字符鏈;一鏈轉(zhuǎn)換裝置,用于當(dāng)字符鏈由單字符構(gòu)成時(shí),重復(fù)相同的字符以形成字符鏈;一字符鏈頻度計(jì)數(shù)裝置,用于計(jì)算各個(gè)字符鏈的出現(xiàn)次數(shù),然后對(duì)每個(gè)模式類型將字符鏈模式和出現(xiàn)次數(shù)存儲(chǔ)在所述存儲(chǔ)媒體中;所述字符鏈提取裝置,用于從一給定模式中提取二字符鏈;一頻度計(jì)數(shù)裝置,用于對(duì)每個(gè)模式類型從所述存儲(chǔ)媒體中提取相應(yīng)于所提取的字符鏈的字符鏈模式的出現(xiàn)次數(shù);和一對(duì)照裝置,用于將從所述頻度計(jì)數(shù)裝置得出的出現(xiàn)次數(shù)與所有提取的字符鏈進(jìn)行對(duì)照,然后確定具有最大總出現(xiàn)次數(shù)的模式類型,作為含有給定模式的模式類型。
20.一種計(jì)算機(jī)可讀存儲(chǔ)媒體,用在信息處理系統(tǒng)中,該信息處理系統(tǒng)從幾種預(yù)定語(yǔ)言類別中唯一地模式識(shí)別含有文本數(shù)據(jù)的一種語(yǔ)言,所述計(jì)算機(jī)可讀存儲(chǔ)媒體用于記錄程序,該程序構(gòu)成由用于字符代碼的字符代碼組的組合組成的模式組,其中將編碼字符用于模式識(shí)別,所述程序包含如下步驟存儲(chǔ)由二字符組合組成的字符鏈模式的文件號(hào)、以及每個(gè)模式類別或語(yǔ)言的文本數(shù)據(jù)的字符鏈模式。
21.一種信息處理系統(tǒng),包含一字符鏈提取裝置,用于提取記錄在一計(jì)算機(jī)可讀存儲(chǔ)媒體中的文本數(shù)據(jù)的所有二字符鏈,其中含有幾種預(yù)定語(yǔ)言類型的文本數(shù)據(jù),所述計(jì)算機(jī)可讀存儲(chǔ)媒體用于記錄程序,該程序構(gòu)成由用于字符代碼的字符代碼組的組合組成的模式組,其中將編碼字符用于模式識(shí)別,所述程序包含如下步驟存儲(chǔ)由二字符組合組成的字符鏈模式的文件號(hào)、以及每個(gè)模式類別或語(yǔ)言的文本數(shù)據(jù)的字符鏈模式;一字符鏈頻度計(jì)數(shù)裝置,用于計(jì)算各字符鏈的出現(xiàn)次數(shù),并計(jì)算每個(gè)字符類型的字符鏈模式和文件號(hào);一字符頻度比較裝置,用于對(duì)每個(gè)模式類別,提取由所述字符鏈頻度計(jì)數(shù)裝置獲得的字符鏈模式以及一存儲(chǔ)媒體中的字符鏈模式的頻度,對(duì)每個(gè)模式類別比較所述字符鏈模式的頻度的總值,并且將字符鏈模式、出現(xiàn)次數(shù)和文件數(shù)目存儲(chǔ)到具有大模式類別的存儲(chǔ)媒體的模式類別中;所述字符鏈提取裝置,用于從一給定模式中提取二字符鏈;一頻度計(jì)數(shù)裝置,用于對(duì)每個(gè)模式類型從所述存儲(chǔ)媒體中提取相應(yīng)于所提取的字符鏈的字符鏈模式的出現(xiàn)次數(shù);和一對(duì)照裝置,用于將從所述頻度計(jì)數(shù)裝置得出的出現(xiàn)次數(shù)與所有提取的字符鏈進(jìn)行對(duì)照,然后確定具有最大總出現(xiàn)次數(shù)的模式類型,作為含有給定模式的模式類型。
22.如權(quán)利要求21所述的信息處理系統(tǒng),其中在所述權(quán)利要求21中所闡述的所述字符頻度比較裝置確定其總出現(xiàn)次數(shù)超過(guò)一定閾值的模式類型,作為含有給定模式的模式類型。
23.如權(quán)利要求22所述的信息處理系統(tǒng),其中在所述權(quán)利要求22中所闡述的所述字符頻度比較裝置確定其中出現(xiàn)次數(shù)在所有字符鏈中超過(guò)一定閾值的字符鏈模式的總出現(xiàn)頻度最大的模式類型,作為含有給定模式的模式類型。
24.一種計(jì)算機(jī)可讀存儲(chǔ)媒體,用在信息處理系統(tǒng)中,該信息處理系統(tǒng)從幾種預(yù)定語(yǔ)言類別中唯一地模式識(shí)別含有文本數(shù)據(jù)的一種語(yǔ)言,其中字符代碼對(duì)每一種字符字體都限定,所述計(jì)算機(jī)可讀存儲(chǔ)媒體用于記錄程序,該程序構(gòu)成由用于模式識(shí)別的字符代碼組的組合組成的模式組,所述程序包含步驟將構(gòu)成每個(gè)語(yǔ)言的字符的二字符組合存儲(chǔ)在一單獨(dú)語(yǔ)言分布表中,其中對(duì)漢字、平假名/片假名、符號(hào)、Hangul和其它字符的每個(gè)字符類型都存儲(chǔ)第一字符的出現(xiàn)率。
25.一種信息處理系統(tǒng),包含一單獨(dú)代碼指定裝置,用于讀取一統(tǒng)合代碼或一本地代碼,作為一采用的字符代碼系統(tǒng);一字符鏈提取裝置,用于從輸入文本數(shù)據(jù)中提取所有的二字符鏈;一出現(xiàn)次數(shù)計(jì)數(shù)裝置,用于按照指定的代碼系統(tǒng),對(duì)每種語(yǔ)言分類漢字、平假名/片假名、符號(hào)、Hangul和其它字符的二字符鏈,然后分別計(jì)算它們的出現(xiàn)率;一單獨(dú)語(yǔ)言互分布距離(interdistribution distance)計(jì)算裝置,用于計(jì)算基于指定的代碼系統(tǒng)的每種語(yǔ)言的漢字、平假名/片假名、符號(hào)、Hangul的出現(xiàn)率與由存儲(chǔ)裝置管理的漢字、平假名/片假名、符號(hào)、Hangul的出現(xiàn)率之間的距離總數(shù);和一比較裝置,用于使所述單獨(dú)語(yǔ)言互分布距離計(jì)算裝置計(jì)算最小距離值,然后確定具有最小距離值的語(yǔ)言類別,作為輸入文本的語(yǔ)言。
全文摘要
一種信息處理系統(tǒng),通過(guò)利用本國(guó)語(yǔ)言的描述特征,即通過(guò)檢測(cè)作為鑒別對(duì)象的文本的特定字符的出現(xiàn)率,同時(shí)觀察在該語(yǔ)言中頻繁出現(xiàn)的特定字符,來(lái)實(shí)現(xiàn)鑒別輸入文本語(yǔ)言的語(yǔ)言鑒別方法。特定字符計(jì)數(shù)器102根據(jù)輸入文本的特定字符的出現(xiàn)次數(shù),檢測(cè)特定字符的出現(xiàn)率,標(biāo)準(zhǔn)出現(xiàn)率存儲(chǔ)器105存儲(chǔ)檢測(cè)的目標(biāo)語(yǔ)言的特定字符的標(biāo)準(zhǔn)出現(xiàn)率,比較器106將輸入文本的特定字符出現(xiàn)率與檢測(cè)的目標(biāo)語(yǔ)言的特定字符的標(biāo)準(zhǔn)出現(xiàn)率進(jìn)行比較。
文檔編號(hào)G06F17/20GK1263316SQ0010193
公開日2000年8月16日 申請(qǐng)日期2000年2月1日 優(yōu)先權(quán)日1999年2月12日
發(fā)明者片山修, 小山隆正 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1