專利名稱:特定元素、字符串向量生成及相似性計算的裝置、方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算單詞相似性的裝置和程序及方法,尤其涉及適用于根據(jù)其出現(xiàn)頻率使單詞在相似性計算中得到無偏頗的反映,由此有效地計算單詞的相似性的特定元素向量生成裝置、字符串向量生成裝置、相似性計算裝置、特定元素向量生成程序、字符串向量生成程序及相似性計算程序、特定元素向量生成方法、字符串向量生成方法及相似性計算方法。
背景技術(shù):
單詞的相關(guān)性詞匯、詞典或同義語辭典的編撰方式有人工和自動二種。
前者雖然在成為對象的領(lǐng)域方面具有可靠的質(zhì)量,但其存在相似性隨時間而趨于陳舊的問題、耗費人工成本的問題以及編撰中難以涵蓋各種領(lǐng)域的問題。
后者已有各種方法被提出,如能建立成為對象的領(lǐng)域的文件集合便可進行編撰,但與前者相比,目前在精度(質(zhì)量)方面相形見絀。然而在最近,在因特網(wǎng)上的檢索服務(wù)中,只要一次性輸入檢索關(guān)鍵字進行檢索,接下來便可顯示出用于縮小查找范圍的最佳候選關(guān)鍵字等,可實現(xiàn)自動化的效果不可限量。此外一般地說,在知識管理、文件管理系統(tǒng)中也同樣,從知識管理的觀點出發(fā),除了檢索文件的功能之外,從某單詞和文章中發(fā)掘(開采)相關(guān)單詞作為支持智力創(chuàng)造活動的功能是非常有效的。
傳統(tǒng)上,作為通過自動化計算單詞的相似性的技術(shù),比如有以下幾種特開平7-114572號公報中介紹的文件分類裝置(以下稱第1現(xiàn)有例)、特開平9-134360號公報中介紹的對「詞」的概念定量化的方法(以下稱第2現(xiàn)有例)、「Qiu,Y.&H.P.Frei(1993).“ConceptBased Query Expansion基于查詢擴展的概念”,Proc.of the 16thAnnual Int.ACM SIGIR Conf.on R&D Information Retrieval,pp.160-169,」論文中介紹的檢索方法(以下稱第3現(xiàn)有例)。
第1現(xiàn)有例具備存儲文本數(shù)據(jù)的存儲部、解析文本數(shù)據(jù)的文件解析部、利用文件中單詞間的共發(fā)生關(guān)系自動生成表現(xiàn)各單詞特征的特征向量的單詞向量生成部、存儲該特征向量的單詞向量存儲部、從文件內(nèi)包含的單詞的特征向量生成文件的特征向量的文件向量生成部、存儲該特征向量的文件向量存儲部、利用文件的特征向量間的相似性對文件分類的分類部、存儲該分類結(jié)果的結(jié)果存儲部、登錄在特征向量生成時使用的單詞的特征向量生成用辭典。
這樣,通過從文件中自動抽出單詞的特征向量,并基于該特征向量對文件分類,可進行采用了語義差異的自動分類。
第2現(xiàn)有例是用于對文件中使用的「詞」的概念定量的方法,包含通過解析被提供的文件,抽出具有與「詞」形成文法上的組的關(guān)系的1或2以上的「關(guān)系詞語」的步驟、求出「詞」分別相對1或2以上的「關(guān)系詞語」所具有的「結(jié)合性」的步驟,以分別針對具有與詞語形成文法上的組的關(guān)系的1或2以上的「關(guān)系詞語」的「結(jié)合性」形式對「詞」的概念進行定量。
這樣,可適用于詞語互相間的相似性生成,對詞語的概念進行定量。
在第3現(xiàn)有例中,對多個文本數(shù)據(jù)進行詞素解析,按所解析的各詞素通過DFITF(Document Frequency & Inverse Term frequency)生成單詞向量,基于所生成的單詞向量計算相似性。單詞向量具有與各文本數(shù)據(jù)對應的元素,各元素是對該單詞向量涉及的單詞通過DFITF計算出的值。DFITF通過在文本數(shù)據(jù)全體中該單詞被使用的文本數(shù)據(jù)數(shù)的頻率(DFDocument Frequency)與在單一文本數(shù)據(jù)內(nèi)單詞出現(xiàn)頻率的倒數(shù)(ITFInverse Term Frequency)的積求出。
然而,在第1現(xiàn)有例中,由于由基于文件集合中單詞的共發(fā)生次數(shù)的統(tǒng)計信息生成單詞向量,因而與單詞向量元素中出現(xiàn)頻率高的單詞(以下稱高出現(xiàn)頻率單詞)對應的元素與其它元素相比突出并具有大的值。因此對于出現(xiàn)頻率低的單詞(以下稱低出現(xiàn)頻率單詞),對應的元素成為誤差程度相對較小的值,因而在把這種單詞向量用于相似性計算的場合下,存在低出現(xiàn)頻率的單詞難以在檢索結(jié)果中被反映出來的問題。此外,在第1現(xiàn)有例中,為防止與高出現(xiàn)頻率的單詞對應的元素突出并成為大的值,采用成為登錄對象的單詞辭典對對象進行限制。一般情況下,采用辭典是一種耗費維護成本的方法,在未特定成為對象的文件集合的通用系統(tǒng)中難以實用。
此外在第2現(xiàn)有例中,由于由基于文件集合中單詞的共發(fā)生次數(shù)的統(tǒng)計信息生成單詞向量,因而與第1現(xiàn)有例同樣,在把這種單詞向量用于相似性計算的場合下,存在低出現(xiàn)頻率的單詞難以在檢索結(jié)果中被反映出來的問題。
此外雖然在第3現(xiàn)有例中,通過DFITF生成單詞向量,但該論文中不記載在該指標下能否有效地計算出單詞的相似性,效果不明確。
發(fā)明內(nèi)容
因此本發(fā)明著眼于這種現(xiàn)有技術(shù)中未解決的課題,其目的是提供適用于根據(jù)其出現(xiàn)頻率使單詞在相似性計算中得到無偏頗的反映,由此有效地計算單詞的相似性的特定元素向量生成裝置、字符串向量生成裝置、相似性計算裝置、特定元素向量生成程序、字符串向量生成程序及相似性計算程序、特定元素向量生成方法、字符串向量生成方法及相似性計算方法。
為達到上述目的,本發(fā)明的特定元素向量生成裝置是一種基于多個數(shù)據(jù)生成表示特定元素的特征的特定元素向量的裝置,其特征在于具備基于上述多個數(shù)據(jù)生成上述特定元素向量的特定元素向量生成單元,上述特定元素向量具有與上述各數(shù)據(jù)對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
在該構(gòu)成下,通過特定要求向量生成單元,基于多個數(shù)據(jù)生成特定要求向量。特定要求向量具有與各數(shù)據(jù)對應的元素,各元素按照成為與多個數(shù)據(jù)中對應數(shù)據(jù)中的特定元素的出現(xiàn)頻率成正比例并與多個數(shù)據(jù)中的特定元素的出現(xiàn)頻率成反比例的值的原則被生成。
這里,特定元素是數(shù)據(jù)中含有的元素,比如如果數(shù)據(jù)是文本數(shù)據(jù),則詞素或從文本數(shù)據(jù)按照規(guī)定規(guī)則切出的字符串便相當于此。后者的場合可適用于比如生成通過n-gram方式切出的字符串的特定元素向量的場合。此外即使數(shù)據(jù)是文本數(shù)據(jù),也不局限于詞素或按照規(guī)定規(guī)則切出的字符串。以下在本發(fā)明的相似性計算裝置、本發(fā)明的特定元素向量生成程序、本發(fā)明的相似性計算程序、本發(fā)明的特定元素向量生成方法、本發(fā)明的相似性計算方法中也同樣。
此外在數(shù)據(jù)中除了文本數(shù)據(jù)以外,還包含圖像數(shù)據(jù)、音樂數(shù)據(jù)或其它類別的數(shù)據(jù)。以下在本發(fā)明的相似性計算裝置、本發(fā)明的特定元素向量生成程序、本發(fā)明的相似性計算程序、本發(fā)明的特定元素向量生成方法、本發(fā)明的相似性計算方法中也同樣。
此外只要能基于多個數(shù)據(jù)生成特定元素向量,特定元素向量生成單元可以是任意構(gòu)成,比如,可以從多個數(shù)據(jù)直接生成特定元素向量,也可以從多個數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成特定元素向量。以下在本發(fā)明的特定元素向量生成程序、本發(fā)明的特定元素向量生成方法中同樣。
另一方面,為達到上述目的,本發(fā)明的字符串向量生成裝置是一種基于多個文本數(shù)據(jù)生成表示特定字符串的特征的字符串向量的裝置,其特征在于具備基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成單元,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,通過字符串向量生成單元,基于多個文本數(shù)據(jù)生成字符串向量。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則被生成。
這里,只要能基于多個文本數(shù)據(jù)生成字符串向量,字符串向量生成單元可以是任意構(gòu)成,比如,可以從多個文本數(shù)據(jù)直接生成字符串向量,也可以從多個文本數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成字符串向量。以下在本發(fā)明的字符串向量生成程序、本發(fā)明的字符串向量生成方法中同樣。
此外本發(fā)明的字符串向量生成裝置的特征在于,在本發(fā)明的字符串向量生成裝置中,上述特定字符串是由詞素解析得到的詞素與根據(jù)規(guī)定規(guī)則切出的字符串的任意一個。
在這種構(gòu)成下,通過字符串向量生成單元,基于多個文本數(shù)據(jù)生成字符串向量。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成反比例的值的原則被生成。
此外本發(fā)明的字符串向量生成裝置的特征在于,在本發(fā)明中的字符串向量生成裝置中,還具備基于上述各文本數(shù)據(jù)的每一個生成文件向量的文件向量生成單元,上述文件向量至少具有1個與上述特定字符串對應的元素,上述元素是與該文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述字符串向量生成單元基于由上述文件向量生成單元生成的文件向量生成上述字符串向量。
在這種構(gòu)成下,通過文件向量生成單元,按各文本數(shù)據(jù)的每一個生成文件向量。文件向量至少具有1個與特定字符串對應的元素,該元素按照成為與該文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過字符串向量生成單元,基于所生成的文件向量生成字符串向量。
此外本發(fā)明的字符串向量生成裝置的特征在于在本發(fā)明的字符串向量生成裝置中,還具備用于存儲上述多個文本數(shù)據(jù)的文本數(shù)據(jù)存儲單元和對上述文本數(shù)據(jù)存儲單元的文本數(shù)據(jù)進行字符串解析的字符串解析單元,
上述文件向量生成單元按由上述字符串解析單元解析的各字符串計算上述文本數(shù)據(jù)中的該字符串的第1出現(xiàn)頻率及上述多個文本數(shù)據(jù)中的該字符串的第2出現(xiàn)頻率,把具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量作為上述文件向量予以生成,對上述文本數(shù)據(jù)存儲單元的所有文本數(shù)據(jù)實施該文件向量的生成。
在這種構(gòu)成下,通過字符串解析單元,文本數(shù)據(jù)存儲單元的文本數(shù)據(jù)被進行字符串解析,通過文件向量生成單元,按被進行字符串解析的各字符串,計算文本數(shù)據(jù)中的該字符串的第1出現(xiàn)頻率及多個文本數(shù)據(jù)中的該字符串的第2出現(xiàn)頻率,具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量被作為文件向量生成。對文本數(shù)據(jù)存儲單元的所有文本數(shù)據(jù)實施該文件向量的生成。
這里,文本數(shù)據(jù)存儲單元利用所有手段并在任何時期對文本數(shù)據(jù)進行存儲,可以預先存儲文本數(shù)據(jù),也可以不預先存儲文本數(shù)據(jù),而在本裝置動作時通過來自外部的輸入等存儲文本數(shù)據(jù)。以下在本發(fā)明的字符串向量生成裝置中同樣。
此外本發(fā)明的字符串向量生成裝置的特征在于在本發(fā)明的字符串向量生成裝置中,還具備用于存儲上述多個文本數(shù)據(jù)的文本數(shù)據(jù)存儲單元,上述文本數(shù)據(jù)包含該文本數(shù)據(jù)中包含的字符串的解析結(jié)果或由單一的字符串組成,上述文件向量生成單元按上述文本數(shù)據(jù)中包含的各字符串計算該文本數(shù)據(jù)中其字符串的第1出現(xiàn)頻率及上述多個文本數(shù)據(jù)中其字符串的第2出現(xiàn)頻率,把具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量作為上述文件向量予以生成,對上述文本數(shù)據(jù)存儲單元的所有文本數(shù)據(jù)實施該文件向量的生成。
在這種構(gòu)成下,通過文件向量生成單元,按文本數(shù)據(jù)中包含的各字符串計算該文本數(shù)據(jù)中其字符串的第1出現(xiàn)頻率及多個文本數(shù)據(jù)中其字符串的第2出現(xiàn)頻率,具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量被作為文件向量生成。對文本數(shù)據(jù)存儲單元的所有文本數(shù)據(jù)實施該文件向量的生成。
此外本發(fā)明的字符串向量生成裝置的特征在于在本發(fā)明的字符串向量生成裝置中,上述字符串向量生成單元構(gòu)成對由上述文件向量生成單元生成的文件向量予以集合,把上述文件向量成分作為了行及列中的一方的文件單詞矩陣,把上述文件單詞矩陣的行及列中的另一方成分從上述文件單詞矩陣抽出,把所抽出的成分的向量作為上述字符串向量生成。
在這種構(gòu)成下,通過字符串向量生成單元,構(gòu)成對生成的文件向量進行集合,把文件向量成分作為行及列中的一方的文件單詞矩陣,文件單詞矩陣的行及列中的另一方成分被從文件單詞矩陣抽出,所抽出的成分的向量被作為字符串向量生成。
此外本發(fā)明的字符串向量生成裝置的特征在于在本發(fā)明的字符串向量生成裝置中,還具備用于存儲上述字符串向量的字符串向量存儲單元,上述字符串向量生成單元把所生成的字符串向量存儲到上述字符串向量存儲單元。
在這種構(gòu)成下,通過字符串向量生成單元,所生成的字符串向量被存儲到字符串向量存儲單元。
這里,字符串向量存儲單元利用所有手段并在任何時期對字符串向量進行存儲,可以預先存儲字符串向量,也可以不預先存儲字符串向量,而在本裝置動作時根據(jù)來自外部的輸入等存儲字符串向量。以下在本發(fā)明的相似性計算裝置、相似性計算程序、相似性計算方法中同樣。
另一方面,為達到上述目的,本發(fā)明的相似性計算裝置是一種基于表示特定元素的特征的特定元素向量計算針對該特定元素的相似性的裝置,其特征在于具備用于存儲上述特定元素向量的特定元素向量存儲單元;輸入包含成為相似判定對象的特定元素的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元;基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述特定元素向量的特定元素向量生成單元;基于由上述特定元素向量生成單元生成的特定元素向量及上述特定元素向量存儲單元的特定元素向量計算上述相似性的相似性計算單元,
上述特定元素向量具有與多個數(shù)據(jù)分別對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,從判定對象數(shù)據(jù)輸入單元輸入判定對象數(shù)據(jù)后,通過特定元素向量生成單元,基于所輸入的判定對象數(shù)據(jù)生成特定元素向量。特定元素向量具有與各數(shù)據(jù)對應的元素,各元素按照成為與多個數(shù)據(jù)中對應數(shù)據(jù)中的特定元素的出現(xiàn)頻率成正比例并與多個數(shù)據(jù)中的特定元素的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過相似性計算單元,基于所生成的特定元素向量及特定元素向量存儲單元的特定元素向量計算相似性。
這里,只要能基于判定對象數(shù)據(jù)生成特定元素向量,特定元素向量生成單元可以是任意構(gòu)成,比如,可以從判定對象數(shù)據(jù)直接生成特定元素向量,也可以從判定對象數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成特定元素向量。以下在本發(fā)明的相似性計算程序、相似性計算方法中同樣。
此外,特定元素向量存儲單元利用所有手段并在任何時期對特定元素向量進行存儲,可以預先存儲特定元素向量,也可以不預先存儲特定元素向量,而在本裝置動作時根據(jù)來自外部的輸入等存儲特定元素向量。以下在本發(fā)明的相似性計算裝置、相似性計算程序、相似性計算方法中同樣。
此外本發(fā)明的相似性計算裝置是一種基于表示特定字符串的特征的字符串向量計算針對該特定字符串的相似性的裝置,其特征在于具備用于存儲上述字符串向量的字符串向量存儲單元;輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元;基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述字符串向量的字符串向量生成單元;基于由上述字符串向量生成單元生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算單元,上述字符串向量具有與多個文本數(shù)據(jù)分別對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,從判定對象數(shù)據(jù)輸入單元輸入判定對象數(shù)據(jù)后,通過字符串向量生成單元,基于所輸入的判定對象數(shù)據(jù)生成字符串向量。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過相似性計算單元,基于所生成的字符串向量及字符串向量存儲單元的字符串向量計算相似性。
這里,只要能基于判定對象數(shù)據(jù)生成字符串向量,字符串向量生成單元可以是任意構(gòu)成,比如,可以從判定對象數(shù)據(jù)直接生成字符串向量,也可以從判定對象數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成字符串向量。以下在本發(fā)明的相似性計算程序、相似性計算方法中同樣。
此外本發(fā)明的相似性計算裝置的特征在于,在本發(fā)明的相似性計算裝置中,上述特定字符串是由詞素解析得到的詞素與根據(jù)規(guī)定規(guī)則切出的字符串的任意一個。
在這種構(gòu)成下,從判定對象數(shù)據(jù)輸入單元輸入判定對象數(shù)據(jù)后,通過字符串向量生成單元,基于所輸入的判定對象數(shù)據(jù)生成字符串向量。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與對應的文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過相似性計算單元,基于所生成的字符串向量及字符串向量存儲單元的字符串向量計算相似性。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出。
在這種構(gòu)成下,通過字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出。由此生成字符串向量。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述字符串向量生成單元在有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存儲單元中存在多個時,把這些字符串向量從上述字符串向量存儲單元讀出,基于所讀出的這些字符串向量生成單一的上述字符串向量。
在這種構(gòu)成下,在有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量在字符串向量存儲單元中存在多個時,通過字符串向量生成單元,這些字符串向量被從字符串向量存儲單元讀出,基于所讀出的這些字符串向量生成單一的字符串向量。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出,對所讀出的這些字符串向量計算同一維數(shù)的元素的平均值,生成把計算出的平均值分別作為元素值而擁有的字符串向量。
在這種構(gòu)成下,通過字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出,對所讀出的這些字符串向量計算同一維數(shù)的元素的平均值,生成把計算出的平均值分別作為元素值而擁有的字符串向量。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述字符串向量存儲單元把上述字符串向量與其單詞的分類屬性相關(guān)聯(lián)進行存儲,上述判定對象數(shù)據(jù)輸入單元輸入上述判定對象數(shù)據(jù)及分類屬性,上述字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出,上述相似性計算單元把與由上述判定對象數(shù)據(jù)輸入單元輸入的分類屬性對應的字符串向量從上述字符串向量存儲單元讀出,基于所讀出的字符串向量及由上述字符串向量生成單元生成的字符串向量計算上述相似性。
在這種構(gòu)成下,在輸入判定對象數(shù)據(jù)及分類屬性后,通過字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出,它被作為字符串向量生成。這樣,通過相似性計算單元,與所輸入的分類屬性對應的字符串向量被從字符串向量存儲單元讀出,基于所讀出的字符串向量及所生成的字符串向量計算相似性。
這里,在分類屬性中,除了詞類之外,如果是由比如XML(eXtensible Markup Language)之類的標記語言予以標記的新聞記事,可包含名稱、本文、作者等若干字段。以下在本發(fā)明的相似性計算裝置中同樣。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述分類屬性是詞類。
在這種構(gòu)成下,在輸入判定對象數(shù)據(jù)及詞類后,通過字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出,它被作為字符串向量生成。這樣,通過相似性計算單元,與所輸入的詞類對應的字符串向量被從字符串向量存儲單元讀出,基于所讀出的字符串向量及所生成的字符串向量計算相似性。
此外本發(fā)明的相似性計算裝置是一種基于多個數(shù)據(jù)生成表示特定元素的特征的特定元素向量,基于上述特定元素向量計算針對上述特定元素的相似性的裝置,其特征在于具備基于上述多個數(shù)據(jù)生成上述特定元素向量的第1特定元素向量生成單元;用于存儲由上述第1特定元素向量生成單元生成的特定元素向量的特定元素向量存儲單元;輸入包含成為相似判定對象的特定元素的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元;基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述特定元素向量的第2特定元素向量生成單元;基于由上述第2特定元素向量生成單元生成的特定元素向量及上述特定元素向量存儲單元的特定元素向量計算上述相似性的相似性計算單元,上述特定元素向量具有與上述各數(shù)據(jù)對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,通過第1特定要求向量生成單元,基于多個數(shù)據(jù)生成特定要求向量,所生成的特定元素向量被存儲到特定元素向量存儲單元。特定元素向量具有與各數(shù)據(jù)對應的元素,各元素按照成為與多個數(shù)據(jù)中對應的數(shù)據(jù)中的特定元素的出現(xiàn)頻率成正比例并與多個數(shù)據(jù)中的特定元素的出現(xiàn)頻率成反比例的值的原則被生成。
此外從判定對象數(shù)據(jù)輸入單元輸入判定對象數(shù)據(jù)后,通過第2特定元素向量生成單元,基于所輸入的判定對象數(shù)據(jù)生成特定元素向量。特定元素向量具有與各數(shù)據(jù)對應的元素,各元素按照成為與多個數(shù)據(jù)中對應的數(shù)據(jù)中的特定元素的出現(xiàn)頻率成正比例并與多個數(shù)據(jù)中的特定元素的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過相似性計算單元,基于所生成的特定元素向量及特定元素向量存儲單元的特定元素向量計算相似性。
這里,只要能基于多個數(shù)據(jù)生成特定元素向量,第1特定元素向量生成單元可以是任意構(gòu)成,比如,可以從多個數(shù)據(jù)直接生成特定元素向量,也可以從多個數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成特定元素向量。以下在本發(fā)明的相似性計算程序、相似性計算方法中同樣。
此外,只要能基于判定對象數(shù)據(jù)生成特定元素向量,第2特定元素向量生成單元可以是任意構(gòu)成,比如,可以從判定對象數(shù)據(jù)直接生成特定元素向量,也可以從判定對象數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成特定元素向量。以下在本發(fā)明的相似性計算程序、相似性計算方法中同樣。
此外本發(fā)明的相似性計算裝置是一種基于多個文本數(shù)據(jù)生成表示特定字符串的特征的字符串向量,基于上述字符串向量計算針對上述特定字符串的相似性的裝置,其特征在于具備基于上述多個文本數(shù)據(jù)生成上述字符串向量的第1字符串向量生成單元;用于存儲由上述第1字符串向量生成單元生成的字符串向量的字符串向量存儲單元;輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元;基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述字符串向量的第2字符串向量生成單元;基于由上述第2字符串向量生成單元生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算單元,
上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,通過第1字符串向量生成單元,基于多個文本數(shù)據(jù)生成字符串向量,所生成的字符串向量被存儲到字符串向量存儲單元。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則被生成。
此外從判定對象數(shù)據(jù)輸入單元輸入判定對象數(shù)據(jù)后,通過第2字符串向量生成單元,基于所輸入的判定對象數(shù)據(jù)生成字符串向量。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過相似性計算單元,基于所生成的字符串向量及字符串向量存儲單元的字符串向量計算相似性。
這里,只要能基于多個文本數(shù)據(jù)生成字符串向量,第1字符串向量生成單元可以是任意構(gòu)成,比如,可以從多個文本數(shù)據(jù)直接生成字符串向量,也可以從多個文本數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成字符串向量。以下在本發(fā)明的相似性計算程序、相似性計算方法中同樣。
此外,只要能基于判定對象數(shù)據(jù)生成字符串向量,第2字符串向量生成單元可以是任意構(gòu)成,比如,可以從判定對象數(shù)據(jù)直接生成字符串向量,也可以從判定對象數(shù)據(jù)生成中間生成物(比如其它向量),再從所生成的中間生成物生成字符串向量。以下在本發(fā)明的相似性計算程序、相似性計算方法中同樣。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述特定字符串是由詞素解析得到的詞素與根據(jù)規(guī)定規(guī)則切出的字符串的任意一個。
在這種構(gòu)成下,通過第1字符串向量生成單元,基于多個文本數(shù)據(jù)生成字符串向量,所生成的字符串向量被存儲到字符串向量存儲單元。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成反比例的值的原則被生成。
此外從判定對象數(shù)據(jù)輸入單元輸入判定對象數(shù)據(jù)后,通過第2字符串向量生成單元,基于所輸入的判定對象數(shù)據(jù)生成字符串向量。字符串向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定詞素或切出字符串的出現(xiàn)頻率成反比例的值的原則被生成。這樣,通過相似性計算單元,基于所生成的字符串向量及字符串向量存儲單元的字符串向量計算相似性。
此外,本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出。
在這種構(gòu)成下,通過第2字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出。由此生成字符串向量。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述第2字符串向量生成單元在有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存儲單元中存在多個時,把這些字符串向量從上述字符串向量存儲單元讀出,基于所讀出的這些字符串向量生成單一的上述字符串向量。
在這種構(gòu)成下,在有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量在字符串向量存儲單元中存在多個時,通過第2字符串向量生成單元,這些字符串向量被從字符串向量存儲單元讀出,基于所讀出的這些字符串向量生成單一的字符串向量。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出,對所讀出的這些字符串向量計算同一維數(shù)之間的元素的平均值,生成把計算出的平均值分別作為元素值而擁有的字符串向量。
在這種構(gòu)成下,通過第2字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出,對所讀出的這些字符串向量計算同一維數(shù)之間的元素的平均值,生成把計算出的平均值分別作為元素值而擁有的字符串向量。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述字符串向量存儲單元把上述字符串向量與其單詞的分類屬性相關(guān)聯(lián)進行存儲,上述判定對象數(shù)據(jù)輸入單元輸入上述判定對象數(shù)據(jù)及分類屬性,上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出,上述相似性計算單元把與由上述判定對象數(shù)據(jù)輸入單元輸入的分類屬性對應的字符串向量從上述字符串向量存儲單元讀出,基于所讀出的字符串向量及由上述字符串向量生成單元生成的字符串向量計算上述相似性。
在這種構(gòu)成下,在輸入判定對象數(shù)據(jù)及分類屬性后,通過第2字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出,它被作為字符串向量生成。這樣,通過相似性計算單元,與所輸入的分類屬性對應的字符串向量被從字符串向量存儲單元讀出,基于所讀出的字符串向量及所生成的字符串向量計算相似性。
此外本發(fā)明的相似性計算裝置的特征在于在本發(fā)明的相似性計算裝置中,上述分類屬性是詞類。
在這種構(gòu)成下,在輸入判定對象數(shù)據(jù)及詞類后,通過第2字符串向量生成單元,有關(guān)與判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量被從字符串向量存儲單元讀出,它被作為字符串向量生成。這樣,通過相似性計算單元,與所輸入的詞類對應的字符串向量被從字符串向量存儲單元讀出,基于所讀出的字符串向量及所生成的字符串向量計算相似性。
另一方面,為達到上述目的,本發(fā)明的特定元素向量生成程序是一種基于多個數(shù)據(jù)生成表示特定元素的特征的特定元素向量的程序,其特征在于該程序用于使計算機執(zhí)行作為基于上述多個數(shù)據(jù)生成上述特定元素向量的特定元素向量生成單元實現(xiàn)的處理,上述特定元素向量具有與上述各數(shù)據(jù)對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,當由計算機讀取了程序,并根據(jù)所讀取的程序由計算機執(zhí)行處理時,可得到與本發(fā)明的特定元素向量生成裝置相同的作用。
另一方面,為達到上述目的,本發(fā)明的字符串向量生成程序是一種基于多個文本數(shù)據(jù)生成表示特定字符串的特征的字符串向量的程序,其特征在于該程序用于使計算機執(zhí)行作為基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成單元實現(xiàn)的處理,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,當由計算機讀取了程序,并根據(jù)所讀取的程序由計算機執(zhí)行處理時,可得到與本發(fā)明的字符串向量生成裝置相同的作用。
另一方面,為達到上述目的,本發(fā)明的相似性計算程序是一種基于表示特定元素的特征的特定元素向量,計算針對該特定元素的相似性的程序,其特征在于該程序使可利用用于存儲上述特定元素向量的特定元素向量存儲單元、輸入包含成為相似判定對象的特定元素的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元的計算機執(zhí)行作為基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述特定元素向量的特定元素向量生成單元、基于由上述特定元素向量生成單元生成的特定元素向量及上述特定元素向量存儲單元的特定元素向量計算上述相似性的相似性計算單元實現(xiàn)的處理,上述特定元素向量具有與多個數(shù)據(jù)分別對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,當由計算機讀取了程序,并根據(jù)所讀取的程序由計算機執(zhí)行處理時,可得到與本發(fā)明的相似性計算裝置相同的作用。
此外本發(fā)明的相似性計算程序是一種基于表示特定字符串的特征的字符串向量,計算針對該特定字符串的相似性的程序,其特征在于該程序使可利用用于存儲上述字符串向量的字符串向量存儲單元、輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元的計算機執(zhí)行作為基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述字符串向量的字符串向量生成單元、基于由上述字符串向量生成單元生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算單元實現(xiàn)的處理,上述字符串向量具有與多個文本數(shù)據(jù)分別對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,當由計算機讀取了程序,并根據(jù)所讀取的程序由計算機執(zhí)行處理時,可得到與本發(fā)明的相似性計算裝置相同的作用。
此外本發(fā)明的相似性計算程序是一種基于多個數(shù)據(jù)生成表示特定元素的特征的特定元素向量,基于上述特定元素向量計算針對上述特定元素的相似性的程序,其特征在于該程序使可利用用于存儲上述特定元素向量的特定元素向量存儲單元、輸入包含成為相似判定對象的特定元素的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元的計算機實施作為基于上述多個數(shù)據(jù)生成上述特定元素向量并存儲到上述特定元素向量存儲單元的第1特定元素向量生成單元、基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述特定元素向量的第2特定元素向量生成單元、基于由上述第2特定元素向量生成單元生成的特定元素向量及上述特定元素向量存儲單元的特定元素向量計算上述相似性的相似性計算單元實現(xiàn)的處理,上述特定元素向量具有與上述各數(shù)據(jù)對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,當由計算機讀取了程序,并根據(jù)所讀取的程序由計算機執(zhí)行處理時,可得到與本發(fā)明的特定元素向量生成程序相同的作用。
此外本發(fā)明的相似性計算程序是一種基于多個文本數(shù)據(jù)生成表示特定字符串的特征的字符串向量,基于上述字符串向量計算針對上述特定字符串的相似性的程序,其特征在于該程序使可利用用于存儲上述字符串向量的字符串向量存儲單元、輸入包含成為類似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元的計算機實施作為基于上述多個文本數(shù)據(jù)生成上述字符串向量并存儲到上述字符串向量存儲單元的第1字符串向量生成單元、基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述字符串向量的第2字符串向量生成單元、基于由上述第2字符串向量生成單元生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算單元實現(xiàn)的處理,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
在這種構(gòu)成下,當由計算機讀取了程序,并根據(jù)所讀取的程序由計算機執(zhí)行處理時,可得到與本發(fā)明的字符串向量生成程序相同的作用。
另一方面,為達到上述目的,本發(fā)明的特定元素向量生成方法是一種基于多個數(shù)據(jù)生成表示特定元素的特征的特定元素向量的方法,其特征在于包含基于上述多個數(shù)據(jù)生成上述特定元素向量的特定元素向量生成步驟,上述特定元素向量具有與上述各數(shù)據(jù)對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
另一方面,為達到上述目的,本發(fā)明的字符串向量生成方法是一種基于多個文本數(shù)據(jù)生成表示特定字符串的特征的字符串向量的方法,其特征在于包含基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成步驟,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
另一方面,為達到上述目的,本發(fā)明的相似性計算方法是一種基于表示特定元素的特征的特定元素向量,計算針對該特定元素的相似性的方法,其特征在于包含把上述特定元素向量存儲到特定元素向量存儲單元的特定元素向量存儲步驟;輸入包含成為相似判定對象的特定元素的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入步驟;基于在上述判定對象數(shù)據(jù)輸入步驟輸入的判定對象數(shù)據(jù)生成上述特定元素向量的特定元素向量生成步驟;基于在上述特定元素向量生成步驟生成的特定元素向量及上述特定元素向量存儲單元的特定元素向量計算上述相似性的相似性計算步驟,上述特定元素向量具有與多個數(shù)據(jù)分別對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
此外本發(fā)明的相似性計算方法是一種基于表示特定字符串的特征的字符串向量,計算針對該特定字符串的相似性的方法,其特征在于包含把上述字符串向量存儲到字符串向量存儲單元的字符串向量存儲步驟;輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入步驟;基于在上述判定對象數(shù)據(jù)輸入步驟輸入的判定對象數(shù)據(jù)生成上述字符串向量的字符串向量生成步驟;基于在上述字符串向量生成步驟生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算步驟,上述字符串向量具有與多個文本數(shù)據(jù)分別對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
此外本發(fā)明的相似性計算方法是一種基于多個數(shù)據(jù)生成表示特定元素的特征的特定元素向量,基于上述特定元素向量計算針對上述特定元素的相似性的方法,其特征在于包含基于上述多個數(shù)據(jù)生成上述特定元素向量的第1特定元素向量生成步驟;把在上述第1特定元素向量生成步驟生成的特定元素向量存儲到特定元素向量存儲單元的特定元素向量存儲步驟;輸入包含成為相似判定對象的特定元素的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入步驟;基于在上述判定對象數(shù)據(jù)輸入步驟輸入的判定對象數(shù)據(jù)生成上述特定元素向量的第2特定元素向量生成步驟;基于在上述第2特定元素向量生成步驟生成的特定元素向量及上述特定元素向量存儲單元的特定元素向量計算上述相似性的相似性計算步驟,上述特定元素向量具有與上述各數(shù)據(jù)對應的元素,上述各元素是與上述多個數(shù)據(jù)中對應的數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成正比例并與上述多個數(shù)據(jù)中的上述特定元素的出現(xiàn)頻率成反比例的值。
此外本發(fā)明的相似性計算方法是一種基于多個文本數(shù)據(jù)生成表示特定字符串的特征的字符串向量,基于上述字符串向量計算針對上述特定字符串的相似性的方法,其特征在于包含基于上述多個文本數(shù)據(jù)生成上述字符串向量的第1字符串向量生成步驟;把在上述第1字符串向量生成步驟生成的字符串向量存儲到字符串向量存儲單元的字符串向量存儲步驟;輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入步驟;基于在上述判定對象數(shù)據(jù)輸入步驟輸入的判定對象數(shù)據(jù)生成上述字符串向量的第2字符串向量生成步驟;基于在上述第2字符串向量生成步驟生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算步驟,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
圖1是表示采用本發(fā)明的計算機100構(gòu)成的方框圖。
圖2是表示單詞向量生成處理的流程圖。
圖3是表示文件向量構(gòu)成的附圖。
圖4是表示相似性計算處理的流程圖。
圖5是文本數(shù)據(jù)的樣本。
圖6是與所謂「指紋」的檢索關(guān)鍵字相似性高的單詞一覽。
圖7是與所謂「指紋」的檢索關(guān)鍵字相似性高的英文單詞一覽。
圖8是與所謂「指紋」的檢索關(guān)鍵字相似性高的單詞一覽。
具體實施例方式
以下參照附圖對本發(fā)明的實施方式作以說明。圖1至圖8是表示本發(fā)明涉及的特定元素向量生成裝置、字符串向量生成裝置、相似性計算裝置、特定元素向量生成程序、字符串向量生成程序及相似性計算程序、特定元素向量生成方法、字符串向量生成方法及相似性計算方法的實施方式的附圖。
在本實施方式下,本發(fā)明涉及的特定元素向量生成裝置、字符串向量生成裝置、相似性計算裝置、特定元素向量生成程序、字符串向量生成程序及相似性計算程序、特定元素向量生成方法、字符串向量生成方法及相似性計算方法用于如圖1所示,由計算機100對由用戶輸入的檢索關(guān)鍵字分別計算與多個文本數(shù)據(jù)中包含的所有種類的單詞的相似性的場合。
首先,參照圖1對采用本發(fā)明的計算機100的構(gòu)成作以說明。圖1是表示采用本發(fā)明的計算機100構(gòu)成的方框圖。
計算機100如圖1所示,由基于控制程序控制運算及系統(tǒng)整體的CPU30、在規(guī)定區(qū)域內(nèi)預先存儲CPU30的控制程序等的ROM32、用于存儲從ROM32等讀出的數(shù)據(jù)及CPU30的運算過程中必需的運算結(jié)果的RAM34、起著對外部裝置輸入輸出數(shù)據(jù)的中介作用的I/F38構(gòu)成,它們通過作為用于轉(zhuǎn)送數(shù)據(jù)的信號線的總線39被互相而且可收發(fā)數(shù)據(jù)地連接。
在I/F38上,作為外部裝置,由可作為人機界面輸入數(shù)據(jù)的鍵盤及鼠標等組成的輸入裝置40、基于圖像信號顯示圖像的顯示裝置42、存儲多個文本數(shù)據(jù)的文本數(shù)據(jù)登錄數(shù)據(jù)庫(以下把數(shù)據(jù)庫簡稱為DB)44被連接。
CPU30由微處理單元MPU等組成,使存儲在ROM32的規(guī)定區(qū)域內(nèi)的規(guī)定程序啟動,根據(jù)該程序,按時間分割分別執(zhí)行圖2及圖4的流程圖所示的單詞向量生成處理及相似性計算處理。
首先,參照圖2對單詞向量生成處理作以詳細說明。圖2是表示單詞向量生成處理的流程圖。
單詞向量生成處理是生成相似性計算所必需的單詞向量的處理,在CPU30中被執(zhí)行后,如圖2所示,首先轉(zhuǎn)入步驟S100。
在步驟S100,對文本數(shù)據(jù)登錄DB44的所有文本數(shù)據(jù)進行詞素解析,獲得在任何文本數(shù)據(jù)中出現(xiàn)的所有種類的詞素,然后轉(zhuǎn)入步驟S102,把開頭的文本數(shù)據(jù)從文本數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)入步驟S104。
在步驟S104中,按在步驟S100中獲得的各詞素,計算在所讀出的文本數(shù)據(jù)中其詞素的出現(xiàn)頻率,轉(zhuǎn)入步驟S106,基于計算出的出現(xiàn)頻率生成文件向量。文件向量具有與各詞素對應的元素,各元素按照成為與對應的詞素的出現(xiàn)頻率對應的值的原則生成。這里,參照圖3,對生成文件向量的方法作以說明。圖3是表示文件向量構(gòu)成的附圖。
首先,如圖3所示,文件向量可以由下式(1)作為n維數(shù)向量表示。一般情況下,n是在對所有的文本數(shù)據(jù)進行詞素解析時所得到的非重復單詞數(shù)(詞素數(shù))。這樣,通過TFIDF(Term Frequency &Inverse Document frequency(術(shù)語頻率與文件頻率倒數(shù)))求出各單詞的權(quán)重W。
(算式1)D‾=(W1,W2,···,Wn)---(1)]]>TFIDF根據(jù)下式(2),通過在單一文本數(shù)據(jù)中的單詞出現(xiàn)頻率(TFTerm Frequency)與在文本數(shù)據(jù)整體中使用該單詞的文本數(shù)據(jù)數(shù)的頻率倒數(shù)(IDFInverse Document Frequency)的積求出,數(shù)值越大,表示該單詞越重要。TF是一個表示頻繁出現(xiàn)的單詞是重要的指標,如下式(3)所示,具有隨著某文本數(shù)據(jù)中單詞出現(xiàn)頻率的增加而增大的性質(zhì)。IDF是表示在較多的文本數(shù)據(jù)中出現(xiàn)的單詞不重要,即在特定文本數(shù)據(jù)中出現(xiàn)的單詞是重要的指標,如下式(4)~(6)所示,具有隨著采用某單詞的文本數(shù)據(jù)數(shù)的減少而增大的性質(zhì)。因而TFIDF的值具有以下性質(zhì)即對在頻繁出現(xiàn)的文本數(shù)據(jù)中出現(xiàn)的單詞(接續(xù)詞、助詞等)及雖只在特定的文本數(shù)據(jù)中出現(xiàn)但即使在該文本數(shù)據(jù)中頻率也較小的單詞將減小,反之,對在特定文本數(shù)據(jù)中高頻率出現(xiàn)的單詞將增大。通過TFIDF,文本數(shù)據(jù)內(nèi)的單詞可被數(shù)值化,以該數(shù)值為元素,文本數(shù)據(jù)實現(xiàn)向量化。
(算式2)W(t,d)=TF(t,d)×IDF(t)…(2)(算式3)TF(t,d)=在文本數(shù)據(jù)d中單詞t出現(xiàn)的頻率 …(3)(算式4)IDF(t)=log(DDF(t))---(4)]]>(算式5)DF(t)=在文本數(shù)據(jù)整體中單詞t出現(xiàn)的文本數(shù)據(jù)數(shù)的頻率 …(5)
(算式6)D=全部文本數(shù)據(jù)數(shù) …(6)接下來,轉(zhuǎn)入步驟S108,把所生成的文件向量存儲到文本數(shù)據(jù)登錄DB44,轉(zhuǎn)入步驟S110,判定對于所有的文本數(shù)據(jù),其步驟S104~S108的處理是否結(jié)束,當判定出對所有文本數(shù)據(jù)的處理都結(jié)束時(Yes是),轉(zhuǎn)入步驟S112。
在步驟S112中,基于文本數(shù)據(jù)登錄DB44的文件向量生成單詞向量。單詞向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與對應文本數(shù)據(jù)中的單詞的出現(xiàn)頻率對應的值的原則生成。具體地說,如圖3所示,構(gòu)成對所生成的所有文件向量予以集合,把文件向量成分設(shè)為行方向的文件單詞矩陣,把文件單詞矩陣的列方向成分從文件單詞矩陣抽出,把所抽出成分的向量作為單詞向量生成。
接下來轉(zhuǎn)入步驟S114,把所生成的單詞向量存儲到文本數(shù)據(jù)登錄DB44,結(jié)束一系列的處理,返回原來的處理。
另一方面,在步驟S110中,當判定出對于所有的文本數(shù)據(jù),其步驟S104~S108的處理尚未結(jié)束時(No否),轉(zhuǎn)入步驟S116,把下一個文本數(shù)據(jù)從文本數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)入步驟S104。
接下來,參照圖4對相似性計算處理作詳細說明。圖4是表示相似性計算處理的流程圖。
相似性計算處理是一種基于文本數(shù)據(jù)登錄DB44的單詞向量,對用戶輸入的檢索關(guān)鍵字分別計算與多個文本數(shù)據(jù)中包含的所有種類單詞的相似性的處理,在CPU30中被執(zhí)行后,如圖4所示,首先轉(zhuǎn)入步驟S200。
在步驟S200中,判定是否輸入了來自用戶的檢索請求,當判定出輸入了檢索請求時(Yes是),轉(zhuǎn)入步驟S202,當判定出未輸入時(No否),在步驟S200待機,直至輸入檢索請求。
在步驟S202中,從輸入裝置40輸入檢索關(guān)鍵字,轉(zhuǎn)入步驟S214,基于所輸入的檢索關(guān)鍵字生成檢索關(guān)鍵字的單詞向量(以下把檢索關(guān)鍵字的單詞向量稱為檢索關(guān)鍵單詞向量)。具體地說,在步驟S214中,把在步驟S112中生成的單詞向量中有關(guān)與檢索關(guān)鍵字相同的單詞的單詞向量從文本數(shù)據(jù)登錄DB44讀出。這里,當有關(guān)與檢索關(guān)鍵字相同的單詞的單詞向量在文本數(shù)據(jù)登錄DB44中存在多個時,把這些單詞向量從文本數(shù)據(jù)登錄DB44讀出,對所讀出的這些單詞向量計算具有同一維數(shù)的元素的平均值,生成把所計算出的平均值作為各元素的值而擁有的單詞向量。
接下來,轉(zhuǎn)入步驟S216,把在步驟S112中生成的單詞向量中的開頭部分從文本數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)入步驟S218,利用所讀出的單詞向量及檢索關(guān)鍵單詞向量進行向量運算,由此計算出它們所涉及的單詞的相似性。基于向量運算的相似性計算被稱為向量檢索技術(shù),由反映單詞的重要性并數(shù)值化的TFIDF和計算由此被向量化了的單詞相似性的向量空間模型組成。比如,在把所讀出的單詞向量設(shè)為單詞向量T1,把檢索關(guān)鍵單詞向量設(shè)為單詞向量T2的場合下,根據(jù)下式(7),相似性可作為單詞向量T1,T2之間組成的夾角的余弦值(0~1)計算出來。
(算式7) 接下來,轉(zhuǎn)入步驟S220,判定對于所有的單詞向量,其步驟S218的處理是否結(jié)束,當判定出對所有單詞向量的處理都結(jié)束時(Yes是),轉(zhuǎn)入步驟S222。
在步驟S222中,將在步驟S218中計算出的相似性按照從高到低的順序重新排列,生成相似性一覽,轉(zhuǎn)入步驟S224,在顯示裝置42上顯示出所生成的相似性一覽,結(jié)束一系列處理,返回原來的處理。
另一方面,在步驟S220,當判定出對于所有的單詞向量,其步驟S218的處理尚未結(jié)束時(No否),轉(zhuǎn)入步驟S226,把在步驟S112生成的單詞向量中的下一個從文本數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)入步驟S218。
以下對本實施方式的動作作以說明。
首先,對從文本數(shù)據(jù)登錄DB44的文本數(shù)據(jù)生成單詞向量的場合作以說明。
首先通過步驟S100、S102,文本數(shù)據(jù)登錄DB44的所有文本數(shù)據(jù)被詞素分析,獲得任何文本數(shù)據(jù)中出現(xiàn)的所有種類的詞素,開頭的文本數(shù)據(jù)被從文本數(shù)據(jù)登錄DB44讀出。接下來,通過步驟S104、S106,按所取得的各詞素的每一個,計算所讀出的文本數(shù)據(jù)中的該詞素的出現(xiàn)頻率,基于所計算出的出現(xiàn)頻率,文件向量被生成。文件向量具有與各詞素對應的元素,各元素按照成為與對應的詞素的出現(xiàn)頻率對應的值的原則被生成。然后,文件向量通過步驟S108,被存儲到文本數(shù)據(jù)登錄DB44。通過重復步驟S104~S110,S116,對文本數(shù)據(jù)登錄DB44的所有文本數(shù)據(jù)實施該文件向量的生成。
對所有的文本數(shù)據(jù)生成文件向量后,經(jīng)過步驟S112,基于文本數(shù)據(jù)登錄DB44的文件向量生成單詞向量。單詞向量具有與各文本數(shù)據(jù)對應的元素,各元素按照成為與對應的文本數(shù)據(jù)中的單詞的出現(xiàn)頻率對應的值的原則被生成。具體地說,構(gòu)成對所生成的所有的文件向量集合,并把文件向量成分作為了行方向的文件單詞矩陣,文件單詞矩陣的列方向成分被從文件單詞矩陣抽出,所抽出成分的向量被作為單詞向量生成。然后,單詞向量通過步驟S114,被存儲到文本數(shù)據(jù)登錄DB44。
接下來,對計算用戶輸入的檢索關(guān)鍵字的相似性的場合作以說明。
在計算檢索關(guān)鍵字的相似性的場合下,用戶首先在輸入檢索請求的同時,輸入成為相似判定對象的檢索關(guān)鍵字。
檢索關(guān)鍵字被輸入后,經(jīng)過步驟S214、S216,基于被輸入的檢索關(guān)鍵字生成檢索關(guān)鍵單詞向量,在步驟S112中生成的單詞向量中的開頭部分被從文本數(shù)據(jù)登錄DB44讀出。接下來通過步驟S218,利用所讀出的單詞向量及檢索關(guān)鍵單詞向量進行向量運算,由此計算出它們所涉及的單詞的相似性。通過重復步驟S218、S220、S226,對在步驟S112中生成的所有單詞向量實施該相似性的計算。
對所有單詞向量計算出相似性后,經(jīng)過步驟S222、S224,將計算出的相似性按照從高到低的順序重新排列,生成相似性一覽,所生成的相似性一覽在顯示裝置42上顯示。
接下來,參照圖5至圖8對本發(fā)明的實施例作以說明。
假設(shè)在文本數(shù)據(jù)登錄DB44中,登錄圖5所示內(nèi)容的文本數(shù)據(jù)。在本實施例中,以只登錄1個文本數(shù)據(jù)的最簡單的場合為例進行說明。圖5是文本數(shù)據(jù)的樣本。
第1,在用戶輸入「指紋」作為檢索關(guān)鍵字,指定了名詞作為詞類的場合下,如圖6所示,與所謂「指紋」的檢索關(guān)鍵字的相似性高的單詞一覽被顯示出來。在該一覽中,按相似性由高至低的順序顯示單詞。圖6是與所謂「指紋」的檢索關(guān)鍵字的相似性高的單詞一覽。
在圖6的示例中,在第1段登錄有「11.000000noun指紋」,它表示針對所謂「指紋」的單詞的檢索關(guān)鍵字的相似性是「1.000000」,相似性最高。此外在第2段登錄有「20.848339noun口令」,它表示針對所謂「口令」的單詞的檢索關(guān)鍵字的相似性是「0.848339」,相似性第二高。此外「noun」表示詞類是名詞。
第2,在用戶輸入「指紋」作為檢索關(guān)鍵字,指定了英文作為單詞類別的場合下,如圖7所示,與所謂「指紋」的檢索關(guān)鍵字的相似性高的英文單詞一覽被顯示出來。在該一覽中,按相似性由高至低的順序顯示英文單詞。圖7是與所謂「指紋」的檢索關(guān)鍵字的相似性高的英文單詞一覽。
在圖7的示例中,在第1段登錄有「10.460238alnm Card」,它表示針對所謂「Card」的單詞的檢索關(guān)鍵字的相似性是「0.460238」,相似性最高。此外在第4段登錄有「40.458003alnmTechnology」,它表示針對所謂「Technology」的單詞的檢索關(guān)鍵字的相似性是「0.458003」,相似性第二高。此外「alnm」表示單詞類別是英文。
第3,在用戶輸入「指紋」作為檢索關(guān)鍵字,指定了動詞作為詞類的場合下,如圖8所示,與所謂「指紋」的檢索關(guān)鍵字的相似性高的單詞一覽被顯示出來。在該一覽中,按相似性由高至低的順序顯示單詞。圖8是與所謂「指紋」的檢索關(guān)鍵字的相似性高的單詞一覽。
在圖8的示例中,在第1段登錄有「10.528856verb代替」,它表示針對所謂「代替」的單詞的檢索關(guān)鍵字的相似性是「0.528856」,相似性最高。此外在第2段登錄有「20.468106verb對比」,它表示針對所謂「對比」的單詞的檢索關(guān)鍵字的相似性是「0.468106」,相似性第二高。此外「verb」表示詞類是動詞。
這樣,在本實施方式下,基于多個文本數(shù)據(jù)生成單詞向量,單詞向量具有與各文本數(shù)據(jù)對應的元素,按照成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的詞素的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的詞素的出現(xiàn)頻率成反比例的值的原則計算各元素。
這樣,由于按照單詞向量的各元素基于對應文本數(shù)據(jù)中的詞素出現(xiàn)頻率成為與重要性對應的值的原則生成單詞向量,因而不論是高出現(xiàn)頻率的詞素還是低出現(xiàn)率的詞素,都可使其重要性在相似性的計算中反映出來。因而與傳統(tǒng)相比,可有效地計算相似性。
此外在本實施方式下,按各文本數(shù)據(jù)生成文件向量,基于所生成的文件向量生成單詞向量,文件向量具有與各詞素對應的元素,按照成為與對應詞素的出現(xiàn)頻率對應的值的原則計算各元素。
這樣,由于是一種從文件向量生成單詞向量的構(gòu)成,因而可以通用傳統(tǒng)的文件向量生成裝置。因此單詞向量的生成比較容易,從而可較容易地進行相似性的計算。
此外在本實施方式下,對文本數(shù)據(jù)登錄DB44的所有文本數(shù)據(jù)進行詞素解析,按詞素解析后的各詞素計算在文本數(shù)據(jù)中其詞素的出現(xiàn)頻率,把具有與計算出的出現(xiàn)頻率對應的值的元素的向量作為文件向量予以生成,對文本數(shù)據(jù)登錄DB44的所有文本數(shù)據(jù)實施該文件向量的生成。
這樣,由于只需在文本數(shù)據(jù)登錄DB44中存儲文本數(shù)據(jù),便可生成單詞向量,因而單詞向量的生成更加容易,從而可更容易地進行相似性的計算。
此外在本實施方式下,構(gòu)成對所生成的所有的文件向量集合,并把文件向量成分作為了行方向的文件單詞矩陣,把文件單詞矩陣的列方向成分從文件單詞矩陣抽出,把所抽出成分的向量作為單詞向量生成。
這樣,由于可以由文件單詞矩陣的轉(zhuǎn)置矩陣生成單詞向量,因而單詞向量的生成更加容易,從而可更容易地進行相似性的計算。
此外在本實施方式下,把有關(guān)與檢索關(guān)鍵字相同的詞素的單詞向量從文本數(shù)據(jù)登錄DB44讀出,將其作為檢索關(guān)鍵單詞向量生成。
這樣,可從檢索關(guān)鍵字比較容易地生成單詞向量。
此外在本實施方式下,把有關(guān)與檢索關(guān)鍵字相同的詞素的單詞向量從文本數(shù)據(jù)登錄DB44讀出,將其作為檢索關(guān)鍵單詞向量生成,把與所輸入的詞類對應的單詞向量從文本數(shù)據(jù)登錄DB44讀出,基于所讀出的單詞向量及所生成的檢索關(guān)鍵單詞向量計算相似性。
這樣,由于可以通過詞類縮小對象范圍,因而可較高速而且有效地進行相似性的計算。
在上述實施方式中,單詞向量與本發(fā)明的特定元素向量或字符串向量對應,文本數(shù)據(jù)登錄DB44與本發(fā)明的文本數(shù)據(jù)存儲單元或本發(fā)明的字符串向量存儲單元對應。此外步驟S100與本發(fā)明的字符串解析單元對應,步驟S106與本發(fā)明的文件向量生成單元對應,步驟S112與本發(fā)明的特定元素向量生成單元、本發(fā)明的字符串向量生成單元、本發(fā)明的特定元素向量生成步驟或本發(fā)明的字符串向量生成步驟對應。
在上述實施方式中,單詞向量與本發(fā)明的特定元素向量或字符串向量對應,檢索關(guān)鍵字與判定對象數(shù)據(jù)對應。此外文本數(shù)據(jù)登錄DB44與特定元素向量存儲單元或字符串向量存儲單元對應,步驟S114與特定元素向量存儲步驟或字符串向量存儲步驟對應。
此外在上述實施方式中,步驟S202與判定對象數(shù)據(jù)輸入單元或判定對象數(shù)據(jù)輸入步驟對應,步驟S214與特定元素向量生成單元、字符串向量生成單元、特定元素向量生成步驟或字符串向量生成步驟對應。此外步驟S218與相似性計算單元或相似性計算步驟對應。
在上述實施方式中,單詞向量與特定元素向量或字符串向量對應,檢索關(guān)鍵字與判定對象數(shù)據(jù)對應。此外文本數(shù)據(jù)登錄DB44與特定元素向量存儲單元或字符串向量存儲單元對應,步驟S112與第1特定元素向量生成單元、第1字符串向量生成單元、第1特定元素向量生成步驟或第1字符串向量生成步驟對應。
此外在上述實施方式中,步驟S114與本發(fā)明的特定元素向量存儲步驟或字符串向量存儲步驟對應,步驟S202與判定對象數(shù)據(jù)輸入單元或判定對象數(shù)據(jù)輸入步驟對應。此外步驟S214與第2特定元素向量生成單元、第2字符串向量生成單元、第2特定元素向量生成步驟或第2字符串向量生成步驟對應。
此外在上述實施方式中,步驟S218與相似性計算單元或相似性計算步驟對應。
此外在上述實施方式中,雖然按照對所有的文本數(shù)據(jù)進行詞素解析,按詞素解析后的各詞素計算在所讀出的文本數(shù)據(jù)中該詞素的出現(xiàn)頻率,并基于計算出的出現(xiàn)頻率生成文件向量的原則構(gòu)成,但并不局限于此,如果按照包含在該文本數(shù)據(jù)中包含的詞素的解析結(jié)果或由單一詞素組成的原則構(gòu)成文本數(shù)據(jù),則也可不進行詞素解析而構(gòu)成。在該場合下,也可以按照按文本數(shù)據(jù)中包含的各詞素,計算在所讀出的文本數(shù)據(jù)中該詞素的出現(xiàn)頻率,并基于計算出的出現(xiàn)頻率生成文件向量的原則構(gòu)成。
這樣,由于只需在文本數(shù)據(jù)登錄DB44中存儲文本數(shù)據(jù),便可生成單詞向量,而且可以不對文本數(shù)據(jù)進行詞素解析,因而可更容易地進行單詞向量的生成。
在該場合下,文本數(shù)據(jù)登錄DB44與本發(fā)明的文本數(shù)據(jù)存儲單元對應,步驟S106與本發(fā)明的文件向量生成單元對應。
此外在上述實施方式中,雖然按照輸入檢索關(guān)鍵字,基于所輸入的檢索關(guān)鍵字生成單詞向量的原則構(gòu)成,但并不局限于此,也可以按照輸入由多個單詞組成的檢索關(guān)鍵字的原則構(gòu)成。在該場合下,輸入由多個單詞組成的檢索關(guān)鍵字,對所輸入的檢索關(guān)鍵字進行詞素解析,基于詞素解析后的各詞素生成單詞向量。單詞向量的生成可以按照與在上述實施方式下的步驟S214中,該單詞向量在文本數(shù)據(jù)登錄DB44中存在多個的場合相同的要點進行。
此外在上述實施方式中,雖然對在執(zhí)行圖2及圖4的流程圖所示處理的任何一種情況下執(zhí)行在ROM32中預先存儲的控制程序的場合作了說明,但并不局限于此,也可以從存儲了表示這些順序的程序的存儲媒體把這些程序讀入RAM34后執(zhí)行。
這里,所謂存儲媒體是RAM、ROM等半導體存儲媒體;FD、HD等磁存儲型存儲媒體;CD、CDV、LD、DVD等光學讀取方式存儲媒體;MO等磁存儲型/光學讀取方式存儲媒體,不論是電子、磁力、光學等讀取方法中的哪一種,只要是計算機可讀取的存儲媒體,可包含所有的存儲媒體。
此外在上述實施方式中,雖然在如圖1所示,由計算機100對用戶輸入的檢索關(guān)鍵字分別計算與多個文本數(shù)據(jù)中包含的所有種類的單詞的相似性的場合下采用了本發(fā)明涉及的特定元素向量生成裝置、字符串向量生成裝置、相似性計算裝置、特定元素向量生成程序、字符串向量生成程序及相似性計算程序、特定元素向量生成方法、字符串向量生成方法及相似性計算方法,但并不局限于此,在不脫離本發(fā)明主旨的范圍內(nèi)也可適用其它場合。比如,也可以作為在因特網(wǎng)或其它網(wǎng)絡(luò)中,對用戶輸入的檢索關(guān)鍵字,分別計算與多個文本數(shù)據(jù)中包含的所有種類的單詞的相似性并進行檢索的檢索服務(wù)的一部分應用。
發(fā)明效果如上所述,根據(jù)本發(fā)明涉及的特定元素向量生成裝置,由于按照特定元素向量的各元素成為與對應數(shù)據(jù)中的特定元素的出現(xiàn)頻率成正比例并與多個數(shù)據(jù)中的特定元素的出現(xiàn)頻率成反比例的值的原則生成特定元素向量,因而即使存在高出現(xiàn)頻率的特定元素,也可以使低出現(xiàn)頻率的特定元素根據(jù)其出現(xiàn)頻率在相似性計算中反映出來。因而在把特定元素向量用于了相似性計算的場合下,與傳統(tǒng)相比,具有可有效計算特定元素的相似性的效果。
另一方面,根據(jù)本發(fā)明涉及的字符串向量生成裝置,由于按照字符串向量的各元素成為與對應文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則生成字符串向量,因而即使存在高出現(xiàn)頻率的特定字符串,也可以使低出現(xiàn)頻率的特定字符串根據(jù)其出現(xiàn)頻率在相似性計算中反映出來。因而在把字符串向量用于了相似性計算的場合下,與傳統(tǒng)相比,具有可有效計算特定字符串的相似性的效果。
此外,根據(jù)本發(fā)明涉及的字符串向量生成裝置,由于是一種從文件向量生成字符串向量的構(gòu)成,因而可以通用傳統(tǒng)的文件向量生成裝置。因此還具有可較容易地進行字符串向量的生成的效果。
此外根據(jù)本發(fā)明涉及的字符串向量生成裝置,由于只需在文本數(shù)據(jù)存儲單元中存儲文本數(shù)據(jù),便可生成字符串向量,因而還具有可更容易地進行字符串向量的生成的效果。
此外根據(jù)本發(fā)明涉及的字符串向量生成裝置,由于只需在文本數(shù)據(jù)存儲單元中存儲文本數(shù)據(jù),便可生成字符串向量,而且不對文本數(shù)據(jù)進行字符串解析也可以,因而還具有可更容易地進行字符串向量的生成的效果。
此外根據(jù)本發(fā)明涉及的字符串向量生成裝置,由于可以由文件單詞矩陣的轉(zhuǎn)置矩陣生成字符串向量,因而還具有可更容易地進行字符串向量生成的效果。
另一方面,根據(jù)本發(fā)明涉及的相似性計算裝置,由于按照特定元素向量的各元素成為與對應數(shù)據(jù)中的特定元素的出現(xiàn)頻率成正比例并與多個數(shù)據(jù)中的特定元素的出現(xiàn)頻率成反比例的值的原則生成特定元素向量,因而即使存在高出現(xiàn)頻率的特定元素,也可以使低出現(xiàn)頻率的特定元素根據(jù)其出現(xiàn)頻率在相似性計算中反映出來。因而與傳統(tǒng)相比,具有可有效計算特定元素的相似性的效果。
此外根據(jù)本發(fā)明涉及的相似性計算裝置,由于按照字符串向量的各元素成為與對應文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的特定字符串的出現(xiàn)頻率成反比例的值的原則生成字符串向量,因而即使存在高出現(xiàn)頻率的特定字符串,也可以使低出現(xiàn)頻率的特定字符串根據(jù)其出現(xiàn)頻率在相似性計算中反映出來。因而與傳統(tǒng)相比,具有可有效計算特定字符串的相似性的效果。
此外根據(jù)本發(fā)明涉及的相似性計算裝置,還具有可從判定對象數(shù)據(jù)較容易地生成字符串向量的效果。
此外根據(jù)本發(fā)明涉及的相似性計算裝置,由于可以由分類屬性縮小對象范圍,因而還具有可較高速而且有效地進行相似性計算的效果。
此外根據(jù)本發(fā)明涉及的相似性計算裝置,由于可以由詞類縮小對象范圍,因而還具有可較高速而且有效地進行相似性計算的效果。
另一方面,根據(jù)本發(fā)明涉及的特定元素向量生成程序,可得到與特定元素向量生成裝置同等的效果。
另一方面,根據(jù)本發(fā)明涉及的字符串向量生成程序,可得到與的字符串向量生成裝置同等的效果。
另一方面,根據(jù)本發(fā)明涉及的相似性計算程序,可得到與相似性計算裝置同等的效果。
此外根據(jù)本發(fā)明涉及的相似性計算程序,可得到與相似性計算裝置同等的效果。
此外,根據(jù)本發(fā)明涉及的相似性計算程序,可得到與特定元素向量生成程序同等的效果。
此外,根據(jù)本發(fā)明涉及的相似性計算程序,可得到與字符串向量生成程序同等的效果。
另一方面,根據(jù)本發(fā)明涉及的特定元素向量生成方法,可得到與特定元素向量生成裝置同等的效果。
另一方面,根據(jù)本發(fā)明涉及的字符串向量生成方法,可得到與字符串向量生成裝置同等的效果。
另一方面,根據(jù)本發(fā)明涉及的相似性計算方法,可得到與相似性計算裝置同等的效果。
此外根據(jù)本發(fā)明涉及的相似性計算方法,可得到與相似性計算裝置同等的效果。
此外,根據(jù)本發(fā)明涉及的相似性計算方法,可得到與特定元素向量生成程序同等的效果。
此外,根據(jù)本發(fā)明涉及的相似性計算方法,可得到與字符串向量生成程序同等的效果。
權(quán)利要求
1.一種字符串向量生成裝置,是基于多個文本數(shù)據(jù)生成表示特定字符串特征的字符串向量的裝置,其特征在于具備基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成單元,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中出現(xiàn)上述各元素的數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述特定字符串是由詞素解析得到的詞素及根據(jù)規(guī)定規(guī)則切出的字符串的任意一個,還具備按上述各文本數(shù)據(jù)的每一個生成文件向量的文件向量生成單元,上述文件向量至少具有1個與上述特定字符串對應的元素,上述元素是與該文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述字符串向量生成單元基于由上述文件向量生成單元生成的文件向量來生成上述字符串向量,還具備用于存儲上述多個文本數(shù)據(jù)的文本數(shù)據(jù)存儲單元;對上述文本數(shù)據(jù)存儲單元的文本數(shù)據(jù)進行字符串解析的字符串解析單元,上述文件向量生成單元按由上述字符串解析單元解析的各字符串計算上述文本數(shù)據(jù)中的其字符串的第1出現(xiàn)頻率及上述多個文本數(shù)據(jù)中的其字符串的第2出現(xiàn)頻率,把具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量作為上述文件向量予以生成,對上述文本數(shù)據(jù)存儲單元的所有文本數(shù)據(jù)實施該文件向量的生成,上述字符串向量生成單元構(gòu)成集合由上述文件向量生成單元生成的文件向量并把上述文件向量成分作為了行及列中的一方的文件單詞矩陣,把上述文件單詞矩陣的行及列中的另一方成分從上述文件單詞矩陣抽出,把所抽出的成分的向量作為上述字符串向量生成。
2.一種字符串向量生成裝置,是基于多個文本數(shù)據(jù)生成表示特定字符串特征的字符串向量的裝置,其特征在于具備基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成單元,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中出現(xiàn)上述各元素的數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述特定字符串是由詞素解析得到的詞素及根據(jù)規(guī)定規(guī)則切出的字符串的任意一個,還具備按上述各文本數(shù)據(jù)的每一個生成文件向量的文件向量生成單元,上述文件向量至少具有1個與上述特定字符串對應的元素,上述元素是與該文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述字符串向量生成單元基于由上述文件向量生成單元生成的文件向量來生成上述字符串向量,還具備用于存儲上述多個文本數(shù)據(jù)的文本數(shù)據(jù)存儲單元,上述文本數(shù)據(jù)包含該文本數(shù)據(jù)中包含的字符串的解析結(jié)果或由單一的字符串組成,上述文件向量生成單元按上述文本數(shù)據(jù)中包含的各字符串計算該文本數(shù)據(jù)中其字符串的第1出現(xiàn)頻率及上述多個文本數(shù)據(jù)中其字符串的第2出現(xiàn)頻率,把具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量作為上述文件向量予以生成,對上述文本數(shù)據(jù)存儲單元的所有文本數(shù)據(jù)實施該文件向量的生成,上述字符串向量生成單元構(gòu)成集合由上述文件向量生成單元生成的文件向量并把上述文件向量成分作為了行及列中的一方的文件單詞矩陣,把上述文件單詞矩陣的行及列中的另一方成分從上述文件單詞矩陣抽出,把所抽出的成分的向量作為上述字符串向量生成。
3.權(quán)利要求1或2中的字符串向量生成裝置,其特征在于還具備用于存儲上述字符串向量的字符串向量存儲單元,上述字符串向量生成單元把所生成的字符串向量存儲到上述字符串向量存儲單元。
4.一種相似性計算裝置,是基于多個文本數(shù)據(jù)生成表示特定字符串特征的字符串向量,基于上述字符串向量計算針對上述特定字符串的相似性的裝置,其特征在于具備基于上述多個文本數(shù)據(jù)生成上述字符串向量的第1字符串向量生成單元;用于存儲由上述第1字符串向量生成單元生成的字符串向量的字符串向量存儲單元;輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入單元;基于由上述判定對象數(shù)據(jù)輸入單元輸入的判定對象數(shù)據(jù)生成上述字符串向量的第2字符串向量生成單元;基于由上述第2字符串向量生成單元生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算單元,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中出現(xiàn)上述各元素的數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
5.權(quán)利要求4中的相似性計算裝置,其特征在于上述特定字符串是由詞素解析得到的詞素及根據(jù)規(guī)定規(guī)則切出的字符串的任意一個。
6.權(quán)利要求4中的相似性計算裝置,其特征在于上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出。
7.權(quán)利要求5中的相似性計算裝置,其特征在于上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出。
8.權(quán)利要求7中的相似性計算裝置,其特征在于上述第2字符串向量生成單元當有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存儲單元中存在多個時,把這些字符串向量從上述字符串向量存儲單元讀出,基于所讀出的這些字符串向量生成單一的上述字符串向量。
9.權(quán)利要求8中的相似性計算裝置,其特征在于上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出,對所讀出的這些字符串向量計算同一維數(shù)的元素的平均值,生成把計算出的平均值分別作為元素值而擁有的字符串向量。
10.權(quán)利要求4至9任一中的相似性計算裝置,其特征在于上述字符串向量存儲單元把上述字符串向量與其單詞的分類屬性相關(guān)聯(lián)進行存儲,上述判定對象數(shù)據(jù)輸入單元輸入上述判定對象數(shù)據(jù)及分類屬性,上述第2字符串向量生成單元把有關(guān)與上述判定對象數(shù)據(jù)中包含的特定字符串相同的字符串的字符串向量從上述字符串向量存儲單元讀出,上述相似性計算單元把與由上述判定對象數(shù)據(jù)輸入單元輸入的分類屬性對應的字符串向量從上述字符串向量存儲單元讀出,基于所讀出的字符串向量及由上述字符串向量生成單元生成的字符串向量計算上述相似性。
11.權(quán)利要求10中的相似性計算裝置,其特征在于上述分類屬性是詞類。
12.一種字符串向量生成方法,是基于多個文本數(shù)據(jù)生成表示特定字符串特征的字符串向量的方法,其特征在于包含基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成步驟,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中出現(xiàn)上述各元素的數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述特定字符串是由詞素解析得到的詞素及根據(jù)規(guī)定規(guī)則切出的字符串的任意一個,還具備按上述各文本數(shù)據(jù)的每一個生成文件向量的文件向量生成步驟,上述文件向量至少具有1個與上述特定字符串對應的元素,上述元素是與該文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述字符串向量生成步驟基于由上述文件向量生成步驟生成的文件向量來生成上述字符串向量,還具備用于存儲上述多個文本數(shù)據(jù)的文本數(shù)據(jù)存儲步驟;對上述文本數(shù)據(jù)存儲步驟的文本數(shù)據(jù)進行字符串解析的字符串解析步驟,上述文件向量生成步驟按由上述字符串解析步驟解析的各字符串計算上述文本數(shù)據(jù)中的其字符串的第1出現(xiàn)頻率及上述多個文本數(shù)據(jù)中的其字符串的第2出現(xiàn)頻率,把具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量作為上述文件向量予以生成,對上述文本數(shù)據(jù)存儲步驟的所有文本數(shù)據(jù)實施該文件向量的生成,上述字符串向量生成步驟構(gòu)成集合由上述文件向量生成步驟生成的文件向量并把上述文件向量成分作為了行及列中的一方的文件單詞矩陣,把上述文件單詞矩陣的行及列中的另一方成分從上述文件單詞矩陣抽出,把所抽出的成分的向量作為上述字符串向量生成。
13.一種字符串向量生成方法,是基于多個文本數(shù)據(jù)生成表示特定字符串特征的字符串向量的方法,其特征在于包含基于上述多個文本數(shù)據(jù)生成上述字符串向量的字符串向量生成步驟,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中出現(xiàn)上述各元素的數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述特定字符串是由詞素解析得到的詞素及根據(jù)規(guī)定規(guī)則切出的字符串的任意一個,還具備按上述各文本數(shù)據(jù)的每一個生成文件向量的文件向量生成步驟,上述文件向量至少具有1個與上述特定字符串對應的元素,上述元素是與該文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值,上述字符串向量生成步驟基于由上述文件向量生成步驟生成的文件向量來生成上述字符串向量,還具備用于存儲上述多個文本數(shù)據(jù)的文本數(shù)據(jù)存儲步驟,上述文本數(shù)據(jù)包含該文本數(shù)據(jù)中包含的字符串的解析結(jié)果或由單一的字符串組成,上述文件向量生成步驟按上述文本數(shù)據(jù)中包含的各字符串計算該文本數(shù)據(jù)中其字符串的第1出現(xiàn)頻率及上述多個文本數(shù)據(jù)中其字符串的第2出現(xiàn)頻率,把具有與計算出的第1出現(xiàn)頻率成正比例并與第2出現(xiàn)頻率成反比例的值的元素的向量作為上述文件向量予以生成,對上述文本數(shù)據(jù)存儲步驟的所有文本數(shù)據(jù)實施該文件向量的生成,上述字符串向量生成步驟構(gòu)成集合由上述文件向量生成步驟生成的文件向量并把上述文件向量成分作為了行及列中的一方的文件單詞矩陣,把上述文件單詞矩陣的行及列中的另一方成分從上述文件單詞矩陣抽出,把所抽出的成分的向量作為上述字符串向量生成。
14.一種相似性計算方法,是基于多個文本數(shù)據(jù)生成表示特定字符串特征的字符串向量,基于上述字符串向量計算針對上述特定字符串的相似性的方法,其特征在于包含基于上述多個文本數(shù)據(jù)生成上述字符串向量的第1字符串向量生成步驟;把在上述第1字符串向量生成步驟生成的字符串向量存儲到字符串向量存儲單元的字符串向量存儲步驟;輸入包含成為相似判定對象的特定字符串的判定對象數(shù)據(jù)的判定對象數(shù)據(jù)輸入步驟;基于在上述判定對象數(shù)據(jù)輸入步驟輸入的判定對象數(shù)據(jù)生成上述字符串向量的第2字符串向量生成步驟;基于在上述第2字符串向量生成步驟生成的字符串向量及上述字符串向量存儲單元的字符串向量計算上述相似性的相似性計算步驟,上述字符串向量具有與上述各文本數(shù)據(jù)對應的元素,上述各元素是與上述多個文本數(shù)據(jù)中出現(xiàn)上述各元素的數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成正比例并與上述多個文本數(shù)據(jù)中的上述特定字符串的出現(xiàn)頻率成反比例的值。
全文摘要
首先,基于多個文本數(shù)據(jù)生成文件向量。文件向量具有與各詞素對應的元素,計算各元素使之成為與對應詞素的出現(xiàn)頻率對應的值。接著,基于對集合了所生成的文件向量的文件單詞矩陣的轉(zhuǎn)置矩陣生成單詞向量。因此單詞向量具有與各文本數(shù)據(jù)對應的元素,各元素成為與多個文本數(shù)據(jù)中對應的文本數(shù)據(jù)中的詞素的出現(xiàn)頻率成正比例并與多個文本數(shù)據(jù)中的詞素的出現(xiàn)頻率成反比例的值。然后基于單詞向量計算單詞的相似性。由此可提供一種適用于根據(jù)其出現(xiàn)頻率使單詞在相似性計算中無偏頗地反映,進而有效地計算單詞相似性的相似性計算裝置。
文檔編號G06F17/30GK1855103SQ20061008996
公開日2006年11月1日 申請日期2003年3月26日 優(yōu)先權(quán)日2002年3月27日
發(fā)明者萱原直樹 申請人:精工愛普生株式會社