專利名稱:數(shù)據(jù)管理以及文件數(shù)據(jù)檢索的裝置、方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索的裝置、程序及方法,特別是涉及適于從龐大數(shù)據(jù)中掌握有特征的部分、并且容易提高抽出可靠性且能即時(shí)對(duì)應(yīng)用戶要求的數(shù)據(jù)管理裝置、文件數(shù)據(jù)檢索裝置、數(shù)據(jù)管理程序和文件數(shù)據(jù)檢索程序以及數(shù)據(jù)管理方法和文件數(shù)據(jù)檢索方法。
現(xiàn)有技術(shù)在企業(yè)等,有時(shí)通過(guò)讓員工提交業(yè)務(wù)日志來(lái)管理業(yè)務(wù)的進(jìn)展情況。多數(shù)場(chǎng)合,業(yè)務(wù)日志形成的報(bào)告由一個(gè)上司對(duì)多個(gè)部下所提交的業(yè)務(wù)日志一個(gè)一個(gè)過(guò)目審閱。
但是,由于職務(wù)上的關(guān)系等,上司對(duì)所提交的所有業(yè)務(wù)日志不一定每天都能過(guò)目。另外,假設(shè)即使對(duì)所有的業(yè)務(wù)日志過(guò)目,在有限的時(shí)間內(nèi),能掌握的信息量總是有限的。從而,在審閱的業(yè)務(wù)日志量龐大時(shí),很難有效管理業(yè)務(wù)的進(jìn)展情況。
這種場(chǎng)合,為了有效管理業(yè)務(wù)進(jìn)展情況,上司需要從龐大的業(yè)務(wù)日志有效得到信息。因此,首先研究一下業(yè)務(wù)日志的性質(zhì)。業(yè)務(wù)日志以各員工每天的業(yè)務(wù)報(bào)告為主要內(nèi)容,因此,關(guān)于同一員工提交的業(yè)務(wù)日志,對(duì)作成時(shí)間接近的業(yè)務(wù)日志互相比較時(shí),內(nèi)容重復(fù)的部分多。對(duì)內(nèi)容重復(fù)的部分每天進(jìn)行過(guò)目是無(wú)效的。因而,如果上司對(duì)內(nèi)容重復(fù)的部分只掌握一次,對(duì)其后的業(yè)務(wù)日志只掌握有特征的部分(即有變化的部分),可以比較有效地得到信息。
作為這一問(wèn)題的解決方法可以提出如下構(gòu)成議案,例如,將業(yè)務(wù)日志作為文件數(shù)據(jù)累積于文件數(shù)據(jù)庫(kù)(以下,數(shù)據(jù)庫(kù)只簡(jiǎn)記為DB),可以從文件DB中只檢索有特征的部分。
迄今為止,作為從多個(gè)文件數(shù)據(jù)中進(jìn)行檢索的技術(shù),例如有特開(kāi)平7-325832號(hào)公報(bào)中公布的利用單詞規(guī)格圖形時(shí)間變化的檢索方法(以下,稱第1現(xiàn)有例)。另外,作為其相關(guān)技術(shù),例如有特開(kāi)平6-324871號(hào)公報(bào)中公布的推理裝置(以下,稱第2現(xiàn)有例)及特開(kāi)平5-53814號(hào)公報(bào)中公布的事例庫(kù)檢索系統(tǒng)作成支援裝置(以下,稱第3現(xiàn)有例)。
在第1現(xiàn)有例中,特征數(shù)據(jù)抽出部預(yù)先從文本信息抽出表示單詞用圖形時(shí)間變化的特征數(shù)據(jù)。當(dāng)用戶進(jìn)行檢索輸入時(shí),輸入處理部將用戶的檢索輸入轉(zhuǎn)換為在檢索處理部可解釋的表現(xiàn)形式、送往檢索處理部。檢索處理部利用文本信息及特征數(shù)據(jù)進(jìn)行檢索,檢索結(jié)果被送往輸出處理部,向用戶顯示。作為特征數(shù)據(jù),例如可以使用文本信息中單詞出現(xiàn)概率等各種統(tǒng)計(jì)量。
由此,可以利用從時(shí)間序列文本信息所抽出的特征數(shù)據(jù),在特定的領(lǐng)域、期間檢索成為話題的單詞及信息等,容易進(jìn)行高質(zhì)量的趨勢(shì)、動(dòng)向分析。
在第2現(xiàn)有例中,邏輯向量轉(zhuǎn)換部分別把存入到規(guī)則存入部的規(guī)則,存入到事例存入部的事例及由推理?xiàng)l件輸入部所輸入的推理?xiàng)l件轉(zhuǎn)換為邏輯向量的規(guī)則向量、事例向量及條件向量。不確定元素附加部向規(guī)則向量及事例向量附加不確定元素,分別作為不確定規(guī)則向量及不確定事例向量。另外,結(jié)果向量運(yùn)算部把不確定規(guī)則向量、不確定事例向量及條件向量的邏輯積作為結(jié)果向量。邏輯命題轉(zhuǎn)換部將結(jié)果向量轉(zhuǎn)換為不確定邏輯命題。不確定元素除去部從不確定邏輯命題除去不確定元素,作為確定邏輯命題。邏輯命題輸出部輸出確定邏輯命題。
由此,可以進(jìn)行推理效率好的知識(shí)獲得負(fù)擔(dān)少的推理。
第3現(xiàn)有例可將事例劃分為多部分來(lái)檢索相似性。向量劃分部與子向量相似性計(jì)算部相關(guān)聯(lián)。能進(jìn)行伴隨子向量化表現(xiàn)的附加操作。另外,實(shí)現(xiàn)了逐漸進(jìn)行系統(tǒng)性能提高時(shí)所使用的變更監(jiān)控器功能及變更比較功能。
由此,可以提供事例庫(kù)推理系統(tǒng)建立所需要的作成環(huán)境的必須功能。
這樣,在第1現(xiàn)有例中,是基于表示單詞用圖形時(shí)間變化的特征數(shù)據(jù)進(jìn)行檢索的,因此,例如可以抽出用戶所輸入的檢索單詞使用頻度高的文件數(shù)據(jù)。但是,要在重復(fù)內(nèi)容較多的文件數(shù)據(jù)群中抽出有特征的部分時(shí),如果在有特征的部分多數(shù)使用了特定單詞,也能抽出,但是未必多數(shù)使用了特定單詞。因此,不適于抽出有特征的部分,如在上述業(yè)務(wù)日志例中所見(jiàn),從龐大的信息中難以有效得到信息。
另外,將第2現(xiàn)有例應(yīng)用于文件數(shù)據(jù)檢索時(shí),基于專家所建立的規(guī)則進(jìn)行檢索。但是,為了提高抽出的可靠性,需要多累積專家建立的規(guī)則,但一般,知識(shí)DB的規(guī)則累積不容易。還有,規(guī)則累積需要時(shí)間,因此,難以適應(yīng)用戶的要求。
另外,在第3現(xiàn)有例中,只在事例屬性向量,事例的特征被平均化,漏掉潛在的適合事例時(shí),通過(guò)利用子向量、比較部分特征,能夠發(fā)現(xiàn)潛在的適合事例。但是,這到底是追求高精度進(jìn)行事例檢索的技術(shù),不適于在重復(fù)內(nèi)容較多的文件數(shù)據(jù)群中抽出有特征的部分,同樣,如在上述業(yè)務(wù)日志例中所見(jiàn),從龐大的信息中,難以有效得到信息。
這些問(wèn)題不限于上述業(yè)務(wù)日志例中所看到的那種文件數(shù)據(jù)的檢索,是在要從龐大信息中有效得到信息的所有場(chǎng)合設(shè)想的問(wèn)題。例如在管理圖像數(shù)據(jù)、音樂(lè)數(shù)據(jù)其它數(shù)據(jù)時(shí)也能發(fā)生。
發(fā)明內(nèi)容
于是,本發(fā)明是著眼于這種現(xiàn)有技術(shù)中存在的未解決的課題而展開(kāi)的,其目的是提供適于從龐大數(shù)據(jù)中掌握有特征的部分,容易提高抽出可靠性且能即時(shí)對(duì)應(yīng)用戶要求的數(shù)據(jù)管理裝置、文件數(shù)據(jù)檢索裝置、數(shù)據(jù)管理程序和文件數(shù)據(jù)檢索程序以及數(shù)據(jù)管理方法和文件數(shù)據(jù)檢索方法。
發(fā)明1為達(dá)到上述目的,發(fā)明1的數(shù)據(jù)管理裝置是管理多個(gè)數(shù)據(jù)的裝置,其特征在于包括特征數(shù)據(jù)抽出單元,其從上述多個(gè)數(shù)據(jù)抽出關(guān)于上述數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn)。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元從多個(gè)數(shù)據(jù)抽出關(guān)于數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù),由變化點(diǎn)特定單元基于所抽出的特征數(shù)據(jù)特定相似性的變化點(diǎn)。從而,用戶通過(guò)參照所特定的變化點(diǎn),可以從龐大的數(shù)據(jù)中比較容易地掌握有特征的部分。
發(fā)明2進(jìn)一步,發(fā)明2的數(shù)據(jù)管理裝置,其特征在于在發(fā)明1的數(shù)據(jù)管理裝置中,上述數(shù)據(jù)為文件數(shù)據(jù)。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元從多個(gè)文件數(shù)據(jù)抽出關(guān)于文件數(shù)據(jù)的內(nèi)容表示相似性的特征數(shù)據(jù),由變化點(diǎn)特定單元基于所抽出的特征數(shù)據(jù)特定相似性的變化點(diǎn)。從而,用戶通過(guò)參照所特定的變化點(diǎn),可以從龐大的文件數(shù)據(jù)中比較容易地掌握有特征的部分。
發(fā)明3另一方面,為了達(dá)到上述目的,發(fā)明3的文件數(shù)據(jù)檢索裝置是從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索的裝置,其特征在于包括文件數(shù)據(jù)存儲(chǔ)單元,其用于存儲(chǔ)上述多個(gè)文件數(shù)據(jù);特征數(shù)據(jù)抽出單元,其從上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于上述文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn);文件數(shù)據(jù)檢索單元,其以由上述變化點(diǎn)特定單元所特定的變化點(diǎn)為基礎(chǔ),從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索上述文件數(shù)據(jù)。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元從文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù),由變化點(diǎn)特定單元基于所抽出的特征數(shù)據(jù)特定相似性的變化點(diǎn)。然后,由文件數(shù)據(jù)檢索單元以所特定的變化點(diǎn)為基礎(chǔ),從文件數(shù)據(jù)存儲(chǔ)單元中檢索文件數(shù)據(jù)。
在這里,文件數(shù)據(jù)存儲(chǔ)單元用所有可能的單元、在所有可能的時(shí)期存儲(chǔ)文件數(shù)據(jù),既可以預(yù)先存儲(chǔ)文件數(shù)據(jù),又可以不預(yù)先存儲(chǔ)文件數(shù)據(jù),而在本裝置動(dòng)作時(shí),通過(guò)來(lái)自外部的輸入等來(lái)存儲(chǔ)文件數(shù)據(jù)。以下,在發(fā)明13的文件數(shù)據(jù)檢索程序中相同。
發(fā)明4進(jìn)一步,發(fā)明4的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明3的文件數(shù)據(jù)檢索裝置中,上述文件數(shù)據(jù)檢索單元從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索由上述變化點(diǎn)特定單元所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。
如果是這種構(gòu)成,由文件數(shù)據(jù)檢索單元從文件數(shù)據(jù)存儲(chǔ)單元中檢索所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。
發(fā)明5進(jìn)一步,發(fā)明5的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明3及4之一的文件數(shù)據(jù)檢索裝置中,
上述變化點(diǎn)特定單元基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),設(shè)定允許范圍,在上述相似性的時(shí)間推移中,特定超過(guò)上述允許范圍的點(diǎn)作為上述變化點(diǎn)。
如果是這種構(gòu)成,由變化點(diǎn)特定單元基于所抽出的特征數(shù)據(jù),設(shè)定允許范圍,在相似性時(shí)間推移中特定超過(guò)允許范圍的點(diǎn)作為變化點(diǎn)。
發(fā)明6進(jìn)一步,發(fā)明6的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明3至5之一的文件數(shù)據(jù)檢索裝置中,上述特征數(shù)據(jù)抽出單元將上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)按每一規(guī)定期間進(jìn)行區(qū)分,按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于在時(shí)間序列上鄰接的期間文件數(shù)據(jù)算出上述相似性,基于算出的相似性生成上述特征數(shù)據(jù)。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元按每一規(guī)定期間區(qū)分文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù),按各區(qū)分生成期間文件數(shù)據(jù)。期間文件數(shù)據(jù)作為合并了屬于一個(gè)區(qū)分的文件數(shù)據(jù)內(nèi)容被生成。然后,關(guān)于在時(shí)間序列上鄰接的期間文件數(shù)據(jù)算出相似性,基于算出的相似性生成特征數(shù)據(jù)。
發(fā)明7進(jìn)一步,發(fā)明7的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明3至5之一的文件數(shù)據(jù)檢索裝置中,上述特征數(shù)據(jù)抽出單元將上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)按每一規(guī)定期間進(jìn)行區(qū)分,按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于所生成的期間文件數(shù)據(jù)相互之間算出上述相似性,基于算出的相似性生成上述特征數(shù)據(jù)。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元按每一規(guī)定期間區(qū)分文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù),按各區(qū)分生成期間文件數(shù)據(jù)。期間文件數(shù)據(jù)作為合并了屬于一個(gè)區(qū)分的文件數(shù)據(jù)內(nèi)容被生成。然后,關(guān)于所生成的期間文件數(shù)據(jù)相互之間算出相似性,基于算出的相似性,生成特征數(shù)據(jù)。
發(fā)明8進(jìn)一步,發(fā)明8的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明6及7之一的文件數(shù)據(jù)檢索裝置中,上述特征數(shù)據(jù)抽出單元算出表示上述期間文件數(shù)據(jù)內(nèi)容特征的文件向量,通過(guò)比較算出的文件向量算出上述相似性。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元算出表示期間文件數(shù)據(jù)內(nèi)容特征的文件向量,通過(guò)比較所算出的文件向量,算出相似性。
發(fā)明9進(jìn)一步,發(fā)明9的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明8的文件數(shù)據(jù)檢索裝置中,上述特征數(shù)據(jù)抽出單元對(duì)上述期間文件數(shù)據(jù)進(jìn)行詞素解析,按各詞素作為上述文件向量生成具有作為向量的量的與上述期間文件數(shù)據(jù)中其詞素出現(xiàn)頻度對(duì)應(yīng)的元素的向量。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元對(duì)期間文件數(shù)據(jù)進(jìn)行詞素解析,按各詞素作為文件向量生成具有作為向量的量的與期間文件數(shù)據(jù)中其詞素出現(xiàn)頻度對(duì)應(yīng)的元素的向量。在成為比較對(duì)象的期間文件數(shù)據(jù)間不共同的詞素出現(xiàn)在任一文件數(shù)據(jù)的場(chǎng)合,任一文件數(shù)據(jù)中包含有特征的部分的可能性大。從而,這樣,對(duì)應(yīng)期間文件數(shù)據(jù)中詞素出現(xiàn)頻度算出相似性,對(duì)從龐大的文件數(shù)據(jù)中檢索有特征的部分是有效的。
發(fā)明10進(jìn)一步,發(fā)明10的文件數(shù)據(jù)檢索裝置,其特征在于在發(fā)明6至9之一的文件數(shù)據(jù)檢索裝置中,上述特征數(shù)據(jù)抽出單元從上述各期間文件數(shù)據(jù)除去在上述各期間文件數(shù)據(jù)中共同的內(nèi)容,基于實(shí)施了除去的期間文件數(shù)據(jù),算出上述相似性。
如果是這種構(gòu)成,由特征數(shù)據(jù)抽出單元從各期間文件數(shù)據(jù)除去在各期間文件數(shù)據(jù)中共同的內(nèi)容,基于實(shí)施了除去的期間文件數(shù)據(jù),算出相似性。
發(fā)明11另一方面,為了達(dá)到上述目的,發(fā)明11的數(shù)據(jù)管理程序是管理多個(gè)數(shù)據(jù)的程序,其特征在于使計(jì)算機(jī)執(zhí)行作為以下各單元所實(shí)現(xiàn)的處理,特征數(shù)據(jù)抽出單元,其從上述多個(gè)數(shù)據(jù)抽出關(guān)于上述數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn)。
如果是這種構(gòu)成,由計(jì)算機(jī)讀取程序,當(dāng)計(jì)算機(jī)按照所讀取的程序執(zhí)行處理時(shí),則得到與發(fā)明1的數(shù)據(jù)管理裝置同等的作用。
發(fā)明12進(jìn)一步,發(fā)明12的數(shù)據(jù)管理程序,其特征在于在發(fā)明11的數(shù)據(jù)管理程序中,上述數(shù)據(jù)為文件數(shù)據(jù)。
如果是這種構(gòu)成,由計(jì)算機(jī)讀取程序,當(dāng)計(jì)算機(jī)按照所讀取的程序執(zhí)行處理時(shí),則得到與發(fā)明2的數(shù)據(jù)管理裝置同等的作用。
發(fā)明13另一方面,為了達(dá)到上述目的,發(fā)明13的文件數(shù)據(jù)檢索程序,是用于從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索的程序,其特征在于針對(duì)可利用存儲(chǔ)上述多個(gè)文件數(shù)據(jù)用的文件數(shù)據(jù)存儲(chǔ)單元的計(jì)算機(jī),使其執(zhí)行作為以下各單元所實(shí)現(xiàn)的處理,特征數(shù)據(jù)抽出單元,其從上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于上述文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn);文件數(shù)據(jù)檢索單元,其以由上述變化點(diǎn)特定單元所特定的變化點(diǎn)為基礎(chǔ),從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索上述文件數(shù)據(jù)。
如果是這種構(gòu)成,由計(jì)算機(jī)讀取程序,當(dāng)計(jì)算機(jī)按照所讀取的程序執(zhí)行處理時(shí),則可得到與發(fā)明3的數(shù)據(jù)管理裝置同等的作用。
發(fā)明14另一方面,為了達(dá)到上述目的,發(fā)明14的數(shù)據(jù)管理方法是管理多個(gè)數(shù)據(jù)的方法,其特征在于包含特征數(shù)據(jù)抽出步驟,其從上述多個(gè)數(shù)據(jù)抽出關(guān)于上述數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù);變化點(diǎn)特定步驟,其基于由上述特征數(shù)據(jù)抽出步驟所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn)。
發(fā)明15進(jìn)一步,發(fā)明15的數(shù)據(jù)管理方法,其特征在于在發(fā)明14的數(shù)據(jù)管理方法中,上述數(shù)據(jù)為文件數(shù)據(jù)。
發(fā)明16另一方面,為了達(dá)到上述目的,發(fā)明16的文件數(shù)據(jù)檢索方法是用于從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索的方法,其特征在于包含文件數(shù)據(jù)存儲(chǔ)步驟,其將上述多個(gè)文件數(shù)據(jù)存儲(chǔ)到文件數(shù)據(jù)存儲(chǔ)單元;特征數(shù)據(jù)抽出步驟,其從上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于上述文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù);變化點(diǎn)特定步驟,其基于由上述特征數(shù)據(jù)抽出步驟所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn);文件數(shù)據(jù)檢索步驟,其以由上述變化點(diǎn)特定步驟所特定的變化點(diǎn)為基礎(chǔ),從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索上述文件數(shù)據(jù)。
圖1是表示應(yīng)用本發(fā)明的計(jì)算機(jī)100構(gòu)成的框圖。
圖2是表示文件向量計(jì)算處理的流程圖。
圖3是表示生成期間文件數(shù)據(jù)的場(chǎng)合的圖。
圖4是表示生成期間文件數(shù)據(jù)的場(chǎng)合的圖。
圖5是表示文件向量構(gòu)成的圖。
圖6是表示文件數(shù)據(jù)檢索處理的流程圖。
圖7是表示特征數(shù)據(jù)的圖。
圖8是表示相似性時(shí)間推移的曲線圖。
圖9是表示相似性時(shí)間推移的曲線圖。
圖10是用于說(shuō)明根據(jù)2元分析檢索文件數(shù)據(jù)的場(chǎng)合的圖。
圖11是用于說(shuō)明根據(jù)文件向量的軌跡預(yù)測(cè)特定變化點(diǎn)的場(chǎng)合的圖。
符號(hào)說(shuō)明100計(jì)算機(jī)30 CPU32 ROM34 RAM38 I/F
40輸入裝置42顯示裝置44文件數(shù)據(jù)登錄DB實(shí)施方式以下,參照
本發(fā)明的實(shí)施方式。圖1到圖9是表示本發(fā)明相關(guān)的數(shù)據(jù)管理裝置、文件數(shù)據(jù)檢索裝置、數(shù)據(jù)管理程序和文件數(shù)據(jù)檢索程序以及數(shù)據(jù)管理方法和文件數(shù)據(jù)檢索方法實(shí)施方式的圖。
如圖1所示,本實(shí)施方式是將本發(fā)明相關(guān)的數(shù)據(jù)管理裝置,文件數(shù)據(jù)檢索裝置、數(shù)據(jù)管理程序和文件數(shù)據(jù)檢索程序以及數(shù)據(jù)管理方法和文件數(shù)據(jù)檢索方法應(yīng)用于通過(guò)計(jì)算機(jī)100從多個(gè)文件數(shù)據(jù)中檢索有特征的文件數(shù)據(jù)的場(chǎng)合。
首先參照?qǐng)D1說(shuō)明應(yīng)用本發(fā)明的計(jì)算機(jī)100的構(gòu)成。圖1是表示應(yīng)用本發(fā)明的計(jì)算機(jī)100構(gòu)成的框圖。
如圖1所示,計(jì)算機(jī)100由以下部分構(gòu)成,CPU30,其基于控制程序控制運(yùn)算和系統(tǒng)整體;ROM32,其將CPU30的控制程序等預(yù)先存入規(guī)定區(qū)域;RAM34,其用于存入從ROM32等所讀出的數(shù)據(jù)或在CPU30運(yùn)算過(guò)程所需要的運(yùn)算結(jié)果;I/F38,其針對(duì)部裝置通過(guò)數(shù)據(jù)的輸入輸出,這些的連接通過(guò)轉(zhuǎn)送數(shù)據(jù)用的信號(hào)線即總線39,能相互進(jìn)行數(shù)據(jù)交流。
在I/F38作為外部裝置連接有以下裝置,輸入裝置40,作為人機(jī)接口,由可輸入數(shù)據(jù)的鍵盤和鼠標(biāo)等構(gòu)成;顯示裝置42,基于圖像信號(hào)顯示畫面;文件數(shù)據(jù)登錄DB44,存入文件數(shù)據(jù)。
文件數(shù)據(jù)登錄DB44例如按各員工存入與業(yè)務(wù)日志有關(guān)的文件數(shù)據(jù)。從而,在文件數(shù)據(jù)登錄DB44存入作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)。
CPU30由微處理單元MPU等構(gòu)成,啟動(dòng)存入到ROM32規(guī)定區(qū)域的規(guī)定程序,按照其程序分別分時(shí)執(zhí)行圖2及圖6的流程圖中所示的文件向量計(jì)算處理及文件數(shù)據(jù)檢索處理。
首先,參照?qǐng)D2詳細(xì)說(shuō)明文件向量計(jì)算處理。圖2是表示文件向量計(jì)算處理的流程圖。
文件向量計(jì)算處理是算出文件數(shù)據(jù)檢索所需要的文件向量的處理,當(dāng)在CPU30中執(zhí)行時(shí),如圖2所示,首先轉(zhuǎn)移到步驟S100。
在步驟S100,判定在文件數(shù)據(jù)登錄DB44是否作成了新的文件數(shù)據(jù),判定作成了新的文件數(shù)據(jù)時(shí)(Yes是),轉(zhuǎn)移到步驟S102。
在步驟S102,從文件數(shù)據(jù)編目DB44讀出屬于自基準(zhǔn)時(shí)間規(guī)定期間(例如1個(gè)月)的文件數(shù)據(jù),轉(zhuǎn)移到步驟S104,生成合并了所讀出的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù)。在步驟S104,例如,員工作成文件數(shù)據(jù)的間隔為1日單位、上司審閱文件數(shù)據(jù)的間隔為1個(gè)月單位的場(chǎng)合,如圖3(a)、(b)所示,如果是1月作成的文件數(shù)據(jù),將這些改排為作成時(shí)間順序,通過(guò)單純結(jié)合,生成1月份的期間文件數(shù)據(jù)。另外,例如,員工作成文件數(shù)據(jù)的間隔為1個(gè)月單位、上司審閱文件數(shù)據(jù)的間隔同樣為1個(gè)月單位的場(chǎng)合,如圖4所示,1月只作成了1個(gè)文件數(shù)據(jù)時(shí),將其直接作為1月份的期間文件數(shù)據(jù);1月作成了多個(gè)文件數(shù)據(jù)時(shí),通過(guò)將這些結(jié)合,生成1月份的期間文件數(shù)據(jù)。圖3及圖4是表示生成期間文件數(shù)據(jù)的場(chǎng)合的圖。
接著,轉(zhuǎn)移到步驟S106,將所生成的期間文件數(shù)據(jù)存入文件數(shù)據(jù)登錄DB44,轉(zhuǎn)移到步驟S108,判定關(guān)于文件數(shù)據(jù)登錄DB44的所有文件數(shù)據(jù)期間文件數(shù)據(jù)生成結(jié)束了否,判定期間文件數(shù)據(jù)生成結(jié)束時(shí)(Yes 是),轉(zhuǎn)移到步驟S110。
在步驟S110,對(duì)所有期間文件數(shù)據(jù)進(jìn)行詞素解析,取得任一期間文件數(shù)據(jù)中出現(xiàn)的所有種類的詞素,轉(zhuǎn)移到步驟S112,將開(kāi)頭的期間文件數(shù)據(jù)從文件數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)移到步驟S114,按在步驟S110所取得的各詞素,算出所讀出的期間文件數(shù)據(jù)中其詞素的出現(xiàn)頻度,轉(zhuǎn)移到步驟S116,作為文件向量算出具有作為向量的量的與算出的出現(xiàn)頻度對(duì)應(yīng)的元素的向量。在這里,參照?qǐng)D5說(shuō)明文件向量的算出方法。圖5是表示文件向量的構(gòu)成的圖。
首先,如圖5所示,文件向量可以由下式(1)表現(xiàn)、作為n元向量。一般,n為在對(duì)所有期間文件數(shù)據(jù)進(jìn)行詞素解析時(shí)所得到的不重復(fù)單詞數(shù)。由TFIDF(Term Frequency&Inverse Document Frequency)求各單詞的加權(quán)W。
數(shù)式1D=(W1,W2,…,Wn) …(1)TFIDF根據(jù)下式(2)由在期間文件數(shù)據(jù)內(nèi)的單詞出現(xiàn)頻度(TFTerm Frequency)與使用了在期間文件數(shù)據(jù)整體的該單詞的期間文件數(shù)據(jù)數(shù)頻度的倒數(shù)(IDFInverse Doxument Frequency)之積來(lái)求,數(shù)值越大,表示該單詞越重要。TF是常出現(xiàn)的單詞重要這一指標(biāo),如下式(3)所示,具有當(dāng)某期間文件數(shù)據(jù)中單詞出現(xiàn)的頻度增加則大的性質(zhì)。IDF是多個(gè)期間文件數(shù)據(jù)中出現(xiàn)的單詞不重要、即特定期間文件數(shù)據(jù)中出現(xiàn)的單詞重要這一指標(biāo),如下式(4)~(6)所示,具有當(dāng)使用某單詞的期間文件數(shù)據(jù)數(shù)減少則變大的性質(zhì)。從而,TFIDF的值具有針對(duì)常出現(xiàn)而在多個(gè)期間文件數(shù)據(jù)中出現(xiàn)的單詞(接續(xù)詞、助詞等)或針對(duì)只在特定期間文件數(shù)據(jù)中出現(xiàn)而在其期間文件數(shù)據(jù)中頻度也小的單詞則變小、反之,針對(duì)特定期間文件數(shù)據(jù)中以高頻度出現(xiàn)的單詞則變大的性質(zhì)。由于TFIDF,期間文件數(shù)據(jù)內(nèi)的單詞被數(shù)值化,能夠以該數(shù)值為元素,期間文件數(shù)據(jù)向量化。
數(shù)式2W(t,d)=TF(t,d)×IDF(t) ……(2)數(shù)式3TF(t,d)=在期間文件數(shù)據(jù)d中單詞t出現(xiàn)的頻度……(3)數(shù)式4IDF(t)=log(DDF(t))---(4)]]>數(shù)式5DF(t)=在期間文件數(shù)據(jù)整體中單詞t出現(xiàn)的期間文件數(shù)據(jù)數(shù)的頻度…(5)數(shù)式6D=全期間文件數(shù)據(jù)數(shù) ……(6)接著,轉(zhuǎn)移到步驟S118,將算出的文件向量存入到文件數(shù)據(jù)登錄DB44,轉(zhuǎn)移到步驟S120,判定關(guān)于所有期間文件數(shù)據(jù)步驟S112~S118的處理是否結(jié)束,當(dāng)判定關(guān)于所有期間文件數(shù)據(jù)處理結(jié)束時(shí)(Yes是),結(jié)束一系列的處理,返回到原處理。
另一方面,在步驟S120,判定關(guān)于所有期間文件數(shù)據(jù)步驟S112~S118的處理沒(méi)結(jié)束時(shí)(No否),轉(zhuǎn)移到步驟S122,將下一期間文件數(shù)據(jù)從文件數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)移到步驟S114。
另一方面,在步驟S108,判定關(guān)于文件數(shù)據(jù)登錄DB44的所有文件數(shù)據(jù)期間文件數(shù)據(jù)的生成沒(méi)結(jié)束時(shí)(No否),轉(zhuǎn)移到步驟S124,將屬于下一規(guī)定期間的文件數(shù)據(jù)從文件數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)移到步驟S104。
再一方面,在步驟S100,判定在文件數(shù)據(jù)登錄DB44沒(méi)有作成新的文件數(shù)據(jù)時(shí)(No否),轉(zhuǎn)移到步驟S126,判定文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù)是否被更新,判定文件數(shù)據(jù)被更新時(shí)(Yes是),轉(zhuǎn)移到步驟S102,判定未被更新時(shí)(No否),轉(zhuǎn)移到步驟S100。
接著,參照?qǐng)D6詳細(xì)說(shuō)明文件數(shù)據(jù)檢索處理。圖6是表示文件數(shù)據(jù)檢索處理的流程圖。
文件數(shù)據(jù)檢索處理是特定關(guān)于在時(shí)間序列上鄰接的期間文件數(shù)據(jù)相似性變化點(diǎn)、從文件數(shù)據(jù)登錄DB44中檢索屬于所特定的變化點(diǎn)的文件數(shù)據(jù)的處理,當(dāng)在CPU30中執(zhí)行時(shí),如圖6所示,首先轉(zhuǎn)移到步驟S200。
在步驟S200,判定輸入了來(lái)自用戶的檢索要求否,判定輸入了檢索要求時(shí)(Yes是),轉(zhuǎn)移到步驟S202,判定沒(méi)有輸入時(shí)(No否),在步驟S100待機(jī),直到輸入檢索要求為止。另外,這里所說(shuō)的檢索要求并非檢索關(guān)鍵字或文章,而是對(duì)計(jì)算機(jī)100提出應(yīng)檢索的要求。
在步驟S202,將開(kāi)頭的期間文件數(shù)據(jù)的文件向量從文件數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)移到步驟S204,將與所讀出的文件向量相關(guān)的期間文件數(shù)據(jù)中在時(shí)間序列上鄰接的期間文件數(shù)據(jù)(在時(shí)間上與新的一方鄰接的期間文件數(shù)據(jù))的文件向量從文件數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)移到步驟S206。
在步驟S206,通過(guò)使用所讀出的2個(gè)文件向量進(jìn)行向量運(yùn)算,算出與這些相關(guān)的期間文件數(shù)據(jù)的相似性?;谙蛄窟\(yùn)算的相似性的計(jì)算被稱為向量檢索技術(shù),通過(guò)反映單詞的重要性進(jìn)行數(shù)值化的TFIDF和由此計(jì)算向量化了的文件相似性的向量空間模型來(lái)實(shí)現(xiàn)。例如,以所讀出的2個(gè)文件向量為文件向量D1、D2的場(chǎng)合,相似性可以由下式(7)作為文件向量D1、D2之間形成的角的余弦值(0~1)算出。
數(shù)式7 接著轉(zhuǎn)移到步驟S208,判定關(guān)于所有文件向量步驟S204、S206的處理結(jié)束了否,判定關(guān)于所有文件向量處理結(jié)束時(shí)(Yes是),轉(zhuǎn)移到步驟S210。
在步驟S210,基于在步驟S206所算出的1或多個(gè)期間文件數(shù)據(jù)的相似性,生成關(guān)于這些期間文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù)。如圖7所示,以圖3的例為對(duì)象的場(chǎng)合,特征數(shù)據(jù)被生成作為文件向量之間形成的角的余弦值(0~1)。圖7是表示特征數(shù)據(jù)的圖。
接著,轉(zhuǎn)移到步驟S211,基于所生成的特征數(shù)據(jù),特定相似性的變化點(diǎn)。具體說(shuō),基于所生成的特征數(shù)據(jù),設(shè)定允許范圍,特定在相似性時(shí)間推移中超過(guò)允許范圍的點(diǎn)作為變化點(diǎn)。例如,如圖8所示,可以根據(jù)相似性的平均值及分散求形成臨界線的2條水平線、設(shè)定由這些臨界線所圍起的區(qū)域作為允許范圍。這種場(chǎng)合,因?yàn)槠陂g文件數(shù)據(jù)PX的相似性超過(guò)了該允許范圍,所以將其特定作為變化點(diǎn)。另外,例如,如圖9所示,也可以根據(jù)相似性的平均值及分散求沿相似性推移曲線的2條近似曲線、設(shè)定由這些近似曲線所圍起的區(qū)域作為允許范圍。這種場(chǎng)合,同樣,因?yàn)槠陂g文件數(shù)據(jù)PX的相似性超過(guò)了該允許范圍,所以將其特定作為變化點(diǎn)。圖8及圖9是表示相似性時(shí)間推移的曲線圖。
接著,轉(zhuǎn)移到步驟S212,從文件數(shù)據(jù)登錄DB44中檢索所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。在圖3的例中,例如,在10月和11月之間存在相似性變化點(diǎn)的場(chǎng)合,可知從10月轉(zhuǎn)移到11月時(shí),業(yè)務(wù)內(nèi)容發(fā)生了變化,因此,可以按照小的日期順序檢索11月業(yè)務(wù)日志的文件數(shù)據(jù)。
接著,轉(zhuǎn)移到步驟S214,將由檢索所抽出的文件數(shù)據(jù)改排為相似性高的順序,生成文件數(shù)據(jù)一覽,轉(zhuǎn)移到步驟S216,將所生成的文件數(shù)據(jù)一覽顯示于顯示裝置42,結(jié)束一系列處理,返回到原處理。
另一方面,在步驟S208,判定關(guān)于所有文件向量步驟S204、S206的處理沒(méi)結(jié)束時(shí)(No否),轉(zhuǎn)移到步驟S218,將下一期間文件數(shù)據(jù)的文件向量從文件數(shù)據(jù)登錄DB44讀出,轉(zhuǎn)移到步驟S204。
下面,說(shuō)明本實(shí)施方式的動(dòng)作。
在某企業(yè)等,通過(guò)讓員工提交業(yè)務(wù)日志來(lái)管理業(yè)務(wù)的進(jìn)展情況。由業(yè)務(wù)日志形成的報(bào)告由一個(gè)上司對(duì)多個(gè)部下所提交的業(yè)務(wù)日志一一過(guò)目審閱。各員工作成記載了每天業(yè)務(wù)情況的業(yè)務(wù)日?qǐng)?bào)作為文件數(shù)據(jù),將所作成的文件數(shù)據(jù)添附于郵件,寄送給上司同時(shí)登錄于文件數(shù)據(jù)登錄DB44。
首先說(shuō)明根據(jù)各員工所作成的文件數(shù)據(jù)作成文件向量的場(chǎng)合。
當(dāng)作成文件數(shù)據(jù),經(jīng)步驟S100~S106,屬于自基準(zhǔn)時(shí)間規(guī)定期間(例如1個(gè)月)的文件數(shù)據(jù)被從文件數(shù)據(jù)登錄DB44讀出,生成合并了所讀出的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),所生成的期間文件數(shù)據(jù)被存入文件數(shù)據(jù)登錄DB44。然后,反復(fù)經(jīng)過(guò)步驟S102、S104,進(jìn)行關(guān)于文件數(shù)據(jù)登錄DB44的所有文件數(shù)據(jù)期間文件數(shù)據(jù)的生成和存入。
當(dāng)生成關(guān)于所有文件數(shù)據(jù)期間文件數(shù)據(jù),經(jīng)步驟S110,對(duì)所有期間文件數(shù)據(jù)進(jìn)行詞素解析,取得任一期間文件數(shù)據(jù)中出現(xiàn)的所有種類詞素。接著,經(jīng)步驟S112~S118,開(kāi)頭的期間文件數(shù)據(jù)被從文件數(shù)據(jù)登錄DB44讀出,按所取得的各詞素算出所讀出的期間文件數(shù)據(jù)中其詞素的出現(xiàn)頻度,作為文件向量算出具有作為向量的量的與所算出的出現(xiàn)頻度對(duì)應(yīng)的元素的向量。然后,反復(fù)經(jīng)過(guò)步驟S114~S118,進(jìn)行關(guān)于所有期間文件數(shù)據(jù)出現(xiàn)頻度的算出及文件向量的算出和存入。
下面,說(shuō)明上司審閱各員工所寄送來(lái)的文件數(shù)據(jù)的場(chǎng)合。
上司在審閱文件數(shù)據(jù)前首先輸入檢索要求。當(dāng)檢索要求被輸入,經(jīng)步驟S200~S206,開(kāi)關(guān)的期間文件數(shù)據(jù)的文件向量被從文件數(shù)據(jù)登錄DB44讀出,與所讀出的文件向量相關(guān)的期間文件數(shù)據(jù)中在時(shí)間序列上鄰接的期間文件數(shù)據(jù)的文件向量被從文件數(shù)據(jù)登錄DB44讀出,通過(guò)使用所讀出的2個(gè)文件向量進(jìn)行向量運(yùn)算,算出與這些相關(guān)的期間文件數(shù)據(jù)的相似性。然后,反復(fù)經(jīng)過(guò)步驟S204、S206,進(jìn)行關(guān)于所有文件向量鄰接文件向量的讀出和相似性的算出。
當(dāng)算出關(guān)于所有文件向量相似性,經(jīng)步驟S210、S211,基于所算出的1或多個(gè)期間文件數(shù)據(jù)的相似性,生成關(guān)于這些期間文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù),基于所生成的特征數(shù)據(jù),特定相似性的變化點(diǎn)。接著,經(jīng)步驟212,從文件數(shù)據(jù)登錄DB44中檢索所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。其結(jié)果,當(dāng)該文件數(shù)據(jù)被抽出,經(jīng)步驟S214、S216,由檢索所抽出的文件數(shù)據(jù)按相似性高的順序被改排,生成文件數(shù)據(jù)一覽,所生成的文件數(shù)據(jù)一覽被顯示于顯示裝置42。
作為檢索結(jié)果顯示于顯示裝置42的文件數(shù)據(jù)為相似性的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù),即是認(rèn)為業(yè)務(wù)內(nèi)容有變化時(shí)的文件數(shù)據(jù),因此,上司對(duì)所有文件數(shù)據(jù)過(guò)目困難的場(chǎng)合,可以從由檢索所抽出的文件數(shù)據(jù)優(yōu)先審閱,由此,審閱的業(yè)務(wù)日志量即使龐大的場(chǎng)合,也可以有效管理業(yè)務(wù)的進(jìn)展情況。
這樣,在本實(shí)施方式中,從文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù)抽出關(guān)于文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù),基于所抽出的特征數(shù)據(jù)特定相似性的變化點(diǎn),以所特定的變化點(diǎn)為基礎(chǔ),從文件數(shù)據(jù)登錄DB44中檢索文件數(shù)據(jù)。
由此,用戶通過(guò)參照由檢索所抽出的文件數(shù)據(jù),可以從龐大的文件數(shù)據(jù)中比較容易地掌握有特征的部分,另外,因?yàn)閺亩鄠€(gè)文件數(shù)據(jù)抽出特征數(shù)據(jù),所以與累積專家所建立的規(guī)則的場(chǎng)合相比,容易提高抽出的可靠性,而且可以比較適應(yīng)用戶的要求。
進(jìn)一步,在本實(shí)施方式中,從文件數(shù)據(jù)登錄DB44中檢索所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。
由此,因?yàn)樽兓c(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)被檢索,所以用戶可以從寵大的文件數(shù)據(jù)中更加容易地掌握有特征的部分。
進(jìn)一步,在本實(shí)施方式中,基于所抽出的特征數(shù)據(jù),設(shè)定允許范圍,特定在相似性的時(shí)間推移中超過(guò)允許范圍的點(diǎn)作為變化點(diǎn)。
由此,可以統(tǒng)一進(jìn)行變化點(diǎn)的特定,因此,比較容易特定變化點(diǎn)。
進(jìn)一步,在本實(shí)施方式中,按每一規(guī)定期間區(qū)分文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù),按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于在時(shí)間序列上鄰接的期間文件數(shù)據(jù)算出相似性,基于所算出的相似性生成特征數(shù)據(jù)。
由此,在時(shí)間序列上看文件數(shù)據(jù)的關(guān)系時(shí),用戶可以比較容易地掌握有特征的部分。
進(jìn)一步,在本實(shí)施方式中,對(duì)期間文件數(shù)據(jù)進(jìn)行詞素解析,按各詞素作為文件向量生成具有作為向量的量的與期間文件數(shù)據(jù)中其詞素出現(xiàn)頻度對(duì)應(yīng)的元素的向量。
由此,對(duì)應(yīng)期間文件數(shù)據(jù)中詞素出頻度算出相似性,因此,能夠以比較結(jié)合實(shí)際情況的形式算出相似性,用戶可以從龐大的文件數(shù)據(jù)中更加容易地掌握有特征的部分。
進(jìn)一步,在本實(shí)施方式中,在文件向量的角度計(jì)算中,如上式(7)所示,只計(jì)算相同元數(shù)之間的加權(quán)W不是「0」的部分。
由此,可以使計(jì)算省略化。
在上述實(shí)施方式中,文件數(shù)據(jù)登錄DB44對(duì)應(yīng)發(fā)明3、4、6、13或16的文件數(shù)據(jù)存儲(chǔ)單元,步驟S210對(duì)應(yīng)發(fā)明1、3、5、6、8、9、11或13的特征數(shù)據(jù)抽出單元,或者對(duì)應(yīng)發(fā)明14或16的特征數(shù)據(jù)抽出步驟。另外,步驟S211對(duì)應(yīng)發(fā)明1、3到5、11或13的變化點(diǎn)特定單元,或者對(duì)應(yīng)發(fā)明14或16的變化點(diǎn)特定步驟,步驟S212對(duì)應(yīng)發(fā)明3、4或13的文件數(shù)據(jù)檢索單元,或者對(duì)應(yīng)發(fā)明16的文件數(shù)據(jù)檢索步驟。
另外,在上述實(shí)施方式中,構(gòu)成為按每一規(guī)定期間區(qū)分文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù),按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于在時(shí)間序列上鄰接的期間文件數(shù)據(jù)算出相似性,基于所算出的相似性生成特征數(shù)據(jù)。但不限于此,如圖10所示,也可以構(gòu)成為按每一規(guī)定期間區(qū)分文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù),按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于所生成的期間文件數(shù)據(jù)的相互算出相似性,基于所算出的相似性生成特征數(shù)據(jù)。圖10是用于說(shuō)明根據(jù)2元分析檢索文件數(shù)據(jù)的場(chǎng)合的圖。
如上述實(shí)施方式,只在鄰接期間互相比較,緩慢變化的場(chǎng)合才可能納入穩(wěn)定狀態(tài)。作為分析方法,雖然多少需要些成本,但當(dāng)進(jìn)行圖10所示那樣的2元分析,也可以檢出緩慢的變化。當(dāng)然,不限于進(jìn)行2元分析,將此想法展開(kāi),也可以進(jìn)行3元以上的多元分析。
由此,按每一規(guī)定期間互相看文件數(shù)據(jù)的關(guān)系時(shí),用戶可以比較容易地掌握有特征的部分。
在這種場(chǎng)合,文件數(shù)據(jù)登錄DB44對(duì)應(yīng)發(fā)明7的文件數(shù)據(jù)存儲(chǔ)單元,步驟S210對(duì)應(yīng)發(fā)明7的特征數(shù)據(jù)抽出單元。
另外,在上述實(shí)施方式中,構(gòu)成為按每一規(guī)定期間區(qū)分文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù),按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),基于所生成的期間文件數(shù)據(jù)算出相似性,但不限于此,也可以構(gòu)成為從各期間文件數(shù)據(jù)除去在各期間文件數(shù)據(jù)中共同的內(nèi)容,基于實(shí)施了除去的期間文件數(shù)據(jù),算出相似性。
由此,因?yàn)槌ス餐膬?nèi)容后,算出相似性,因此,能夠以比較結(jié)合實(shí)際情況的形式算出相似性,用戶可以從龐大的文件數(shù)據(jù)中更容易地掌握有特征的部分。
在這種場(chǎng)合,步驟S210對(duì)應(yīng)發(fā)明10的特征數(shù)據(jù)抽出單元。
另外,在上述實(shí)施方式中,構(gòu)成為基于所抽出的特征數(shù)據(jù),設(shè)定允許范圍,特定在相似性時(shí)間推移中超過(guò)允許范圍的點(diǎn)作為變化點(diǎn),但不限于此,如圖11所示,也可以構(gòu)成為關(guān)于各期間文件數(shù)據(jù)的文件向量預(yù)測(cè)多元向量空間中的軌跡,設(shè)定預(yù)測(cè)范圍,特定超過(guò)預(yù)測(cè)范圍的文件向量作為變化點(diǎn)。圖11是用于說(shuō)明根據(jù)文件向量的軌跡預(yù)測(cè)特定變化點(diǎn)的場(chǎng)合的圖。
另外,在上述實(shí)施方式中,在執(zhí)行圖2及圖6的流程圖中所示的處理時(shí),都是說(shuō)明了關(guān)于執(zhí)行預(yù)先存入到ROM32的控制程序的場(chǎng)合,但不限于此,也可以從存儲(chǔ)了示有這些順序的程序的存儲(chǔ)媒體,將其程序讀入到RAM34來(lái)進(jìn)行執(zhí)行。
在這里,所謂存儲(chǔ)媒體是RAM、ROM等半導(dǎo)體存儲(chǔ)媒體;FD、HD等磁性存儲(chǔ)型存儲(chǔ)媒體;CD、CDV、LD、DVD等光學(xué)讀取式存儲(chǔ)媒體;MO等磁性存儲(chǔ)型/光學(xué)讀取式存儲(chǔ)媒體,不管電子的、磁性的、光學(xué)的等讀取方法,只要是用計(jì)算機(jī)可讀取的存儲(chǔ)媒體都包含在內(nèi),包含所有的存儲(chǔ)媒體。
另外,如圖1所示,在上述實(shí)施方式中,將本發(fā)明相關(guān)的數(shù)據(jù)管理裝置、文件數(shù)據(jù)檢索裝置、數(shù)據(jù)管理程序和文件數(shù)據(jù)檢索程序以及數(shù)據(jù)管理方法和文件數(shù)據(jù)檢索方法通過(guò)計(jì)算機(jī)100應(yīng)用于從多個(gè)文件數(shù)據(jù)中檢索有特征的文件數(shù)據(jù)的場(chǎng)合,但不限于此,在不脫離本發(fā)明主旨的范圍內(nèi),也可以應(yīng)用于其它場(chǎng)合。例如在因特網(wǎng)等其它網(wǎng)絡(luò)中,也可以應(yīng)用作為從多個(gè)文件數(shù)據(jù)中檢索有特征的文件數(shù)據(jù)的檢索服務(wù)。
發(fā)明效果如以上說(shuō)明,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求1或2記載的數(shù)據(jù)管理裝置,用戶通過(guò)參照所特定的變化點(diǎn),可以從龐大的數(shù)據(jù)中比較容易地掌握有特征的部分。另外,因?yàn)閺亩鄠€(gè)數(shù)據(jù)抽出的特征數(shù)據(jù),因此,與累積專家所建立的規(guī)則的場(chǎng)合相比,容易提高抽出的可靠性,而且,能夠比較適應(yīng)用戶的要求。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求2記載的數(shù)據(jù)管理裝置,用戶通過(guò)參照所特定的變化點(diǎn),可以從龐大的文件數(shù)據(jù)中比較容易地掌握有特征的部分。
另一方面,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求3到10記載的文件數(shù)據(jù)檢索裝置,用戶通過(guò)參照由檢索所抽出的文件數(shù)據(jù),可以從龐大的文件數(shù)據(jù)中比較容易地掌握有特征的部分。另外,因?yàn)閺亩鄠€(gè)文件數(shù)據(jù)抽出特征數(shù)據(jù),因此,與累積專家所建立的規(guī)則的場(chǎng)合相比,容易提高抽出的可靠性,而且能夠適應(yīng)用戶的要求。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求4記載的文件數(shù)據(jù)檢索裝置,因?yàn)樽兓c(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)被檢索,因此,用戶可以從龐大的文件數(shù)據(jù)中更加容易地掌握有特征的部分。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求5記載的文件數(shù)據(jù)檢索裝置,因?yàn)槟軌蚪y(tǒng)一地進(jìn)行變化點(diǎn)的特定,因此,比較容易特定變化點(diǎn)。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求6記載的文件數(shù)據(jù)檢索裝置,在時(shí)間序列上看文件數(shù)據(jù)的關(guān)系時(shí),用戶可以比較容易地掌握有特征的部分。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求7記載的文件數(shù)據(jù)檢索裝置,按每一規(guī)定期間相互看文件數(shù)據(jù)的關(guān)系時(shí),用戶可以比較容易地掌握有特征的部分。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求9記載的文件數(shù)據(jù)檢索裝置,因?yàn)閷?duì)應(yīng)期間文件數(shù)據(jù)中的詞素出現(xiàn)頻度算出相似性,因此能夠以比較結(jié)合實(shí)際情況的形式算出相似性,用戶可以從龐大的文件數(shù)據(jù)中更容易地掌握有特征的部分。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求10記載的文件數(shù)據(jù)檢索裝置,因?yàn)槌ス餐膬?nèi)容后算出相似性,因此能夠以比較結(jié)合實(shí)際情況的形式算出相似性,用戶可以從龐大的文件數(shù)據(jù)中更容易地掌握有特征的部分。
另一方面,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求11或12記載的數(shù)據(jù)管理程序,得到的效果與權(quán)利要求1記載的數(shù)據(jù)管理裝置相同。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求12記載的數(shù)據(jù)管理程序,得到的效果與權(quán)利要求2記載的數(shù)據(jù)管理裝置也相同。
另一方面,如果根據(jù)發(fā)明相關(guān)的權(quán)利要求13記載的文件數(shù)據(jù)檢索程序,得到的效果與權(quán)利要求3記載的數(shù)據(jù)管理裝置相同。
另一方面,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求14或15記載的數(shù)據(jù)管理方法,得到的效果與權(quán)利要求1記載的數(shù)據(jù)管理裝置相同。
進(jìn)一步,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求15記載的數(shù)據(jù)管理方法,得到的效果與權(quán)利要求2記載的數(shù)據(jù)管理裝置也相同。
另一方面,如果根據(jù)本發(fā)明相關(guān)的權(quán)利要求16記載的文件數(shù)據(jù)檢索方法,得到的效果與權(quán)利要求3記載的數(shù)據(jù)管理裝置相同。
權(quán)利要求
1.一種數(shù)據(jù)管理裝置,其用于管理多個(gè)數(shù)據(jù),其特征在于包括特征數(shù)據(jù)抽出單元,其從上述多個(gè)數(shù)據(jù)抽出關(guān)于上述數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn)。
2.權(quán)利要求1記載的數(shù)據(jù)管理裝置,其特征在于上述數(shù)據(jù)為文件數(shù)據(jù)。
3.一種文件數(shù)據(jù)檢索裝置,其用于從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索,其特征在于包括文件數(shù)據(jù)存儲(chǔ)單元,其用于存儲(chǔ)上述多個(gè)文件數(shù)據(jù);特征數(shù)據(jù)抽出單元,其從上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于上述文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn);文件數(shù)據(jù)檢索單元,其以由上述變化點(diǎn)特定單元所特定的變化點(diǎn)為基礎(chǔ),從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索上述文件數(shù)據(jù)。
4.權(quán)利要求3記載的文件數(shù)據(jù)檢索裝置,其特征在于上述文件數(shù)據(jù)檢索單元從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索由上述變化點(diǎn)特定單元所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。
5.權(quán)利要求3及4之一記載的文件數(shù)據(jù)檢索裝置,其特征在于上述變化點(diǎn)特定單元基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),設(shè)定允許范圍,在上述相似性的時(shí)間推移中,特定超過(guò)上述允許范圍的點(diǎn)作為上述變化點(diǎn)。
6.權(quán)利要求3至5之一記載的文件數(shù)據(jù)檢索裝置,其特征在于上述特征數(shù)據(jù)抽出單元將上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)按每一規(guī)定期間進(jìn)行區(qū)分,按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于在時(shí)間序列上鄰接的期間文件數(shù)據(jù)算出上述相似性,基于算出的相似性生成上述特征數(shù)據(jù)。
7.權(quán)利要求3至5之一記載的文件數(shù)據(jù)檢索裝置,其特征在于上述特征數(shù)據(jù)抽出單元將上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)按每一規(guī)定期間進(jìn)行區(qū)分,按各區(qū)分生成合并了屬于其區(qū)分的文件數(shù)據(jù)內(nèi)容的期間文件數(shù)據(jù),關(guān)于所生成的期間文件數(shù)據(jù)相互之間算出上述相似性,基于算出的相似性生成上述特征數(shù)據(jù)。
8.權(quán)利要求6及7之一記載的文件數(shù)據(jù)檢索裝置,其特征在于上述特征數(shù)據(jù)抽出單元算出表示上述期間文件數(shù)據(jù)內(nèi)容特征的文件向量,通過(guò)比較算出的文件向量算出上述相似性。
9.權(quán)利要求8記載的文件數(shù)據(jù)檢索裝置,其特征在于上述特征數(shù)據(jù)抽出單元對(duì)上述期間文件數(shù)據(jù)進(jìn)行詞素解析,按各詞素作為上述文件向量生成具有作為向量的量的與上述期間文件數(shù)據(jù)中其詞素出現(xiàn)頻度對(duì)應(yīng)的元素的向量。
10.權(quán)利要求6至9之一記載的文件數(shù)據(jù)檢索裝置,其特征在于上述特征數(shù)據(jù)抽出單元從上述各期間文件數(shù)據(jù)除去在上述各期間文件數(shù)據(jù)中共同的內(nèi)容,基于實(shí)施了除去的期間文件數(shù)據(jù),算出上述相似性。
11.一種數(shù)據(jù)管理程序,其用于管理多個(gè)數(shù)據(jù),其特征在于使計(jì)算機(jī)執(zhí)行作為以下各單元所實(shí)現(xiàn)的處理,特征數(shù)據(jù)抽出單元,其從上述多個(gè)數(shù)據(jù)抽出關(guān)于上述數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn)。
12.權(quán)利要求11記載的數(shù)據(jù)管理程序,其特征在于上述數(shù)據(jù)為文件數(shù)據(jù)。
13.一種文件數(shù)據(jù)檢索程序,其用于從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索,其特征在于針對(duì)可利用存儲(chǔ)上述多個(gè)文件數(shù)據(jù)用的文件數(shù)據(jù)存儲(chǔ)單元的計(jì)算機(jī),使其執(zhí)行作為以下各單元所實(shí)現(xiàn)的處理,特征數(shù)據(jù)抽出單元,其從上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于上述文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù);變化點(diǎn)特定單元,其基于由上述特征數(shù)據(jù)抽出單元所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn);文件數(shù)據(jù)檢索單元,其以由上述變化點(diǎn)特定單元所特定的變化點(diǎn)為基礎(chǔ),從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索上述文件數(shù)據(jù)。
14.一種數(shù)據(jù)管理方法,其用于管理多個(gè)數(shù)據(jù),其特征在于包含特征數(shù)據(jù)抽出步驟,其從上述多個(gè)數(shù)據(jù)抽出關(guān)于上述數(shù)據(jù)內(nèi)容表示相似性的特征數(shù)據(jù);變化點(diǎn)特定步驟,其基于由上述特征數(shù)據(jù)抽出步驟所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn)。
15.權(quán)利要求14記載的數(shù)據(jù)管理方法,其特征在于上述數(shù)據(jù)為文件數(shù)據(jù)。
16.一種文件數(shù)據(jù)檢索方法,其用于從作成時(shí)間或更新時(shí)間不同的多個(gè)文件數(shù)據(jù)中進(jìn)行檢索,其特征在于包含文件數(shù)據(jù)存儲(chǔ)步驟,其將上述多個(gè)文件數(shù)據(jù)存儲(chǔ)到文件數(shù)據(jù)存儲(chǔ)單元;特征數(shù)據(jù)抽出步驟,其從上述文件數(shù)據(jù)存儲(chǔ)單元的文件數(shù)據(jù)抽出關(guān)于上述文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù);變化點(diǎn)特定步驟,其基于由上述特征數(shù)據(jù)抽出步驟所抽出的特征數(shù)據(jù),特定上述相似性的變化點(diǎn);文件數(shù)據(jù)檢索步驟,其以由上述變化點(diǎn)特定步驟所特定的變化點(diǎn)為基礎(chǔ),從上述文件數(shù)據(jù)存儲(chǔ)單元中檢索上述文件數(shù)據(jù)。
全文摘要
從文件數(shù)據(jù)登錄DB44的文件數(shù)據(jù)中抽出關(guān)于文件數(shù)據(jù)內(nèi)容表示相似性時(shí)間推移的特征數(shù)據(jù),基于所抽出的特征數(shù)據(jù)特定相似性的變化點(diǎn),以所特定的變化點(diǎn)為基礎(chǔ)從文件數(shù)據(jù)登錄DB44中檢索文件數(shù)據(jù)。在檢索中,檢索所特定的變化點(diǎn)或?qū)儆谄涓浇奈募?shù)據(jù)。由此可提供一種適于從龐大數(shù)據(jù)中掌握有特征的部分、容易提高抽出可靠性且可即時(shí)對(duì)應(yīng)用戶要求的數(shù)據(jù)管理裝置。
文檔編號(hào)G06F17/30GK1442801SQ0310680
公開(kāi)日2003年9月17日 申請(qǐng)日期2003年3月3日 優(yōu)先權(quán)日2002年3月4日
發(fā)明者萱原直樹(shù) 申請(qǐng)人:精工愛(ài)普生株式會(huì)社