專利名稱:數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、程序及集成電路的制作方法
技術領域:
本發(fā)明涉及以能夠自動將逐次輸入的數(shù)據(jù)分類、而且能夠通過手動輸入來修正 (annotation 標注)其結(jié)果為前提的數(shù)據(jù)處理裝置或者數(shù)據(jù)處理方法。
背景技術:
以往,關于自動將數(shù)據(jù)分類的方法,已經(jīng)公知有使用事前學習數(shù)據(jù)來識別數(shù)據(jù)并 分類的方法,和不使用事前學習數(shù)據(jù)而將數(shù)據(jù)分類的方法。無論哪種方法都通過從數(shù)據(jù)中 抽取多維的特征量并進行特征量的比較來實現(xiàn)。作為事前學習的一例有對每個分類分組,根據(jù)學習數(shù)據(jù)的分布信息來計算 概率分布,并判定輸入數(shù)據(jù)歸屬于哪個分類分組的方法(例如貝葉斯估計=Bayesian Estimation)。作為其他示例有使學習數(shù)據(jù)的分布信息近似于多個高斯分布的重疊,并判 定輸入數(shù)據(jù)歸屬于哪個分類分組的方法(例如高斯混合模型(Gaussian Mixture Model) 等)。作為另一個其他示例有根據(jù)學習數(shù)據(jù)的分布信息來設定分類分組之間的邊界,并判定 輸入數(shù)據(jù)歸屬于哪個分類分組的方法(例如支持向量機(Support Vector Machine)等)。 這些方法需要在實現(xiàn)自動分類之前預先由人工準備學習用的數(shù)據(jù),其登記作業(yè)比較煩雜。另一方面,關于不使用事前學習數(shù)據(jù)而將數(shù)據(jù)自動分類的方法,已經(jīng)公知有各種 聚類(clustering)方法。聚類用于根據(jù)數(shù)據(jù)自身的分布的濃淡將數(shù)據(jù)分類。關于具體 的聚類方法有預先指定分類數(shù)并進行分類的k-means(k-均值)法,或者根據(jù)輸入模式 (pattern)群的相似度自主地獲得分類的能力的神經(jīng)網(wǎng)絡即自組織映射法(SOM)等。數(shù)據(jù)的自動分類往往要求逐次處理型的學習及分類。例如,已經(jīng)公知有依據(jù)于 k-means法的LBG (Linde-Buzo-Gray)算法等。這種LBG算法例如在自適應地將利用哪個代 表向量來代表各個向量記述為代碼的向量量化等中得到應用,以便實現(xiàn)語音信號或者圖像 信號的信息壓縮。但是,在實際應用中LBG算法是對數(shù)據(jù)反復處理來發(fā)現(xiàn)代表向量的方法, 雖然說是逐次處理,但是存在需要相當長的處理時間的問題。通常,分類精度和逐次處理時 的分類結(jié)果的更新速度存在取舍關系。使用圖22及圖23說明在實際采用這種自動分類方法時的處理結(jié)構(gòu)示例。圖22 是進行自動分類并將其結(jié)果記錄在臨時記錄部中的數(shù)據(jù)處理裝置1000的框圖。具體地講, 圖22所示的數(shù)據(jù)處理裝置1000具有特征抽取部1100、自動分類處理部1200、聚類/要素 對應表更新記錄部1300、臨時記錄部1400。特征抽取部1100在被輸入了新追加的要素數(shù)據(jù)(以下也稱為“追加要素”)時,進 行用于計算該要素數(shù)據(jù)的特征空間上的坐標的特征抽取處理。例如,在進行人臉圖像的分 類的情況下,可以列舉表示人臉的特征量的Gabor小波特征量等。這些特征量以及與追加 要素相關的信息被記錄在臨時記錄部1400中并進行管理,以便明確對應關系。自動分類處理部1200在計算追加要素的特征量后,從臨時記錄部1400中讀出此 前的作為過去的分類結(jié)果的各個聚類的分類邊界條件、和屬于附近聚類的全部要素數(shù)據(jù)的 特征空間上的坐標信息,進行追加要素屬于哪個聚類的判定。并且,自動分類處理部1200向聚類/要素對應表更新記錄部1300發(fā)送追加要素的信息(更新對象要素)、和該追加要 素歸屬的聚類的信息(歸屬聚類)。然后,自動分類處理部1200根據(jù)進行了追加要素的追加這一情況,修正過去的分 類結(jié)果。并且,自動分類處理部1200將被施加變更后的聚類的分類邊界條件、和賦予了追 加要素的坐標的此前的全部要素數(shù)據(jù)的坐標數(shù)據(jù),一并記錄在臨時記錄部1400中。關于詳 細的處理結(jié)構(gòu)示例將在后面進行說明。聚類/要素對應表更新記錄部1300讀出在臨時記錄部1400中記錄的過去的聚類 /要素對應表,并進行有關變更部位的更新,將更新后的對應表記錄在臨時記錄部1400中。圖23是表示自動分類處理部1200的詳細處理及結(jié)構(gòu)示例的圖。圖23所示的自 動分類處理部1200具有歸屬聚類判定部1210、附近聚類再分類部1220、分類邊界條件讀出 部1M0、分類邊界條件更新記錄部1230。歸屬聚類判定部1210在被輸入追加要素后,通過分類邊界條件讀出部1240從臨 時記錄部1400讀出過去的聚類的分類邊界條件,并進行追加要素與各個聚類相似何種程 度的匹配處理。關于匹配處理的方法可以列舉先前列舉的LBG算法,該算法依據(jù)于不使用 事前學習數(shù)據(jù)而將數(shù)據(jù)逐次自動分類的k-means法。此外,也可以采用對應逐次處理的支 持向量機(SVM)或者層次式自動分類法等。所謂分類邊界條件,例如對于SVM則相當于表 示聚類之間的分類邊界面的函數(shù),而對于層次式自動分類法則相當于各個層次/各個節(jié)點 的分支條件?;蛘?,也可以考慮像使用事前學習數(shù)據(jù)的方式的高斯混合模型(GMM =Gaussian Mixture Model)那樣、具有各個聚類在特征空間上分布的概率密度函數(shù)的形式。即,在把新 的要素數(shù)據(jù)設為對象時,只要是表示應該屬于哪個聚類的判定條件的信息,則對其形式?jīng)] 有特別要求。附近聚類再分類部1220把由歸屬聚類判定部1210得到的追加要素的特征空間上 的坐標及其匹配結(jié)果作為輸入,并抽取追加要素的附近聚類。關于是否是附近的判定,可以 預先設定任意的距離指標,在比該距離小的情況下判定為是附近聚類。把歸屬于該附近聚 類的要素數(shù)據(jù)從臨時記錄部1400中全部讀出,并與追加要素一起進行再分類。分類邊界條件更新記錄部1230根據(jù)由再分類的結(jié)果而得到的各個要素數(shù)據(jù)所歸 屬的聚類信息、和從臨時記錄部1400讀出的各個要素數(shù)據(jù)的坐標,更新附近聚類之間的分 類邊界條件及與已有聚類之間的分類邊界條件,并記錄在臨時記錄部1400中。并且,針對 再分類的結(jié)果為被施加了修正的要素數(shù)據(jù),向聚類/要素對應表更新記錄部1300發(fā)送該要 素數(shù)據(jù)和最終歸屬聚類的信息。另外,在附近聚類再分類部1220中,在判定為追加要素相對于哪一個聚類都比預 先設定的距離還遠指標的情況下,生成該要素數(shù)據(jù)所屬的新的聚類,并同樣在分類邊界條 件更新記錄部1230進行分類邊界條件的更新。臨時記錄部1400采用硬盤、光盤、半導體存儲器等能夠臨時存儲數(shù)據(jù)的裝置。通過采用這種結(jié)構(gòu),在逐次追加數(shù)據(jù)的情況下,也能夠在保存過去的自動分類的 結(jié)果的同時,體現(xiàn)新的追加數(shù)據(jù)的自動分類結(jié)果。另外,這種數(shù)據(jù)自動分類方法由于采用統(tǒng)計手法,所以通常不可能達到100%的分 類精度結(jié)果,只不過能夠從概率論上估計結(jié)果。因此,需要根據(jù)用途來良好地進行可能得到 的結(jié)果的解釋。另外,由于是以用戶親自手動修正自動分類后的結(jié)果為前提的系統(tǒng)結(jié)構(gòu),因此也存在把數(shù)據(jù)自動分類定位為“用戶手動將大量數(shù)據(jù)分類時的助手”的系統(tǒng)。例如,在人臉圖像分類的情況下,美國專利第7,274,822號說明書及美國專利第 7,403,642號說明書記述了高精度高效率地標注(annotation,通過用戶的手動輸入而進 行的分類修正)人臉照片的自動分類方法、以及其用戶界面。例如,圖24A 圖24D表示標 注的示例。在圖24A 圖24D中,利用黑點表示作為分類對象的要素數(shù)據(jù),利用線表示分類結(jié) 果。下文中,把被分類后的結(jié)果的單位稱為聚類(cluster)。并且,關于標注的具體示例,列 舉將作為分類結(jié)果而得到的一個聚類分割為兩個的分割作業(yè)(圖24A),將兩個聚類結(jié)合為 一個的結(jié)合作業(yè)(圖MB),從一個聚類中去除任意的要素數(shù)據(jù)使其無歸屬的去除作業(yè)(圖 24C),以及對某個聚類整體賦予名稱或者信息的元數(shù)據(jù)(meta data)賦予作業(yè)(圖MD)。使用圖25說明進行這種標注所需要的數(shù)據(jù)處理裝置1000的處理結(jié)構(gòu)示例。圖25 所示的數(shù)據(jù)處理裝置1000具有聚類/要素對應表更新記錄部1300、臨時記錄部1400和用 戶改變操作檢測部1500。另外,聚類/要素對應表更新記錄部1300及臨時記錄部1400的 具體結(jié)構(gòu)與上述說明的結(jié)構(gòu)相同。并且,在圖25中省略圖示與標注處理沒有直接關系的構(gòu) 成要素。用戶改變操作檢測部1500在檢測到用戶的標注操作開始時,將該情況通知聚類/ 要素對應表更新記錄部1300。聚類/要素對應表更新記錄部1300在接收到上述通知時,從 臨時記錄部1400讀出作為過去的分類結(jié)果的聚類/要素對應表,并掌握用戶如何改變哪個 要素數(shù)據(jù)。然后,用戶改變操作檢測部1500向聚類/要素對應表更新記錄部1300發(fā)送表示 用戶實際進行了的改變內(nèi)容的信息。并且,聚類/要素對應表更新記錄部1300利用獲取到 的表示改變內(nèi)容的信息來更新聚類/要素對應表,并記錄在臨時記錄部1400中。通過采用這種結(jié)構(gòu),能夠保存標注結(jié)果并進行檢索。另一方面,在實際應用中,在將大量數(shù)據(jù)自動分類的系統(tǒng)中,不僅分類方法的問 題、如何管理分類后的結(jié)果的問題也很重要。即,要求利用容易檢索的某種方法來管理自動 分類后的結(jié)果,并在檢索時迅速進行提示。即,要求檢索速度非??臁A硗?,檢索速度的快 速程度也與在前述的逐次處理型分類方法中提及的分類結(jié)果的更新速度密切相關。即,在 進行部分的分類結(jié)果的更新時,需要只取出相應數(shù)據(jù)并更新、記錄的步驟。另外,為了提高分類結(jié)果的更新速度,需要能夠?qū)崿F(xiàn)部分的分類結(jié)果的更新的數(shù) 據(jù)管理方法。關于滿足這種條件的數(shù)據(jù)管理的代表性方法,通常公知有基于層次式樹結(jié)構(gòu) 的方法。圖26表示層次分類的示例。各個分類聚類被按照層次構(gòu)造分類,比較接近的聚類 (相似的聚類)在下位的層次中被聚集,在上位層次中被按照更大的單位分類。使用圖27說明進行這種檢索所需要的數(shù)據(jù)處理裝置1000的結(jié)構(gòu)示例。圖27所 示的數(shù)據(jù)處理裝置1000具有顯示聚類確定部1600、聚類/要素關系檢索部1700、顯示部 1800、臨時記錄部1400。另外,臨時記錄部1400的具體結(jié)構(gòu)與上述說明的結(jié)構(gòu)相同。并且, 在圖27中省略圖示與檢索處理沒有直接關系的構(gòu)成要素。顯示聚類確定部1600根據(jù)用戶的操作等確定應該顯示的聚類,并向聚類/要素關 系檢索部1700發(fā)送該信息。聚類/要素關系檢索部1700從臨時記錄部1400讀出作為過 去的分類結(jié)果的聚類/要素對應表,把所輸入的顯示對象的聚類作為查詢(query),進行歸屬于相應聚類的要素數(shù)據(jù)的檢索。并且,聚類/要素關系檢索部1700在檢索完成后,向顯 示部1800發(fā)送作為對象的要素數(shù)據(jù)的信息即顯示要素信息。顯示部1800根據(jù)該顯示要素 信息,從臨時記錄部1400顯示作為與相應要素數(shù)據(jù)相關的信息的要素關聯(lián)信息。通過采用這種結(jié)構(gòu),在檢索時能夠利用自動分類的結(jié)果以及標注的結(jié)果。現(xiàn)有技術文獻專利文獻專利文獻1 美國專利第7,274,822號說明書專利文獻2 美國專利第7,403,642號說明書
發(fā)明概要發(fā)明要解決的問題但是,目前尚未出現(xiàn)同時實現(xiàn)逐次處理型自動分類和用戶手動分類的數(shù)據(jù)管理方 法。在美國專利第7,274,822號說明書和美國專利第7,403,642號說明書中公開了基 于文件夾結(jié)構(gòu)的圖像數(shù)據(jù)管理方法,但不能說可以應對逐次處理型。例如,如圖觀所示,針 對被追加的要素數(shù)據(jù)群(依次追加M個、N個、P個)中的各個要素數(shù)據(jù)群,每次在該要素數(shù) 據(jù)群內(nèi)進行閉合的自動分類。即,不自動實施與過去的分類結(jié)果的整合及合并(merge)、以 及與用戶手動的分類修正結(jié)果的整合。只能由用戶親自手動獲取與過去的自動分類結(jié)果及 標注結(jié)果的整合。另外,圖觀表示進行從左向右按照時間序列排列的處理的狀態(tài)。在這種處理結(jié)構(gòu)中,例如在不斷追加新的圖像群的實際使用環(huán)境中,自動分類不 動作,而是大大依賴于用戶的合并操作。結(jié)果,在整理大量數(shù)據(jù)時,基于自動分類方法的輔 助效果具有局限性。另一方面,如圖四所示,在將每次追加的數(shù)據(jù)群自動分類時,考慮過去的自動分 類結(jié)果來進行更新(實施逐次處理)。另一方面,考慮針對標注也將過去的結(jié)果更新的方 式。在這種情況下產(chǎn)生兩個問題。一個問題是由于繼承了過去的結(jié)果,所以不能獲取與自 動分類結(jié)果和標注信息的整合。圖30表示產(chǎn)生這種問題時的示例。在圖30中,過去的自動分類的結(jié)果是要素0 被分類為聚類0,要素1、2被分類為聚類1,要素3、4被分類為聚類2,要素5被分類為聚類 3。另外,標注的結(jié)果是被用戶修正為聚類0和聚類1是同一聚類,聚類2和聚類3是同一 聚類。然后,追加了新的要素6,在按照自動分類算法進行再聚類時,想要把相似的要素 彼此進行聚類,所以生成包括要素1、要素3、要素6的新的聚類4,包括要素0的聚類0、包 括要素2的聚類1、包括要素4的聚類2、包括要素5的聚類3作為結(jié)果被輸出。這里,在過去的標注中,進行了使要素0、1、2屬于同一聚類、使要素3、4、5屬于同 一聚類的操作。因此,出現(xiàn)了是利用新追加的要素6來整合兩個聚類(由要素0、要素1、要 素2構(gòu)成的聚類和由要素3、要素4、要素5構(gòu)成的聚類)、還是應該劃分兩個聚類的問題。如果按照前者使標注結(jié)果優(yōu)先,則存在不斷生成大的聚類的可能性。另一方面,如 果按照后者使自動分類結(jié)果優(yōu)先,則導致標注結(jié)果被忽視,使用戶的印象變差。另外,也存 在應該如何處理聚類4的問題。這樣,不能一概地確定應該如何獲取整合。
然后,第二個問題是將被追加的要素數(shù)據(jù)自動分類時或者用戶進行標注操作時的 分類結(jié)果更新速度、或者根據(jù)過去的分類結(jié)果(聚類與要素數(shù)據(jù)的關系)進行檢索時的速 度明顯下降的問題。使用圖31及圖32來說明其原因。另外,以下的說明是以圖30所示的 示例為前提的。圖31中的左側(cè)的圖表示自動分類的結(jié)果。此時,能夠得到圖32中的左側(cè)所示的 聚類/要素對應表。然后,按照圖31的中央的圖示進行標注。在想要將標注的結(jié)果體現(xiàn)在 該聚類/要素對應表中時,需要按照圖32的中央所示改寫帶下劃線斜體字的部位。作為 變更對象的要素數(shù)據(jù)的數(shù)量越多,更新部位越多。更新所需的處理是相應要素數(shù)據(jù)的排序 (sort)和聚類ID的改寫。然后,圖32的右側(cè)表示在按照圖31中的右側(cè)的圖示那樣追加新的要素數(shù)據(jù)并自 動分類時的、聚類/要素對應表的更新部位。同樣把必要的更新部位表示為帶下劃線斜體 字。在這種情況時同樣發(fā)生要素數(shù)據(jù)的追加(向表的下部追加)和聚類ID的更新。這樣, 在聚類/要素對應表的更新多發(fā)時,在作為更新對象的要素數(shù)據(jù)的數(shù)量多時,產(chǎn)生處理速 度下降的問題。另外,不僅如此,在作為參數(shù)的要素數(shù)據(jù)的總數(shù)(即表的行數(shù))增加時,同 樣產(chǎn)生處理速度下降的問題。即,在需要大量數(shù)據(jù)的分類的情況下,這種數(shù)據(jù)管理方法存在 問題。另外,也可以考慮如圖33所示的方式,在將每次追加的要素數(shù)據(jù)群自動分類時, 只考慮過去的標注結(jié)果來進行更新(實施逐次處理)。在這種情況下,過去的標注信息對下 一次的自動分類產(chǎn)生影響,存在有可能產(chǎn)生性能惡化的副作用的問題。使用圖34來說明該 問題。圖34表示在特征空間上配置要素數(shù)據(jù)的圖。圖34中的左側(cè)的圖表示過去的自動分類結(jié)果。針對該自動分類結(jié)果,例如按照圖 34的中央的圖示那樣標注為聚類0和聚類3是同一聚類。然后,為了在自動分類結(jié)果中體 現(xiàn)該標注結(jié)果,按照圖34中的右側(cè)的圖示那樣通過投影使空間變形,即進行使舊聚類0與 舊聚類3的距離接近的空間變形。由此,以后的自動分類結(jié)果將體現(xiàn)該標注的結(jié)果,但是問 題在于隨著這種變形也出現(xiàn)了被錯誤分類的要素數(shù)據(jù)。在圖34中的右側(cè)的圖中,利用白圓 圈表示本來不屬于任何聚類的要素數(shù)據(jù)通過空間變形而屬于某一個聚類的要素數(shù)據(jù)。這些 要素數(shù)據(jù)被錯誤分類的可能性比較大,也可以說是空間變形的副作用。例如對于人臉圖像,同一人物的兩個人臉由于日照方式的差異和人臉朝向的差異 等,有可能產(chǎn)生各個人臉被配置為距離較遠的坐標的情況。由于通過標注把這種情況設為 同一聚類,在使空間變形(或者投影)時,導致包括不同的人物的人臉的可能性比較大。圖35是能夠考慮到的最簡單的方式。即,每當追加要素數(shù)據(jù)時就將標注結(jié)果廢 棄。但是,這種處理方法對于用戶而言將導致降低標注的動機,不能說是好的方法。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明的目的在于提供一種數(shù)據(jù)處理裝置,實現(xiàn)用于同時實現(xiàn)逐 次處理型自動分類和用戶的手動分類的數(shù)據(jù)管理,并且使標注結(jié)果和自動分類結(jié)果不矛盾 地同時存在。 用于解決技術問題的手段 本發(fā)明的一個方式的數(shù)據(jù)處理裝置,對要素數(shù)據(jù)進行分類。具體地,具有臨時記錄部,記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對應表,所述聚 類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的聚類ID、和識 別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類 邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別按照用戶的主 觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組的所述聚類的 所述聚類ID相對應地保存;特征抽取部,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類 處理部,通過將由所述特征抽取部抽取的特征量與所述分類邊界條件進行比較,確定所述 多個聚類之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī)定的制約條件將 規(guī)定所述歸屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù)據(jù)包含在所 述歸屬聚類中;以及數(shù)據(jù)管理部,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述 自動分類處理部確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應 表中。根據(jù)上述結(jié)構(gòu),能夠?qū)⒂蓴?shù)據(jù)處理裝置進行的自動分類的結(jié)果保存為聚類/要素 對應表,將標注的結(jié)果保存為分組/聚類對應表,由此防止自動分類與標注之間的矛盾。作為一例也可以是,所述規(guī)定的制約條件是指禁止將已有的聚類彼此結(jié)合而生成 新的聚類的條件。作為另一例也可以是,所述規(guī)定的制約條件是指禁止將已有的聚類的一 部分分割而生成新的聚類的條件。由此,能夠確立有效的數(shù)據(jù)管理方法,既能將逐次追加的 要素數(shù)據(jù)自動分類,也能實現(xiàn)用戶的手動分類。結(jié)果,能夠提供確保高精度地用戶輔助大量 數(shù)據(jù)的分類的功能。另外,也可以是,所述自動分類處理部具有分類邊界條件讀出部,從所述臨時記 錄部讀出每個所述聚類的所述分類邊界條件;歸屬聚類判定部,將由所述特征抽取部抽取 的特征量、與由所述分類邊界條件讀出部讀出的每個所述聚類的所述分類邊界條件進行比 較,由此判定所述新追加的要素數(shù)據(jù)應該歸屬的所述歸屬聚類;聚類/要素ID管理部,根據(jù) 所述歸屬聚類判定部的判定結(jié)果,使所述數(shù)據(jù)管理部更新所述聚類/要素對應表;以及分 類邊界條件更新記錄部,根據(jù)所述歸屬聚類判定部的判定結(jié)果,按照所述規(guī)定的制約條件 更新用于規(guī)定所述歸屬聚類的邊界的所述分類邊界條件,并將更新后的所述分類邊界條件 記錄在所述臨時記錄部中。另外,也可以是,所述數(shù)據(jù)管理部具有第1聚類/要素對應表更新記錄部,在由 所述自動分類處理部確定所述新追加的要素數(shù)據(jù)屬于已有的聚類的情況下,將該新追加的 要素數(shù)據(jù)的要素ID與該已有的聚類的聚類ID相對應地追加記錄在所述聚類/要素對應表 中,在由所述自動分類處理部確定所述新追加的要素數(shù)據(jù)不屬于已有的任意一個聚類的情 況下,將該新追加的要素數(shù)據(jù)的要素ID與新編號的聚類ID相對應地追加記錄在所述聚類 /要素對應表中;以及分組/聚類對應表追記部,在由所述自動分類處理部確定所述新追加 的要素數(shù)據(jù)不屬于已有的任意一個聚類的情況下,將新編號的所述聚類ID與新編號的分 組ID相對應地追加記錄在所述分組/聚類對應表中。這樣,數(shù)據(jù)管理部在使各個對應表體現(xiàn)自動分類處理部的自動分類的結(jié)果時,只 需在各個表中追加記錄記錄數(shù)據(jù),所以處理速度提高。并且,由于不進行過去的分類結(jié)果的 變更(即已有記錄數(shù)據(jù)的更新),所以能夠防止自動分類與標注矛盾。另外,也可以是,該數(shù)據(jù)處理裝置還具有用戶改變操作檢測部,該用戶改變操作檢測部檢測變更所述分組ID與所述要素ID之間的對應關系的用戶的操作。而且,所述數(shù)據(jù) 管理部根據(jù)所述用戶改變操作檢測部的檢測結(jié)果,至少更新所述分組/聚類對應表。另外,也可以是,所述數(shù)據(jù)管理部具有分組/聚類對應表更新記錄部,從所述聚 類/要素對應表中抽取與由所述用戶改變操作檢測部檢測到的所述要素ID相對應的所述 聚類ID,更新所述抽取的聚類ID與由所述用戶改變操作檢測部檢測到的分組ID在所述分 組/聚類對應表中的對應關系;以及第2聚類/要素對應表更新記錄部,只在由于由所述用 戶改變操作檢測部檢測到的所述分組ID與所述要素ID之間的對應關系的變更而產(chǎn)生變更 所述聚類ID與所述要素ID之間的對應關系的需要的情況下,更新所述聚類ID與所述要素 ID在所述聚類/要素對應表中的對應關系。另外,也可以是,該數(shù)據(jù)處理裝置具有顯示分組確定部,生成包括一個以上的分 組ID的顯示分組信息;分組/聚類關系檢索部,從所述分組/聚類對應表中抽取與所述顯 示分組信息中包含的所述分組ID相對應的所述聚類ID,并生成包含所抽取的所述聚類ID 的顯示聚類信息;聚類/要素關系檢索部,從所述聚類/要素對應表中抽取與所述顯示聚類 信息中包含的所述聚類ID相對應的所述要素ID,并生成包含所抽取的所述要素ID的顯示 要素信息;以及顯示部,從所述臨時記錄部讀出利用所述顯示要素信息中包含的所述要素 ID識別的所述要素數(shù)據(jù),并顯示該要素數(shù)據(jù)。另外,也可以是,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群被 輸入到該數(shù)據(jù)處理裝置的情況下,所述自動分類處理部針對所述第1及第2要素數(shù)據(jù)群分 別獨立地執(zhí)行確定所述歸屬聚類、并且更新所述分類邊界條件的處理。而且,也可以是,該 數(shù)據(jù)處理裝置還具有分類合并部,在針對全部所述要素數(shù)據(jù)的處理結(jié)束后,該分類合并部 將在分別針對所述第1及第2要素數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。由 此,在對自動分類時的分類邊界條件的更新設計制約條件的情況下,也能夠有效防止自動 分類的性能惡化。本發(fā)明的一個方式的數(shù)據(jù)處理裝置,對要素數(shù)據(jù)進行分類。具體地,具有臨時記 錄部,記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對應表,所述聚 類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的聚類ID、和識 別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類 邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別按照用戶的主 觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組的所述聚類的 所述聚類ID相對應地保存;用戶改變操作檢測部,檢測變更所述分組ID與所述要素ID之 間的對應關系的用戶的操作;以及數(shù)據(jù)管理部,根據(jù)所述用戶改變操作檢測部的檢測結(jié)果, 至少更新所述分組/聚類對應表。本發(fā)明的一個方式的數(shù)據(jù)處理裝置,對要素數(shù)據(jù)進行分類。具體地,具有臨時記 錄部,記錄所述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件,所述單元/要素對應表將 識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于利用該單元 ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條件用于規(guī)定 所述多個單元各自的邊界;特征抽取部,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類 處理部,通過將由所述特征抽取部抽取的特征量與所述分類邊界條件進行比較,確定所述 多個單元之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī)定的制約條件將規(guī)定所述歸屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù)據(jù)包含在所 述歸屬單元中;以及數(shù)據(jù)管理部,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述 層次分類處理部確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應 表中。在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群被輸入到該數(shù)據(jù)處理 裝置的情況下,所述層次分類處理部針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí)行確定 所述歸屬單元、并且更新所述分類邊界條件的處理。而且,該數(shù)據(jù)處理裝置還具有層次分類 合并部,該層次分類合并部將在分別針對所述第1及第2要素數(shù)據(jù)群的處理中被更新后的 所述分類邊界條件合并。另外,也可以是,該數(shù)據(jù)處理裝置還具有聚類部,該聚類部生成包含多個所述單元 的聚類,并確定用于規(guī)定所述聚類的邊界的分類邊界條件。而且,也可以是,所述層次分類 處理部將所述特征量與所述聚類的分類邊界條件進行比較,由此確定所述新追加的要素數(shù) 據(jù)應該歸屬的歸屬聚類,再將所述特征量與所述歸屬聚類中包含的所述多個單元各自的分 類邊界條件進行比較,由此確定所屬歸屬單元。由此,能夠分層次地管理分類比較條件,所 以自動分類的處理速度提高。另外,也可以是,所述層次分類處理部具有歸屬單元判定部,將由所述特征抽取 部抽取的特征量、與從所述臨時記錄部讀出的每個所述單元的所述分類邊界條件進行比 較,由此判定所述新追加的要素數(shù)據(jù)應該歸屬的所述歸屬單元;單元/要素ID管理部,根據(jù) 所述歸屬單元判定部的判定結(jié)果,更新所述單元/要素對應表;以及層次分類邊界條件更 新記錄部,根據(jù)所述歸屬單元判定部的判定結(jié)果,按照所述規(guī)定的制約條件更新用于規(guī)定 所述歸屬單元的邊界的所述分類邊界條件,并將更新后的所述分類邊界條件記錄在所述臨 時記錄部中。作為一例也可以是,所述規(guī)定的制約條件是指禁止將已有的單元彼此結(jié)合而生成 新的單元的條件,或者禁止將已有的單元的一部分分割而生成新的單元的條件。本發(fā)明的一個方式的數(shù)據(jù)處理方法,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù) 據(jù)處理裝置具有用于記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類 對應表的臨時記錄部,所述聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類 中的各個聚類的聚類ID、和識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要 素ID相對應地保存,所述分類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚 類對應表將識別按照用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID 識別的所述分組的所述聚類的所述聚類ID相對應地保存。具體地,該數(shù)據(jù)管理方法包括 如下步驟特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類處理步驟,通過 將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進行比較,確定所述多個聚類之 中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī)定的制約條件將規(guī)定所述歸 屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù)據(jù)包含在所述歸屬聚類 中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述自動分類 處理步驟確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應表中。本發(fā)明的另一個方式的數(shù)據(jù)處理方法,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該 數(shù)據(jù)處理裝置具有用于記錄所述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件的臨時記 錄部,所述單元/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于利用該單元ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保 存,所述分類邊界條件用于規(guī)定所述多個單元各自的邊界。具體地,該數(shù)據(jù)管理方法包括 如下步驟特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類處理步驟,通過 將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進行比較,確定所述多個單元之 中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī)定的制約條件將規(guī)定所述歸 屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù)據(jù)包含在所述歸屬單元 中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述層次分類 處理步驟確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應表中。在 所述層次分類處理步驟中,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群 被輸入到該數(shù)據(jù)處理裝置的情況下,針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí)行確定 所述歸屬單元、并且更新所述分類邊界條件的處理。而且,該數(shù)據(jù)處理方法還具有層次分類 合并步驟,該層次分類合并步驟將在分別針對所述第1及第2要素數(shù)據(jù)群的處理中被更新 后的所述分類邊界條件合并。本發(fā)明的一個方式的程序,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù)據(jù)處理裝 置具有用于記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對應表的 臨時記錄部,所述聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個 聚類的聚類ID、和識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對 應地保存,所述分類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表 將識別按照用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所 述分組的所述聚類的所述聚類ID相對應地保存。具體地,該程序使所述數(shù)據(jù)處理裝置執(zhí)行 如下步驟特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類處理步驟,通過 將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進行比較,確定所述多個聚類之 中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī)定的制約條件將規(guī)定所述歸 屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù)據(jù)包含在所述歸屬聚類 中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述自動分類 處理步驟確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應表中。本發(fā)明的另一個方式的程序,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù)據(jù)處理 裝置具有用于記錄所述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件的臨時記錄部,所 述單元/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、 和識別屬于利用該單元ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述 分類邊界條件用于規(guī)定所述多個單元各自的邊界。具體地,該程序使所述數(shù)據(jù)處理裝置執(zhí) 行如下步驟特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類處理步驟,通 過將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進行比較,確定所述多個單元 之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī)定的制約條件將規(guī)定所述 歸屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù)據(jù)包含在所述歸屬單 元中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述層次分 類處理步驟確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應表中。 在所述層次分類處理步驟中,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù) 群被輸入到該數(shù)據(jù)處理裝置的情況下,針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí)行確定所述歸屬單元、并且更新所述分類邊界條件的處理。而且,該程序還使所述數(shù)據(jù)處理裝置 執(zhí)行層次分類合并步驟,該層次分類合并步驟將在分別針對所述第1及第2要素數(shù)據(jù)群的 處理中被更新后的所述分類邊界條件合并。本發(fā)明的一個方式的集成電路,搭載于數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置具有用于 記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對應表的臨時記錄 部,所述聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的聚 類ID、和識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保存, 所述分類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別按照 用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組的所 述聚類的所述聚類ID相對應地保存。具體地,該集成電路具有特征抽取部,抽取新追加的 所述要素數(shù)據(jù)的特征量;自動分類處理部,通過將由所述特征抽取部抽取的特征量與所述 分類邊界條件進行比較,確定所述多個聚類之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬 聚類,并且按照規(guī)定的制約條件將規(guī)定所述歸屬聚類的邊界的所述分類邊界條件更新,以 使所述新追加的要素數(shù)據(jù)包含在所述歸屬聚類中;以及數(shù)據(jù)管理部,將識別所述新追加的 要素數(shù)據(jù)的要素ID、和識別由所述自動分類處理部確定的所述歸屬聚類的所述聚類ID相 對應地記錄在所述聚類/要素對應表中。本發(fā)明的一個方式的集成電路,搭載于數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置具有用于 記錄所述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件的臨時記錄部,所述單元/要素對 應表將識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于利用 該單元ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條件用 于規(guī)定所述多個單元各自的邊界。具體地,該集成電路具有特征抽取部,抽取新追加的所 述要素數(shù)據(jù)的特征量;層次分類處理部,通過將由所述特征抽取部抽取的特征量與所述分 類邊界條件進行比較,確定所述多個單元之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單 元,并且按照規(guī)定的制約條件將規(guī)定所述歸屬單元的邊界的所述分類邊界條件更新,以使 所述新追加的要素數(shù)據(jù)包含在所述歸屬單元中;以及數(shù)據(jù)管理部,將識別所述新追加的要 素數(shù)據(jù)的要素ID、和識別由所述層次分類處理部確定的所述歸屬單元的所述單元ID相對 應地記錄在所述單元/要素對應表中。在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2 要素數(shù)據(jù)群被輸入到該數(shù)據(jù)處理裝置的情況下,所述層次分類處理部針對所述第1及第2 要素數(shù)據(jù)群分別獨立地執(zhí)行確定所述歸屬單元、并且更新所述分類邊界條件的處理。而且, 該集成電路還具有層次分類合并部,該層次分類合并部將在分別針對所述第1及第2要素 數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。發(fā)明效果根據(jù)本發(fā)明,能夠?qū)崿F(xiàn)用于同時實現(xiàn)逐次處理型自動分類和用戶的手動分類的數(shù) 據(jù)管理,并且使標注結(jié)果和自動分類結(jié)果不矛盾地同時存在。
圖1是本發(fā)明的實施方式1的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖2是本發(fā)明的實施方式1的數(shù)據(jù)處理裝置的自動分類處理部的具體結(jié)構(gòu)框圖。圖3是表示本發(fā)明的實施方式1的分組/聚類/要素數(shù)據(jù)的關系的圖。
圖4A是表示本發(fā)明的實施方式1的分組/聚類對應表的圖。圖4B是表示本發(fā)明的實施方式1的聚類/要素對應表的圖。圖5是說明本發(fā)明的實施方式1的聚類分類邊界條件的更新的概念圖。圖6是本發(fā)明的實施方式2的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖7是本發(fā)明的實施方式3的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖8是本發(fā)明的實施方式1 3的數(shù)據(jù)處理裝置的處理步驟的流程圖。圖9是表示本發(fā)明的實施方式1 3的數(shù)據(jù)處理裝置的分類經(jīng)過的一例的圖。圖10是利用分組/聚類對應表以及聚類/要素對應表來表示本發(fā)明的實施方式 1 3的數(shù)據(jù)處理裝置的分類結(jié)果的一例的圖。圖11是現(xiàn)有結(jié)構(gòu)的采用逐次層次分類的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖12是現(xiàn)有結(jié)構(gòu)的采用逐次層次分類的數(shù)據(jù)處理裝置的處理流程圖。圖13是現(xiàn)有結(jié)構(gòu)的采用逐次層次分類的數(shù)據(jù)處理裝置的自動分類性能比較的 圖。圖14是本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖15是本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的層次分類的概念圖。圖16是本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的具體結(jié)構(gòu)框圖。圖17是本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的處理流程圖。圖18是本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的層次分類合并部的處理概念圖。圖19是本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的層次分類合并部的處理概念圖。圖20是表示本發(fā)明的實施方式4的數(shù)據(jù)處理裝置的自動分類性能的圖。圖21A是表示利用帶制約逐次更新法生成的單元的生長過程的概念圖。圖21B是表示利用帶限制合并法生成的單元的生長過程的概念圖。圖22是現(xiàn)有結(jié)構(gòu)的逐次自動分類時的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖23是現(xiàn)有結(jié)構(gòu)的逐次自動分類時的數(shù)據(jù)處理裝置的自動分類處理部的具體結(jié) 構(gòu)框圖。圖24A是表示作為標注的一例的分割作業(yè)的概念圖。圖24B是表示作為標注的一例的結(jié)合作業(yè)的概念圖。圖MC是表示作為標注的一例的去除作業(yè)的概念圖。圖24D是表示作為標注的一例的元數(shù)據(jù)賦予作業(yè)的概念圖。圖25是現(xiàn)有結(jié)構(gòu)的體現(xiàn)標注結(jié)果時的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖沈是現(xiàn)有結(jié)構(gòu)的層次分類的概念圖。圖27是現(xiàn)有結(jié)構(gòu)的數(shù)據(jù)檢索時的數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。圖觀是表示現(xiàn)有結(jié)構(gòu)的數(shù)據(jù)處理裝置的處理步驟的一例的流程圖。圖四是表示現(xiàn)有結(jié)構(gòu)的數(shù)據(jù)處理裝置的處理步驟的另一例的流程圖。圖30是表示圖四所示的處理步驟的分類結(jié)果的示例的圖。圖31是表示圖四所示的處理步驟的自動分類及標注的結(jié)果的示例的圖。圖32是表示圖四所示的處理步驟的聚類/要素對應的圖。圖33是表示現(xiàn)有結(jié)構(gòu)的數(shù)據(jù)處理裝置的處理步驟的另一例的流程圖。圖34是表示圖33所示的處理步驟的課題的分類概念圖。
圖35是表示現(xiàn)有結(jié)構(gòu)的數(shù)據(jù)處理裝置的處理步驟的另一例的流程圖。
具體實施例方式下面,參照
本發(fā)明的各個實施方式。(實施方式1)參照圖1 圖5說明本發(fā)明的實施方式1的數(shù)據(jù)處理裝置。圖1表示本實施方式1的數(shù)據(jù)處理裝置100,尤其表示在進行自動分類時所需要的 構(gòu)成要素。圖1所示的數(shù)據(jù)處理裝置100具有特征抽取部1、自動分類處理部2、聚類/要 素對應表更新記錄部3、分組/聚類對應表追記部4、臨時記錄部5、數(shù)據(jù)管理部6。另外,特 征抽取部1及臨時記錄部5的結(jié)構(gòu)內(nèi)容盡管與現(xiàn)有示例相同,但與其具體內(nèi)容相關的示例, 并不限定于此。特征抽取部1抽取要素數(shù)據(jù)的特征量。例如,在向數(shù)據(jù)處理裝置100輸入作為要 素數(shù)據(jù)的人的人臉圖像后,對該圖像進行Gabor小波變換,并抽取特征量。并且,特征抽取 部1對要素數(shù)據(jù)以及該要素數(shù)據(jù)的特征量賦予唯一的要素ID并記錄在臨時記錄部5中。在由特征抽取部1計算追加要素的特征量后,自動分類處理部2從臨時記錄部5 讀出各個聚類的分類邊界條件。并且,通過將追加要素的特征量與各個聚類的分類邊界條 件進行比較,進行追加要素屬于哪個聚類的判定。另外,分類邊界條件是指規(guī)定各個聚類的 邊界的條件,是根據(jù)過去的分類結(jié)果而確定的。然后,自動分類處理部2向聚類/要素對應表更新記錄部3發(fā)送追加要素的要素 ID、和該追加要素歸屬的聚類(歸屬聚類)的聚類ID。并且,自動分類處理部2按照規(guī)定的 制約條件更新歸屬聚類的分類邊界條件,以使歸屬聚類包括追加要素。并且,自動分類處理 部2將被施加變更后的聚類的分類邊界條件和追加要素的坐標記錄在臨時記錄部5中。關 于詳細的處理結(jié)構(gòu)示例將在后面進行說明。聚類/要素對應表更新記錄部3讀出在臨時記錄部5中記錄的過去的聚類/要素 對應表,并根據(jù)從自動分類處理部2獲取的聚類/要素對應信息進行針對變更部位的更新。 并且,在更新結(jié)束后,將被更新后的聚類/要素對應表記錄在臨時記錄部5中。另外,在伴隨 要素數(shù)據(jù)的追加而產(chǎn)生了新的聚類的情況下,將作為相應的聚類的信息的、追加聚類信息, 發(fā)送給分組/聚類對應表追記部4。更具體地講,在由自動分類處理部2確定為新追加的要素數(shù)據(jù)屬于已有的聚類的 情況下,聚類/要素對應表更新記錄部3將該新追加的要素數(shù)據(jù)的要素ID與該已有的聚類 的聚類ID相對應地追加記錄在聚類/要素對應表中。另一方面,在由自動分類處理部2確 定為新追加的要素數(shù)據(jù)不屬于已有的任意一個聚類的情況下,將該新追加的要素數(shù)據(jù)的要 素ID與新編號的聚類ID相對應地追加記錄在聚類/要素對應表中。分組/聚類對應表追記部4從臨時記錄部5讀出作為過去的標注結(jié)果的分組/聚 類對應表,對新產(chǎn)生的一個聚類賦予使其原樣成為一個分組的分組ID,并追加記錄在分組 /聚類對應表中。并且,在追加記錄結(jié)束后,將被更新后的分組/聚類對應表記錄在臨時記 錄部5中。另外,數(shù)據(jù)管理部6包括聚類/要素對應表更新記錄部3和分組/聚類對應表 追記部4。具體地講,分組/聚類對應表追記部4在由自動分類處理部2確定為新追加的要素數(shù)據(jù)不屬于已有的任意一個聚類的情況下,將新編號的聚類ID與新編號的分組ID相對 應地追加記錄在分組/聚類對應表中。在臨時記錄部5中記錄有要素數(shù)據(jù)及其特征量、聚類/要素對應表、分類邊界條 件、分組/聚類對應表。另外,關于臨時記錄部5的具體示例沒有特別限定,臨時記錄部5 能夠采用例如硬盤、光盤、半導體存儲器等能夠臨時存儲數(shù)據(jù)的所有記錄介質(zhì)。分組/聚類對應表例如按照圖4A所示,將識別按照用戶的主觀基準而分類后的分 組的分組ID、和識別屬于利用該分組ID識別的分組的聚類的聚類ID相對應地保持。聚類 /要素對應表例如按照圖4B所示,將識別由數(shù)據(jù)處理裝置100分類后的多個聚類中的各個 聚類的聚類ID、和識別屬于利用該聚類ID識別的聚類的要素數(shù)據(jù)的要素ID相對應地保持。圖2表示自動分類處理部2的更具體的結(jié)構(gòu)。圖2所示的自動分類處理部2具有 歸屬聚類判定部7、聚類/要素ID管理部8、分類邊界條件讀出部9、分類邊界條件更新記錄 部10。歸屬聚類判定部7、分類邊界條件讀出部9的結(jié)構(gòu)內(nèi)容及處理與現(xiàn)有示例相同,但不 限于此處列舉的處理結(jié)構(gòu)。歸屬聚類判定部7把由特征抽取部1得到的追加要素的特征量的特征空間上的坐 標、和通過分類邊界條件讀出部9從臨時記錄部5讀出的過去的聚類的分類邊界條件作為 輸入,把最接近的聚類判定為歸屬目的地的聚類。另外,在所輸入的特征量被判定為相對于 哪一個聚類的分類邊界條件都比預先設定的距離還遠的情況下,通過新生成該追加要素的 歸屬目的地的聚類來應對。并且,歸屬聚類判定部7將追加要素的歸屬聚類通知聚類/要 素ID管理部8。聚類/要素ID管理部8根據(jù)從歸屬聚類判定部7獲取的追加要素的歸屬聚類的 信息,確定聚類ID。例如,如果判定為追加要素應該屬于獨立的新的聚類,則賦予新的聚類 ID。另一方面,如果判定為應該屬于已有的聚類,則賦予相應的聚類ID。并且,把該信息作 為聚類/要素對應信息發(fā)送給數(shù)據(jù)管理部6,更新聚類/要素對應表。分類邊界條件更新記錄部10通過分類邊界條件讀出部9從臨時記錄部5讀出作 為過去的分類結(jié)果的、每個聚類的分類邊界條件。并且,只修正與追加要素所歸屬的聚類相 關的分類邊界條件。例如,雖然存在聚類A與聚類B的邊界條件,但是聚類A和聚類C不鄰 接,所以設為不存在邊界條件。在此,將追加要素a追加到聚類A中時,只將聚類A與聚類 B的分類邊界條件修正成為使聚類A包括追加要素a。分類邊界條件的設定方法依賴于先 前列舉的自動分類方法。并且,將更新后的不同聚類的分類邊界條件和追加要素的歸屬聚 類記錄在臨時記錄部5中。并且,分類邊界條件更新記錄部10在更新追加要素所歸屬的聚類的分類邊界條 件時,按照至少兩個制約條件(也稱為“更新條件”,下同)來執(zhí)行處理。具體地講,首先禁 止將已有的聚類彼此結(jié)合而生成新的聚類。例如,不允許在分類邊界條件的更新之前屬于 與歸屬聚類不同的其他聚類的要素數(shù)據(jù)在分類邊界條件的更新之后屬于歸屬聚類。其次, 禁止將已有的聚類的一部分分割而生成新的聚類。例如,不允許在分類邊界條件的更新之 前屬于歸屬聚類的要素數(shù)據(jù)在分類邊界條件的更新之后屬于與歸屬聚類不同的其他聚類。這樣,在自動分類處理部2中,即使對從已有的分類結(jié)果得到的過去的聚類追加 要素數(shù)據(jù)時,也能夠施加不會使聚類自身被分割、或使已有聚類彼此新結(jié)合的限制(更新 條件)。另外,認可由追加要素自身生成新的聚類、以及對已有聚類追加追加要素。
圖3是在現(xiàn)有的要素數(shù)據(jù)、聚類的概念基礎上,在聚類的上位增加分組(group)概 念的示意圖。圖4A是表示分組ID與聚類ID的關系的分組/聚類對應表的示例的圖。圖 4B是表示聚類ID與要素ID的關系的聚類/要素對應表的示例的圖。這樣,使圖4A所示的聚類/要素對應表具有保存自動分類的結(jié)果的作用。另一方 面,使圖4B所示的分組/聚類對應表具有保存標注結(jié)果的作用。這樣,能夠應對因追加要 素而進行的自動再分類。此外,按照圖2的自動分類處理部2所示設定追加的自動分類處 理時的更新條件(制約條件),不對已經(jīng)分類的結(jié)果做較大變更,只更新與追加要素所歸屬 的聚類相關的信息。由此,能夠削減該更新所需要的分類或數(shù)據(jù)管理的運算量,而且不會大 大降低自動分類處理的精度。圖5是表示分類邊界條件更新記錄部10的更新狀態(tài)的概念圖。圖5表示當在特 征空間上追加了要素數(shù)據(jù)時需要更新該追加要素所歸屬的聚類的分類邊界條件。如該圖5 所示,可以采用不僅只更新所歸屬的聚類的分類邊界條件,而且還考慮與鄰接的聚類之間 的關系并且確定分類邊界條件的方法。此時,通常采用根據(jù)構(gòu)成各個聚類的要素數(shù)據(jù)的坐 標來確定分類邊界條件的方法(例如,SVM的支持向量等)。(實施方式2)參照圖6說明本發(fā)明的實施方式2的數(shù)據(jù)處理裝置200。圖6表示本實施方式2的數(shù)據(jù)處理裝置200,尤其表示在進行標注時所需要的構(gòu)成 要素。圖6所示的數(shù)據(jù)處理裝置200具有用戶改變操作檢測部11、分組/聚類對應表更新 記錄部12、聚類/要素對應表更新記錄部3、臨時記錄部5。聚類/要素對應表更新記錄部 3的結(jié)構(gòu)內(nèi)容與實施方式1相同。并且,數(shù)據(jù)管理部6包括聚類/要素對應表更新記錄部3 和分組/聚類對應表更新記錄部12。另外,用戶改變操作檢測部11及臨時記錄部5的結(jié)構(gòu) 內(nèi)容與現(xiàn)有示例相同,但只是與其具體內(nèi)容相關的示例,并不限定于此。用戶改變操作檢測部11在檢測到用戶開始標注操作時,將該情況通知分組/聚類 對應表更新記錄部12和聚類/要素對應表更新記錄部3。在接收到來自用戶改變操作檢測 部11的通知時,分組/聚類對應表更新記錄部12從臨時記錄部5讀出作為過去的分類結(jié) 果的分組/聚類對應表,聚類/要素對應表更新記錄部3從臨時記錄部5讀出作為過去的 分類結(jié)果的聚類/要素對應表,由此能夠掌握用戶如何改變哪個要素數(shù)據(jù)。并且,用戶改變操作檢測部11把實際改變了的內(nèi)容作為分組/聚類/要素對應信 息發(fā)送給分組/聚類對應表更新記錄部12。例如,數(shù)據(jù)處理裝置200根據(jù)分組/聚類對應 表及聚類/要素對應表,在顯示部(在圖6中省略圖示)顯示分組與屬于該分組的要素數(shù)據(jù) 之間的關系。并且,用戶改變操作檢測部11使用戶變更分組與要素數(shù)據(jù)之間的對應關系。 用戶改變操作檢測部11把用戶進行的改變操作的結(jié)果,作為分組/聚類/要素對應信息發(fā) 送給分組/聚類對應表更新記錄部12。分組/聚類對應表更新記錄部12根據(jù)從用戶改變操作檢測部11獲取的分組/聚 類/要素對應信息,更新分組/聚類對應表,并記錄在臨時記錄部5中。具體地講,分組/聚 類對應表更新記錄部12從聚類/要素對應表抽取與由用戶改變操作檢測部11檢測到的要 素ID相對應的聚類ID。并且,更新被抽取的聚類ID、與由用戶改變操作檢測部11檢測到 的要素ID在分組/聚類對應表中的對應關系。并且,分組/聚類對應表更新記錄部12向 聚類/要素對應表更新記錄部3發(fā)送應該更新的聚類/要素對應信息。具體地講,在由于由用戶改變操作檢測部11檢測到的分組ID與要素ID之間的對應關系的變更,而需要變更 聚類ID與要素ID之間的對應關系的情況下,分組/聚類對應表更新記錄部12把該變更內(nèi) 容作為聚類/要素對應信息發(fā)送給聚類/要素對應表更新記錄部3。聚類/要素對應表更新記錄部3根據(jù)從分組/聚類對應表更新記錄部12獲取的 聚類/要素對應信息,更新聚類/要素對應表,并記錄在臨時記錄部5中。這樣,在要素數(shù)據(jù)、聚類的概念基礎上,在聚類的上位增加分組的概念。并且,使聚 類/要素對應表具有保存自動分類的結(jié)果的作用,使分組/聚類對應表具有保存標注的結(jié) 果的作用。由此,能夠在應對因追加要素而進行的自動再分類的同時,簡單地更新標注結(jié)果。(實施方式3)參照圖7 圖10說明本發(fā)明的實施方式3的數(shù)據(jù)處理裝置300。圖7表示本實施方式3的數(shù)據(jù)處理裝置300,尤其表示進行數(shù)據(jù)檢索時所需要的 構(gòu)成要素。圖7所示的數(shù)據(jù)處理裝置300具有顯示分組確定部13、分組/聚類關系檢索部 14、聚類/要素關系檢索部15、顯示部16、臨時記錄部5。聚類/要素關系檢索部15、顯示 部16及臨時記錄部5的結(jié)構(gòu)內(nèi)容與現(xiàn)有示例相同,但只是與其具體內(nèi)容相關的示例,并不 限定于此。顯示分組確定部13根據(jù)用戶的操作等確定應該顯示的分組,并向分組/聚類關系 檢索部14發(fā)送包括作為顯示對象的一個以上分組的分組ID的顯示分組信息。例如,數(shù)據(jù) 處理裝置300也可以在顯示部16顯示分組的一覽,并使用戶選擇應該顯示的分組。分組/聚類關系檢索部14從臨時記錄部5讀出作為過去的分類結(jié)果的分組/聚 類對應表。并且,把所輸入的顯示對象的分組的分組ID作為查詢,從分組/聚類對應表中 檢索并抽取歸屬于相應分組的聚類的聚類ID。在檢索完成后,分組/聚類關系檢索部14向 聚類/要素關系檢索部15發(fā)送包括作為顯示對象的聚類的聚類ID的顯示聚類信息。聚類/要素關系檢索部15從臨時記錄部5讀出作為過去的分類結(jié)果的聚類/要 素對應表。并且,把所輸入的顯示對象的聚類的聚類ID作為查詢,從聚類/要素對應表中 檢索并抽取歸屬于相應聚類的要素數(shù)據(jù)的要素ID。在檢索完成后,向顯示部16發(fā)送包括作 為顯示對象的要素數(shù)據(jù)的要素ID的顯示要素信息。顯示部16根據(jù)從聚類/要素關系檢索部15獲取的顯示要素信息,顯示與從臨時 記錄部5讀出的相應要素數(shù)據(jù)相關的信息——即要素關聯(lián)信息。這樣,在要素數(shù)據(jù)、聚類的概念基礎上,在聚類的上位增加分組的概念。另外,使聚 類/要素對應表具有保存自動分類的結(jié)果的作用,使分組/聚類對應表具有保存標注結(jié)果 的作用。這樣,能夠在應對因追加要素而進行的自動再分類的同時,簡單地更新標注結(jié)果, 并且能夠容易地檢索與期望的分組相關的數(shù)據(jù)。圖8表示逐次處理中的自動分類和標注的處理的流程。另外,圖8表示與圖觀、圖 29、圖33及圖35相同地進行從左向右按照時間序列排列的處理的狀態(tài)。通過進行此前示 出的那些處理,能夠獲取逐次自動分類與標注的整合,同時能夠大幅削減進行管理數(shù)據(jù)的 更新及檢索所需要的時間。具體地講,按照在實施方式1中敘述的那樣,設定針對已有聚類 的更新條件,并按照在實施方式1、2、3中敘述的那樣,區(qū)分為自動分類結(jié)果和標注結(jié)果來 進行雙重管理。
圖9是表示在自動分類中設定更新條件,并導入分組這一新的概念,由此在現(xiàn)有 的圖30及圖31的條件下分類結(jié)果如何變化的圖。圖10是表示導入分組這一新的概念,由 此與圖32所示的現(xiàn)有結(jié)構(gòu)相比,分組/聚類對應表以及聚類/要素對應表的更新部分被削 減了多少的圖。參照圖9及圖10具體說明數(shù)據(jù)處理裝置100的自動分類處理以及數(shù)據(jù)處理裝置 200的標注處理。另外,在上述的說明中,把執(zhí)行自動分類處理的數(shù)據(jù)處理裝置100、和執(zhí)行 標注處理的數(shù)據(jù)處理裝置200作為分開的獨立的裝置進行說明,當然也可以將兩者構(gòu)成為
同一裝置。首先,數(shù)據(jù)處理裝置100受理5個要素數(shù)據(jù)(要素0 5)的輸入,并對這些要素 數(shù)據(jù)進行自動分類。圖9中的左側(cè)的圖和圖10中的左側(cè)的表表示自動分類結(jié)果。具體地 講,如圖9中的左側(cè)的圖和圖10中的左側(cè)的聚類/要素對應表所示,使要素0歸屬于聚類 0,使要素1、2歸屬于聚類1,使要素3、4歸屬于聚類2,使要素5歸屬于聚類3。并且,在當 前時刻不執(zhí)行標注,所以如圖10中的左側(cè)的分組/聚類對應表所示,分組ID與聚類ID — 對一地對應。然后,數(shù)據(jù)處理裝置200的用戶改變操作檢測部11檢測用戶進行的標注操作。在 此,用戶設定為使要素0、1、2歸屬于分組0,使要素3、4、5歸屬于分組1。用戶改變操作檢 測部11把用戶指定的要素數(shù)據(jù)與分組之間的對應關系,作為分組/聚類/要素對應信息發(fā) 送給分組/聚類對應表更新記錄部12。分組/聚類對應表更新記錄部12根據(jù)從用戶改變操作檢測部11獲取的分組/聚 類/要素對應信息,更新從臨時記錄部5讀出的分組/聚類對應表。具體地講,首先從聚類/要素對應表中抽取與作為操作對象的要素數(shù)據(jù)的要素ID 對應的聚類ID。在上述的示例中,抽取包括要素0的聚類0和包括要素1、2的聚類1。然 后,更新分組/聚類對應表中的對應關系,使被抽取的聚類0、1屬于同一分組0。同樣,更新 分組/聚類對應表中的對應關系,使包括要素3、4的聚類2和包括要素5的聚類3屬于同 一分組1。由此,得到在圖10的中央示出的分組/聚類對應表。然后,分組/聚類對應表更新記錄部12根據(jù)用戶的改變操作,判定是否需要變更 聚類ID與要素ID之間的對應關系。在上述的示例中,不需要變更聚類ID與要素ID之間 的對應關系。另一方面,在需要變更聚類ID與要素ID之間的對應關系的情況下,向聚類/ 要素對應表更新記錄部3發(fā)送表示新的對應關系的聚類/要素對應信息。聚類/要素對應表更新記錄部3只在從分組/聚類對應表更新記錄部12接收到聚 類/要素對應信息的情況下(即,需要變更聚類ID與要素ID之間的對應關系的情況下), 更新從臨時記錄部5讀出的聚類/要素對應表。然后,在新的要素6被輸入到數(shù)據(jù)處理裝置100中時,由特征抽取部1抽取該要素 6的特征量,由歸屬聚類判定部7判定要素6的歸屬聚類。在該示例中,假設要素6歸屬于 聚類1。聚類/要素ID管理部8根據(jù)歸屬聚類判定部7的判定結(jié)果,向聚類/要素對應表 更新記錄部3發(fā)送表示聚類1與要素6之間的對應關系的聚類/要素對應信息。并且,隨著要素6歸屬于聚類1,分類邊界條件更新記錄部10更新聚類1的分類邊 界條件。更新后的分類邊界條件包括新追加的要素6,而且遵從于(符合)制約條件。艮口, 分類邊界條件被更新成為使聚類1包括要素6,而且,使在更新之前屬于其他聚類0、2、3的要素0、3、4、5不會屬于聚類1,或在更新之前屬于聚類1的要素1、2、3不會脫離聚類1。另一方面,聚類/要素對應表更新記錄部3根據(jù)從聚類/要素ID管理部8獲取的 聚類/要素對應信息,將聚類1與要素6之間的對應關系追加記錄在聚類/要素對應表中。 由此,得到圖10中的右側(cè)示出的聚類/要素對應表。并且,在新追加的要素6不歸屬于已 有的任意一個聚類的情況下,從聚類/要素對應表更新記錄部3向分組/聚類對應表追記 部4發(fā)送追加聚類信息,由分組/聚類對應表追記部4將分組/聚類對應表更新。但是,在 上述的示例中不需要更新分組/聚類對應表。這樣,首先在進行標注時,只在分組/聚類對應表中產(chǎn)生通過用戶的操作而產(chǎn)生 的分組ID的更換,不需要改寫聚類/要素對應表。并且,不需要像在現(xiàn)有示例中敘述的那 樣針對全部要素數(shù)據(jù)改寫所屬聚類的ID,能夠期待快速的更新動作。并且,在被追加了要素 數(shù)據(jù)時設定更新條件,所以只需針對新追加的要素數(shù)據(jù)在聚類/要素對應表中進行追加記 錄,不產(chǎn)生分組/聚類對應表的更新。另外,追加要素如在該示例中示出的那樣不是追加到已有聚類中,而是在生成新 的聚類的情況下產(chǎn)生分組/聚類對應表的更新,但可以只追加記錄相應聚類和與其對應的 新分組ID這一行,依舊不需要像在現(xiàn)有示例中敘述的那樣針對全部要素數(shù)據(jù)產(chǎn)生所屬聚 類的ID改寫,能夠期待快速的更新動作。關于檢索速度,由于設為分組、聚類及要素數(shù)據(jù)這 兩個層次,所以相比在現(xiàn)有示例中示出的一個層次,通常往往是快速檢索。(實施方式4)圖11表示作為實施方式4的比較示例的數(shù)據(jù)處理裝置2000,尤其表示在執(zhí)行將實 施方式3所示的數(shù)據(jù)管理方法和層次式樹狀分類方法相結(jié)合的分類處理時需要的構(gòu)成要
ο圖11所示的數(shù)據(jù)處理裝置2000具有特征抽取部1100、歸屬聚類判定部1210、聚 類/要素ID管理部1250、分類邊界條件讀出部1240、層次分類邊界條件更新記錄部1沈0、 層次分類部1201、臨時記錄部1400。特征抽取部1100、歸屬聚類判定部1210、分類邊界條 件讀出部1240及臨時記錄部1400的結(jié)構(gòu)內(nèi)容與現(xiàn)有示例相同,但只是與其具體內(nèi)容相關 的示例,并不限定于此。另外,聚類/要素ID管理部1250依據(jù)于實施方式1的結(jié)構(gòu)。層次分類部1201在由特征抽取部1100計算追加要素的特征量后,從臨時記錄部 1400讀出此前的作為過去的分類結(jié)果的各個聚類的分類邊界條件、和全部要素數(shù)據(jù)的特征 空間上的坐標信息,并進行追加要素屬于哪個聚類的判定。然后,通過追加新的要素數(shù)據(jù), 對過去的分類結(jié)果施加修正,將被施加變更后的聚類的分類邊界條件和追加要素的坐標記 錄在臨時記錄部1400中。下面說明具體的處理結(jié)構(gòu)示例。在適用于層次分類時的歸屬聚類判定部1210的具體方法如下所述。首先,歸屬聚 類判定部1210針對圖沈所示的過去的層次自動結(jié)果,從逐次上位層次開始,根據(jù)在各個節(jié) 點的層次分類邊界條件,進行所輸入的追加要素與哪個分支接近的判定,并進行匹配,一直 到最下位層次。這樣,判定最終應該歸屬的最近的聚類。另外,層次分類邊界條件預先通過 分類邊界條件讀出部1240從臨時記錄部1400讀出。并且,歸屬聚類判定部1210將所判定 的應該歸屬的聚類信息,輸出給層次分類邊界條件更新記錄部1260的同時,記錄在臨時記 錄部1400中。關于層次分類邊界條件的具體示例可以考慮以下方法,即在各個節(jié)點中考慮各個集團的下位構(gòu)成要素,對各個不同集團準備一個在特征空間上分布的概率密度函數(shù)。在 這種情況下,按照不同的逐次層次進行判定,以使輸入要素數(shù)據(jù)的坐標而得到的概率密度 屬于最高的集團。除此之外,也可以進行距離判定而非概率密度判定。例如,在各個節(jié)點中 考慮各個集團的下位構(gòu)成要素,在輸入要素數(shù)據(jù)的坐標時,計算與各個集團的距離。這種情 況時的距離計算方法可以采用歐幾里得距離、馬氏(Mahalanobis)距離、曼哈頓距離等各 種方法。層次分類邊界條件更新記錄部1260從聚類/要素ID管理部1250獲取追加要素的 特征空間上的坐標及其歸屬聚類,從分類邊界條件讀出部1240獲取以前的分類邊界條件。 并且,更新追加要素所屬的各個層次的集團的概率密度函數(shù)或者距離計算公式。最后,將更 新后的分類邊界條件記錄在臨時記錄部1400中。圖12表示在使用圖11所示的數(shù)據(jù)處理裝置2000時的數(shù)據(jù)追加時的動作流程。更 具體地講,表示針對M個要素數(shù)據(jù)(第1要素數(shù)據(jù)群)執(zhí)行分類處理(Sll S14),然后針 對N個要素數(shù)據(jù)(第2要素數(shù)據(jù)群)執(zhí)行分類處理(S21 S2Q的方式。首先,在M個的逐次層次分類中,逐次追加要素數(shù)據(jù)并進行自動分類(S11)。并 且,每當追加要素數(shù)據(jù)時就更新分類邊界條件(S12)。在對全部追加要素進行分類處理后 (S13 是),將作為層次分類結(jié)果的、追加要素的歸屬聚類的信息和不同聚類的分類邊界條 件的信息,記錄在臨時記錄部1400中(S14)。然后,在追加N個數(shù)據(jù)時,讀出在臨時記錄部 1400中記錄的層次分類結(jié)果(S21),然后進行N個自動分類處理(S22 S24)。同樣,在對 全部追加要素進行分類處理后(SM 是),將作為層次分類結(jié)果的、追加要素的歸屬聚類的 信息和不同聚類的分類邊界條件的信息,記錄在臨時記錄部5中(S25)。反復進行這種處 理。通過采用這種結(jié)構(gòu),在逐次追加數(shù)據(jù)的情況下,只需進行追加量的分類處理,即可 保存過去的自動分類的結(jié)果,并且體現(xiàn)新的追加數(shù)據(jù)的自動分類結(jié)果。并且,通過采取層次 構(gòu)造,不需要每次都進行與過去的分類結(jié)果中的全部聚類的匹配,只需進行與層次數(shù)量相 對應的匹配即可,所以分類的處理負荷比較小。并且,只需更新新追加的要素數(shù)據(jù)所屬的集 團的各個層次的分類比較條件,所以更新時的處理負荷也比較小。但是,通過設定如實施方式1 3所述的分類的制約條件(更新條件),存在自動 分類的性能稍微變差的問題。圖13是構(gòu)建相同的利用層次分類方法(距離計算法)、人臉特征量抽取法的人臉 分類算法,對設定分類的制約條件(更新條件)時和不設定分類的制約條件(更新條件) 時的兩種自動分類結(jié)果進行比較的圖。作為評價用數(shù)據(jù),準備了兩個照片數(shù)據(jù)集(兩個家 庭照片集,各包括300個人臉)。第一個(圖13中的上欄)表示按照圖12所示的流程那樣在追加了 100個人臉后 再追加200個人臉,如此分為兩次進行自動分類,并設定層次分類時的更新條件的情況下 的正確率。第二個(圖13中的下欄)表示不設定更新條件,一次性地對300個人臉進行自 動分類時的正確率。另外,正確率是指把表示同一人物的各個要素數(shù)據(jù)(此時為人臉)被 分類為同一人物的聚類的情況視為正確,否則視為不正確,將正確人臉數(shù)除以總?cè)四様?shù)得 到的數(shù)值。參照圖13,得知具有更新條件時的正確率與沒有更新條件時相比,下降約4
255%。在這種實驗中,由于是在追加了 100個人臉后再追加200個人臉,如此追加第2數(shù)據(jù) 群O00個人臉)后求出的正確率,所以如果進行多次數(shù)據(jù)群的追加,估計性能進一步惡化。例如,關于一次性地對1000個人臉進行自動分類時、與將追加100個人臉的處理 反復進行10次時的正確率之差,估計是后者的情況時大大惡化。另外,在前者的方式中,成 為自動分類的對象的要素數(shù)據(jù)數(shù)在不斷增加,所以導致運算量增加。即,意味著不進行逐次 處理,并且存在運算量增加的另一種問題。鑒于以上問題,下面說明的本實施方式4用于實現(xiàn)下述的數(shù)據(jù)處理,S卩能夠同時 實現(xiàn)逐次處理型自動分類和用戶手動分類,并且將每次自動分類的性能維持成為與將過去 的要素數(shù)據(jù)全部重新分類時相同的性能。參照圖14 圖20說明本實施方式4的數(shù)據(jù)處理裝置400。另外,實施方式4中 的“單元”(unit)表示相當于實施方式1 3中的“聚類”的下位概念的、自動分類結(jié)果的 小單位。圖14是本實施方式4的數(shù)據(jù)處理裝置400的圖,尤其表示在進行自動分類時需要 的構(gòu)成要素。圖14所示的數(shù)據(jù)處理裝置400具有特征抽取部1、自動分類處理部2、歸屬單 元判定部17、單元/要素ID管理部18、分類邊界條件更新部19、分類合并部20、聚類部21、 數(shù)據(jù)管理部6、臨時記錄部5。特征抽取部1及臨時記錄部5的結(jié)構(gòu)內(nèi)容與現(xiàn)有示例相同, 但只是與其具體內(nèi)容相關的示例,并不限定于此。另外,數(shù)據(jù)管理部6、歸屬單元判定部17 及單元/要素ID管理部18依據(jù)于實施方式1的數(shù)據(jù)管理部6、歸屬聚類判定部7、聚類/ 要素ID管理部8的結(jié)構(gòu),只是把“聚類”替換為“單元”的區(qū)別。在分別包括兩個以上的要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群被輸入到上述結(jié)構(gòu)的數(shù) 據(jù)處理裝置400中的情況下,自動分類處理部2針對各個第1及第2要素數(shù)據(jù)群分別獨立 地執(zhí)行確定歸屬聚類的處理和更新分類邊界條件的處理。分類合并部20在針對全部要素數(shù)據(jù)的處理結(jié)束后,將在針對各個第1及第2要素 數(shù)據(jù)群的處理中被更新后的分類邊界條件合并。聚類部21生成包括多個單元的聚類,并確 定用于規(guī)定聚類的邊界的分類邊界條件。圖15表示層次分類方法中的單元與聚類的關系。其中,分類是指分類成為以較小 單位劃分得到的集團(單元)。另一方面,聚類(動詞)是指輸出對這種小分類的集團(單 元)進行大分類(聚類)的結(jié)果。分類合并部20把比某個任意的距離尺度a小的范圍設 為一個小集團(單元)。聚類部21把比距離尺度b小的范圍設為大分類(聚類),距離尺 度b比距離尺度a大。其中,距離尺度a是固定的,但距離尺度b例如能夠由用戶設定可變的值。這樣, 自動分類的結(jié)果能夠以較小的單位(單元)始終持續(xù)保存包括過去的要素數(shù)據(jù)在內(nèi)的該分 類后的結(jié)果。并且,在執(zhí)行自動分類處理時,能夠每次判定以何種程度的尺度進行分類。另 外,不需每次對全部要素數(shù)據(jù)進行再分類,只需利用過去的小分類結(jié)果重新進行大分類,所 以能夠減少進行追加分類處理時的運算量。本實施方式4的自動分類處理部2是應對逐次處理的結(jié)構(gòu),在計算追加要素的特 征量后,根據(jù)此前追加的多個要素數(shù)據(jù)中閉合的分類結(jié)果,逐次判定屬于哪個聚類。在全部 追加要素的輸入結(jié)束、并想要輸出分類結(jié)果時,將該結(jié)果發(fā)送給分類合并部20。下面說明其 內(nèi)部處理的流程。
歸屬單元判定部17把從特征抽取部1獲取的追加要素的特征空間上的坐標、和從 分類邊界條件更新部19獲取的分類邊界條件作為輸入,把最接近的單元判定為歸屬單元。 其中,從分類邊界條件更新部19獲取的分類邊界條件是指在所追加的多個要素數(shù)據(jù)中閉 合的、到前一個單元為止的分類邊界條件。但是,由于是在一次追加的多個要素數(shù)據(jù)中進行 閉合的分類,所以在將第一次追加的要素數(shù)據(jù)分類時不存在分類邊界條件。并且,在每當追 加要素數(shù)據(jù)時,由分類邊界條件更新部19重新設定分類邊界條件,歸屬單元判定部17逐次 讀出要素數(shù)據(jù)并判定該要素數(shù)據(jù)的歸屬目的地。另外,接收到判定的結(jié)果后,由層次分類邊 界條件更新部22重新設定分類邊界條件,反復進行以上處理。并且,在追加要素消失的階段,向分類合并部20發(fā)送最新的分類邊界條件。另外, 在判定歸屬單元時,在針對哪一個單元都判定為比預先設定的距離還遠的情況下,通過新 生成歸屬目的地的單元來應對。單元/要素ID管理部18根據(jù)追加要素應該歸屬的單元信息,確定單元ID。例如, 如果判定為追加要素應該屬于獨立的新的單元,則賦予新的單元ID。另外,如果判定為應該 屬于已有的單元,則賦予相應的單元ID。并且,把該信息發(fā)送給分類邊界條件更新部19。分類邊界條件更新部19更新在所追加的多個要素數(shù)據(jù)中閉合的、到前一個單元 為止的分類邊界條件。具體地講,只修正與追加要素歸屬的聚類相關的分類邊界條件。例 如,雖然存在聚類A與聚類B之間的邊界條件,但是聚類A和聚類C不鄰接,所以設為不存 在邊界條件。在此,將追加要素a追加到聚類A中時,只修正聚類A與聚類B之間的分類邊 界條件。分類邊界條件的設定方法依賴于先前列舉的自動分類方法。并且,將更新后的不 同聚類的分類邊界條件和追加要素的歸屬聚類記錄在臨時記錄部5中。另外,在本實施方式4的自動分類處理部2中,附加與實施方式1相同的以下限制 (更新條件),即在對已經(jīng)從分類的結(jié)果得到的過去的聚類追加新的要素數(shù)據(jù)時,不會將 聚類本身分割、或?qū)⒁延芯垲惐舜酥匦陆Y(jié)合。具體地講,由分類邊界條件更新部19來附加 這種限制。另外,允許從追加要素自身新生成聚類、以及對已有聚類追加追加要素。分類合并部20在全部追加要素的輸入結(jié)束、并要輸出分類結(jié)果時,將所追加的多 個要素數(shù)據(jù)中的不同單元的分類邊界條件、和從臨時記錄部5讀出的作為以前的分類結(jié)果 的不同單元的分類邊界條件合并,計算新的不同單元的分類邊界條件,并記錄在臨時記錄 部5中。并且,向聚類部21發(fā)送所追加的要素數(shù)據(jù)以及該要素數(shù)據(jù)歸屬的單元的信息。聚類部21根據(jù)從分類合并部20輸出的最新的單元/要素對應信息來進行聚類。 此處所說的聚類是指如前面所述輸出根據(jù)小分類的集團(單元)進行大分類后的結(jié)果。圖16表示數(shù)據(jù)處理裝置500的結(jié)構(gòu),其是將實施方式4的數(shù)據(jù)處理裝置400的構(gòu) 成要素中的、自動分類處理部2替換為層次分類處理部24、分類邊界條件更新部19替換為 層次分類邊界條件更新部22、分類合并部20替換為層次分類處理部M而構(gòu)成的。另外,除 了層次分類邊界條件更新部22及層次分類合并部23之外,其他構(gòu)成要素依據(jù)于先前說明 的圖14所示的結(jié)構(gòu)。在圖16所示的數(shù)據(jù)處理裝置500中,將分類邊界條件劃分層次進行管理。具體地 講,如圖15所示,把用于規(guī)定各個單元0、1、2的邊界條件的分類邊界條件設為下位的分類 邊界條件,把用于規(guī)定包括單元0、1、2的聚類0的邊界的分類邊界條件設為上位的分類邊 界條件。單元3、4、5和聚類1、2的分類邊界條件的關系也相同。
并且,層次分類處理部M的歸屬單元判定部17在判定追加要素的歸屬單元時,從 上位的分類邊界條件開始順序進行比較。例如,歸屬單元判定部17首先將追加要素的特征 量和聚類0的分類邊界條件(上位的分類邊界條件)進行比較,由此判定追加要素是否應 該歸屬于聚類0。并且,在判定為追加要素應該歸屬于聚類0的情況下,歸屬單元判定部17 將追加要素的特征量和各個單元0、1、2的分類邊界條件(下位的分類邊界條件)進行比 較,由此判定追加要素應該歸屬于單元0、1、2中的哪一個單元。并且,層次分類處理部M的層次分類邊界條件更新部22只更新追加要素所歸屬 的單元及聚類的分類邊界條件。例如,在上述的示例中,在判定為追加要素歸屬于單元1的 情況下,層次分類邊界條件更新部22只更新聚類0的分類邊界條件以及單元1的分類邊界 條件。根據(jù)上述的結(jié)構(gòu),能夠減少追加要素的特征量與分類邊界條件的比較次數(shù)。同樣, 也能夠減少分類邊界條件的更新次數(shù)。下面,使用圖17 圖19說明歸屬單元判定部17、單元/要素ID管理部18、層次 分類邊界條件更新部22及層次分類合并部23的具體處理內(nèi)容。圖17表示在本申請的實 施方式4中使用圖14及圖16所示的數(shù)據(jù)處理裝置400、500時的數(shù)據(jù)追加時的動作流程。 需要與圖12進行比較。與圖12的不同之處是,對所追加的每個要素數(shù)據(jù)群實施閉合的層 次自動分類(Sll S13、S22 SM)、在自動分類處理后將層次分類結(jié)果合并(S32)、以及 在自動分類處理和分類結(jié)果合并之后進行聚類處理(S31、S33)。圖18表示將分類結(jié)果合并時的概念圖。這樣,獨立執(zhí)行第一次的M個要素數(shù)據(jù) (第1要素數(shù)據(jù)群)的分類處理、和下一次N個要素數(shù)據(jù)(第2要素數(shù)據(jù)群)的分類處理。 然后,將獨立執(zhí)行的兩個分類處理的結(jié)果進行比較,在各個單元之間的距離比任意的距離 小的情況下,將各個單元合并。關于單元之間的距離計算方法,可以列舉最鄰近法、最遠離 法、群平均法、加權(quán)平均法、重心法、加權(quán)重心法、Ward法等,可以采用任何一種方法。例如,如圖18所示,關注利用新追加的要素數(shù)據(jù)構(gòu)成的單元10,分別求出單元10 與單元0的距離、單元10與單元1的距離以及單元10與單元2的距離,并求出最近的單元。 針對單元11、單元12反復進行該處理。這種方法需要計算全部單元之間的距離,所以耗費 運算處理成本。圖19表示進一步采用層次分類的思路時的具體的分類合并方法。圖19中的左上 方的圖表示通過自動分類將M個要素數(shù)據(jù)分類為3個單元0、1、2,再通過聚類生成包括單元 1、2的聚類的狀態(tài)。此時,表示確定用于規(guī)定單元0與聚類的邊界的邊界條件0-0、和用于 規(guī)定單元1與單元2的邊界的邊界條件1-0。并且,如圖19中的左下方的圖所示,邊界條件 0-0表示最上位層次的分類邊界條件,表示單元0與單元1及單元2 (即聚類)的邊界。另 一方面,邊界條件1-0表示下一個層次的分類邊界條件,表示單元1與單元2的邊界。然后輸入N個追加要素,并進行自動分類處理,結(jié)果,得到了如圖16中的右上方的 圖中利用圓圈包圍的區(qū)域所示出的單元10、11、12。按照這些單元單位與過去的層次分類邊 界條件進行比較,并確定各個追加的單元10、11、12與哪個單元0、1、2合并。例如,在該圖的上位節(jié)點,利用前述距離計算法計算單元10與單元1及單元2(即 聚類)的距離、以及單元10與單元0的距離,并對接近的一方的下位層次進行判定。在這 種情況時馬上得到單元0,所以判定為單元10應該與單元0合并。這樣,在針對全部追加數(shù)據(jù)進行單元分類后,將單元合并,并更新各個層次的分類邊界條件。如果采用上述的方法,則只需更新與被合并的單元相關的層次的分類邊界條件。 在與使用圖18說明的、求出與全部單元的距離的情況進行比較時,合并對象的搜索以及更 新所涉及的運算處理成本更低。圖20表示使用本實施方式4的數(shù)據(jù)分類方法進行人臉的分類時的性能。如在前述 的圖13中說明的那樣,在圖20所示的三種方法中,都是構(gòu)建相同的利用層次分類方法(距 離計算法)、人臉特征量抽取法的人臉分類算法,并采用與圖13相同的兩個照片數(shù)據(jù)集(兩 個家庭照片集,各包括300個人臉)作為評價用數(shù)據(jù)。把本實施方式4的結(jié)果追加在表的 最上面的欄中。如參照圖20所明確的那樣,在本實施方式4中設定分類的制約(更新條件)。并 且,正確率的定義也與在現(xiàn)有示例中記述的定義相同。這樣,根據(jù)本實施方式4得知,能夠 獲得與相當于一次性地將全部人臉圖像分類的沒有更新條件/全部處理方法基本相同的 性能,與具有更新條件/逐次處理繼續(xù)方法相比,性能約提高4 5%。圖21A及圖21B表示對在本實施方式4中性能恢復的原因的分析。在圖21A所示 的帶制約逐次更新法(圖20中的正中間的行)中,認為單元按照要素數(shù)據(jù)的追加順序扭 曲地生長的可能性比較大。另一方面,在圖21B所示的帶制約條件合并法(本實施方式4) 中,由于新追加的數(shù)據(jù)被按照單元單位進行合并,所以認為以扭曲形狀被合并的可能性比 較小。在單元成為扭曲狀時,將導致在特征空間上單元相互糾纏在一起。在這種情況下, 通常認為分類精度降低。這也被認為是常規(guī)逐次更新法的缺點。另一方面,在本實施方式 4中,得知這種逐次更新法的缺點比較少。本發(fā)明的數(shù)據(jù)處理裝置及數(shù)據(jù)處理方法將自動分類處理的結(jié)果和通過手動輸入 對該結(jié)果進行修正(標注)后的結(jié)果進行區(qū)分而進行數(shù)據(jù)管理及更新,所以能夠繼承逐次 自動分類結(jié)果和標注信息雙方。并且,能夠減輕數(shù)據(jù)管理處理的負荷。并且,在采用這種數(shù) 據(jù)管理方法時,對所追加的每個數(shù)據(jù)群獨立進行閉合的分類處理,在分類處理之后將分類 結(jié)果彼此合并,由此能夠?qū)崿F(xiàn)在逐次輸入的情況下也不會惡化的分類性能,而且使標注結(jié) 果與自動分類結(jié)果不矛盾。(其他變形例)以上,根據(jù)上述實施方式說明了本發(fā)明,但本發(fā)明當然不限于上述實施方式,以下 所述的情況也包含于本發(fā)明中。上述的各個裝置具體地講是由微處理器、ROM、RAM、硬盤裝置、顯示器裝置、鍵盤、 鼠標等構(gòu)成的計算機系統(tǒng)。在RAM或者硬盤裝置中存儲有計算機程序。微處理器按照計算 機程序而動作,由此各個裝置實現(xiàn)其功能。在此,計算機程序為了實現(xiàn)規(guī)定的功能,可以組 合多個表示對計算機的指令的命令代碼而構(gòu)成。構(gòu)成上述各個裝置的構(gòu)成要素的一部分或全部可以由一個系統(tǒng)LSI (Large Scale htegration:大規(guī)模集成電路)構(gòu)成。系統(tǒng)LSI可以是在一個芯片上集成多個構(gòu)成部分制 得的超多功能LSI,具體地講,可以是包括微處理器、R0M、RAM等在內(nèi)構(gòu)成的計算機系統(tǒng)。在 RAM中存儲有計算機程序。微處理器按照計算機程序而動作,由此系統(tǒng)LSI實現(xiàn)其功能。構(gòu)成上述各個裝置的構(gòu)成要素的一部分或全部也可以由能夠在各個裝置上插拔的IC卡或單體模塊構(gòu)成。IC卡或模塊是由微處理器、ROM、RAM等構(gòu)成的計算機系統(tǒng)。IC 卡或模塊也可以包含上述的超多功能LSI。微處理器按照計算機程序而動作,由此IC卡或 模塊實現(xiàn)其功能。該IC卡或該模塊可以具有耐篡改性。本發(fā)明也可以是以上所示的方法。并且,也可以是利用計算機實現(xiàn)這些方法的計 算機程序,還可以是由計算機程序構(gòu)成的數(shù)字信號。并且,本發(fā)明也可以將計算機程序或數(shù)字信號記錄在計算機可讀取的記錄介質(zhì) 中,所述記錄介質(zhì)例如是軟盤、硬盤、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc 藍光光盤)、半導體存儲器等。并且,本發(fā)明還可以是記錄在這些記錄介質(zhì)中的數(shù)字信號。并且,本發(fā)明也可以構(gòu)成為經(jīng)由電通信線路、無線或有線通信線路、以因特網(wǎng)為代 表的網(wǎng)絡、數(shù)字廣播等,傳輸計算機程序或數(shù)字信號。并且,本發(fā)明也可以構(gòu)成為具有微處理器和存儲器的計算機系統(tǒng),存儲器存儲上 述計算機程序,微處理器按照計算機程序而動作。并且,本發(fā)明也可以構(gòu)成為將程序或數(shù)字信號記錄在記錄介質(zhì)中并傳輸,或者經(jīng) 由網(wǎng)絡等傳輸程序或數(shù)字信號,從而能夠利用獨立的其他計算機系統(tǒng)來實施。也可以將上述各個實施方式進行組合來實施。以上參照
了本發(fā)明的實施方式,但是本發(fā)明不限于圖示的實施方式???以針對圖示的實施方式,在與本發(fā)明相同的范圍內(nèi)或者均等的范圍內(nèi)進行各種修正及變 形。產(chǎn)業(yè)上的可利用性這些結(jié)構(gòu)在例如用于將大量的數(shù)據(jù)自動分類,而且通過用戶的手動標注操作來確 保分類精度的民用照片整理裝置、檢索裝置或者研究用數(shù)據(jù)庫構(gòu)建裝置等各種領域中比較 有用。標號說明1、1100特征抽取部;2、1200自動分類處理部;3、1300聚類/要素對應表更新記錄 部;4分組/聚類對應表追記部;5、1400臨時記錄部;6數(shù)據(jù)管理部;7、1210歸屬聚類判定 部;8、1250聚類/要素ID管理部;9、1240分類邊界條件讀出部;10、1230分類邊界條件更 新記錄部;U、1500用戶改變操作檢測部;12分組/聚類對應表更新記錄部;13顯示分組確 定部;14分組/聚類關系檢索部;15、1700聚類/要素關系檢索部;16、1800顯示部;17歸 屬單元判定部;18單元/要素ID管理部;19分類邊界條件更新部;20分類合并部;21聚類 部;22層次分類邊界條件更新部;23層次分類合并部層次分類處理部;1201層次分類 部;1220附近聚類再分類部;1260層次分類邊界條件更新記錄部;1600顯示聚類確定部; 100、200、300、400、500、1000、2000 數(shù)據(jù)處理裝置。
權(quán)利要求
1.一種數(shù)據(jù)處理裝置,對要素數(shù)據(jù)進行分類,具有臨時記錄部,記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對 應表,所述聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的 聚類ID、和識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保 存,所述分類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別 按照用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組 的所述聚類的所述聚類ID相對應地保存;特征抽取部,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類處理部,通過將由所述特征抽取部抽取的特征量與所述分類邊界條件進行比 較,確定所述多個聚類之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī)定的 制約條件將規(guī)定所述歸屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù) 據(jù)包含在所述歸屬聚類中;以及數(shù)據(jù)管理部,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述自動分類處理部 確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應表中。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理裝置,所述規(guī)定的制約條件是指禁止將已有的聚類彼此結(jié)合而生成新的聚類的條件。
3.根據(jù)權(quán)利要求1或2所述的數(shù)據(jù)處理裝置,所述規(guī)定的制約條件是指禁止將已有的聚類的一部分分割而生成新的聚類的條件。
4.根據(jù)權(quán)利要求1 3中任意一項所述的數(shù)據(jù)處理裝置, 所述自動分類處理部具有分類邊界條件讀出部,從所述臨時記錄部讀出每個所述聚類的所述分類邊界條件; 歸屬聚類判定部,將由所述特征抽取部抽取的特征量、與由所述分類邊界條件讀出部 讀出的每個所述聚類的所述分類邊界條件進行比較,由此判定所述新追加的要素數(shù)據(jù)應該 歸屬的所述歸屬聚類;聚類/要素ID管理部,根據(jù)所述歸屬聚類判定部的判定結(jié)果,使所述數(shù)據(jù)管理部更新 所述聚類/要素對應表;以及分類邊界條件更新記錄部,根據(jù)所述歸屬聚類判定部的判定結(jié)果,按照所述規(guī)定的制 約條件更新用于規(guī)定所述歸屬聚類的邊界的所述分類邊界條件,并將更新后的所述分類邊 界條件記錄在所述臨時記錄部中。
5.根據(jù)權(quán)利要求1 4中任意一項所述的數(shù)據(jù)處理裝置, 所述數(shù)據(jù)管理部具有第1聚類/要素對應表更新記錄部,在由所述自動分類處理部確定所述新追加的要素 數(shù)據(jù)屬于已有的聚類的情況下,將該新追加的要素數(shù)據(jù)的要素ID與該已有的聚類的聚類 ID相對應地追加記錄在所述聚類/要素對應表中,在由所述自動分類處理部確定所述新追 加的要素數(shù)據(jù)不屬于已有的任意一個聚類的情況下,將該新追加的要素數(shù)據(jù)的要素ID與 新編號的聚類ID相對應地追加記錄在所述聚類/要素對應表中;以及分組/聚類對應表追記部,在由所述自動分類處理部確定所述新追加的要素數(shù)據(jù)不屬 于已有的任意一個聚類的情況下,將新編號的所述聚類ID與新編號的分組ID相對應地追 加記錄在所述分組/聚類對應表中。
6.根據(jù)權(quán)利要求1 5中任意一項所述的數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置還具有用戶改變操作檢測部,該用戶改變操作檢測部檢測變更所述分 組ID與所述要素ID之間的對應關系的用戶的操作,所述數(shù)據(jù)管理部根據(jù)所述用戶改變操作檢測部的檢測結(jié)果,至少更新所述分組/聚類 對應表。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理裝置, 所述數(shù)據(jù)管理部具有分組/聚類對應表更新記錄部,從所述聚類/要素對應表中抽取與由所述用戶改變操 作檢測部檢測到的所述要素ID相對應的所述聚類ID,更新所述抽取的聚類ID與由所述用 戶改變操作檢測部檢測到的分組ID在所述分組/聚類對應表中的對應關系;以及第2聚類/要素對應表更新記錄部,只在由于由所述用戶改變操作檢測部檢測到的所 述分組ID與所述要素ID之間的對應關系的變更而產(chǎn)生變更所述聚類ID與所述要素ID之 間的對應關系的需要的情況下,更新所述聚類ID與所述要素ID在所述聚類/要素對應表 中的對應關系。
8.根據(jù)權(quán)利要求1 7中任意一項所述的數(shù)據(jù)處理裝置, 該數(shù)據(jù)處理裝置具有顯示分組確定部,生成包括一個以上的分組ID的顯示分組信息; 分組/聚類關系檢索部,從所述分組/聚類對應表中抽取與所述顯示分組信息中包含 的所述分組ID相對應的所述聚類ID,并生成包含所抽取的所述聚類ID的顯示聚類信息; 聚類/要素關系檢索部,從所述聚類/要素對應表中抽取與所述顯示聚類信息中包含 的所述聚類ID相對應的所述要素ID,并生成包含所抽取的所述要素ID的顯示要素信息; 以及顯示部,從所述臨時記錄部讀出利用所述顯示要素信息中包含的所述要素ID識別的 所述要素數(shù)據(jù),并顯示該要素數(shù)據(jù)。
9.根據(jù)權(quán)利要求1 8中任意一項所述的數(shù)據(jù)處理裝置,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群被輸入到該數(shù)據(jù)處理裝 置的情況下,所述自動分類處理部針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí)行確定所述歸屬聚 類、并且更新所述分類邊界條件的處理,該數(shù)據(jù)處理裝置還具有分類合并部,在針對全部所述要素數(shù)據(jù)的處理結(jié)束后,該分類 合并部將在分別針對所述第1及第2要素數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。
10.一種數(shù)據(jù)處理裝置,對要素數(shù)據(jù)進行分類,具有臨時記錄部,記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對 應表,所述聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的 聚類ID、和識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保 存,所述分類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別 按照用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組 的所述聚類的所述聚類ID相對應地保存;用戶改變操作檢測部,檢測變更所述分組ID與所述要素ID之間的對應關系的用戶的 操作;以及數(shù)據(jù)管理部,根據(jù)所述用戶改變操作檢測部的檢測結(jié)果,至少更新所述分組/聚類對 應表。
11.一種數(shù)據(jù)處理裝置,對要素數(shù)據(jù)進行分類,具有臨時記錄部,記錄所述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件,所述單元/要 素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于 利用該單元ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條 件用于規(guī)定所述多個單元各自的邊界;特征抽取部,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類處理部,通過將由所述特征抽取部抽取的特征量與所述分類邊界條件進行比 較,確定所述多個單元之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī)定的 制約條件將規(guī)定所述歸屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù) 據(jù)包含在所述歸屬單元中;以及數(shù)據(jù)管理部,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述層次分類處理部 確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應表中,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群被輸入到該數(shù)據(jù)處理裝 置的情況下,所述層次分類處理部針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí)行確定所 述歸屬單元、并且更新所述分類邊界條件的處理,該數(shù)據(jù)處理裝置還具有層次分類合并部,該層次分類合并部將在分別針對所述第1及 第2要素數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。
12.根據(jù)權(quán)利要求11所述的數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置還具有聚類部,該聚類部生成包含多個所述單元的聚類,并確定用于 規(guī)定所述聚類的邊界的分類邊界條件,所述層次分類處理部將所述特征量與所述聚類的分類邊界條件進行比較,由此確定所 述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,再將所述特征量與所述歸屬聚類中包含的所述 多個單元各自的分類邊界條件進行比較,由此確定所屬歸屬單元。
13.根據(jù)權(quán)利要求11或12所述的數(shù)據(jù)處理裝置,所述層次分類處理部具有歸屬單元判定部,將由所述特征抽取部抽取的特征量、與從所述臨時記錄部讀出的每 個所述單元的所述分類邊界條件進行比較,由此判定所述新追加的要素數(shù)據(jù)應該歸屬的所 述歸屬單元;單元/要素ID管理部,根據(jù)所述歸屬單元判定部的判定結(jié)果,更新所述單元/要素對 應表;以及層次分類邊界條件更新記錄部,根據(jù)所述歸屬單元判定部的判定結(jié)果,按照所述規(guī)定 的制約條件更新用于規(guī)定所述歸屬單元的邊界的所述分類邊界條件,并將更新后的所述分 類邊界條件記錄在所述臨時記錄部中。
14.根據(jù)權(quán)利要求11 13中任意一項所述的數(shù)據(jù)處理裝置,所述規(guī)定的制約條件是指禁止將已有的單元彼此結(jié)合而生成新的單元的條件,或者禁止將已有的單元的一部分分割而生成新的單元的條件。
15.一種數(shù)據(jù)處理方法,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù)據(jù)處理裝置具有用 于記錄所述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對應表的臨時記錄 部,所述聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的聚 類ID、和識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保存, 所述分類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別按照 用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組的所 述聚類的所述聚類ID相對應地保存,該數(shù)據(jù)管理方法包括如下步驟特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類處理步驟,通過將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進 行比較,確定所述多個聚類之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī) 定的制約條件將規(guī)定所述歸屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要 素數(shù)據(jù)包含在所述歸屬聚類中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述自動分類處理 步驟確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應表中。
16.一種數(shù)據(jù)處理方法,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù)據(jù)處理裝置具有用 于記錄所述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件的臨時記錄部,所述單元/要素 對應表將識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于利 用該單元ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條件 用于規(guī)定所述多個單元各自的邊界,該數(shù)據(jù)管理方法包括如下步驟特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類處理步驟,通過將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進 行比較,確定所述多個單元之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī) 定的制約條件將規(guī)定所述歸屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要 素數(shù)據(jù)包含在所述歸屬單元中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述層次分類處理 步驟確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應表中,在所述層次分類處理步驟中,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素 數(shù)據(jù)群被輸入到該數(shù)據(jù)處理裝置的情況下,針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí) 行確定所述歸屬單元、并且更新所述分類邊界條件的處理,該數(shù)據(jù)處理方法還具有層次分類合并步驟,該層次分類合并步驟將在分別針對所述第 1及第2要素數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。
17.一種程序,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù)據(jù)處理裝置具有用于記錄所 述要素數(shù)據(jù)、聚類/要素對應表、分類邊界條件以及分組/聚類對應表的臨時記錄部,所述 聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的聚類ID、和 識別屬于利用該聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分 類邊界條件用于規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別按照用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的所述分組的所述聚類 的所述聚類ID相對應地保存,該程序使所述數(shù)據(jù)處理裝置執(zhí)行如下步驟 特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類處理步驟,通過將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進 行比較,確定所述多個聚類之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī) 定的制約條件將規(guī)定所述歸屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要 素數(shù)據(jù)包含在所述歸屬聚類中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述自動分類處理 步驟確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應表中。
18. —種程序,使數(shù)據(jù)處理裝置對要素數(shù)據(jù)進行分類,該數(shù)據(jù)處理裝置具有用于記錄所 述要素數(shù)據(jù)、單元/要素對應表以及分類邊界條件的臨時記錄部,所述單元/要素對應表將 識別由該數(shù)據(jù)處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于利用該單元 ID識別的所述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條件用于規(guī)定 所述多個單元各自的邊界,該程序使所述數(shù)據(jù)處理裝置執(zhí)行如下步驟 特征抽取步驟,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類處理步驟,通過將由所述特征抽取步驟抽取的特征量與所述分類邊界條件進 行比較,確定所述多個單元之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī) 定的制約條件將規(guī)定所述歸屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要 素數(shù)據(jù)包含在所述歸屬單元中;以及數(shù)據(jù)管理步驟,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述層次分類處理 步驟確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應表中,在所述層次分類處理步驟中,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素 數(shù)據(jù)群被輸入到該數(shù)據(jù)處理裝置的情況下,針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí) 行確定所述歸屬單元、并且更新所述分類邊界條件的處理,該程序還使所述數(shù)據(jù)處理裝置執(zhí)行層次分類合并步驟,該層次分類合并步驟將在分別 針對所述第1及第2要素數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。
19.一種集成電路,搭載于數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置具有用于記錄要素數(shù)據(jù)、聚 類/要素對應表、分類邊界條件以及分組/聚類對應表的臨時記錄部,所述聚類/要素對應 表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的各個聚類的聚類ID、和識別屬于利用該 聚類ID識別的所述聚類的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條件用于 規(guī)定所述多個聚類各自的邊界,所述分組/聚類對應表將識別按照用戶的主觀基準分類后 的分組的分組ID、和識別屬于利用該分組ID識別的所述分組的所述聚類的所述聚類ID相 對應地保存,該集成電路具有特征抽取部,抽取新追加的所述要素數(shù)據(jù)的特征量;自動分類處理部,通過將由所述特征抽取部抽取的特征量與所述分類邊界條件進行比 較,確定所述多個聚類之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬聚類,并且按照規(guī)定的制約條件將規(guī)定所述歸屬聚類的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù) 據(jù)包含在所述歸屬聚類中;以及數(shù)據(jù)管理部,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述自動分類處理部 確定的所述歸屬聚類的所述聚類ID相對應地記錄在所述聚類/要素對應表中。
20. 一種集成電路,搭載于數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置具有用于記錄要素數(shù)據(jù)、單 元/要素對應表以及分類邊界條件的臨時記錄部,所述單元/要素對應表將識別由該數(shù)據(jù) 處理裝置分類后的多個單元中的各個單元的單元ID、和識別屬于利用該單元ID識別的所 述單元的所述要素數(shù)據(jù)的要素ID相對應地保存,所述分類邊界條件用于規(guī)定所述多個單 元各自的邊界,該集成電路具有特征抽取部,抽取新追加的所述要素數(shù)據(jù)的特征量;層次分類處理部,通過將由所述特征抽取部抽取的特征量與所述分類邊界條件進行比 較,確定所述多個單元之中、所述新追加的要素數(shù)據(jù)應該歸屬的歸屬單元,并且按照規(guī)定的 制約條件將規(guī)定所述歸屬單元的邊界的所述分類邊界條件更新,以使所述新追加的要素數(shù) 據(jù)包含在所述歸屬單元中;以及數(shù)據(jù)管理部,將識別所述新追加的要素數(shù)據(jù)的要素ID、和識別由所述層次分類處理部 確定的所述歸屬單元的所述單元ID相對應地記錄在所述單元/要素對應表中,在分別包含兩個以上的所述要素數(shù)據(jù)的第1及第2要素數(shù)據(jù)群被輸入到該數(shù)據(jù)處理裝 置的情況下,所述層次分類處理部針對所述第1及第2要素數(shù)據(jù)群分別獨立地執(zhí)行確定所 述歸屬單元、并且更新所述分類邊界條件的處理,該集成電路還具有層次分類合并部,該層次分類合并部將在分別針對所述第1及第2 要素數(shù)據(jù)群的處理中被更新后的所述分類邊界條件合并。
全文摘要
一種數(shù)據(jù)處理裝置(100),具有臨時記錄部(5),記錄聚類/要素對應表以及分組/聚類對應表,該聚類/要素對應表將識別由該數(shù)據(jù)處理裝置分類后的多個聚類中的每個的聚類ID、和識別屬于利用該聚類ID識別的聚類的要素ID相對應地保存,該分組/聚類對應表將識別按照用戶的主觀基準分類后的分組的分組ID、和識別屬于利用該分組ID識別的分組的聚類ID相對應地保存;特征抽取部(1),抽取新追加的要素數(shù)據(jù)的特征量;自動分類處理部(2),從多個聚類中確定歸屬聚類,并且按照規(guī)定的制約條件將規(guī)定歸屬聚類的邊界的分類邊界條件更新;數(shù)據(jù)管理部(6),將新追加的要素數(shù)據(jù)的要素ID和歸屬聚類的聚類ID相對應地記錄在聚類/要素對應表中。
文檔編號G06F17/30GK102067128SQ20108000187
公開日2011年5月18日 申請日期2010年4月23日 優(yōu)先權(quán)日2009年4月27日
發(fā)明者劉亞洲, 河村岳, 磯貝邦昭 申請人:松下電器產(chǎn)業(yè)株式會社