用于多個序列數(shù)據(jù)的聚類方法及其裝置制造方法
【專利摘要】本發(fā)明公開了一種用于多個序列數(shù)據(jù)的聚類方法,其包括:從所述多個序列數(shù)據(jù)中選擇多個聚類代表,其中所述多個聚類代表之間具有最小的相似性;在所述多個聚類代表中確定所述多個序列數(shù)據(jù)中的一個的至少一個相似聚類代表;確定所述序列數(shù)據(jù)對所述至少一個相似聚類代表的更新比例;以及使用所述序列數(shù)據(jù)和所述更新比例,更新所述至少一個相似聚類代表。
【專利說明】用于多個序列數(shù)據(jù)的聚類方法及其裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)的聚類技術(shù),具體地,涉及用于多個序列數(shù)據(jù)的聚類方法及其裝 置。
【背景技術(shù)】
[0002] 序列數(shù)據(jù)是指按照某一順序排列的數(shù)據(jù),可包括時間序列數(shù)據(jù)和空間序列數(shù)據(jù)。 時間序列數(shù)據(jù)是指在不同時間點(diǎn)上收集到的一系列數(shù)據(jù),其可用于反映某一事物、現(xiàn)象等 隨時間的變化狀態(tài)或程度。當(dāng)前,時間序列數(shù)據(jù)廣泛存在于各種行業(yè)中,例如,涉及儀表讀 數(shù)的行業(yè)等??臻g序列數(shù)據(jù)是指按空間位置的先后順序排列的數(shù)據(jù)。
[0003] 聚類是一種常用的分析序列數(shù)據(jù)的方法。一般地,聚類是指將包括多個對象的對 象集合分成由類似的對象組成的多個類的過程,其以相似性為基礎(chǔ)。通過聚類分析,可以區(qū) 分具有不同特性的聚類,從而對不同的聚類進(jìn)行相應(yīng)的處理。
[0004] 圖2是時間序列數(shù)據(jù)的曲線示意圖,其示出了例如表示水消耗量讀數(shù)的15個時間 序列數(shù)據(jù)的曲線。可以看出,當(dāng)這些時間序列數(shù)據(jù)被合并在一起時,很難從中獲取有效的信 息。實際上,這樣的時間序列數(shù)據(jù)的數(shù)量是非常巨大的,這進(jìn)一步增加了分析的難度。為此, 期望使用聚類方法以分析這些時間序列數(shù)據(jù)。
[0005] 在現(xiàn)有技術(shù)中,常用的聚類方法包括K-means法。假定有η個將被聚類的數(shù)據(jù)對 象,聚類的數(shù)量為k。首先,從η個數(shù)據(jù)對象任意選擇k個數(shù)據(jù)對象作為初始聚類中心。接 著,對于剩下的其它數(shù)據(jù)對象,則根據(jù)這些數(shù)據(jù)對象與各聚類中心的相似度(距離),分別將 它們分配給與其最相似的聚類(由聚類中心代表)。然后,計算每個新獲得的聚類的聚類中 心,即該聚類中所有數(shù)據(jù)對象的均值。重復(fù)上述的過程,直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。 一般地,均方差被用作標(biāo)準(zhǔn)測度函數(shù)。這樣獲得的聚類滿足:同一聚類中的數(shù)據(jù)對象的相似 度較高,而不同聚類中的數(shù)據(jù)對象的相似度較小。
[0006] 然而,在使用K-means法對時間序列數(shù)據(jù)進(jìn)行聚類時,如果某個時間序列數(shù)據(jù)與 多個聚類中心的相似度彼此很接近,即與多個聚類相似,則由于根據(jù)相似度將各個時間序 列數(shù)據(jù)分配給相應(yīng)的聚類,因此,該時間序列數(shù)據(jù)只被分配給最相似的聚類(即距離最短)。 但是,在這種情況下,對于該時間序列數(shù)據(jù),可能存在某一部分與一個聚類相似,而另一部 分與另一個聚類相似。因此,無論將該時間序列數(shù)據(jù)分配給哪一個聚類,都會使得被分配了 該時間序列數(shù)據(jù)的聚類的聚類中心產(chǎn)生較大的偏移,導(dǎo)致該聚類的模式的破壞。
【發(fā)明內(nèi)容】
[0007] 根據(jù)本發(fā)明的一個方面,提供了一種用于多個序列數(shù)據(jù)的聚類方法,其包括:從所 述多個序列數(shù)據(jù)中選擇多個聚類代表,其中所述多個聚類代表之間具有最小的相似性;在 所述多個聚類代表中確定所述多個序列數(shù)據(jù)中的一個的至少一個相似聚類代表;確定所述 序列數(shù)據(jù)對所述至少一個相似聚類代表的更新比例;以及使用所述序列數(shù)據(jù)和所述更新比 例,更新所述至少一個相似聚類代表。
[0008] 根據(jù)本發(fā)明的另一個方面,提供了一種用于多個序列數(shù)據(jù)的聚類裝置,其包括:選 擇模塊,其被配置為從所述多個序列數(shù)據(jù)中選擇多個聚類代表,其中所述多個聚類代表之 間具有最小的相似性;相似聚類代表確定模塊,其被配置為在所述多個聚類代表中確定所 述多個序列數(shù)據(jù)中的一個的至少一個相似聚類代表;更新比例確定模塊,其被配置為確定 所述序列數(shù)據(jù)對所述至少一個相似聚類代表的更新比例;以及更新模塊,其被配置為利用 所述序列數(shù)據(jù)和所述更新比例,更新所述至少一個相似聚類代表。
【專利附圖】
【附圖說明】
[0009] 通過結(jié)合附圖對本公開示例性實施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其 它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號 通常代表相同部件。
[0010] 圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機(jī)系統(tǒng)/服務(wù)器12的框 圖。
[0011] 圖2是時間序列數(shù)據(jù)的曲線示意圖;
[0012] 圖3是根據(jù)本發(fā)明的實施例的用于多個序列數(shù)據(jù)的聚類方法的示意性流程圖;
[0013] 圖4是用于說明聚類代表的示意圖;
[0014] 圖5是圖3的實施例中初始化聚類代表的步驟的示意性流程圖;
[0015] 圖6是圖3的實施例中確定相似聚類代表的步驟的示意性流程圖;
[0016] 圖7是用于說明確定相似聚類代表的過程的示例圖;
[0017] 圖8是圖3的實施例中確定序列數(shù)據(jù)對相似聚類代表的更新比例的步驟的示意性 流程圖;
[0018] 圖9是分別使用傳統(tǒng)的κ-means聚類法和本發(fā)明的實施例的聚類方法對多個時間 序列數(shù)據(jù)進(jìn)行聚類的比較圖;
[0019] 圖10是根據(jù)本發(fā)明的實施例的用于多個序列數(shù)據(jù)的聚類裝置的示意性方框圖。
【具體實施方式】
[0020] 在附圖中顯示了本公開的一些優(yōu)選實施方式,下面將參照附圖更詳細(xì)地描述這些 優(yōu)選實施方式。然而,可以以各種形式實現(xiàn)本公開,其不應(yīng)被這里闡述的實施方式所限制。 相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整 地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0021] 所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或計算 機(jī)程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、 完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實施方 式,這里可以統(tǒng)稱為"電路"、"模塊"或"系統(tǒng)"。此外,在一些實施例中,本發(fā)明的各個方面 還可以實現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介 質(zhì)中包含計算機(jī)可讀的程序代碼。
[0022] 可以采用一個或多個計算機(jī)可讀介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算 機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是--但不限 于--電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算 機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便 攜式計算機(jī)盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器 (EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者 上述的任意合適的組合。在本文件中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的 有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0023] 計算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號, 其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括--但 不限于--電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)還可以是 計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者 傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0024] 計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括--但不限 于--無線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0025] 可以以一種或多種程序設(shè)計語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的計算 機(jī)程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言一諸如Java、Smalltalk、C++ 等,還包括常規(guī)的過程式程序設(shè)計語言一諸如"C"語言或類似的程序設(shè)計語言。程序代碼可 以完全地在用戶計算機(jī)上執(zhí)行、部分地在用戶計算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、 部分在用戶計算機(jī)上部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。 在涉及遠(yuǎn)程計算機(jī)的情形中,遠(yuǎn)程計算機(jī)可以通過任意種類的網(wǎng)絡(luò)--包括局域網(wǎng)(LAN) 或廣域網(wǎng)(WAN)-連接到用戶計算機(jī),或者,可以連接到外部計算機(jī)(例如利用因特網(wǎng)服務(wù) 提供商來通過因特網(wǎng)連接)。
[0026] 下面將參照根據(jù)本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖和 /或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中 各方框的組合,都可以由計算機(jī)程序指令實現(xiàn)。這些計算機(jī)程序指令可以提供給通用計算 機(jī)、專用計算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些計算 機(jī)程序指令在通過計算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時,產(chǎn)生了實現(xiàn)流程圖 和/或框圖中的一個或多個方框中規(guī)定的功能/動作的裝置。
[0027] 也可以把這些計算機(jī)程序指令存儲在計算機(jī)可讀介質(zhì)中,這些指令使得計算機(jī)、 其它可編程數(shù)據(jù)處理裝置、或其他設(shè)備以特定方式工作,從而,存儲在計算機(jī)可讀介質(zhì)中的 指令就產(chǎn)生出包括實現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的指令 的制造品(article of manufacture)〇
[0028] 也可以把計算機(jī)程序指令加載到計算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備 上,使得在計算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計 算機(jī)實現(xiàn)的過程,從而使得在計算機(jī)或其它可編程裝置上執(zhí)行的指令提供實現(xiàn)流程圖和/ 或框圖中的一個或多個方框中規(guī)定的功能/動作的過程。
[0029] 圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機(jī)系統(tǒng)/服務(wù)器12的框 圖。圖1顯示的計算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使 用范圍帶來任何限制。
[0030] 如圖1所示,計算機(jī)系統(tǒng)/服務(wù)器12以通用計算設(shè)備的形式表現(xiàn)。計算機(jī)系統(tǒng) /服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器 28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0031] 總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器, 外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉 例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC) 總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0032] 計算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是 任何能夠被計算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動 的和不可移動的介質(zhì)。
[0033] 系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存 取存儲器(RAM)30和/或高速緩存存儲器32。計算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其 它可移動/不可移動的、易失性/非易失性計算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34 可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為"硬盤驅(qū)動器")。盡管圖 1中未示出,可以提供用于對可移動非易失性磁盤(例如"軟盤")讀寫的磁盤驅(qū)動器,以及對 可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些 情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以 包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被 配置以執(zhí)行本發(fā)明各實施例的功能。
[0034] 具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器 28中,這樣的程序模塊42包括--但不限于--操作系統(tǒng)、一個或者多個應(yīng)用程序、其它 程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程 序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
[0035] 計算機(jī)系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14 (例如鍵盤、指向設(shè)備、 顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè) 備通信,和/或與使得該計算機(jī)系統(tǒng)/服務(wù)器12能與一個或多個其它計算設(shè)備進(jìn)行通信的 任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22 進(jìn)行。并且,計算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如 局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20 通過總線18與計算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以 結(jié)合計算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū) 動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0036] 圖3是根據(jù)本發(fā)明的實施例的用于多個序列數(shù)據(jù)的聚類方法的示意性流程圖。下 面結(jié)合附圖,對本實施例進(jìn)行詳細(xì)描述。在以下的實施例的描述中,主要以時間序列數(shù)據(jù)為 例進(jìn)行說明。本領(lǐng)域的普通技術(shù)人員能夠理解,本實施例的聚類方法也適用于空間序列數(shù) 據(jù)。
[0037] 本實施例的方法的基本思想在于:考慮時間序列數(shù)據(jù)與所有聚類代表之間的關(guān)系 以及聚類代表之間的關(guān)系,獲得與時間序列數(shù)據(jù)相似的所有聚類代表以及對這些聚類代表 的更新比例,并進(jìn)而更新這些相似的聚類代表。
[0038] 與現(xiàn)有的聚類方法選擇某個樣本點(diǎn)作為聚類中心點(diǎn)或者使用屬于聚類的樣本的 統(tǒng)計平均作為聚類中心不同,本實施例將使用聚類代表作為聚類的判定標(biāo)準(zhǔn)。
[0039] 在本實施例中,聚類代表可使用中心值、支持度和散度來描述,其中對于每一個時 間點(diǎn),都存在中心值、支持度和散度。中心值可被定義為聚類中的時間序列數(shù)據(jù)的統(tǒng)計平均 值。支持度可被定義為聚類中的相似比例高于0.5的時間序列數(shù)據(jù)的加權(quán)數(shù)量。散度可被 定義為聚類中的相似比例高于〇. 5的時間序列數(shù)據(jù)的方差。關(guān)于相似比例,將在后面詳細(xì) 說明。
[0040] 圖4示出了聚類代表的示例性示意圖,其中,粗實線表示中心值,細(xì)實線分別表示 散度的上限值和下限值,柱狀圖表示支持度??梢钥闯?,在某個時間點(diǎn),支持度越高,散度越 小,則表明聚類代表所表示的聚類的可信性越高。
[0041] 如圖3所示,在步驟S301,從多個時間序列數(shù)據(jù)中選擇多個聚類代表,其中所選擇 的多個聚類代表之間具有最小的相似性。一般地,聚類代表的個數(shù)可以預(yù)先確定。用于選 擇聚類代表的方法在本領(lǐng)域是已知的,可以使用任意一種選擇方法。下面通過圖5簡要說 明本實施例所使用的選擇聚類代表的方法。
[0042] 圖5示出了選擇聚類代表的步驟S301的示意性流程圖。假定η個時間序列數(shù)據(jù) 將被聚類成k個聚類代表。參見圖5,在步驟S501,選擇任意一個時間序列數(shù)據(jù)作為第1聚 類代表。接著,在步驟S502,對于其它(n-1)個時間序列數(shù)據(jù)的每一個,計算該時間序列數(shù) 據(jù)與第1聚類代表之間的距離,例如歐幾里得(Euclidean)距離、曼哈頓(Manhattan)距離 等,作為第1距離。然后,在步驟S503,在(n-1)個時間序列數(shù)據(jù)中選擇上述第1距離最大 的時間序列數(shù)據(jù)作為第2聚類代表。在步驟S504,計算剩余(n-2)個時間序列數(shù)據(jù)的每一 個與第2聚類代表之間的距離,作為第2距離。然后,在步驟S505,對于剩余(n-2)個時間 序列數(shù)據(jù)的每一個,選擇其第1距離和第2距離中最小的距離作為其當(dāng)前距離。然后,在步 驟S506,在(n-2)個時間序列數(shù)據(jù)中,選擇當(dāng)前距離最大的時間序列數(shù)據(jù)作為第3聚類代 表。以此類推,在步驟S510,對于剩余(n-i)個時間序列數(shù)據(jù)的每一個,計算該時間序列數(shù) 據(jù)與第i個聚類代表之間的距離,作為第i個距離。然后,在步驟S511,對于該時間序列數(shù) 據(jù),選擇第1距離、第2距離、…、第i個距離中最小的距離,作為其當(dāng)前距離。然后,在步 驟S512,在(n-i)個時間序列數(shù)據(jù)中,選擇當(dāng)前距離最大的時間序列數(shù)據(jù)作為第(i+Ι)個聚 類代表。重復(fù)上述的步驟,直到獲取第k個聚類代表。因此,這樣獲得的k個聚類代表之間 具有最小的相似性。
[0043] 返回圖3,在步驟S305,在通過步驟S301獲得的多個聚類代表中確定多個時間序 列數(shù)據(jù)中的一個時間序列數(shù)據(jù)的至少一個相似聚類代表。在本實施例的描述中,相似聚類 代表是指與時間序列數(shù)據(jù)相似的聚類代表。
[0044] 圖6示出了確定相似聚類代表的步驟S305的示意性流程圖。如圖6所示,在步驟 S601,計算多個聚類代表之間的差異,作為聚類間差異。假設(shè)有k個聚類代表,則獲得k個 聚類間差異。在本實施例中,聚類間差異可以使用聚類代表之間的距離表示。如前所述,距 離可以是歐幾里得距離、曼哈頓距離等。在計算距離時,將使用聚類代表的中心值。然后, 在步驟S605,對于時間序列數(shù)據(jù)i,計算時間序列數(shù)據(jù)i與各個聚類代表j (j=l,…,k)之 間的差異,作為個體-聚類差異。假設(shè)有k個聚類代表,則對于時間序列數(shù)據(jù)i,獲得k個 個體-聚類差異。在本實施例中,個體-聚類差異可以使用作為個體的單個時間序列數(shù)據(jù) i與一個聚類代表j之間的距離表示。
[0045] 接著,在步驟S610,根據(jù)所計算的個體-聚類差異和聚類間差異,選擇相似聚類代 表,以使得時間序列數(shù)據(jù)與所選擇的相似聚類代表之間的個體-聚類差異小于該時間序列 數(shù)據(jù)經(jīng)由另一個聚類代表與相似聚類代表之間的差異。時間序列數(shù)據(jù)經(jīng)由另一個聚類代表 與相似聚類代表之間的差異可以通過時間序列數(shù)據(jù)與另一個聚類代表之間的個體-聚類 差異以及另一個聚類代表與相似聚類代表之間的聚類間差異的和表示。
[0046] 在本實施例中,相似聚類代表是與某一時間序列數(shù)據(jù)相似的聚類代表,其可以是 一個或者多個。在相似聚類代表是多個的情況下,表明時間序列數(shù)據(jù)i的局部分別與不同 的聚類代表的對應(yīng)部分相似。在一個實施例中,首先,對于時間序列數(shù)據(jù)i,選擇具有最小的 個體-聚類差異的聚類代表,作為相似聚類代表。換句話說,距離值最?。ㄅc時間序列數(shù)據(jù) i的相似性最大)的聚類代表首先被選作相似聚類代表。接著,在k個聚類代表中剩余的聚 類代表中確定其它相似聚類代表,以使得該相似聚類代表與時間序列數(shù)據(jù)之間的個體-聚 類差異小于該相似聚類代表與先前所選擇的相似聚類代表之間的聚類間差異以及時間序 列數(shù)據(jù)與先前所選擇的相似聚類代表之間的個體-聚類差異的和。在一個實施例中,可以 利用三角形原理確定其它相似聚類代表。具體地,將上述的兩個個體-聚類差異和聚類間 差異分別作為三個線段的長度,則通過判斷這三個線段是否能夠構(gòu)成三角形來判斷相應(yīng)的 聚類代表是否是相似聚類代表,即,如果能夠構(gòu)成三角形,則對應(yīng)的聚類代表被確定為相似 聚類代表,否則,該聚類代表不是相似聚類代表。
[0047] 下面通過一個實例來說明相似聚類代表的確定過程。在該例子中,由三個聚類代 表。如圖7所示,左側(cè)示出了待處理的時間序列數(shù)據(jù)的曲線,右側(cè)示出了聚類代表1、聚類代 表2和聚類代表3的曲線。根據(jù)上述的步驟S601,計算三個聚類代表之間的聚類間差異, 其中,聚類代表1與聚類代表2之間的聚類間差異為16,聚類代表2與聚類代表3之間的 聚類間差異為15,聚類代表1與聚類代表3之間的聚類間差異為28。然后,根據(jù)上述的步 驟S605,計算時間序列數(shù)據(jù)分別與聚類代表1、2、3之間的個體-聚類差異,其中,與聚類代 表1之間的個體-聚類差異為11,與聚類代表2之間的個體-聚類差異為12,與聚類代表3 之間的個體-聚類差異為40??梢钥闯?,與聚類代表1之間的個體-聚類差異最小,因此, 聚類代表1被選擇作為相似聚類代表1。然后,判斷聚類代表2、3是否也是相似聚類代表。 對于聚類代表2,如果以11、12和16表示三個線段的長度,則根據(jù)三角形原理,這三個線段 能夠構(gòu)成三角形,因此,聚類代表2也被確定為相似聚類代表2。對于聚類代表3,由于長度 分別為12、28和40的三個線段不能構(gòu)成三角形,因此,聚類代表3不是相似聚類代表。
[0048] 返回圖3,在通過步驟S305確定了時間序列數(shù)據(jù)i的至少一個相似聚類代表后,在 步驟S310,確定時間序列數(shù)據(jù)對其至少一個相似聚類代表的更新比例。如前所述,一個時間 序列數(shù)據(jù)可對應(yīng)一個或多個相似聚類代表,相應(yīng)地,該時間序列數(shù)據(jù)對所對應(yīng)的相似聚類 代表的影響不同。這種影響的大小可使用更新比例表示。因此,在使用該時間序列數(shù)據(jù)對 其相似聚類代表進(jìn)行更新時,需要對于不同的相似聚類代表使用不同的更新比例,以使得 更新不會破壞各相似聚類代表的一般特性。
[0049] 圖8示出了確定更新比例的步驟S310的示意性流程圖。如圖8所示,在步驟S801, 獲取時間序列數(shù)據(jù)i與各個相似聚類代表的相似比例。在本實施例中,相似比例可以反映 時間序列數(shù)據(jù)i與各個相似聚類代表的相似性。相似比例越大,則時間序列數(shù)據(jù)i與相似 聚類代表越相似。
[0050] 在一個實施例中,首先,根據(jù)時間序列數(shù)據(jù)i與所確定的至少一個相似聚類代表 之間的個體-聚類差異,計算至少一個相似聚類代表的各個針對時間序列數(shù)據(jù)i的權(quán)重。在 本實施例中,時間序列數(shù)據(jù)i與k個聚類代表之間滿足下列等式(1):
[0051 ] Xi=SilY^Si2Y2+. . . +Sikyk (1)
[0052] 其中,Xi表示時間序列數(shù)據(jù)i,Y1, y2,... yk分別表示聚類代表1、2、…、k,則 Sn,Si2, ... Sik分別表示聚類代表1、2、…、k針對時間序列數(shù)據(jù)i的權(quán)重。在確定了時間序 列數(shù)據(jù)i的相似聚類代表之后,k個聚類代表中不是相似聚類代表的聚類代表的權(quán)重為0。 對于某一相似聚類代表,其權(quán)重可以被計算為時間序列數(shù)據(jù)i與該相似聚類代表之間的個 體-聚類差異在時間序列數(shù)據(jù)i與所有相似聚類代表之間的個體-聚類差異的總和中的比 例。然后,利用所計算的各個相似聚類代表的權(quán)重,計算時間序列數(shù)據(jù)i與各個相似聚類代 表之間的相似比例。在一個實施例中,可以根據(jù)以下的公式(2)計算相似比例:
[0053]
【權(quán)利要求】
1. 一種用于多個序列數(shù)據(jù)的聚類方法,包括: 從所述多個序列數(shù)據(jù)中選擇多個聚類代表,其中所述多個聚類代表之間具有最小的相 似性; 在所述多個聚類代表中確定所述多個序列數(shù)據(jù)中的一個的至少一個相似聚類代表; 確定所述序列數(shù)據(jù)對所述至少一個相似聚類代表的更新比例;以及 使用所述序列數(shù)據(jù)和所述更新比例,更新所述至少一個相似聚類代表。
2. 根據(jù)權(quán)利要求1所述的方法,其中,在所述多個聚類代表中確定所述多個序列數(shù)據(jù) 中的一個的至少一個相似聚類代表包括: 計算所述多個聚類代表之間的差異,作為聚類間差異; 計算所述序列數(shù)據(jù)與所述多個聚類代表的各個之間的差異,作為個體-聚類差異; 根據(jù)所述個體_聚類差異和所述聚類間差異,選擇相似聚類代表。
3. 根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)所述個體-聚類差異和所述聚類間差異,選 擇相似聚類代表包括: 選擇與最小的個體-聚類差異對應(yīng)的聚類代表,作為相似聚類代表;以及 確定其它相似聚類代表,以使得所述其它相似聚類代表與所述序列數(shù)據(jù)之間的個 體-聚類差異小于所述序列數(shù)據(jù)與所選擇的相似聚類代表之間的個體-聚類差異以及所述 其它相似聚類代表與所選擇的相似聚類代表之間的聚類間差異的和。
4. 根據(jù)權(quán)利要求1所述的方法,其中,確定所述序列數(shù)據(jù)對所述至少一個相似聚類代 表的更新比例包括: 獲取所述序列數(shù)據(jù)與所述至少一個相似聚類代表的相似比例; 根據(jù)穩(wěn)定分布函數(shù),基于所述相似比例,獲取所述序列數(shù)據(jù)對所述至少一個相似聚類 代表的更新比例。
5. 根據(jù)權(quán)利要求4所述的方法,其中,獲取所述序列數(shù)據(jù)與所述至少一個相似聚類代 表的相似比例包括: 根據(jù)所述序列數(shù)據(jù)與所述至少一個相似聚類代表之間的個體-聚類差異,計算所述至 少一個相似聚類代表的各個針對所述序列數(shù)據(jù)的權(quán)重;以及 根據(jù)所計算的各個相似聚類代表的權(quán)重,計算所述序列數(shù)據(jù)與各個相似聚類代表之間 的相似比例。
6. -種用于多個序列數(shù)據(jù)的聚類裝置,包括: 選擇模塊,其被配置為從所述多個序列數(shù)據(jù)中選擇多個聚類代表,其中所述多個聚類 代表之間具有最小的相似性; 相似聚類代表確定模塊,其被配置為在所述多個聚類代表中確定所述多個序列數(shù)據(jù)中 的一個的至少一個相似聚類代表; 更新比例確定模塊,其被配置為確定所述序列數(shù)據(jù)對所述至少一個相似聚類代表的更 新比例;以及 更新模塊,其被配置為使用所述序列數(shù)據(jù)和所述更新比例,更新所述至少一個相似聚 類代表。
7. 根據(jù)權(quán)利要求6所述的裝置,其中,所述相似聚類代表確定模塊包括: 計算子模塊,其被配置為計算所述多個聚類代表之間的差異,作為聚類間差異,以及計 算所述序列數(shù)據(jù)與所述多個聚類代表的各個之間的差異,作為個體-聚類差異;以及 選擇子模塊,其被配置為根據(jù)所述個體-聚類差異和所述聚類間差異,選擇相似聚類 代表。
8. 根據(jù)權(quán)利要求7所述的裝置,其中,所述選擇子模塊包括: 選擇單元,其被配置為選擇與最小的個體-聚類差異對應(yīng)的聚類代表,作為相似聚類 代表;以及 確定單元,其被配置為確定其它相似聚類代表,以使得所述其它相似聚類代表與所 述序列數(shù)據(jù)之間的個體-聚類差異小于所述序列數(shù)據(jù)與所選擇的相似聚類代表之間的個 體-聚類差異以及所述其它相似聚類代表與所選擇的相似聚類代表之間的聚類間差異的 和。
9. 根據(jù)權(quán)利要求6所述的裝置,其中,所述更新比例確定模塊包括: 相似比例獲取子模塊,其被配置為獲取所述序列數(shù)據(jù)與所述至少一個相似聚類代表的 相似比例;以及 更新比例獲取子模塊,其被配置為根據(jù)穩(wěn)定分布函數(shù),基于所述相似比例,獲取所述序 列數(shù)據(jù)對所述至少一個相似聚類代表的更新比例。
10. 根據(jù)權(quán)利要求9所述的裝置,其中,所述相似比例獲取子模塊包括: 權(quán)重計算單元,其被配置為根據(jù)所述序列數(shù)據(jù)與所述至少一個相似聚類代表之間的個 體-聚類差異,計算所述至少一個相似聚類代表的各個針對所述序列數(shù)據(jù)的權(quán)重;以及 相似比例計算單元,其被配置為根據(jù)所計算的各個相似聚類代表的權(quán)重,計算所述序 列數(shù)據(jù)與各個相似聚類代表之間的相似比例。
【文檔編號】G06F17/30GK104516900SQ201310455338
【公開日】2015年4月15日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】王瑜, 嚴(yán)駿馳, 田春華, 董維山, 孫寧, 張欣, 張超, 韓四兒, 邵金燕, 劉宇航 申請人:國際商業(yè)機(jī)器公司