專利名稱:一種識別離群交通數(shù)據(jù)的方法
技術(shù)領(lǐng)域:
本發(fā)明提出一種識別離群交通數(shù)據(jù)的方法,涉及智能交通系統(tǒng)所采集的交通 數(shù)據(jù)的質(zhì)量控制,屬于智能交通系統(tǒng)中智能信息處理技術(shù)領(lǐng)域。
背景技術(shù):
交通數(shù)據(jù)在智能交通系統(tǒng)中占有重要的地位,智能交通系統(tǒng)(ITS)的核心技 術(shù)之一是交通參數(shù)的實(shí)時(shí)估計(jì)與預(yù)測技術(shù),由于采樣失真、測量誤差、突發(fā)交通 事件以及其它可能存在的影響因素,采集的交通數(shù)據(jù)集中通常存在著不遵循數(shù)據(jù) 模型的普遍行為的樣本,這些異常點(diǎn)即為離群數(shù)據(jù)。當(dāng)采集的交通數(shù)據(jù)用于建模 時(shí),這些異常點(diǎn)不具備代表性,不能有效地建模并描述系統(tǒng)。為了提高動態(tài)交通 信息的準(zhǔn)確性和可靠性,保證交通模型的使用效果,首先需要對異常數(shù)據(jù)加以識 別并進(jìn)行相應(yīng)的處理。目前,在交通工程^域中主要基于統(tǒng)計(jì)學(xué)的方法識別離群數(shù)據(jù),該方法計(jì)算 簡單,但其應(yīng)用需要事先知道數(shù)據(jù)的分布,這往往比較難,而且現(xiàn)實(shí)數(shù)據(jù)也往往 不符合任何一種理想狀態(tài)的數(shù)學(xué)分布。此外,基于統(tǒng)計(jì)的離群檢測算法大多只適 合于挖掘單變量的數(shù)值型數(shù)據(jù),對高維、周期性數(shù)據(jù)、分類數(shù)據(jù)則較難進(jìn)行識別, 這限制了它的應(yīng)用。為了克服上述方法的缺陷,本發(fā)明提出使用基于密度的離群數(shù)據(jù)挖掘算法識 別異常交通數(shù)據(jù)。發(fā)明內(nèi)容技術(shù)問題異常交通數(shù)據(jù)可使得所建模型的要點(diǎn)變得模糊,不能反映真實(shí)系 統(tǒng)的本質(zhì),本發(fā)明提供一種基于密度的識別異常交通數(shù)據(jù)的方法,該方法可有效 檢出邊界和內(nèi)部的離群數(shù)據(jù),其效果優(yōu)于基于統(tǒng)計(jì)的離群檢測方法。技術(shù)方案本發(fā)明的識別離群交通數(shù)據(jù)的方法首先計(jì)算數(shù)據(jù)的平均局部離群 因子,而后使用以下兩個(gè)準(zhǔn)則之一判斷離群點(diǎn)平均局部離群因子最高的m個(gè)數(shù)據(jù)是離群點(diǎn),或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群點(diǎn)。所述計(jì)算數(shù)據(jù)的平均局部離群因子》法為,在某一 自然數(shù)k值下,計(jì)算每個(gè)數(shù)據(jù) 的k-局部離群因子,以一定步長改變k值,重復(fù)計(jì)算每個(gè)數(shù)據(jù)的k-局部離群因子,而后通過平均得到每個(gè)數(shù)據(jù)平均局部離群因子,其計(jì)算方法為2>據(jù)_丄_A+ 15其中,^和^分別是k的上下限,&是不小于10的自然數(shù),s是》長,/q/;(; )為任一數(shù) 據(jù)p的k-局部離群因子。每個(gè)數(shù)據(jù)的k-局部離群因子計(jì)算方法為,p的k-鄰域內(nèi)所有數(shù)據(jù)的k-局部可達(dá) 密度平均值與P的k-局部可達(dá)密度之比,艮卩,一,/ —、 —oeWt(p)&《(P) 9 |物| —2其中,k是自然數(shù),Nk(p)是數(shù)據(jù)p的k-鄰域,lNk(p)l是該鄰域含有的元素個(gè)數(shù);p 的k-鄰域由所有與p之間的距離不大于p的k-距離的數(shù)據(jù)組成,p的k-距離為數(shù)據(jù)p 和離其最近的第k個(gè)數(shù)據(jù)之間的距離;為p的k-局部可達(dá)密度,o是p的k-鄰域內(nèi)任一數(shù)據(jù),/r《(o)為o的k-局部可達(dá)密度。任一數(shù)據(jù)p的k-局部可達(dá)密度為該數(shù)據(jù)與其k-距離鄰域的平均可達(dá)距離的倒 數(shù),其計(jì)算方法為 『,,銅-3a"mc^—^foA(; ,o)是p到其k-鄰域內(nèi)任一數(shù)據(jù)o的可達(dá)距離,p相對于o的可達(dá)距離為 O的k-距離和p與O之間距離的較大值,艮卩reach—disp ic(p, o)=max{k—distance (o), d(p, o)} —4 。有益效果在該方法中, 一個(gè)點(diǎn)的離群程度與它周圍的點(diǎn)有關(guān),這體現(xiàn)了 "局 部"的概念,這是它與以往離群定義不同之處,也是優(yōu)勢所在。此外,使用局部離群因子的平均值判斷離群點(diǎn),使檢測結(jié)果更加穩(wěn)定,不隨參數(shù)k值的變化而有較大 變動。基于密度的離群挖掘算法能發(fā)喊其它方法漏檢的局部離群點(diǎn),有其獨(dú)到之 處,有更好的應(yīng)用價(jià)值。
圖1是本發(fā)明的步驟流程圖。其中有k最小值k^, k最大值k,, k改變步kstep;圖2是交通流到達(dá)率和密度關(guān)系及其離群數(shù)據(jù), 圖3是路面平整度測試數(shù)據(jù)及離群數(shù)據(jù)。
具體實(shí)施方式
下面將參考附圖具體說明發(fā)明的實(shí)施方式。步驟如下1. 運(yùn)用智能交通系統(tǒng)中的數(shù)據(jù)采集設(shè)備,如車輛檢測線圈、視頻檢測器、移 動車輛、雷達(dá)、超聲波等獲取交通數(shù)據(jù),如車速、車流量、占有率、旅行時(shí)間等, 設(shè)所采集數(shù)據(jù)集為D;2. 計(jì)算D中每個(gè)數(shù)據(jù)的k-局部可達(dá)密度;給定一個(gè)自然數(shù)k,計(jì)算每個(gè)數(shù)據(jù)p的k-距離(k-distance(p)),其值為p和離其 最近的第k個(gè)鄰居oGD之間的距離d (p, o), p的k鄰域定義為Nk (p) = {q G D\ {p} I d (p, q)《k一distance (p)} (1) p相對于o的可達(dá)距離為reach—di sp k(p, o)=max{k—di stance(o), d(p, o)} (2) p的k-局部可達(dá)密度為數(shù)據(jù)p與其k-距離鄰域的平均可達(dá)距離的倒數(shù),/r《0):1/^^-^- (3)l,)l3.然后計(jì)算數(shù)據(jù)的k-局部離群因子; p的k-局部離群因子定義為4. 以一定步長改變k值,重復(fù)步驟2和3,計(jì)算每個(gè)數(shù)據(jù)的k-局部離群因子。局部 離群因子說明了數(shù)據(jù)的離群程度, 一個(gè)數(shù)據(jù)的局部離群因子越大,其越有可能是 離群數(shù)據(jù)。5. 計(jì)算每個(gè)數(shù)據(jù)的平均局部離群因子,以消除參數(shù)k對檢測結(jié)果的影響。6. 基于平均局部離群因子判斷離群點(diǎn)??梢允褂靡韵聝蓚€(gè)準(zhǔn)則平均局部離 群因子最高的m個(gè)數(shù)據(jù)是離群點(diǎn),或平均局部離群因子大于給定閾值的數(shù)據(jù)都是離 群點(diǎn)。7. 刪除或采用濾波技術(shù)修正所識別出的離群數(shù)據(jù),或者分析這些離群數(shù)據(jù)獲 取隱藏信息。實(shí)施例l:交通流建模高速公路的交通流通常用平均車速、到達(dá)率、密度來描述,到達(dá)率和密度之 間的關(guān)系可以用圖描述,稱之為交通流基本圖形。檢測設(shè)備或傳輸設(shè)備出錯(cuò)、突 發(fā)交通事件都可能使交通流數(shù)據(jù)發(fā)生異常改變,不管是采樣錯(cuò)誤還是異常交通事 件所產(chǎn)生的離群數(shù)據(jù),都將使模型特征變得模糊,不能真正反應(yīng)系統(tǒng)的內(nèi)在規(guī)律。 因此,在建立模型前需要找出并除去離群數(shù)據(jù),以減少離群數(shù)據(jù)的影響,提高所 建模型的準(zhǔn)確性和可靠性。現(xiàn)收集有南京碌口機(jī)場高速公路的交通流數(shù)據(jù)709個(gè),采樣周期為1分鐘, 擬建立到達(dá)率和密度之間的模型。運(yùn)用基于密度的檢測方法LOF尋找特異樣本, 令k=20,計(jì)算所有樣本的局部異常因子。以10為步長增加k值,重復(fù)計(jì)算所有 樣本的局部異常因子,直至k-150。而后,計(jì)算所有樣本的平均局部異常因子,取 平均局部異常因子最高的12個(gè)數(shù)據(jù)為離群數(shù)據(jù)。圖2是所交通流到達(dá)率和密度關(guān) 系基本圖表,其中加圈的即為離群數(shù)據(jù)??梢钥闯?,邊界和內(nèi)部的離群數(shù)據(jù)都有 效檢出。刪除上述離群數(shù)據(jù),而后采用不含離群數(shù)據(jù)的數(shù)據(jù)集建立高速公路的交通流 模型。實(shí)施例2:路面平整度測試應(yīng)用路面平整度是路面表面功能的一項(xiàng)重要指標(biāo),它不僅反映了路面的行駛舒適 性,也從側(cè)面反映出路面的健康狀況。國際平整度指數(shù)IRI (InternationalRoughness Index)已被世界各國廣泛采用,定義為標(biāo)準(zhǔn)車身懸架的總位移(單位m)與行駛距離(單位km)之比,單位是m/km。現(xiàn)有IRI樣本8000個(gè),數(shù)據(jù)采集每隔一米一次,用 澳大利亞進(jìn)口路面平整度測試車測試所得.運(yùn)用基于密度的檢測方法LOF尋找特異樣本,令k從50為初始值開始,以步長 IO增加,計(jì)算所有樣本的局部異常因子。而后求出所有樣本的平均局部異常因子。 這里,假設(shè)平均局部異常因子大于1.8的都是離群數(shù)據(jù),則發(fā)現(xiàn)離群程度最強(qiáng)的28 個(gè)點(diǎn),如圖3所示,其中加圈的即為離群數(shù)據(jù)。與其他檢測點(diǎn)相比,這些離群數(shù)據(jù)說明該處路面不平整或者路面損壞較嚴(yán)重, 也可能是采樣誤差或噪音。對于每個(gè)檢測出的異常值,需要人工參與,對當(dāng)時(shí)的 路面、檢測設(shè)備等做進(jìn)一步的分析,正確區(qū)分其產(chǎn)生的原因。
權(quán)利要求
1. 一種識別離群交通數(shù)據(jù)的方法,其特征在于該方法首先采集獲取交通數(shù)據(jù),計(jì)算數(shù)據(jù)的平均局部離群因子,而后使用以下兩個(gè)準(zhǔn)則之一判斷離群數(shù)據(jù)平均局部離群因子最高的m個(gè)數(shù)據(jù)是離群數(shù)據(jù),或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群數(shù)據(jù),最后刪除或采用濾波方法修正所識別出的離群數(shù)據(jù),或者分析離群數(shù)據(jù)所包含的隱藏信息。
2.根據(jù)權(quán)利要求l所述的一種識別離群交通數(shù)據(jù)的方法,其特征在于所述計(jì)算 數(shù)據(jù)的平均局部離群因子方法為,在某一自然數(shù)k值下,計(jì)算每個(gè)數(shù)據(jù)的k-局部離 群因子,以一定步長改變k值,重復(fù)計(jì)算每個(gè)數(shù)據(jù)的k-局部離群因子,而后通過平均得到每個(gè)數(shù)據(jù)平均局部離群因子,其計(jì)算方法為其中,^和^分別是k的上下限,&是不小于10的自然數(shù),s是步長,/o力0 )為 任一數(shù)據(jù)p的k-局部離群因子。
3.根據(jù)權(quán)利要求2所述的一種識別離群交通數(shù)據(jù)的方法,其特征在于每個(gè)數(shù) 據(jù)的k-局部離群因子計(jì)算方法為,p的k-鄰域內(nèi)所有數(shù)據(jù)的k-局部可達(dá)密度平均值 與p的k-局部可達(dá)密度之比,E卩其中,k是自然數(shù),Nk(p)是數(shù)據(jù)p的k-鄰域,lNk(p)l是該鄰域含有的元素個(gè)數(shù);p 的k-鄰域由所有與p之間的距離不大于p的k-距離的數(shù)據(jù)組成,p的k-距離為數(shù)據(jù)p 和離其最近的第k個(gè)數(shù)據(jù)之間的距離;/r《(p)為p的k-局部可達(dá)密度,o是p的k-鄰域內(nèi)任一數(shù)據(jù),/r《(o)為o的k-局部可達(dá)密度。
4.根據(jù)權(quán)利要求3所述的一種識別離群交通數(shù)據(jù)的方法,其特征在于任一數(shù) 據(jù)P的k-局部可達(dá)密度為該數(shù)據(jù)與其k-距離鄰域的平均可達(dá)距離的倒數(shù),其計(jì)算方法為:<formula>formula see original document page 3</formula>是p到其k-鄰域內(nèi)任一數(shù)據(jù)o的可達(dá)距離,其值為o的k-距離和p 與o之間距離的較大值,艮卩reach—disp k(p, o)=max{k_distance(o), d(p, o)} —4 。
全文摘要
一種識別離群交通數(shù)據(jù)的方法,其特征在于該方法首先采集獲取交通數(shù)據(jù),計(jì)算數(shù)據(jù)的平均局部離群因子,而后使用以下兩個(gè)準(zhǔn)則之一判斷離群數(shù)據(jù)平均局部離群因子最高的m個(gè)數(shù)據(jù)是離群數(shù)據(jù),或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群數(shù)據(jù),最后刪除或采用濾波方法修正所識別出的離群數(shù)據(jù),或者分析離群數(shù)據(jù)所包含的隱藏信息。該方法可有效檢出邊界和內(nèi)部的離群數(shù)據(jù),其效果優(yōu)于基于統(tǒng)計(jì)的離群檢測方法。
文檔編號G08G1/01GK101246645SQ200810024700
公開日2008年8月20日 申請日期2008年4月1日 優(yōu)先權(quán)日2008年4月1日
發(fā)明者煒 王, 瞿高峰, 陳淑燕 申請人:東南大學(xué)