亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

去重處理方法及裝置的制作方法

文檔序號:6587217閱讀:263來源:國知局
專利名稱:去重處理方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機處理技術(shù)領(lǐng)域,具體涉及一種去重處理方法及裝置。
背景技術(shù)
俗話說:“物以類聚,人以群分”,在自然科學和社會科學中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究樣品或指標分類問題的一種統(tǒng)計分析方法。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術(shù)的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分類學,之后又將多元分析的技術(shù)引入到數(shù)值分類學形成了聚類分析。聚類分析方法非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預報法等。聚類算法還常作為一些大規(guī)模數(shù)據(jù)分析的預處理算法,通過聚類處理使得后續(xù)算法在一個較小的數(shù)據(jù)集合上進行運算,減小了計算復雜度。在聚類算法中,最小哈希算法(MinHash)是一種快速有效地檢測向量是否相似的技術(shù),它是由安德烈布羅德在1997年提出,最初用于在搜索引擎中檢測重復網(wǎng)頁,它也可以應(yīng)用于大規(guī)模聚類問題。在介紹MinHash之前,首先介紹群落系數(shù)(Jaccard coefficient)的概念。群落系數(shù)表示兩個向量的相似性。假如有兩個向量A和B,那么這兩個向量的群落系數(shù)為:
權(quán)利要求
1.一種去重處理方法,所述方法適用于對分別包含多個向量的至少兩個類進行處理,所述至少兩個類都包含同一個待處理向量,所述方法包括: 分別計算所述至少兩個類的中心向量; 分別計算所述待處理向量到所述至少兩個類的中心向量的距離; 根據(jù)所述待處理向量到所述至少兩個類的中心向量的距離,確定所述待處理向量的歸屬類,將不是所述歸屬類的類所包含的待處理向量刪除,得到去重處理后的至少兩個類。
2.根據(jù)權(quán)利要求1所述的方法,所述包含同一個待處理向量的至少兩個類是對多個向量進行MinHash算法處理而得到的。
3.根據(jù)權(quán)利要求1或2所述的方法, 所述分別計算所述待處理向量到所述至少兩個類的中心向量的距離具體為:分別計算所述待處理向量到所述至少兩個類的中心向量的余弦距離; 所述根據(jù)所述待處理向量到所述至少兩個類的中心向量的距離,確定所述待處理向量的歸屬類具體為:確定余弦距離最大的類作為所述待處理向量的歸屬類。
4.根據(jù)權(quán)利要求1或2所述的方法, 所述分別計算所述待處理向量到所述至少兩個類的中心向量的距離具體為:分別計算所述待處理向量到所述至少兩個類的中心向量的歐式距離; 所述根據(jù)所述待處理向量到所述至少兩個類的中心向量的距離,確定所述待處理向量的歸屬類具體為:確定歐式距離最小的類作為所述待處理向量的歸屬類。
5.根據(jù)權(quán)利要求1或2所述的方`法, 所述分別計算所述待處理向量到所述至少兩個類的中心向量的距離具體為:分別計算所述待處理向量到所述至少兩個類的中心向量的杰卡德距離; 所述根據(jù)所述待處理向量到所述至少兩個類的中心向量的距離,確定所述待處理向量的歸屬類具體為:確定杰卡德距離最大的類作為所述待處理向量的歸屬類。
6.一種去重處理裝置,所述裝置適用于對分別包含多個向量的至少兩個類進行處理,所述至少兩個類都包含同一個待處理向量,所述裝置包括: 第一計算模塊,用于分別計算所述至少兩個類的中心向量; 第二計算模塊,用于分別計算所述待處理向量到所述至少兩個類的中心向量的距離; 去重模塊,用于根據(jù)所述待處理向量到所述至少兩個類的中心向量的距離,確定所述待處理向量的歸屬類,將不是所述歸屬類的類所包含的待處理向量刪除,得到去重處理后的至少兩個類。
7.根據(jù)權(quán)利要求6所述的裝置,所述包含同一個待處理向量的至少兩個類是對多個向量進行MinHash算法處理而得到的。
8.根據(jù)權(quán)利要求6或7所述的裝置, 所述第二計算模塊具體用于分別計算所述待處理向量到所述至少兩個類的中心向量的余弦距離; 所述去重模塊具體用于確定余弦距離最大的類作為所述待處理向量的歸屬類。
9.根據(jù)權(quán)利要求6或7所述的裝置, 所述第二計算模塊具體用于分別計算所述待處理向量到所述至少兩個類的中心向量的歐式距離;所述去重模塊具體用于確定歐式距離最小的類作為所述待處理向量的歸屬類。
10.根據(jù)權(quán)利要求6或7所述的裝置, 所述第二計算模塊具體用于分別計算所述待處理向量到所述至少兩個類的中心向量的杰卡德距離; 所述去重模塊具體用于確 定杰卡德距離最大的類作為所述待處理向量的歸屬類。
全文摘要
本發(fā)明公開了一種去重處理方法及裝置。其中,去重處理方法包括分別計算所述至少兩個類的中心向量;分別計算所述待處理向量到所述至少兩個類的中心向量的距離;根據(jù)所述待處理向量到所述至少兩個類的中心向量的距離,確定所述待處理向量的歸屬類,將不是所述歸屬類的類所包含的待處理向量刪除,得到去重處理后的至少兩個類。通過本發(fā)明提供的技術(shù)方案,實現(xiàn)了一個向量只出現(xiàn)在一個類中。經(jīng)過本發(fā)明的處理保證多個類之間沒有共同向量,避免了后續(xù)的重復計算過程,減小了計算復雜度。
文檔編號G06F17/30GK103106283SQ201310063918
公開日2013年5月15日 申請日期2013年2月28日 優(yōu)先權(quán)日2013年2月28日
發(fā)明者齊路, 何銳邦, 唐會軍 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1