亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng)的制作方法

文檔序號:10553025閱讀:823來源:國知局
數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng),數(shù)據(jù)降噪及分類裝置包括:數(shù)據(jù)管理模塊,配置成導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中;特征生成模塊,配置成生成特征庫,特征庫包括多個(gè)特征組,特征組按如下步驟生成:生成多個(gè)特征,每個(gè)特征對應(yīng)處理一個(gè)或多個(gè)數(shù)據(jù)組,每個(gè)特征包括特征條件及一個(gè)或多個(gè)關(guān)鍵內(nèi)容;設(shè)置多個(gè)特征之間的關(guān)系,以生成特征組,特征組包括多個(gè)特征及多個(gè)特征之間的關(guān)系;設(shè)置對應(yīng)特征組的數(shù)據(jù)處理類型;數(shù)據(jù)處理模塊,選擇特征、特征組或特征庫對儲存在數(shù)據(jù)庫中的數(shù)據(jù)標(biāo)記噪音和/或數(shù)據(jù)分類。本發(fā)明提供的數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng)可用于海量數(shù)據(jù)處理。
【專利說明】
數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]在大數(shù)據(jù)時(shí)代,對于數(shù)據(jù)處理的需求越來越大。然而,在對于大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),一般需要剔除一些干擾數(shù)據(jù),例如對于海量社交數(shù)據(jù)進(jìn)行處理時(shí),必然存在大量噪音數(shù)據(jù)。一般情況下,通過語義、總結(jié)等方式形成的自動降噪清洗機(jī)制為了避免誤刪有用數(shù)據(jù),所以相對會粗略一些,若要進(jìn)行進(jìn)一步精細(xì)處理,還需要人工來進(jìn)行處理。
[0003]另外,面對海量數(shù)據(jù)的降噪清洗,人工處理沒有專用工具。對于進(jìn)行數(shù)據(jù)降噪分類處理的人員,有各種技術(shù)要求。例如,進(jìn)行數(shù)據(jù)降噪分類處理的人員需要其能夠具有數(shù)據(jù)編程及數(shù)據(jù)庫指令相關(guān)知識。同時(shí),由于數(shù)據(jù)量大,還有設(shè)備硬件性能的要求,無法更大范圍的普及對大數(shù)據(jù)的處理工作。

【發(fā)明內(nèi)容】

[0004]本發(fā)明為了克服上述現(xiàn)有技術(shù)存在的缺陷,提供一種數(shù)據(jù)降噪及分類方法、裝置及系統(tǒng),便于海量數(shù)據(jù)處理。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供一種數(shù)據(jù)降噪及分類裝置,包括:數(shù)據(jù)管理模塊,配置成導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合所述一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中;特征生成模塊,配置成生成特征庫,所述特征庫包括多個(gè)特征組,所述特征組按如下步驟生成:生成多個(gè)特征,每個(gè)所述特征對應(yīng)處理一個(gè)或多個(gè)數(shù)據(jù)組,每個(gè)所述特征包括特征條件及一個(gè)或多個(gè)關(guān)鍵內(nèi)容;設(shè)置所述多個(gè)特征之間的關(guān)系,以生成所述特征組,所述特征組包括所述多個(gè)特征及所述多個(gè)特征之間的關(guān)系;設(shè)置對應(yīng)所述特征組的數(shù)據(jù)處理類型;數(shù)據(jù)處理模塊,選擇所述特征、所述特征組或所述特征庫對儲存在所述數(shù)據(jù)庫中的數(shù)據(jù)標(biāo)記噪音和/或數(shù)據(jù)分類。
[0006]根據(jù)本發(fā)明的又一方面,還提供一種數(shù)據(jù)降噪及分類系統(tǒng),包括:數(shù)據(jù)庫,儲存一個(gè)或多個(gè)數(shù)據(jù)源的數(shù)據(jù);多個(gè)上所述的數(shù)據(jù)降噪及分類裝置,每個(gè)所述數(shù)據(jù)降噪及分類裝置還包括:特征庫管理與共享模塊,配置成管理該數(shù)據(jù)降噪及分類裝置的特征庫,并與其他數(shù)據(jù)降噪及分類裝置共享特征庫;主處理裝置,配置成將數(shù)據(jù)處理任務(wù)分配給多個(gè)數(shù)據(jù)降噪及分類裝置來執(zhí)行。
[0007]優(yōu)選地,所述主處理裝置為多個(gè)所述數(shù)據(jù)降噪及分類裝置中的一個(gè)。
[0008]優(yōu)選地,每個(gè)所述數(shù)據(jù)降噪及分類裝置還包括:網(wǎng)絡(luò)模塊,配置成與所述主處理裝置及所述數(shù)據(jù)庫通信。
[0009]根據(jù)本發(fā)明的又一方面,還提供一種數(shù)據(jù)降噪及分類方法,包括:導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合所述一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中;生成特征庫,所述特征庫包括多個(gè)特征組,所述特征組按如下步驟生成:生成多個(gè)特征,每個(gè)所述特征對應(yīng)處理一個(gè)或多個(gè)數(shù)據(jù)組,每個(gè)所述特征包括特征條件及一個(gè)或多個(gè)關(guān)鍵內(nèi)容;設(shè)置所述多個(gè)特征之間的關(guān)系,以生成所述特征組,所述特征組包括所述多個(gè)特征及所述多個(gè)特征之間的關(guān)系;設(shè)置對應(yīng)所述特征組的數(shù)據(jù)處理類型;選擇所述特征、所述特征組或所述特征庫對儲存在所述數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理。
[0010]優(yōu)選地,儲存在所述數(shù)據(jù)庫的數(shù)據(jù)為文字、音頻、圖片或視頻;所述關(guān)鍵內(nèi)容為關(guān)鍵詞、關(guān)鍵音頻、關(guān)鍵圖片或關(guān)鍵視頻。
[0011]優(yōu)選地,所述特征庫、所述特征組及所述特征分別包括對應(yīng)所述特征庫、所述特征組及所述特征的名稱和注釋信息,選擇所述特征、所述特征組或所述特征庫對儲存在所述數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理還包括:顯示所述特征庫、所述特征組及所述特征的名稱和注釋
?目息O
[0012]優(yōu)選地,所述特征條件包括:包含、不包含、大于、小于、等于、大于等于、小于等于、以對應(yīng)關(guān)鍵內(nèi)容開頭、以對應(yīng)關(guān)鍵內(nèi)容結(jié)尾、與對應(yīng)關(guān)鍵內(nèi)容相似及與對應(yīng)關(guān)鍵內(nèi)容不相似。
[0013]優(yōu)選地,所述數(shù)據(jù)處理類型包括:刪除、標(biāo)記噪音、數(shù)據(jù)分類。
[0014]相比現(xiàn)有技術(shù),本發(fā)明具有如下優(yōu)勢:
[0015]1、降低硬件成本,使大量數(shù)據(jù)的降噪分類處理可以在低配置的計(jì)算機(jī)上進(jìn)行;
[0016]2、數(shù)據(jù)進(jìn)行降噪分類處理后,可用于各種數(shù)據(jù)分析,降低時(shí)間成本,靈活性強(qiáng),無需針對特定的數(shù)據(jù)分析進(jìn)行數(shù)據(jù)開發(fā),研究撰寫專用的軟件系統(tǒng),工作成果復(fù)用性更高
[0017]3、利用多個(gè)數(shù)據(jù)降噪及分類裝置并行處理數(shù)據(jù)降噪和分類,提高數(shù)據(jù)降噪和分類的效率,有效使用系統(tǒng)中空閑的數(shù)據(jù)降噪及分類裝置。
[0018]4、降低大量數(shù)據(jù)降噪及分類時(shí)的人力成本,無需數(shù)據(jù)降噪及分類的人員具有數(shù)據(jù)編程及數(shù)據(jù)庫指令相關(guān)知識。
【附圖說明】
[0019]通過參照附圖詳細(xì)描述其示例實(shí)施方式,本發(fā)明的上述和其它特征及優(yōu)點(diǎn)將變得更加明顯。
[0020]圖1示出了根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)降噪及分類方法的流程圖。
[0021 ]圖2示出了根據(jù)本發(fā)明實(shí)施例數(shù)據(jù)儲存的示意圖。
[0022]圖3示出了根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)降噪及分類裝置的示意圖。
[0023]圖4示出了根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)降噪及分類系統(tǒng)的示意圖。
[0024]圖5示出了根據(jù)圖4中數(shù)據(jù)降噪及分類系統(tǒng)的數(shù)據(jù)降噪及分類裝置的示意圖。
【具體實(shí)施方式】
[0025]現(xiàn)在將參考附圖更全面地描述示例實(shí)施方式。然而,示例實(shí)施方式能夠以多種形式實(shí)施,且不應(yīng)被理解為限于在此闡述的實(shí)施方式;相反,提供這些實(shí)施方式使得本發(fā)明將全面和完整,并將示例實(shí)施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。在圖中相同的附圖標(biāo)記表示相同或類似的結(jié)構(gòu),因而將省略對它們的重復(fù)描述。
[0026]為了解決現(xiàn)有技術(shù)中,大量數(shù)據(jù)處理降噪及分類對數(shù)據(jù)處理裝置硬件要求高,對數(shù)據(jù)處理人員的專業(yè)要求高的問題,本發(fā)明提供一種數(shù)據(jù)降噪及分類方法。具體參考圖1,圖1示出了根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)降噪及分類方法的流程圖,并具體示出了 3個(gè)步驟。
[0027]步驟S110:導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中。
[0028]具體而言,導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源可以包括訪問社交網(wǎng)站服務(wù)器并獲取數(shù)據(jù)源、以一個(gè)或多個(gè)關(guān)鍵詞從搜索引擎網(wǎng)站服務(wù)器導(dǎo)入相關(guān)網(wǎng)頁數(shù)據(jù)作為數(shù)據(jù)源、導(dǎo)入本地服務(wù)器中的數(shù)據(jù)等。本領(lǐng)域技術(shù)人員可以實(shí)現(xiàn)更多導(dǎo)入數(shù)據(jù)源的方式。導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源后,將該一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行整合。例如,對多個(gè)數(shù)據(jù)源中的數(shù)據(jù)按相同的儲存格式進(jìn)行儲存。又例如,將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行初步分類,并按諸如文本、音頻、圖像及視頻等不同數(shù)據(jù)類型進(jìn)行儲存。整合后,將一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù)分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中。
[0029]具體而言,可以按數(shù)據(jù)表的形式將數(shù)據(jù)儲存在數(shù)據(jù)庫中,如圖2所示。在圖2所示的數(shù)據(jù)表中,每一列代表一個(gè)數(shù)據(jù)組。在一些變化例中,一個(gè)數(shù)據(jù)組可以以行為單位。在又一些變化例中,一個(gè)數(shù)據(jù)組可以以多列或者多行為單位。在圖2中,A列數(shù)據(jù)(A組數(shù)據(jù))中的Tl、T2、T3等為文本數(shù)據(jù);B列數(shù)據(jù)(B組數(shù)據(jù))中的P1、P2、P3等為圖像數(shù)據(jù);C列數(shù)據(jù)(C組數(shù)據(jù))中的A1、A2、A3等為音頻數(shù)據(jù);D列數(shù)據(jù)(D組數(shù)據(jù))中的V1、V2、V3等為視頻數(shù)據(jù)。
[0030]除了圖2中按數(shù)據(jù)類型進(jìn)行分組儲存的數(shù)據(jù)表外,數(shù)據(jù)也可以按其他屬性進(jìn)行分組。例如,可以按不同的數(shù)據(jù)源進(jìn)行分組,例如,A列數(shù)據(jù)為從微博服務(wù)器獲得的數(shù)據(jù),B列數(shù)據(jù)為從微信服務(wù)器獲得的數(shù)據(jù),C列數(shù)據(jù)為從百度服務(wù)器獲得的數(shù)據(jù)等。又例如,可以按不同的話題進(jìn)行分組,例如,A列數(shù)據(jù)為以“A”為搜索詞在百度進(jìn)行搜索后獲得的數(shù)據(jù),B列數(shù)據(jù)為以“B”為搜索詞在百度進(jìn)行搜索后獲得的數(shù)據(jù),C列數(shù)據(jù)為以“C”為搜索詞在百度進(jìn)行搜索后獲得的數(shù)據(jù)。
[0031]除了數(shù)據(jù)表,一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù)也可按其他方式進(jìn)行儲存,本領(lǐng)域技術(shù)人員可以實(shí)現(xiàn)更多的變化方式,例如,可以還可以將數(shù)據(jù)分片、分頁或分表進(jìn)行讀取或存儲,這些變化方式都在本發(fā)明的保護(hù)范圍內(nèi)。
[0032]步驟S120:生成特征庫。
[0033]具體而言,本發(fā)明按如下步驟生成特征庫:
[0034]步驟1:創(chuàng)建特征庫。在創(chuàng)建特征庫時(shí),還可以輸入特征庫名稱、所屬分類及該特征庫的注釋。輸入的特征庫名稱供操作人員辨別不同的特征庫。所屬分類及特征庫的注釋供操作人員可以獲知該特征庫的具體功能。
[0035]步驟2:在新建的特征庫下創(chuàng)建特征組。在創(chuàng)建特征組時(shí),還可以輸入特征組名稱及該特征組的注釋。輸入的特征組名稱供操作人員辨別不同的特征組。特征組的注釋供操作人員可以獲知該特征組的具體功能。具體而言,特征組包括多個(gè)特征及多個(gè)特征之間的關(guān)系。通過如下步驟創(chuàng)建特征組的多個(gè)特征:
[0036]步驟I:新建一條空白的特征;
[0037]步驟I1、選擇并指定針對處理的數(shù)據(jù)組;
[0038]步驟II1、選擇或輸入一種特征條件,設(shè)定一個(gè)或多個(gè)關(guān)鍵內(nèi)容。
[0039]特征條件包括:包含、不包含、大于、小于、等于、大于等于、小于等于、以對應(yīng)關(guān)鍵內(nèi)容開頭、以對應(yīng)關(guān)鍵內(nèi)容結(jié)尾、與對應(yīng)關(guān)鍵內(nèi)容相似及與對應(yīng)關(guān)鍵內(nèi)容不相似等。
[0040]具體而言,由于待處理的數(shù)據(jù)可以為文字、音頻、圖片或視頻,相應(yīng)地,上述關(guān)鍵內(nèi)容也可以為關(guān)鍵詞、關(guān)鍵音頻、關(guān)鍵圖片或關(guān)鍵視頻。在一個(gè)實(shí)施例中,當(dāng)待處理的數(shù)據(jù)為文字時(shí),關(guān)鍵內(nèi)容可以是關(guān)鍵詞。例如,結(jié)合上述特征條件,該特征可以是某一組或多組數(shù)據(jù)以所設(shè)定的“關(guān)鍵詞”開頭、以所設(shè)定的“關(guān)鍵詞”結(jié)尾。在又一些實(shí)施例中,當(dāng)待處理數(shù)據(jù)為圖片時(shí),關(guān)鍵內(nèi)容可以是關(guān)鍵詞,也可以是關(guān)鍵圖片。例如,結(jié)合上述特征條件,該特征可以是某一組或多組數(shù)據(jù)以與“關(guān)鍵詞”相似、可以是某一組或多組數(shù)據(jù)以與“關(guān)鍵圖片”相似、可以是某一組或多組數(shù)據(jù)包含“關(guān)鍵圖片”相似。同樣地,可以創(chuàng)建對于音頻及視頻數(shù)據(jù)的特征。具體而言,圖像的處理判斷可以通過對圖像內(nèi)像素分布、圖像形狀及圖像輪廓進(jìn)行識別分析來進(jìn)行。音頻的處理判斷可以通過對音頻內(nèi)語音識別、聲紋、音頻強(qiáng)度等行識別分析來進(jìn)行。同理,可以結(jié)合圖像和音頻的處理判斷來對視頻數(shù)據(jù)進(jìn)行識別分析。
[0041]步驟IV:按步驟I至步驟III添加一條新的特征。并選擇步驟IV添加的特征和前一條特征的關(guān)系。此處所述的關(guān)系可以是“或者”或者“并且”。
[0042]步驟V:重復(fù)前面的上述步驟。
[0043]步驟V1:設(shè)置特征組的數(shù)據(jù)處理類型。數(shù)據(jù)處理類型可以是刪除、標(biāo)記噪音和/或數(shù)據(jù)分類。具體而言,上述標(biāo)記噪聲可以包括:定義為噪音及定義為非噪音。上述數(shù)據(jù)分類可以包括:將該數(shù)據(jù)分配到XX大類的XX小類下、將數(shù)據(jù)存入XX目錄等。在進(jìn)行數(shù)據(jù)分類時(shí),還可以包括分類復(fù)用。分類復(fù)用指的是在對數(shù)據(jù)進(jìn)行分類,當(dāng)按照數(shù)據(jù)處理類型進(jìn)行執(zhí)行時(shí),分類復(fù)用是指當(dāng)一條數(shù)據(jù)符合多個(gè)條件時(shí),將一條數(shù)據(jù)重復(fù)存入多個(gè)分類。如果不進(jìn)行復(fù)用則會將數(shù)據(jù)按第一個(gè)匹配的數(shù)據(jù)處理類型中。
[0044]按上述步驟I至步驟VI生成的特征組,例如可以是:當(dāng)某數(shù)據(jù)表中的某行數(shù)據(jù)的A列數(shù)據(jù)包含“正品”,且B列數(shù)據(jù)中不包含“購買”,或C列數(shù)據(jù)中的數(shù)值小于“10”,并且D列數(shù)據(jù)以“淘寶”開頭,則將此行數(shù)據(jù)定義為噪音。
[0045]更具體地,上述僅示出特征、特征組及特征庫三個(gè)層級,本領(lǐng)域技術(shù)人員還可以根據(jù)實(shí)際數(shù)據(jù)處理需求設(shè)置更多的層級,例如還可以設(shè)置特征文檔,特征文檔包括多個(gè)特征庫。
[0046]本發(fā)明提供的數(shù)據(jù)降噪及分類方法主要輔助人工進(jìn)行大量數(shù)據(jù)處理,用于在大量數(shù)據(jù)中精確批量處理數(shù)據(jù),因此需要在特征的編寫過程中需要實(shí)時(shí)查看數(shù)據(jù)內(nèi)容,查看編寫的特征執(zhí)行效果。在本發(fā)明的一個(gè)實(shí)施例中,采用動態(tài)采樣的方式,以樣本執(zhí)行的情況輔助用戶編寫。為提高樣本的有效性,本發(fā)明提供的數(shù)據(jù)降噪及分類方法優(yōu)選地使用特征組中前序特征精確抽取樣本,樣本量可以是5萬至總數(shù)據(jù)量的5%。在本發(fā)明的另一些實(shí)施例中,若數(shù)據(jù)為圖片、音頻或視頻,則無需進(jìn)行抽樣。
[0047]步驟S130:選擇特征、特征組或特征庫對儲存在數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理。
[0048]具體而言,用戶可以根據(jù)所顯示的特征庫、特征組及特征的名稱和注釋信息進(jìn)行選擇。由此可見,用戶僅需輸入、選擇等步驟,直接根據(jù)文字內(nèi)容進(jìn)行數(shù)據(jù)的降噪及分類處理,其無需具有編程和數(shù)據(jù)庫指令的知識,就可以完成大量數(shù)據(jù)的前期降噪及分類。
[0049]具體而言,上述特征庫生成的步驟、特征組生成的步驟及特征生成的步驟中可以隨時(shí)進(jìn)行測試,以方便用戶根據(jù)執(zhí)行結(jié)果對特征進(jìn)行調(diào)整。此外,上述特征庫、特征組和/或特征的執(zhí)行及測試可以根據(jù)數(shù)據(jù)儲存方式進(jìn)行計(jì)算,并記錄進(jìn)度,隨時(shí)暫停、繼續(xù)或終止。同時(shí),還可以根據(jù)數(shù)據(jù)量預(yù)估進(jìn)展和剩余時(shí)間。例如,通過已處理數(shù)據(jù)量及已處理時(shí)間來預(yù)估進(jìn)展和剩余時(shí)間。
[0050]具體而言,上述經(jīng)上述步驟S130處理后的數(shù)據(jù),可再次進(jìn)入步驟S130中進(jìn)行處理,以這樣迭代處理的方式使得數(shù)據(jù)降噪和數(shù)據(jù)分類更加精細(xì)。上述特征庫、特征組和特征都可以反復(fù)使用,對于穩(wěn)定供應(yīng)的數(shù)據(jù)源,可以建立自動化處理機(jī)制,自動執(zhí)行。
[0051]具體而言,還可以通過分布式協(xié)作的方式對數(shù)據(jù)進(jìn)行降噪和分類。例如,多個(gè)進(jìn)行數(shù)據(jù)降噪和分類的裝置屬于同一局域網(wǎng),當(dāng)局域網(wǎng)中有可進(jìn)行數(shù)據(jù)降噪和分類的裝置處于空閑狀態(tài)時(shí),可將任務(wù)在后臺分發(fā)到空閑的數(shù)據(jù)降噪和分類的裝置,利用空閑計(jì)算能力協(xié)作進(jìn)行大量數(shù)據(jù)的分布處理來提升數(shù)據(jù)處理速度。當(dāng)有多個(gè)進(jìn)行數(shù)據(jù)降噪和分類的裝置協(xié)同處理時(shí),還可以對不同用戶或進(jìn)行數(shù)據(jù)降噪和分類的裝置進(jìn)行特征庫的授權(quán)和互相調(diào)用。
[0052]根據(jù)上述方法,本發(fā)明還提供一種數(shù)據(jù)降噪及分類裝置,如圖3所示。數(shù)據(jù)降噪及分類裝置200包括數(shù)據(jù)管理模塊210、特征生成模塊220及數(shù)據(jù)處理模塊230。
[0053]數(shù)據(jù)管理模塊210執(zhí)行上述步驟S110,配置成導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中。
[0054]特征生成模塊220執(zhí)行上述步驟S120,配置成生成特征庫。特征庫包括多個(gè)特征組。特征組中包括多條特征。
[0055]數(shù)據(jù)處理模塊230執(zhí)行上述步驟S130,配置成選擇特征、特征組或特征庫對儲存在數(shù)據(jù)庫中的數(shù)據(jù)標(biāo)記噪音和/或數(shù)據(jù)分類。
[0056]本發(fā)明提供的數(shù)據(jù)降噪及分類裝置200可作為處理器集成在一般辦公用X86或X64架構(gòu)的操作系統(tǒng)中、移動設(shè)備等電子裝置中。為了清楚起見,圖3僅示出數(shù)據(jù)降噪及分類裝置200的三個(gè)模塊,本領(lǐng)域技術(shù)人員根據(jù)本說明書的描述還可以實(shí)現(xiàn)更多的模塊,在此不予贅述。
[0057]為了實(shí)現(xiàn)分布式數(shù)據(jù)降噪及分類的處理,本發(fā)明還提供一種數(shù)據(jù)降噪及分類系統(tǒng)。結(jié)合圖4及圖5說明本發(fā)明提供的數(shù)據(jù)降噪及分類系統(tǒng)。數(shù)據(jù)降噪及分類系統(tǒng)包括數(shù)據(jù)庫400、多個(gè)數(shù)據(jù)降噪及分類裝置300及主處理裝置500。本實(shí)施例中,示出三個(gè)數(shù)據(jù)降噪及分類裝置300A、300B、300C,數(shù)據(jù)降噪及分類系統(tǒng)中數(shù)據(jù)降噪及分類裝置300的數(shù)量并非以此為限。主處理裝置500可以是多個(gè)數(shù)據(jù)降噪及分類裝置300中的一個(gè),也可以是其他電子裝置。數(shù)據(jù)降噪及分類裝置300可以集成在低配置計(jì)算機(jī)、移動設(shè)備等電子裝置中。數(shù)據(jù)庫400、多個(gè)數(shù)據(jù)降噪及分類裝置300及主處理裝置500通過有線或無線的方式進(jìn)行通訊??蛇x地,數(shù)據(jù)庫400、多個(gè)數(shù)據(jù)降噪及分類裝置300及主處理裝置500位于同一局域網(wǎng)中。在一些變化例中,數(shù)據(jù)庫400、多個(gè)數(shù)據(jù)降噪及分類裝置300及主處理裝置500也可以位于不同的局域網(wǎng)。
[0058]具體而言,數(shù)據(jù)庫400儲存一個(gè)或多個(gè)數(shù)據(jù)源的數(shù)據(jù)。數(shù)據(jù)降噪及分類裝置300包括配置成執(zhí)行上述步驟SllO的數(shù)據(jù)管理模塊310、配置成執(zhí)行上述步驟S120的特征生成模塊320、配置成執(zhí)行上述步驟S130的數(shù)據(jù)處理模塊330以及特征庫管理與共享模塊340。特征庫管理與共享模塊340配置成管理該數(shù)據(jù)降噪及分類裝置300的特征庫,并與其他數(shù)據(jù)降噪及分類裝置300共享特征庫。特征庫管理與共享模塊340還配置成管理各個(gè)特征庫的使用權(quán)限。數(shù)據(jù)降噪及分類裝置300還包括網(wǎng)絡(luò)模塊350。網(wǎng)絡(luò)模塊350配置成與主處理裝置及數(shù)據(jù)庫通信。主處理裝置400配置成將數(shù)據(jù)處理任務(wù)分配給多個(gè)數(shù)據(jù)降噪及分類裝置300來執(zhí)行。
[0059]在一個(gè)實(shí)施例中,每個(gè)數(shù)據(jù)降噪及分類裝置300包括特征庫管理與共享模塊340。一空閑的數(shù)據(jù)降噪及分類裝置300可作為主處理裝置400以向其他數(shù)據(jù)降噪及分類裝置300分配任務(wù)。換言之,在本實(shí)施例中,作為主處理裝置400的數(shù)據(jù)降噪及分類裝置300可以根據(jù)實(shí)際情況進(jìn)行更換。在一個(gè)變化例中,指定一數(shù)據(jù)降噪及分類裝置300作為主處理裝置400以向其他數(shù)據(jù)降噪及分類裝置300分配任務(wù)。在這個(gè)變化例中,作為主處理裝置400的數(shù)據(jù)降噪及分類裝置300固定。例如,可以指定配置相對較高的集成降噪及分類裝置300的電子裝置作為主處理裝置400。
[0060]相比現(xiàn)有技術(shù),本發(fā)明具有如下優(yōu)勢:
[0061]1、降低硬件成本,使大量數(shù)據(jù)的降噪分類處理可以在低配置的計(jì)算機(jī)上進(jìn)行;
[0062]2、數(shù)據(jù)進(jìn)行降噪分類處理后,可用于各種數(shù)據(jù)分析,降低時(shí)間成本,靈活性強(qiáng),無需針對特定的數(shù)據(jù)分析進(jìn)行數(shù)據(jù)開發(fā),研究撰寫專用的軟件系統(tǒng),工作成果復(fù)用性更高
[0063]3、利用多個(gè)數(shù)據(jù)降噪及分類裝置并行處理數(shù)據(jù)降噪和分類,提高數(shù)據(jù)降噪和分類的效率,有效使用系統(tǒng)中空閑的數(shù)據(jù)降噪及分類裝置。
[0064]4、降低大量數(shù)據(jù)降噪及分類時(shí)的人力成本,無需數(shù)據(jù)降噪及分類的人員具有數(shù)據(jù)編程及數(shù)據(jù)庫指令相關(guān)知識。
[0065]以上具體地示出和描述了本發(fā)明的示例性實(shí)施方式。應(yīng)該理解,本發(fā)明不限于所公開的實(shí)施方式,相反,本發(fā)明意圖涵蓋包含在所附權(quán)利要求范圍內(nèi)的各種修改和等效置換。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)降噪及分類裝置,其特征在于,包括: 數(shù)據(jù)管理模塊,配置成導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合所述一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中; 特征生成模塊,配置成生成特征庫,所述特征庫包括多個(gè)特征組,所述特征組按如下步驟生成: 生成多個(gè)特征,每個(gè)所述特征對應(yīng)處理一個(gè)或多個(gè)數(shù)據(jù)組,每個(gè)所述特征包括特征條件及一個(gè)或多個(gè)關(guān)鍵內(nèi)容; 設(shè)置所述多個(gè)特征之間的關(guān)系,以生成所述特征組,所述特征組包括所述多個(gè)特征及所述多個(gè)特征之間的關(guān)系; 設(shè)置對應(yīng)所述特征組的數(shù)據(jù)處理類型; 數(shù)據(jù)處理模塊,選擇所述特征、所述特征組或所述特征庫對儲存在所述數(shù)據(jù)庫中的數(shù)據(jù)標(biāo)記噪音和/或數(shù)據(jù)分類。2.一種數(shù)據(jù)降噪及分類系統(tǒng),其特征在于,包括: 數(shù)據(jù)庫,儲存一個(gè)或多個(gè)數(shù)據(jù)源的數(shù)據(jù); 多個(gè)如權(quán)利要求1所述的數(shù)據(jù)降噪及分類裝置,所述數(shù)據(jù)降噪及分類裝置還包括: 特征庫管理與共享模塊,配置成管理該數(shù)據(jù)降噪及分類裝置的特征庫,并與其他數(shù)據(jù)降噪及分類裝置共享特征庫; 主處理裝置,配置成將數(shù)據(jù)處理任務(wù)分配給多個(gè)數(shù)據(jù)降噪及分類裝置來執(zhí)行。3.如權(quán)利要求2所述的數(shù)據(jù)降噪及分類系統(tǒng),其特征在于,所述主處理裝置為多個(gè)所述數(shù)據(jù)降噪及分類裝置中的一個(gè)。4.如權(quán)利要求2所述的數(shù)據(jù)降噪及分類系統(tǒng),其特征在于,每個(gè)所述數(shù)據(jù)降噪及分類裝置還包括: 網(wǎng)絡(luò)模塊,配置成與所述主處理裝置及所述數(shù)據(jù)庫通信。5.一種數(shù)據(jù)降噪及分類方法,其特征在于,包括: 導(dǎo)入一個(gè)或多個(gè)數(shù)據(jù)源,整合所述一個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),并分為多個(gè)數(shù)據(jù)組儲存在數(shù)據(jù)庫中; 生成特征庫,所述特征庫包括多個(gè)特征組,所述特征組按如下步驟生成: 生成多個(gè)特征,每個(gè)所述特征對應(yīng)處理一個(gè)或多個(gè)數(shù)據(jù)組,每個(gè)所述特征包括特征條件及一個(gè)或多個(gè)關(guān)鍵內(nèi)容; 設(shè)置所述多個(gè)特征之間的關(guān)系,以生成所述特征組,所述特征組包括所述多個(gè)特征及所述多個(gè)特征之間的關(guān)系; 設(shè)置對應(yīng)所述特征組的數(shù)據(jù)處理類型; 選擇所述特征、所述特征組或所述特征庫對儲存在所述數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理。6.如權(quán)利要求5所述的數(shù)據(jù)降噪及分類方法,其特征在于, 儲存在所述數(shù)據(jù)庫的數(shù)據(jù)為文字、音頻、圖片或視頻; 所述關(guān)鍵內(nèi)容為關(guān)鍵詞、關(guān)鍵音頻、關(guān)鍵圖片或關(guān)鍵視頻。7.如權(quán)利要求5所述的數(shù)據(jù)降噪及分類方法,其特征在于,所述特征庫、所述特征組及所述特征分別包括對應(yīng)所述特征庫、所述特征組及所述特征的名稱和注釋信息,選擇所述特征、所述特征組或所述特征庫對儲存在所述數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理還包括: 顯示所述特征庫、所述特征組及所述特征的名稱和注釋信息。8.如權(quán)利要求5所述的數(shù)據(jù)降噪及分類方法,其特征在于,所述特征條件包括:包含、不包含、大于、小于、等于、大于等于、小于等于、以對應(yīng)關(guān)鍵內(nèi)容開頭、以對應(yīng)關(guān)鍵內(nèi)容結(jié)尾、與對應(yīng)關(guān)鍵內(nèi)容相似及與對應(yīng)關(guān)鍵內(nèi)容不相似。9.如權(quán)利要求5所述的數(shù)據(jù)降噪及分類方法,其特征在于,所述數(shù)據(jù)處理類型包括:刪除、標(biāo)記噪音、數(shù)據(jù)分類。
【文檔編號】G06F17/30GK105912674SQ201610227851
【公開日】2016年8月31日
【申請日】2016年4月13日
【發(fā)明人】李光輝
【申請人】精碩世紀(jì)科技(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1