一種基于改進(jìn)的knn文本分類方法

文檔序號：6634417閱讀：280來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于改進(jìn)的knn文本分類方法
【專利摘要】本發(fā)明提供了一種基于改進(jìn)的KNN文本分類方法，首先對訓(xùn)練文本進(jìn)行預(yù)處理并計算每個訓(xùn)練樣本的特征向量，構(gòu)建訓(xùn)練集的特征向量空間模型；然后定義密度和距離，將整個樣本空間按類型定義為多個球形區(qū)和離群點(diǎn)，并存儲為訓(xùn)練集庫；在進(jìn)行測試時，首先判斷待測文本是否落入某個球形區(qū)，根據(jù)對應(yīng)標(biāo)號判斷其類別，否則，離群點(diǎn)和每個球形的中心點(diǎn)作為訓(xùn)練集庫，調(diào)用KNN算法，判斷待測試文本的類別。本發(fā)明提供的方法在兼顧分類速度、分類準(zhǔn)確度以及對數(shù)據(jù)傾斜敏感度的同時，能夠較好的應(yīng)用于非球形分布的分類問題，尤其適合具有高維特征向量，分布不規(guī)則特征的文本分類問題。
【專利說明】一種基于改進(jìn)的KNN文本分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于核安全級軟件驗證與確認(rèn)【技術(shù)領(lǐng)域】，特別涉及一種基于改進(jìn)的KNN文本分類方法。

【背景技術(shù)】
[0002] 近年來，隨著軟件開發(fā)過程逐漸規(guī)范化，對技術(shù)文件的質(zhì)量要求越來越高，尤其是在用于核安全級的軟件開發(fā)過程中，產(chǎn)生大量的技術(shù)文件，如需求文件，設(shè)計文件等，根據(jù) 核電相關(guān)標(biāo)準(zhǔn)的要求，對每個需求項和設(shè)計項，必須滿足某些評估規(guī)則的要求；并隨著軟件的迭代開發(fā)，技術(shù)文件也不斷地更新升版，針對每一版的文件中的每個條目項（如需求項或設(shè)計項），也必須滿足某些規(guī)則的要求，因此，快速準(zhǔn)確的確定條目項與規(guī)則之間的關(guān)聯(lián) 關(guān)系是質(zhì)量人員亟待解決的問題。另外，在軟件產(chǎn)品開發(fā)的整個生命周期中，為了及早發(fā)現(xiàn) 潛在的失效模式，在每個階段都要迭代執(zhí)行失效模式分析（FMEA)，建立失效模式庫，確定條目項與評估規(guī)則之間的匹配關(guān)系，在對軟件技術(shù)文件進(jìn)行審查和分析時，能夠為質(zhì)量人員自動的識別每個條目項適用的評估規(guī)則，便于審查，避免漏審或錯審；在進(jìn)行FMEA分析時，能夠識別相關(guān)的失效模式，使分析人員特別關(guān)注到相關(guān)的失效模式，并能夠自動查詢與條目項與失效模式之間的關(guān)聯(lián)關(guān)系是急需解決的問題。
[0003] 文本分類是指按照預(yù)先定義的主題類別，根據(jù)信息內(nèi)容將不同的信息劃分到與其相關(guān)的類別中，文本分類技術(shù)作為組織和處理大量電子資源信息的關(guān)鍵技術(shù)，將有助于信息檢索和分析，方便用戶快速、準(zhǔn)確地定位所需要的信息。20世紀(jì)90年代以后，隨著互聯(lián)網(wǎng) 技術(shù)的飛速發(fā)展，基于統(tǒng)計理論和機(jī)器學(xué)習(xí)方法成為主流的文本分類技術(shù)，主要包括向量空間法、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、貝葉斯分類、K近鄰（KNN)、支持向量機(jī)等。其中K近鄰是最早應(yīng)用于自動文本分類的機(jī)器學(xué)習(xí)算法之一，其分類思想是：取待分類文本d的K個近鄰，看這K個近鄰中多數(shù)屬于哪一類，就將d歸于該類。該方法由于其簡單，易于理解，易于實現(xiàn)，無需估計參數(shù)，無需訓(xùn)練，且適合于多分類問題的優(yōu)勢而被廣泛的應(yīng) 用。但是，該方法對測試樣本分類時計算量大，內(nèi)存開銷大，對數(shù)據(jù)傾斜問題敏感，尤其當(dāng)樣本表現(xiàn)為高維特征，分布密度不均勻時，將會降低分類器的實現(xiàn)性能和分類性能。另外還有一種結(jié)合向量空間法，針對KNN算法耗時缺點(diǎn)，將特征向量空間劃分為m+1個區(qū)域，每個類的區(qū)域以中心向量和球半徑表示，所有沒有被劃分的樣本點(diǎn)單獨(dú)劃分為一個區(qū)域，在測試時，首先判斷是否落入某個球中，調(diào)用該區(qū)域標(biāo)號判斷類別，否則，調(diào)用KNN算法判斷類別。該方案在對訓(xùn)練集進(jìn)行空間劃分的過程中，每個類別采取以向量中心和球半徑確定的球面作為該類的區(qū)域臨界面，針對非球形的類族，可能出現(xiàn)大規(guī)模的樣本點(diǎn)被排除，僅留下一小部分樣本點(diǎn)被劃分在球形區(qū)內(nèi)，這意味著僅有一小部分被球形區(qū)代替，會降低分類速度；同時，對于非球形分布的類族來說，該方法計算出來的球形區(qū)并非是該類族的聚集區(qū)或代表區(qū)域，因此，該方法對于非球形分布的類族來說，分類的準(zhǔn)確度會大大降低；此外，當(dāng)待測點(diǎn) 處于球形區(qū)的邊緣，在調(diào)用KNN時，排除球形區(qū)內(nèi)的點(diǎn)對分類的決策影響，容易造成錯誤的分類結(jié)果。

【發(fā)明內(nèi)容】

[0004] 針對現(xiàn)有的文本分類算法中精度和速度不能同時兼顧的問題，本發(fā)明提出一種基于KNN算法的改進(jìn)文本分類算法，利用文本分類技術(shù)解決軟件可靠性評價分析中的規(guī)則匹配和失效模式匹配問題。
[0005] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是，一種基于改進(jìn)的KNN文本分類方法：
[0006] S1，根據(jù)每個訓(xùn)練樣本的特征向量，構(gòu)建特征向量空間模型，并存儲為訓(xùn)練集庫；
[0007] 采用特征向量空間模型VSM，對所述訓(xùn)練樣本進(jìn)行預(yù)處理，并提取特征詞；根據(jù)訓(xùn) 練樣本的特征詞，計算每個訓(xùn)練樣本的特征向量，構(gòu)建訓(xùn)練集的特征向量空間模型；
[0008] 所述特征向量空間模型按照文本類型劃分為至少一個球形區(qū)和至少一個離群占.
[0009] 所述訓(xùn)練集庫包括：每個所述球形區(qū)的中心向量、半徑、類型和每個離群點(diǎn)的特征向量、類型；
[0010] S2,當(dāng)需要對新文本進(jìn)行分類時，
[0011] 首先，根據(jù)所述訓(xùn)練樣本中提取的特征詞在所述新文本中出現(xiàn)的情況，采用向量空間模型，計算所述新文本的特征向量；
[0012] 然后，判斷所述新文本的特征向量是否落入所述訓(xùn)練集庫的某個球形區(qū)，如果 "是"取得所述球形區(qū)對應(yīng)的類型，否則，根據(jù)所述訓(xùn)練集庫中存儲的所有離群點(diǎn)和所有球形區(qū)的中心點(diǎn)，采用KNN算法判斷所述新文本的類型。
[0013] 將所述特征向量空間模型按類型劃分為多個球形區(qū)和離群點(diǎn)的方法：
[0014] 1)依據(jù)每個文本類型中所有樣本點(diǎn)的局部密度P i和樣本點(diǎn)到高密度點(diǎn)的距離 S i，將所述文本類型劃分為核心區(qū)和樣本點(diǎn)；
[0015] 2)取某文本類型作為當(dāng)前文本類型，并將所述當(dāng)前文本類型核心區(qū)的樣本點(diǎn)設(shè)為待劃分樣本點(diǎn)；
[0016] 3)按照所述待劃分樣本點(diǎn)的局部密度值進(jìn)行從大到小排序，取當(dāng)前局部密度值最大的點(diǎn)為中心，構(gòu)造一個球形區(qū)；所述球形區(qū)域內(nèi)所有的點(diǎn)屬于當(dāng)前文本類型，所述球形區(qū) 的半徑為與所述球形區(qū)中心點(diǎn)之間的相似度最小的值；
[0017] 4)將未被劃分到所述步驟3)中球形區(qū)的樣本點(diǎn)作為待劃分樣本點(diǎn)，重復(fù)步驟3)，直到屬于所述類型核心區(qū)的樣本點(diǎn)都被劃分到某個球形區(qū)內(nèi)；
[0018] 5)重復(fù)步驟2)直到將所述特征向量空間模型所有類型的核心區(qū)的樣本點(diǎn)都被劃分到某個球形區(qū)內(nèi)；
[0019] 優(yōu)選的，在所述步驟3)的所述球形區(qū)中，如果除了所述球形區(qū)中心點(diǎn)外，沒有其它點(diǎn)屬于所述球形區(qū)則所述球形區(qū)中心點(diǎn)為離群點(diǎn)；
[0020] 優(yōu)選的，將所述文本類型還包括截止距離d。；根據(jù)屬于所述文本類型的樣本點(diǎn)的鄰居數(shù)為所有所述特征向量空間模型中樣本點(diǎn)的1% -2%確定所述類型的截止距離d。；
[0021] 優(yōu)選的，根據(jù)屬于所述類型的離群點(diǎn)數(shù)量占所述類型樣本點(diǎn)總數(shù)的一定比例確定所述樣本點(diǎn)的局部密度P i和所述樣本點(diǎn)到高密度點(diǎn)的距離S,的閾值；
[0022] 優(yōu)選的，所述屬于所述類型的離群點(diǎn)數(shù)量占所述類型樣本點(diǎn)總數(shù)的5% -10%。
[0023] 所述樣本點(diǎn)的局部密度P i的計算方法為：從所述樣本點(diǎn)中任取一點(diǎn)i，計算與點(diǎn) i的相似度大于所述樣本點(diǎn)的文本類型的截止距離d。的樣本點(diǎn)的個數(shù)，為所述點(diǎn)i的局部密度Pi;
[0024] 優(yōu)選的，所述點(diǎn)i的局部密度P i的計算式為：
[0025] Pi= I： kx (dc-dik) (I)

【權(quán)利要求】
1. 一種基于改進(jìn)的KNN文本分類方法，其特征在于： S1，根據(jù)每個訓(xùn)練樣本的特征向量，構(gòu)建特征向量空間模型，并存儲為訓(xùn)練集庫；采用特征向量空間模型VSM，對所述訓(xùn)練樣本進(jìn)行預(yù)處理，并提取特征詞；根據(jù)訓(xùn)練樣本的特征詞，計算每個訓(xùn)練樣本的特征向量，構(gòu)建訓(xùn)練集的特征向量空間模型；所述特征向量空間模型按照文本類型劃分為至少一個球形區(qū)和至少一個離群點(diǎn)；所述訓(xùn)練集庫包括：每個所述球形區(qū)的中心向量、半徑、類型和每個離群點(diǎn)的特征向量、類型； S2,當(dāng)需要對新文本進(jìn)行分類時，首先，根據(jù)所述訓(xùn)練樣本中提取的特征詞在所述新文本中出現(xiàn)的情況，采用向量空間模型，計算所述新文本的特征向量；然后，判斷所述新文本的特征向量是否落入所述訓(xùn)練集庫的某個球形區(qū)，如果"是"取得所述球形區(qū)對應(yīng)的類型，否則，根據(jù)所述訓(xùn)練集庫中存儲的所有離群點(diǎn)和所有球形區(qū)的中心點(diǎn)，采用KNN算法判斷所述新文本的類型。
2. 根據(jù)權(quán)利要求1所述的基于改進(jìn)的KNN文本分類方法，其特征在于，將所述特征向量空間模型按類型劃分為多個球形區(qū)和離群點(diǎn)的方法： 1) 依據(jù)每個文本類型中所有樣本點(diǎn)的局部密度Pi和樣本點(diǎn)到高密度點(diǎn)的距離Si，將所述文本類型劃分為核心區(qū)和樣本點(diǎn)； 2) 取某文本類型作為當(dāng)前文本類型，并將所述當(dāng)前文本類型核心區(qū)的樣本點(diǎn)設(shè)為待劃分樣本點(diǎn)； 3) 按照所述待劃分樣本點(diǎn)的局部密度值進(jìn)行從大到小排序，取當(dāng)前局部密度值最大的點(diǎn)為中心，構(gòu)造一個球形區(qū)；所述球形區(qū)域內(nèi)所有的點(diǎn)屬于當(dāng)前文本類型，所述球形區(qū)的半徑為與所述球形區(qū)中心點(diǎn)之間的相似度最小的值； 4) 將未被劃分到所述步驟3)中球形區(qū)的樣本點(diǎn)作為待劃分樣本點(diǎn)，重復(fù)步驟3)，直到屬于所述類型核心區(qū)的樣本點(diǎn)都被劃分到某個球形區(qū)內(nèi)； 5) 重復(fù)步驟2)直到將所述特征向量空間模型所有類型的核心區(qū)的樣本點(diǎn)都被劃分到某個球形區(qū)內(nèi)；優(yōu)選的，在所述步驟3)的所述球形區(qū)中，如果除了所述球形區(qū)中心點(diǎn)外，沒有其它點(diǎn) 屬于所述球形區(qū)則所述球形區(qū)中心點(diǎn)為離群點(diǎn)；優(yōu)選的，將所述文本類型還包括截止距離d。；根據(jù)屬于所述文本類型的樣本點(diǎn)的鄰居數(shù)為所有所述特征向量空間模型中樣本點(diǎn)的1% -2%確定所述類型的截止距離d。；優(yōu)選的，根據(jù)屬于所述類型的離群點(diǎn)數(shù)量占所述類型樣本點(diǎn)總數(shù)的一定比例確定所述樣本點(diǎn)的局部密度Pi和所述樣本點(diǎn)到高密度點(diǎn)的距離S,的閾值；優(yōu)選的，所述屬于所述類型的離群點(diǎn)數(shù)量占所述類型樣本點(diǎn)總數(shù)的5% -10%。
3. 根據(jù)權(quán)利要求2所述的基于改進(jìn)的KNN文本分類方法，其特征在于，所述樣本點(diǎn)的局部密度Pi的計算方法為：從所述樣本點(diǎn)中任取一點(diǎn)i，計算與點(diǎn)i的相似度大于所述樣本點(diǎn)的文本類型的截止距離d。的樣本點(diǎn)的個數(shù)，為所述點(diǎn)i的局部密度Pi; 優(yōu)選的，所述點(diǎn)i的局部密度Pi的計算式為： Pi = I：kx (dc-dik) (1) 其中
d。為截止距離；dik為i點(diǎn)到其他樣本點(diǎn)k的距離；優(yōu)選的，所述點(diǎn)i到高密度點(diǎn)j的距離S,為：
所述高密度點(diǎn)j為：比所述點(diǎn)i密度大，且距離所述點(diǎn)i的距離最小的點(diǎn)；優(yōu)選的，當(dāng)所述點(diǎn)i為密度最大的點(diǎn)時，點(diǎn)j為距離點(diǎn)i最近的點(diǎn)，Si為：
4. 根據(jù)權(quán)利要求1所述的基于改進(jìn)的KNN文本分類方法，其特征在于，所述特征向量的建立方法為：忽略所述特征詞在所述文本中的先后順序，將所述文本用向量icKwpWs，… ，wn)表示；其中，d為所述文本；所述、w2，…，wn為所述文本的n個特征詞；優(yōu)選的，所述文本中的特征詞是互異的。
5. 根據(jù)權(quán)利要求1-4任一項所述的基于改進(jìn)的KNN文本分類方法，其特征在于，所述特征向量空間模型VSM方法包括：將每個所述訓(xùn)練樣本的特征向量構(gòu)成的向量空間模型VSM 標(biāo)記為DWi，d2,. . .，dT)，將所述文本類型標(biāo)記為C(Cl，c2,. . .，cm);所述相似程度為兩點(diǎn)之間的距離；其中D為所有文本的集合，屯，d2,. . .，dT為屬于向量空間模型D的所有文本，C為文本類型的集合，Cl，c2,. . .，cm為所有的文本類型。
6. 根據(jù)權(quán)利要求1-5任一項所述的基于改進(jìn)的KNN文本分類方法，其特征在于，所述球形區(qū)表示如下： Bit ={xGRn|Sim(x,vt (cj)) ^rit} ,i= = 1, 2, . . . ,f(cj) (4)
其中，rit、Bit分別為類別q的核心區(qū)中劃分的第t個球半徑和球，UnhandledCoreh) 為類別q的核心區(qū)中沒有被劃分過的樣本點(diǎn)集合，Core(D)為所有類的核心區(qū)的集合； vt(Ci)為在確定第t個球形時，類q的UnhandledCoreh)中pi最大的點(diǎn)，f(Ci)為類q 核心區(qū)最多能劃分的球的個數(shù)。
7. 根據(jù)權(quán)利要求1-6任一項所述基于改進(jìn)的KNN文本分類方法，其特征在于，所述基于改進(jìn)的KNN文本分類方法，應(yīng)用于核電儀控系統(tǒng)技術(shù)文件的文本評估規(guī)則關(guān)聯(lián)；所述訓(xùn)練文本或新文本為：核電站儀控系統(tǒng)技術(shù)文件；所述核電站儀控系統(tǒng)技術(shù)文件包括：技術(shù)文件、需求文件和設(shè)計文件；所述文本類別包括：數(shù)據(jù)采集、通信、接口、故障診斷、冗余；所述關(guān)鍵詞包括：采集、輪詢、質(zhì)量位、故障、數(shù)據(jù)包、報警、定期、自診斷、協(xié)議、AIS、計數(shù)器、運(yùn)算、正確性、初始化、競爭、寫雙口、RAM、完整性、破壞、讀寫、通信、干擾、非規(guī)約數(shù)、收發(fā)、看門狗、上行幀、下行幀、響應(yīng)時間、中斷、喂狗。
8. 根據(jù)權(quán)利要求1-6任一項所述基于改進(jìn)的KNN文本分類方法，其特征在于，所述基于改進(jìn)的KNN文本分類方法，應(yīng)用于核電儀控系統(tǒng)技術(shù)文件的失效模式分析；所述訓(xùn)練文本或所述新文本為：核電站儀控系統(tǒng)技術(shù)文件；所述核電站儀控系統(tǒng)技術(shù) 文件包括：技術(shù)文件、需求文件和設(shè)計文件；所述文本類別包括：通道采集、板卡自診斷、通信、運(yùn)算處理、狀態(tài)顯示與警告；所述關(guān)鍵詞包括：初始化、參數(shù)、配置、EEPROM、校驗、計數(shù)器、確定性、協(xié)議、數(shù)據(jù)幀、MAC地址、指示燈、報警、質(zhì)量位、競爭、寫雙口、RAM、完整性、破壞、讀寫、通信、通道、緩沖區(qū)、自診斷、ROM、超時、指令、日志、復(fù)位、冗余、量程、上限、下限、掛起、精度、輪詢、中斷、誤差、干擾、非規(guī)約數(shù)、收發(fā)、看門狗。
【文檔編號】G06F17/30GK104408095SQ201410650756
【公開日】2015年3月11日申請日期:2014年11月15日優(yōu)先權(quán)日:2014年11月15日
【發(fā)明者】馮素梅, 趙云飛, 劉建龍, 張亞棟, 劉邦信, 周小波, 程建明申請人:北京廣利核系統(tǒng)工程有限公司, 中國廣核集團(tuán)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮素梅;趙云飛;劉建龍;張亞棟;劉邦信;周小波;程建明;
技術(shù)所有人：北京廣利核系統(tǒng)工程有限公司;中國廣核集團(tuán)有限公司;
我是此專利的發(fā)明人

上一篇：一種基于層次聚類的復(fù)雜網(wǎng)絡(luò)社區(qū)劃分方法
上一篇：顯示公眾消息的方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本分類方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于改進(jìn)的knn文本分類方法