亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于類別從屬度的信息分類方法及系統(tǒng)的制作方法

文檔序號(hào):9235432閱讀:221來源:國知局
一種基于類別從屬度的信息分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子數(shù)字處理領(lǐng)域,具體地說是一種衡量某個(gè)數(shù)據(jù)屬于某個(gè)分類的程 度的類別從屬度信息分類方法。
【背景技術(shù)】
[0002] 當(dāng)今社會(huì)中數(shù)據(jù)信息日益鹿大,為了在海量的數(shù)據(jù)中,更好的獲取所需的數(shù)據(jù),需 要對(duì)數(shù)據(jù)進(jìn)行分類。數(shù)據(jù)分類是根據(jù)一定的規(guī)則將某個(gè)數(shù)據(jù)劃分到某個(gè)分類中。如有監(jiān)督 的數(shù)據(jù)分類方法,依靠小樣本學(xué)習(xí)后得到的模型,對(duì)其他更大范圍的未分類數(shù)據(jù)進(jìn)行分類。 根據(jù)一定的規(guī)則,將某一個(gè)數(shù)據(jù)最終劃到一個(gè)類別中。
[0003] 但是,在進(jìn)行分類時(shí),用戶不僅會(huì)關(guān)注一個(gè)數(shù)據(jù)被分到了某個(gè)分類,除了該個(gè)分類 信息之外,在所關(guān)注的分類中,用戶可能還需要知道數(shù)據(jù)屬于分類的程度,即類別從屬度。 目前的分類技術(shù),例如1化linear SVM分類技術(shù),可W提供分類信息,但不能提供類別從屬 度信息。例如,一本書籍介紹餐飲娛樂信息,分類體系中有餐飲、娛樂、軍事、政治等分類,基 于該分類體系,該書籍可能會(huì)被分到餐飲或娛樂中的一個(gè)類別。假設(shè)該書籍被分到了餐飲 類,則用戶最終可W獲取該書籍屬于餐飲類該一個(gè)信息,但是,對(duì)于用戶而言,可能還需要 了解,針對(duì)餐飲和娛樂該兩個(gè)他所關(guān)注的分類,該書籍屬于餐飲類的程度或?qū)儆趭蕵奉惖?程度該一信息。此外,針對(duì)某個(gè)分類下的數(shù)據(jù),如果能更好的提供其屬于其他分類的程度, 也會(huì)為用戶提供更多的參考信息,讓用戶獲得數(shù)據(jù)時(shí)具有更好的參考信息。例如,對(duì)于被分 到餐飲類的書籍,用戶可能還想獲知其屬于歷史還是屬于娛樂的程度大,如果能夠提供該 餐飲類下的書籍,屬于其他類的程度,也會(huì)為用戶提供更多的參考信息。

【發(fā)明內(nèi)容】

[0004] 為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中僅提供對(duì)數(shù)據(jù)的分類,不能提 供數(shù)據(jù)屬于分類的程度、不能為用戶提供更多的參考信息,從而提出一種既可W得到基于 全部分類的全局最優(yōu)分類,還可W得到基于部分分類的局部最優(yōu)分類,為用戶了提供更多 的參考信息的基于類別從屬度的信息分類方法。
[0005] 為解決上述技術(shù)問題,本發(fā)明的提供一種基于類別從屬度的信息分類方法,包括 如下步驟:
[0006] 確定所有分類;
[0007] 確定參考分類,其中,所述參考分類為所有分類中的一部分或全部;
[0008] 確定待分析數(shù)據(jù)對(duì)應(yīng)所述參考分類中每個(gè)分類的參考值;
[0009] 對(duì)于每個(gè)分類,根據(jù)待分析數(shù)據(jù)在該分類的參考值和待分析數(shù)據(jù)對(duì)應(yīng)該參考分類 中每個(gè)分類的參考值,確定待分析數(shù)據(jù)對(duì)于該分類的類別從屬度;
[0010] 根據(jù)獲取的待分析數(shù)據(jù)對(duì)于參考分類中每個(gè)分類的類別從屬度進(jìn)行信息分類,得 到分類結(jié)果。
[0011] 一種基于類別從屬度的信息分類系統(tǒng),包括:
[0012] 所有分類確定模塊;確定所有分類;
[0013] 參考分類確定模塊;確定參考分類,其中,所述參考分類為部分分類或所有分類;
[0014] 參考值計(jì)算模塊:確定待分析數(shù)據(jù)對(duì)應(yīng)所述參考分類中每個(gè)分類的參考值;
[0015] 類別從屬度計(jì)算模塊;對(duì)于每個(gè)分類,根據(jù)待分析數(shù)據(jù)在該分類的參考值和待分 析數(shù)據(jù)對(duì)應(yīng)該參考分類中每個(gè)分類的參考值,確定待分析數(shù)據(jù)對(duì)于該分類的類別從屬度:
[0016] 分類模塊;根據(jù)獲取的待分析數(shù)據(jù)對(duì)于參考分類中每個(gè)分類的類別從屬度進(jìn)行信 息分類,得到分類結(jié)果。
[0017] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有W下優(yōu)點(diǎn),
[0018] (1)本發(fā)明所述的基于類別從屬度的信息分類方法,首先確定所有分類W及參考 分類,然后確定待分析數(shù)據(jù)對(duì)應(yīng)所述參考分類中每個(gè)分類的參考值,再根據(jù)待分析數(shù)據(jù)在 該分類的參考值和待分析數(shù)據(jù)對(duì)應(yīng)該參考分類中每個(gè)分類的參考值確定待分析數(shù)據(jù)對(duì)于 該分類的類別從屬度,然后根據(jù)待分析數(shù)據(jù)對(duì)應(yīng)每個(gè)分類的類別從屬度來進(jìn)行信息分類, 獲得分類結(jié)果,通過該種方法來計(jì)算類別從屬度并進(jìn)行信息分類,可W很好的表示出待分 析數(shù)據(jù)與其關(guān)注的那些分類之間的從屬關(guān)系的大小,從而實(shí)現(xiàn)對(duì)待分析數(shù)據(jù)的分類,該分 類方法中不僅提供了待分析數(shù)據(jù)屬于哪個(gè)分類,還進(jìn)一步提供了待分析數(shù)據(jù)屬于各個(gè)分類 的從屬程度的量化指標(biāo),通過數(shù)字量化的方式,表現(xiàn)更為直觀,且相互之間的可比性更強(qiáng), 使用戶一目了然的知道了待分析數(shù)據(jù)與各個(gè)的分類的關(guān)系,為用戶提供更多的分類參考信 息。
[0019] (2)本發(fā)明還提供可實(shí)現(xiàn)上述功能的基于類別從屬度的信息分類系統(tǒng),包括所有 分類確定模塊、參考分類確定模塊、參考值計(jì)算模塊、類別從屬度計(jì)算模塊W及分類模塊, 采用類別從屬度對(duì)數(shù)據(jù)進(jìn)行分類,提供一種基于類別從屬度對(duì)信息進(jìn)行分類的實(shí)現(xiàn)系統(tǒng), 將類別從屬信息進(jìn)行了量化,通過量化的信息進(jìn)行分類,使得分類結(jié)果不再僅包含現(xiàn)有技 術(shù)中最后將數(shù)據(jù)分到某個(gè)分類的信息,而是包含了與各個(gè)分類的相關(guān)程度的類別從屬度信 息,使得用戶可W直觀的獲取待分析數(shù)據(jù)與各個(gè)分類的相關(guān)程度,為用戶提供更多的分類 的參考信息。
【附圖說明】
[0020] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明,其中
[0021] 圖1是本發(fā)明所述的基于類別從屬度的信息分類方法一個(gè)實(shí)施例的流程圖;
[0022] 圖2是本發(fā)明所述的基于類別從屬度的信息分類系統(tǒng)一個(gè)實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023] 連施例1 :
[0024] 本實(shí)施例提供一種基于類別從屬度的信息分類方法,流程圖如圖1所示,包括如 下步驟:
[0025](1)確定所有分類,建立分類集合C={ci, C2,…,C。}。
[0026] (2)確定參考分類,所述參考分類為分類集合中的部分分類或所有分類,從而建立 分類子集C',其中,C'CC。C',{Cl,,C2,,…,Ci,,…Cm,},,其中Ci,GC'為分類子集C'中 的一個(gè)分類,i=l,2,…!!!;!!!為分類子集C'中的分類的個(gè)數(shù)。
[0027] (3)確定待分析數(shù)據(jù)X對(duì)應(yīng)分類子集C'中每個(gè)分類c/的參考值,所述參考值為待 分析數(shù)據(jù)X到Ci'與CW的分類超平面的距離值。本實(shí)施例中,通過訓(xùn)練后的liblinear SVM分類器,計(jì)算待分析數(shù)據(jù)X在分類集合C中對(duì)應(yīng)于每個(gè)分類Ci'的參考值s/,其中每個(gè) 分類Ci'對(duì)應(yīng)于Ci'與CW的二分類問題,參考值s/為待分析數(shù)據(jù)X到Ci'與CW的分 類超平面的距離,i= 1,2,…,n。該距離的計(jì)算公式為wx+b,其中W是分類超平面的法向 量,b為偏差。
[0028]SVM(suppcxrtvectormachine)即支持向量機(jī),是一種機(jī)器學(xué)習(xí)算法,通過訓(xùn)練計(jì) 算分類超平面,利用分類超平面進(jìn)行分類,利用核函數(shù)將低維空間數(shù)據(jù)映射到高維空間求 解。SVM分類器可W解決二分類問題,使用一條直線巧日果數(shù)據(jù)只有二維)或一個(gè)超平面將 數(shù)據(jù)分類。通過SVM分類器分類時(shí),首先通過樣本構(gòu)建一簇超平面,然后獲得原數(shù)據(jù)與超平 面的距離進(jìn)行分類。
[0029]SVM分類器是現(xiàn)有技術(shù)中較為成熟的技術(shù),liblinearSVM通過SVM技術(shù)解決多分 類問題,通過上述過程,可W得到m個(gè)距離數(shù)據(jù),也就是獲得了待分析數(shù)據(jù)X對(duì)應(yīng)分類子集 中每個(gè)分類的參考值。
[0030](4)對(duì)于每個(gè)分類c/,根據(jù)待分析數(shù)據(jù)X在該分類的參考值Si'和待分析數(shù)據(jù)X 對(duì)應(yīng)該參考分類中每個(gè)分類的參考值Si',s'2,s'3,…,s'm,然后來計(jì)算待分析數(shù)據(jù)對(duì)于該 分類的類別從屬度,計(jì)算公式如下:
[0031]
[0032] 其中,Ci'為所述參考分類中的第i個(gè)分類,f(c/ )為待分析數(shù)據(jù)對(duì)于分類Ci'的 類別從屬度,s/為待分析數(shù)據(jù)對(duì)應(yīng)所述分類Ci'的參考值,m為參考分類中分類的個(gè)數(shù),s'j. 為待分析數(shù)據(jù)在參考分類中對(duì)應(yīng)第j個(gè)分類的參考值,j=l,2,…,m
為待分析數(shù)據(jù)對(duì) 應(yīng)參考分類中每個(gè)分類的參考值之和。
[0033] (5)根據(jù)獲取的待分析數(shù)據(jù)對(duì)于參考分類中每個(gè)分類的類別從屬度進(jìn)行信息分 類,此步驟中,將所述待分析數(shù)據(jù)對(duì)于參考分類中每個(gè)分類的類別從屬度降序排列,將所述 類別從屬度及其對(duì)應(yīng)的分類作為分類結(jié)果,此處的結(jié)果可W通過表格或者列表的方式呈現(xiàn) 給用戶。
[0034] 上述類別從屬度根據(jù)待分析數(shù)據(jù)在該分類的參考值和待分析數(shù)據(jù)對(duì)應(yīng)該參考分 類中每個(gè)分類的參考值之和的比值來計(jì)算,通過該比值可W很好的反映出待分析數(shù)據(jù)對(duì)該 分類的類別從屬程度,體現(xiàn)出其類別從屬度的特征,從而客觀的反應(yīng)出該類別從屬度信息。 將所述待分析數(shù)據(jù)對(duì)于參考分類中每個(gè)分類的類別從屬度降序排列,將所述類別從屬度及 其對(duì)應(yīng)的分類作為分類結(jié)果,該樣就完成了對(duì)待分析數(shù)據(jù)的分類,不僅獲得了其最相關(guān)的 分類,即類別從屬度最高的分類,同時(shí)還獲得了與其他分類的相關(guān)程度數(shù)據(jù),該樣的分類結(jié) 果不僅提供給用戶最終該待分析數(shù)據(jù)所屬的分類,還提供了該數(shù)據(jù)與其他分類的相關(guān)程 度,為用戶提供更多的參考信息。
[0035] 作為其他可W替換的實(shí)施方式,所述參考值為與該分類的相關(guān)程度單調(diào)
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1