亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種面向圖書(shū)市場(chǎng)書(shū)名的短文本聚類(lèi)方法_2

文檔序號(hào):9750953閱讀:來(lái)源:國(guó)知局
述第m個(gè)文本數(shù)據(jù)詞向量,cn表示所述第η個(gè)聚類(lèi)關(guān)鍵詞向量,m及η 為大于等于1的整數(shù)。
[0038] S103:根據(jù)每個(gè)文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù) 詞向量的聚類(lèi)類(lèi)型,根據(jù)所述文本數(shù)據(jù)的聚類(lèi)類(lèi)型將所述文本數(shù)據(jù)詞向量劃分到對(duì)應(yīng)的聚 類(lèi)集合;
[0039]具體地,確定與所述第m個(gè)文本數(shù)據(jù)詞向量相距距離最小的聚類(lèi)關(guān)鍵詞為第m個(gè)文 本數(shù)據(jù)的聚類(lèi)類(lèi)型。在數(shù)據(jù)庫(kù)中將所述第m個(gè)文本數(shù)據(jù)詞向量對(duì)應(yīng)的第m個(gè)文本數(shù)據(jù)標(biāo)記為 對(duì)應(yīng)的聚類(lèi)。若所述第m個(gè)文本數(shù)據(jù)詞向量與各聚類(lèi)關(guān)鍵詞向量的距離均為1,則表示所述 第m個(gè)文本數(shù)據(jù)不屬于任何一個(gè)類(lèi)型。
[0040] S104:計(jì)算每個(gè)聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類(lèi)集合中 的詞頻,以及所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述第i個(gè)聚類(lèi)集合之 外的其它聚類(lèi)集合中的逆向文件頻率,得到所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特 征詞的文件詞頻 -逆向文件頻率(Term Frequency-Inverse Document Frequency,TF_IDF) 值;
[0041] 具體地,根據(jù)TFX IDF得到所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞的 文件詞頻-逆向文件頻率TF-IDF值,其中,TF表示所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中 的特征詞在所述聚類(lèi)集合中的出現(xiàn)頻率,IDF表示所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量 中的特征詞在所述聚類(lèi)集合外的其它聚類(lèi)集合中的出現(xiàn)頻率
nlk為第 i個(gè)聚類(lèi)集合中包含特征詞k的文本數(shù)量,Si為第i個(gè)聚類(lèi)集合中的文本數(shù)據(jù)詞向量的總數(shù), n~lk為在第i個(gè)聚類(lèi)集合之外的其它聚類(lèi)集合中包含特征詞k的文本數(shù)據(jù)詞向量數(shù)量,為 在第i個(gè)聚類(lèi)集合之外的其它聚類(lèi)集合中的文本數(shù)據(jù)詞向量的總數(shù);i和k為大于等于1的整 數(shù)。所述IDF值反映了特征詞在不同聚類(lèi)中的重要性,能夠更加準(zhǔn)確地確定文本數(shù)據(jù)的聚類(lèi) 類(lèi)型。
[0042] 在所述步驟S104之后,對(duì)所述第i個(gè)聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征 詞的文件詞頻-逆向文件頻率TF-IDF值進(jìn)行排序,去除所述設(shè)定的聚類(lèi)關(guān)鍵詞中已經(jīng)包括 在所述第i個(gè)聚類(lèi)集合中的特征詞以及TF-IDF值小于設(shè)定閾值的特征詞,以保證選定的特 征詞的可靠性。例如,所述設(shè)定閾值可以大于等于10。所述第i個(gè)聚類(lèi)集合中的文本數(shù)據(jù)詞 向量中的特征詞的TF-IDF值越大,說(shuō)明所述特征詞的區(qū)分度越高。如果所述第i個(gè)聚類(lèi)集合 中的文本數(shù)據(jù)詞向量中的特征詞的TF-IDF值等于零,則說(shuō)明所述特征詞沒(méi)有區(qū)分度,則舍 棄所述特征詞。
[0043] S105:確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類(lèi)集合的更新后的聚類(lèi)關(guān) 鍵詞;
[0044] 具體地,經(jīng)過(guò)步驟S104中對(duì)所述特征詞的TF-IDF值進(jìn)行排序后,將TF-IDF值最大 的前五個(gè)特征詞作為所述第i個(gè)聚類(lèi)集合更新后的聚類(lèi)關(guān)鍵詞。
[0045] S106:根據(jù)所述更新后的聚類(lèi)關(guān)鍵詞確定所述文本數(shù)據(jù)詞向量的聚類(lèi)類(lèi)型。
[0046] 重復(fù)上述步驟S101-S106,直到每個(gè)聚類(lèi)集合中的文本數(shù)據(jù)詞向量不再改變,對(duì)所 述文本數(shù)據(jù)的聚類(lèi)過(guò)程結(jié)束,數(shù)據(jù)庫(kù)中對(duì)各個(gè)文本數(shù)據(jù)標(biāo)記的聚類(lèi)類(lèi)型即為所述各個(gè)文本 數(shù)據(jù)對(duì)應(yīng)的聚類(lèi)。
[0047] 本發(fā)明實(shí)施例提供的一種面向圖書(shū)市場(chǎng)書(shū)名的短文本聚類(lèi)方法,通過(guò)對(duì)文本數(shù)據(jù) 及設(shè)定的聚類(lèi)關(guān)鍵詞進(jìn)行詞向量化,計(jì)算文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離, 根據(jù)根據(jù)每個(gè)文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)的聚類(lèi)類(lèi) 型,根據(jù)所述文本數(shù)據(jù)的聚類(lèi)類(lèi)型將所述文本數(shù)據(jù)劃分到對(duì)應(yīng)的聚類(lèi)集合;然后計(jì)算每個(gè) 聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,確定 TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類(lèi)集合的更新后的聚類(lèi)關(guān)鍵詞;根據(jù)所述更新 后的聚類(lèi)關(guān)鍵詞確定所述文本數(shù)據(jù)的聚類(lèi)類(lèi)型。采用本發(fā)明實(shí)施例提供的一種面向圖書(shū)市 場(chǎng)書(shū)名的短文本聚類(lèi)方法,根據(jù)用戶需求提前設(shè)定所述聚類(lèi)關(guān)鍵詞的數(shù)量及內(nèi)容的初始 值,并使用改進(jìn)的TF-IDF算法,體現(xiàn)出特征詞在不同聚類(lèi)中的重要性,能夠更加準(zhǔn)確地確定 文本數(shù)據(jù)的聚類(lèi)類(lèi)型,使聚類(lèi)結(jié)果能夠更接近用戶的實(shí)際需求。
[0048]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通 過(guò)程序指令相關(guān)的硬件來(lái)完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程 序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:R〇M、RAM、磁碟或 者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0049]最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡 管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依 然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn) 行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù) 方案的范圍。
【主權(quán)項(xiàng)】
1. 一種面向圖書(shū)市場(chǎng)書(shū)名的短文本聚類(lèi)方法,其特征在于,包括: 對(duì)文本數(shù)據(jù)及設(shè)定的聚類(lèi)關(guān)鍵詞進(jìn)行詞向量化,形成文本數(shù)據(jù)詞向量及聚類(lèi)關(guān)鍵詞向 量; 計(jì)算文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離; 根據(jù)每個(gè)文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離,確定所述文本數(shù)據(jù)詞向量的 聚類(lèi)類(lèi)型;根據(jù)所述文本數(shù)據(jù)詞向量的聚類(lèi)類(lèi)型,將所述文本數(shù)據(jù)詞向量劃分到對(duì)應(yīng)的聚 類(lèi)集合; 計(jì)算每個(gè)聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類(lèi)集合中的出現(xiàn)頻 率,W及所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類(lèi)集合之外的其它聚 類(lèi)集合中的逆向文件頻率,得到所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件 詞頻-逆向文件頻率TF-IDF值; 確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類(lèi)集合的更新后的聚類(lèi)關(guān)鍵詞; 根據(jù)所述更新后的聚類(lèi)關(guān)鍵詞確定所述文本數(shù)據(jù)詞向量的聚類(lèi)類(lèi)型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算每個(gè)聚類(lèi)集合中的所有文本數(shù)據(jù) 詞向量中的特征詞在所述聚類(lèi)集合中的詞頻,W及所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量 中的特征詞在所述聚類(lèi)集合之外的其它聚類(lèi)集合中的逆向文件頻率,得到所述聚類(lèi)集合中 的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,包括: 根據(jù)TFX IDF得到所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆 向文件頻率TF-IDF值,其中,TF表示所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞在 所述聚類(lèi)集合中的出現(xiàn)頻率,IDF表示所述聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞 在所述聚類(lèi)集合外的其它聚類(lèi)集合中的出現(xiàn)頻率,ruk為第i個(gè)聚類(lèi)集 合中包含特征詞k的文本數(shù)量,Si為第i個(gè)聚類(lèi)集合中的文本數(shù)據(jù)詞向量的總數(shù),n~Ik為在第 i個(gè)聚類(lèi)集合之外的其它聚類(lèi)集合中包含特征詞k的文本數(shù)據(jù)詞向量的數(shù)量,扛1為在第i個(gè) 聚類(lèi)集合之外的其它聚類(lèi)集合中的文本數(shù)據(jù)詞向量的總數(shù);i和k為大于等于1的整數(shù)。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述計(jì)算所述文本數(shù)據(jù)詞向量到所述 聚類(lèi)關(guān)鍵詞向量的距離包括: 根據(jù)計(jì)算第m個(gè)文本數(shù)據(jù)詞向量到第n個(gè)聚類(lèi)關(guān)鍵詞向量的距離,其 中,Cm表示所述第m個(gè)文本數(shù)據(jù)詞向量,Cn表示所述第n個(gè)聚類(lèi)關(guān)鍵詞向量,m及n為大于等于1 的整數(shù)。4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述文本數(shù)據(jù)詞向量到所述 聚類(lèi)關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)詞向量的聚類(lèi)類(lèi)型包括:確定與所述文本數(shù)據(jù)詞 向量相距距離最小的聚類(lèi)關(guān)鍵詞向量為所述文本數(shù)據(jù)詞向量的聚類(lèi)類(lèi)型。5. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述將TF-IDF值滿足設(shè)定條件的特征 詞作為所述聚類(lèi)集合的更新后的聚類(lèi)關(guān)鍵詞包括: 將TF-IDF值最大的前五個(gè)特征詞作為所述第i個(gè)聚類(lèi)集合更新后的聚類(lèi)關(guān)鍵詞。6. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述將TF-IDF值滿足設(shè)定條件的特征 詞作為所述聚類(lèi)集合的更新后的聚類(lèi)關(guān)鍵詞之前,還包括:對(duì)所述第i個(gè)聚類(lèi)集合中的所有 文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值進(jìn)行排序,去除所述設(shè)定 的聚類(lèi)關(guān)鍵詞中已經(jīng)包括在所述第i個(gè)聚類(lèi)集合中的特征詞W及TF-IDF值小于設(shè)定闊值的 特征詞。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述設(shè)定闊值大于等于10。8. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述設(shè)定的聚類(lèi)關(guān)鍵詞有多個(gè),所述多 個(gè)聚類(lèi)關(guān)鍵詞之間具有語(yǔ)義上的互斥關(guān)系。
【專(zhuān)利摘要】本發(fā)明提供一種面向圖書(shū)市場(chǎng)書(shū)名的短文本聚類(lèi)方法,包括:對(duì)文本數(shù)據(jù)及設(shè)定的聚類(lèi)關(guān)鍵詞進(jìn)行詞向量化,計(jì)算文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離,根據(jù)每個(gè)文本數(shù)據(jù)詞向量到所述聚類(lèi)關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)的聚類(lèi)類(lèi)型,根據(jù)所述文本數(shù)據(jù)的聚類(lèi)類(lèi)型將所述文本數(shù)據(jù)劃分到對(duì)應(yīng)的聚類(lèi)集合;計(jì)算每個(gè)聚類(lèi)集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類(lèi)集合的更新后的聚類(lèi)關(guān)鍵詞;根據(jù)所述更新后的聚類(lèi)關(guān)鍵詞確定所述文本數(shù)據(jù)的聚類(lèi)類(lèi)型。采用本發(fā)明實(shí)施例提供的方法,能夠更加準(zhǔn)確地確定文本數(shù)據(jù)的聚類(lèi)類(lèi)型,使聚類(lèi)結(jié)果能夠更接近用戶的實(shí)際需求。
【IPC分類(lèi)】G06F17/27, G06K9/62, G06F17/30
【公開(kāi)號(hào)】CN105512277
【申請(qǐng)?zhí)枴緾N201510886332
【發(fā)明人】李歡, 孫陽(yáng), 劉海星, 張立, 尤樹(shù)林
【申請(qǐng)人】北京航空航天大學(xué), 化學(xué)工業(yè)出版社
【公開(kāi)日】2016年4月20日
【申請(qǐng)日】2015年12月4日
當(dāng)前第2頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1