一種面向圖書市場書名的短文本聚類方法

文檔序號：9750953閱讀：691來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向圖書市場書名的短文本聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域，尤其涉及一種面向圖書市場書名的短文本聚類方法。
【背景技術(shù)】
[0002] 隨著在互聯(lián)網(wǎng)對傳統(tǒng)行業(yè)的深度改造，互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站迅速發(fā)展，網(wǎng)上購物成了潮流。電商網(wǎng)站擁有海量的商品。由于網(wǎng)上的商品信息錯綜復(fù)雜，分類繁瑣，更新比率快，對商品進(jìn)人工標(biāo)注往往會耗費大量的人力，因此自動化的將商品進(jìn)行分類成為了電商的基本需求。針對于商品的分類，國內(nèi)外往往采用數(shù)據(jù)挖掘的方法進(jìn)行操作。
[0003] 現(xiàn)有技術(shù)中，通常采用K均值(K-means)聚類算法對商品進(jìn)行分類。K-means算法是無監(jiān)督聚類算法，是基于數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù)，利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則。例如，在短文本聚類領(lǐng)域，針對書籍名稱進(jìn)行聚類時，通過K-means算法隨機(jī)選定k個聚類關(guān)鍵詞，計算每個書籍名稱相對于選定聚類關(guān)鍵詞的距離，選取距離最小的聚類關(guān)鍵詞作為書籍名稱的類，根據(jù)每一類中書籍名稱的平均值，重新計算每個聚類關(guān)鍵詞，重復(fù)進(jìn)行以上過程，直到每個類中的書籍名稱不再變化。
[0004] 但是，采用傳統(tǒng)的k-means聚類算法，聚類關(guān)鍵詞的數(shù)目不可預(yù)測，且采用不同的初始聚類關(guān)鍵詞得到的聚類結(jié)果往往會有較大偏差，如果聚類關(guān)鍵詞選擇了密集數(shù)據(jù)的邊緣區(qū)域或者噪聲數(shù)據(jù)，會對聚類結(jié)果造成極大影響。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例提供一種面向圖書市場書名的短文本聚類方法，用于解決現(xiàn)有技術(shù) 中的聚類方法不能準(zhǔn)確地對圖書市場書名進(jìn)行聚類的問題。
[0006] 本發(fā)明實施例提供一種面向圖書市場書名的短文本聚類方法，包括：
[0007] 對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化，形成文本數(shù)據(jù)詞向量及聚類關(guān)鍵詞向量；
[0008] 計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離；
[0009] 根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)詞向量的聚類類型，根據(jù)所述文本數(shù)據(jù)詞向量的聚類類型將所述文本數(shù)據(jù)詞向量劃分到對應(yīng)的聚類集合；
[0010] 計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合中的出現(xiàn)頻率，以及所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合之外的其它聚類集合中的逆向文件頻率，得到所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值；
[0011]確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞；
[0012] 根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)詞向量的聚類類型。
[0013] 另一實施例中，所述計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合中的詞頻，以及所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合之外的其它聚類集合中的逆向文件頻率，得到所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值，包括：
[0014] 根據(jù)TFXIDF得到所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值，其中，TF表示所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合中的出現(xiàn)頻率，IDF表示所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合外的其它聚類集合中的出現(xiàn)頻率
，nlk為第i個聚類集合中包含特征詞k的文本數(shù)量，Si為第i個聚類集合中的文本數(shù)據(jù)詞向量的總數(shù)，n~ik為在第i個聚類集合之外的其它聚類集合中包含特征詞k的文本數(shù)量，為在第i個聚類集合之外的其它聚類集合中的文本數(shù)據(jù)詞向量的總數(shù);i和k為大于等于1的整數(shù)。
[0015] 另一實施例中，所述計算所述文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離包括：
[0016] 根據(jù)
?計算第m個文本數(shù)據(jù)詞向量到第η個聚類關(guān)鍵詞向量的距離，其中，Cm表示所述第m個文本數(shù)據(jù)詞向量，cn表示所述第η個聚類關(guān)鍵詞向量，m及η為大于等于1的整數(shù)。
[0017] 另一實施例中，所述根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)詞向量的聚類類型包括:確定與所述文本數(shù)據(jù)詞向量相距距離最小的聚類關(guān) 鍵詞為所述文本數(shù)據(jù)詞向量的聚類類型。
[0018] 另一實施例中，所述將TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞包括：
[0019] 將TF-IDF值最大的前五個特征詞作為所述第i個聚類集合更新后的聚類關(guān)鍵詞。 [0020]另一實施例中，所述將TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞之前，還包括:對所述第i個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值進(jìn)行排序，去除所述設(shè)定的聚類關(guān)鍵詞中已經(jīng)包括在所述第i個聚類集合中的特征詞以及TF-IDF值小于設(shè)定閾值的特征詞。
[0021 ]另一實施例中，所述設(shè)定閾值大于等于10。
[0022] 另一實施例中，所述設(shè)定的聚類關(guān)鍵詞有多個，所述多個聚類關(guān)鍵詞之間具有語義上的互斥關(guān)系。
[0023] 本發(fā)明實施例提供的一種面向圖書市場書名的短文本聚類方法，通過對文本數(shù)據(jù) 及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化，計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離，根據(jù)根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)詞向量的聚類類型，根據(jù)所述文本數(shù)據(jù)的聚類類型將所述文本數(shù)據(jù)詞向量劃分到對應(yīng)的聚類集合；然后計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率 TF-IDF值，確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞;根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)詞向量的聚類類型。采用本發(fā)明實施例提供的短文本聚類方法，根據(jù)用戶需求提前設(shè)定所述聚類關(guān)鍵詞的數(shù)量及內(nèi)容的初始值，并使用改進(jìn)的TF-IDF算法，體現(xiàn)出特征詞在不同聚類中的重要性，能夠更加準(zhǔn)確地確定文本數(shù)據(jù)詞向量的聚類類型，使聚類結(jié)果能夠更接近用戶的實際需求。
【附圖說明】
[0024] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖做一簡單地介紹，顯而易見地，下面描述中的附圖是本發(fā) 明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0025] 圖1為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的流程示意圖。
[0026] 圖2為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的另一種流程示意圖。
【具體實施方式】
[0027] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實施例是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護(hù)的范圍。
[0028]隨著互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的迅速發(fā)展，將商品進(jìn)行自動化分類成為了互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的基本需求。針對于商品的分類，現(xiàn)有技術(shù)通常采用K均值(K-means)聚類算法對商品進(jìn)行分類。但是，傳統(tǒng)的k-means聚類算法，聚類關(guān)鍵詞的數(shù)目不可預(yù)測，且采用不同的初始聚類關(guān)鍵詞得到的聚類結(jié)果往往會有較大偏差，如果聚類關(guān)鍵詞選擇了密集數(shù)據(jù)的邊緣區(qū)域或者噪聲數(shù)據(jù)，會對聚類結(jié)果造成極大影響。
[0029] 基于此，本發(fā)明實施例提供一種短文本聚類方法，用于對大量的文本數(shù)據(jù)進(jìn)行分類。本發(fā)明實施例提供的短文本聚類方法基于設(shè)置初始聚類關(guān)鍵詞向量及聚類關(guān)鍵詞向量的擴(kuò)展算法，有效的提高了 K-MEANS算法在短文本聚類時的準(zhǔn)確率，使聚類結(jié)果更接近于使用者的實際需求。
[0030] 圖1為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的流程示意圖。圖2 為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的另一種流程示意圖。請參閱圖 1及圖2，所述方法包括：
[0031] S101:對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化，形成文本數(shù)據(jù)詞向量及聚類關(guān)鍵詞向量；
[0032] 具體地，所述設(shè)定的聚類關(guān)鍵詞有多個，所述多個聚類關(guān)鍵詞之間具有語義上的互斥關(guān)系。例如，計算機(jī)，數(shù)學(xué)，化學(xué)。所述設(shè)定的聚類關(guān)鍵詞的數(shù)量及內(nèi)容由用戶輸入。 [0033]將所述設(shè)定的聚類關(guān)鍵詞向量化，將每個聚類關(guān)鍵詞轉(zhuǎn)化為一個聚類關(guān)鍵詞向量，所述聚類關(guān)鍵詞向量使用HASHSET數(shù)據(jù)結(jié)構(gòu)存儲。
[0034]對于數(shù)據(jù)庫中的每一條文本數(shù)據(jù)，首先使用結(jié)巴分詞開源庫將所述文本數(shù)據(jù)進(jìn)行最大化分詞。對于分詞后的結(jié)果，只保留名詞與動詞，將其他連詞，介詞等無法作為特征詞的分詞結(jié)果舍掉，并將所述文本數(shù)據(jù)進(jìn)行詞向量化，形成文本數(shù)據(jù)詞向量，使用HASHSET數(shù) 據(jù)結(jié)構(gòu)存儲。
[0035] S102:計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離；
[0036] 計算每一條文本數(shù)據(jù)詞向量與所述聚類關(guān)鍵詞向量之間的距離，遍歷每一條文本數(shù)據(jù)詞向量中的每一個特征詞，在所述聚類關(guān)鍵詞向量中查詢是否存在所述特征詞，若存在，則所述文本數(shù)據(jù)詞向量與所述聚類關(guān)鍵詞向量點積加1。
[0037] 具體地，根據(jù)
十算第m個文本數(shù)據(jù)詞向量到第η個聚類關(guān)鍵詞向量的距離，其中，Cm表示所

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李歡;孫陽;劉海星;張立;尤樹林;
技術(shù)所有人：北京航空航天大學(xué);化學(xué)工業(yè)出版社;
我是此專利的發(fā)明人

上一篇：網(wǎng)頁顯示方法及裝置的制造方法
上一篇：一種構(gòu)建垃圾文件的方法、裝置及電子設(shè)備的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種面向圖書市場書名的短文本聚類方法