亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種面向圖書市場書名的短文本聚類方法

文檔序號:9750953閱讀:691來源:國知局
一種面向圖書市場書名的短文本聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種面向圖書市場書名的短文本聚類方 法。
【背景技術(shù)】
[0002] 隨著在互聯(lián)網(wǎng)對傳統(tǒng)行業(yè)的深度改造,互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站迅速發(fā)展,網(wǎng)上購物 成了潮流。電商網(wǎng)站擁有海量的商品。由于網(wǎng)上的商品信息錯綜復(fù)雜,分類繁瑣,更新比率 快,對商品進(jìn)人工標(biāo)注往往會耗費大量的人力,因此自動化的將商品進(jìn)行分類成為了電商 的基本需求。針對于商品的分類,國內(nèi)外往往采用數(shù)據(jù)挖掘的方法進(jìn)行操作。
[0003] 現(xiàn)有技術(shù)中,通常采用K均值(K-means)聚類算法對商品進(jìn)行分類。K-means算法是 無監(jiān)督聚類算法,是基于數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值 的方法得到迭代運算的調(diào)整規(guī)則。例如,在短文本聚類領(lǐng)域,針對書籍名稱進(jìn)行聚類時,通 過K-means算法隨機(jī)選定k個聚類關(guān)鍵詞,計算每個書籍名稱相對于選定聚類關(guān)鍵詞的距 離,選取距離最小的聚類關(guān)鍵詞作為書籍名稱的類,根據(jù)每一類中書籍名稱的平均值,重新 計算每個聚類關(guān)鍵詞,重復(fù)進(jìn)行以上過程,直到每個類中的書籍名稱不再變化。
[0004] 但是,采用傳統(tǒng)的k-means聚類算法,聚類關(guān)鍵詞的數(shù)目不可預(yù)測,且采用不同的 初始聚類關(guān)鍵詞得到的聚類結(jié)果往往會有較大偏差,如果聚類關(guān)鍵詞選擇了密集數(shù)據(jù)的邊 緣區(qū)域或者噪聲數(shù)據(jù),會對聚類結(jié)果造成極大影響。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例提供一種面向圖書市場書名的短文本聚類方法,用于解決現(xiàn)有技術(shù) 中的聚類方法不能準(zhǔn)確地對圖書市場書名進(jìn)行聚類的問題。
[0006] 本發(fā)明實施例提供一種面向圖書市場書名的短文本聚類方法,包括:
[0007] 對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化,形成文本數(shù)據(jù)詞向量及聚類關(guān)鍵 詞向量;
[0008] 計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離;
[0009] 根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)詞向 量的聚類類型,根據(jù)所述文本數(shù)據(jù)詞向量的聚類類型將所述文本數(shù)據(jù)詞向量劃分到對應(yīng)的 聚類集合;
[0010] 計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合中的出 現(xiàn)頻率,以及所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類集合之外的其 它聚類集合中的逆向文件頻率,得到所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的 文件詞頻-逆向文件頻率TF-IDF值;
[0011]確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞;
[0012] 根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)詞向量的聚類類型。
[0013] 另一實施例中,所述計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所 述聚類集合中的詞頻,以及所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞在所述聚類 集合之外的其它聚類集合中的逆向文件頻率,得到所述聚類集合中的所有文本數(shù)據(jù)詞向量 中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,包括:
[0014] 根據(jù)TFXIDF得到所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞 頻-逆向文件頻率TF-IDF值,其中,TF表示所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特征 詞在所述聚類集合中的出現(xiàn)頻率,IDF表示所述聚類集合中的所有文本數(shù)據(jù)詞向量中的特 征詞在所述聚類集合外的其它聚類集合中的出現(xiàn)頻率
,nlk為第i個聚 類集合中包含特征詞k的文本數(shù)量,Si為第i個聚類集合中的文本數(shù)據(jù)詞向量的總數(shù),n~ik為 在第i個聚類集合之外的其它聚類集合中包含特征詞k的文本數(shù)量,為在第i個聚類集合 之外的其它聚類集合中的文本數(shù)據(jù)詞向量的總數(shù);i和k為大于等于1的整數(shù)。
[0015] 另一實施例中,所述計算所述文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離包 括:
[0016] 根據(jù)
?計算第m個文本數(shù)據(jù)詞向量到第η個聚類關(guān)鍵詞向量的距 離,其中,Cm表示所述第m個文本數(shù)據(jù)詞向量,cn表示所述第η個聚類關(guān)鍵詞向量,m及η為大于 等于1的整數(shù)。
[0017] 另一實施例中,所述根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定 所述文本數(shù)據(jù)詞向量的聚類類型包括:確定與所述文本數(shù)據(jù)詞向量相距距離最小的聚類關(guān) 鍵詞為所述文本數(shù)據(jù)詞向量的聚類類型。
[0018] 另一實施例中,所述將TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新 后的聚類關(guān)鍵詞包括:
[0019] 將TF-IDF值最大的前五個特征詞作為所述第i個聚類集合更新后的聚類關(guān)鍵詞。 [0020]另一實施例中,所述將TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新 后的聚類關(guān)鍵詞之前,還包括:對所述第i個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞 的文件詞頻-逆向文件頻率TF-IDF值進(jìn)行排序,去除所述設(shè)定的聚類關(guān)鍵詞中已經(jīng)包括在 所述第i個聚類集合中的特征詞以及TF-IDF值小于設(shè)定閾值的特征詞。
[0021 ]另一實施例中,所述設(shè)定閾值大于等于10。
[0022] 另一實施例中,所述設(shè)定的聚類關(guān)鍵詞有多個,所述多個聚類關(guān)鍵詞之間具有語 義上的互斥關(guān)系。
[0023] 本發(fā)明實施例提供的一種面向圖書市場書名的短文本聚類方法,通過對文本數(shù)據(jù) 及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化,計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離, 根據(jù)根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)詞向量的 聚類類型,根據(jù)所述文本數(shù)據(jù)的聚類類型將所述文本數(shù)據(jù)詞向量劃分到對應(yīng)的聚類集合; 然后計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率 TF-IDF值,確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵 詞;根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)詞向量的聚類類型。采用本發(fā)明實施 例提供的短文本聚類方法,根據(jù)用戶需求提前設(shè)定所述聚類關(guān)鍵詞的數(shù)量及內(nèi)容的初始 值,并使用改進(jìn)的TF-IDF算法,體現(xiàn)出特征詞在不同聚類中的重要性,能夠更加準(zhǔn)確地確定 文本數(shù)據(jù)詞向量的聚類類型,使聚類結(jié)果能夠更接近用戶的實際需求。
【附圖說明】
[0024] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0025] 圖1為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的流程示意圖。
[0026] 圖2為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的另一種流程示意 圖。
【具體實施方式】
[0027] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0028]隨著互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站的迅速發(fā)展,將商品進(jìn)行自動化分類成為了互聯(lián)網(wǎng)電子 商務(wù)網(wǎng)站的基本需求。針對于商品的分類,現(xiàn)有技術(shù)通常采用K均值(K-means)聚類算法對 商品進(jìn)行分類。但是,傳統(tǒng)的k-means聚類算法,聚類關(guān)鍵詞的數(shù)目不可預(yù)測,且采用不同的 初始聚類關(guān)鍵詞得到的聚類結(jié)果往往會有較大偏差,如果聚類關(guān)鍵詞選擇了密集數(shù)據(jù)的邊 緣區(qū)域或者噪聲數(shù)據(jù),會對聚類結(jié)果造成極大影響。
[0029] 基于此,本發(fā)明實施例提供一種短文本聚類方法,用于對大量的文本數(shù)據(jù)進(jìn)行分 類。本發(fā)明實施例提供的短文本聚類方法基于設(shè)置初始聚類關(guān)鍵詞向量及聚類關(guān)鍵詞向量 的擴(kuò)展算法,有效的提高了 K-MEANS算法在短文本聚類時的準(zhǔn)確率,使聚類結(jié)果更接近于使 用者的實際需求。
[0030] 圖1為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的流程示意圖。圖2 為本發(fā)明實施例一種面向圖書市場書名的短文本聚類方法的另一種流程示意圖。請參閱圖 1及圖2,所述方法包括:
[0031] S101:對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化,形成文本數(shù)據(jù)詞向量及聚 類關(guān)鍵詞向量;
[0032] 具體地,所述設(shè)定的聚類關(guān)鍵詞有多個,所述多個聚類關(guān)鍵詞之間具有語義上的 互斥關(guān)系。例如,計算機(jī),數(shù)學(xué),化學(xué)。所述設(shè)定的聚類關(guān)鍵詞的數(shù)量及內(nèi)容由用戶輸入。 [0033]將所述設(shè)定的聚類關(guān)鍵詞向量化,將每個聚類關(guān)鍵詞轉(zhuǎn)化為一個聚類關(guān)鍵詞向 量,所述聚類關(guān)鍵詞向量使用HASHSET數(shù)據(jù)結(jié)構(gòu)存儲。
[0034]對于數(shù)據(jù)庫中的每一條文本數(shù)據(jù),首先使用結(jié)巴分詞開源庫將所述文本數(shù)據(jù)進(jìn)行 最大化分詞。對于分詞后的結(jié)果,只保留名詞與動詞,將其他連詞,介詞等無法作為特征詞 的分詞結(jié)果舍掉,并將所述文本數(shù)據(jù)進(jìn)行詞向量化,形成文本數(shù)據(jù)詞向量,使用HASHSET數(shù) 據(jù)結(jié)構(gòu)存儲。
[0035] S102:計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離;
[0036] 計算每一條文本數(shù)據(jù)詞向量與所述聚類關(guān)鍵詞向量之間的距離,遍歷每一條文本 數(shù)據(jù)詞向量中的每一個特征詞,在所述聚類關(guān)鍵詞向量中查詢是否存在所述特征詞,若存 在,則所述文本數(shù)據(jù)詞向量與所述聚類關(guān)鍵詞向量點積加1。
[0037] 具體地,根據(jù)
十算第m個文本數(shù)據(jù)詞向量到第η個聚類關(guān)鍵詞向 量的距離,其中,Cm表示所
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1