本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)標(biāo)簽生成方法和裝置。
背景技術(shù):
標(biāo)簽是一種比分類更準(zhǔn)確、更具體,可以概括一個信息主體內(nèi)容的關(guān)鍵詞。標(biāo)簽體系是互聯(lián)網(wǎng)時代網(wǎng)站,app,數(shù)字營銷,廣告,推薦系統(tǒng)等的重要組成部分。是實現(xiàn)用戶畫像,精準(zhǔn)定向的基礎(chǔ)。大部分系統(tǒng)的標(biāo)簽來自于人工生成,用戶自定義,或是機器關(guān)鍵詞提取后的映射處理。
在大數(shù)據(jù)背景下,人們所接觸到的文字信息越來越多,文本數(shù)據(jù)量呈指數(shù)級增長。這時以人工的方式去分析歸納文本的主題已不能再滿足需要。人工文本處理的方式不僅耗時昂貴,而且在處理時會參雜一些主觀偏見,從而降低了主題聚類的質(zhì)量。
采用人工生成的可以成為一個系統(tǒng)體系,但全部依賴人工定義的方法無法大規(guī)模生產(chǎn),這樣的標(biāo)簽體系可擴展性不強,也不會很豐富;采用用戶自定義的標(biāo)簽過于零散和自由,無法結(jié)構(gòu)化,對于標(biāo)簽的使用是一個挑戰(zhàn);采用簡單的分詞算法關(guān)鍵詞提取能靠機器產(chǎn)生大量標(biāo)簽,但并不具備代表性和不成體系。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供了一種數(shù)據(jù)標(biāo)簽生成方法和裝置,主要目的是提供一種體系完整、分類準(zhǔn)確、更貼近實際應(yīng)用的標(biāo)簽的生成方法。
為達到上述目的,本發(fā)明主要提供了如下技術(shù)方案:
一方面,本發(fā)明實施例提供了一種數(shù)據(jù)標(biāo)簽生成方法,該方法包括如下步驟:
獲取原始文本數(shù)據(jù);
利用頂層主題數(shù)據(jù)庫對所述原始文本數(shù)據(jù)進行頂層分類,得到多個頂層主題文本數(shù)據(jù);
對每個所述頂層主題文本數(shù)據(jù)進行去冗余預(yù)處理,得到多個頂層主題預(yù)處理文本數(shù)據(jù);
獲取每個所述頂層主題預(yù)處理文本數(shù)據(jù)的文檔總數(shù)量和詞語總數(shù)量,提取同一個所述頂層主題預(yù)處理文本數(shù)據(jù)中每個詞語在每一個文檔中的tf-idf特征值,得到每個所述頂層主題預(yù)處理文本數(shù)據(jù)的矩陣數(shù)據(jù),其中,矩陣數(shù)據(jù)的行數(shù)為所述文檔總數(shù)量,一行為一個文檔,矩陣數(shù)據(jù)的列數(shù)為所述詞語總數(shù)量,一列為一個詞在文檔中的tf-idf特征值;
對每個所述矩陣數(shù)據(jù)進行主題聚類,得到多個不同主題聚類;
從每個所述矩陣數(shù)據(jù)的每一個主題聚類中分別挑取20-50個與對應(yīng)的主題聚類密切相關(guān)的關(guān)鍵詞;
根據(jù)關(guān)鍵詞與其對應(yīng)的主題聚類相關(guān)度,由高至低進行排序,對應(yīng)得到多個關(guān)鍵詞排序表;
根據(jù)實際應(yīng)用對所述多個關(guān)鍵詞排序表進行校正,留取與對應(yīng)的主題聚類內(nèi)容相關(guān)度密切且正確表達對應(yīng)主題聚類內(nèi)容的關(guān)鍵詞,刪除與對應(yīng)主題聚類內(nèi)容相關(guān)度密切但錯誤表達主題聚類內(nèi)容的關(guān)鍵詞,形成多個新關(guān)鍵詞排序表;
根據(jù)所述新關(guān)鍵詞排序表與其對應(yīng)主題聚類的相關(guān)度,對每一個主題聚類定義標(biāo)簽。
作為優(yōu)選,所述定義標(biāo)簽的步驟之后還包括以下步驟:
將主題聚類得到的多個標(biāo)簽形成原始標(biāo)簽庫;
將新產(chǎn)生的標(biāo)簽與所述原始標(biāo)簽庫中的標(biāo)簽進行校驗,去除主題名稱重復(fù)的標(biāo)簽;
將校驗通過的新標(biāo)簽加入所述原始標(biāo)簽庫中,形成現(xiàn)有標(biāo)簽庫;
所述現(xiàn)有標(biāo)簽庫根據(jù)每一次新標(biāo)簽的加入自動更新和增長。
作為優(yōu)選,所述頂層主題數(shù)據(jù)庫包括基本屬性主題的數(shù)據(jù)、生活場景主題的數(shù)據(jù)、影響因子主題的數(shù)據(jù)以及性格心理主題的數(shù)據(jù)。
作為優(yōu)選,所述原始文本數(shù)據(jù)是從網(wǎng)站爬取或客戶提供;
所述去冗余預(yù)處理是對所述頂層分類文本數(shù)據(jù)進行統(tǒng)一編碼、繁體轉(zhuǎn)簡體、半角轉(zhuǎn)全角、去除標(biāo)點符號、去除鏈接、去除html以及中文分詞;
從每一個主題聚類中分別挑取30個與對應(yīng)主題聚類密切相關(guān)的關(guān)鍵詞;
所述tf-idf特征值為詞頻和逆向文檔頻率。
作為優(yōu)選,所述對每個所述矩陣數(shù)據(jù)進行主題聚類是采用非負(fù)矩陣分解方法,得到的主題聚類結(jié)構(gòu)為平級結(jié)構(gòu);
或者,所述對每個所述矩陣數(shù)據(jù)進行主題聚類是采用多層次主題聚類方法,得到的主題聚類結(jié)構(gòu)為樹形結(jié)構(gòu)。
作為優(yōu)選,所述樹形結(jié)構(gòu)的形成過程具體為:
對每個所述頂層主題文本數(shù)據(jù)的多個文檔進行非負(fù)矩陣分解,找出所述多個文檔中最顯著的兩個主題,所述兩個主題為第一主題和第二主題;根據(jù)所述多個文檔與所述第一主題和所述第二主題之間的相關(guān)度,將所述多個文檔分為兩組,得到第一主題文檔集和第二主題文檔集;
所述第一主題和與其對應(yīng)的第一主題文檔集以及所述第二主題和與其對應(yīng)的第二主題文檔集均為所述樹形結(jié)構(gòu)的第一層子結(jié)構(gòu)數(shù)據(jù);
對所述第一主題文檔集和所述第二主題文檔集分別進行非負(fù)矩陣分解,在所述第一主題文檔集中找到最顯著的兩個主題,所述主題為第三主題和第四主題,根據(jù)所述所述第一主題文檔集與所述第三主題和所述第四主題之間的相關(guān)度,將所述第一主題文檔集分為兩組,得到第三主題文檔集和第四主題文檔集;在所述第二主題文檔集中找到最顯著的兩個主題,所述主題為第五主題和第六主題,根據(jù)所述所述第二主題文檔集與所述第五主題和所述第六主題之間的相關(guān)度,將所述第二主題文檔集分為兩組,得到第五主題文檔集和第六主題文檔集;
所述第三主題和與其對應(yīng)的第三主題文檔集、所述第四主題和與其對應(yīng)的第四主題文檔集、所述第五主題和與其對應(yīng)的第五主題文檔集以及所述第六主題和與其對應(yīng)的第六主題文檔集均為所述樹形結(jié)構(gòu)的第二層子結(jié)構(gòu)數(shù)據(jù);
采用迭代方式,按照非負(fù)矩陣分解方式將上一層子結(jié)構(gòu)數(shù)據(jù)中的所有主題文檔集分別分為兩組,得到下一層子結(jié)構(gòu)數(shù)據(jù),所述下一層子結(jié)構(gòu)數(shù)據(jù)包括多個主題以及與所述多個主題分別對應(yīng)的多個主題文檔集;
當(dāng)?shù)玫降南乱粚幼咏Y(jié)構(gòu)數(shù)據(jù)滿足預(yù)定需求時停止主題聚類過程,得到每個所述頂層主題文本數(shù)據(jù)的n個文檔主題聚類的樹形結(jié)構(gòu)。
另一方面,本發(fā)明還提供了一種數(shù)據(jù)標(biāo)簽生成裝置,所述裝置包括:
獲取原始數(shù)據(jù)模塊;
頂層主題數(shù)據(jù)庫模塊,用于對所述原始文本數(shù)據(jù)進行頂層分類,得到所述原始文本數(shù)據(jù)的頂層主題文本數(shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,用于對每個所述頂層主題文本數(shù)據(jù)進行去冗余預(yù)處理,得到多個頂層主題預(yù)處理文本數(shù)據(jù);
獲取矩陣數(shù)據(jù)模塊,用于在每個所述頂層主題預(yù)處理文本數(shù)據(jù)中獲取其文檔總數(shù)量和詞語總數(shù)量,提取同一所述頂層主題預(yù)處理文本數(shù)據(jù)的每個詞在每一個文檔中的tf-idf特征值,得到矩陣數(shù)據(jù);其中,矩陣數(shù)據(jù)的行數(shù)為文檔總數(shù)量,一行為一個文檔,矩陣數(shù)據(jù)的列數(shù)為詞語總數(shù)量,一列為一個詞分別在多個文檔中的tf-idf特征值;
主題聚類模塊,用于對多個所述矩陣數(shù)據(jù)進行主題聚類,得到多個不同主題聚類;
獲取關(guān)鍵詞模塊,用于從每個所述矩陣數(shù)據(jù)的每一個主題聚類中分別挑取20-50個與對應(yīng)的主題聚類密切相關(guān)的關(guān)鍵詞;
關(guān)鍵詞排序模塊,用于根據(jù)關(guān)鍵詞與其對應(yīng)的主題聚類相關(guān)度由高至低進行排序,得到多個關(guān)鍵詞排序表;
校正關(guān)鍵詞模塊,用于根據(jù)實際應(yīng)用對多個關(guān)鍵詞排序表進行校正,留取與對應(yīng)的主題聚類內(nèi)容相關(guān)度密切且正確表達對應(yīng)主題聚類內(nèi)容的關(guān)鍵詞,刪除與對應(yīng)主題聚類內(nèi)容相關(guān)度密切且錯誤表達主題聚類內(nèi)容的關(guān)鍵詞,形成多個新關(guān)鍵詞排序表;
定義標(biāo)簽?zāi)K,用于根據(jù)所述新關(guān)鍵詞排序表與其對應(yīng)主題聚類的相關(guān)度,對每一個主題聚類定義標(biāo)簽。
作為優(yōu)選,在所述定義標(biāo)簽?zāi)K之后還包括標(biāo)簽校驗入庫模塊,用于將主題聚類得到的多個標(biāo)簽形成原始標(biāo)簽庫,將新產(chǎn)生的標(biāo)簽與所述原始標(biāo)簽庫中的標(biāo)簽進行校驗,去除主題名稱重復(fù)的標(biāo)簽,將校驗通過的新標(biāo)簽加入所述原始標(biāo)簽庫中,形成現(xiàn)有標(biāo)簽庫,所述現(xiàn)有標(biāo)簽庫根據(jù)每一次新標(biāo)簽的加入自動更新和增長;
所述頂層主題數(shù)據(jù)庫模塊包括基本屬性子模塊、生活場景子模塊、影響因子子模塊以及性格心理子模塊。
作為優(yōu)選,所述主題聚類模塊包括:非負(fù)矩陣分解模塊,得到的主題聚類結(jié)構(gòu)為平級結(jié)構(gòu);以及,
樹形結(jié)構(gòu)模塊,得到的主題聚類結(jié)構(gòu)為樹形結(jié)構(gòu)。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
本發(fā)明針對標(biāo)簽體系可擴展性差,無法結(jié)構(gòu)化,無法形成完整體系、定義標(biāo)簽不準(zhǔn)確導(dǎo)致用戶不能方便快速查詢數(shù)據(jù)的技術(shù)問題,通過先將海量數(shù)據(jù)根據(jù)頂層主題數(shù)據(jù)庫劃分為最具有代表性的四大類別,分別對四大類別的子數(shù)據(jù)庫的數(shù)據(jù)采集tf-idf特征值以形成矩陣數(shù)據(jù),再對所有矩陣數(shù)據(jù)進行更細(xì)化的主題聚類,尤其采用樹形結(jié)構(gòu)的主題聚類方式,層次感強,內(nèi)容細(xì)化且豐富,通過以上操作對海量數(shù)據(jù)先大分后小分得到了結(jié)構(gòu)完整,層次感強,內(nèi)容劃分準(zhǔn)確的標(biāo)簽庫體系,為用戶使用提供了較完善、使用方便以及更貼近實際生活應(yīng)用的數(shù)據(jù)體系。
附圖說明
圖1為本發(fā)明實施例生成數(shù)據(jù)標(biāo)簽的流程示意圖;
圖2為本發(fā)明實施例非負(fù)矩陣分解示意圖。
具體實施方式
為更進一步闡述本發(fā)明為達成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下以較佳實施例,對依據(jù)本發(fā)明申請的具體實施方式、技術(shù)方案、特征及其功效,詳細(xì)說明如后。下述說明中的多個實施例中的特定特征、結(jié)構(gòu)、或特點可由任何合適形式組合。
實施例1
一種數(shù)據(jù)標(biāo)簽生成方法:獲取原始文本數(shù)據(jù);利用頂層主題數(shù)據(jù)庫對原始文本數(shù)據(jù)進行頂層分類,得到多個頂層主題文本數(shù)據(jù);對多個頂層主題文本數(shù)據(jù)進行去冗余預(yù)處理,得到多個頂層主題預(yù)處理文本數(shù)據(jù);在每一個頂層主題預(yù)處理文本數(shù)據(jù)中獲取文檔總數(shù)量n和詞語總數(shù)量m,提取每個詞在每一個文檔中的tf-idf特征值,得到矩陣數(shù)據(jù)v;其中,v的行數(shù)為n,一行為一個文檔,v的列數(shù)為m,一列為一個詞分別在n個文檔中的tf-idf特征值;對矩陣數(shù)據(jù)v進行主題聚類,得到x個不同主題聚類;從每一個主題聚類中分別挑取20-50個與對應(yīng)的主題聚類密切相關(guān)的關(guān)鍵詞;根據(jù)關(guān)鍵詞與其對應(yīng)的主題聚類相關(guān)度由高至低進行排序,得到x個關(guān)鍵詞排序表;根據(jù)實際應(yīng)用對x個關(guān)鍵詞排序表進行校正,留取與對應(yīng)的主題聚類內(nèi)容相關(guān)度密切且正確表達對應(yīng)主題聚類內(nèi)容的關(guān)鍵詞,刪除與對應(yīng)主題聚類內(nèi)容相關(guān)度密切且錯誤表達主題聚類內(nèi)容的關(guān)鍵詞,形成x個新關(guān)鍵詞排序表;根據(jù)新關(guān)鍵詞排序表與其對應(yīng)主題聚類內(nèi)容的相關(guān)度得到每一個主題聚類的主題名稱,即得到每一個主題聚類的標(biāo)簽。
本發(fā)明的數(shù)據(jù)標(biāo)簽生成方法處理能力強、體系結(jié)構(gòu)完整、內(nèi)容豐富、分類準(zhǔn)確以及更貼近實際應(yīng)用的標(biāo)簽體系。
作為上述實施例的優(yōu)選,在得到每一個主題聚類的標(biāo)簽的步驟之后還包括以下步驟:將主題聚類得到的多個標(biāo)簽形成原始標(biāo)簽庫;將新產(chǎn)生的標(biāo)簽與原始標(biāo)簽庫中的標(biāo)簽進行校驗,去除主題名稱重復(fù)的標(biāo)簽;將校驗通過的新標(biāo)簽加入原始標(biāo)簽庫中,形成現(xiàn)有標(biāo)簽庫;現(xiàn)有標(biāo)簽庫根據(jù)每一次新標(biāo)簽的加入自動更新和增長;上述標(biāo)簽的生成流程運轉(zhuǎn)起來后會隨著內(nèi)容的增加不斷更新和迭代,形成一個動態(tài)化、自生長的深度標(biāo)簽體系。
作為上述實施例的優(yōu)選,頂層主題數(shù)據(jù)庫(也稱為clip標(biāo)簽庫體系,c(characteristics)——基本屬性,l(living)——生活場景,i(influence)——影響因子,p(psychographics)——性格心理)是將獲取的數(shù)據(jù)根據(jù)消費人群的空間坐標(biāo)、社會屬性、行為特征、階段特征、心理特征以及對于環(huán)境的反應(yīng)分為基本屬性主題、生活場景主題、影響因子主題以及性格心理主題的一種數(shù)據(jù)庫;頂層分類文本數(shù)據(jù)分為四類,分別為基本屬性主題的數(shù)據(jù)、生活場景主題的數(shù)據(jù)、影響因子主題的數(shù)據(jù)以及性格心理主題的數(shù)據(jù);上述頂層主題數(shù)據(jù)庫可通過機器根據(jù)預(yù)定程序生成,也可由各領(lǐng)域?qū)I(yè)人員根據(jù)其專業(yè)知識和領(lǐng)域經(jīng)驗篩選產(chǎn)生;該頂層主題數(shù)據(jù)庫可應(yīng)用于海量數(shù)據(jù)內(nèi)容的大致分類,尤其針對中高端消費人群的狀態(tài)和特性建立頂層柱體數(shù)據(jù)庫時更具有商業(yè)應(yīng)用前景;如圖1所示。
作為上述實施例的優(yōu)選,上述基本屬性主題為消費人群的人口屬性、地理位置、設(shè)備屬性和職業(yè)屬性;
上述生活場景主題為消費人群的消費類型、興趣、規(guī)劃以及場景;
上述影響因子主題為消費人群的好感、互惠、社會影響力、言行一致、權(quán)威以及稀缺性;
上述性格心理主題為消費人群的開放性、自覺性、外向性、適應(yīng)性以及情緒穩(wěn)定性。
優(yōu)選的,上述人口屬性包括人的性別、年齡以及婚姻狀況;職業(yè)屬性包括學(xué)歷、學(xué)位、所在領(lǐng)域、從業(yè)經(jīng)歷、職位、職級以及薪酬水平;
上述地理位置包括穩(wěn)定生活地方以及該地方的經(jīng)緯度;
上述設(shè)備屬性包括移動端、pc端以及移動端的操作系統(tǒng),例如android或者ios;
上述消費類型包括服飾、飲食、居住、出行、日用、文化和奢侈品;
興趣包括閱讀、攝影、旅游、運動、收藏、戲劇以及音樂;
規(guī)劃包括事業(yè)、家庭、健康、財富以及教育;
場景包括金融、商業(yè)、互聯(lián)網(wǎng)以及產(chǎn)業(yè)。
作為上述實施例的優(yōu)選,原始文本數(shù)據(jù)是從網(wǎng)站爬取或客戶提供;這些未經(jīng)處理的原始文本數(shù)據(jù)包含很多冗余或不一致的信息,這些噪音會對模型訓(xùn)練產(chǎn)生不利的影響;去冗余預(yù)處理是對頂層分類文本數(shù)據(jù)進行統(tǒng)一編碼、繁體轉(zhuǎn)簡體、半角轉(zhuǎn)全角、去除標(biāo)點符號、去除鏈接、去除html以及中文分詞。
優(yōu)選的,對于中文編碼統(tǒng)一采用utf-8格式,以保證處理時文字的一致性。轉(zhuǎn)碼之后使用opencc將繁體字統(tǒng)一為簡體字,并將全角字符歸一為半角字符,在此之后使用jieba分詞工具對文本進行中文分詞,分詞后每個詞之間用空格分隔,分詞完成后,語料庫重還存在大量的url,標(biāo)點符號,html等冗余信息,使用regularexpression對這些信息進行過濾;至此頂層分類文本數(shù)據(jù)的預(yù)處理已基本完成;通過對文本數(shù)據(jù)的預(yù)處理,將不相關(guān)的信息剔除,將不一致的信息歸一化,并將文本分詞,詞與詞之間用空格分開。
作為上述實施例的優(yōu)選,文本數(shù)據(jù)預(yù)處理之后,將每個文檔矢量化,對文檔提取出tf-idf特征值。這些特征值是文檔量化后的表述;tf-idf是文檔的一種向量化的表述形式,它包含詞頻(termfrequency)與逆向文檔頻率(inversedocumentfrequency)兩個部分;詞頻部分描述了文檔與詞之間的相關(guān)度;如果該詞在文檔中出現(xiàn)多次,認(rèn)為文檔與這個詞很相關(guān);與之不同的是,逆向文檔頻率表述的是該詞在整個語料庫中出現(xiàn)的廣度;如果某個詞在所有文檔中出現(xiàn),認(rèn)為這個詞太普遍,反而不能說明和文檔相關(guān);具體來說,用w代表詞庫里某詞,d代表某文檔,那么tf-idf的計算公式為:
tfidfd,w=idfw×tfd,w
詞頻(termfrequency)的計算公式為:
逆向文檔頻率(inversedocumentfrequency)
計算好每個文檔的tf-idf特征向量之后,我們可以把語料庫表示成一個n乘m的矩陣數(shù)據(jù)v,n是語料庫中文檔的總數(shù)量,m是詞庫中詞的總個數(shù);矩陣數(shù)據(jù)中的值代表的某詞在某文檔中的tf-idf特征值;這個矩陣數(shù)據(jù)v作為主題聚類模型的輸入數(shù)據(jù)源。
作為上述實施例的優(yōu)選,采用非負(fù)矩陣分解(non-negativematrixfactorization,nmf)方法作為主題聚類的首要算法。運用該算法,可從大量文本中自動挖掘出主題的聚類的信息;矩陣分解是一種能將矩陣分解為兩個子矩陣內(nèi)積的技術(shù)。如圖2所示,假設(shè)我們已有矩陣v,通過矩陣分解,我們可以找到兩個矩陣w和h,使得這兩個矩陣的內(nèi)積可以近似的表述v;w的列和h的行數(shù)均為k,k代表所需要提取的主題個數(shù);具體到主題聚類的實際問題中,v代表的是訓(xùn)練集所有文檔的tf-idf特征矩陣,w和h是模型的兩個參數(shù)矩陣;v的每一行代表一篇文檔,每一列存放著詞庫中某個詞在文檔中的tf-idf值;假設(shè)語料庫重包含n篇文檔,詞庫中有m個詞,那么參數(shù)矩陣w是一個n×k矩陣,它描述的是語料庫中的文檔在各主題上的分布情況。參數(shù)矩陣h是一個k×m矩陣,它描述的是每個主題和詞語的關(guān)聯(lián)性,值越高,該詞和該主題越相關(guān);因為相關(guān)度是一個非負(fù)值,在矩陣分解時對參數(shù)矩陣的取值做了非負(fù)的限定,這就是非負(fù)矩陣分解中“非負(fù)”的來源。在模型訓(xùn)練時,需要找到一組w和h的組合,使得二者的內(nèi)積產(chǎn)生的矩陣越接近v越好。從數(shù)學(xué)角度講,可以需要在保證w和h為正的前提下,找到w和h使得v-wh的均方差(mse,meansquarederror)最小,即:
s.t.w≥0,h≥0
上述的優(yōu)化目標(biāo)是一個典型的凸優(yōu)化(convexoptimization)的過程。目標(biāo)函數(shù)是一個二項式,而限制方程為線性。
訓(xùn)練好nmf模型后,可以提取出w和h兩個矩陣。通過w可以得到語料庫中每個文檔和各主題之間的相關(guān)度。在實際運用中,通常會遇到新文檔,而這些文檔是語料庫中沒有出現(xiàn)過的。在預(yù)測新文檔的主題分布時,我們可以采用類似的方法。首先對新文檔進行預(yù)處理和特征提取,從而得到新文檔的v′(1×m),然后可以通過矩陣h計算得到新文檔的w矩陣,即
s.t.h≥0
其中計算得出的w矩陣就是任務(wù)目標(biāo),即該新文檔在各主題上的分布情況。
nmf模型是一種非常快速高效的聚類方法,通常比lda的inference時間會更短。無論是nmf還是普通的lda都是一種單層模型,即提煉出來的主題都是平級關(guān)系而沒有層次化的信息。
作為上述實施例的優(yōu)選,樹形結(jié)構(gòu)的形成過程具體為:對n個文檔進行非負(fù)矩陣分解,找出n個文檔中最顯著的兩個主題,兩個主題為第一主題和第二主題;根據(jù)n個文檔與第一主題和第二主題之間的相關(guān)度,將n個文檔分為兩組,得到第一主題文檔集和第二主題文檔集;第一主題和與其對應(yīng)的第一主題文檔集以及第二主題和與其對應(yīng)的第二主題文檔集均為樹形結(jié)構(gòu)的第一層子結(jié)構(gòu)數(shù)據(jù);
對第一主題文檔集和第二主題文檔集分別進行非負(fù)矩陣分解,在第一主題文檔集中找到最顯著的兩個主題,主題為第三主題和第四主題,根據(jù)第一主題文檔集與第三主題和第四主題之間的相關(guān)度,將第一主題文檔集分為兩組,得到第三主題文檔集和第四主題文檔集;在第二主題文檔集中找到最顯著的兩個主題,主題為第五主題和第六主題,根據(jù)第二主題文檔集與第五主題和第六主題之間的相關(guān)度,將第二主題文檔集分為兩組,得到第五主題文檔集和第六主題文檔集;第三主題、第四主題、第五主題及第六主題均為樹形結(jié)構(gòu)的第二層子結(jié)構(gòu);第三主題和與其對應(yīng)的第三主題文檔集、第四主題和與其對應(yīng)的第四主題文檔集、第五主題和與其對應(yīng)的第五主題文檔集以及第六主題和與其對應(yīng)的第六主題文檔集均為樹形結(jié)構(gòu)的第二層子結(jié)構(gòu)數(shù)據(jù);采用迭代方式,按照非負(fù)矩陣分解方式將上一層子結(jié)構(gòu)數(shù)據(jù)中的所有主題文檔集分別分為兩組,得到下一層子結(jié)構(gòu)數(shù)據(jù),下一層子結(jié)構(gòu)數(shù)據(jù)包括多個主題以及與多個主題分別對應(yīng)的多個主題文檔集;當(dāng)?shù)玫降南乱粚幼咏Y(jié)構(gòu)數(shù)據(jù)滿足預(yù)定需求時停止主題聚類過程,得到n個文檔主題聚類的樹形結(jié)構(gòu)。上述多層次分類方式快速高效并能自動生成一個樹形結(jié)構(gòu)。
作為上述實施例的優(yōu)選,根據(jù)實際應(yīng)用對x個關(guān)鍵詞排序表進行校正,留取與對應(yīng)的主題聚類內(nèi)容相關(guān)度密切且正確表達對應(yīng)主題聚類內(nèi)容的關(guān)鍵詞,刪除與對應(yīng)主題聚類內(nèi)容相關(guān)度密切且錯誤表達主題聚類內(nèi)容的關(guān)鍵詞,形成x個新關(guān)鍵詞排序表;上述選擇關(guān)鍵詞的過程可以由機器根據(jù)預(yù)定程序和設(shè)定數(shù)據(jù)庫自動進行,也可優(yōu)選的采用人工標(biāo)注方式進行挑選,采用人工標(biāo)注的意義在于,在機器對大數(shù)據(jù)海量處理的基礎(chǔ)上,即機器對海量的數(shù)據(jù)已經(jīng)進行主題聚類,標(biāo)簽數(shù)據(jù)庫的百分之九十多的工作已經(jīng)完成,機器的工作忠于“事實”,人工標(biāo)注更貼近實際應(yīng)用更具有人性化,因此,在數(shù)據(jù)分類的最后操作中,采用人工方式,根據(jù)留取的最關(guān)鍵的30個關(guān)鍵詞對與該關(guān)鍵詞對應(yīng)的主題聚類給定義一個準(zhǔn)確的主題名稱,即標(biāo)簽。
實施例2
一種數(shù)據(jù)標(biāo)簽生成裝置,包括:獲取原始數(shù)據(jù)模塊;頂層主題數(shù)據(jù)庫模塊,用于對原始文本數(shù)據(jù)進行頂層分類,得到原始文本數(shù)據(jù)的頂層主題文本數(shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,用于對每個頂層主題文本數(shù)據(jù)進行去冗余預(yù)處理,得到多個頂層主題預(yù)處理文本數(shù)據(jù);
獲取矩陣數(shù)據(jù)模塊,用于在每個頂層主題預(yù)處理文本數(shù)據(jù)中獲取其文檔總數(shù)量和詞語總數(shù)量,提取同一頂層主題預(yù)處理文本數(shù)據(jù)的每個詞在每一個文檔中的tf-idf特征值,得到矩陣數(shù)據(jù);其中,矩陣數(shù)據(jù)的行數(shù)為文檔總數(shù)量,一行為一個文檔,矩陣數(shù)據(jù)的列數(shù)為詞語總數(shù)量,一列為一個詞分別在多個文檔中的tf-idf特征值;
主題聚類模塊,用于對多個矩陣數(shù)據(jù)進行主題聚類,得到多個不同主題聚類;獲取關(guān)鍵詞模塊,用于從每個矩陣數(shù)據(jù)的每一個主題聚類中分別挑取20-50個與對應(yīng)的主題聚類密切相關(guān)的關(guān)鍵詞;
關(guān)鍵詞排序模塊,用于根據(jù)關(guān)鍵詞與其對應(yīng)的主題聚類相關(guān)度由高至低進行排序,得到多個關(guān)鍵詞排序表;
校正關(guān)鍵詞模塊,用于根據(jù)實際應(yīng)用對多個關(guān)鍵詞排序表進行校正,留取與對應(yīng)的主題聚類內(nèi)容相關(guān)度密切且正確表達對應(yīng)主題聚類內(nèi)容的關(guān)鍵詞,刪除與對應(yīng)主題聚類內(nèi)容相關(guān)度密切且錯誤表達主題聚類內(nèi)容的關(guān)鍵詞,形成多個新關(guān)鍵詞排序表;
定義標(biāo)簽?zāi)K,用于根據(jù)新關(guān)鍵詞排序表與其對應(yīng)主題聚類的相關(guān)度,對每一個主題聚類定義標(biāo)簽。
作為上述實施例的優(yōu)選,在定義標(biāo)簽?zāi)K之后還包括標(biāo)簽校驗入庫模塊,用于將主題聚類得到的多個標(biāo)簽形成原始標(biāo)簽庫,將新產(chǎn)生的標(biāo)簽與原始標(biāo)簽庫中的標(biāo)簽進行校驗,去除主題名稱重復(fù)的標(biāo)簽,將校驗通過的新標(biāo)簽加入原始標(biāo)簽庫中,形成現(xiàn)有標(biāo)簽庫,現(xiàn)有標(biāo)簽庫根據(jù)每一次新標(biāo)簽的加入自動更新和增長;
頂層主題數(shù)據(jù)庫模塊包括基本屬性子模塊、生活場景子模塊、影響因子子模塊以及性格心理子模塊。
作為上述實施例的優(yōu)選,主題聚類模塊包括:非負(fù)矩陣分解模塊,得到的主題聚類結(jié)構(gòu)為平級結(jié)構(gòu);以及,
樹形結(jié)構(gòu)模塊,得到的主題聚類結(jié)構(gòu)為樹形結(jié)構(gòu)。
本發(fā)明設(shè)計了一套基于機器學(xué)習(xí)算法的大文本主題聚類的解決方案。運用這套方案,可以對大量文本進行自動處理并且提煉出文本中的主題。通常的主題模型假設(shè)主題之間是相互獨立的,主題和主題之間沒有層次化的關(guān)系。在本發(fā)明的優(yōu)選方案中,在生成主題的同時可以提煉出主題的層次架構(gòu),并能將文本歸納入各層次中。在模型訓(xùn)練完成后,模型可以預(yù)測新文章在各個主題的概率分布,并且在層次結(jié)構(gòu)中精準(zhǔn)地對該文章進行定位。為了使機器生產(chǎn)出的主題更有實際意義,本發(fā)明對提取的各主題的關(guān)鍵詞可優(yōu)選的采用人工標(biāo)注,該人工標(biāo)注是在已經(jīng)通過機器計算出的新的關(guān)鍵詞排序表,該排序表反應(yīng)了幾十個關(guān)鍵詞與其主題聚類內(nèi)容的相關(guān)度,并從高至低排列,本領(lǐng)域的技術(shù)人員可根據(jù)該已排好的關(guān)鍵詞序列表挑選更能表達內(nèi)容的關(guān)鍵詞或與其相近的詞語作為該類數(shù)據(jù)的標(biāo)簽。
因為本發(fā)明采用了先將海量數(shù)據(jù)根據(jù)頂層主題數(shù)據(jù)庫劃分為最具有代表性的四大類別,分別對四大類別的子數(shù)據(jù)庫的數(shù)據(jù)采集tf-idf特征值以形成矩陣數(shù)據(jù),再對所有矩陣數(shù)據(jù)進行更細(xì)化的主題聚類,尤其采用樹形結(jié)構(gòu)的主題聚類方式,層次感強,內(nèi)容細(xì)化且豐富,通過以上操作對海量數(shù)據(jù)先大分后小分得到了結(jié)構(gòu)完整,層次感強,內(nèi)容劃分準(zhǔn)確的標(biāo)簽庫體系,并且機器在最后細(xì)化后排出了關(guān)鍵詞順序表,因此,本領(lǐng)域技術(shù)人員即使操作人員不同,在排序表限定范圍內(nèi)挑選后的結(jié)果基本能夠一致,差異較小,均可滿足本發(fā)明目的,可滿足用戶使用需求。
以上公開的僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以上述權(quán)利要求的保護范圍為準(zhǔn)。