基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法

文檔序號：10655254閱讀：295來源：國知局

基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種基于主題模型的自展式特征選擇方法及系統(tǒng)，該方法包括以下步驟：獲取原始評論數據；選取主題模型，并根據主題模型對原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據顯式特征詞和觀點詞生成語義關聯規(guī)則；根據語義關聯規(guī)則進行顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，以完成觀點挖掘。本發(fā)明的方法能有效地抽取相關特征，摒棄無關特征和觀點詞，極大地減少人工工作量及人工誤差。
【專利說明】
基于主題模型的自展式特征選擇方法及系統(tǒng)
技術領域
[0001 ]本發(fā)明設及計算機應用技術領域，特別設及一種基于主題模型的自展式特征選擇方法及系統(tǒng)。
【背景技術】
[0002] 隨著互聯網的快速興起，在線購物為人們帶來了便利的購物方式，同時廣大電商網站允許已購買產品的顧客對產品進行評論W供后來的潛在消費者參考，此類信息在網站上迅速膨脹，構成了海量數據。運些評論信息，尤其是某些熱銷產品的評論信息，對業(yè)界和科研人員來說都是極其寶貴的參考材料，在觀點挖掘、產品預測等方面都有著極大的參考價值。生產企業(yè)可W通過顧客的產品評論改進自己的產品；營銷團隊通過對產品評論進行分析比較能夠得到該產品的銷售趨勢或根據不同產品間的比較得到熱點產品;科研人員可 W通過產品評論進行顧客的情感分析等。然而運些工作全都離不開觀點挖掘。觀點挖掘，也稱為情緒分析，是對于人們關于某一實體的特征、組件、屬性等所產生的觀點、態(tài)度和情緒進行挖掘和分析的一種技術，是自然語言處理學科中重要的一個領域，得到了學術界和業(yè) 界的重視。
[0003] 結合產品評論，觀點挖掘能十分有效地反應用戶的對于某具體事物的具體觀點，具有實時性、話題敏感性和多變性的特點。觀點挖掘作為自然語言處理的重要組成部分，也是機器學習中的一個重要研究領域。同時，由于電商平臺數據的多變性和數據規(guī)模的龐大，基于在線數據的觀點挖掘一直是研究的熱點和難點。網絡用語、話題的快速流行和消亡往往要求在線觀點挖掘模型具有良好的應激性及對于新用語的敏感性和適應性，運在機器學習領域尚是個研究熱點。特征抽取是觀點挖掘中的重要環(huán)節(jié)，提取結果的好壞將直接影響觀點挖掘的結果好壞。大多數模型往往對產品評論利用監(jiān)督學習或半監(jiān)督學習來進行特征提取，運往往是因為產品評論的領域局限性造成的：同樣的一個特征詞在不同的專業(yè)領域的權重大多不相等，例如"動力"一詞在汽車等交通工具的產品評論中占有重要的地位，然而在手機等數碼產品的評論中則是無用的"噪音"評論。W往的工作中，對于特征的抽取往往需要人工標定，往往就是由領域局限性造成的。

【發(fā)明內容】

[0004] 本發(fā)明旨在至少解決上述技術問題之一。
[0005] 為此，本發(fā)明的一個目的在于提出一種基于主題模型的自展式特征選擇方法，該方法能有效地抽取相關特征，擬棄無關特征和觀點詞，極大地減少人工工作量及人工誤差。
[0006] 本發(fā)明的另一個目的在于提出一種基于主題模型的自展式特征選擇系統(tǒng)。
[0007] 為了實現上述目的，本發(fā)明第一方面的實施例公開了一種基于主題模型的自展式特征選擇方法，包括W下步驟:Sl:獲取原始評論數據；S2:選取主題模型，并根據所述主題模型對所述原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據所述顯式特征詞和觀點詞生成語義關聯規(guī)則；W及S3:根據所述語義關聯規(guī)則進行所述顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，W完成觀點挖掘。
[0008] 另外，根據本發(fā)明上述實施例的基于主題模型的自展式特征選擇方法還可W具有如下附加的技術特征：
[0009] 在一些示例中，還包括:獲取隱式特征評論，并根據所述顯示特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯S者之間的傳導性，將隱式特征評論中的觀點詞根據所述語義關聯規(guī)則得到相匹配的特征詞。
[0010] 在一些示例中，所述主題模型為潛在的狄利克雷分布LDA。
[0011] 在一些示例中，所述S2進一步包括:S21:將所述原始評論數據的初始特征空間設置為空；S22:從所述原始評論數據中挑選一個特征，并計算在所述特征下每個單詞的條件概率;S23:設置一個闊值，W保留條件概率大于所述闊值的單詞，并濾除條件概率小于所述闊值的詞匯;S24:重復執(zhí)行所述步驟S22至步驟S23，直至得到足夠維度的特征。
[0012] 在一些示例中，所述原始評論數據中每個單詞都具有其唯一的主題，則原始評論數據中每個詞的優(yōu)化目標如下式：
[0013]
[0014] 其中Z表示原始評論數據中每個單詞都對應的主題，W表示原始評論數據中的單詞，0表示滿足Wa為超參數的狄利克雷分布，N表示原始評論數據中的單詞數量。
[0015] 根據本發(fā)明實施例的基于主題模型的自展式特征選擇方法，采用LDA運種概率生成模型來刻畫數據的語義關聯進而進行特征降維和抽取，符合文本語義特點，由文本自身的特性出發(fā)得到挖掘結果，該方法能有效地抽取相關特征，擬棄無關特征和觀點詞，極大減少了人工工作量和人工誤差。另外，通過挖掘隱式特征能進一步完善觀點挖掘的樣本，提高觀點枉掘效果。
[0016] 本發(fā)明第二方面的實施例公開了一種基于主題模型的自展式特征選擇系統(tǒng)，包括:獲取模塊，所述獲取模塊用于獲取原始評論數據;處理模塊，所述處理模塊用于選取主題模型，并根據所述主題模型對所述原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據所述顯式特征詞和觀點詞生成語義關聯規(guī)則；匹配模塊，所述匹配模塊用于根據所述語義關聯規(guī)則進行所述顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，W完成觀點挖掘。
[0017] 另外，根據本發(fā)明上述實施例的基于主題模型的自展式特征選擇系統(tǒng)還可W具有如下附加的技術特征：
[0018] 在一些示例中，所述匹配模塊還用于:獲取隱式特征評論，并根據所述顯示特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯S者之間的傳導性，將隱式特征評論中的觀點詞根據所述語義關聯規(guī)則得到相匹配的特征詞。
[0019] 在一些示例中，所述主題模型為潛在的狄利克雷分布LDA。
[0020] 在一些示例中，所述處理模塊用于:將所述原始評論數據的初始特征空間設置為空，并從所述原始評論數據中挑選一個特征，并計算在所述特征下每個單詞的條件概率，并設置一個闊值，W保留條件概率大于所述闊值的單詞，并濾除條件概率小于所述闊值的詞匯，并重復執(zhí)行上述過程，直至得到足夠維度的特征。
[0021] 在一些示例中，所述原始評論數據中每個詞都具有其唯一的主題，則原始評論數據中每個單詞的優(yōu)化目標如下式：
[0022]
[0023] 其中Z表示原始評論數據中每個單詞都對應的主越，W表示原始評論數據中的單詞，0表示滿足Wa為超參數的狄利克雷分布，N表示原始評論數據中的單詞數量。
[0024] 根據本發(fā)明實施例的基于主題模型的自展式特征選擇系統(tǒng)，采用LDA運種概率生成模型來刻畫數據的語義關聯進而進行特征降維和抽取，符合文本語義特點，由文本自身的特性出發(fā)得到挖掘結果，該系統(tǒng)能有效地抽取相關特征，擬棄無關特征和觀點詞，極大減少了人工工作量和人工誤差。另外，通過挖掘隱式特征能進一步完善觀點挖掘的樣本，提高觀點枉掘效果。
[0025] 本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。
【附圖說明】
[0026] 本發(fā)明的上述和/或附加的方面和優(yōu)點從結合下面附圖對實施例的描述中將變得明顯和容易理解，其中：
[0027] 圖1是根據本發(fā)明實施例的基于主題模型的自展式特征選擇方法的流程圖；
[0028] 圖2是根據本發(fā)明一個實施例的主題模型特征降維概率圖模型示意圖；
[0029] 圖3是根據本發(fā)明一個實施例的語義關聯關系挖掘示例圖；W及
[0030] 圖4是根據本發(fā)明一個實施例的基于主題模型的自展式特征選擇系統(tǒng)的結構框圖。
【具體實施方式】
[0031] 下面詳細描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。
[0032] 在本發(fā)明的描述中，需要理解的是，術語"中屯、"、"縱向橫向上"、"下"、 "前"、"后V'左'、"右V'豎曹'、"水甲V'頂'、"底V'胖V'外"等指示的方位或位置關系為基于附圖所示的方位或位置關系，僅是為了便于描述本發(fā)明和簡化描述，而不是指示或暗示所指的裝置或元件必須具有特定的方位、W特定的方位構造和操作，因此不能理解為對本發(fā)明的限制。此外，術語"第一"、"第二"僅用于描述目的，而不能理解為指示或暗示相對重要性。
[0033] 在本發(fā)明的描述中，需要說明的是，除非另有明確的規(guī)定和限定，術語"安裝"、"相連"、"連接"應做廣義理解，例如，可W是固定連接，也可W是可拆卸連接，或一體地連接;可 W是機械連接，也可W是電連接;可W是直接相連，也可W通過中間媒介間接相連，可W是兩個元件內部的連通。對于本領域的普通技術人員而言，可W具體情況理解上述術語在本發(fā)明中的具體含義。
[0034] W下結合附圖描述根據本發(fā)明實施例的基于主題模型的自展式特征選擇方法及系統(tǒng)。
[0035] 圖I是根據本發(fā)明一個實施例的基于主題模型的自展式特征選擇方法的流程圖。如圖1所示，根據本發(fā)明實施例的基于主題模型的自展式特征選擇方法，包括W下步驟：
[0036] 步驟Sl:獲取原始評論數據。
[0037] 步驟S2:選取主題模型，并根據主題模型對原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據顯式特征詞和觀點詞生成語義關聯規(guī)則。
[0038] 具體地說，對于原始的產品評論(原始評論數據），語句中常常包含大量的無關噪聲和重復數據(如許多相互重復的信息W及和預測目標無關的無用信息），而運些信息會造成最后模型參數的激增，使得模型訓練變得更加困難。另一方面，產品評論(原始評論數據）是一個樣合了多種語言形式的文本，例如網絡流行語、網絡用語縮寫、網頁鏈接和表情符號等。有些數據類型明顯與產品本身無關，因此需要對數據進行清洗和篩選，即在特征用于學習之前，往往需要進行從高維特征空間到低維特征空間的映射，保留有用信息，從而降低模型訓練的復雜度，諸如網頁鏈接、話題標簽、位置信息W及重復的子句將被刪除，網絡流行語及網絡縮寫在遍歷了用語詞典后仍找不到的提醒人工標準，表情符號W文字代替。
[0039] 在本發(fā)明的一個實施例中，主題模型例如為LDA(Latent Dirichlet Allocation, 潛在的狄利克雷分布）dLDA作為一個統(tǒng)計生成模型，自2003年提出W來，逐步成為具有多種應用場景的機器學習方法。其將文本中詞語進行統(tǒng)計映射到向量空間的方法十分符合高維特征空間到低維特征空間的轉換，同時該方法的統(tǒng)計特性也保證了其在離散數據(如文本）上的良好分析能力。同時，LDA能夠將詞與詞之間的語義關聯W概率的形式表現出來，十分符合無監(jiān)督觀點挖掘對于文本語義體現的需求，因此本發(fā)明的實施例選擇LDA來進行數據處理和特征抽取。
[0040] 潛在的狄利克雷分布LDA是目前常見的特征降維方法，是一種層次的貝葉斯模型。其主要思想是將計算出文本中每個詞在預先設定好的主題下的概率，并通過闊值限定篩選出有用的特征及過濾掉無用的噪聲數據?；诖?，結合圖2所示，步驟S2進一步包括：
[0041 ] S21:將原始評論數據的初始特征空間設置為空。
[0042] S22:從原始評論數據中挑選一個特征，并計算在特征下每個單詞的條件概率。
[0043] S23:設置一個闊值，W保留條件概率大于闊值的單詞，并濾除條件概率小于闊值的詞匯。
[0044] S24:重復執(zhí)行步驟S22至步驟S23，直至得到足夠維度的特征。
[0045] 其中，例如，設定原始評論數據中每個單詞W都具有其唯一的主題Z，則原始評論數據中每個詞的優(yōu)化目標如下式：
[0046]
[0047] 其中Z表示原始評論數據中每個詞都對應的主題，W表示原始評論數據中的單詞，0 表示滿足Wa為超參數的狄利克雷分布，N表示原始評論數據中的單詞數量。也就是說，求解有用的特征詞的概率問題就轉換成了求解文檔~主題的分布和主題~詞匯的分布的問題，而運兩個問題在給定文本集的前提下是可統(tǒng)計計算的，并在每個主題下將文本詞匯按條件概率排序。由此可W知道，本發(fā)明的實施例通過設定不同的闊值適當保留前若干個高概率詞匯，從而完成特征篩取和降維。
[004引在上述示例中，主題模型LDA之所W能夠完成特征降維、特征抽取W及生成關聯規(guī) 則運=個子任務的原因在于：運=個子任務都用到了單詞的概率表現。運樣，通過設定闊值，可W將每個主題下出現概率低的詞篩取掉，完成特征降維任務。同時，根據高概率的單詞抽取出特征詞、觀點詞并W此進行關聯得到語義關聯股則。
[0049] 步驟S3:根據語義關聯規(guī)則進行顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，W完成觀點挖掘。
[0050] 具體地說，從上文描述中可知，主題模型（如LDA)能夠W統(tǒng)計概率的模式表現出詞與詞之間的關聯性。運一特性能夠十分良好的挖掘出特征詞和觀點詞。結合圖3所示，具體介紹如下：
[0051] 中文文本在進行詞性標注之后，可根據詞性選出候選特征詞和觀點詞。特征詞的詞性往往是名詞或名詞詞組，如"屏幕"、"質量"等；觀點詞則往往是動詞或形容詞W及副詞，如"靈活"、"好看"、"適合妹子用"等。當將正確的產品特征和相關的觀點詞匹配好之后，就完成了對該產品的觀點挖掘。
[0052] 在本主題模型中，使用語義關聯規(guī)則來實現產品特征和觀點詞的匹配。而語義關聯規(guī)則的挖掘則依賴于主題模型。當得到每個主題下單詞的概率時，概率大的詞表示該詞與主題語義關聯緊密，概率低表示該詞與該主題語義關聯稀疏。由于主題模型的特性，我們可W人工定義主題詞作為特征種子詞，再利用主題模型對文本語義的概率描述得到詞與詞之間的語義關聯。從特征種子詞出發(fā)，結合特征詞、觀點詞的特有詞性及設定不同的闊值，進行特征抽取和觀點詞篩選和匹配，從而完成觀點挖掘。由于不同的語義文本在主題模型的描述下關聯性自然不同，運是由文本自身的特性形成的，即主題模型展現了文本內部自身的關聯性，通過極少的幾個種子詞作為起點，挖掘出特征詞和相應的觀點詞。因此，運種方法稱為自展式的觀點挖掘，即通過模型自身特性進行挖掘，而不需過多借助人工標定。
[0053] 進一步地，該方法還包括:獲取隱式特征評論，并根據顯示特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯S者之間的傳導性，將隱式特征評論中的觀點詞根據所述語義關聯規(guī)則得到相匹配的特征詞。具體地說，特征詞不直接出現在評論中的句子稱為隱式評論，如："媳婦挺喜歡用的，就是不容易放進口袋"，在運句關于手機的評論中，關于手機特性的特征詞"大小"或"手機尺寸"并沒有出現，然而人們都可W看出運句評論是對手機大小進行了描述。被隱式特征描述的特征就稱為隱式特征。觀點挖掘的質量很大一部分依賴于特征挖掘的優(yōu)劣。在W往的工作中，觀點挖掘的研究者們往往關注顯示特征評論，即特征直接出現在句子中的評論，的選取，而忽略了隱式特征的評論。然而隱式特征平均占整體特征的20%-30%，對觀點挖掘結果有著不可忽視的影響。因此隱式特征評論的挖掘工作十分必要。通過自展式特征抽取，我們已經得到了顯式特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯。則根據運=種關聯的傳導性，將隱式特征評論中的觀點詞根據關聯規(guī)則得到相匹配的特征詞，貝U 可完善觀點挖掘的樣本，提高觀點挖掘效果。
[0054] 綜上，根據本發(fā)明實施例的基于主題模型的自展式特征選擇方法，采用LDA運種概率生成模型來刻畫數據的語義關聯進而進行特征降維和抽取，符合文本語義特點，由文本自身的特性出發(fā)得到挖掘結果，該方法能有效地抽取相關特征，擬棄無關特征和觀點詞，極大減少了人工工作量和人工誤差。另外，通過挖掘隱式特征能進一步完善觀點挖掘的樣本，提高觀點挖掘效果。
[0055] 本發(fā)明的進一步實施例還提供了一種基于主題模型的自展式特征選擇系統(tǒng)。
[0056] 圖4是根據本發(fā)明實施例的基于主題模型的自展式特征選擇系統(tǒng)的結構框圖。如圖4所示，根據本發(fā)明實施例的基于主題模型的自展式特征選擇系統(tǒng)100,包括:獲取模塊 110、處理模塊120和匹配模塊130。
[0057] 其中，獲取模塊110用于獲取原始評論數據。
[005引處理模塊120用于選取主題模型，并根據主題模型對原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據顯式特征詞和觀點詞生成語義關聯規(guī)則。
[0059] 具體地說，對于原始的產品評論(原始評論數據），語句中常常包含大量的無關噪聲和重復數據(如許多相互重復的信息W及和預測目標無關的無用信息），而運些信息會造成最后模型參數的激增，使得模型訓練變得更加困難。另一方面，產品評論(原始評論數據）是一個樣合了多種語言形式的文本，例如網絡流行語、網絡用語縮寫、網頁鏈接和表情符號等。有些數據類型明顯與產品本身無關，因此需要對數據進行清洗和篩選，即在特征用于學習之前，往往需要進行從高維特征空間到低維特征空間的映射，保留有用信息，從而降低模型訓練的復雜度，諸如網頁鏈接、話題標簽、位置信息W及重復的子句將被刪除，網絡流行語及網絡縮寫在遍歷了用語詞典后仍找不到的提醒人工標準，表情符號W文字代替。
[0060] 在本發(fā)明的一個實施例中，主題模型例如為潛在的狄利克雷分布LDAdLDA作為一個統(tǒng)計生成模型，自2003年提出W來，逐步成為具有多種應用場景的機器學習方法。其將文本中詞語進行統(tǒng)計映射到向量空間的方法十分符合高維特征空間到低維特征空間的轉換，同時該方法的統(tǒng)計特性也保證了其在離散數據(如文本)上的良好分析能力。同時，LDA能夠將詞與詞之間的語義關聯W概率的形式表現出來，十分符合無監(jiān)督觀點挖掘對于文本語義體現的需求，因此本發(fā)明的實施例選擇LDA來進行數據處理和特征抽取。
[0061] 潛在的狄利克雷分布LDA是目前常見的特征降維方法，是一種層次的貝葉斯模型。其主要思想是將計算出文本中每個詞在預先設定好的主題下的概率，并通過闊值限定篩選出有用的特征及過濾掉無用的噪聲數據。
[0062] 基于此，處理模塊120用于將原始評論數據的初始特征空間設置為空，并從原始評論數據中挑選一個特征，并計算在特征下每個單詞的條件概率，并設置一個闊值，W保留條件概率大于闊值的單詞，并濾除條件概率小于闊值的詞匯，并重復執(zhí)行上述過程，直至得到足夠維度的特征。
[0063] 其中，例如，設定原始評論數據中每個單詞W都具有其唯一的主題Z，則原始評論數據中每個詞的優(yōu)化目標化下式：
[0064]
[0065] 其中Z表示原始評論數據中每個詞都對應的主題，W表示原始評論數據中的單詞，0 表示滿足Wa為超參數的狄利克雷分布，N表示原始評論數據中的單詞數量。也就是說，求解有用的特征詞的概率問題就轉換成了求解文檔~主題的分布和主題~詞匯的分布的問題，而運兩個問題在給定文本集的前提下是可統(tǒng)計計算的，并在每個主題下將文本詞匯按條件概率排序。由此可W知道，本發(fā)明的實施例通過設定不同的闊值適當保留前若干個高概率詞匯，從而完成特征篩取和降維。
[0066] 在上述示例中，主題模型LDA之所W能夠完成特征降維、特征抽取W及生成關聯規(guī) 則運=個子任務的原因在于：運=個子任務都用到了單詞的概率表現。運樣，通過設定闊值，可W將每個主題下出現概率低的詞篩取掉，完成特征降維任務。同時，根據高概率的單詞抽取出特征詞、觀點詞并W此進行關聯得到語義關聯規(guī)則。
[0067] 匹配模塊130用于根據語義關聯規(guī)則進行顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，W完成觀點挖掘。
[0068] 具體地說，從上文描述中可知，主題模型（如LDA)能夠W統(tǒng)計概率的模式表現出詞與詞之間的關聯性。運一特性能夠十分良好的挖掘出特征詞和觀點詞。具體介紹如下：
[0069] 中文文本在進行詞性標注之后，可根據詞性選出候選特征詞和觀點詞。特征詞的詞性往往是名詞或名詞詞組，如"屏幕"、"質量"等；觀點詞則往往是動詞或形容詞W及副詞，如"靈活"、"好看"、"適合妹子用"等。當將正確的產品特征和相關的觀點詞匹配好之后，就完成了對該產品的觀點挖掘。
[0070] 在本主題模型中，使用語義關聯規(guī)則來實現產品特征和觀點詞的匹配。而語義關聯規(guī)則的挖掘則依賴于主題模型。當得到每個主題下單詞的概率時，概率大的詞表示該詞與主題語義關聯緊密，概率低表示該詞與該主題語義關聯稀疏。由于主題模型的特性，我們可W人工定義主題詞作為特征種子詞，再利用主題模型對文本語義的概率描述得到詞與詞之間的語義關聯。從特征種子詞出發(fā)，結合特征詞、觀點詞的特有詞性及設定不同的闊值，進行特征抽取和觀點詞篩選和匹配，從而完成觀點挖掘。由于不同的語義文本在主題模型的描述下關聯性自然不同，運是由文本自身的特性形成的，即主題模型展現了文本內部自身的關聯性，通過極少的幾個種子詞作為起點，挖掘出特征詞和相應的觀點詞。因此，運種方法稱為自展式的觀點挖掘，即通過模型自身特性進行挖掘，而不需過多借助人工標定。
[0071] 進一步地，在本發(fā)明的一個實施例中，匹配模塊130還用于獲取隱式特征評論，并根據顯示特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯=者之間的傳導性，將隱式特征評論中的觀點詞根據語義關聯規(guī)則得到相匹配的特征詞。具體地說，特征詞不直接出現在評論中的句子稱為隱式評論，如："媳婦挺喜歡用的，就是不容易放進口袋"，在運句關于手機的評論中，關于手機特性的特征詞"大小"或"手機尺寸"并沒有出現，然而人們都可W看出運句評論是對手機大小進行了描述。被隱式特征描述的特征就稱為隱式特征。觀點挖掘的質量很大一部分依賴于特征挖掘的優(yōu)劣。在W往的工作中，觀點挖掘的研究者們往往關注顯示特征評論，即特征直接出現在句子中的評論，的選取，而忽略了隱式特征的評論。然而隱式特征平均占整體特征的20%-30%，對觀點挖掘結果有著不可忽視的影響。因此隱式特征評論的挖掘工作十分必要。通過自展式特征抽取，我們已經得到了顯式特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯。則根據運S種關聯的傳導性，將隱式特征評論中的觀點詞根據關聯規(guī) 則得到相匹配的特征詞，則可完善觀點挖掘的樣本，提高觀點挖掘效果。
[0072] 綜上，根據本發(fā)明實施例的基于主題模型的自展式特征選擇系統(tǒng)，采用LDA運種概率生成模型來刻畫數據的語義關聯進而進行特征降維和抽取，符合文本語義特點，由文本自身的特性出發(fā)得到挖掘結果，該系統(tǒng)能有效地抽取相關特征，擬棄無關特征和觀點詞，極大減少了人工工作量和人工誤差。另外，通過挖掘隱式特征能進一步完善觀點挖掘的樣本，提高觀點挖掘效果。
[0073] 在本說明書的描述中，參考術語"一個實施例"、"一些實施例"、"示例"、"具體示例"、或"一些示例"等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中，對上述術語的示意性表述不一定指的是相同的實施例或示例。而且，描述的具體特征、結構、材料或者特點可W在任何的一個或多個實施例或示例中W合適的方式結合。
[0074]盡管已經示出和描述了本發(fā)明的實施例，本領域的普通技術人員可W理解:在不脫離本發(fā)明的原理和宗旨的情況下可W對運些實施例進行多種變化、修改、替換和變型，本發(fā)明的范圍由權利要求及其等同限定。
【主權項】
1. 一種基于主題模型的自展式特征選擇方法，其特征在于，包括以下步驟： SI:獲取原始評論數據； S2:選取主題模型，并根據所述主題模型對所述原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據所述顯式特征詞和觀點詞生成語義關聯規(guī)則；以及 S3:根據所述語義關聯規(guī)則進行所述顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，以完成觀點挖掘。2. 根據權利要求1所述的基于主題模型的自展式特征選擇方法，其特征在于，還包括：獲取隱式特征評論，并根據所述顯示特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯三者之間的傳導性，將隱式特征評論中的觀點詞根據所述語義關聯規(guī)則得到相匹配的特征詞。3. 根據權利要求1所述的基于主題模型的自展式特征選擇方法，其特征在于，所述主題模型為潛在的狄利克雷分布LDA。4. 根據權利要求3所述的基于主題模型的自展式特征選擇方法，其特征在于，所述S2進一步包括： S21:將所述原始評論數據的初始特征空間設置為空； S22:從所述原始評論數據中挑選一個特征，并計算在所述特征下每個單詞的條件概率； S23:設置一個閾值，以保留條件概率大于所述閾值的單詞，并濾除條件概率小于所述閾值的詞匯； S24:重復執(zhí)行所述步驟S22至步驟S23，直至得到足夠維度的特征。5. 根據權利要求4所述的基于主題模型的自展式特征選擇方法，其特征在于，所述原始評論數據中每個單詞都具有其唯一的主題，則原始評論數據中每個詞的優(yōu)化目標如下式：其中z表示原始評論數據中每個單詞都對應的主題，w表示原始評論數據中的單詞，Θ表示滿足以α為超參數的狄利克雷分布，N表示原始評論數據中的單詞數量。6. -種基于主題模型的自展式特征選擇系統(tǒng)，其特征在于，包括：獲取模塊，所述獲取模塊用于獲取原始評論數據；處理模塊，所述處理模塊用于選取主題模型，并根據所述主題模型對所述原始評論數據進行特征降維、顯式特征詞和觀點詞的抽取，并根據所述顯式特征詞和觀點詞生成語義關聯規(guī)則；匹配模塊，所述匹配模塊用于根據所述語義關聯規(guī)則進行所述顯式特征詞和觀點詞的匹配，得到顯式特征詞與特征詞之間的關聯，特征詞與觀點詞之間的關聯，觀點詞與觀點詞之間的關聯，鏈式地形成特征詞和觀點詞的關聯規(guī)則，以完成觀點挖掘。7. 根據權利要求6所述的基于主題模型的自展式特征選擇系統(tǒng)，其特征在于，所述匹配模塊還用于：獲取隱式特征評論，并根據所述顯示特征詞與特征詞之間的關聯、特征詞與觀點詞之間的關聯、觀點詞與觀點詞之間的關聯三者之間的傳導性，將隱式特征評論中的觀點詞根據所述語義關聯規(guī)則得到相匹配的特征詞。8. 根據權利要求6所述的基于主題模型的自展式特征選擇系統(tǒng)，其特征在于，所述主題模型為潛在的狄利克雷分布LDA。9. 根據權利要求8所述的基于主題模型的自展式特征選擇系統(tǒng)，其特征在于，所述處理模塊用于:將所述原始評論數據的初始特征空間設置為空，并從所述原始評論數據中挑選一個特征，并計算在所述特征下每個單詞的條件概率，并設置一個閾值，以保留條件概率大于所述閾值的單詞，并濾除條件概率小于所述閾值的詞匯，并重復執(zhí)行上述過程，直至得到足夠維度的特征。10. 根據權利要求9所述的基于主題模型的自展式特征選擇系統(tǒng)，其特征在于，所述原始評論數據中每個單詞都具有其唯一的主題，則原始評論數據中每個詞的優(yōu)化目標如下式：其中z表示原始評論數據中每個單詞都對應的主題，w表示原始評論數據中的單詞，Θ表示滿足以α為超參數的狄利克雷分布，N表示原始評論數據中的單詞數量。
【文檔編號】G06F17/30GK106021413SQ201610318849
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】徐華, 張帆, 孫曉民, 鄧俊輝
【申請人】清華大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：徐華;張帆;孫曉民;鄧俊輝;
技術所有人：清華大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

系統(tǒng)的特征相關技術

系統(tǒng)的特征方程相關技術

系統(tǒng)特征方程相關技術

閉環(huán)系統(tǒng)的特征方程相關技術

分時系統(tǒng)的特征相關技術

嵌入式系統(tǒng)軟件的特征相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法