短文本處理方法及裝置的制造方法
【技術領域】
[0001] 本申請涉及計算機技術領域,具體涉及文本處理技術領域,尤其涉及短文本處理 方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,人們越來越多的通過各種網(wǎng)絡平臺發(fā)表自己的觀點 或意見。例如,用戶可以通過介紹影視劇的網(wǎng)站對電影或電視劇作品發(fā)表影評或劇評,還 可以通過網(wǎng)絡購物平臺對購買或使用過的商品發(fā)表商品評價,也可以通過意見反饋渠道向 提供服務或應用的運營商提出意見建議,還可以通過微博等社交平臺發(fā)表自己的任意觀點 等。由于這些評論、評價或意見大多只是進行片斷性的描述說明,其所包括的文字內(nèi)容較 少,因此均可以被看作是短文本數(shù)據(jù)。
[0003] 面對互聯(lián)網(wǎng)迅猛發(fā)展所產(chǎn)生的海量短文本數(shù)據(jù),如何準確地對短文本進行劃分并 從中提取出有實用價值的信息,已經(jīng)成為互聯(lián)網(wǎng)行業(yè)普遍關注和研宄的課題。在現(xiàn)有技術 中,可以通過TF-IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆向文檔頻 率)方法對短文本數(shù)據(jù)進行分析。但是,由于這種方法完全依賴詞在文檔中的出現(xiàn)頻次進 行計算,而短文本的內(nèi)容一般來說都比較簡短,向量矩陣稀疏,因此傳統(tǒng)的TF-IDF方法應 用效果并不好,其對短文本進行區(qū)分的準確性較低。
【發(fā)明內(nèi)容】
[0004] 鑒于現(xiàn)有技術中的上述缺陷或不足,期望能夠提供一種短文本分類準確的方案。 為了實現(xiàn)上述一個或多個目的,本申請?zhí)峁┝硕涛谋咎幚矸椒把b置。
[0005] 第一方面,本申請?zhí)峁┝艘环N短文本處理方法,包括:獲取第一短文本集合,并對 所述第一短文本集合進行預處理;基于預處理后的第一短文本集合,執(zhí)行如下處理步驟: 使用所述預處理后的第一短文本集合訓練主題模型LDA,得到所述第一短文本集合中各短 文本的主題概率分布;對所述主題概率分布進行聚類,確定所述第一短文本集合中各短文 本的主題類別。
[0006] 第二方面,本申請?zhí)峁┝艘环N短文本處理裝置,包括:第一獲取模塊,用于獲取第 一短文本集合,并對所述第一短文本集合進行預處理;處理模塊,用于基于預處理后的第一 短文本集合,驅(qū)動以下單元執(zhí)行如下處理步驟:訓練單元,用于使用所述預處理后的第一短 文本集合訓練主題模型LDA,得到所述第一短文本集合中各短文本的主題概率分布;聚類 單元,用于對所述主題概率分布進行聚類,確定所述第一短文本集合中各短文本的主題類 別。
[0007] 本申請?zhí)峁┑亩涛谋咎幚矸椒把b置,首先可以對獲取的第一短文本集合進行預 處理,然后利用處理后的數(shù)據(jù)進行主題模型LDA訓練,以得到集合中各短文本的主題概率 分布,最后對主題概率分布進行聚類,就可以確定出各短文本的主題類別。通過先進行主題 模型訓練得到主題概率的分布情況,再進一步對主題概率分布聚類,可以得到用于區(qū)分短 文本類型的主題類別,從而可以實現(xiàn)對海量短文本數(shù)據(jù)的快速、準確分類。
【附圖說明】
[0008] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它 特征、目的和優(yōu)點將會變得更明顯:
[0009] 圖1是本申請短文本處理方法的一個實施例的流程圖;
[0010] 圖2是本申請短文本處理方法的另一個實施例的流程圖;
[0011] 圖3是本申請短文本處理裝置的一個實施例的功能模塊構架示意圖;
[0012] 圖4是本申請短文本處理裝置的另一個實施例的功能模塊構架示意圖;
[0013] 圖5是適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)的結構示 意圖。
【具體實施方式】
[0014] 下面結合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩?述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了 便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
[0015] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相 互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0016] 請參考圖1,其示出了本申請短文本處理方法的一個實施例的流程100。本實施 例主要以該方法應用于短文本應用平臺的服務器中來舉例說明,本實施例的短文本處理方 法,包括以下步驟:
[0017] 如圖1所示,在步驟101中,獲取第一短文本集合,并對第一短文本集合進行預處 理。
[0018] 在本實施例中,服務器可以通過各種有線或無線的方式,獲取用戶在客戶端所輸 入的短文本信息。第一短文本集合通??梢允鞘状螒帽緦嵤├姆椒▽δ骋活惗涛谋具M 行處理時,所能獲得的短文本組成的集合。例如,當需要對某一個應用的用戶反饋意見進行 處理時,可以將用戶針對該應用的所有意見反饋作為第一短文本集合??蛇x地,也可以獲取 在一段時間內(nèi)(如一年內(nèi))的反饋意見作為第一短文本集合,從而去除那些時效性較差的 短文本數(shù)據(jù)。在獲取到待處理的第一短文本集合后,可以首先對其進行預處理,以提高后續(xù) 處理的效率和準確性。
[0019] 在本實施例的一個可選實現(xiàn)方式中,上述預處理包括對短文本集合中的各短文 本進行無效數(shù)據(jù)過濾、去除停用詞、詞干提取和編號處理。無效數(shù)據(jù)過濾可以是對短文本 數(shù)據(jù)進行過濾,去除其中無效的短文本信息,例如文本長度低于3個字符或帶有嘗試攻擊 SQL(StructuredQueryLanguage,結構化查詢語言)語句等特征的短文本。具體可以通過 決策樹來判定一個短文本是否屬于無效數(shù)據(jù)。在過濾掉第一短文本集合中的無效數(shù)據(jù)后, 可以使用常用的分詞方法,如基于字符串匹配的分詞方法,對剩下的短文本進行切詞,然后 去除其中表意價值較低的無用詞和停用詞,例如"的"、"了"等等。接著,可以進行詞干提取, 即把同詞干同義的不同詞語中的相同部分提取出來,從而可以進一步剔除價值低的詞對整 個短文本類別判定的影響。最后,可以對詞干提取后的第一短文本集合中所有出現(xiàn)過的詞 進行一次索引,即為每個詞賦予一個編號或ID號,以便于后續(xù)計算。
[0020] 在本實施例的一個可選實現(xiàn)方式中,詞干提取包括主體提取和描述詞提取。當對 一個短文本進行詞干提取時,可以進行主體提取和描述詞提取。主體可以是指短文本所針 對的對象,例如意見反饋所針對的產(chǎn)品,或者影評所對應的電影或演員等,通常可以是短文 本中的主語或賓語等。描述詞可以是對狀態(tài)、情形、情感等進行描述的詞語,通??梢允菐?有感情色彩的形容詞或動詞等。由于用戶發(fā)表短文本的位置,通常是在一個特定的網(wǎng)絡位 置,如某個產(chǎn)品的意見反饋渠道。此時用戶會直接發(fā)表意見和建議,而通常不再提及相關產(chǎn) 品。因此,在進行詞干提取時,很有可能無法提取到確切的主體。例如,用戶對某一個產(chǎn)品 的反饋是"新版很難用"幾個字,則無法直接從該反饋中提取到其所對應的主體。此時,可 以根據(jù)第一短文本集合的來源確定主體。例如,當?shù)谝欢涛谋炯鲜菑乃阉鲬玫囊庖姺?饋中獲取到的時,則可以認為短文本所對應的主體就是該搜索應用。
[0021] 在本實施例的一個可選實現(xiàn)方式中,當未提取到主體時,還可以根據(jù)描述詞確定 主體。具體地,當未提取到主體時,可以對描述詞進行分析,并進一步根據(jù)描述詞的所描述 的內(nèi)容來確定主體。例如,雖然第一短文本集合是從搜索應用的意見反饋中獲取到的,但是 其中某一個短文本的內(nèi)容是"播放電影時,無法自動匹配字幕"。通過這個短文本所描述的 內(nèi)容,可以確定出其對應的主體應該具備視頻播放功能,因此其針對的很可能是視頻應用 而不是搜索應用。該用戶很可能是通過搜索應用的反饋渠道,反饋了視頻應用的問題。此 時,可以根據(jù)描述詞將該反饋的主體確定為視頻應用,而不是搜索應用。通過根據(jù)描述詞確 定主體,可以提尚主體確定的準確性。
[0022] 接著,在步驟102中,可以基于預處理后的第一短文本集合,執(zhí)行如下處理步驟: 使用預處理后的第一短文本集合訓練主題模型LDA,得到第一短文本集合中各短文本的主 題概率分布;對主題概率分布進行聚類,確定第一短文本集合中各短文本的主題類別。
[0023] 在本實施例中的步驟102可以包括子步驟1021和1022。其中:
[0024] 在步驟1021中,使用預處理后的第一短文本集合訓練主題模型LDA,得到第一短 文本集合中各短文本的主題概率分布。
[0025] 當在上述步驟101中得到預處理后的第一短文本集合后,可以進一步將其作為數(shù) 據(jù)樣本,對主體模型LDA(LatentDirichletAllocation,隱含狄利