短文本處理方法及裝置的制造方法

文檔序號：8528229閱讀：456來源：國知局

短文本處理方法及裝置的制造方法
【技術領域】
[0001] 本申請涉及計算機技術領域，具體涉及文本處理技術領域，尤其涉及短文本處理方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的飛速發(fā)展，人們越來越多的通過各種網(wǎng)絡平臺發(fā)表自己的觀點或意見。例如，用戶可以通過介紹影視劇的網(wǎng)站對電影或電視劇作品發(fā)表影評或劇評，還可以通過網(wǎng)絡購物平臺對購買或使用過的商品發(fā)表商品評價，也可以通過意見反饋渠道向提供服務或應用的運營商提出意見建議，還可以通過微博等社交平臺發(fā)表自己的任意觀點等。由于這些評論、評價或意見大多只是進行片斷性的描述說明，其所包括的文字內(nèi)容較少，因此均可以被看作是短文本數(shù)據(jù)。
[0003] 面對互聯(lián)網(wǎng)迅猛發(fā)展所產(chǎn)生的海量短文本數(shù)據(jù)，如何準確地對短文本進行劃分并從中提取出有實用價值的信息，已經(jīng)成為互聯(lián)網(wǎng)行業(yè)普遍關注和研宄的課題。在現(xiàn)有技術中，可以通過TF-IDF(TermFrequency-InverseDocumentFrequency，詞頻-逆向文檔頻率）方法對短文本數(shù)據(jù)進行分析。但是，由于這種方法完全依賴詞在文檔中的出現(xiàn)頻次進行計算，而短文本的內(nèi)容一般來說都比較簡短，向量矩陣稀疏，因此傳統(tǒng)的TF-IDF方法應用效果并不好，其對短文本進行區(qū)分的準確性較低。

【發(fā)明內(nèi)容】

[0004] 鑒于現(xiàn)有技術中的上述缺陷或不足，期望能夠提供一種短文本分類準確的方案。為了實現(xiàn)上述一個或多個目的，本申請?zhí)峁┝硕涛谋咎幚矸椒把b置。
[0005] 第一方面，本申請?zhí)峁┝艘环N短文本處理方法，包括：獲取第一短文本集合，并對所述第一短文本集合進行預處理；基于預處理后的第一短文本集合，執(zhí)行如下處理步驟：使用所述預處理后的第一短文本集合訓練主題模型LDA，得到所述第一短文本集合中各短文本的主題概率分布；對所述主題概率分布進行聚類，確定所述第一短文本集合中各短文本的主題類別。
[0006] 第二方面，本申請?zhí)峁┝艘环N短文本處理裝置，包括：第一獲取模塊，用于獲取第一短文本集合，并對所述第一短文本集合進行預處理；處理模塊，用于基于預處理后的第一短文本集合，驅(qū)動以下單元執(zhí)行如下處理步驟：訓練單元，用于使用所述預處理后的第一短文本集合訓練主題模型LDA，得到所述第一短文本集合中各短文本的主題概率分布；聚類單元，用于對所述主題概率分布進行聚類，確定所述第一短文本集合中各短文本的主題類別。
[0007] 本申請?zhí)峁┑亩涛谋咎幚矸椒把b置，首先可以對獲取的第一短文本集合進行預處理，然后利用處理后的數(shù)據(jù)進行主題模型LDA訓練，以得到集合中各短文本的主題概率分布，最后對主題概率分布進行聚類，就可以確定出各短文本的主題類別。通過先進行主題模型訓練得到主題概率的分布情況，再進一步對主題概率分布聚類，可以得到用于區(qū)分短文本類型的主題類別，從而可以實現(xiàn)對海量短文本數(shù)據(jù)的快速、準確分類。
【附圖說明】
[0008] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述，本申請的其它特征、目的和優(yōu)點將會變得更明顯：
[0009] 圖1是本申請短文本處理方法的一個實施例的流程圖；
[0010] 圖2是本申請短文本處理方法的另一個實施例的流程圖；
[0011] 圖3是本申請短文本處理裝置的一個實施例的功能模塊構架示意圖；
[0012] 圖4是本申請短文本處理裝置的另一個實施例的功能模塊構架示意圖；
[0013] 圖5是適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)的結構示意圖。
【具體實施方式】
[0014] 下面結合附圖和實施例對本申請作進一步的詳細說明?？梢岳斫獾氖牵颂幩?述的具體實施例僅僅用于解釋相關發(fā)明，而非對該發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與有關發(fā)明相關的部分。
[0015] 需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0016] 請參考圖1，其示出了本申請短文本處理方法的一個實施例的流程100。本實施例主要以該方法應用于短文本應用平臺的服務器中來舉例說明，本實施例的短文本處理方法，包括以下步驟：
[0017] 如圖1所示，在步驟101中，獲取第一短文本集合，并對第一短文本集合進行預處理。
[0018] 在本實施例中，服務器可以通過各種有線或無線的方式，獲取用戶在客戶端所輸入的短文本信息。第一短文本集合通?？梢允鞘状螒帽緦嵤├姆椒▽δ骋活惗涛谋具M 行處理時，所能獲得的短文本組成的集合。例如，當需要對某一個應用的用戶反饋意見進行處理時，可以將用戶針對該應用的所有意見反饋作為第一短文本集合?？蛇x地，也可以獲取在一段時間內(nèi)（如一年內(nèi)）的反饋意見作為第一短文本集合，從而去除那些時效性較差的短文本數(shù)據(jù)。在獲取到待處理的第一短文本集合后，可以首先對其進行預處理，以提高后續(xù) 處理的效率和準確性。
[0019] 在本實施例的一個可選實現(xiàn)方式中，上述預處理包括對短文本集合中的各短文本進行無效數(shù)據(jù)過濾、去除停用詞、詞干提取和編號處理。無效數(shù)據(jù)過濾可以是對短文本數(shù)據(jù)進行過濾，去除其中無效的短文本信息，例如文本長度低于3個字符或帶有嘗試攻擊 SQL(StructuredQueryLanguage，結構化查詢語言）語句等特征的短文本。具體可以通過決策樹來判定一個短文本是否屬于無效數(shù)據(jù)。在過濾掉第一短文本集合中的無效數(shù)據(jù)后，可以使用常用的分詞方法，如基于字符串匹配的分詞方法，對剩下的短文本進行切詞，然后去除其中表意價值較低的無用詞和停用詞，例如"的"、"了"等等。接著，可以進行詞干提取，即把同詞干同義的不同詞語中的相同部分提取出來，從而可以進一步剔除價值低的詞對整個短文本類別判定的影響。最后，可以對詞干提取后的第一短文本集合中所有出現(xiàn)過的詞進行一次索引，即為每個詞賦予一個編號或ID號，以便于后續(xù)計算。
[0020] 在本實施例的一個可選實現(xiàn)方式中，詞干提取包括主體提取和描述詞提取。當對一個短文本進行詞干提取時，可以進行主體提取和描述詞提取。主體可以是指短文本所針對的對象，例如意見反饋所針對的產(chǎn)品，或者影評所對應的電影或演員等，通常可以是短文本中的主語或賓語等。描述詞可以是對狀態(tài)、情形、情感等進行描述的詞語，通?？梢允菐?有感情色彩的形容詞或動詞等。由于用戶發(fā)表短文本的位置，通常是在一個特定的網(wǎng)絡位置，如某個產(chǎn)品的意見反饋渠道。此時用戶會直接發(fā)表意見和建議，而通常不再提及相關產(chǎn) 品。因此，在進行詞干提取時，很有可能無法提取到確切的主體。例如，用戶對某一個產(chǎn)品的反饋是"新版很難用"幾個字，則無法直接從該反饋中提取到其所對應的主體。此時，可以根據(jù)第一短文本集合的來源確定主體。例如，當?shù)谝欢涛谋炯鲜菑乃阉鲬玫囊庖姺?饋中獲取到的時，則可以認為短文本所對應的主體就是該搜索應用。
[0021] 在本實施例的一個可選實現(xiàn)方式中，當未提取到主體時，還可以根據(jù)描述詞確定主體。具體地，當未提取到主體時，可以對描述詞進行分析，并進一步根據(jù)描述詞的所描述的內(nèi)容來確定主體。例如，雖然第一短文本集合是從搜索應用的意見反饋中獲取到的，但是其中某一個短文本的內(nèi)容是"播放電影時，無法自動匹配字幕"。通過這個短文本所描述的內(nèi)容，可以確定出其對應的主體應該具備視頻播放功能，因此其針對的很可能是視頻應用而不是搜索應用。該用戶很可能是通過搜索應用的反饋渠道，反饋了視頻應用的問題。此時，可以根據(jù)描述詞將該反饋的主體確定為視頻應用，而不是搜索應用。通過根據(jù)描述詞確定主體，可以提尚主體確定的準確性。
[0022] 接著，在步驟102中，可以基于預處理后的第一短文本集合，執(zhí)行如下處理步驟：使用預處理后的第一短文本集合訓練主題模型LDA，得到第一短文本集合中各短文本的主題概率分布；對主題概率分布進行聚類，確定第一短文本集合中各短文本的主題類別。
[0023] 在本實施例中的步驟102可以包括子步驟1021和1022。其中：
[0024] 在步驟1021中，使用預處理后的第一短文本集合訓練主題模型LDA，得到第一短文本集合中各短文本的主題概率分布。
[0025] 當在上述步驟101中得到預處理后的第一短文本集合后，可以進一步將其作為數(shù) 據(jù)樣本，對主體模型LDA(LatentDirichletAllocation，隱含狄利

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：阮星華;張文;
技術所有人：百度在線網(wǎng)絡技術（北京）有限公司;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

短文本處理方法及裝置的制造方法