一種基于web挖掘的非規(guī)范語言處理方法

文檔序號：6469669閱讀：261來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于web挖掘的非規(guī)范語言處理方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機數(shù)據(jù)挖掘領(lǐng)域，特別涉及到網(wǎng)絡(luò)情感挖掘方案的技術(shù)。
背景技術(shù)：
近年來，互聯(lián)網(wǎng)已經(jīng)擁有非常龐大的用戶了。借助互聯(lián)網(wǎng)這個平臺，用戶經(jīng)常會發(fā)表一些個人的觀點和評論，即描述并非完全事實的主觀性文本，其主要內(nèi)容包括個人、群體、組織等的意見、情感和態(tài)度等等。顯而易見，無論從其他用戶還是生產(chǎn)某一產(chǎn)品的企業(yè)而言，用戶的這種觀點是非常有實際意義的。它具有良好的參考價值和導(dǎo)向性。故對于斷言或評論的文本進行處理就很有現(xiàn)實意義了。而這些評論大都來自用戶的主管表達，在一定范圍內(nèi)。就可能存在一種新型的語言非規(guī)范語言。非規(guī)范語言和噪音是主觀性文本的一大重要特征。非正規(guī)語言廣泛應(yīng)用于以網(wǎng)絡(luò)為媒介的通信中，Chat room, BBS, email等。于是在這些環(huán)境中使用的特殊語言被稱為為非正規(guī)語言(Informal Language,NIL)表達，例如在網(wǎng)絡(luò)聊天中常用"偶"取代"我"，"8錯"表示"不錯"等。由此可見，非規(guī)范語言包含了大量個人的主觀性信息，而這些信息對于挖掘出用戶對某一社會現(xiàn)象，商品或輿論的反應(yīng)和意見起著至關(guān)重要的工作。而在傳統(tǒng)的WEB挖掘過程中，這些非規(guī)范詞語都被當(dāng)作噪音進行過濾掉了。如果我們要挖掘出用戶對產(chǎn)品的評論，若用戶使用一些比較流行的網(wǎng)絡(luò)用語，我們就很難找出用戶潛在的評論內(nèi)容。所以若要挖掘用戶情感表達，毫無疑問就必須對非規(guī)范語言其進行規(guī)范化處理。
在一些以英語語言為代表的國家有部分人員對此類工作進行研究，目前國內(nèi)對非規(guī)范語言的處理也處在起步階段?，F(xiàn)在對于非規(guī)范語言處理的一個較為廣泛的手段就是運用模式匹配的方法，這種方法主要來自西方國家的研究人員。這種方法簡單易行，也有一定的針對性。主要是因為西方國家基本都是一些字符和字符串。在我們的處理過程中，首先必不可少的就是非規(guī)范詞語的收集。本專利評判試驗所有語料均來自互聯(lián)網(wǎng)的論壇。因其存在大量主觀性的非規(guī)范語言，從而可以更方便我們進行非規(guī)范語言的處理。為了最終進行自動方法處理非規(guī)范語言，我們是采用監(jiān)督的學(xué)習(xí)方法。首先，通過人工進行非規(guī)范語言的識別和判斷，然后通過機器學(xué)習(xí)。最終自動對其進行處理。最終所有測試的語料均來自百度貼吧上的文本。選百度貼吧主要是因為它人氣較旺，包含的內(nèi)容幾乎全為主觀性內(nèi)容，從而含有的非規(guī)范語言也就較多了。為了收集含有大量這種非規(guī)范語言的文本，利用編寫網(wǎng)絡(luò)爬蟲工具對百度貼吧上的內(nèi)容進行下載獲取。其目的是首先確定非規(guī)范語言的種類和形式，其次得到測試和訓(xùn)練所需要的數(shù)據(jù)集。爬取所需網(wǎng)頁是一個非常重要的步驟，具體內(nèi)容可查閱其他專利。為達到目的性和實時性，最終抽取一年之內(nèi)的網(wǎng)頁。之后，就需要從中篩選出非規(guī)范語言。把這些詞語用詞典的實行表達出來。在建立非規(guī)范詞詞典之后，就可以有針對性的收集所需要的語料來供訓(xùn)練和測試所用。由于有了詞典，那么爬取網(wǎng)頁也就有了針對性。這樣就可以避免在大量的無用數(shù)據(jù)中尋找所需要的數(shù)據(jù)集了。這上面流程圖中加入關(guān)鍵詞特征步驟即可實現(xiàn)，而這些關(guān)鍵字正是之前所篩選出來的IL詞典中的非規(guī)范詞語。關(guān)鍵詞可以放在一個文本文件中，在程序?qū)崿F(xiàn)中為提高效率，可以將其放入一個集合內(nèi)。這樣就保證了所抓取的網(wǎng)頁至少包含一個以上的非規(guī)范詞語，從一定程度上減少了不必要的人工過濾等繁瑣工作。構(gòu)建非規(guī)范語言詞典之后，就可以對非規(guī)范詞語進行識別和判斷了。因為之后的工作都是基于這個基礎(chǔ)之上的。現(xiàn)在說明非規(guī)范語言處理處理過程。
具體步驟為 1)指定需要處理的文件，可以對其進行批量讀取。 2)對超文本進行純文本格式的轉(zhuǎn)換，在對其進行相應(yīng)的預(yù)處理。 3)通過本專利特出的方法對非規(guī)范語言包含的詞語進行抽取和正規(guī)化處理。 4)批量輸出以處理的內(nèi)容。 5)用實驗評測標(biāo)準(zhǔn)對其進行評估。這里，評測的標(biāo)準(zhǔn)是采用自然語言處理方法中的三個評測指標(biāo)準(zhǔn)確率，召回率和F值。最終用該三個標(biāo)準(zhǔn)驗證所提出發(fā)明方法的正確性和有效性。該方法的提出運用最小化的方法來處理非規(guī)范語言，并且取得很好處理效果。

發(fā)明內(nèi)容
本發(fā)明提出一種處理非規(guī)范語言的最小化監(jiān)督方法。就是運用最小的訓(xùn)練數(shù)據(jù)來得到比較好的處理結(jié)果。這個方法易于操作，并且無需海量存儲。有效的解決了文本挖掘中的非規(guī)范語言的問題。從而可以抽取有用的用戶情感，意見和評論的表達。
本發(fā)明提出的非規(guī)范語言處理方法包括兩個部分。典型非規(guī)范語言和歧義非規(guī)范語言，然后針對這兩者的不同分別進行判定。最終對判定屬于非規(guī)范語言的詞語運用建立的非規(guī)范詞典進行代換。從而達到正規(guī)化的目的。首先引入兩個定義典型非規(guī)范語言典型非規(guī)范語言是指那些包含字母，數(shù)字，以及混合縮寫形式所能代表正規(guī)語言表達意思的詞語。這種詞語的特征就是形式很不正規(guī)，在正常的文本中，例如雜志，報刊上一般不可能出現(xiàn)這種詞語。這種表達方式的特點就是它只可能出現(xiàn)于互聯(lián)網(wǎng)上的交流上，正規(guī)書面中一般不會出現(xiàn)這樣的表達。如0MG(天啊)、PMP(拍馬屁)等等。我們將數(shù)字以及混合形式劃分為此類別。如3q(thank you)等等。歧義非規(guī)范語言歧義非規(guī)范詞語是指那些從字面上看是正規(guī)形式的詞語，但事實在在該詞語出現(xiàn)的上下文中表達的卻是其對應(yīng)的非規(guī)范詞語的意思。在這種情況下，我們也把這類詞語看做是非正規(guī)的，歸類于歧義非規(guī)范語言部分。這種表達方式的特點就是不僅是在網(wǎng)絡(luò)上會出現(xiàn)這種類型的詞語，正規(guī)書面語也經(jīng)常會出現(xiàn)這種詞語。這種情況下，就是正規(guī)語言的含義具有歧義了。造成這種現(xiàn)象的主要原因來自于用戶發(fā)音不準(zhǔn)確，輸入法沒有合適的后選項，為達到快速交流目的。就用這種正規(guī)的表達形式替代用戶想表達的意思。這種NIL表達有以下例子稀飯(喜歡)、斑竹(版主)、粉絲(歌迷，影迷)等等，都是比較典型的歧義非規(guī)范詞語的代表。在處理的過程中，首先判斷句子里是否含有可疑的非規(guī)范詞語。然后進一步判斷它是否是非規(guī)范詞語。這里就要分兩種情況了，由于處理的方法不同，就要判斷出是典型非規(guī)范詞語還是歧義非規(guī)范詞語。若判斷出是非規(guī)范詞語，則通過之前所建立詞典中相對應(yīng)的詞語對其進行替代，最終達到非規(guī)范詞語正規(guī)化的目的。
具體的處理過程，包括以下步驟
1)對于文本中的詞語判斷是否出現(xiàn)在非規(guī)范詞典中。該詞典在第一步WEB收集的
過程中由人工識別并且抽取。該詞典以每個非規(guī)范詞作為主鍵進行存儲。 2)若存在在非規(guī)范語言詞典出現(xiàn)的詞語，就判斷是典型非規(guī)范詞語或者是歧義非
規(guī)范詞語。因為非規(guī)范詞語種類繁多。對于初步判斷，我們將其分為六個大類。而這些種
類若一一處理非常麻煩，并且情況有所交叉。為方便處理，提出這種解決的辦法也是處理的關(guān)鍵。 3)針對典型非規(guī)范詞語，采用基于序列覆蓋算法的模式匹配方法，對其進行判斷和替換。算法實現(xiàn)在具體實施欄內(nèi)詳細講述，該發(fā)明的處理流程如圖l所示。
4)針對歧義非規(guī)范詞語，我們采用模擬分類的方法對其進行識別和判斷。這類問題的解決也是漢語非規(guī)范詞語處理的重點和難點。就如定義中所述，從字面上根本無法判斷他是否是非規(guī)范語言，因為正常規(guī)范的雜志，報刊上也會存在這種詞語。要判斷他是否是非規(guī)范詞語，就要聯(lián)系上下文。分析上下文的關(guān)系，這就牽涉語義方面的處理，這將導(dǎo)致更加繁瑣和復(fù)雜的過程。而且漢語中每個詞的用法都不一樣，這就好比從語義方面來考慮工作量就太大了。而本發(fā)明提出的方法就很好的解決了這個問題。該方法在具體實施欄內(nèi)有詳細講述。

圖1為非規(guī)范語言的處理流程圖。
具體實施例方式
主要發(fā)明一種利用最小工作量處理非規(guī)范語言的方法。下面是對本發(fā)明的進一步說明對于典型非規(guī)范語言的處理，本發(fā)明采用基于序列覆蓋算法的模式匹配方法。具體實現(xiàn)方法如下首先我們需要處理的是典型非規(guī)范詞語。那么為達到避免局限于某一領(lǐng) 域相關(guān)，我們所收集的數(shù)據(jù)就不能集中于某一領(lǐng)域范圍內(nèi)。例如在某某汽車論壇或手機論壇中收集和該領(lǐng)域相關(guān)的非規(guī)范詞語。為了公平起見，抽取的數(shù)據(jù)均為領(lǐng)域無關(guān)。采用以下算法來抽取識別該非規(guī)范NIL的規(guī)則。 1)訓(xùn)練數(shù)據(jù)集合S， sen為S中的一個實例。規(guī)則集合R初始為空。若s中包含的關(guān)鍵詞為非規(guī)范詞語，則標(biāo)記為正例反之，標(biāo)記為反例。 2)開始循環(huán)，知道句子集合為空。對于每一個sen G S，下接3)或4)。 3)如果sen包含的詞語為正例，提取一條規(guī)則r，并將r加入R。并且刪除此規(guī)則
能夠覆到的其他句子。 4)若不滿足3)則到此步，抽取一條規(guī)則，并將R中的規(guī)則根據(jù)此規(guī)則精簡，并且刪除該規(guī)則能夠覆蓋的其他句子。對于歧義非規(guī)范語言處理，前面已經(jīng)介紹了不能用上面的方法對其進行處理。這里提出一種模擬分類的方法的方法對其處理。具體流程如下首先對人工已經(jīng)確定的歧義非規(guī)范詞語的句子進行特征抽取，最終本發(fā)明通過抽取以下五個特征 1)典型非規(guī)范語言。如果該句子里本身就含有一個已經(jīng)確定的非規(guī)范表達，相當(dāng)于發(fā)表言論的作者已有前科，則該句中包含的歧義NIL的可能性就大大增強了。 2)表達意見、建議或含有情感的詞語。含有這些特征的主觀性就大大增強了。在
主觀性文本的基礎(chǔ)之上，再出現(xiàn)某些歧義NIL的表達，則該表達在此句中就很有可能是非
規(guī)范詞語。 3)第一和第二人稱。非規(guī)范詞語全來自個人的主觀表達，其中包含對某些事物的評論和斷言，于是評論者為了表達自己的觀點就常常會在表達的內(nèi)容上加入第一或者第二人稱。 4)不規(guī)則使用標(biāo)點符號。非規(guī)范詞語的使用者本身就具有對表達內(nèi)容表示的不規(guī) 范特征，隨意性較大。因此在標(biāo)點符號的使用上也會表現(xiàn)的很不規(guī)范，而正規(guī)表達不會這樣做。 5)帶有情感色彩詞語及標(biāo)點符號。存在歧義NIL表達的句子中若存在帶有表達情感的符號，則該歧義NIL是非規(guī)范表達的程度就大大加深了。如出現(xiàn)感嘆號，表示作者對所要表達的事物懷有驚奇或激動的感情，問好則表示作者對某事物懷有疑問之意。這兩者都是評論者個人的情感表達。對于這些特征，用樸素貝葉斯方法和支持向量機對其進行分類。對于分類的具體方法已有很多其他專利的方法，不屬于自己的發(fā)明，就不介紹了。先對人工識別的歧義非規(guī)范詞語進行向量空間模型映射，然后通過學(xué)習(xí)這些已知的類別。對所需要處理的非規(guī)范詞語進行空間模型映射之后，對其進行分類。最終判斷它是否為歧義非規(guī)范語言。如果確定是，就用所構(gòu)建的非規(guī)范詞典中對應(yīng)的正規(guī)詞將其進行替代。從而達到正規(guī)化處理的目的。本發(fā)明采用的方法目的是應(yīng)用最小化監(jiān)督，只需要少量的訓(xùn)練的數(shù)據(jù)就可以達到比較好的處理結(jié)果。最終使用9362個句子作為訓(xùn)練和測試數(shù)據(jù)集，處理典型非規(guī)范語言的結(jié)果，取得的精確率為87. 1 % ，召回率為68. 2% ， F值為76. 5% 。歧義非規(guī)范語言的處理結(jié) 果，采用10折交叉驗證情況下的處理結(jié)果，其中精確率為81. 3%，召回率為88. 5X，F(xiàn)值為 84.7%。結(jié)果驗證該發(fā)明的有效性和實用性。
權(quán)利要求
一種網(wǎng)絡(luò)非規(guī)范語言的處理方法，其目的在于應(yīng)用最小化的訓(xùn)練數(shù)據(jù)就可以得到很好的處理結(jié)果。將網(wǎng)絡(luò)上經(jīng)常使用的非規(guī)范語言分為兩大類典型非規(guī)范語言和歧義非規(guī)范語言。針對不同類型采用不同的處理方法。其目的是使用盡量少的訓(xùn)練數(shù)據(jù)得到最大化的正規(guī)化處理結(jié)果。
2. —種網(wǎng)絡(luò)非規(guī)范語言的處理方法，其中典型非規(guī)范語言定義為包含字母，數(shù)字，以及混合縮寫形式所能代表正規(guī)語言表達意思的詞語。這種詞語的特征就是形式很不正規(guī)，在正常的文本中，例如雜志，報刊上一般不可能出現(xiàn)這種詞語。這種表達方式的特點就是它只可能出現(xiàn)于互聯(lián)網(wǎng)上的交流上，正規(guī)書面中一般不會出現(xiàn)這樣的表達。對于典型非規(guī)范語言，采用基于序列覆蓋的模式匹配方法對其處理。針對訓(xùn)練集合中的不同句子抽取該非規(guī)范詞存在的上下文的規(guī)則，然后刪除這個規(guī)則所能覆蓋的句子。循環(huán)反復(fù)，至終止。
3. —種網(wǎng)絡(luò)非規(guī)范語言的處理方法，其中歧義非規(guī)范語言定義為從字面上看是正規(guī)形式的詞語，但事實在在該詞語出現(xiàn)的上下文中表達的卻是其對應(yīng)的非規(guī)范詞語的意思。對于這一類非規(guī)范語言，抽取以下五個特征典型非規(guī)范語言，表達意見性的詞語，第一第二人稱代詞，標(biāo)點符號的不規(guī)則使用，帶有情感的標(biāo)點符號。然后通過這些特征用分類器對其進行分類。判斷是否屬于非規(guī)范語言。
全文摘要
一種基于WEB挖掘的非規(guī)范語言處理方法，本發(fā)明涉及計算機數(shù)據(jù)挖掘領(lǐng)域，特別涉及到網(wǎng)絡(luò)情感挖掘方案的技術(shù)。本專利公開一種對網(wǎng)絡(luò)非規(guī)范語言進行處理的方法，屬于計算機數(shù)據(jù)挖掘領(lǐng)域。該方法提出運用最小化監(jiān)督學(xué)習(xí)的方法來處理非規(guī)范語言。將正常的非規(guī)范語言的種類由六類簡化為兩種不相交的類別典型非規(guī)范語言和歧義非規(guī)范語言。對于典型非規(guī)范語言，提出一種基于序列覆蓋的模式匹配算法。而對于歧義非規(guī)范語言，提出一種基于特征抽取的分類算法將其處理。最終能夠得到完全正規(guī)的書面詞語，從而方便了主觀意見型的挖掘工作，能夠更好的抽取情感，意見，建議等信息。
文檔編號G06F17/30GK101763352SQ20081020767
公開日2010年6月30日申請日期2008年12月24日優(yōu)先權(quán)日2008年12月24日
發(fā)明者史天藝, 尹航, 張霄凱, 楊帆申請人:張霄凱;楊帆;史天藝

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張霄凱;楊帆;史天藝;尹航
技術(shù)所有人：張霄凱;楊帆;史天藝
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

挖掘機憋車處理方法相關(guān)技術(shù)

r語言文本挖掘相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于web挖掘的非規(guī)范語言處理方法