亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于web挖掘的非規(guī)范語言處理方法

文檔序號:6469669閱讀:261來源:國知局
專利名稱:一種基于web挖掘的非規(guī)范語言處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機數(shù)據(jù)挖掘領(lǐng)域,特別涉及到網(wǎng)絡(luò)情感挖掘方案的技術(shù)。
背景技術(shù)
近年來,互聯(lián)網(wǎng)已經(jīng)擁有非常龐大的用戶了。借助互聯(lián)網(wǎng)這個平臺,用戶經(jīng)常會發(fā)表一些個人的觀點和評論,即描述并非完全事實的主觀性文本,其主要內(nèi)容包括個人、群體、組織等的意見、情感和態(tài)度等等。顯而易見,無論從其他用戶還是生產(chǎn)某一產(chǎn)品的企業(yè)而言,用戶的這種觀點是非常有實際意義的。它具有良好的參考價值和導(dǎo)向性。故對于斷言或評論的文本進行處理就很有現(xiàn)實意義了。而這些評論大都來自用戶的主管表達,在一定范圍內(nèi)。就可能存在一種新型的語言非規(guī)范語言。非規(guī)范語言和噪音是主觀性文本的一大重要特征。非正規(guī)語言廣泛應(yīng)用于以網(wǎng)絡(luò)為媒介的通信中,Chat room, BBS, email等。于是在這些環(huán)境中使用的特殊語言被稱為為非正規(guī)語言(Informal Language,NIL)表達,例如在網(wǎng)絡(luò)聊天中常用"偶"取代"我","8錯"表示"不錯"等。 由此可見,非規(guī)范語言包含了大量個人的主觀性信息,而這些信息對于挖掘出用戶對某一社會現(xiàn)象,商品或輿論的反應(yīng)和意見起著至關(guān)重要的工作。而在傳統(tǒng)的WEB挖掘過程中,這些非規(guī)范詞語都被當(dāng)作噪音進行過濾掉了。如果我們要挖掘出用戶對產(chǎn)品的評論,若用戶使用一些比較流行的網(wǎng)絡(luò)用語,我們就很難找出用戶潛在的評論內(nèi)容。所以若要挖掘用戶情感表達,毫無疑問就必須對非規(guī)范語言其進行規(guī)范化處理。
在一些以英語語言為代表的國家有部分人員對此類工作進行研究,目前國內(nèi)對非規(guī)范語言的處理也處在起步階段?,F(xiàn)在對于非規(guī)范語言處理的一個較為廣泛的手段就是運用模式匹配的方法,這種方法主要來自西方國家的研究人員。這種方法簡單易行,也有一定的針對性。主要是因為西方國家基本都是一些字符和字符串。在我們的處理過程中,首先必不可少的就是非規(guī)范詞語的收集。本專利評判試驗所有語料均來自互聯(lián)網(wǎng)的論壇。因其存在大量主觀性的非規(guī)范語言,從而可以更方便我們進行非規(guī)范語言的處理。為了最終進行自動方法處理非規(guī)范語言,我們是采用監(jiān)督的學(xué)習(xí)方法。首先,通過人工進行非規(guī)范語言的識別和判斷,然后通過機器學(xué)習(xí)。最終自動對其進行處理。 最終所有測試的語料均來自百度貼吧上的文本。選百度貼吧主要是因為它人氣較旺,包含的內(nèi)容幾乎全為主觀性內(nèi)容,從而含有的非規(guī)范語言也就較多了。為了收集含有大量這種非規(guī)范語言的文本,利用編寫網(wǎng)絡(luò)爬蟲工具對百度貼吧上的內(nèi)容進行下載獲取。其目的是首先確定非規(guī)范語言的種類和形式,其次得到測試和訓(xùn)練所需要的數(shù)據(jù)集。爬取所需網(wǎng)頁是一個非常重要的步驟,具體內(nèi)容可查閱其他專利。為達到目的性和實時性,最終抽取一年之內(nèi)的網(wǎng)頁。之后,就需要從中篩選出非規(guī)范語言。把這些詞語用詞典的實行表達出來。在建立非規(guī)范詞詞典之后,就可以有針對性的收集所需要的語料來供訓(xùn)練和測試所用。由于有了詞典,那么爬取網(wǎng)頁也就有了針對性。這樣就可以避免在大量的無用數(shù)據(jù)中尋找所需要的數(shù)據(jù)集了。這上面流程圖中加入關(guān)鍵詞特征步驟即可實現(xiàn),而這些關(guān)鍵字正是之前所篩選出來的IL詞典中的非規(guī)范詞語。關(guān)鍵詞可以放在一個文本文件中,在程序?qū)崿F(xiàn)中為提高效率,可以將其放入一個集合內(nèi)。這樣就保證了所抓取的網(wǎng)頁至少包含一個以上的非規(guī)范詞語,從一定程度上減少了不必要的人工過濾等繁瑣工作。 構(gòu)建非規(guī)范語言詞典之后,就可以對非規(guī)范詞語進行識別和判斷了。因為之后的工作都是基于這個基礎(chǔ)之上的。現(xiàn)在說明非規(guī)范語言處理處理過程。
具體步驟為 1)指定需要處理的文件,可以對其進行批量讀取。 2)對超文本進行純文本格式的轉(zhuǎn)換,在對其進行相應(yīng)的預(yù)處理。 3)通過本專利特出的方法對非規(guī)范語言包含的詞語進行抽取和正規(guī)化處理。 4)批量輸出以處理的內(nèi)容。 5)用實驗評測標(biāo)準(zhǔn)對其進行評估。 這里,評測的標(biāo)準(zhǔn)是采用自然語言處理方法中的三個評測指標(biāo)準(zhǔn)確率,召回率和F值。最終用該三個標(biāo)準(zhǔn)驗證所提出發(fā)明方法的正確性和有效性。該方法的提出運用最小化的方法來處理非規(guī)范語言,并且取得很好處理效果。

發(fā)明內(nèi)容
本發(fā)明提出一種處理非規(guī)范語言的最小化監(jiān)督方法。就是運用最小的訓(xùn)練數(shù)據(jù)來得到比較好的處理結(jié)果。這個方法易于操作,并且無需海量存儲。有效的解決了文本挖掘中的非規(guī)范語言的問題。從而可以抽取有用的用戶情感,意見和評論的表達。
本發(fā)明提出的非規(guī)范語言處理方法包括兩個部分。典型非規(guī)范語言和歧義非規(guī)范語言,然后針對這兩者的不同分別進行判定。最終對判定屬于非規(guī)范語言的詞語運用建立的非規(guī)范詞典進行代換。從而達到正規(guī)化的目的。首先引入兩個定義 典型非規(guī)范語言典型非規(guī)范語言是指那些包含字母,數(shù)字,以及混合縮寫形式所能代表正規(guī)語言表達意思的詞語。這種詞語的特征就是形式很不正規(guī),在正常的文本中,例如雜志,報刊上一般不可能出現(xiàn)這種詞語。這種表達方式的特點就是它只可能出現(xiàn)于互聯(lián)網(wǎng)上的交流上,正規(guī)書面中一般不會出現(xiàn)這樣的表達。如0MG(天啊)、PMP(拍馬屁)等等。我們將數(shù)字以及混合形式劃分為此類別。如3q(thank you)等等。 歧義非規(guī)范語言歧義非規(guī)范詞語是指那些從字面上看是正規(guī)形式的詞語,但事實在在該詞語出現(xiàn)的上下文中表達的卻是其對應(yīng)的非規(guī)范詞語的意思。在這種情況下,我們也把這類詞語看做是非正規(guī)的,歸類于歧義非規(guī)范語言部分。這種表達方式的特點就是不僅是在網(wǎng)絡(luò)上會出現(xiàn)這種類型的詞語,正規(guī)書面語也經(jīng)常會出現(xiàn)這種詞語。這種情況下,就是正規(guī)語言的含義具有歧義了。造成這種現(xiàn)象的主要原因來自于用戶發(fā)音不準(zhǔn)確,輸入法沒有合適的后選項,為達到快速交流目的。就用這種正規(guī)的表達形式替代用戶想表達的意思。這種NIL表達有以下例子稀飯(喜歡)、斑竹(版主)、粉絲(歌迷,影迷)等等,都是比較典型的歧義非規(guī)范詞語的代表。 在處理的過程中,首先判斷句子里是否含有可疑的非規(guī)范詞語。然后進一步判斷它是否是非規(guī)范詞語。這里就要分兩種情況了,由于處理的方法不同,就要判斷出是典型非規(guī)范詞語還是歧義非規(guī)范詞語。若判斷出是非規(guī)范詞語,則通過之前所建立詞典中相對應(yīng)的詞語對其進行替代,最終達到非規(guī)范詞語正規(guī)化的目的。
具體的處理過程,包括以下步驟
1)對于文本中的詞語判斷是否出現(xiàn)在非規(guī)范詞典中。該詞典在第一步WEB收集的
過程中由人工識別并且抽取。該詞典以每個非規(guī)范詞作為主鍵進行存儲。 2)若存在在非規(guī)范語言詞典出現(xiàn)的詞語,就判斷是典型非規(guī)范詞語或者是歧義非
規(guī)范詞語。因為非規(guī)范詞語種類繁多。對于初步判斷,我們將其分為六個大類。而這些種
類若一一處理非常麻煩,并且情況有所交叉。為方便處理,提出這種解決的辦法也是處理的關(guān)鍵。 3)針對典型非規(guī)范詞語,采用基于序列覆蓋算法的模式匹配方法,對其進行判斷 和替換。算法實現(xiàn)在具體實施欄內(nèi)詳細講述,該發(fā)明的處理流程如圖l所示。
4)針對歧義非規(guī)范詞語,我們采用模擬分類的方法對其進行識別和判斷。這類問 題的解決也是漢語非規(guī)范詞語處理的重點和難點。就如定義中所述,從字面上根本無法判 斷他是否是非規(guī)范語言,因為正常規(guī)范的雜志,報刊上也會存在這種詞語。要判斷他是否是 非規(guī)范詞語,就要聯(lián)系上下文。分析上下文的關(guān)系,這就牽涉語義方面的處理,這將導(dǎo)致更 加繁瑣和復(fù)雜的過程。而且漢語中每個詞的用法都不一樣,這就好比從語義方面來考慮工 作量就太大了。而本發(fā)明提出的方法就很好的解決了這個問題。該方法在具體實施欄內(nèi)有 詳細講述。


圖1為非規(guī)范語言的處理流程圖。
具體實施例方式
主要發(fā)明一種利用最小工作量處理非規(guī)范語言的方法。下面是對本發(fā)明的進一步 說明 對于典型非規(guī)范語言的處理,本發(fā)明采用基于序列覆蓋算法的模式匹配方法。具 體實現(xiàn)方法如下首先我們需要處理的是典型非規(guī)范詞語。那么為達到避免局限于某一領(lǐng) 域相關(guān),我們所收集的數(shù)據(jù)就不能集中于某一領(lǐng)域范圍內(nèi)。例如在某某汽車論壇或手機論 壇中收集和該領(lǐng)域相關(guān)的非規(guī)范詞語。為了公平起見,抽取的數(shù)據(jù)均為領(lǐng)域無關(guān)。采用以 下算法來抽取識別該非規(guī)范NIL的規(guī)則。 1)訓(xùn)練數(shù)據(jù)集合S, sen為S中的一個實例。規(guī)則集合R初始為空。若s中包含 的關(guān)鍵詞為非規(guī)范詞語,則標(biāo)記為正例反之,標(biāo)記為反例。 2)開始循環(huán),知道句子集合為空。對于每一個sen G S,下接3)或4)。 3)如果sen包含的詞語為正例,提取一條規(guī)則r,并將r加入R。并且刪除此規(guī)則
能夠覆到的其他句子。 4)若不滿足3)則到此步,抽取一條規(guī)則,并將R中的規(guī)則根據(jù)此規(guī)則精簡,并且刪 除該規(guī)則能夠覆蓋的其他句子。 對于歧義非規(guī)范語言處理,前面已經(jīng)介紹了不能用上面的方法對其進行處理。這 里提出一種模擬分類的方法的方法對其處理。具體流程如下 首先對人工已經(jīng)確定的歧義非規(guī)范詞語的句子進行特征抽取,最終本發(fā)明通過抽 取以下五個特征 1)典型非規(guī)范語言。如果該句子里本身就含有一個已經(jīng)確定的非規(guī)范表達,相當(dāng)于發(fā)表言論的作者已有前科,則該句中包含的歧義NIL的可能性就大大增強了。 2)表達意見、建議或含有情感的詞語。含有這些特征的主觀性就大大增強了。在
主觀性文本的基礎(chǔ)之上,再出現(xiàn)某些歧義NIL的表達,則該表達在此句中就很有可能是非
規(guī)范詞語。 3)第一和第二人稱。非規(guī)范詞語全來自個人的主觀表達,其中包含對某些事物的 評論和斷言,于是評論者為了表達自己的觀點就常常會在表達的內(nèi)容上加入第一或者第二 人稱。 4)不規(guī)則使用標(biāo)點符號。非規(guī)范詞語的使用者本身就具有對表達內(nèi)容表示的不規(guī) 范特征,隨意性較大。因此在標(biāo)點符號的使用上也會表現(xiàn)的很不規(guī)范,而正規(guī)表達不會這樣 做。 5)帶有情感色彩詞語及標(biāo)點符號。存在歧義NIL表達的句子中若存在帶有表達情 感的符號,則該歧義NIL是非規(guī)范表達的程度就大大加深了。如出現(xiàn)感嘆號,表示作者對所 要表達的事物懷有驚奇或激動的感情,問好則表示作者對某事物懷有疑問之意。這兩者都 是評論者個人的情感表達。 對于這些特征,用樸素貝葉斯方法和支持向量機對其進行分類。對于分類的具體 方法已有很多其他專利的方法,不屬于自己的發(fā)明,就不介紹了 。 先對人工識別的歧義非規(guī)范詞語進行向量空間模型映射,然后通過學(xué)習(xí)這些已知 的類別。對所需要處理的非規(guī)范詞語進行空間模型映射之后,對其進行分類。最終判斷它 是否為歧義非規(guī)范語言。如果確定是,就用所構(gòu)建的非規(guī)范詞典中對應(yīng)的正規(guī)詞將其進行 替代。從而達到正規(guī)化處理的目的。 本發(fā)明采用的方法目的是應(yīng)用最小化監(jiān)督,只需要少量的訓(xùn)練的數(shù)據(jù)就可以達到 比較好的處理結(jié)果。最終使用9362個句子作為訓(xùn)練和測試數(shù)據(jù)集,處理典型非規(guī)范語言的 結(jié)果,取得的精確率為87. 1 % ,召回率為68. 2% , F值為76. 5% 。歧義非規(guī)范語言的處理結(jié) 果,采用10折交叉驗證情況下的處理結(jié)果,其中精確率為81. 3%,召回率為88. 5X,F(xiàn)值為 84.7%。結(jié)果驗證該發(fā)明的有效性和實用性。
權(quán)利要求
一種網(wǎng)絡(luò)非規(guī)范語言的處理方法,其目的在于應(yīng)用最小化的訓(xùn)練數(shù)據(jù)就可以得到很好的處理結(jié)果。將網(wǎng)絡(luò)上經(jīng)常使用的非規(guī)范語言分為兩大類典型非規(guī)范語言和歧義非規(guī)范語言。針對不同類型采用不同的處理方法。其目的是使用盡量少的訓(xùn)練數(shù)據(jù)得到最大化的正規(guī)化處理結(jié)果。
2. —種網(wǎng)絡(luò)非規(guī)范語言的處理方法,其中典型非規(guī)范語言定義為包含字母,數(shù)字,以及混合縮寫形式所能代表正規(guī)語言表達意思的詞語。這種詞語的特征就是形式很不正規(guī),在正常的文本中,例如雜志,報刊上一般不可能出現(xiàn)這種詞語。這種表達方式的特點就是它只可能出現(xiàn)于互聯(lián)網(wǎng)上的交流上,正規(guī)書面中一般不會出現(xiàn)這樣的表達。對于典型非規(guī)范語言,采用基于序列覆蓋的模式匹配方法對其處理。針對訓(xùn)練集合中的不同句子抽取該非規(guī)范詞存在的上下文的規(guī)則,然后刪除這個規(guī)則所能覆蓋的句子。循環(huán)反復(fù),至終止。
3. —種網(wǎng)絡(luò)非規(guī)范語言的處理方法,其中歧義非規(guī)范語言定義為從字面上看是正規(guī)形式的詞語,但事實在在該詞語出現(xiàn)的上下文中表達的卻是其對應(yīng)的非規(guī)范詞語的意思。對于這一類非規(guī)范語言,抽取以下五個特征典型非規(guī)范語言,表達意見性的詞語,第一第二人稱代詞,標(biāo)點符號的不規(guī)則使用,帶有情感的標(biāo)點符號。然后通過這些特征用分類器對其進行分類。判斷是否屬于非規(guī)范語言。
全文摘要
一種基于WEB挖掘的非規(guī)范語言處理方法,本發(fā)明涉及計算機數(shù)據(jù)挖掘領(lǐng)域,特別涉及到網(wǎng)絡(luò)情感挖掘方案的技術(shù)。本專利公開一種對網(wǎng)絡(luò)非規(guī)范語言進行處理的方法,屬于計算機數(shù)據(jù)挖掘領(lǐng)域。該方法提出運用最小化監(jiān)督學(xué)習(xí)的方法來處理非規(guī)范語言。將正常的非規(guī)范語言的種類由六類簡化為兩種不相交的類別典型非規(guī)范語言和歧義非規(guī)范語言。對于典型非規(guī)范語言,提出一種基于序列覆蓋的模式匹配算法。而對于歧義非規(guī)范語言,提出一種基于特征抽取的分類算法將其處理。最終能夠得到完全正規(guī)的書面詞語,從而方便了主觀意見型的挖掘工作,能夠更好的抽取情感,意見,建議等信息。
文檔編號G06F17/30GK101763352SQ20081020767
公開日2010年6月30日 申請日期2008年12月24日 優(yōu)先權(quán)日2008年12月24日
發(fā)明者史天藝, 尹航, 張霄凱, 楊帆 申請人:張霄凱;楊帆;史天藝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1