本發(fā)明具體涉及一種基于統(tǒng)計和淺層語言分析的維吾爾文語義串抽取方法,屬于少數(shù)民族語言語義串抽取
技術領域:
。
背景技術:
:關于語義串的識別和抽取,國內外很早就有學著開展一些研究工作??梢远x語義串為:是文本中上下文任意多個連續(xù)字符(字或詞)的穩(wěn)定組合,其語義完整及獨立的,能作為文本中線索詞,包括人名、地名、機構名等命名實體,還有實詞(科學家)、新詞(自貿區(qū))、詞組或短語(地方政府陽光舉債)、領域術語(人感染h7n9確診病例)、固定搭配(嚴格監(jiān)管)等。語義串抽取是文本處理中的基礎技術,可以直接應用到文本挖掘多個領域中。如應用到分詞中,可以提高新詞識別效率。應用到搜索引擎中索引詞的抽取、查詢詞的修正、以及相關搜索分析中,可以達到索引壓縮目的的同時也可以大大提高搜索效率。應用到網絡輿情系統(tǒng)中,可以將語義串作為主要的輿情線索進行網絡輿情熱點的有效發(fā)現(xiàn)和跟蹤。應用到本發(fā)明中,以語義串作為特征表征文本,可以構造泛化能力更強、更經湊的文本模型,這就會明顯提高聚類和分類準確率。除此之外,專業(yè)術語抽取及領域詞典編撰等更多的領域,語義串的抽取仍能作為有效手段。隨著維吾爾文文本挖掘更多領域研究工作的深入開展,維吾爾文現(xiàn)有分詞方法開始暴露出其潛在的不足和缺陷,維吾爾文語義串抽取方法的研究變得為尤為必要和迫切。技術實現(xiàn)要素:因此,本發(fā)明目的是為解決現(xiàn)有技術中的上述問題,提出了一種基于統(tǒng)計和淺層語言分析的維吾爾文語義串抽取方法,并通過實驗驗證其可行性和有效性。具體的,本發(fā)明的方法包括:步驟1確定文本索引結構及定義模式規(guī)則:確定包括詞典、一級索引、二級索引的三層索引結構;定義文本中的可信頻繁模式;定義頻繁模式發(fā)現(xiàn)中的語言規(guī)則;步驟2頻繁模式發(fā)現(xiàn);大規(guī)模文本中維吾爾文頻繁模式發(fā)現(xiàn)步驟具體包括:步驟2a建索引;對于經過預處理的文本集,首先按單詞在文本中出現(xiàn)的順序建立詞典,然后對于生成的單詞id序列建詞索引;步驟2b串擴展及頻繁模式發(fā)現(xiàn);讓所有單詞id進入一個隊列中,然后根據(jù)每個單詞的索引信息從每個單詞擴展得到其二詞或三詞串,讓該單詞出隊并將新產生的擴展串入隊,繼續(xù)從n詞串擴展到n+1詞或n+2詞串,反復迭代,直到隊列為空;步驟3串完整性評價及語義串抽??;根據(jù)上下文鄰接特征來判斷每一個語義串候選的結構完整性,用公式一為每一個候選語義串賦權重:aeweight(s)=min(lae(s),rae(s))公式一其中,aeweight(s)是串s的鄰接熵權重,lae(s)是串s的左鄰接熵,rae(s)是串s的右鄰接熵,左鄰接熵、右鄰接熵按公式二計算:其中,m是串s的左鄰接種類數(shù),ni是串s的第i個左鄰接的頻次,所有左鄰接頻次總和為n,計算鄰接特征量所需要的全部信息在它們被發(fā)現(xiàn)時記錄好并存入索引中,依次輸出鄰接特征量達到閾值的頻繁模式,即為最終抽取到的語義串。進一步的,所述方法步驟1中的包括詞典、一級索引、二級索引的三層索引結構具體為:詞典:將不同長度的詞條或串轉換成整個索引空間中唯一的詞條id或串id;一級索引:作為索引項的每一個單詞或串,經過詞典管理工具翻譯成全索引空間唯一的id,這個id作為該索引項對應的一級索引入口,一級索引包含的數(shù)據(jù)有:freq是該索引項在語料中的頻次;is_stop是停用詞標志;is_adj是形容詞標志;unit_count是該索引項的單詞長度;pos_pointer,lv_pointer和rv_pointer分別是對應二級索引入口地址偏移量;二級索引:二級索引又是一個索引項列表,其入口由一級索引獲取,二級索引表中的每一項是該索引項在文本集中的概要描述,其中,第一個索引表是position,是該索引項的位置倒排;第二個是左鄰接列表,是該索引項所有的左鄰接及其頻次;第三個是右鄰接列表,是該索引項所有的右鄰接及其頻次。進一步的,所述方法步驟1中定義文本中的可信頻繁模式具體為:設s=w1w2…wn是一個長度為n的維吾爾文單詞串,以空格隔開的n個單詞序列,t=s1#s2#…sm#是由m個單詞串構成的文本語料,#標志文本中的各種標點符號;定義1:對于單詞串s=w1w2…wn,如果文本語料中至少存在兩個位置pos1和pos2,并使得則s稱為語料t中的一個模式,也稱為重復串;定義2:根據(jù)事先設定的各個參數(shù)閾值,如果support(s)>minsup(minsup為最小支持度)或frequency(s)>minfreq,minfreq為最小出現(xiàn)頻次,則稱s為語料t中的頻繁模式,如confidence(s)>minconf,minconf為最小置信度,則可確定s為可信頻繁模式;設wi-1wi是語料t中維吾爾文詞對,wi-1是上文,wi是下文,觀察候選頻繁模式s=(wi-1wi)是否為可信頻繁模式時,將frequency(s)>2(minfreq=2)的模式都選為頻繁模式,再評價wi-1→wi的置信度confidence(wi-1→wi)來選取可信頻繁模式;置信度confidence(wi-1→wi)是指上文wi-1出現(xiàn)的情況下,其下文出現(xiàn)wi的后驗概率,是對單詞關聯(lián)wi-1→wi的準確度的衡量,當confidence(wi-1→wi)>minconf時,可確定s=(wi-1wi)是一個可信頻繁模式,按公式三計算:定義3:逆置信度是指單詞關聯(lián)wi-1→wi的下文wi出現(xiàn)的情況下,其上文是wi-1的條件概率,按公式四計算:定義4:對于語料t中的一個頻繁模式s,如confidence(s)>minconf或r-confidence(s)>minconf,則可確定s為可信頻繁模式。進一步的,所述方法步驟1中步驟1中定義頻繁模式發(fā)現(xiàn)中的語言規(guī)則具體為:對于文本中的相鄰詞對“ab”,如成立條件:a∈{iw}orb∈{iw}orb∈{adj},則判斷a與b不能結合成為關聯(lián)模式。進一步的,所述方法步驟2b中單詞或詞串的擴展條件具體為:設xy是文本中相鄰的兩個單詞或串,x是y的右鄰接詞,y是x的左鄰接詞,要進行x→xy的擴展,則要滿足以下條件:條件1x不是停用詞,即is_stop(x)=0;條件2x是頻繁模式,即freq(x)>=2;條件3y不是停用詞或形容詞,即is_adj(y)=0且is_stop(y)=0;條件4y是頻繁模式,即freq(y)>=2;條件5xy是可信頻繁模式,即confidence(x→y)>minconf且r-confidence(x→y)>minconf;單詞或詞串的擴展流程具體為:詞或詞串索引id入隊,隊頭詞或詞串出隊,讀入一級索引鏈,判斷是否滿足條件1及條件2,如果不滿足條件1及條件2,則下一詞或詞串出隊,讀入一級索引鏈,繼續(xù)判斷是否滿足條件1及條件2;如果滿足條件1及條件2,則讀入2級索引鏈中讀取滿足條件1及條件2的這一詞或詞串的左鄰接列表,根據(jù)條件3、條件4、條件5依次判斷這一詞與這一詞的每一個左鄰接詞構成新串的可能性,新產生的二詞或三詞串作為可信頻繁模式入隊,等待繼續(xù)被擴展,依次對每一個單詞進行二詞或三詞擴展,同時將新產生的二詞或三詞串作為可信頻繁模式入隊,等待繼續(xù)被擴展,直至串擴展候選隊列為空,頻繁模式發(fā)現(xiàn)過程結束。本發(fā)明的有益效果在于:本發(fā)明提供一種基于統(tǒng)計和淺層語言分析的維吾爾文語義串抽取方法,采用一種多層動態(tài)索引結構為大規(guī)模文本建詞索引,然后是結合維吾爾文詞間關聯(lián)規(guī)則采用一種改進的n元遞增算法進行詞串擴展并發(fā)現(xiàn)文本中的可信頻繁模式,最終依次判斷頻繁模式串結構完整性從而得到語義串。通過在不同規(guī)模的語料上實驗發(fā)現(xiàn),此方法可行有效,能夠應用到維吾爾文文本挖掘多個領域。本發(fā)明提出的語義串抽取方法不僅可以應用到維吾爾文文本挖掘中,還能應用到哈薩克文、柯爾克孜文等同語系語言文本挖掘中。附圖說明圖1為具體實施方式中索引結構示意圖;圖2為具體實施方式中建立索引結構的示意圖;圖3為具體實施方式中串擴展初始狀態(tài)示意圖;圖4為具體實施方式中擴展候選隊列及索引變化情況示意圖;圖5為具體實施方式中所有單詞都被訪問完之后,隊列及索引變化情況示意圖;圖6為具體實施方式中維吾爾文語義串發(fā)現(xiàn)過程總體流程圖;圖7為具體實施方式中從頻繁模式集中抽取語義串流程流程圖;圖8a為具體實施方式中minconf不同取值下sdc上評價指標變化情況示意圖;圖8b為具體實施方式中minconf不同取值下ssc上評價指標變化情況示意圖;圖9a為具體實施方式中單策略實驗結果圖;圖9b為具體實施方式中雙策略實驗結果圖;圖10為具體實施方式中逐步增加策略實驗結果圖;圖11為具體實施方式中大規(guī)模語料實驗結果圖。具體實施方式下面結合附圖對本發(fā)明的具體實施方式進行說明:1、文本表示:影響淺層語言分析效率的主要因素是文本表層質量,主要包括文本書寫規(guī)范性和詞法正確性。因此,先對待處理文本進行正則化,拼寫校對,詞干切分等必要的預處理。詞索引是將單詞作為term,與單詞屬性之間建立映射的數(shù)據(jù)結構,是常見、高效的大規(guī)模文本表示方法。本發(fā)明語義串抽取方法在單詞索引基礎上,考察單詞擴展到串,串擴展到更長的串的可能性,因此新產生的串還需要寫入索引中,這就要求索引具有動態(tài)特性,和更好的規(guī)模擴展性。因此,本發(fā)明設計了如圖1所示的索引結構,由三個部分組成。1)詞典:是每一個詞條與它對應的id之間的管理工具。對于本發(fā)明研究工作來說,初始索引項是單詞(詞干),經過詞條擴展后會產生長度不同的新的串,而這些串都作為新的索引項追加到索引中。顯然,這不利于存儲和運算。在本發(fā)明研究中,我們設計了一個基于雙數(shù)組trie樹優(yōu)化算法的維吾爾文詞典管理工具,將不同長度的詞條(串)轉換成整個索引空間中唯一的詞條(串)id,這樣節(jié)省了存儲空間,同時極大提高了運算效率。2)一級索引:作為索引項的每一個單詞或串,經過詞典管理工具翻譯成全索引空間唯一的id,然后用這個id就可以找到該索引項對應的一級索引入口。一級索引包含的數(shù)據(jù)有:freq是該索引項在語料中的頻次;is_stop是停用詞標志;is_adj是形容詞標志;unit_count是該索引項的單詞長度(串中包含的單詞個數(shù));pos_pointer,lv_pointer和rv_pointer分別是對應二級索引入口地址偏移量。3)二級索引:二級索引又是一個索引項列表,其入口由一級索引獲取。二級索引表中的每一項是該索引項在文本集中的概要描述。其中,第一個索引表是position,是該索引項的位置倒排;第二個是左鄰接列表,是該索引項所有的左鄰接及其頻次;第三個是右鄰接列表,是該索引項所有的右鄰接及其頻次。通過這種索引結構,可以描述每一個單詞或串盡可能多的屬性,其動態(tài)性,效率和可擴展性等方面也符合海量文本處理需求。2、可信頻繁模式發(fā)現(xiàn)及語義串抽?。赫Z義串作為可獨立運用的語言單元,在真實語言環(huán)境中有一定的流通度,其內部單詞之間存在一定的并發(fā)關系(co-occurrencerelationships)。在數(shù)據(jù)挖掘領域中,并發(fā)關系也稱為關聯(lián)(association),則文本集中頻繁出現(xiàn)的單詞關聯(lián),我們可以稱它為頻繁關聯(lián)模式,簡稱為頻繁模式(frequentpattern:fp)。因此,我們可以用關聯(lián)規(guī)則挖掘中的評價指標來衡量頻繁模式中相鄰單詞之間的關聯(lián)強度。2.1文本中的可信頻繁模式根據(jù)關聯(lián)規(guī)則的基本概念,一篇文本發(fā)明檔甚至文檔中的一句話我們都可以作為事務來對待。此時,文本中的單詞就是一個項目(item),而文本集就是一個項目集(itemset)。因此,給定一個文本集或句子集,我們完全可以從中找出單詞之間的并發(fā)關系(關聯(lián))。假設s=w1w2…wn是一個長度為n的維吾爾文單詞串(以空格隔開的n個單詞序列),t=s1#s2#…sm#是由m個單詞串構成的文本語料,#標志文本中的各種標點符號。定義1:對于單詞串s=w1w2…wn,如果文本語料中至少存在兩個位置pos1和pos2,并使得則s稱為語料t中的一個模式(pattern),也稱為重復串(repeat)。定義2:根據(jù)事先設定的各個參數(shù)閾值,如果support(s)>minsup(minsup為最小支持度)或frequency(s)>minfreq(minfreq為最小出現(xiàn)頻次),則稱s為語料t中的頻繁模式(frequentpattern:fp),如confidence(s)>minconf(minconf為最小置信度),則可確定s為可信頻繁模式(crediblefrequentpattern:tfp)。設wi-1wi是語料t中維吾爾文詞對,wi-1是上文(前件),wi是下文(后件),觀察候選頻繁模式s=(wi-1wi)是否為可信頻繁模式時,我們沒有使用支持度指標。因為,support(wi-1→wi)是語料t中wi-1和wi共現(xiàn)次數(shù)的百分比,是對這個單詞關聯(lián)重要性的衡量,說明它在語料t中有多大的代表性。但本發(fā)明研究是要找出語料中所有重復出現(xiàn)單詞關聯(lián),而不關心這個單詞關聯(lián)在語料中的重要性。因此,我們將frequency(s)>2(minfreq=2)的模式都選為頻繁模式,再評價wi-1→wi的置信度confidence(wi-1→wi)來選取可信頻繁模式。置信度confidence(wi-1→wi)是指上文wi-1出現(xiàn)的情況下,其下文出現(xiàn)wi的后驗概率,是對單詞關聯(lián)wi-1→wi的準確度的衡量。當confidence(wi-1→wi)>minconf時,可確定s=(wi-1wi)是一個可信頻繁模式。計算公式如下:假如,對于語料t中頻繁模式s=(wi-1wi)有:freq(wi-1)=100,freq(wi-1wi)=10,freq(wi)=10,則由公式(1)計算得出confidence(s)=0.1,因為置信度過小,模式s很可能被過濾掉。但是,我們觀察s的下文wi,就發(fā)現(xiàn)它與上文wi-1的100%的并發(fā)率,很明確s是個可信頻繁模式。針對這種情況,我們再引入了一個評價指標,稱為逆置信度。定義3:逆置信度(r-confidence)是指單詞關聯(lián)wi-1→wi的下文(后件)wi出現(xiàn)的情況下,其上文是wi-1的條件概率,其計算公式如下:評價上例中s的逆置信度,由公式(2)計算得到r-confidence(s)=1,因此頻繁模式s以極高的準確度被選為可信頻繁模式。據(jù)此,我們定義可信頻繁模式的評價準則。定義4:對于語料t中的一個頻繁模式s,如confidence(s)>minconf或r-confidence(s)>minconf,則可確定s為可信頻繁模式(tfp)。2.2頻繁模式發(fā)現(xiàn)中的語言規(guī)則:本發(fā)明研究中,我們發(fā)現(xiàn)以下語言特性對于文本中關聯(lián)模式的識別非常有用。特性1:維吾爾文中的助詞(等)、連詞(等)、副詞(等)、量詞(等)、代詞(等)以及感嘆詞(等)等功能詞,在文本中始終不跟其他單詞結合成為語義串。本發(fā)明研究中,我們將這些詞稱為“獨立詞”(independentword:iw)。特性2:維吾爾文單詞間的結合主要是在名詞(n),形容詞(adj)和動詞(v)之間發(fā)生。其中,當形容詞與名詞或與動詞結合時,形容詞總是作為前驅,而不會出現(xiàn)在后繼位置。因此,n+adj或v+adj關系的相鄰單詞絕不可能結合構成一個語義串。根據(jù)以上語言特性1和特性2,歸納出用于詞間關聯(lián)識別的單詞結合規(guī)則(wordassociationrule:war)并定義如下:定義5(單詞結合規(guī)則:war):對于文本中的相鄰詞對“ab”,如成立條件:a∈{iw}orb∈{iw}orb∈{adj},則判斷a與b不能結合成為關聯(lián)模式。2.3頻繁模式發(fā)現(xiàn)過程本發(fā)明頻繁模式發(fā)現(xiàn)是對n元遞增算法的改進,根據(jù)主要思路及所采取的文本表示模型,大規(guī)模文本中維吾爾文頻繁模式發(fā)現(xiàn),是按照以下步驟進行。(1)建索引。對于經過預處理的文本集,首先按單詞在文本中出現(xiàn)的順序建立詞典,然后對于生成的單詞id序列建詞索引。對于只有6個單詞的文本“abcf#efceabcfd#efcadfecdabcfacd#”(#是標點符號),建詞索引如圖2所示。(2)串擴展及頻繁模式發(fā)現(xiàn)。一開始,讓所有單詞(id)進入一個隊列中,然后根據(jù)每個單詞的索引信息從每個單詞擴展得到其二詞或三詞串,讓該單詞出隊并將新產生的擴展串入隊,繼續(xù)從n詞串擴展到n+1詞或n+2詞串,反復迭代,直到隊列為空。串擴展候選單詞索引及隊列初始狀態(tài)如圖3所示。假定xy是文本中相鄰的兩個單詞(或串),x是y的右鄰接詞(上文),y是x的左鄰接詞(下文),要進行x→xy的擴展,則要滿足以下條件:①x不是停用詞,即is_stop(x)=0;②x是頻繁模式,即freq(x)>=2;③y不是停用詞或形容詞,即is_adj(y)=0且is_stop(y)=0;④y是頻繁模式,即freq(y)>=2;⑤xy是可信頻繁模式,即confidence(x→y)>minconf且r-confidence(x→y)>minconf;當隊頭單詞a出隊后,因為a具備條件①和②,因此從二級索引中讀取a的左鄰接列表,然后根據(jù)條件③④⑤依次判斷a跟其每一個左鄰接(下文)詞構成新串的可能性。本例中,a的第一個左鄰接b具備條件③和④,同時a與b構成的擴展串ab也具備條件⑤,因此將新產生的串ab入隊,同時將它信息追加到索引中,然后判斷a跟其下一個左鄰接詞c的關聯(lián)強度,依次判斷并進行從單詞到二詞擴展,直到a的所有左鄰接詞都被訪問完為止(a與c和d都不能結合)。此時,擴展候選隊列及索引變化情況如圖4所示。之后,讓當前對頭單詞b出隊,因為b已跟a結合,就不再進行擴展,然后是c出隊。就這樣,依次對每一個單詞進行二詞或三詞擴展,同時將新產生的二詞或三詞串作為可信頻繁模式入隊,等待繼續(xù)被擴展。所有單詞都被訪問完之后,隊列及索引變化情況如圖5所示。等所有單詞的二詞或三詞串擴展進行完畢,就接著進入從候選串擴展更長串的過程,直到串擴展候選隊列為空,此時,頻繁模式發(fā)現(xiàn)過程就結束??傮w流程如圖6所示。2.4串完整性評價及語義串抽取如果一個串能成為語義串,那么它在結構、語用、語義以及統(tǒng)計上應該滿足一定的特點。一般情況下,通過頻繁模式發(fā)現(xiàn)得到的結果只能滿足可統(tǒng)計性要求,稱為語義串候選,這還需要采用上下文鄰接分析或語言模型分析等方法進行進一步甄別和過濾。本發(fā)明研究中,判斷語義串候選結構完整性,我們的方法與中文有所不同。主要原因如下:1)中文常用功能字會跟其它漢字構成實詞,如“的士”等。因此,對于串首(串尾)出現(xiàn)功能字的情況,就需要判斷串首(串尾)字對雙字耦合度和首字詞首(詞尾)成詞概率。另外,不是所有的漢字都能作為詞首或詞尾,因此可以根據(jù)單字位置成詞概率來判斷串首和串尾,可以有效過濾垃圾串。但維吾爾文與中文不同,首先維吾爾文功能詞不會跟其它詞結合構成新詞。另外,維吾爾文中的詞本來就是一個獨立運用的語言單位,詞在串首、串尾位置用法沒有特有規(guī)律(形容詞除外)。2)維吾爾文語義串抽取中,我們也可以與中文類似的方法去判斷串首和串尾“雙詞”耦合度,這對于垃圾串的過濾肯定會有一定的幫助。但是,這就需要大量學習語料、人工標注并構建雙詞耦合度詞典,而本發(fā)明研究目的是無監(jiān)督學習的語義串抽取方法。3)關于語言模型的分析方法,本算法又是引入單詞結合規(guī)則,并將它嵌入到頻繁模式發(fā)現(xiàn)過程中,因而有效避免串尾出現(xiàn)形容詞的垃圾串產生的情況,減輕了垃圾串過濾任務。因此,本發(fā)明主要是根據(jù)上下文鄰接特征來判斷每一個語義串候選的結構完整性。中文相關研究結果表明,采用鄰接熵的結果比其它三種鄰接特征量(鄰接種類,鄰接對種類,鄰接對熵)的結果好。因此,我們用以下計算公式為每一個候選語義串賦權重:aeweight(s)=min(lae(s),rae(s))(3)其中,aeweight(s)是串s的鄰接熵(adjacencyentropy:ae)權重,lae(s)是串s的左鄰接熵,rae(s)是其右鄰接熵。左(右)鄰接熵計算公式為:其中,m是串s的左鄰接種類數(shù),ni是串s的第i個左鄰接的頻次,所有左鄰接頻次總和為n,計算鄰接特征量所需要的全部信息早在它們被發(fā)現(xiàn)時記錄好并存入索引中。最后,依次輸出鄰接特征量達到閾值的頻繁模式,那就是最終要得到語義串。流程如圖7所示。3、實驗設計與結果分析3.1實驗語料本實驗數(shù)據(jù)是來自新疆大學智能信息處理重點實驗室提供的文本語料,根據(jù)不同實驗目的準備如下實驗語料:1)單文檔小語料(singledocumentcorpus:sdc):2014年新疆維吾爾自治區(qū)兩會政府工作報告(維吾爾文,144k)。1)小規(guī)模預料(smallscalecorpus:ssc):從各類網站收集3000個文檔,大小為23.2m。2)大規(guī)模預料(largescalecorpus:lsc):從國內維吾爾文網站采集(采集時間介于2013年9月23日到2014年8月18日之間)并格式化后的112379個純文本,大小為739m。3.2評價標準本發(fā)明提出的維吾爾文語義串抽取方法是建立在頻繁模式統(tǒng)計的基礎上,因此我們設計的評價指標是以頻次統(tǒng)計而獲取的頻繁模式串為基準的,這樣才能較準確的評價垃圾串過濾效率,同時還能減輕計算召回率的耗費。當然,頻繁模式發(fā)現(xiàn)中的最小置信度minconf和最小頻次minfreq也會影響最后語義串抽取效率。本發(fā)明將minfreq取2,對于minconf最佳取值下的實驗結果進行評價,主要使用的評價指標有:其中,p@n是用來評價大規(guī)模預料實驗結果的指標,是拿前n個結果的準確率來評價實驗正確率。3.3實驗結果及分析實驗1:觀察最小置信度閾值不同取值及可信頻繁模式發(fā)現(xiàn)效率:分別在語料sdc和ssc上觀察minconf不同取值對頻繁模式發(fā)現(xiàn)效率的影響,并根根unit_count>1的頻繁模式總數(shù)及其中的可作為語義串的可信頻繁模式總數(shù)來計算各評價指標,從而為本發(fā)明實驗確定串擴展準確率最高時的minconf閾值。結果如圖8a、圖8b所示。從不同minconf閾值下的頻繁模式發(fā)現(xiàn)準確率和召回率變化情況看出,當minconf=0.4時,得到了最好的識別效率。因此,我們確定minconf=0.4為閾值進行后續(xù)試驗和分析。實驗2:對比使用不同策略情況下的識別效率:上下文鄰接分析,單詞結合規(guī)律和獨立詞隔離是維吾爾文語義串識別過程中的三個不同策略。為了觀察它們對語義串識別效率的影響,我們采用不同策略的組合在語料ssc上分別做實驗,不同策略組合及實驗結果如表1所示。表1中,fpf指頻繁模式發(fā)現(xiàn)(frequentpatternfind),ca是上下文鄰接分析(contextanalysis),war指單詞結合規(guī)則(wordassociationrule),iwi指獨立詞隔離(independentwordisolation)。表1序號實驗策略頻繁模式語義串準確率召回率f-measure1fpf153632337156124.4%2fpf+iwi75243141418255.5%3fpf+war89562987337846.9%4fpf+ca114872337206130.6%5fpf+war+72712987417854.0%6fpf+iwi+70973141448257.7%7fpf+iwi+45943792821090.4%8fpf+iwi+42573792891094.2%我們再把頻繁模式(fpf)抽取結果作為實驗基準,分析了不同策略單獨使用或組合策略情況下的實驗結果,如圖9a、圖9b所示。從圖9(a)中f值來看,策略2是最有效的,這就表明我們在頻繁模式發(fā)現(xiàn)過程中引入的獨立詞隔離策略起到了作用,有效避免了大量垃圾串的產生;單詞結合規(guī)則比上下文鄰接分析有效,因為使用單詞結合規(guī)則同樣避免了錯誤的串擴展而產生的垃圾串。從圖9(b)中可以看出,在頻繁模式發(fā)現(xiàn)階段串擴展判斷中使用的兩種策略對語義串發(fā)現(xiàn)效率的影響最大,在此階段就已經達到了相當高的識別準確率和召回率,這就表明這兩種策略完全符合維吾爾文語言文字特性。我們還采用逐步增加策略的方式觀察識別效率的變化情況,實驗結果如圖10所示??梢钥闯?,每一步增加策略各個評價指標一直都是上升的趨勢,說明每一種策略都在起作用。在頻繁模式發(fā)現(xiàn)階段引入獨立詞隔離策略,縮短處理時間的同時避免了大量垃圾串的產生,在此基礎上使用單詞結合規(guī)則進一步排出了以上情況的發(fā)生,最后使用上下文鄰接分析策略再過濾少量垃圾串而得到了較高的準確率。實驗3:大規(guī)模語料上的實驗:在大規(guī)模語料lsc上做實驗,得到unit_count>1的語義串個數(shù)為166334個,圖11中顯示結果集n從100增大到1500時,分別按鄰接熵和頻次排序時的p@n的變化情況。從圖11中可以發(fā)現(xiàn),將鄰接熵作為權重排序比按頻次排序有效,這就反映了上下文鄰接變化多樣性是語義串的固有屬性。從結果上看,n從100增加到1500過程中,準確率一直在97%以上,基本接近于實用化的水平,說明了本發(fā)明提出的方法對于大規(guī)模語料是更有效的。只從某一條曲線變化情況來分析,呈現(xiàn)出了穩(wěn)步下降的趨勢,隨著n的增加p@n逐漸降低,是因為排序越靠后的模式串成為語義串的可能性就越小,準確率也自然越低。淺層語言分析的方法能夠抽取語言表層之下的特定關鍵信息,其時間效率、分析結果的準確性和系統(tǒng)的實用性等方面較能滿足海量文本處理需求。因此,本發(fā)明研究一種基于淺層語言分析的維吾爾文語義串快速抽取方法。設計了一種多層動態(tài)索引結構,符合于大規(guī)模文本的表示及語義串抽取過程中的動態(tài)性和可擴展性需求。引入了維吾爾文獨立詞隔離及單詞結合規(guī)則等語言特性,提出了一種基于n元遞增算法的詞串擴展及可信頻繁模式發(fā)現(xiàn)算法,模式串結構完整性評價方法和權重計算方法等。經過幾個實驗來分別驗證了本發(fā)明提出的方法在規(guī)模不同的語料上都是有效的,在單文檔小語料上的實驗準確率達到了76.3%,小規(guī)模語料上的實驗準確率達到89.1%,在大規(guī)模語料上的實驗p@n(n為1500)結果超過98%。本發(fā)明提出的語義串抽取方法不僅可以應用到維吾爾文文本挖掘中,還能應用到哈薩克文、柯爾克孜文等同語系語言文本挖掘中。以上是本發(fā)明的優(yōu)選實施方式,應當指出,對于本
技術領域:
的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。當前第1頁12