本發(fā)明涉及一種基于管道的中文篇章結(jié)構(gòu)分析方法及系統(tǒng),屬于自然語(yǔ)言處理應(yīng)用技術(shù)領(lǐng)域。
背景技術(shù):
一般來(lái)說(shuō),沒(méi)有任何一個(gè)文本單元是完全孤立的,通常是通過(guò)將其與上下文中的其它文本單元相連接來(lái)理解。這些單元可以是子句,句子甚至段落。當(dāng)文本單元之間相互關(guān)聯(lián),該文本就會(huì)更容易理解。篇章結(jié)構(gòu)分析旨在揭示文本中的這種關(guān)系,從而從整體上把握篇章,有助于自動(dòng)摘要,信息檢索和自動(dòng)問(wèn)答等諸多下游應(yīng)用。近年來(lái),相較于英文篇章結(jié)構(gòu)分析研究的飛速發(fā)展,中文篇章結(jié)構(gòu)分析目前正處于起步階段。目前對(duì)中文篇章的研究多是借鑒西方現(xiàn)代篇章語(yǔ)言學(xué)理論和分析模式,沒(méi)有建立適合自身特點(diǎn)的理論體系和計(jì)算方法。除此以外,由于中文篇章結(jié)構(gòu)分析發(fā)展的滯后,完整的中文篇章結(jié)構(gòu)自動(dòng)分析工具的研究與實(shí)踐都相對(duì)匱乏。一般來(lái)說(shuō),中文篇章關(guān)系分析系統(tǒng)在結(jié)構(gòu)上與英文篇章關(guān)系分析系統(tǒng)類(lèi)似,都需要以下步驟:顯式連接詞判定、基本篇章單元?jiǎng)澐?、顯式篇章關(guān)系標(biāo)注和隱式篇章關(guān)系標(biāo)注。在傳統(tǒng)的方法中,篇章分析系統(tǒng)將以上步驟視為不同的子模塊,按照級(jí)聯(lián)的形式將各個(gè)子模塊拼接在一起形成完整的管道式系統(tǒng)。這種管道系統(tǒng)的弊端在于其存在較大的錯(cuò)誤傳遞問(wèn)題,連接詞識(shí)別中的噪聲往往會(huì)影響連接詞識(shí)別的準(zhǔn)確率,導(dǎo)致連接詞判定模塊會(huì)將錯(cuò)誤的連接詞傳遞給后續(xù)的篇章單元?jiǎng)澐旨帮@式關(guān)系標(biāo)注,從而導(dǎo)致系統(tǒng)整體性能下降。
隱式篇章關(guān)系的判別是篇章結(jié)構(gòu)分析中的重點(diǎn)及難點(diǎn),從篇章標(biāo)注語(yǔ)料匱乏時(shí)期的無(wú)監(jiān)督學(xué)習(xí),到如今基于深度學(xué)習(xí)的方法,針對(duì)隱式篇章關(guān)系分析的研究逐步深入。然而,不論是基于特征提取的隱式篇章關(guān)系判別還是基于深度學(xué)習(xí)的方法,隱式關(guān)系判別中存在的標(biāo)注語(yǔ)料匱乏和篇章關(guān)系分布不平衡的問(wèn)題依然沒(méi)得到緩解。
因此,目前迫切需要一個(gè)較為高效的中文篇章結(jié)構(gòu)分析方法,在緩解傳統(tǒng)端到端系統(tǒng)中存在的錯(cuò)誤傳遞問(wèn)題的同時(shí),針對(duì)篇章語(yǔ)料中篇章關(guān)系分布不平衡問(wèn)題提出有效的緩解方法,以提升隱式篇章關(guān)系判別的性能,最終為后續(xù)自然語(yǔ)言處理任務(wù)帶去便利。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為解決以往中文篇章結(jié)構(gòu)分析中存在的傳統(tǒng)端到端系統(tǒng)的方法沒(méi)有考慮中文語(yǔ)言特點(diǎn)的問(wèn)題,傳統(tǒng)管道系統(tǒng)方法中錯(cuò)誤傳遞問(wèn)題,中文隱式篇章關(guān)系判別中語(yǔ)料分布不平衡問(wèn)題。針對(duì)上述問(wèn)題,本發(fā)明提出基于管道的中文篇章結(jié)構(gòu)分析方法,根據(jù)中文篇章結(jié)構(gòu)的特點(diǎn),實(shí)現(xiàn)對(duì)動(dòng)態(tài)特征的建模用以提高關(guān)系判別準(zhǔn)確率。與傳統(tǒng)端到端系統(tǒng)不同的是,本發(fā)明提出了一體化顯式篇章關(guān)系分析方法以緩解管道系統(tǒng)中存在的錯(cuò)誤傳遞問(wèn)題,與此同時(shí),針對(duì)中文隱式篇章關(guān)系語(yǔ)料的不平衡問(wèn)題,本發(fā)明提出了基于排序?qū)W習(xí)的中文隱式篇章關(guān)系分析方法以提升中文隱式篇章關(guān)系判別精度。
本發(fā)明技術(shù)方案的思想是:首先,根據(jù)中文篇章語(yǔ)料庫(kù)具有層次性這個(gè)特點(diǎn),以自然段為單元,自下而上的分別處理句內(nèi)和句間關(guān)系,使得預(yù)測(cè)句間或更高層次篇章關(guān)系時(shí)可以動(dòng)態(tài)地利用已識(shí)別的句內(nèi)關(guān)系,以此做到對(duì)動(dòng)態(tài)特征的建模;其次,將傳統(tǒng)端到端系統(tǒng)中的顯式篇章關(guān)系分析中的三個(gè)子任務(wù):篇章連接詞判定、論元?jiǎng)澐趾惋@式關(guān)系判別整合為一個(gè)任務(wù),轉(zhuǎn)化為一個(gè)序列標(biāo)注問(wèn)題并加以實(shí)現(xiàn),緩解了傳統(tǒng)管道系統(tǒng)中的錯(cuò)誤傳遞問(wèn)題;最后,采用排序?qū)W習(xí)的方法平衡隱式篇章關(guān)系語(yǔ)料,以簡(jiǎn)單多分類(lèi)結(jié)果中各關(guān)系的偏離情況作為基礎(chǔ)打分規(guī)則,論元長(zhǎng)度為偏置,將傳統(tǒng)二分類(lèi)中的0、1標(biāo)簽變更為0-1之間的實(shí)數(shù)標(biāo)簽,采用pairwise算法實(shí)現(xiàn)。
本發(fā)明的具體技術(shù)方案如下:
一種基于管道的中文篇章結(jié)構(gòu)分析方法,該方法包括以下步驟:
步驟一、進(jìn)行語(yǔ)料預(yù)處理:對(duì)輸入的語(yǔ)料,進(jìn)行中文分詞、中文詞性標(biāo)注、句法分析;
步驟二、進(jìn)行篇章連接詞閉集構(gòu)建:統(tǒng)計(jì)中文篇章關(guān)系樹(shù)庫(kù)(chinesediscousetreebank,cdtb)語(yǔ)料中所出現(xiàn)過(guò)的所有篇章連接詞,將其制成一個(gè)篇章連接詞表,在構(gòu)建過(guò)程中僅保留在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)高于設(shè)定頻次閾值的篇章連接詞,最終形成連接詞閉集;
步驟三、進(jìn)行詞的embedding表示:使用大規(guī)模語(yǔ)料庫(kù)訓(xùn)練word2vec,將每個(gè)單詞映射到向量空間的低維向量,從而表示每個(gè)單詞的語(yǔ)義;
步驟四、構(gòu)建一體化顯式篇章分析模型:對(duì)步驟一處理過(guò)的分詞文本進(jìn)行序列標(biāo)注的訓(xùn)練得到顯式篇章一體化分析模型,在該模型中可同時(shí)完成篇章連接詞識(shí)別、論元?jiǎng)澐忠约捌玛P(guān)系標(biāo)注三項(xiàng)任務(wù);
實(shí)現(xiàn)步驟如下:
(1)首先設(shè)定標(biāo)注集合,在一體化顯式關(guān)系標(biāo)注中,需要同時(shí)對(duì)連接詞、論元以及篇章關(guān)系進(jìn)行標(biāo)注,所以設(shè)定標(biāo)注分類(lèi)為:
1)arg1:該詞為論元1的一部分。
2)arg2:該詞為論元2的一部分。
3)expansion:該詞為篇章連接詞,且該句為擴(kuò)展關(guān)系。
4)temporal:該詞為篇章連接詞,且該句為時(shí)序關(guān)系。
5)comparison:該詞為篇章連接詞,且該句為轉(zhuǎn)折關(guān)系。
6)contingency:該詞為篇章連接詞,且該句為因果關(guān)系。
7)0:該詞既不為篇章連接詞,也不屬于任何論元的部分。
(2)提取上下文特征以用于分類(lèi)器的訓(xùn)練及測(cè)試,所提特征為詞法特征和句法特征;
(3)將上述步驟中獲得的數(shù)據(jù)輸入到crf++工具中,參數(shù)采用默認(rèn)參數(shù)值,得到顯式關(guān)系分析結(jié)果,輸出至explicitrelation文件中。
步驟五、進(jìn)行有用詞對(duì)抽?。涸谟?xùn)練語(yǔ)料的論元中分別抽取一詞作為詞對(duì),統(tǒng)計(jì)各詞在各篇章類(lèi)別中的信息增益值大小,選取高于閾值的詞對(duì)構(gòu)建有用詞對(duì)表;
步驟六、構(gòu)建排序語(yǔ)料打分機(jī)制:對(duì)于正樣本,設(shè)定其標(biāo)簽為1;對(duì)于負(fù)樣本,按照其偏離正樣本的程度對(duì)其進(jìn)行打分,分?jǐn)?shù)范圍為0-1之間的實(shí)數(shù),得到分類(lèi)語(yǔ)料;
步驟七、構(gòu)建基于排序?qū)W習(xí)的隱式篇章關(guān)系分類(lèi)器:將步驟六中的得到的語(yǔ)料輸入分類(lèi)器中最終得到打分預(yù)判結(jié)果。
步驟八、識(shí)別完成:將所得到的結(jié)果進(jìn)行輸出,輸出文件中包含篇章連接詞、論元以及篇章關(guān)系類(lèi)別。
一種基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng),包括:
預(yù)處理模塊:對(duì)于輸入的語(yǔ)料,進(jìn)行包括中文分詞、中文詞性標(biāo)注以及句法分析,分別將處理結(jié)果存入三個(gè)中間文件,以供連接詞識(shí)別模塊、句內(nèi)關(guān)系處理模塊及句間關(guān)系處理模塊調(diào)用;
連接詞識(shí)別模塊:輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件、中文詞性標(biāo)注文件、句法分析文件,其中,中文詞性標(biāo)注及句法分析文件用于連接詞分類(lèi)過(guò)程中特征的提取。該模塊將中文分詞文件中的單詞進(jìn)行連接詞的識(shí)別,并將識(shí)別后的連接詞進(jìn)行分類(lèi),將其分為句內(nèi)連接詞及句間連接詞,按照其類(lèi)別分別輸出為兩個(gè)中間文件,并分別供句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊調(diào)用;
句內(nèi)關(guān)系處理模塊:輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件及連接詞識(shí)別模塊處理后的句內(nèi)連接詞文件。該模塊內(nèi)部包括句內(nèi)顯式篇章分析模塊及句內(nèi)隱式篇章分析模塊,其中,句內(nèi)顯式篇章分析模塊用于句內(nèi)顯式論元提取及句內(nèi)顯式關(guān)系判別,其輸入與句內(nèi)關(guān)系處理模塊的輸入一致,輸出為句內(nèi)顯式篇章分析文件,文件中包含有句內(nèi)連接詞識(shí)別結(jié)果、句內(nèi)顯式論元判別結(jié)果、句內(nèi)顯式關(guān)系判別結(jié)果;句內(nèi)隱式篇章分析模塊用于句內(nèi)隱式論元提取及句內(nèi)隱式關(guān)系判別,其輸入除了句內(nèi)關(guān)系處理模塊的輸入以外,還包含了句內(nèi)顯式篇章分析文件,輸出為句內(nèi)隱式篇章分析文件,文件中包含有句內(nèi)隱式論元判別結(jié)果及句內(nèi)隱式關(guān)系判別結(jié)果。該模塊兩個(gè)輸出文件流向句間關(guān)系處理模塊及輸出模塊。
句間關(guān)系處理模塊:輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件、連接詞識(shí)別模塊處理后的句間連接詞文件、句內(nèi)關(guān)系處理模塊處理后的句內(nèi)顯式篇章分析文件及句內(nèi)隱式篇章分析文件。該模塊內(nèi)部包括句間顯式篇章分析模塊及句間隱式篇章分析模塊,其中,句間顯式篇章分析模塊用于句間顯式論元提取及句間顯式關(guān)系判別,其輸入與句間關(guān)系處理模塊的輸入一致,輸出為句間顯式篇章分析文件,文件中包含有句間連接詞識(shí)別結(jié)果、句間顯式論元判別結(jié)果、句間顯式關(guān)系判別結(jié)果;句間隱式篇章分析模塊用于句間隱式論元提取及句間隱式關(guān)系判別,其輸入除了句間關(guān)系處理模塊的輸入以外,還包含了句間顯式篇章分析文件,輸出為句間隱式篇章分析文件,文件中包含有句間隱式論元判別結(jié)果及句間隱式關(guān)系判別結(jié)果。該模塊的兩個(gè)輸出文件流向輸出模塊。
輸出模塊:輸入句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊處理后的文件。最終輸出為一個(gè)文件,該文件中包含有對(duì)于輸入文檔的篇章結(jié)構(gòu)分析結(jié)果。
有益效果
對(duì)比現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
(1)以中文篇章結(jié)構(gòu)分析為出發(fā)點(diǎn),本發(fā)明彌補(bǔ)了現(xiàn)有研究中完整的中文篇章結(jié)構(gòu)自動(dòng)分析工具缺失的問(wèn)題,并根據(jù)中文篇章結(jié)構(gòu)的特點(diǎn)進(jìn)行了針對(duì)性設(shè)計(jì),使系統(tǒng)能夠完成動(dòng)態(tài)特征的建模;
(2)通過(guò)一體化顯式關(guān)系分析方法,緩解了傳統(tǒng)管道中存在的錯(cuò)誤傳遞問(wèn)題,全面提升了各項(xiàng)子模塊的性能;
(3)對(duì)于隱式篇章關(guān)系判別中存在的語(yǔ)料分布不平衡的現(xiàn)象,通過(guò)排序?qū)W習(xí)的思想對(duì)其進(jìn)行有效的緩解,提升了關(guān)系判別精度。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例提供的方法及系統(tǒng)架構(gòu)圖。
圖2為本發(fā)明實(shí)施例提供的基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng)中句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明提供的一種基于管道的中文篇章結(jié)構(gòu)分析方法及裝置作進(jìn)一步詳細(xì)說(shuō)明。
本發(fā)明實(shí)施例提供的一種基于管道的中文篇章結(jié)構(gòu)分析方法架構(gòu)如圖1所示,具體實(shí)現(xiàn)過(guò)程如下:
根據(jù)步驟一,進(jìn)行語(yǔ)料預(yù)處理,實(shí)現(xiàn)步驟如下:
(1)對(duì)于輸入文本,使用fudannlp進(jìn)行中文分詞以及詞性標(biāo)注,所得結(jié)果分別保存在文件raw和文件pos作為后續(xù)使用;
(2)對(duì)于輸入文本,使用stanfordparser進(jìn)行句法分析,分析后結(jié)果存入parser文件以供后續(xù)使用。
根據(jù)步驟二,進(jìn)行篇章連接詞閉集的構(gòu)建,實(shí)現(xiàn)步驟如下:
(1)統(tǒng)計(jì)cdtb語(yǔ)料中所有出現(xiàn)過(guò)的篇章連接詞,以及每個(gè)連接詞出現(xiàn)的次數(shù),將結(jié)果存入連接詞詞表文件中;
(2)對(duì)于(1)中的每一個(gè)連接詞,剔除出現(xiàn)次數(shù)低于10次的篇章連接詞,最終形成一個(gè)僅包含141個(gè)篇章連接詞的連接詞閉集,結(jié)果存入篇章連接詞閉集文件中。
根據(jù)步驟三,進(jìn)行詞的embedding表示,實(shí)現(xiàn)步驟如下:
(1)獲取訓(xùn)練語(yǔ)料,獲取新華社中文新聞?wù)Z料2.21gb,在每一句最后加入句子結(jié)尾標(biāo)記<end>,作為后續(xù)輸入;
(2)使用word2vec工具訓(xùn)練詞向量,選擇cbow模型,輸出維度為200,學(xué)習(xí)率設(shè)置為1e-3,窗口大小設(shè)置為5,訓(xùn)練之后得到詞向量文件。
根據(jù)步驟四,構(gòu)建一體化顯式篇章分析模型,實(shí)現(xiàn)步驟如下:
(1)首先設(shè)定標(biāo)注集合,在一體化顯式關(guān)系標(biāo)注中,需要同時(shí)對(duì)連接詞、論元以及篇章關(guān)系進(jìn)行標(biāo)注,所以設(shè)定標(biāo)注分類(lèi)為:
1)arg1:該詞為論元1的一部分。
2)arg2:該詞為論元2的一部分。
3)expansion:該詞為篇章連接詞,且該句為擴(kuò)展關(guān)系。
4)temporal:該詞為篇章連接詞,且該句為時(shí)序關(guān)系。
5)comparison:該詞為篇章連接詞,且該句為轉(zhuǎn)折關(guān)系。
6)contingency:該詞為篇章連接詞,且該句為因果關(guān)系。
7)0:該詞既不為篇章連接詞,也不屬于任何論元的部分。
(2)提取上下文特征以用于分類(lèi)器的訓(xùn)練及測(cè)試,所提特征為詞法特征和句法特征,具體的特征為:
(3)將上述步驟中獲得的數(shù)據(jù)輸入到crf++工具中,參數(shù)采用默認(rèn)參數(shù)值,得到顯式關(guān)系分析結(jié)果,輸出至explicitrelation文件中。
根據(jù)步驟五,進(jìn)行有用詞對(duì)的抽取,實(shí)現(xiàn)步驟如下:
(1)設(shè)置訓(xùn)練語(yǔ)料集合t的隱式篇章關(guān)系數(shù)為n,某個(gè)類(lèi)別的數(shù)量用ni表示,其中i∈{1,2,3,4},分別為comparison,contingency,expansion和temporal,
(2)遍歷訓(xùn)練語(yǔ)料集合t,針對(duì)每一詞對(duì)t,分別統(tǒng)計(jì)出現(xiàn)在對(duì)應(yīng)類(lèi)別的隱式篇章關(guān)系的頻數(shù)ti,i∈{1,2,3,4};
(3)計(jì)算對(duì)應(yīng)詞對(duì)的信息增益值,計(jì)算公式如下:
其中,ig(t)表示詞對(duì)t的信息增益值,h(n)表示類(lèi)別n的熵,h(n|t)表示條件熵。針對(duì)每一詞對(duì),均可計(jì)算出該詞對(duì)對(duì)于隱式篇章關(guān)系分類(lèi)的貢獻(xiàn)程度,將所有詞對(duì)按照信息增益值大小排序,選取ig(t)值不小于1e-5的詞對(duì)構(gòu)成有用詞對(duì)集合t'。
根據(jù)步驟六,構(gòu)建排序語(yǔ)料打分機(jī)制,其實(shí)現(xiàn)步驟如下:
(1)首先使用傳統(tǒng)四分類(lèi)的方法對(duì)各類(lèi)關(guān)系進(jìn)行偏差統(tǒng)計(jì):提取語(yǔ)料中各論元的詞對(duì)特征,用步驟五中的有用詞對(duì)表進(jìn)行有用詞對(duì)的篩選,并用步驟三中的詞向量表將詞對(duì)轉(zhuǎn)化為詞對(duì)向量,使用svm分類(lèi)得到四分類(lèi)結(jié)果;
(2)統(tǒng)計(jì)在cdtb語(yǔ)料中四類(lèi)篇章關(guān)系的論元平均長(zhǎng)度,將四類(lèi)關(guān)系分別存入四個(gè)不同的文件中,分別遍歷得到結(jié)果以供后續(xù)使用;
(3)對(duì)于(1)中所得分類(lèi)結(jié)果,按照其偏離程度分別設(shè)定偏離的基礎(chǔ)分,并采用(2)中的結(jié)果對(duì)偏離基礎(chǔ)分進(jìn)行修正,以完成對(duì)訓(xùn)練樣本的構(gòu)造。
根據(jù)步驟七,進(jìn)行基于排序?qū)W習(xí)的隱式篇章關(guān)系分類(lèi)器的構(gòu)建,具體過(guò)程為:
(1)提取論元的相關(guān)特征,包括顯式篇章關(guān)系結(jié)果、論元長(zhǎng)度特征、有用詞對(duì)數(shù)量特征、有用詞對(duì)特征及句法特征;
(2)使用上述步驟六中的打分機(jī)制對(duì)(1)中的語(yǔ)料進(jìn)行打分,構(gòu)建訓(xùn)練語(yǔ)料;
(3)輸入至svmrank工具中進(jìn)行訓(xùn)練,得到模型,并使用該模型對(duì)測(cè)試語(yǔ)料進(jìn)行打分;
(4)選取打分高于0.8分的樣本為正樣本,低于0.8分的樣本為負(fù)樣本,得到分類(lèi)結(jié)果,并輸出至implicitrelation文件中。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例中還提供了一種基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng),由于該裝置解決問(wèn)題的原理與前述一種基于管道的中文篇章結(jié)構(gòu)分析方法相似,因此該裝置的實(shí)施可以參見(jiàn)方法的實(shí)施,重復(fù)之處不再贅述。
本發(fā)明實(shí)施例提供的一種基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng),包括:
預(yù)處理模塊:對(duì)于輸入的語(yǔ)料,對(duì)其進(jìn)行包括中文分詞、中文詞性標(biāo)注以及句法分析,分別將處理結(jié)果存入三個(gè)中間文件raw、pos、parser以供連接詞識(shí)別模塊、句內(nèi)關(guān)系處理模塊及句間關(guān)系處理模塊調(diào)用;
連接詞識(shí)別模塊:用于連接詞的識(shí)別及初分。該模塊的輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件raw、中文詞性標(biāo)注文件pos、句法分析文件parser,其中pos和parser文件用于連接詞分類(lèi)過(guò)程中特征的提取。該模塊將中文分詞文件中的單詞進(jìn)行連接詞的識(shí)別,并將識(shí)別后的連接詞進(jìn)行分類(lèi),將其分為句內(nèi)連接詞及句間連接詞,按照其類(lèi)別分別輸出為兩個(gè)中間文件ss和ps,并分別供句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊調(diào)用;
句內(nèi)關(guān)系處理模塊:用于句內(nèi)篇章結(jié)構(gòu)分析。該模塊的輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件raw及連接詞識(shí)別模塊處理后的句內(nèi)連接詞文件ss。該模塊內(nèi)部包括句內(nèi)顯式篇章分析模塊及句內(nèi)隱式篇章分析模塊,其中句內(nèi)顯式篇章分析模塊用于句內(nèi)顯式論元提取及句內(nèi)顯式關(guān)系判別,其輸出為句內(nèi)顯式關(guān)系處理文件explicit_ss,文件中包含有句內(nèi)連接詞識(shí)別結(jié)果、句內(nèi)顯式論元判別結(jié)果、句內(nèi)顯式關(guān)系判別結(jié)果;句內(nèi)隱式篇章分析模塊用于句內(nèi)隱式論元提取及句內(nèi)隱式關(guān)系判別,其輸出為句內(nèi)隱式關(guān)系處理文件implicit_ss,文件中包含有句內(nèi)隱式論元判別結(jié)果及句內(nèi)隱式關(guān)系判別結(jié)果。
所述句內(nèi)關(guān)系處理模塊,如圖2所示,其句內(nèi)顯式篇章關(guān)系判別的結(jié)果作為輸入流向句內(nèi)隱式篇章分析模塊,同時(shí)地,句內(nèi)關(guān)系處理模塊中句內(nèi)顯式篇章關(guān)系判別結(jié)果以及句內(nèi)隱式篇章關(guān)系判別結(jié)果均作為輸入流向句間關(guān)系處理模塊。
進(jìn)一步地,本發(fā)明實(shí)施例提供的基于管道的中文篇章結(jié)構(gòu)分析裝置,還包括句間關(guān)系處理模塊。
句間關(guān)系處理模塊:用于句間篇章結(jié)構(gòu)分析。該模塊的輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件raw、連接詞識(shí)別模塊處理后的句間連接詞文件ps、句內(nèi)關(guān)系處理模塊處理后的句內(nèi)顯式篇章分析文件explicit_ss及句內(nèi)隱式篇章分析文件implicit_ss。該模塊內(nèi)部包括句間顯式篇章分析模塊及句間隱式篇章分析模塊,其中句間顯式篇章分析模塊用于句間顯式論元提取及句間顯式關(guān)系判別,輸出為句間顯式篇章分析文件explicit_ps,文件中包含有句間連接詞識(shí)別結(jié)果、句間顯式論元判別結(jié)果、句間顯式關(guān)系判別結(jié)果;句間隱式篇章分析模塊用于句間隱式論元提取及句間隱式關(guān)系判別,輸出為句間隱式篇章分析文件implicit_ps,文件中包含有句間隱式論元判別結(jié)果及句間隱式關(guān)系判別結(jié)果。
所述句間關(guān)系處理模塊,如圖2所示,其句間顯式關(guān)系判別的結(jié)果作為輸入流向句間隱式篇章分析模塊。
進(jìn)一步地,本發(fā)明實(shí)施例提供的基于管道的中文篇章結(jié)構(gòu)分析裝置,還包括輸出模塊。
輸出模塊:用于對(duì)已判別的關(guān)系進(jìn)行輸出。該模塊的輸入來(lái)自于句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊。最終輸出為一個(gè)文件output,該文件中包含有對(duì)于輸入文檔的篇章結(jié)構(gòu)分析結(jié)果。