一種基于管道的中文篇章結(jié)構(gòu)分析方法及系統(tǒng)與流程

文檔序號(hào)：11250874閱讀：604來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種基于管道的中文篇章結(jié)構(gòu)分析方法及系統(tǒng)，屬于自然語(yǔ)言處理應(yīng)用技術(shù)領(lǐng)域。

背景技術(shù)：

一般來(lái)說(shuō)，沒(méi)有任何一個(gè)文本單元是完全孤立的，通常是通過(guò)將其與上下文中的其它文本單元相連接來(lái)理解。這些單元可以是子句，句子甚至段落。當(dāng)文本單元之間相互關(guān)聯(lián)，該文本就會(huì)更容易理解。篇章結(jié)構(gòu)分析旨在揭示文本中的這種關(guān)系，從而從整體上把握篇章，有助于自動(dòng)摘要，信息檢索和自動(dòng)問(wèn)答等諸多下游應(yīng)用。近年來(lái)，相較于英文篇章結(jié)構(gòu)分析研究的飛速發(fā)展，中文篇章結(jié)構(gòu)分析目前正處于起步階段。目前對(duì)中文篇章的研究多是借鑒西方現(xiàn)代篇章語(yǔ)言學(xué)理論和分析模式，沒(méi)有建立適合自身特點(diǎn)的理論體系和計(jì)算方法。除此以外，由于中文篇章結(jié)構(gòu)分析發(fā)展的滯后，完整的中文篇章結(jié)構(gòu)自動(dòng)分析工具的研究與實(shí)踐都相對(duì)匱乏。一般來(lái)說(shuō)，中文篇章關(guān)系分析系統(tǒng)在結(jié)構(gòu)上與英文篇章關(guān)系分析系統(tǒng)類(lèi)似，都需要以下步驟：顯式連接詞判定、基本篇章單元?jiǎng)澐?、顯式篇章關(guān)系標(biāo)注和隱式篇章關(guān)系標(biāo)注。在傳統(tǒng)的方法中，篇章分析系統(tǒng)將以上步驟視為不同的子模塊，按照級(jí)聯(lián)的形式將各個(gè)子模塊拼接在一起形成完整的管道式系統(tǒng)。這種管道系統(tǒng)的弊端在于其存在較大的錯(cuò)誤傳遞問(wèn)題，連接詞識(shí)別中的噪聲往往會(huì)影響連接詞識(shí)別的準(zhǔn)確率，導(dǎo)致連接詞判定模塊會(huì)將錯(cuò)誤的連接詞傳遞給后續(xù)的篇章單元?jiǎng)澐旨帮@式關(guān)系標(biāo)注，從而導(dǎo)致系統(tǒng)整體性能下降。

隱式篇章關(guān)系的判別是篇章結(jié)構(gòu)分析中的重點(diǎn)及難點(diǎn)，從篇章標(biāo)注語(yǔ)料匱乏時(shí)期的無(wú)監(jiān)督學(xué)習(xí)，到如今基于深度學(xué)習(xí)的方法，針對(duì)隱式篇章關(guān)系分析的研究逐步深入。然而，不論是基于特征提取的隱式篇章關(guān)系判別還是基于深度學(xué)習(xí)的方法，隱式關(guān)系判別中存在的標(biāo)注語(yǔ)料匱乏和篇章關(guān)系分布不平衡的問(wèn)題依然沒(méi)得到緩解。

因此，目前迫切需要一個(gè)較為高效的中文篇章結(jié)構(gòu)分析方法，在緩解傳統(tǒng)端到端系統(tǒng)中存在的錯(cuò)誤傳遞問(wèn)題的同時(shí)，針對(duì)篇章語(yǔ)料中篇章關(guān)系分布不平衡問(wèn)題提出有效的緩解方法，以提升隱式篇章關(guān)系判別的性能，最終為后續(xù)自然語(yǔ)言處理任務(wù)帶去便利。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是為解決以往中文篇章結(jié)構(gòu)分析中存在的傳統(tǒng)端到端系統(tǒng)的方法沒(méi)有考慮中文語(yǔ)言特點(diǎn)的問(wèn)題，傳統(tǒng)管道系統(tǒng)方法中錯(cuò)誤傳遞問(wèn)題，中文隱式篇章關(guān)系判別中語(yǔ)料分布不平衡問(wèn)題。針對(duì)上述問(wèn)題，本發(fā)明提出基于管道的中文篇章結(jié)構(gòu)分析方法，根據(jù)中文篇章結(jié)構(gòu)的特點(diǎn)，實(shí)現(xiàn)對(duì)動(dòng)態(tài)特征的建模用以提高關(guān)系判別準(zhǔn)確率。與傳統(tǒng)端到端系統(tǒng)不同的是，本發(fā)明提出了一體化顯式篇章關(guān)系分析方法以緩解管道系統(tǒng)中存在的錯(cuò)誤傳遞問(wèn)題，與此同時(shí)，針對(duì)中文隱式篇章關(guān)系語(yǔ)料的不平衡問(wèn)題，本發(fā)明提出了基于排序?qū)W習(xí)的中文隱式篇章關(guān)系分析方法以提升中文隱式篇章關(guān)系判別精度。

本發(fā)明技術(shù)方案的思想是：首先，根據(jù)中文篇章語(yǔ)料庫(kù)具有層次性這個(gè)特點(diǎn)，以自然段為單元，自下而上的分別處理句內(nèi)和句間關(guān)系，使得預(yù)測(cè)句間或更高層次篇章關(guān)系時(shí)可以動(dòng)態(tài)地利用已識(shí)別的句內(nèi)關(guān)系，以此做到對(duì)動(dòng)態(tài)特征的建模；其次，將傳統(tǒng)端到端系統(tǒng)中的顯式篇章關(guān)系分析中的三個(gè)子任務(wù)：篇章連接詞判定、論元?jiǎng)澐趾惋@式關(guān)系判別整合為一個(gè)任務(wù)，轉(zhuǎn)化為一個(gè)序列標(biāo)注問(wèn)題并加以實(shí)現(xiàn)，緩解了傳統(tǒng)管道系統(tǒng)中的錯(cuò)誤傳遞問(wèn)題；最后，采用排序?qū)W習(xí)的方法平衡隱式篇章關(guān)系語(yǔ)料，以簡(jiǎn)單多分類(lèi)結(jié)果中各關(guān)系的偏離情況作為基礎(chǔ)打分規(guī)則，論元長(zhǎng)度為偏置，將傳統(tǒng)二分類(lèi)中的0、1標(biāo)簽變更為0-1之間的實(shí)數(shù)標(biāo)簽，采用pairwise算法實(shí)現(xiàn)。

本發(fā)明的具體技術(shù)方案如下：

一種基于管道的中文篇章結(jié)構(gòu)分析方法，該方法包括以下步驟：

步驟一、進(jìn)行語(yǔ)料預(yù)處理：對(duì)輸入的語(yǔ)料，進(jìn)行中文分詞、中文詞性標(biāo)注、句法分析；

步驟二、進(jìn)行篇章連接詞閉集構(gòu)建：統(tǒng)計(jì)中文篇章關(guān)系樹(shù)庫(kù)(chinesediscousetreebank，cdtb)語(yǔ)料中所出現(xiàn)過(guò)的所有篇章連接詞，將其制成一個(gè)篇章連接詞表，在構(gòu)建過(guò)程中僅保留在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)高于設(shè)定頻次閾值的篇章連接詞，最終形成連接詞閉集；

步驟三、進(jìn)行詞的embedding表示：使用大規(guī)模語(yǔ)料庫(kù)訓(xùn)練word2vec，將每個(gè)單詞映射到向量空間的低維向量，從而表示每個(gè)單詞的語(yǔ)義；

步驟四、構(gòu)建一體化顯式篇章分析模型：對(duì)步驟一處理過(guò)的分詞文本進(jìn)行序列標(biāo)注的訓(xùn)練得到顯式篇章一體化分析模型，在該模型中可同時(shí)完成篇章連接詞識(shí)別、論元?jiǎng)澐忠约捌玛P(guān)系標(biāo)注三項(xiàng)任務(wù)；

實(shí)現(xiàn)步驟如下：

(1)首先設(shè)定標(biāo)注集合，在一體化顯式關(guān)系標(biāo)注中，需要同時(shí)對(duì)連接詞、論元以及篇章關(guān)系進(jìn)行標(biāo)注，所以設(shè)定標(biāo)注分類(lèi)為：

1)arg1：該詞為論元1的一部分。

2)arg2：該詞為論元2的一部分。

3)expansion：該詞為篇章連接詞，且該句為擴(kuò)展關(guān)系。

4)temporal：該詞為篇章連接詞，且該句為時(shí)序關(guān)系。

5)comparison：該詞為篇章連接詞，且該句為轉(zhuǎn)折關(guān)系。

6)contingency：該詞為篇章連接詞，且該句為因果關(guān)系。

7)0：該詞既不為篇章連接詞，也不屬于任何論元的部分。

(2)提取上下文特征以用于分類(lèi)器的訓(xùn)練及測(cè)試，所提特征為詞法特征和句法特征；

(3)將上述步驟中獲得的數(shù)據(jù)輸入到crf++工具中，參數(shù)采用默認(rèn)參數(shù)值，得到顯式關(guān)系分析結(jié)果，輸出至explicitrelation文件中。

步驟五、進(jìn)行有用詞對(duì)抽?。涸谟?xùn)練語(yǔ)料的論元中分別抽取一詞作為詞對(duì)，統(tǒng)計(jì)各詞在各篇章類(lèi)別中的信息增益值大小，選取高于閾值的詞對(duì)構(gòu)建有用詞對(duì)表；

步驟六、構(gòu)建排序語(yǔ)料打分機(jī)制：對(duì)于正樣本，設(shè)定其標(biāo)簽為1；對(duì)于負(fù)樣本，按照其偏離正樣本的程度對(duì)其進(jìn)行打分，分?jǐn)?shù)范圍為0-1之間的實(shí)數(shù)，得到分類(lèi)語(yǔ)料；

步驟七、構(gòu)建基于排序?qū)W習(xí)的隱式篇章關(guān)系分類(lèi)器：將步驟六中的得到的語(yǔ)料輸入分類(lèi)器中最終得到打分預(yù)判結(jié)果。

步驟八、識(shí)別完成：將所得到的結(jié)果進(jìn)行輸出，輸出文件中包含篇章連接詞、論元以及篇章關(guān)系類(lèi)別。

一種基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng)，包括：

預(yù)處理模塊：對(duì)于輸入的語(yǔ)料，進(jìn)行包括中文分詞、中文詞性標(biāo)注以及句法分析，分別將處理結(jié)果存入三個(gè)中間文件，以供連接詞識(shí)別模塊、句內(nèi)關(guān)系處理模塊及句間關(guān)系處理模塊調(diào)用；

連接詞識(shí)別模塊：輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件、中文詞性標(biāo)注文件、句法分析文件，其中，中文詞性標(biāo)注及句法分析文件用于連接詞分類(lèi)過(guò)程中特征的提取。該模塊將中文分詞文件中的單詞進(jìn)行連接詞的識(shí)別，并將識(shí)別后的連接詞進(jìn)行分類(lèi)，將其分為句內(nèi)連接詞及句間連接詞，按照其類(lèi)別分別輸出為兩個(gè)中間文件，并分別供句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊調(diào)用；

句內(nèi)關(guān)系處理模塊：輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件及連接詞識(shí)別模塊處理后的句內(nèi)連接詞文件。該模塊內(nèi)部包括句內(nèi)顯式篇章分析模塊及句內(nèi)隱式篇章分析模塊，其中，句內(nèi)顯式篇章分析模塊用于句內(nèi)顯式論元提取及句內(nèi)顯式關(guān)系判別，其輸入與句內(nèi)關(guān)系處理模塊的輸入一致，輸出為句內(nèi)顯式篇章分析文件，文件中包含有句內(nèi)連接詞識(shí)別結(jié)果、句內(nèi)顯式論元判別結(jié)果、句內(nèi)顯式關(guān)系判別結(jié)果；句內(nèi)隱式篇章分析模塊用于句內(nèi)隱式論元提取及句內(nèi)隱式關(guān)系判別，其輸入除了句內(nèi)關(guān)系處理模塊的輸入以外，還包含了句內(nèi)顯式篇章分析文件，輸出為句內(nèi)隱式篇章分析文件，文件中包含有句內(nèi)隱式論元判別結(jié)果及句內(nèi)隱式關(guān)系判別結(jié)果。該模塊兩個(gè)輸出文件流向句間關(guān)系處理模塊及輸出模塊。

句間關(guān)系處理模塊：輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件、連接詞識(shí)別模塊處理后的句間連接詞文件、句內(nèi)關(guān)系處理模塊處理后的句內(nèi)顯式篇章分析文件及句內(nèi)隱式篇章分析文件。該模塊內(nèi)部包括句間顯式篇章分析模塊及句間隱式篇章分析模塊，其中，句間顯式篇章分析模塊用于句間顯式論元提取及句間顯式關(guān)系判別，其輸入與句間關(guān)系處理模塊的輸入一致，輸出為句間顯式篇章分析文件，文件中包含有句間連接詞識(shí)別結(jié)果、句間顯式論元判別結(jié)果、句間顯式關(guān)系判別結(jié)果；句間隱式篇章分析模塊用于句間隱式論元提取及句間隱式關(guān)系判別，其輸入除了句間關(guān)系處理模塊的輸入以外，還包含了句間顯式篇章分析文件，輸出為句間隱式篇章分析文件，文件中包含有句間隱式論元判別結(jié)果及句間隱式關(guān)系判別結(jié)果。該模塊的兩個(gè)輸出文件流向輸出模塊。

輸出模塊：輸入句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊處理后的文件。最終輸出為一個(gè)文件，該文件中包含有對(duì)于輸入文檔的篇章結(jié)構(gòu)分析結(jié)果。

有益效果

對(duì)比現(xiàn)有技術(shù)，本發(fā)明具有以下有益效果：

(1)以中文篇章結(jié)構(gòu)分析為出發(fā)點(diǎn)，本發(fā)明彌補(bǔ)了現(xiàn)有研究中完整的中文篇章結(jié)構(gòu)自動(dòng)分析工具缺失的問(wèn)題，并根據(jù)中文篇章結(jié)構(gòu)的特點(diǎn)進(jìn)行了針對(duì)性設(shè)計(jì)，使系統(tǒng)能夠完成動(dòng)態(tài)特征的建模；

(2)通過(guò)一體化顯式關(guān)系分析方法，緩解了傳統(tǒng)管道中存在的錯(cuò)誤傳遞問(wèn)題，全面提升了各項(xiàng)子模塊的性能；

(3)對(duì)于隱式篇章關(guān)系判別中存在的語(yǔ)料分布不平衡的現(xiàn)象，通過(guò)排序?qū)W習(xí)的思想對(duì)其進(jìn)行有效的緩解，提升了關(guān)系判別精度。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例提供的方法及系統(tǒng)架構(gòu)圖。

圖2為本發(fā)明實(shí)施例提供的基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng)中句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例，對(duì)本發(fā)明提供的一種基于管道的中文篇章結(jié)構(gòu)分析方法及裝置作進(jìn)一步詳細(xì)說(shuō)明。

本發(fā)明實(shí)施例提供的一種基于管道的中文篇章結(jié)構(gòu)分析方法架構(gòu)如圖1所示，具體實(shí)現(xiàn)過(guò)程如下：

根據(jù)步驟一，進(jìn)行語(yǔ)料預(yù)處理，實(shí)現(xiàn)步驟如下：

(1)對(duì)于輸入文本，使用fudannlp進(jìn)行中文分詞以及詞性標(biāo)注，所得結(jié)果分別保存在文件raw和文件pos作為后續(xù)使用；

(2)對(duì)于輸入文本，使用stanfordparser進(jìn)行句法分析，分析后結(jié)果存入parser文件以供后續(xù)使用。

根據(jù)步驟二，進(jìn)行篇章連接詞閉集的構(gòu)建，實(shí)現(xiàn)步驟如下：

(1)統(tǒng)計(jì)cdtb語(yǔ)料中所有出現(xiàn)過(guò)的篇章連接詞，以及每個(gè)連接詞出現(xiàn)的次數(shù)，將結(jié)果存入連接詞詞表文件中；

(2)對(duì)于(1)中的每一個(gè)連接詞，剔除出現(xiàn)次數(shù)低于10次的篇章連接詞，最終形成一個(gè)僅包含141個(gè)篇章連接詞的連接詞閉集，結(jié)果存入篇章連接詞閉集文件中。

根據(jù)步驟三，進(jìn)行詞的embedding表示，實(shí)現(xiàn)步驟如下：

(1)獲取訓(xùn)練語(yǔ)料，獲取新華社中文新聞?wù)Z料2.21gb，在每一句最后加入句子結(jié)尾標(biāo)記<end>，作為后續(xù)輸入；

(2)使用word2vec工具訓(xùn)練詞向量，選擇cbow模型，輸出維度為200，學(xué)習(xí)率設(shè)置為1e-3，窗口大小設(shè)置為5，訓(xùn)練之后得到詞向量文件。

根據(jù)步驟四，構(gòu)建一體化顯式篇章分析模型，實(shí)現(xiàn)步驟如下：

1)arg1：該詞為論元1的一部分。

2)arg2：該詞為論元2的一部分。

3)expansion：該詞為篇章連接詞，且該句為擴(kuò)展關(guān)系。

4)temporal：該詞為篇章連接詞，且該句為時(shí)序關(guān)系。

5)comparison：該詞為篇章連接詞，且該句為轉(zhuǎn)折關(guān)系。

6)contingency：該詞為篇章連接詞，且該句為因果關(guān)系。

7)0：該詞既不為篇章連接詞，也不屬于任何論元的部分。

(2)提取上下文特征以用于分類(lèi)器的訓(xùn)練及測(cè)試，所提特征為詞法特征和句法特征，具體的特征為：

根據(jù)步驟五，進(jìn)行有用詞對(duì)的抽取，實(shí)現(xiàn)步驟如下：

(1)設(shè)置訓(xùn)練語(yǔ)料集合t的隱式篇章關(guān)系數(shù)為n，某個(gè)類(lèi)別的數(shù)量用ni表示，其中i∈{1，2，3，4}，分別為comparison，contingency，expansion和temporal，

(2)遍歷訓(xùn)練語(yǔ)料集合t，針對(duì)每一詞對(duì)t，分別統(tǒng)計(jì)出現(xiàn)在對(duì)應(yīng)類(lèi)別的隱式篇章關(guān)系的頻數(shù)ti，i∈{1，2，3，4}；

(3)計(jì)算對(duì)應(yīng)詞對(duì)的信息增益值，計(jì)算公式如下：

其中，ig(t)表示詞對(duì)t的信息增益值，h(n)表示類(lèi)別n的熵，h(n|t)表示條件熵。針對(duì)每一詞對(duì)，均可計(jì)算出該詞對(duì)對(duì)于隱式篇章關(guān)系分類(lèi)的貢獻(xiàn)程度，將所有詞對(duì)按照信息增益值大小排序，選取ig(t)值不小于1e-5的詞對(duì)構(gòu)成有用詞對(duì)集合t'。

根據(jù)步驟六，構(gòu)建排序語(yǔ)料打分機(jī)制，其實(shí)現(xiàn)步驟如下：

(1)首先使用傳統(tǒng)四分類(lèi)的方法對(duì)各類(lèi)關(guān)系進(jìn)行偏差統(tǒng)計(jì)：提取語(yǔ)料中各論元的詞對(duì)特征，用步驟五中的有用詞對(duì)表進(jìn)行有用詞對(duì)的篩選，并用步驟三中的詞向量表將詞對(duì)轉(zhuǎn)化為詞對(duì)向量，使用svm分類(lèi)得到四分類(lèi)結(jié)果；

(2)統(tǒng)計(jì)在cdtb語(yǔ)料中四類(lèi)篇章關(guān)系的論元平均長(zhǎng)度，將四類(lèi)關(guān)系分別存入四個(gè)不同的文件中，分別遍歷得到結(jié)果以供后續(xù)使用；

(3)對(duì)于(1)中所得分類(lèi)結(jié)果，按照其偏離程度分別設(shè)定偏離的基礎(chǔ)分，并采用(2)中的結(jié)果對(duì)偏離基礎(chǔ)分進(jìn)行修正，以完成對(duì)訓(xùn)練樣本的構(gòu)造。

根據(jù)步驟七，進(jìn)行基于排序?qū)W習(xí)的隱式篇章關(guān)系分類(lèi)器的構(gòu)建，具體過(guò)程為：

(1)提取論元的相關(guān)特征，包括顯式篇章關(guān)系結(jié)果、論元長(zhǎng)度特征、有用詞對(duì)數(shù)量特征、有用詞對(duì)特征及句法特征；

(2)使用上述步驟六中的打分機(jī)制對(duì)(1)中的語(yǔ)料進(jìn)行打分，構(gòu)建訓(xùn)練語(yǔ)料；

(3)輸入至svm^rank工具中進(jìn)行訓(xùn)練，得到模型，并使用該模型對(duì)測(cè)試語(yǔ)料進(jìn)行打分；

(4)選取打分高于0.8分的樣本為正樣本，低于0.8分的樣本為負(fù)樣本，得到分類(lèi)結(jié)果，并輸出至implicitrelation文件中。

基于同一發(fā)明構(gòu)思，本發(fā)明實(shí)施例中還提供了一種基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng)，由于該裝置解決問(wèn)題的原理與前述一種基于管道的中文篇章結(jié)構(gòu)分析方法相似，因此該裝置的實(shí)施可以參見(jiàn)方法的實(shí)施，重復(fù)之處不再贅述。

本發(fā)明實(shí)施例提供的一種基于管道的中文篇章結(jié)構(gòu)分析系統(tǒng)，包括：

預(yù)處理模塊：對(duì)于輸入的語(yǔ)料，對(duì)其進(jìn)行包括中文分詞、中文詞性標(biāo)注以及句法分析，分別將處理結(jié)果存入三個(gè)中間文件raw、pos、parser以供連接詞識(shí)別模塊、句內(nèi)關(guān)系處理模塊及句間關(guān)系處理模塊調(diào)用；

連接詞識(shí)別模塊：用于連接詞的識(shí)別及初分。該模塊的輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件raw、中文詞性標(biāo)注文件pos、句法分析文件parser，其中pos和parser文件用于連接詞分類(lèi)過(guò)程中特征的提取。該模塊將中文分詞文件中的單詞進(jìn)行連接詞的識(shí)別，并將識(shí)別后的連接詞進(jìn)行分類(lèi)，將其分為句內(nèi)連接詞及句間連接詞，按照其類(lèi)別分別輸出為兩個(gè)中間文件ss和ps，并分別供句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊調(diào)用；

句內(nèi)關(guān)系處理模塊：用于句內(nèi)篇章結(jié)構(gòu)分析。該模塊的輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件raw及連接詞識(shí)別模塊處理后的句內(nèi)連接詞文件ss。該模塊內(nèi)部包括句內(nèi)顯式篇章分析模塊及句內(nèi)隱式篇章分析模塊，其中句內(nèi)顯式篇章分析模塊用于句內(nèi)顯式論元提取及句內(nèi)顯式關(guān)系判別，其輸出為句內(nèi)顯式關(guān)系處理文件explicit_ss，文件中包含有句內(nèi)連接詞識(shí)別結(jié)果、句內(nèi)顯式論元判別結(jié)果、句內(nèi)顯式關(guān)系判別結(jié)果；句內(nèi)隱式篇章分析模塊用于句內(nèi)隱式論元提取及句內(nèi)隱式關(guān)系判別，其輸出為句內(nèi)隱式關(guān)系處理文件implicit_ss，文件中包含有句內(nèi)隱式論元判別結(jié)果及句內(nèi)隱式關(guān)系判別結(jié)果。

所述句內(nèi)關(guān)系處理模塊，如圖2所示，其句內(nèi)顯式篇章關(guān)系判別的結(jié)果作為輸入流向句內(nèi)隱式篇章分析模塊，同時(shí)地，句內(nèi)關(guān)系處理模塊中句內(nèi)顯式篇章關(guān)系判別結(jié)果以及句內(nèi)隱式篇章關(guān)系判別結(jié)果均作為輸入流向句間關(guān)系處理模塊。

進(jìn)一步地，本發(fā)明實(shí)施例提供的基于管道的中文篇章結(jié)構(gòu)分析裝置，還包括句間關(guān)系處理模塊。

句間關(guān)系處理模塊：用于句間篇章結(jié)構(gòu)分析。該模塊的輸入來(lái)自于預(yù)處理模塊處理后的中文分詞文件raw、連接詞識(shí)別模塊處理后的句間連接詞文件ps、句內(nèi)關(guān)系處理模塊處理后的句內(nèi)顯式篇章分析文件explicit_ss及句內(nèi)隱式篇章分析文件implicit_ss。該模塊內(nèi)部包括句間顯式篇章分析模塊及句間隱式篇章分析模塊，其中句間顯式篇章分析模塊用于句間顯式論元提取及句間顯式關(guān)系判別，輸出為句間顯式篇章分析文件explicit_ps，文件中包含有句間連接詞識(shí)別結(jié)果、句間顯式論元判別結(jié)果、句間顯式關(guān)系判別結(jié)果；句間隱式篇章分析模塊用于句間隱式論元提取及句間隱式關(guān)系判別，輸出為句間隱式篇章分析文件implicit_ps，文件中包含有句間隱式論元判別結(jié)果及句間隱式關(guān)系判別結(jié)果。

所述句間關(guān)系處理模塊，如圖2所示，其句間顯式關(guān)系判別的結(jié)果作為輸入流向句間隱式篇章分析模塊。

進(jìn)一步地，本發(fā)明實(shí)施例提供的基于管道的中文篇章結(jié)構(gòu)分析裝置，還包括輸出模塊。

輸出模塊：用于對(duì)已判別的關(guān)系進(jìn)行輸出。該模塊的輸入來(lái)自于句內(nèi)關(guān)系處理模塊和句間關(guān)系處理模塊。最終輸出為一個(gè)文件output，該文件中包含有對(duì)于輸入文檔的篇章結(jié)構(gòu)分析結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鑒萍;張辰蔚;黃河燕
技術(shù)所有人：北京理工大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種中文分詞方法與流程
上一篇：利用基于詞上下文的字嵌入與神經(jīng)網(wǎng)絡(luò)的中文分詞方法與流程

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

結(jié)構(gòu)分析方法相關(guān)技術(shù)

材料微觀(guān)結(jié)構(gòu)分析方法相關(guān)技術(shù)

物質(zhì)結(jié)構(gòu)現(xiàn)代分析方法相關(guān)技術(shù)

天然產(chǎn)物結(jié)構(gòu)分析方法相關(guān)技術(shù)

結(jié)構(gòu)化的分析方法相關(guān)技術(shù)

結(jié)構(gòu)自振特性分析方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于管道的中文篇章結(jié)構(gòu)分析方法及系統(tǒng)與流程