一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法和裝置。本發(fā)明依據(jù)抽象代數(shù)、集合論、組合數(shù)學(xué)和計(jì)算語言學(xué)等學(xué)科的數(shù)學(xué)原理和相應(yīng)的計(jì)算機(jī)技術(shù),運(yùn)用復(fù)合函數(shù)的數(shù)學(xué)思想,通過建立矩陣模型和線性模型來進(jìn)行自然語言句法結(jié)構(gòu)解析。所述方法較易于實(shí)現(xiàn),且可以大幅度提高復(fù)合式句子結(jié)構(gòu)解析的準(zhǔn)確性。
【專利說明】一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法和裝置。
【背景技術(shù)】
[0002]自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域和人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間使用自然語言進(jìn)行有效通信的各種理論和方法。
[0003]句法結(jié)構(gòu)解析是自然語言處理的一個(gè)重要方面,其通過計(jì)算機(jī)對自然語言語句的句子成分進(jìn)行自動(dòng)劃分以輔助對于語句的進(jìn)一步處理?,F(xiàn)有的句法結(jié)構(gòu)解析技術(shù)中,通常米用概率上下文無約束算法(Probabilistic Context Free Grammars,PCFG),其基于自然語言具有復(fù)雜嵌套性的特點(diǎn),計(jì)算語句與句法結(jié)構(gòu)解析結(jié)果的規(guī)則匹配概率,選取概率最大的句法解析結(jié)果作為最終的句法結(jié)構(gòu)。
[0004]但是,該方法復(fù)雜度高,而且,對于復(fù)合式句子結(jié)構(gòu)的解析準(zhǔn)確性還亟待進(jìn)一步提聞。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提供了一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法和裝置,既有較高的準(zhǔn)確性,又較易于實(shí)現(xiàn)。
[0006]第一方面,提供一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,包括:
[0007]讀取待解析的經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu),所述經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu)中僅包括語句的關(guān)聯(lián)詞單元、謂語動(dòng)詞單元、名詞代詞單元,且各詞單元按照在所述經(jīng)預(yù)處理的語句中的順序編號并標(biāo)注類型;
[0008]對每一謂語動(dòng)詞單元,生成對應(yīng)的引導(dǎo)語元素、主語元素、謂語元素和賓語元素;所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一,或空單元;所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一或空單元,或在前出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一;所述謂語元素為對應(yīng)的所述謂語動(dòng)詞單元;所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號且小于相鄰的在后出現(xiàn)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在后出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一;
[0009]根據(jù)所述引導(dǎo)語元素、主語元素、謂語元素和賓語元素的可能取值,獲取每一謂語動(dòng)詞單元對應(yīng)的句法向量的所有可能取值,所述句法向量包括引導(dǎo)語元素、主語元素、謂語元素和賓語元素;
[0010]根據(jù)所有句法向量的所有可能取值生成至少一個(gè)句法結(jié)構(gòu)可能矩陣解,所述句法結(jié)構(gòu)可能矩陣解由按照謂語動(dòng)詞單元編號順序排列的句法向量組成;
[0011]驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,如果完全相同,則將該句法結(jié)構(gòu)可能矩陣解中的各句法向量作為句法結(jié)構(gòu)解析結(jié)果之一。[0012]優(yōu)選地,生成對應(yīng)的引導(dǎo)語元素包括:
[0013]當(dāng)不存在編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元時(shí),所述引導(dǎo)語元素的可能取值為空單元;
[0014]當(dāng)存在編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元且其數(shù)量大于等于編號大于等于對應(yīng)的謂語動(dòng)詞單元編號的謂語動(dòng)詞單元數(shù)量時(shí),所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一;
[0015]當(dāng)存在編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元且其數(shù)量小于編號大于等于對應(yīng)的謂語動(dòng)詞單元編號的謂語動(dòng)詞單元數(shù)量時(shí),所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一,或空單元。
[0016]優(yōu)選地,生成對應(yīng)的主語元素包括:
[0017]當(dāng)對應(yīng)的謂語動(dòng)詞單元編號是最小的謂語動(dòng)詞單元編號時(shí),所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或空單元;
[0018]當(dāng)對應(yīng)的謂語動(dòng)詞單元編號不是最小的謂語動(dòng)詞單元編號時(shí),所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在前出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一。
[0019]優(yōu)選地,生成對應(yīng)的賓語元素包括:
[0020]當(dāng)對應(yīng)的謂語動(dòng)詞單元編號是最大的謂語動(dòng)詞單元編號時(shí),所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一;
[0021]當(dāng)對應(yīng)的謂語動(dòng)詞單元編號不是最大的謂語動(dòng)詞單元編號時(shí),所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號且小于相鄰的在后出現(xiàn)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在后出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一。
[0022]優(yōu)選地,驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同包括:
[0023]將同一詞單元重復(fù)出現(xiàn)的句法結(jié)構(gòu)可能矩陣解首先排除;
[0024]在剩余的句法結(jié)構(gòu)可能矩陣解中,基于行向量的相互引用進(jìn)行代入、偏加、插空操作,排除由于兩個(gè)行向量彼此互相包含而無法進(jìn)行代入操作的句法結(jié)構(gòu)可能矩陣解,然后把由其他句法結(jié)構(gòu)可能矩陣解經(jīng)操作得到的語句與所述經(jīng)預(yù)處理的語句比較,判斷由對應(yīng)的句法結(jié)構(gòu)可能矩陣解經(jīng)代入、偏加、插空操作之后獲得的語句是否與經(jīng)預(yù)處理的語句完全相同。
[0025]優(yōu)選地,當(dāng)出現(xiàn)如下五種情況時(shí),將對應(yīng)的句法結(jié)構(gòu)可能矩陣解排除:
[0026](I)有漏掉的詞;
[0027](2)順序值或句法向量出現(xiàn)重位;
[0028](3)出現(xiàn)了函數(shù)的代入交叉矛盾;
[0029](4)存在兩個(gè)位置逆反的順序值;
[0030](5)存在這樣一個(gè)句法向量fj,找不到fj的明確位置,并且對于fj的每一個(gè)可以插空的空位,按照插空的方法對&進(jìn)行代入之后,全都存在兩個(gè)位置逆反的順序值。
[0031]優(yōu)選地,利用詞單元編號替代詞單元進(jìn)行代入、偏加、插空操作,然后基于獲得的語句序列是否為順序遞增的數(shù)字序列判斷是否與經(jīng)預(yù)處理的語句完全相同。
[0032]優(yōu)選地,在根據(jù)所有句法向量的所有可能取值,生成至少一個(gè)句法結(jié)構(gòu)可能矩陣解,所述句法結(jié)構(gòu)可能矩陣解由按照謂語動(dòng)詞單元編號順序排列的句法向量組成;以及驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,如果完全相同,則將該句法結(jié)構(gòu)可能矩陣解中的各句法向量作為句法結(jié)構(gòu)解析結(jié)果之一這兩個(gè)步驟中,利用與句法結(jié)構(gòu)可能線性表達(dá)式解替代所述句法結(jié)構(gòu)可能矩陣解;
[0033]所述句法結(jié)構(gòu)可能線性表達(dá)式解與所述句法結(jié)構(gòu)可能矩陣解等價(jià);
[0034]所述句法結(jié)構(gòu)可能線性表達(dá)式解包括由按照謂語動(dòng)詞單元編號順序排列的句法向量表達(dá)式組成;每個(gè)所述句法向量表達(dá)式為對應(yīng)的句法向量的引導(dǎo)語元素、主語元素、謂語元素、賓語元素按照順序逐項(xiàng)偏加起來的表達(dá)式。
[0035]第二方面,提供一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析裝置,包括:
[0036]讀取部件,用于讀取待解析的經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu),所述經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu)中僅包括語句的關(guān)聯(lián)詞單元、謂語動(dòng)詞單元、名詞代詞單元,且各詞單元按照在所述經(jīng)預(yù)處理的語句中的順序編號并標(biāo)注類型;
[0037]元素生成部件,用于對每一謂語動(dòng)詞單元,生成對應(yīng)的引導(dǎo)語元素、主語元素、謂語元素和賓語元素;所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一,或空單元;所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一或空單元,或在前出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一;所述謂語元素為對應(yīng)的所述謂語動(dòng)詞單元;所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號且小于相鄰的在后出現(xiàn)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在后出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一;
[0038]向量生成部件,用于根據(jù)所述引導(dǎo)語元素、主語元素、謂語元素、賓語元素的可能取值獲取每一謂語動(dòng)詞單元對應(yīng)的句法向量的所有可能取值,所述句法向量包括引導(dǎo)語元素、主語元素、謂語元素和賓語元素;
[0039]矩陣生成部件,用于根據(jù)所有句法向量的所有可能取值生成至少一個(gè)句法結(jié)構(gòu)可能矩陣解,所述句法結(jié)構(gòu)可能矩陣解由按謂語動(dòng)詞單元編號順序排列的句法向量組成;
[0040]求解部件,用于驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,如果完全相同,則將該句法結(jié)構(gòu)可能矩陣解中的各句法向量輸出,并作為句法結(jié)構(gòu)解析結(jié)果之一。
[0041]本發(fā)明依據(jù)抽象代數(shù)、集合論、組合數(shù)學(xué)和計(jì)算語言學(xué)等數(shù)學(xué)原理和相應(yīng)的計(jì)算機(jī)技術(shù),運(yùn)用復(fù)合函數(shù)的數(shù)學(xué)思想,通過建立矩陣模型和線性模型來進(jìn)行自然語言句法結(jié)構(gòu)解析,所述方法較易于實(shí)現(xiàn),且可以大幅度提高復(fù)合式句子結(jié)構(gòu)解析的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0042]通過以下參照附圖對本發(fā)明實(shí)施例的描述,本發(fā)明的上述以及其他目的、特征和優(yōu)點(diǎn)將更為清楚,在附圖中:
[0043]圖1是本發(fā)明實(shí)施例的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法的流程圖;
[0044]圖2是本發(fā)明實(shí)施例的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析裝置的示意圖。
【具體實(shí)施方式】
[0045]以下基于優(yōu)選實(shí)施例對本發(fā)明進(jìn)行描述,但是本發(fā)明并不僅僅限于這些實(shí)施例。在下文對本發(fā)明的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。為了避免混淆本發(fā)明的實(shí)質(zhì),公知的方法、流程、元件和電路并沒有詳細(xì)敘述。
[0046]依據(jù)抽象代數(shù)和計(jì)算語言學(xué)的理論,自然語言是詞匯和標(biāo)點(diǎn)符號集合上的自由幺半群。以下用英語為例進(jìn)行說明,但是本領(lǐng)域技術(shù)人員容易理解,本發(fā)明的方法也適用于其他自然語言。
[0047]給定一個(gè)集合A,A上的符號串是由A中的元素鄰接而成的,鄰接時(shí)可以重復(fù),形成一個(gè)有限長的線性陣列。例如:從集合{a,b,c},可以形成符號串a(chǎn)cbaab。這個(gè)符號串包含a的三次出現(xiàn),b的兩次出現(xiàn),c的一次出現(xiàn),它不同于符號串a(chǎn)caabb。雖然每個(gè)符號的出現(xiàn)次數(shù)相同,但它們的次序不同??梢?,符號串是有序的。特別地,長度為O的符號串是O符號串,記為e。由此,對于給定的有限的符號集合A,A上長度為η的符號串就是從自然數(shù)集N到A的一個(gè)映射:f:N — A。
[0048]從兩個(gè)符號串出發(fā),我們可以用鄰接它們的辦法構(gòu)成新的符號串。例如,在符號串a(chǎn)bac的右端鄰接符號串bbac,便形成了新的符號串a(chǎn)bacbbac。[0049]這種鄰接符號串的運(yùn)算稱為:毗連運(yùn)算,簡稱為毗連。
[0050]給定長度為η的符號串Φ和長度為m的符號串Ψ,其中:
[0051]Φ = {(I, X1), (2, x2), (3, x3),......, (η-1, Xn^1), (η, χη)};
[0052]ψ = {(I, Y1), (2, Y2), (3, y3),......,(m-1, ym^), (m, ym)};
[0053]Φ與Ψ的田比連記為:Φ ~ Ψ。它是長度為n+m且由集合{(I, X1), (2, χ2), (3,
X3),......,(η-1, Xn^1), (η, Xn), (η+1, Y1), (η+2, y2),......,(n+m, ym)}給出的符號串。那
么,Btt連便是定義在符號串上的一種二元運(yùn)算,運(yùn)算的結(jié)果是得到一個(gè)新的符號串。
[0054]Φ與Ψ的毗連,還可省略毗連記號~,簡化記為:Φ Ψ。
[0055]則有:φ~ Ψ = φ Ψ。
[0056]毗連運(yùn)算是可結(jié)合的,因?yàn)閷τ谌魏畏柎?,Ψ,ω,?
[0057]φ " ( ψ " ω ) = ( φ " ψ) " ω
[0058]現(xiàn)有的每個(gè)英語單詞和英文標(biāo)點(diǎn)符號都定義成一個(gè)符號,那么S中所有單詞和標(biāo)點(diǎn)符號的集合A = Ia1, a2, a3,..., an} (n e N)就是一個(gè)符號集。
[0059]任給的一個(gè)由英語單詞和英文標(biāo)點(diǎn)符號組成的有限長的符號串bib2……
bk(k e N),稱為詞單元或連續(xù)詞串。對于任給的一個(gè)詞單元a = Id1Id2......bm(m e N),稱a
是由A中元素組成的詞單元,當(dāng)且僅當(dāng),b1; b2,…,bm e A。
[0060]長度為O的唯一的詞單元稱為空單元,記為e。
[0061]記由A中元素組成的全體詞單元(連續(xù)詞串)的集合為As,設(shè)語句S = aia2a3……an,其中,anS構(gòu)成語句的詞單元。代數(shù)系統(tǒng)(As,\ e)是英語單詞和標(biāo)點(diǎn)符號集合A上的自由幺半群。
[0062]各詞單元按照其在語句中的順序依次排列,其下標(biāo)為順序編號,記T(Ci)為詞單兀α在句子S中的編號。
[0063]構(gòu)造一個(gè)句法成分順序映射ω,ω的條件如下:
[0064](I) ω: (a1; a2, a3,......,an} — N, N 為自然數(shù)集;
[0065](2)對任意一個(gè) Ei1, e S,都有:ω (a) = T (a^。[0066]顯然,ω是一個(gè)單映射。
[0067]同時(shí),對于代數(shù)系統(tǒng)(As,~,e),定義二元關(guān)系〈口:
[0068]對于As中任意的詞單元α,β e As,稱a〈D β,當(dāng)且僅當(dāng)α,β的編號T (a),Τ(β)滿足:Τ(α)〈Τ(β)。
[0069]依定義,二元關(guān)系〈□滿足如下條件:
[0070](I)任給 a e As,都有 a 術(shù)□ a ;
[0071](2)對于任何 a, b, c e As,如果 a< Db,貝丨J b 術(shù)口 a ;
[0072](3)對于任何 a, b, c e As,如果 a〈 Db 且 b〈 □ c,貝丨J a< □ C。
[0073]則依據(jù)嚴(yán)格偏序關(guān)系的定義,二兀關(guān)系〈□是嚴(yán)格偏序關(guān)系。
[0074]同時(shí),在代數(shù)系統(tǒng)(As,~,e)上,定義一個(gè)新的二元運(yùn)算+〈。稱+〈為定義在As中的嚴(yán)格偏序關(guān)系〈□上的偏加法運(yùn)算,簡稱偏加,它滿足如下特性:對于任何a,b e As,如果a〈Db,則有 a+〈b = a'b = ab。
[0075]我們可以確定:對于任何a,b e As,如果a〈 □ b,則有偏加法運(yùn)算+〈和毗連運(yùn)算~等價(jià)。偏加法運(yùn)算+〈,可以看作是限制在嚴(yán)格偏序關(guān)系〈□上的毗連運(yùn)算。
[0076]任一自然語言的語句S都可以看作由每個(gè)詞單元依據(jù)嚴(yán)格偏序關(guān)系〈□連接而成的詞串公式,即:S = ai+〈a2+〈a3+〈…+〈an。這一特點(diǎn),對于展開數(shù)學(xué)處理非常有利。
[0077] 在本發(fā)明中,將構(gòu)成語句的詞單元%認(rèn)定為常量。詞單元%具有其語言屬性,構(gòu)成核心句子結(jié)構(gòu)的詞單元可分為關(guān)聯(lián)詞單元、謂語動(dòng)詞單元、名詞代詞單元三種類型。每個(gè)詞單元包括至少一個(gè)自然語言詞匯,其可以是詞、特定結(jié)構(gòu)的短語或多個(gè)同屬性詞的并列。
[0078]對于關(guān)聯(lián)詞單元,其可以是引導(dǎo)從句的連接代詞或連接副詞、引導(dǎo)從句的連接短語和連接并列句的并列連詞,對于典型的引導(dǎo)詞列舉如下:that, what, which, who, whom,wherever, whenever, whose, where, when, why, how, whoever, whichever, while, whether,because, before, after, whatever, whomever, as, if, once, until, though, unless,although,no matter what,no matter who,no matter whom,no matter which,in that,in order that,as though,as if,even though,even if,so that,and,but,or,so,yet等。其主要包括:由單詞充當(dāng)引導(dǎo)從句的關(guān)聯(lián)詞單元,由短語充當(dāng)引導(dǎo)從句的關(guān)聯(lián)詞單元,連接并列句與并列句的關(guān)聯(lián)詞單元。
[0079]對于謂語動(dòng)詞單元,其也可以是動(dòng)詞或動(dòng)詞短語,例如,can do, do。謂語被定義為英語中一個(gè)自然句里的主要?jiǎng)幼髡Z。結(jié)構(gòu)上通常由兩個(gè)部分構(gòu)成:輔助動(dòng)詞+實(shí)義動(dòng)詞(主系表結(jié)構(gòu)除外)。謂語有時(shí)態(tài)和語態(tài)的格式要求,用計(jì)算語言學(xué)的公式定義如下:
【權(quán)利要求】
1.一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,包括: 讀取待解析的經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu),所述經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu)中僅包括語句的關(guān)聯(lián)詞單元、謂語動(dòng)詞單元、名詞代詞單元,且各詞單元按照在所述經(jīng)預(yù)處理的語句中的順序進(jìn)行編號,并標(biāo)注類型; 對每一謂語動(dòng)詞單元,生成對應(yīng)的引導(dǎo)語元素、主語元素、謂語元素和賓語元素;所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一,或空單元;所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一或空單元,或在前出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一;所述謂語元素為對應(yīng)的所述謂語動(dòng)詞單元;所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號且小于相鄰的在后出現(xiàn)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在后出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一; 根據(jù)所述引導(dǎo)語元素、主語元素、謂語元素和賓語元素的可能取值,獲取每一謂語動(dòng)詞單元對應(yīng)的句法向量的所有可能取值,所述句法向量包括引導(dǎo)語元素、主語元素、謂語元素和賓語元素; 根據(jù)所有句法向量的所有可能取值,生成至少一個(gè)句法結(jié)構(gòu)可能矩陣解,所述句法結(jié)構(gòu)可能矩陣解由按照謂語動(dòng)詞單元編號順序排列的句法向量組成; 驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,如果完全相同,則將該句法結(jié)構(gòu)可能矩陣解中的各句法向量作為句法結(jié)構(gòu)解析結(jié)果之一。
2.根據(jù)權(quán)利要求1所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,生成對應(yīng)的引導(dǎo)語元素包括: 當(dāng)不存在編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元時(shí),所述引導(dǎo)語元素的可能取值為空單元; 當(dāng)存在編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元且其數(shù)量大于等于編號大于等于對應(yīng)的謂語動(dòng)詞單元編號的謂語動(dòng)詞單元數(shù)量時(shí),所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一; 當(dāng)存在編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元且其數(shù)量小于編號大于等于對應(yīng)的謂語動(dòng)詞單元編號的謂語動(dòng)詞單元數(shù)量時(shí),所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一,或空單元。
3.根據(jù)權(quán)利要求1所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,生成對應(yīng)的主語元素包括: 當(dāng)對應(yīng)的謂語動(dòng)詞單元編號是最小的謂語動(dòng)詞單元編號時(shí),所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或空單元; 當(dāng)對應(yīng)的謂語動(dòng)詞單元編號不是最小的謂語動(dòng)詞單元編號時(shí),所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在前出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一。
4.根據(jù)權(quán)利要求1所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,生成對應(yīng)的賓語元素包括: 當(dāng)對應(yīng)的謂語動(dòng)詞單元編號是最大的謂語動(dòng)詞單元編號時(shí),所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一;當(dāng)對應(yīng)的謂語動(dòng)詞單元編號不是最大的謂語動(dòng)詞單元編號時(shí),所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號且小于相鄰的在后出現(xiàn)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在后出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一。
5.根據(jù)權(quán)利要求1所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,包括: 將同一詞單元重復(fù)出現(xiàn)的句法結(jié)構(gòu)可能矩陣解首先排除; 在剩余的句法結(jié)構(gòu)可能矩陣解中,基于行向量的相互引用進(jìn)行代入、偏加、插空操作,排除由于兩個(gè)行向量彼此互相包含而無法進(jìn)行代入操作的句法結(jié)構(gòu)可能矩陣解,然后把由其他句法結(jié)構(gòu)可能矩陣解經(jīng)操作得到的語句與所述經(jīng)預(yù)處理的語句比較,判斷由對應(yīng)的句法結(jié)構(gòu)可能矩陣解經(jīng)代入、偏加、插空操作之后獲得的語句是否與經(jīng)預(yù)處理的語句完全相同。
6.根據(jù)權(quán)利要求5所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,當(dāng)出現(xiàn)如下五種情況時(shí),將對應(yīng)的句法結(jié)構(gòu)可能矩陣解排除: (1)有漏掉的詞; (2)順序值或句法向 量出現(xiàn)重位; (3)出現(xiàn)了函數(shù)的代入交叉矛盾; (4)存在兩個(gè)位置逆反的順序值; (5)存在這樣一個(gè)句法向量fj,找不到fj的明確位置,并且對于fj的每一個(gè)可以插空的空位,按照插空的方法對&進(jìn)行代入之后,全都存在兩個(gè)位置逆反的順序值。
7.根據(jù)權(quán)利要求1所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,利用詞單元編號替代詞單元進(jìn)行代入、偏加、插空操作,然后基于獲得的語句序列是否為順序遞增的數(shù)字序列判斷是否與經(jīng)預(yù)處理的語句完全相同。
8.根據(jù)權(quán)利要求1所述的基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析方法,其特征在于,在根據(jù)所有句法向量的所有可能取值,生成至少一個(gè)句法結(jié)構(gòu)可能矩陣解,所述句法結(jié)構(gòu)可能矩陣解由按照謂語動(dòng)詞單元編號順序排列的句法向量組成;以及驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,如果完全相同,則將該句法結(jié)構(gòu)可能矩陣解中的各句法向量作為句法結(jié)構(gòu)解析結(jié)果之一這兩個(gè)步驟中,利用與句法結(jié)構(gòu)可能線性表達(dá)式解替代所述句法結(jié)構(gòu)可能矩陣解; 所述句法結(jié)構(gòu)可能線性表達(dá)式解與所述句法結(jié)構(gòu)可能矩陣解等價(jià); 所述句法結(jié)構(gòu)可能線性表達(dá)式解包括由按照謂語動(dòng)詞單元編號順序排列的句法向量表達(dá)式組成;每個(gè)所述句法向量表達(dá)式為對應(yīng)的句法向量的引導(dǎo)語元素、主語元素、謂語元素、賓語元素按照順序逐項(xiàng)偏加起來的表達(dá)式。
9.一種基于計(jì)算機(jī)的自然語言句法結(jié)構(gòu)解析裝置,包括: 讀取部件,用于讀取待解析的經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu),所述經(jīng)預(yù)處理的語句數(shù)據(jù)結(jié)構(gòu)中僅包括語句的關(guān)聯(lián)詞單元、謂語動(dòng)詞單元、名詞代詞單元,且各詞單元按照在所述經(jīng)預(yù)處理的語句中的順序進(jìn)行編號并標(biāo)注類型; 元素生成部件,用于對每一謂語動(dòng)詞單元,生成對應(yīng)的引導(dǎo)語元素、主語元素、謂語元素和賓語元素;所述引導(dǎo)語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的關(guān)聯(lián)詞單元之一,或空單元;所述主語元素的可能取值為編號小于對應(yīng)的謂語動(dòng)詞單元編號的名詞代詞單元之一或空單元,或在前出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一;所述謂語元素為對應(yīng)的所述謂語動(dòng)詞單元;所述賓語元素的可能取值為編號大于對應(yīng)的謂語動(dòng)詞單元編號且小于相鄰的在后出現(xiàn)的謂語動(dòng)詞單元編號的名詞代詞單元之一,或在后出現(xiàn)的謂語動(dòng)詞單元對應(yīng)的句法向量之一; 向量生成部件,用于根據(jù)所述引導(dǎo)語元素、主語元素、謂語元素、賓語元素的可能取值獲取每一謂語動(dòng)詞單元對應(yīng)的句法向量的所有可能取值,所述句法向量包括引導(dǎo)語元素、主語元素、謂語元素和賓語元素; 矩陣生成部件,用于根據(jù)所有句法向量的所有可能取值生成至少一個(gè)句法結(jié)構(gòu)可能矩陣解,所述句法結(jié)構(gòu)可能矩陣解由按照謂語動(dòng)詞單元編號順序排列的句法向量組成; 求解部件,用于驗(yàn)證根據(jù)句法結(jié)構(gòu)可能矩陣解得到的語句是否與所述經(jīng)預(yù)處理的語句完全相同,如果完全相同,則將該句法結(jié)構(gòu)可能矩陣解中的各句法向量輸出,并作為句法結(jié)構(gòu)解析結(jié)果之一。
【文檔編號】G06F17/27GK103927298SQ201410172114
【公開日】2014年7月16日 申請日期:2014年4月25日 優(yōu)先權(quán)日:2014年4月25日
【發(fā)明者】秦一男 申請人:秦一男