一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算及對齊方法
【專利摘要】本發(fā)明公開了一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算方法,包括以下步驟:首先提取英文和中文的匹配特征;采用模糊神經(jīng)網(wǎng)絡(luò)的形式實(shí)現(xiàn)信息融合;建立計(jì)算匹配度模型。本發(fā)明還公開了一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子對齊方法,包括以下步驟:打開英文文檔和對應(yīng)的中文文檔,從英文文檔和中文文檔的開始分別讀取N句英文句子和N句中文句子;然后根據(jù)前述“基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算方法”分別計(jì)算每一句英文句子分別和N句中文文檔的匹配度;根據(jù)匹配度找出中文和對應(yīng)英文句子。該發(fā)明具有更加準(zhǔn)確和快捷的特點(diǎn)。
【專利說明】一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算及對齊方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言自動(dòng)翻譯【技術(shù)領(lǐng)域】,尤其涉及一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算及對齊方法。
【背景技術(shù)】
[0002]語料庫(Corpus):運(yùn)用計(jì)算機(jī)技術(shù),按照一定的語言學(xué)原則,根據(jù)特定的語言研究目的而大規(guī)模收集并貯存在計(jì)算機(jī)中的真實(shí)語料。平行語料庫(Parallel Corpus):由源語文本(Source Text)及其平行對應(yīng)的譯語文本(Target Text)構(gòu)成的雙語語料庫。根據(jù)對齊的語言層面,平行對齊分為詞匯、語句和段落等層面的對齊。雙語句級層面對齊(Sentential Alignment between Source and Target Languages):以句子為單位對源語文本進(jìn)行切分,每個(gè)句子在譯語文本中相應(yīng)的翻譯句子進(jìn)行匹配,實(shí)現(xiàn)一一平行對應(yīng)(句子定義為:以句號、問號、感嘆號、分號結(jié)尾的一串字符,或以句號+引號、問號+引號、感嘆號+引號等結(jié)尾的一串字符)。模糊理論(Fuzzy Theory):在模糊集合理論基礎(chǔ)上發(fā)展起來的理論,包括模糊數(shù)學(xué)、模糊系統(tǒng)、不確定性和信息、模糊決策、模糊邏輯與人工智能等五個(gè)分支;模糊集合中,給定范圍內(nèi)元素對它的隸屬關(guān)系不一定只有“是”或“否”兩種情況,而是用介于O和I之間的實(shí)數(shù)來表示隸屬程度,還存在中間過渡狀態(tài)。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeural Networks,簡寫為ANNs):簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(ConnectionModel),它是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型;這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。英漢句子匹配程度(Matching Degree of English-Chinese Sentence):一英文語句和它對應(yīng)翻譯成的中文語句是匹配的;當(dāng)計(jì)算機(jī)判斷一個(gè)語句是不是另外一個(gè)語句的翻譯時(shí),可以定量地描述其翻譯對應(yīng)關(guān)系的可能性,這就是匹配的程度。
[0003]目前實(shí)現(xiàn)段落級和句子級文本對齊的方法有如下幾種,如基于長度的方法、基于詞匯的方法、基于長度與詞匯相結(jié)合的混合法、基于雙語詞典的方法等。
[0004](一)基于長度的方法認(rèn)為原文和譯文的長度之間存在一定的比例關(guān)系,譯文的句子長度與原文的句長成一定的正比例關(guān)系。對語源相近的語言,如英語與法語,這種方法尤其有效。Brown采用以單詞為單位,計(jì)算長度,對英法雙語的加拿大漢莎(Canadian Hansard)語料庫中較易處理的約90%的部分進(jìn)行了自動(dòng)對齊,準(zhǔn)確率達(dá)到99.4%(Brown, Lai&Mercer, 1991)。
[0005](二)基于詞匯的方法認(rèn)為單詞和其譯文應(yīng)該是同現(xiàn)的,其分布有相關(guān)性。這方面的工作以Kay和Roscheisen的算法為代表。Kay等人采用了松散范例(RelaxationParadigm)來進(jìn)行對齊(Kay&Roscheisent 1993:121-142)。他們用少量的英、德句子對這種方法作了示例,但未提供準(zhǔn)確率。Chen提出利用翻譯模型進(jìn)行雙語句子對齊的方法,認(rèn)為最佳句子對齊序列就是在給定的翻譯模型下產(chǎn)生該雙語語料概率最大的句子對齊狀態(tài)(Chenl993)。
[0006](三)混合法將長度與詞匯線索相結(jié)合,先利用詞匯信息對齊語料的一部分,無法對齊部分再用長度關(guān)系對齊。Wu用此方法對齊了相當(dāng)部分漢英雙語的香港(Hong KongHansard)漢莎語料庫,準(zhǔn)確率達(dá)到92.1%(王建新,2005 =121-122)。
[0007](四)基于雙語詞典的方法,把源語言文本看成單詞的序列作為橫軸,橫軸上的每個(gè)點(diǎn)對應(yīng)一個(gè)單詞;同樣以目標(biāo)語言文本作為縱軸。用平面上的一個(gè)點(diǎn)來表示源語言文本中某個(gè)詞和目標(biāo)語言文本中的某個(gè)詞對譯。但只有這兩個(gè)詞分屬于一對對齊的句子,它們才可能對齊。
[0008]從目前句級對齊技術(shù)來看,現(xiàn)有的技術(shù)存在以下不足:
[0009]第一種方法(基于句子長度)適應(yīng)范圍大多局限在語源相近、語系相同的兩種語言之間(如英語與法語),而對于英漢語這樣差異非常大的語言來說,則很難實(shí)現(xiàn)。
[0010]第二種方法(基于詞匯信息)最大的問題就是搜索空間比較大,獲得詞匯對等信息的代價(jià)比較高,從而花費(fèi)的時(shí)間太長。再加之一詞多義現(xiàn)象的存在,使得對應(yīng)信息的搜索變得更加復(fù)雜而最終效果不佳。
[0011]第三種方法(基于長度與詞匯)適應(yīng)范圍大多局限在語源相近、時(shí)間長。
[0012]第四種方法(基于雙語詞典)詞匯對齊占用的時(shí)間太大。
【發(fā)明內(nèi)容】
[0013]本發(fā)明需要解決的技術(shù)問題是如何更快、更好地實(shí)現(xiàn)雙語句級層面上的對齊。
[0014]為了解決以上技術(shù)問題,本發(fā)明公開了一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算方法,首先提取英文和中文的匹配特征;采用模糊神經(jīng)網(wǎng)絡(luò)的形式實(shí)現(xiàn)信息融合;建立計(jì)算匹配度模型。
[0015]本發(fā)明還公開了一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子對齊方法,打開英文文檔和對應(yīng)的中文文檔,從英文文檔和中文文檔的開始分別讀取N句英文句子和N句中文句子,然后分別計(jì)算每一句英文句子分別和N句中文文檔的匹配度,根據(jù)匹配度找出中文和對應(yīng)英文句子。
[0016]本發(fā)明通過提取英文和中文的匹配特征,采用一種模糊神經(jīng)網(wǎng)絡(luò)的形式實(shí)現(xiàn)了信息融合,實(shí)現(xiàn)了匹配度的計(jì)算,進(jìn)而實(shí)現(xiàn)了句子對齊,該發(fā)明具有更加準(zhǔn)確和快捷的特點(diǎn)。
【專利附圖】
【附圖說明】
[0017]當(dāng)結(jié)合附圖考慮時(shí),通過參照下面的詳細(xì)描述,能夠更完整更好地理解本發(fā)明以及容易得知其中許多伴隨的優(yōu)點(diǎn),但此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定,其中:
[0018]圖1是本發(fā)明實(shí)施例一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算方法流程圖。
[0019]圖2是本發(fā)明實(shí)施例匹配特征觸發(fā)的模糊集合示意圖。
[0020]圖3是本發(fā)明實(shí)施例一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子對齊方法示意圖。
【具體實(shí)施方式】
[0021]參照圖1-3對本發(fā)明的實(shí)施例進(jìn)行說明。
[0022]為使上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0023]如圖1所示,匹配程度計(jì)算方法的具體步驟如下,設(shè)英文句子為E,中文句子為C(SI):
[0024]1、把E分解成一個(gè)個(gè)的單詞,并查軟件內(nèi)置字典,求得每個(gè)單詞的中文含義。設(shè)所有單詞語義的集合為EC ;
[0025]2、把圖中的匹配特征⑶I清零,查找中文句子中每個(gè)字看是否屬于EC,若屬于則CDl加1,求得匹配特征CDl (S2);
[0026]3、把圖中的匹配特征⑶2清零,查找中文句子中每個(gè)單詞看是否屬于EC,若屬于則⑶2加I,求得匹配特征⑶2 (S2);
[0027]4、把圖中的匹配特征CD3清零,求得英文句子長度LE和中文句子長度LCJlJCD3=LE/LC,求得匹配特征CD3 (S2);
[0028]5、用圖2的方法把⑶1、⑶2、⑶3模糊化,隸屬度函數(shù)均取等腰三角形形式,例如圖2中用粗黑線標(biāo)示的模糊集合匪,相鄰模糊集之間的重疊度為50%,因此當(dāng)⑶1、⑶2、⑶3的實(shí)際值已知時(shí),⑶1、⑶2、⑶3的論域上最多有兩個(gè)模糊集被激活。例如圖2中,當(dāng)⑶I=Xl的時(shí)候,觸發(fā)模糊集合匪和NS,并到隸屬度hcdla、hcdlb。同理,當(dāng)⑶2、⑶3的實(shí)際值已知時(shí)可以得到隸屬度hcd2a、hcd2b,當(dāng)CD3的實(shí)際值已知時(shí)可以得到隸 屬度hcd3a、hcd3b
(S3);
[0029]6、令 hl=min (hcdla, hcd2a, hcd3a)
[0030]h2=min (hcdla, hcd2a,hcd3b)
[0031]h3=min (hcdla, hcd2b, hcd3a)
[0032]h4=min (hcdla, hcd2b, hcd3b)
[0033]h5=min (hcdlb, hcd2a, hcd3a)
[0034]h6=min (hcdlb, hcd2a, hcd3b)
[0035]h7=min (hcdlb, hcd2b,hcd3a)
[0036]h8=min (hcdlb, hcd2b, hcd3b)
[0037]其中,函數(shù)min(a, b, c)為取a、b、c中最小值運(yùn)算(S4);
[0038]7、單層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)模糊推理,神經(jīng)網(wǎng)絡(luò)輸出單元有一個(gè)S形激活函數(shù),以增強(qiáng)網(wǎng)絡(luò)逼近曲面的能力,此函數(shù)為:
【權(quán)利要求】
1.一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算方法,其特征在于,包括以下步驟: 首先提取英文和中文的匹配特征; 采用模糊神經(jīng)網(wǎng)絡(luò)的形式實(shí)現(xiàn)信息融合; 建立計(jì)算匹配度模型。
2.如權(quán)利要求1所述的基于模糊神經(jīng)網(wǎng)絡(luò)的句子匹配程度計(jì)算方法,其特征在于,具體包括以下步驟: (1)、把英文句子E分解成一個(gè)個(gè)的單詞,并查字典,求得每個(gè)單詞的中文含義,設(shè)所有單詞語義的集合為EC; (2)、把匹配特征CDl清零,查找中文句子中每個(gè)字看是否屬于EC,若屬于則CDl加1,求得匹配特征⑶I; (3)、把匹配特征CD2清零,查找中文句子中每個(gè)單詞看是否屬于EC,若屬于則CD2加I,求得匹配特征⑶2; (4)、把匹配特征CD3清零,求得英文句子長度LE和中文句子長度LC,則CD3=LE/LC,求得匹配特征⑶3 ; (5)、將⑶1、⑶2、⑶3模糊化,隸屬度函數(shù)均取等腰三角形形式,當(dāng)⑶1、⑶2、⑶3的實(shí)際值已知時(shí),⑶1、⑶2、⑶3的論域上最多有兩個(gè)模糊集被激活,⑶I對應(yīng)的隸屬度為hcdla、hcdlb, 0)2對應(yīng)的隸屬度為hcd2a、hcd2b, 0)3對應(yīng)的隸屬度為hcd3a、hcd3b ;
(6)、令hl=min (hcdla,hcd2a,hcd3a)
h2=min (hcdla, hcd2a,hcd3b)
h3=min (hcdla, hcd2b,hcd3a)
h4=min (hcdla, hcd2b,hcd3b)
h5=min (hcdlb, hcd2a,hcd3a)
h6=min (hcdlb, hcd2a, hcd3b)
h7=min (hcdlb, hcd2b,hcd3a)
h8=min (hcdlb, hcd2b, hcd3b) 其中,函數(shù)min(a, b, c)為取a、b、c中最小值運(yùn)算。 (7)、單層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)模糊推理,神經(jīng)網(wǎng)絡(luò)輸出單元有一個(gè)S形激活函數(shù),以增強(qiáng)網(wǎng)絡(luò)逼近曲面的能力,此函數(shù)為: d =-)-—
I+ exp {-σ + θ)
8 其中= Σ hawm
Λ7 =1 式中:Θ為閥值;hm為步驟6中求得的隸屬度值;wm為第m個(gè)權(quán)值,權(quán)值由步驟8訓(xùn)練求得;DK為英文句子為E和中文句子為C的匹配度; (8)、選取[0,I]區(qū)間的隨機(jī)值作為wl,w2....w8的初值(k=0),把已經(jīng)對齊好的樣本依次輸入到此算法中,那么k+Ι時(shí)刻的權(quán)值如下:
wm (k+1) = Wm (k) + β.[Dd (k) -D (k) ].hm (k) m = 1,2...8 式中:β為學(xué)習(xí)速率因子;Dd(k)為k時(shí)刻希望網(wǎng)絡(luò)的輸出,全部取l;D(k)為k時(shí)刻網(wǎng)絡(luò)的實(shí)際輸出,全部取I ;hm(k)為步驟6中求得的隸屬度值;經(jīng)過多次訓(xùn)練,求得權(quán)值wl, w2..…w8。
3.一種基于模糊神經(jīng)網(wǎng)絡(luò)的句子對齊方法,其特征在于,包括以下步驟: 打開英文文檔和對應(yīng)的中文文檔,從英文文檔和中文文檔的開始分別讀取N句英文句子和N句中文句子; 按照權(quán)利要求1所示的匹配度計(jì)算方法,分別計(jì)算每一句英文句子分別和N句中文文檔的匹配度; 根據(jù)匹配度找出中文和對應(yīng)英文句子。
4.如權(quán)利要求3所述的基于模`糊神經(jīng)網(wǎng)絡(luò)的句子對齊方法,其特征在于,所述N為3。
【文檔編號】G06F17/30GK103617227SQ201310604055
【公開日】2014年3月5日 申請日期:2013年11月25日 優(yōu)先權(quán)日:2013年11月25日
【發(fā)明者】戴光榮, 宋玉春 申請人:福建工程學(xué)院