亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語料庫制作裝置及其方法

文檔序號:6638315閱讀:276來源:國知局
專利名稱:語料庫制作裝置及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種語料庫(Corpus)的制作裝置及其方法,更具體地說,本發(fā)明涉及一種能分析單詞間的語義關(guān)系、統(tǒng)計相關(guān)關(guān)系以及相似關(guān)系的語料庫(Corpus)的制作裝置及其方法。
背景技術(shù)
現(xiàn)今,各種各樣的信息交融在一起人類提供了方便、快捷、有效的信息,同時也帶來了這樣一個問題,即,如何才能有效地組織管理并最終有效利用這些信息。目前,常用的信息存儲方法有基于詞典的方法和基于知識庫的方法。
語料庫是用來存儲語言材料的倉庫,其內(nèi)部大量的語言材料能被廣泛應(yīng)用于計算機檢索、查找和分析。
現(xiàn)有的語料庫的制作方法包括基于詞典的方法。在該方法中,將與預(yù)先所具有的詞典信息中的單詞相一致的單詞切分出來。由于詞典中存在的單詞大部分能正確切分出來,所以在語料庫中很少包括不是單詞的信息,所以可以生成高精度的語料庫。但是,基于詞典的方法需要存儲詞典的大量存儲空間,因此不利于在便攜式設(shè)備上使用該方法。同時,由于僅僅切分詞典中存在的單詞,所以語料庫中的如特殊的專業(yè)單詞或最新單詞一般不能作為單詞信息切分出來。另外,在基于詞典的方法中,關(guān)于單詞之間的關(guān)系的信息很難量化(quantization),從而很難將其運用到數(shù)字化設(shè)備當(dāng)中。
根據(jù)現(xiàn)有技術(shù)構(gòu)造的語料庫雖然各有特點,但其共有的不足之處在于,語料庫中一般存放的都只是單詞,而并不反映單詞之間的關(guān)系,所以能夠提供的信息比較少,相應(yīng)能提供的應(yīng)用就受到限制。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的之一在于提供一種能夠在有限空間存儲盡量多的單詞,分析單詞間的語義關(guān)系、統(tǒng)計相關(guān)關(guān)系以及相似關(guān)系的語料庫的制作裝置。
本發(fā)明的語料庫的制作裝置,其除了包括單詞抽出部、出現(xiàn)頻率計算部、關(guān)聯(lián)度計算部、語料庫制作部之外,其特征在于,該語料庫制作裝置還包括包含關(guān)系制作部,該包含關(guān)系制作部基于單詞之間的語義,對單詞抽出部得到的單詞用樹形結(jié)構(gòu)建立縱向包含關(guān)系結(jié)構(gòu)。該縱向包含關(guān)系結(jié)構(gòu)是表示所存儲的單詞之間的語義的上下位概念的包含關(guān)系。
在本發(fā)明的語料庫制作裝置中,出現(xiàn)頻率計算部可以按下式(1)計算所述單詞之間的相關(guān)度 (亦即共現(xiàn)權(quán)重Weightw1w2)relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分別表示所述出現(xiàn)頻率計算部計算得到的單詞w1和單詞w2的共現(xiàn)頻率、單詞w1的出現(xiàn)頻率、以及單詞w1和單詞w2之間的平均共現(xiàn)距離,γ為可調(diào)參數(shù)。
另外,在本發(fā)明的語料庫制作裝置中,關(guān)聯(lián)度計算部按下式(2)計算上述兩個單詞之間的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2)(2)α,β∈(0,1)且α+β=1其中,simsemantic(w1,w2)表示單詞w1和單詞w2的語義相似度,simstatistic(w1,w2)表示所述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度,α和β為可調(diào)參數(shù)。
此外,在本發(fā)明的語料庫制作裝置中,關(guān)聯(lián)度計算部可按下式(3)計算所述單詞w1和單詞w2的語義相似度simsemantic(w1,w2)simsemantic(w1,w2)=1/Dissemantic(w1,w2)(3)其中Dissemantic(w1,w2)表示根據(jù)包含關(guān)系制作部構(gòu)成的縱向包含關(guān)系結(jié)構(gòu)中獲得的單詞w1和單詞w2之間的最短距離。
上述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度simstatistic(w1,w2)即為單詞w1和單詞w2的相關(guān)度
在此言及的“單詞w1和單詞w2的最短距離Dissemantic(w1,w2)”是指,在關(guān)系制作部構(gòu)成的單詞縱向包含關(guān)系結(jié)構(gòu)中,單詞w1和單詞w2之間的最短距離。
“單詞w1的出現(xiàn)頻率freqw1”是指,單詞w1(基準詞)在訓(xùn)練樣本集中出現(xiàn)的總的次數(shù)。
“共現(xiàn)”是指窗口寬度 內(nèi),就訓(xùn)練樣本L(L屬于訓(xùn)練樣本集中任意一樣本)中單詞w1的某次出現(xiàn)為起點,對其后 個單詞進行觀察,并得到單詞集 若發(fā)現(xiàn)詞 則說單詞w1和單詞w2在窗口寬度 中共現(xiàn)。
“共現(xiàn)頻率freqw1,w2”是指,單詞w1和單詞w2在訓(xùn)練樣本集中同時出現(xiàn)在一定的預(yù)設(shè)的窗口寬度內(nèi)的次數(shù)。
“共現(xiàn)距離disw1w2)”是指,單詞w1和單詞w2在預(yù)設(shè)的窗口寬度內(nèi)同時出現(xiàn)時的單詞w2距單詞w1的位置距離。
“平均共現(xiàn)距離 ”是指,disw1w2‾=ΣK=1freqw1w2(disw1w2)k,]]>其中disw1w2)k表示單詞w1和單詞w2的第k次共現(xiàn)距離。
另外,在本發(fā)明的語料庫制作裝置中,出現(xiàn)頻率計算部可按下式(4)計算單詞wi的關(guān)系個數(shù)kiki=lgwfreqilgwfreq‾×k,---(4)]]>其中,wfreq表示所述語料庫中所有單詞的平均出現(xiàn)頻率,wfreqi表示單詞wi的出現(xiàn)頻率,k表示所述語料庫中所有單詞的平均關(guān)系個數(shù);當(dāng)單詞wi的關(guān)系總數(shù)超過δ×ki時,其中,δ為預(yù)先設(shè)定的大于1的緩沖系數(shù),對與單詞wi的關(guān)系權(quán)重最小的單詞wj進行裁減,該關(guān)系權(quán)重Weight(Relation)按下式(5)計算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示單詞wi和單詞wj的共現(xiàn)頻率,Weightwiwj表示單詞wi和單詞wj的共現(xiàn)權(quán)重。
本發(fā)明的另一目的還在于提供一種語料庫制作方法。
該語料庫制作方法,包括以下步驟
單詞抽出步驟對訓(xùn)練樣本內(nèi)容進行切分,得到單詞序列;包含關(guān)系制作步驟基于單詞之間的語義,對單詞抽出步驟得到的單詞用樹形結(jié)構(gòu)建立縱向包含關(guān)系結(jié)構(gòu);出現(xiàn)頻率計算步驟計算單詞的出現(xiàn)頻率,兩個單詞之間的共現(xiàn)頻率、共現(xiàn)距離以及平均共現(xiàn)距離;相關(guān)度相似度計算步驟根據(jù)包含關(guān)系制作步驟和出現(xiàn)頻率計算步驟的結(jié)果,計算兩個單詞之間的相關(guān)度和相似度;語料庫制作步驟將以上步驟中得到的單詞、它們之間的包含關(guān)系、相關(guān)度和相似度作為記錄來構(gòu)造語料庫。
根據(jù)本發(fā)明的語料庫制作方法,在其相關(guān)度相似度計算步驟中,兩個單詞之間的相關(guān)度 (亦即共現(xiàn)權(quán)重Weightw1w2)可按下式計算relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分別表示從出現(xiàn)頻率計算步驟得到的單詞w1和單詞w2的共現(xiàn)頻率、單詞w1的出現(xiàn)頻率、以及單詞w1和單詞w2之間的平均共現(xiàn)距離,γ為可調(diào)參數(shù)。
上述單詞w1和單詞w2的語義相似度simsemantic(w1,w2)可按下式(3)進行計算simsemantic(w1,w2)=1/Dissemantic(w1,w2) (3)其中Dissemantic(w1,w2)表示根據(jù)所述包含關(guān)系制作步驟建立的所述縱向包含關(guān)系結(jié)構(gòu)中獲得的單詞w1和單詞w2之間的最短距離。
上述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度simstatistic(w1,w2)即為單詞w1和單詞w2的相關(guān)度。
另外,本發(fā)明的語料庫制作方法,還可以包括裁減步驟按下式(4)計算單詞wi的關(guān)系個數(shù)kiki=lgwfreqilgwfreq‾×k,---(4)]]>其中,wfreq表示語料庫中所有單詞的平均出現(xiàn)頻率,wfreqi表示單詞wi的出現(xiàn)頻率,k表示所述語料庫中所有單詞的平均關(guān)系個數(shù);當(dāng)單詞wi的關(guān)系總數(shù)超過δ×ki時,其中,δ為預(yù)先設(shè)定的大于1的緩沖系數(shù),對與單詞wi的關(guān)系權(quán)重最小的單詞wj進行裁減,該關(guān)系權(quán)重Weight(Relation)按下式(5)計算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示單詞wi和單詞wj的共現(xiàn)頻率,Weightwiwj表示單詞wi和單詞wj的共現(xiàn)權(quán)重根據(jù)本發(fā)明的語料庫制作裝置及其制作方法不需要存儲詞典的大量存儲空間,在存儲單詞的同時,不僅對存儲單詞之間的橫向關(guān)系(統(tǒng)計相關(guān)關(guān)系)進行分析,還能同時對單詞之間縱向關(guān)系(語義的上下位概念包含關(guān)系)進行分析、并且基于該橫向及縱向關(guān)系分析單詞之間相似性。即根據(jù)本發(fā)明的語料庫制作裝置及其制作方法所得到語料庫同時具有單詞間的縱向包含關(guān)系結(jié)構(gòu)、相關(guān)網(wǎng)絡(luò)、相似網(wǎng)絡(luò),因此,使用根據(jù)本發(fā)明制作的語料庫不僅可以對各種信息進行有機的組織,而且更加便于根據(jù)用戶的要求對信息進行分類,在海量的數(shù)據(jù)中找到個人感興趣的信息。因此,由此制作的語料庫可以用在例如信息檢索、信息抽取、訓(xùn)練樣本分類、智能電視節(jié)目選擇等應(yīng)用中。
另外,根據(jù)本發(fā)明的語料庫制作裝置及其制作方法,當(dāng)隨著訓(xùn)練樣本的增加,語料庫中的相關(guān)網(wǎng)絡(luò)不斷地膨脹,由于本發(fā)明采取適宜的裁減方案,使得語料庫物理空間的負擔(dān)減輕,以保持單詞存儲及單詞間相關(guān)度相似度分析的效率。
此外,根據(jù)本發(fā)明的語料庫制作裝置及其制作方法,由于相關(guān)網(wǎng)絡(luò)特定的存儲結(jié)構(gòu)以及裁減算法的運用,使得語料庫中保存的單詞具有動態(tài)更新性。即、當(dāng)訓(xùn)練樣本中出現(xiàn)了語料庫中已有的單詞,新的訓(xùn)練樣本有可能為該單詞引入新的關(guān)系,當(dāng)該單詞的關(guān)系總數(shù)超過裁減閾值時,便根據(jù)上述的裁減方案對其進行關(guān)系裁減,從而在引入新的關(guān)系的同時,淘汰弱的關(guān)系,使所制作的語料庫在保持一定容量范圍的同時,能根據(jù)訓(xùn)練樣本進行動態(tài)更新。


圖1是本發(fā)明的語料庫制作裝置的一實施方式的結(jié)構(gòu)示意圖;圖2是本發(fā)明的該種實施方式的單詞抽出部的工作流程圖;
圖3表示本發(fā)明的該種實施方式的由包含關(guān)系制作部構(gòu)成的單詞間的縱向包含關(guān)系結(jié)構(gòu);圖4是本發(fā)明的該種實施方式的出現(xiàn)頻率計算部的基本處理流程圖;圖5是本發(fā)明的該種實施方式的關(guān)聯(lián)度計算部計算相似度的流程圖;圖6是本發(fā)明的該種實施方式所得到的語料庫的結(jié)構(gòu)圖;圖7是本發(fā)明的該種實施方式的包含關(guān)系制作部所得到的縱向包含關(guān)系結(jié)構(gòu)的一個實例;圖8是本發(fā)明的該種實施方式所得到的語料庫的結(jié)構(gòu)圖的一個實例。
具體實施例方式
在下文中,根據(jù)附圖所示的具體實施方式
對本發(fā)明進行解釋。
圖1是本發(fā)明的語料庫制作裝置的一實施方式的結(jié)構(gòu)示意圖,其中用附圖標記100表示語料庫制作裝置。該語料庫制作裝置100包括單詞抽出部104、包含關(guān)系制作部106、出現(xiàn)頻率計算部108、關(guān)聯(lián)度計算部110、語料庫制作部112。
訓(xùn)練樣本102經(jīng)單詞抽出部104分割成單詞序列,經(jīng)由包含關(guān)系制作部106根據(jù)單詞間的語義的上下位概念的關(guān)系來制作單詞間的縱向包含關(guān)系,經(jīng)由出現(xiàn)頻率計算部108計算出單詞間的共現(xiàn)頻率和共現(xiàn)距離,經(jīng)由關(guān)聯(lián)度計算部110計算出單詞間的相關(guān)度和相似度,再由語料庫制作部112將單詞、單詞的縱向包含關(guān)系、相關(guān)度、相似度存入語料庫保存部114。
以下將對上述各部分作出詳細描述。
訓(xùn)練樣本102是指用于訓(xùn)練的語料,例如,文章。語料用于構(gòu)造語料庫的相關(guān)度網(wǎng)絡(luò),其必須具備語料大、涵蓋面廣、具有一定的權(quán)威性的條件,以保證可以對建立在其上的各種算法進行客觀的評價。
單詞抽出部104主要用來對訓(xùn)練樣本102進行詞法分析,通過自然語言處理工具對訓(xùn)練樣本的內(nèi)容進行切分,得到單詞序列。在中文系統(tǒng)中可以采用自學(xué)習(xí)的方法對訓(xùn)練樣本進行切分。該方法例如可以基于最大似然原理,通過EM(Expectation-Maximization)算法的多次迭代,最終得到訓(xùn)練樣本的最佳切分結(jié)果。
圖2給出了根據(jù)該實施方式的該方法的處理流程。讀入的訓(xùn)練樣本102經(jīng)過單詞抽出部104中的非法字符處理模塊204提出合法字符并存入臨時訓(xùn)練樣本中,然后一方面用訓(xùn)練樣本切分模塊208通過查找數(shù)據(jù)庫的記錄來對訓(xùn)練樣本進行切分,另一方面通過自學(xué)習(xí)模塊206利用該樣本對數(shù)據(jù)庫進行適當(dāng)更新。
包含關(guān)系制作部106用來制作單詞間的縱向包含關(guān)系結(jié)構(gòu)。這種縱向包含關(guān)系結(jié)構(gòu)實際上是基于概念單詞之間的語義的上下位概念的包含關(guān)系得到的。圖3示出了用樹形結(jié)構(gòu)表征的這種縱向關(guān)系。在這樣的語義樹上我們用父子關(guān)系來表示節(jié)點之間的包含關(guān)系。換句話說,父節(jié)點(Fa_cnpt)所代表的單詞在語義上包含了子節(jié)點(Son_cnpt)所代表的單詞??v向包含關(guān)系結(jié)構(gòu)的訓(xùn)練關(guān)鍵是要組織一個語義森林,該語義森林又包含了很多的語義樹。這需要有語言學(xué)的知識,可以通過同義詞詞典或者專家分類的方法獲得語義樹。在該實施方式中,語義樹的建立借鑒了專家分類(知網(wǎng)),并通過人工分類而獲得。
這樣,就構(gòu)成了語料庫的縱向包含關(guān)系結(jié)構(gòu)。
出現(xiàn)頻率計算部108用來計算單詞之間的共現(xiàn)距離和共現(xiàn)頻率。出現(xiàn)頻率計算部108的基本處理流程如圖4所示。首先,出現(xiàn)頻率計算部108接收單詞抽出部104的處理結(jié)果,即單詞序列。預(yù)先設(shè)定一個寬度為w的窗口,如果某兩個單詞在窗口內(nèi)同時出現(xiàn)則認為這兩個單詞的共現(xiàn)頻率為一次,而兩個單詞之間的間隔為共現(xiàn)距離。
基于單詞之間的共現(xiàn)距離和共現(xiàn)頻率,出現(xiàn)頻率計算部108按下面公式(1)計算單詞之間的共現(xiàn)權(quán)重Wegihtw1w2,亦即相關(guān)度 relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分別表示出現(xiàn)頻率計算部108計算得到的單詞w1和單詞w2的共現(xiàn)頻率、單詞w1的出現(xiàn)頻率、以及單詞w1和單詞w2之間的平均共現(xiàn)距離,γ為可調(diào)參數(shù)。
此外,語料庫中的關(guān)系很多,隨著訓(xùn)練樣本的增加,語料庫中的相關(guān)網(wǎng)絡(luò)會不斷地膨脹,使得物理空間的負擔(dān)相當(dāng)繁重。因此需要有一個裁減算法控制其空間上的膨脹。在圖4中所示的出現(xiàn)頻率計算部108采用的關(guān)系裁減算法如下ki=lgwfreqilgwfreq‾×k---(4)]]>其中wfreq為語料庫中所有單詞的平均出現(xiàn)頻率,wfreqi為單詞wi的出現(xiàn)頻率。k為語料庫中所有單詞的平均關(guān)系個數(shù)。裁減的過程是一個動態(tài)過程,當(dāng)某個單詞的關(guān)系總數(shù)超過閾值δ×ki(δ為預(yù)先設(shè)定的大于1的緩沖系數(shù))時,對其進行裁減。裁減的對象是那些關(guān)系權(quán)重最小的關(guān)系。計算方法如下Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>freqwiwj表示單詞wi和單詞wj的共現(xiàn)頻率,Weightwiwj表示單詞wi和單詞wj的共現(xiàn)權(quán)重。
這樣,基于以上各部分的處理構(gòu)成語料庫的相關(guān)網(wǎng)絡(luò)。
接下來,關(guān)聯(lián)度計算部110對單詞之間的相似度進行計算。相似度的計算參照圖5加以說明。首先,根據(jù)語料庫中的縱向包含關(guān)系結(jié)構(gòu)來計算并獲得兩個單詞間的最短距離Dissemantic(w1,w2)(502)。接著,依據(jù)所得的最短距離Dissemantic(w1,w2)來計算以simsemantic(w1,w2)表示的單詞w1和單詞w2的語義相似度(504)。然后,基于語料庫的相關(guān)網(wǎng)絡(luò)來計算以simstatistic(w1,w2)即為單詞w1和單詞w2的相關(guān)度(506)。繼而,根據(jù)步驟504和506所得結(jié)果,通過下式(2)計算兩個單詞之間的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2)(2)α,β∈(0,1)且α+β=1其中,α和β為可調(diào)參數(shù)。
這樣,通過以上處理便構(gòu)成語料庫的相似網(wǎng)絡(luò)。
語料庫制作部112把由包含關(guān)系制作部、出現(xiàn)頻率計算部、關(guān)聯(lián)度計算部構(gòu)成并輸出的語料庫的縱向包含關(guān)系結(jié)構(gòu)、相關(guān)網(wǎng)絡(luò)、相似網(wǎng)絡(luò)作為輸入,保存在語料庫保存部114中。
圖6給出了最終得到的語料庫的結(jié)構(gòu)圖,在圖6中,每個節(jié)點代表一個單詞,其中,左邊是縱向包含關(guān)系,右邊是橫向相關(guān)關(guān)系,虛線表示同一個節(jié)點分開表示的效果。實際上虛線聯(lián)接的節(jié)點是同一個節(jié)點的不同組成部分。左邊的部分與圖3相似,在此不再贅述。在右邊的圖中,上面表示相關(guān)關(guān)系的聯(lián)接,下面表示相似關(guān)系的聯(lián)接。上面的相關(guān)關(guān)系聯(lián)接到相關(guān)的單詞并且標出相關(guān)的頻度和距離。下面的相似關(guān)系聯(lián)接到相似的單詞并且標出相似的程度。
本發(fā)明的語料庫制作方法的具體實施方式
,可以使用本發(fā)明的語料庫制作裝置的實施方式,以圖2、圖3、圖4、圖5所示的方式來實現(xiàn)其單詞提取步驟;包含關(guān)系制作步驟;出現(xiàn)頻率計算步驟;相關(guān)度相似度計算步驟;以及語料庫制作步驟,得到如圖6所示的同時具有單詞間的縱向包含關(guān)系結(jié)構(gòu)、相關(guān)網(wǎng)絡(luò)、相似網(wǎng)絡(luò)的語料庫。
(實施例)以下用一個實例來具體說明本發(fā)明的語料庫制作的流程。
在該實例中,訓(xùn)練樣本采用以下的一段文章歐洲男子體操賽閉幕新華社洛桑5月27日電(記者施光耀)第十九屆歐洲男子體操錦標賽經(jīng)過3天角逐,27日下午在瑞士洛桑降下帷幕。蘇聯(lián)選手大振雄風(fēng),奪走全部8枚金牌中的6枚(1枚并列)。蘇聯(lián)名將莫吉利尼獲得個人全能、鞍馬和雙杠(并列)3枚金牌,索赫爾博獲得自由體操、跳馬和單杠三項冠軍。瑞士選手吉貝爾利尼和意大利選手凱基分別獲得雙杠和吊環(huán)冠軍。來自25個歐洲國家的73名運動員參加了本屆比賽。(完)單詞抽出部104利用單詞切分工具,把一篇文章的內(nèi)容切成一個個獨立的單詞,其中主要抽出名詞。輸出結(jié)果如下歐洲 男子 體操賽 新華社 洛桑 記者 光耀 歐洲 男子 體操 錦標賽 角逐 瑞士 洛桑 帷幕 蘇聯(lián) 選手 雄風(fēng) 金牌 蘇聯(lián) 名將 個人全能 鞍馬 雙杠 金牌 跳馬 單杠 冠軍 瑞士 選手 貝爾 意大利 選手 雙杠 吊環(huán) 冠軍 歐洲 國家 運動員 比賽包含關(guān)系制作部106根據(jù)單詞抽出部的輸出,同時借鑒專家分類(知網(wǎng))輸出如圖7所示的結(jié)果,即縱向包含關(guān)系結(jié)構(gòu)。
出現(xiàn)頻率計算部108接收切分的單詞的集合,通過預(yù)先設(shè)定的寬度為w的窗口內(nèi),對一篇篇訓(xùn)練樣本進行掃描。如果某兩個單詞在窗口內(nèi)同時出現(xiàn),則認為這兩個單詞共現(xiàn)一次,兩個單詞之間的間隔為共現(xiàn)距離。經(jīng)過統(tǒng)計,得到以每一個詞作為關(guān)鍵詞,與該關(guān)鍵詞相關(guān)的其它的單詞的平均共現(xiàn)距離和共現(xiàn)頻率。
在下表中,“KEY”表示關(guān)鍵詞;“REL_NODE”表示相關(guān)節(jié)點“frequency”表示共現(xiàn)頻率;ave_dis表示平均共現(xiàn)距離。
KEY男子REL_NODE[1]=體操賽 ave_dis=1.000000 frequency=1REL_NODE[2]=新華社 ave_dis=2.000000 frequency=1REL_NODE[3]=洛桑 ave_dis=4.000000 frequency=2REL_NODE[4]=記者 ave_dis=4.000000 frequency=1REL_NODE[5]=光耀 ave_dis=5.000000 frequency=1REL_NODE[6]=體操 ave_dis=1.000000 frequency=1REL_NODE[7]=錦標賽 ave_dis=2.000000 frequency=1REL_NODE[8]=角逐 ave_dis=3.000000 frequency=1REL_NODE[9]=瑞士 ave_dis=4.000000 frequency=1從上表中可以看出,例如,“男子”和“記者”的平均共現(xiàn)距離為4.000000,共現(xiàn)頻率為1。
關(guān)聯(lián)度計算部110計算兩個單詞之間的相關(guān)度和兩個單詞之間的相似度。首先根據(jù)出現(xiàn)頻率計算部統(tǒng)計得到的單詞之間的平均共現(xiàn)距離和共現(xiàn)頻率計算單詞與單詞之間的相關(guān)度relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中, 即為上表中的平均距離ave_dis,γ為一可調(diào)參數(shù)。這樣就可以得到兩詞之間的相關(guān)度。
如果取γ=0.5,如上“男子”和“記者”的平均距離為4.000000,共現(xiàn)頻率為1,假如此時“男子”的出現(xiàn)頻率為10,則兩詞的相關(guān)度relw1w2‾=110×0.54.0+0.5=0.01111]]>
根據(jù)上文所述的相似度計算方法,基于以上語料庫的縱向包含關(guān)系結(jié)構(gòu)和相關(guān)度網(wǎng)絡(luò),使用式(2)計算本實例中的相似度sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2)(2)α,β∈(0,1)且α+β=1在縱向包含關(guān)系中,例如,如果兩個單詞具有父子關(guān)系,其間的最短距離Dissemantic(w1,w2)可取為2,其語義相似度simsemantic(w1,w2)為0.5。simstatistic(w1,w2)表示w1和w2的統(tǒng)計相關(guān)度,即為上式(1)計算所得的相關(guān)度 例如,在此取α=0.4,β=0.6,計算“男子”和“記者”之間的相似度。由于“男子”和“記者”之間沒有父子關(guān)系,simsenantic(w1,w2)為0,simstatistic(w1,w2)為公式(1)計算所得的0.01111。則兩詞之間的相似度用公式(2)得到,sim(W1,w2)=0.4×0+0.6×0.01111=0.006666由此通過語料庫制作部112將符合語料庫結(jié)構(gòu)的記錄,例如,上面統(tǒng)計所得的關(guān)鍵單詞,如“男子”、相關(guān)單詞,如“記者”和它們的相似度“0.006666”以一條數(shù)據(jù)庫記錄的形式保存在語料庫保存部114中。根據(jù)該實例構(gòu)成的語料庫結(jié)構(gòu)如圖8所示。這樣,包含單詞、關(guān)鍵單詞與相關(guān)單詞的縱向包含關(guān)系結(jié)構(gòu)、其對應(yīng)的相關(guān)網(wǎng)絡(luò)和相似網(wǎng)絡(luò)的記錄構(gòu)成了語料庫。當(dāng)需要兩個單詞的相關(guān)度或相似度信息時,就從該語料庫中讀取。
另外,如此時加入一個新關(guān)系(newrelation)“男子和足球”,滿足啟動裁減條件(即lgwfreqilgwfreq‾×ki×δ<10]]>),窗口寬度w=6,γ=3,且此時ave_dis=1,frequency=1,,則由式(5)得上述新關(guān)系的權(quán)重Weight(newrelation)=freqw1w2×weightw1w2=freqw1w2×freqw1w2freqw1×γdistw1w2‾+γ=1×1/10×(3/(1+3))=0.075]]>而此時“男子”和“瑞士”的關(guān)系為Weight(relation)=1×1/10×(3/(4+3))=0.043,所以該關(guān)系要被裁減掉,而新關(guān)系“男子”和“足球”則被加入語料庫。由此,使語料庫得到更新。
上述實例只是為了說明本發(fā)明實施方式的實例,本發(fā)明也可以采用修改的其它實現(xiàn)方式進行。語料庫制作裝置可以以處理器為核心器件構(gòu)成。制作的語料庫可以用硬盤、磁盤等常用的存儲設(shè)備來實現(xiàn)。
以上對本發(fā)明的語料庫制作裝置及其方法做了詳細的說明。本領(lǐng)域技術(shù)人員在本發(fā)明的精神和范圍內(nèi)所做出的修改和改進應(yīng)當(dāng)包含在本發(fā)明所附的權(quán)利要求限定的范圍內(nèi)。
權(quán)利要求
1.一種包括單詞抽出部、出現(xiàn)頻率計算部、關(guān)聯(lián)度計算部、語料庫制作部的語料庫制作裝置,其特征在于該語料庫制作裝置還包括包含關(guān)系制作部,該包含關(guān)系制作部基于單詞之間的語義,對單詞抽出部得到的單詞用樹形結(jié)構(gòu)建立縱向包含關(guān)系結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的語料庫制作裝置,其特征在于,所述出現(xiàn)頻率計算部按下式(1)計算所述單詞之間的相關(guān)度 relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分別表示所述出現(xiàn)頻率計算部得到的單詞w1和單詞w2的共現(xiàn)頻率、單詞w1的出現(xiàn)頻率、以及單詞w1和單詞w2之間的平均共現(xiàn)距離,γ為可調(diào)參數(shù)。
3.根據(jù)權(quán)利要求2所述的語料庫制作裝置,其特征在于所述關(guān)聯(lián)度計算部按下式(2)計算兩個單詞之間的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2) (2)α,β∈(0,1)且α+β=1其中,simsemantic(w1,w2)表示單詞w1和單詞w2的語義相似度,simstatistic(w1,w2)表示所述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度,α和β為可調(diào)參數(shù)。
4.根據(jù)權(quán)利要求3所述的語料庫制作裝置,其特征在于所述關(guān)聯(lián)度計算部按下式(3)計算所述單詞w1和單詞w2的語義相似度simsemantic(w1,w2)simsemantic(w1,w2)=1/Dissemantic(w1,w2)(3)其中Dissemantic(w1,w2)表示根據(jù)所述包含關(guān)系制作部構(gòu)成的所述縱向包含關(guān)系結(jié)構(gòu)中獲得的單詞w1和單詞w2之間的最短距離。
5.根據(jù)權(quán)利要求3所述的語料庫制作裝置,其特征在于所述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度simstatistic(w1,w2)為所述單詞w1和單詞w2的相關(guān)度
6.根據(jù)權(quán)利要求1所述的語料庫制作裝置,其特征在于在所述出現(xiàn)頻率計算部,按下式(4)計算單詞wi的關(guān)系個數(shù)kiki=lg wfreqilgwfreq‾×k,---(4)]]>其中,wfreq表示所述語料庫中所有單詞的平均出現(xiàn)頻率,wfreqi表示單詞wi的出現(xiàn)頻率,k表示所述語料庫中所有單詞的平均關(guān)系個數(shù);當(dāng)單詞wi的關(guān)系總數(shù)超過閾值δ×ki時,其中,δ為預(yù)先設(shè)定的大于1的緩沖系數(shù),對與單詞wi的關(guān)系權(quán)重最小的單詞wj進行裁減,所述關(guān)系權(quán)重Weight(Relation)按下式(5)計算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示單詞wi和單詞wj的共現(xiàn)頻率,Weightwiwj表示單詞wi和單詞wj的共現(xiàn)權(quán)重。
7.一種語料庫制作方法,其特征在于包括以下步驟單詞提取步驟對訓(xùn)練樣本內(nèi)容進行切分,得到單詞序列;包含關(guān)系制作步驟基于單詞之間的語義,對單詞抽出步驟得到的單詞用樹形結(jié)構(gòu)建立縱向包含關(guān)系結(jié)構(gòu);出現(xiàn)頻率計算步驟計算單詞的出現(xiàn)頻率,兩個單詞之間的共現(xiàn)頻率、共現(xiàn)距離以及平均共現(xiàn)距離;相關(guān)度相似度計算步驟根據(jù)包含關(guān)系制作步驟和出現(xiàn)頻率計算步驟的結(jié)果,計算兩個單詞之間的相關(guān)度和相似度;語料庫制作步驟將以上步驟中得到的單詞、它們之間的縱向包含關(guān)系結(jié)構(gòu)、相關(guān)度和相似度作為記錄來構(gòu)造語料庫。
8.根據(jù)權(quán)利要求7所述的語料庫制作方法,其特征在于在所述相關(guān)度相似度計算步驟中,按下式計算所述兩個單詞之間的相關(guān)度 relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分別表示從所述出現(xiàn)頻率計算步驟得到的單詞w1和單詞w2的共現(xiàn)頻率、單詞w1的出現(xiàn)頻率、以及單詞w1和單詞w2之間的平均共現(xiàn)距離,γ為可調(diào)參數(shù)。
9.根據(jù)權(quán)利要求8所述的語料庫制作方法,其特征在于在所述相關(guān)度相似度計算步驟中,如下式(2)計算所述兩個單詞之間的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2) (2)α,β∈(0,1)且α+β=1其中,simsemantic(w1,w2)表示單詞w1和單詞w2的語義相似度,simstatistic(w1,w2)是所述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度,α和β為可調(diào)參數(shù)。
10.根據(jù)權(quán)利要求9所述的語料庫制作方法,其特征在于所述單詞w1和單詞w2的語義相似度simsemantic(w1,w2)按下式(3)進行計算simsemantic(w1,w2)=1/Dissemantic(w1,w2) (3)其中Dissemantic(w1,w2)表示根據(jù)所述包含關(guān)系制作步驟建立的所述縱向包含關(guān)系結(jié)構(gòu)中獲得的單詞w1和單詞w2之間的最短距離。
11.根據(jù)權(quán)利要求9所述的語料庫制作方法,其特征在于所述單詞w1和單詞w2之間的統(tǒng)計相關(guān)度simstatistic(w1,w2)為所述單詞w1和單詞w2的之間的相關(guān)度
12.根據(jù)權(quán)利要求7所述的語料庫制作方法,其特征在于,還包括裁減步驟按下式(4)計算單詞wi的關(guān)系個數(shù)kiki=lgwfreqilgsfreq‾×k,---(4)]]>其中,wfreq表示所述語料庫中所有單詞的平均出現(xiàn)頻率,wfreqi表示單詞wi的出現(xiàn)頻率,k表示所述語料庫中所有單詞的平均關(guān)系個數(shù);當(dāng)單詞wi的關(guān)系總數(shù)超過閾值δ×ki時,其中,δ為預(yù)先設(shè)定的大于1的緩沖系數(shù),對與單詞wi的關(guān)系權(quán)重最小的單詞wj進行裁減,所述關(guān)系權(quán)重Weight(Relation)按下式(5)計算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示單詞wi和單詞wj的共現(xiàn)頻率,Weightwiwj表示單詞wi和單詞wj的共現(xiàn)權(quán)重。
全文摘要
本發(fā)明提供一種語料庫的制作裝置及其制作方法,該裝置除了包括單詞抽出部、出現(xiàn)頻率計算部、關(guān)聯(lián)度計算部、語料庫制作部之外,還包括包含關(guān)系制作部,該包含關(guān)系制作部基于單詞之間的語義,對單詞抽出部得到的單詞用樹形結(jié)構(gòu)建立縱向包含關(guān)系結(jié)構(gòu)。根據(jù)本發(fā)明的語料庫制作裝置及其制作方法所得到的語料庫同時具有單詞間的縱向包含關(guān)系結(jié)構(gòu)、相關(guān)網(wǎng)絡(luò)、相似網(wǎng)絡(luò),因此,使用根據(jù)本發(fā)明制作的語料庫不僅可以對各種信息進行有機的組織,而且更加便于根據(jù)用戶的要求對信息進行分類,在海量的數(shù)據(jù)中找到個人感興趣的信息。
文檔編號G06F17/30GK1916889SQ200510093228
公開日2007年2月21日 申請日期2005年8月19日 優(yōu)先權(quán)日2005年8月19日
發(fā)明者伊藤榮朗, 桑原禎司, 黑田昌芳, 虞立群, 陳奕秋, 汪更正 申請人:株式會社日立制作所, 上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1