一種基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于文本語義處理【技術(shù)領(lǐng)域】,具體為一種基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法和系統(tǒng)。本發(fā)明對(duì)于待抽取關(guān)系的實(shí)體對(duì):首先對(duì)包含二者的語句進(jìn)行語法依存分析;然后將分析結(jié)果視作Graph,并計(jì)算Graph中對(duì)應(yīng)這兩個(gè)實(shí)體的結(jié)點(diǎn)間最短路徑,來抽取出實(shí)體間關(guān)系;繼而將路徑上的詞語向語義空間投影并進(jìn)行累積,獲得該關(guān)系在語義空間上的向量表示;對(duì)于多組實(shí)體對(duì)的場景,使用聚類方法對(duì)關(guān)系進(jìn)行聚類并構(gòu)建關(guān)系模型;依據(jù)表征輸入實(shí)體對(duì)間關(guān)系的語義向量與關(guān)系模型之間的語義相似度實(shí)現(xiàn)關(guān)系的識(shí)別。本發(fā)明克服了傳統(tǒng)方法在進(jìn)行實(shí)體間關(guān)系比較時(shí)對(duì)詞語變形、同義詞變化、語法形式變化等因素敏感的缺點(diǎn),提高了關(guān)系比較準(zhǔn)確性和處理的靈活性。
【專利說明】一種基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于文本語義信息處理【技術(shù)領(lǐng)域】,具體涉及一種基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)的普及與網(wǎng)絡(luò)技術(shù)的發(fā)展,各種海量的數(shù)據(jù)以電子文本的形式呈現(xiàn)出來,如何從中抽取出用戶所關(guān)心的語義信息至關(guān)重要,除了實(shí)體抽取,用戶往往會(huì)更加關(guān)心實(shí)體間的語義關(guān)系究竟是什么,因?yàn)檎Z義關(guān)系才真正反映了數(shù)據(jù)互聯(lián)的本質(zhì),將紛繁的實(shí)體世界有機(jī)地結(jié)合在一起,它在諸多領(lǐng)域都具有重要的應(yīng)用價(jià)值:如在信息檢索系統(tǒng)中,實(shí)體關(guān)系抽取技術(shù)使實(shí)現(xiàn)類似于“Which city is the capital of China”這樣的語義檢索功能成為可能;在自動(dòng)應(yīng)答系統(tǒng)中,實(shí)體關(guān)系抽取技術(shù)能夠自動(dòng)關(guān)聯(lián)問題和相關(guān)的答案;在本體學(xué)習(xí)過程中,實(shí)體關(guān)系抽取技術(shù)能夠發(fā)現(xiàn)新的實(shí)體間關(guān)系并用來進(jìn)一步豐富本體結(jié)構(gòu);在語義網(wǎng)標(biāo)注任務(wù)中,關(guān)系抽取能夠自動(dòng)關(guān)聯(lián)語義網(wǎng)知識(shí)單元,等等。
[0003]然而,目前的實(shí)體關(guān)系抽取技術(shù)主要是基于種子模式迭代搜索的方法或者是基于自然語言處理的方法,它們最終抽取出的是一種確定性的關(guān)系描述,而這種確定性描述在詞語變形、同義詞變化、語法形式變化等情況下的魯棒性不強(qiáng),導(dǎo)致在此基礎(chǔ)上的關(guān)系間語義比較的準(zhǔn)確性不高,從而給后續(xù)的應(yīng)用需求如關(guān)系聚類或識(shí)別帶來了困難。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)當(dāng)前實(shí)體間語義關(guān)系抽取技術(shù)背景的不足,提出了一種基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法和系統(tǒng)。
[0005]本發(fā)明提出的基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法,具體步驟為:
1、輸入實(shí)體對(duì)及語句,即輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語句;
2、抽取實(shí)體間關(guān)系,對(duì)于待抽取關(guān)系的實(shí)體對(duì),對(duì)同時(shí)包含它們的語句進(jìn)行語法依存關(guān)系分析;包括語法依存關(guān)系分析和最短路徑計(jì)算;其中:
語法依存關(guān)系分析是對(duì)輸入的語句進(jìn)行語法依存分析,獲得文本單元間的語法依賴關(guān)
系O
[0006]最短路徑計(jì)算是將語法依存樹看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容;
3、關(guān)系語義向量表征,即對(duì)路徑上的詞語進(jìn)行過濾處理,去除其中無語義的停用詞;然后對(duì)每一個(gè)單詞,獲取其在語義空間中的投影向量,并將這些語義向量進(jìn)行累加,獲得該關(guān)系在語義空間上的向量表示;
4、關(guān)系聚類,在關(guān)系向量化的基礎(chǔ)上,對(duì)于多實(shí)體對(duì)的場景,使用聚類方法并結(jié)合向量相似性度量,進(jìn)行關(guān)系聚類;
5、關(guān)系模型構(gòu)建模塊,對(duì)于完成聚類的實(shí)體對(duì)的每一類關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系豐吳型,
6、最后,進(jìn)行關(guān)系識(shí)別,即依據(jù)該向量與預(yù)先標(biāo)定關(guān)系的語義距離實(shí)現(xiàn)關(guān)系的識(shí)別。
[0007]具體是,對(duì)于待查詢實(shí)體對(duì),在按步驟(O- ( 3)所述獲得其關(guān)系向量表征后,將該向量與關(guān)系模型庫中的關(guān)系模型依次進(jìn)行比較,例如:對(duì)均值向量模型、高斯模型,可直接比較向量間相似度或者是計(jì)算輸入向量屬于模型的概率值,遍歷后取最高值對(duì)應(yīng)的類別作為輸出;對(duì)人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),則是直接輸出對(duì)應(yīng)的類別。
[0008]根據(jù)上述輸出的類別,從關(guān)系模型庫中取出預(yù)先標(biāo)注的相應(yīng)類的關(guān)系標(biāo)簽賦給輸入實(shí)體對(duì),從而完成了關(guān)系的識(shí)別過程。
[0009]本發(fā)明提供的基于上述方法的系統(tǒng),由六大模塊組成:實(shí)體對(duì)及語句輸入模塊、實(shí)體間關(guān)系抽取模塊、關(guān)系語義向量表征模塊、關(guān)系聚類模塊、關(guān)系模型構(gòu)建模塊、關(guān)系識(shí)別模塊,其中,實(shí)體間關(guān)系抽取模塊又包括兩個(gè)子模塊:語法依存關(guān)系分析子模塊和最短路徑計(jì)算子模塊。
[0010]其具體內(nèi)容如下:
(I)實(shí)體對(duì)及語句輸入模塊,用于輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語句;所述語句既可以是單句,也可以是從語句資源庫中篩選出的滿足條件的多句。
[0011](2)實(shí)體間關(guān)系抽取模塊,具體包括以下兩個(gè)子模塊:
語法依存關(guān)系分析子模塊和最短路徑計(jì)算子模塊:
(2.1)語法依存關(guān)系分析子模塊,用于對(duì)輸入的語句進(jìn)行語法依存分析,獲得文本單元間的語法依賴關(guān)系。這里,凡是具備語法依存分析功能的工具均可使用,優(yōu)選地,可使用美國斯坦福大學(xué)的 Stanford Parser (http://nlp.Stanford, edu/software/index, shtml);(2.2)最短路徑計(jì)算子模塊,具體內(nèi)容如下:
(2.2.1)將語法依存樹看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;
(2.2.2)采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容;這里,最短路徑求解算法有多種,如Dijkstra算法、A* 算法、Floyd 算法、Bellman-Ford 算法、SPFA (Shortest Path Faster Algorithm)算法、Johnson算法等,優(yōu)選地,采用Dijkstra算法。
[0012](3)關(guān)系語義向量表征模塊,具體內(nèi)容如下:
(3.1)對(duì)路徑上的詞語進(jìn)行過濾處理,去除其中無語義的停用詞;
(3.2)對(duì)每一個(gè)單詞,獲取其在語義空間中的投影向量,并將這些語義向量進(jìn)行累加。語義向量可通過多種方法計(jì)算獲得,如Word2Vec方法、ESA (Explicit semantic analysis)方法、LSA (Latent sem antic analysis)方法、共現(xiàn)詞頻率特征等等,優(yōu)選地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同時(shí)參見文獻(xiàn)[I, 2, 3]);
[1]Tomas Mikolov, et al.Efficient Estimation of Word Representations in VectorSpace.1n Proceedings of Workshop at ICLR, 2013.[2]Tomas Mikolov, et al.Distributed Representations of Words and Phrases andtheir Compositionality.1n Proceedings of NIPS, 2013.[3]Tomas Mikolov, et al.Linguistic Regularities in Continuous Space WordRepresentations.1n Proceedings of NAACL HLT,2013.構(gòu)建語義向量的訓(xùn)練數(shù)據(jù)可來源于各大知識(shí)庫,優(yōu)選地,采用維基百科知識(shí)庫(http://www.wikipedia.0rg/)。
[0013](4)關(guān)系聚類模塊,具體內(nèi)容如下:
關(guān)系聚類是在關(guān)系抽取基礎(chǔ)上的進(jìn)一步語義挖掘;
(4.1)對(duì)于一批實(shí)體對(duì),按前述方法分別計(jì)算得到各自的關(guān)系向量;
(4.2)在此基礎(chǔ)上,進(jìn)一步地對(duì)它們進(jìn)行關(guān)系聚類。聚類方法有多種,如Kmeans方法、層次聚類方法等,優(yōu)選地,采用Kmeans方法。相似性度量可采用多種度量,如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowsk1、Chebychev 等,優(yōu)選地,米用 Cosine 相似度。
[0014](5)關(guān)系模型構(gòu)建模塊,具體內(nèi)容如下:
對(duì)于完成聚類的實(shí)體對(duì)的每一類關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系模型,模型的構(gòu)建可使用多種方法,如均值向量模型、高斯模型、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,優(yōu)選地,使用均值向量模型;同時(shí),人工為每一類關(guān)系標(biāo)定出其對(duì)應(yīng)的關(guān)系標(biāo)簽;
【權(quán)利要求】
1.一種基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法,其特征在于具體步驟如下: (1)輸入實(shí)體對(duì)及語句,即輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語句; (2)抽取實(shí)體間關(guān)系,即對(duì)于待抽取關(guān)系的實(shí)體對(duì),對(duì)同時(shí)包含它們的語句進(jìn)行語法依存關(guān)系分析;包括語法依存關(guān)系分析和最短路徑計(jì)算;其中: 語法依存關(guān)系分析是對(duì)輸入的語句進(jìn)行語法依存分析,獲得文本單元間的語法依賴關(guān)系; 最短路徑計(jì)算是將語法依存樹看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容; (3)關(guān)系語義向量表征,即對(duì)路徑上的詞語進(jìn)行過濾處理,去除其中無語義的停用詞;然后對(duì)每一個(gè)單詞,獲取其在語義空間中的投影向量,并將這些語義向量進(jìn)行累加,獲得該關(guān)系在語義空間上的向量表示; (4)關(guān)系聚類, 在關(guān)系向量化的基礎(chǔ)上,對(duì)于多實(shí)體對(duì)的場景,使用聚類方法并結(jié)合向量相似性度量,進(jìn)行關(guān)系聚類; (5)關(guān)系模型構(gòu)建模塊,對(duì)于完成聚類的實(shí)體對(duì)的每一類關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系豐吳型, (6)最后,進(jìn)行關(guān)系識(shí)別,即依據(jù)該向量與預(yù)先標(biāo)定關(guān)系的語義距離實(shí)現(xiàn)關(guān)系的識(shí)別。
2.根據(jù)權(quán)利要求1所述的基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的方法,其特征在于所述依據(jù)該向量與預(yù)先標(biāo)定關(guān)系的語義距離實(shí)現(xiàn)關(guān)系的識(shí)別,是對(duì)于待查詢實(shí)體對(duì),在按步驟(1) - (3)所述獲得其關(guān)系向量表征后,將該向量與關(guān)系模型庫中的關(guān)系模型依次進(jìn)行比較;對(duì)均值向量模型、高斯模型,直接比較向量間相似度或者是計(jì)算輸入向量屬于模型的概率值,遍歷后取最高值對(duì)應(yīng)的類別作為輸出;對(duì)人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),則是直接輸出對(duì)應(yīng)的類別; 根據(jù)上述輸出的類別,從關(guān)系模型庫中取出預(yù)先標(biāo)注的相應(yīng)類的關(guān)系標(biāo)簽賦給輸入實(shí)體對(duì),從而完成了關(guān)系的識(shí)別過程。
3.基于權(quán)利要求2所述方法的基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的系統(tǒng),其特征在于由下述六大模塊組成:實(shí)體對(duì)及語句輸入模塊、實(shí)體間關(guān)系抽取模塊、關(guān)系語義向量表征模塊、關(guān)系聚類模塊、關(guān)系模型構(gòu)建模塊、關(guān)系識(shí)別模塊,其中: (O實(shí)體對(duì)及語句輸入模塊,用于輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語句;所述語句是單句,或者是從語句資源庫中篩選出的滿足條件的多句; (2)實(shí)體間關(guān)系抽取模塊,具體包括以下兩個(gè)子模塊: 語法依存關(guān)系分析子模塊和最短路徑計(jì)算子模塊: (2.1)語法依存關(guān)系分析子模塊,用于對(duì)輸入的語句進(jìn)行語法依存分析,獲得文本單元間的語法依賴關(guān)系; (2.2)最短路徑計(jì)算子模塊: (2.2.1)將語法依存樹看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;(2.2.2)采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容; (3)關(guān)系語義向量表征模塊,具體內(nèi)容如下: (3.1)對(duì)路徑上的詞語進(jìn)行過濾處理,去除其中無語義的停用詞; (3.2)對(duì)每一個(gè)單詞,獲取其在語義空間中的投影向量,并將這些語義向量進(jìn)行累加; (4)關(guān)系聚類模塊,具體內(nèi)容如下: (4.1)對(duì)于一批實(shí)體對(duì),按上述方法分別計(jì)算得到各自的關(guān)系向量; (4.2)在此基礎(chǔ)上,對(duì)它們進(jìn)行關(guān)系聚類; (5)關(guān)系模型構(gòu)建模塊,具體內(nèi)容如下: 對(duì)于完成聚類的實(shí)體對(duì)的每一類關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系模型;同時(shí),人工為每一類關(guān)系標(biāo)定出其對(duì)應(yīng)的關(guān)系標(biāo)簽,
4.根據(jù)權(quán)利要求3所述的基于語義空間映射的語義關(guān)系表征、聚類及識(shí)別的系統(tǒng),其特征在于對(duì)于均值向量模型,輸出的類別為:
【文檔編號(hào)】G06F17/27GK104008092SQ201410255166
【公開日】2014年8月27日 申請(qǐng)日期:2014年6月10日 優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】王曉平, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)