一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于文本語(yǔ)義處理、語(yǔ)義網(wǎng)【技術(shù)領(lǐng)域】,具體為一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)。本發(fā)明方法包括:語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理;知識(shí)圖譜管理又包括三個(gè)分為:語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注。對(duì)于知識(shí)圖譜的邊/結(jié)點(diǎn),首先將描述其的文本單元向語(yǔ)義空間投影,并通過向量累積獲得其在語(yǔ)義空間上的向量表示;在此基礎(chǔ)上,實(shí)現(xiàn)知識(shí)圖譜的多項(xiàng)管理任務(wù);系統(tǒng)包括對(duì)應(yīng)的語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理3個(gè)模塊。本發(fā)明克服了傳統(tǒng)知識(shí)圖譜管理方法在進(jìn)行語(yǔ)義比較時(shí)對(duì)詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化等因素敏感的缺點(diǎn),并且向量累積的方式使其能輕松應(yīng)對(duì)詞語(yǔ)個(gè)數(shù)的不同,易于實(shí)現(xiàn)進(jìn)一步的諸如語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注等知識(shí)圖譜管理任務(wù)。
【專利說明】一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于文本語(yǔ)義處理、語(yǔ)義網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)。
【背景技術(shù)】
[0002]構(gòu)建知識(shí)圖譜是大數(shù)據(jù)時(shí)代的一項(xiàng)重大工程,它能將雜亂的數(shù)據(jù)進(jìn)行關(guān)聯(lián)并整理成結(jié)構(gòu)化的知識(shí)提供給用戶,這一特征決定了它在許多領(lǐng)域都會(huì)有重要的應(yīng)用,例如,目前的搜索引起都是基于關(guān)鍵字匹配進(jìn)行搜索的,而當(dāng)知識(shí)圖譜建立起來(lái)后,在輸入某個(gè)關(guān)鍵字后,就可以返回這個(gè)關(guān)鍵字的屬性、類別、與其它實(shí)體的關(guān)系等關(guān)聯(lián)信息,這樣可以更準(zhǔn)確、完善的為用戶提供所需要的信息。知識(shí)圖譜是實(shí)現(xiàn)語(yǔ)義搜索、機(jī)器自動(dòng)問答、互聯(lián)網(wǎng)廣告推薦、個(gè)性化電子閱讀等一系列應(yīng)用的基石,而是否能有效地對(duì)知識(shí)圖譜進(jìn)行管理則將直接決定它在這些領(lǐng)域所發(fā)揮作用的大小。
[0003]然而,目前的知識(shí)圖譜構(gòu)建中最終抽取出的是一種確定性的關(guān)系表示,而這種確定性描述在詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化等情況下的適應(yīng)性不強(qiáng),比如兩條語(yǔ)義相似的邊由于是以不同的詞語(yǔ)進(jìn)行描述,則會(huì)被看作是完全不同的兩條邊,這種處理方式不僅不合理,還會(huì)給知識(shí)圖譜的管理如邊/結(jié)點(diǎn)聚類、邊/結(jié)點(diǎn)去重、邊/結(jié)點(diǎn)標(biāo)注等帶來(lái)巨大困難,從而影響到知識(shí)圖譜的有效應(yīng)用。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)當(dāng)前知識(shí)圖譜管理技術(shù)方法的不足,提出了一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)。
[0005]對(duì)于知識(shí)圖譜的邊/結(jié)點(diǎn)(即實(shí)體間關(guān)系/實(shí)體),首先將描述其的文本單元向語(yǔ)義空間投影并進(jìn)行累積,從而獲得該邊/結(jié)點(diǎn)在語(yǔ)義空間上的向量表示;繼而在文本語(yǔ)義向量化的基礎(chǔ)上,可以進(jìn)一步實(shí)現(xiàn)知識(shí)圖譜的多項(xiàng)管理任務(wù):可使用聚類方法并結(jié)合向量相似性度量來(lái)方便地進(jìn)行邊/結(jié)點(diǎn)的語(yǔ)義聚類,從而挖掘出語(yǔ)義相近的實(shí)體間關(guān)系/實(shí)體;可以在語(yǔ)義聚類的基礎(chǔ)上,通過計(jì)算典型邊/典型結(jié)點(diǎn)取代類集合來(lái)實(shí)現(xiàn)語(yǔ)義去重;可依據(jù)新加入的邊/結(jié)點(diǎn)與已標(biāo)注邊/結(jié)點(diǎn)模型的語(yǔ)義距離實(shí)現(xiàn)關(guān)系/實(shí)體的自動(dòng)標(biāo)注等。
[0006]本發(fā)明提出的基于語(yǔ)義空間映射的知識(shí)圖譜管理方法,具體步驟如下:語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理;其中:
(I)語(yǔ)義向量構(gòu)建的具體步驟如下:
是基于語(yǔ)料庫(kù)構(gòu)建語(yǔ)義向量庫(kù),使得文本單元映射到語(yǔ)義空間上的向量,其優(yōu)點(diǎn)是文本單元之間的語(yǔ)義相似度可以根據(jù)對(duì)應(yīng)向量在語(yǔ)義空間中的距離遠(yuǎn)近進(jìn)行比較,語(yǔ)義接近的詞,它們對(duì)應(yīng)的語(yǔ)義向量在空間上的距離也會(huì)很近,這樣就克服了詞語(yǔ)間直接比較時(shí)受到的詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化的影響。
[0007]語(yǔ)義向量可通過多種方法計(jì)算獲得,如Word2Vec方法、ESA (Explicit semanticanalysis)方法、LSA (Latent semantic analysis)方法、共現(xiàn)詞頻率特征等等,優(yōu)選地,采用 Word2Vec 方法(https://code.google.com/p/word2vec/,同時(shí)參見文獻(xiàn)[I, 2, 3])。
[0008]構(gòu)建語(yǔ)義向量的訓(xùn)練數(shù)據(jù)的選擇原則是以大規(guī)模、百科類型的語(yǔ)料庫(kù)來(lái)保證高覆蓋率以及領(lǐng)域無(wú)關(guān)性,優(yōu)選地,采用維基百科知識(shí)庫(kù)(http://www.wikipedia.0rg/)作為用Word2Vec方法訓(xùn)練語(yǔ)義向量的語(yǔ)料庫(kù),并用訓(xùn)練結(jié)果構(gòu)建語(yǔ)義向量庫(kù),以供其它模塊在語(yǔ)義映射時(shí)使用。
[0009](2)語(yǔ)義空間映射
是將知識(shí)圖譜中表示邊結(jié)點(diǎn)的文本映射為語(yǔ)義空間中的向量,具體步驟如下:
(2.1)對(duì)知識(shí)圖譜中的邊/結(jié)點(diǎn)(實(shí)體間關(guān)系/實(shí)體)中的詞語(yǔ)進(jìn)行過濾處理,去除其中無(wú)語(yǔ)義的停用詞;
(2.2)對(duì)經(jīng)上步操作處理后保留的每一個(gè)詞語(yǔ),從已經(jīng)構(gòu)建好的語(yǔ)義向量庫(kù)中獲取其在語(yǔ)義空間中的投影向量,然后將這些詞語(yǔ)對(duì)應(yīng)的語(yǔ)義向量進(jìn)行累加,進(jìn)而得到表征該邊/結(jié)點(diǎn)的總體語(yǔ)義向量。
[0010](3)知識(shí)圖譜管理分為四個(gè)分步驟:語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注;
(3.1)語(yǔ)義聚類,是在知識(shí)圖譜構(gòu)建基礎(chǔ)上的進(jìn)一步的語(yǔ)義挖掘,這對(duì)管理知識(shí)圖譜十分重要,具體包括邊聚類(關(guān)系聚類)和結(jié)點(diǎn)聚類(實(shí)體聚類)。對(duì)于邊聚類,既可以對(duì)連接不同結(jié)點(diǎn)對(duì)的邊進(jìn)行聚類,發(fā)現(xiàn)有著相似語(yǔ)義關(guān)系的實(shí)體對(duì),也可以對(duì)一個(gè)結(jié)點(diǎn)的多條邊進(jìn)行聚類,挖掘出該結(jié)點(diǎn)的主要相關(guān)實(shí)體分類,甚至可以對(duì)連接同一對(duì)結(jié)點(diǎn)的多條邊進(jìn)行聚類,挖掘出它們間的主要關(guān)系分類;對(duì)于結(jié)點(diǎn)聚類,則可以發(fā)現(xiàn)語(yǔ)義相近的實(shí)體。
[0011]語(yǔ)義聚類的具體步驟如下:
對(duì)待聚類的邊/結(jié)點(diǎn)集合,首先基于構(gòu)建好的語(yǔ)義向量庫(kù)進(jìn)行語(yǔ)義空間映射,然后進(jìn)一步地對(duì)獲得的這些語(yǔ)義向量進(jìn)行聚類。聚類方法可采用多種方法如層次聚類方法、Kmeans方法等,優(yōu)選地,采用層次聚類方法。相似性度量可采用多種度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowsk1、Chebychev 等,優(yōu)選地,米用 Cosine 相似度。
【權(quán)利要求】
1.一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法,其特征在于具體步驟分為:語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理;其中: (1)語(yǔ)義向量構(gòu)建的具體步驟如下: 是基于語(yǔ)料庫(kù)構(gòu)建語(yǔ)義向量庫(kù),使得文本單元映射到語(yǔ)義空間上的向量; 構(gòu)建語(yǔ)義向量的訓(xùn)練數(shù)據(jù)采用維基百科知識(shí)庫(kù)作為用Word2Vec方法訓(xùn)練語(yǔ)義向量的語(yǔ)料庫(kù),并用訓(xùn)練結(jié)果構(gòu)建語(yǔ)義向量庫(kù); (2)語(yǔ)義空間映射 是將知識(shí)圖譜中表示邊結(jié)點(diǎn)的文本映射為語(yǔ)義空間中的向量,具體步驟如下: (2.1)對(duì)知識(shí)圖譜中的邊/結(jié)點(diǎn)中的詞語(yǔ)進(jìn)行過濾處理,去除其中無(wú)語(yǔ)義的停用詞;(2.2)對(duì)經(jīng)上步操作處理后保留的每一個(gè)詞語(yǔ),從已經(jīng)構(gòu)建好的語(yǔ)義向量庫(kù)中獲取其在語(yǔ)義空間中的投影向量,然后將這些詞語(yǔ)對(duì)應(yīng)的語(yǔ)義向量進(jìn)行累加,進(jìn)而得到表征該邊/結(jié)點(diǎn)的總體語(yǔ)義向量; (3)知識(shí)圖譜管理分為三個(gè)分步驟:語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注; (3.1)語(yǔ)義聚類的具體步驟如下: 對(duì)待聚類的邊/結(jié)點(diǎn)集合,首先基于構(gòu)建好的語(yǔ)義向量庫(kù)進(jìn)行語(yǔ)義空間映射,然后進(jìn)一步地對(duì)獲得的這些 語(yǔ)義向量進(jìn)行聚類; (3.2)語(yǔ)義去重的具體步驟如下: 對(duì)于語(yǔ)義聚類的結(jié)果,對(duì)被聚在同一類中的邊/結(jié)點(diǎn)集合,通過計(jì)算典型邊/典型結(jié)點(diǎn)取代原先的類集合元素來(lái)降低語(yǔ)義信息的冗余性,其選取依據(jù)是:
2.根據(jù)權(quán)利要求1所述的基于語(yǔ)義空間映射的知識(shí)圖譜管理方法,其特征在于步驟(3.3.2)中,對(duì)于均值向量模型時(shí),輸出的類別為:
3.基于權(quán)利要求1所述方法的基于語(yǔ)義空間映射的知識(shí)圖譜管理系統(tǒng),其特征在于有下述三大模塊組成:語(yǔ)義向量構(gòu)建模塊、語(yǔ)義空間映射模塊、知識(shí)圖譜管理模塊,分別對(duì)應(yīng)于方法中的3個(gè)步驟內(nèi)容,其中:知識(shí)圖譜管理模塊,包括三個(gè)子模塊:語(yǔ)義聚類子模塊、語(yǔ)義去重子模塊、語(yǔ)義標(biāo)注子模塊,分別對(duì)應(yīng)于知識(shí)圖譜管理步驟中的3個(gè)分步驟的內(nèi)容。
【文檔編號(hào)】G06F17/30GK104035917SQ201410253673
【公開日】2014年9月10日 申請(qǐng)日期:2014年6月10日 優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】王曉平, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)