一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)的制作方法

文檔序號(hào)：6549037閱讀：380來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于文本語(yǔ)義處理、語(yǔ)義網(wǎng)【技術(shù)領(lǐng)域】，具體為一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)。本發(fā)明方法包括：語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理；知識(shí)圖譜管理又包括三個(gè)分為：語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注。對(duì)于知識(shí)圖譜的邊/結(jié)點(diǎn)，首先將描述其的文本單元向語(yǔ)義空間投影，并通過向量累積獲得其在語(yǔ)義空間上的向量表示；在此基礎(chǔ)上，實(shí)現(xiàn)知識(shí)圖譜的多項(xiàng)管理任務(wù)；系統(tǒng)包括對(duì)應(yīng)的語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理3個(gè)模塊。本發(fā)明克服了傳統(tǒng)知識(shí)圖譜管理方法在進(jìn)行語(yǔ)義比較時(shí)對(duì)詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化等因素敏感的缺點(diǎn)，并且向量累積的方式使其能輕松應(yīng)對(duì)詞語(yǔ)個(gè)數(shù)的不同，易于實(shí)現(xiàn)進(jìn)一步的諸如語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注等知識(shí)圖譜管理任務(wù)。
【專利說明】一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于文本語(yǔ)義處理、語(yǔ)義網(wǎng)【技術(shù)領(lǐng)域】，具體涉及一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)。
【背景技術(shù)】
[0002]構(gòu)建知識(shí)圖譜是大數(shù)據(jù)時(shí)代的一項(xiàng)重大工程，它能將雜亂的數(shù)據(jù)進(jìn)行關(guān)聯(lián)并整理成結(jié)構(gòu)化的知識(shí)提供給用戶，這一特征決定了它在許多領(lǐng)域都會(huì)有重要的應(yīng)用，例如，目前的搜索引起都是基于關(guān)鍵字匹配進(jìn)行搜索的，而當(dāng)知識(shí)圖譜建立起來(lái)后，在輸入某個(gè)關(guān)鍵字后，就可以返回這個(gè)關(guān)鍵字的屬性、類別、與其它實(shí)體的關(guān)系等關(guān)聯(lián)信息，這樣可以更準(zhǔn)確、完善的為用戶提供所需要的信息。知識(shí)圖譜是實(shí)現(xiàn)語(yǔ)義搜索、機(jī)器自動(dòng)問答、互聯(lián)網(wǎng)廣告推薦、個(gè)性化電子閱讀等一系列應(yīng)用的基石，而是否能有效地對(duì)知識(shí)圖譜進(jìn)行管理則將直接決定它在這些領(lǐng)域所發(fā)揮作用的大小。
[0003]然而，目前的知識(shí)圖譜構(gòu)建中最終抽取出的是一種確定性的關(guān)系表示，而這種確定性描述在詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化等情況下的適應(yīng)性不強(qiáng)，比如兩條語(yǔ)義相似的邊由于是以不同的詞語(yǔ)進(jìn)行描述，則會(huì)被看作是完全不同的兩條邊，這種處理方式不僅不合理，還會(huì)給知識(shí)圖譜的管理如邊/結(jié)點(diǎn)聚類、邊/結(jié)點(diǎn)去重、邊/結(jié)點(diǎn)標(biāo)注等帶來(lái)巨大困難，從而影響到知識(shí)圖譜的有效應(yīng)用。

【發(fā)明內(nèi)容】

[0004]本發(fā)明針對(duì)當(dāng)前知識(shí)圖譜管理技術(shù)方法的不足，提出了一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)。
[0005]對(duì)于知識(shí)圖譜的邊/結(jié)點(diǎn)(即實(shí)體間關(guān)系/實(shí)體)，首先將描述其的文本單元向語(yǔ)義空間投影并進(jìn)行累積，從而獲得該邊/結(jié)點(diǎn)在語(yǔ)義空間上的向量表示；繼而在文本語(yǔ)義向量化的基礎(chǔ)上，可以進(jìn)一步實(shí)現(xiàn)知識(shí)圖譜的多項(xiàng)管理任務(wù):可使用聚類方法并結(jié)合向量相似性度量來(lái)方便地進(jìn)行邊/結(jié)點(diǎn)的語(yǔ)義聚類，從而挖掘出語(yǔ)義相近的實(shí)體間關(guān)系/實(shí)體；可以在語(yǔ)義聚類的基礎(chǔ)上，通過計(jì)算典型邊/典型結(jié)點(diǎn)取代類集合來(lái)實(shí)現(xiàn)語(yǔ)義去重；可依據(jù)新加入的邊/結(jié)點(diǎn)與已標(biāo)注邊/結(jié)點(diǎn)模型的語(yǔ)義距離實(shí)現(xiàn)關(guān)系/實(shí)體的自動(dòng)標(biāo)注等。
[0006]本發(fā)明提出的基于語(yǔ)義空間映射的知識(shí)圖譜管理方法，具體步驟如下:語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理；其中:
(I)語(yǔ)義向量構(gòu)建的具體步驟如下:
是基于語(yǔ)料庫(kù)構(gòu)建語(yǔ)義向量庫(kù)，使得文本單元映射到語(yǔ)義空間上的向量，其優(yōu)點(diǎn)是文本單元之間的語(yǔ)義相似度可以根據(jù)對(duì)應(yīng)向量在語(yǔ)義空間中的距離遠(yuǎn)近進(jìn)行比較，語(yǔ)義接近的詞，它們對(duì)應(yīng)的語(yǔ)義向量在空間上的距離也會(huì)很近，這樣就克服了詞語(yǔ)間直接比較時(shí)受到的詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化的影響。
[0007]語(yǔ)義向量可通過多種方法計(jì)算獲得,如Word2Vec方法、ESA (Explicit semanticanalysis)方法、LSA (Latent semantic analysis)方法、共現(xiàn)詞頻率特征等等,優(yōu)選地,采用 Word2Vec 方法(https://code.google.com/p/word2vec/,同時(shí)參見文獻(xiàn)[I, 2, 3])。
[0008]構(gòu)建語(yǔ)義向量的訓(xùn)練數(shù)據(jù)的選擇原則是以大規(guī)模、百科類型的語(yǔ)料庫(kù)來(lái)保證高覆蓋率以及領(lǐng)域無(wú)關(guān)性，優(yōu)選地，采用維基百科知識(shí)庫(kù)(http://www.wikipedia.0rg/)作為用Word2Vec方法訓(xùn)練語(yǔ)義向量的語(yǔ)料庫(kù)，并用訓(xùn)練結(jié)果構(gòu)建語(yǔ)義向量庫(kù)，以供其它模塊在語(yǔ)義映射時(shí)使用。
[0009](2)語(yǔ)義空間映射
是將知識(shí)圖譜中表示邊結(jié)點(diǎn)的文本映射為語(yǔ)義空間中的向量，具體步驟如下:
(2.1)對(duì)知識(shí)圖譜中的邊/結(jié)點(diǎn)(實(shí)體間關(guān)系/實(shí)體)中的詞語(yǔ)進(jìn)行過濾處理，去除其中無(wú)語(yǔ)義的停用詞；
(2.2)對(duì)經(jīng)上步操作處理后保留的每一個(gè)詞語(yǔ)，從已經(jīng)構(gòu)建好的語(yǔ)義向量庫(kù)中獲取其在語(yǔ)義空間中的投影向量，然后將這些詞語(yǔ)對(duì)應(yīng)的語(yǔ)義向量進(jìn)行累加，進(jìn)而得到表征該邊/結(jié)點(diǎn)的總體語(yǔ)義向量。
[0010](3)知識(shí)圖譜管理分為四個(gè)分步驟:語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注；
(3.1)語(yǔ)義聚類，是在知識(shí)圖譜構(gòu)建基礎(chǔ)上的進(jìn)一步的語(yǔ)義挖掘，這對(duì)管理知識(shí)圖譜十分重要，具體包括邊聚類(關(guān)系聚類)和結(jié)點(diǎn)聚類(實(shí)體聚類)。對(duì)于邊聚類，既可以對(duì)連接不同結(jié)點(diǎn)對(duì)的邊進(jìn)行聚類，發(fā)現(xiàn)有著相似語(yǔ)義關(guān)系的實(shí)體對(duì)，也可以對(duì)一個(gè)結(jié)點(diǎn)的多條邊進(jìn)行聚類，挖掘出該結(jié)點(diǎn)的主要相關(guān)實(shí)體分類，甚至可以對(duì)連接同一對(duì)結(jié)點(diǎn)的多條邊進(jìn)行聚類，挖掘出它們間的主要關(guān)系分類；對(duì)于結(jié)點(diǎn)聚類，則可以發(fā)現(xiàn)語(yǔ)義相近的實(shí)體。
[0011]語(yǔ)義聚類的具體步驟如下:
對(duì)待聚類的邊/結(jié)點(diǎn)集合，首先基于構(gòu)建好的語(yǔ)義向量庫(kù)進(jìn)行語(yǔ)義空間映射，然后進(jìn)一步地對(duì)獲得的這些語(yǔ)義向量進(jìn)行聚類。聚類方法可采用多種方法如層次聚類方法、Kmeans方法等，優(yōu)選地，采用層次聚類方法。相似性度量可采用多種度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowsk1、Chebychev 等，優(yōu)選地，米用 Cosine 相似度。
【權(quán)利要求】
1.一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法，其特征在于具體步驟分為:語(yǔ)義向量構(gòu)建、語(yǔ)義空間映射、知識(shí)圖譜管理；其中: (1)語(yǔ)義向量構(gòu)建的具體步驟如下: 是基于語(yǔ)料庫(kù)構(gòu)建語(yǔ)義向量庫(kù)，使得文本單元映射到語(yǔ)義空間上的向量；構(gòu)建語(yǔ)義向量的訓(xùn)練數(shù)據(jù)采用維基百科知識(shí)庫(kù)作為用Word2Vec方法訓(xùn)練語(yǔ)義向量的語(yǔ)料庫(kù)，并用訓(xùn)練結(jié)果構(gòu)建語(yǔ)義向量庫(kù)； (2)語(yǔ)義空間映射是將知識(shí)圖譜中表示邊結(jié)點(diǎn)的文本映射為語(yǔ)義空間中的向量，具體步驟如下: (2.1)對(duì)知識(shí)圖譜中的邊/結(jié)點(diǎn)中的詞語(yǔ)進(jìn)行過濾處理，去除其中無(wú)語(yǔ)義的停用詞；(2.2)對(duì)經(jīng)上步操作處理后保留的每一個(gè)詞語(yǔ)，從已經(jīng)構(gòu)建好的語(yǔ)義向量庫(kù)中獲取其在語(yǔ)義空間中的投影向量，然后將這些詞語(yǔ)對(duì)應(yīng)的語(yǔ)義向量進(jìn)行累加，進(jìn)而得到表征該邊/結(jié)點(diǎn)的總體語(yǔ)義向量； (3)知識(shí)圖譜管理分為三個(gè)分步驟:語(yǔ)義聚類、語(yǔ)義去重、語(yǔ)義標(biāo)注； (3.1)語(yǔ)義聚類的具體步驟如下: 對(duì)待聚類的邊/結(jié)點(diǎn)集合，首先基于構(gòu)建好的語(yǔ)義向量庫(kù)進(jìn)行語(yǔ)義空間映射，然后進(jìn)一步地對(duì)獲得的這些語(yǔ)義向量進(jìn)行聚類； (3.2)語(yǔ)義去重的具體步驟如下: 對(duì)于語(yǔ)義聚類的結(jié)果，對(duì)被聚在同一類中的邊/結(jié)點(diǎn)集合，通過計(jì)算典型邊/典型結(jié)點(diǎn)取代原先的類集合元素來(lái)降低語(yǔ)義信息的冗余性，其選取依據(jù)是:
2.根據(jù)權(quán)利要求1所述的基于語(yǔ)義空間映射的知識(shí)圖譜管理方法，其特征在于步驟(3.3.2)中，對(duì)于均值向量模型時(shí)，輸出的類別為:
3.基于權(quán)利要求1所述方法的基于語(yǔ)義空間映射的知識(shí)圖譜管理系統(tǒng)，其特征在于有下述三大模塊組成:語(yǔ)義向量構(gòu)建模塊、語(yǔ)義空間映射模塊、知識(shí)圖譜管理模塊，分別對(duì)應(yīng)于方法中的3個(gè)步驟內(nèi)容，其中:知識(shí)圖譜管理模塊，包括三個(gè)子模塊:語(yǔ)義聚類子模塊、語(yǔ)義去重子模塊、語(yǔ)義標(biāo)注子模塊，分別對(duì)應(yīng)于知識(shí)圖譜管理步驟中的3個(gè)分步驟的內(nèi)容。
【文檔編號(hào)】G06F17/30GK104035917SQ201410253673
【公開日】2014年9月10日申請(qǐng)日期:2014年6月10日優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】王曉平, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王曉平;肖仰華;汪衛(wèi)
技術(shù)所有人：復(fù)旦大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義映射相關(guān)技術(shù)

語(yǔ)義空間相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于語(yǔ)義空間映射的知識(shí)圖譜管理方法和系統(tǒng)的制作方法