本發(fā)明涉及搜索技術(shù)領(lǐng)域,尤其涉及一種提取實(shí)體詞和上位詞的方法及裝置。
背景技術(shù):
在搜索引擎中,實(shí)體詞和上位詞都是重要的基礎(chǔ)數(shù)據(jù),分析用戶意圖所屬的概念范疇,縮小用戶查詢(Query)與文檔的語(yǔ)義距離,助益搜索引擎檢索到潛在語(yǔ)義相關(guān)的搜索結(jié)果。比如:用戶查詢“新入職員工是否享受福利”,而某一網(wǎng)頁(yè)標(biāo)題為“新入職員工能否享受當(dāng)年帶薪休假”,由于“休假”的上位詞是“福利”,所以用戶查詢和該網(wǎng)頁(yè)是語(yǔ)義相關(guān)的。這個(gè)例子說(shuō)明上位詞可以用來(lái)解決一部分語(yǔ)義相關(guān)的搜索問(wèn)題。實(shí)體詞和上位詞也是構(gòu)建知識(shí)圖譜的基礎(chǔ)數(shù)據(jù),描述概念和實(shí)體、實(shí)體和實(shí)體之間的上下位關(guān)系。因此研究實(shí)體詞和上位詞的高效挖掘方法有很多應(yīng)用價(jià)值,是信息檢索領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),也是自然語(yǔ)言處理領(lǐng)域的基本問(wèn)題。
垂直領(lǐng)域的實(shí)體詞和上位詞,一般是由人工挖掘,準(zhǔn)確率高,基本上容易覆蓋本領(lǐng)域,滿足實(shí)際應(yīng)用。但是對(duì)于網(wǎng)頁(yè)信息檢索領(lǐng)域,實(shí)體詞和上位詞的數(shù)量龐大,人工挖掘的時(shí)間成本太高,導(dǎo)致實(shí)體詞和上位詞的提取效率很低。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的提取實(shí)體詞和上位詞的方法及裝置。
本發(fā)明的一個(gè)方面,提供了一種提取實(shí)體詞和上位詞的方法,包括:
基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本;
基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型;
利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,所述第二網(wǎng)頁(yè)數(shù)據(jù)包括所述第一網(wǎng)頁(yè)數(shù)據(jù),所述上位詞與所述實(shí)體詞對(duì)應(yīng)。
優(yōu)選地,所述第一網(wǎng)頁(yè)數(shù)據(jù)為百科網(wǎng)頁(yè)數(shù)據(jù)。
優(yōu)選地,所述基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本,包括:
對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù),U為正整數(shù);
基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造所述第一訓(xùn)練樣本。
優(yōu)選地,所述對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù),包括:
從所述百科網(wǎng)頁(yè)數(shù)據(jù)中提取部分百科網(wǎng)頁(yè)數(shù)據(jù);
基于所述部分百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本;
基于所述第二訓(xùn)練樣本,訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型;
利用所述第二深度神經(jīng)網(wǎng)絡(luò)模型,對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得所述U類百科網(wǎng)頁(yè)數(shù)據(jù)。
優(yōu)選地,所述基于所述部分百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本,包括:
在所述部分百科網(wǎng)頁(yè)數(shù)據(jù)中的每個(gè)百科網(wǎng)頁(yè)中提取預(yù)設(shè)信息;
基于所述預(yù)設(shè)信息,對(duì)所述每個(gè)百科網(wǎng)頁(yè)進(jìn)行分類,獲得M類百科網(wǎng)頁(yè)數(shù)據(jù),M為正整數(shù);
基于所述M類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建所述第二訓(xùn)練樣本。
優(yōu)選地,所述預(yù)設(shè)信息,包括:
詞條標(biāo)題、詞條副標(biāo)題、詞條摘要、詞條信息框內(nèi)信息、詞條分段標(biāo)題中的一種或多種。
優(yōu)選地,所述基于所述M類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建所述第二訓(xùn)練樣本,包括:
在所述M類百科網(wǎng)頁(yè)中的每一類百科網(wǎng)頁(yè)中提取一組特征詞,共獲得M組特征詞,其中,所述M組特征詞中的每組特征詞均包括N個(gè)特征詞,所述特征詞用于表示所述百科網(wǎng)頁(yè)的類別,N為正整數(shù);
基于所述M組特征詞,生成M個(gè)N維特征詞向量,其中,所述M個(gè)N維特征詞向量即為所述第二訓(xùn)練樣本。
優(yōu)選地,所述基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造所述第一訓(xùn)練樣本,包括:
基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù)中的每一類百科網(wǎng)頁(yè),生成所述每一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量,共獲得U個(gè)特征語(yǔ)句向量,所述U個(gè)特征語(yǔ)句向量與所述U類百科網(wǎng)頁(yè)一一對(duì)應(yīng),所述U個(gè)特征語(yǔ)句向量即為所述第一訓(xùn)練樣本。
優(yōu)選地,所述基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù)中的每一類百科網(wǎng)頁(yè),生成所述每一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量,包括:
在第一類百科網(wǎng)頁(yè)中,提取特征語(yǔ)句,所述特征語(yǔ)句中包含實(shí)體詞和上位詞,所述第一類百科網(wǎng)頁(yè)是所述U類百科網(wǎng)頁(yè)中的任一類百科網(wǎng)頁(yè);
標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置;
基于標(biāo)記后的所述特征語(yǔ)句,生成所述第一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量。
優(yōu)選地,所述在第一類百科網(wǎng)頁(yè)中,提取特征語(yǔ)句,包括:
提取所述第一類百科網(wǎng)頁(yè)中的詞條摘要;
對(duì)所述詞條摘要進(jìn)行語(yǔ)句分割;
從分割后的語(yǔ)句中篩選出包含詞條標(biāo)題的語(yǔ)句,其中,所述包含詞條標(biāo)題的語(yǔ)句即為所述特征語(yǔ)句。
優(yōu)選地,所述標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置,包括:
檢測(cè)所述特征語(yǔ)句中是否包含第一預(yù)設(shè)字符和第二預(yù)設(shè)字符;
若包含,則將所述特征語(yǔ)句中的所述第一預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將所述特征語(yǔ)句中的所述第二預(yù)設(shè)字符后面的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為所述實(shí)體詞成分的詞語(yǔ)組成所述實(shí)體詞,標(biāo)記為所述上位詞成分的詞語(yǔ)組成所述上位詞。
優(yōu)選地,所述標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置,包括:
檢測(cè)所述特征語(yǔ)句中是否包含第三預(yù)設(shè)字符和第四預(yù)設(shè)字符;
若包含,則將所述特征語(yǔ)句中所述第三預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將所述特征語(yǔ)句中所述第三預(yù)設(shè)字符和第四預(yù)設(shè)字之間的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為所述實(shí)體詞成分的詞語(yǔ)組成所述實(shí)體詞,標(biāo)記為所述上位詞成分的詞語(yǔ)組成所述上位詞。
優(yōu)選地,所述標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置,包括:
基于正則表達(dá)式,標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置。
優(yōu)選地,所述基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型,包括:
提取所述U個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句;
基于所述特征語(yǔ)句中實(shí)體詞和上位詞的位置,從所述每個(gè)特征語(yǔ)句中提取所述實(shí)體詞和上位詞;
基于提取出所述實(shí)體詞和上位詞,生成U個(gè)實(shí)體詞和上位詞向量;
將所述U個(gè)特征語(yǔ)句向量作為所述第一深度神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù),將所述U個(gè)實(shí)體詞和上位詞向量作為所述第一深度神經(jīng)網(wǎng)絡(luò)模型的輸出數(shù)據(jù),對(duì)所述第一深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
優(yōu)選地,所述利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,包括:
提取所述第二網(wǎng)頁(yè)中的文字內(nèi)容;
對(duì)所述第二網(wǎng)頁(yè)中的文字內(nèi)容進(jìn)行語(yǔ)句分割,獲得L個(gè)語(yǔ)句,L為正整數(shù);
將所述L個(gè)語(yǔ)句依次輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)模型中,從而在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞。
本發(fā)明的另一方面,提供了一種提取實(shí)體詞和上位詞的裝置,包括:
構(gòu)造單元,用于基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本;
訓(xùn)練單元,用于基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型;
提取單元,用于利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,所述第二網(wǎng)頁(yè)數(shù)據(jù)包括所述第一網(wǎng)頁(yè)數(shù)據(jù),所述上位詞與所述實(shí)體詞對(duì)應(yīng)。
優(yōu)選地,所述第一網(wǎng)頁(yè)數(shù)據(jù)為百科網(wǎng)頁(yè)數(shù)據(jù)。
優(yōu)選地,所述構(gòu)造單元,包括:
分類子單元,用于對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù),U為正整數(shù);
構(gòu)造子單元,用于基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造所述第一訓(xùn)練樣本。
優(yōu)選地,所述分類子單元,具體用于:
從所述百科網(wǎng)頁(yè)數(shù)據(jù)中提取部分百科網(wǎng)頁(yè)數(shù)據(jù);基于所述部分百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本;基于所述第二訓(xùn)練樣本,訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型;利用所述第二深度神經(jīng)網(wǎng)絡(luò)模型,對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得所述U類百科網(wǎng)頁(yè)數(shù)據(jù)。
優(yōu)選地,所述分類子單元,具體用于:
在所述部分百科網(wǎng)頁(yè)數(shù)據(jù)中的每個(gè)百科網(wǎng)頁(yè)中提取預(yù)設(shè)信息;基于所述預(yù)設(shè)信息,對(duì)所述每個(gè)百科網(wǎng)頁(yè)進(jìn)行分類,獲得M類百科網(wǎng)頁(yè)數(shù)據(jù),M為正整數(shù);基于所述M類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建所述第二訓(xùn)練樣本。
優(yōu)選地,所述預(yù)設(shè)信息,包括:
詞條標(biāo)題、詞條副標(biāo)題、詞條摘要、詞條信息框內(nèi)信息、詞條分段標(biāo)題中的一種或多種。
優(yōu)選地,所述分類子單元,具體用于:
在所述M類百科網(wǎng)頁(yè)中的每一類百科網(wǎng)頁(yè)中提取一組特征詞,共獲得M組特征詞,其中,所述M組特征詞中的每組特征詞均包括N個(gè)特征詞,所述特征詞用于表示所述百科網(wǎng)頁(yè)的類別,N為正整數(shù);基于所述M組特征詞,生成M個(gè)N維特征詞向量,其中,所述M個(gè)N維特征詞向量即為所述第二訓(xùn)練樣本。
優(yōu)選地,所述構(gòu)造子單元,具體用于:
基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù)中的每一類百科網(wǎng)頁(yè),生成所述每一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量,共獲得U個(gè)特征語(yǔ)句向量,所述U個(gè)特征語(yǔ)句向量與所述U類百科網(wǎng)頁(yè)一一對(duì)應(yīng),所述U個(gè)特征語(yǔ)句向量即為所述第一訓(xùn)練樣本。
優(yōu)選地,所述構(gòu)造子單元,具體用于:
在第一類百科網(wǎng)頁(yè)中,提取特征語(yǔ)句,所述特征語(yǔ)句中包含實(shí)體詞和上位詞,所述第一類百科網(wǎng)頁(yè)是所述U類百科網(wǎng)頁(yè)中的任一類百科網(wǎng)頁(yè);標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置;基于標(biāo)記后的所述特征語(yǔ)句,生成所述第一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量。
優(yōu)選地,所述構(gòu)造子單元,具體用于:
提取所述第一類百科網(wǎng)頁(yè)中的詞條摘要;對(duì)所述詞條摘要進(jìn)行語(yǔ)句分割;從分割后的語(yǔ)句中篩選出包含詞條標(biāo)題的語(yǔ)句,其中,所述包含詞條標(biāo)題的語(yǔ)句即為所述特征語(yǔ)句。
優(yōu)選地,所述構(gòu)造子單元,具體用于:
檢測(cè)所述特征語(yǔ)句中是否包含第一預(yù)設(shè)字符和第二預(yù)設(shè)字符;若包含,則將所述特征語(yǔ)句中的所述第一預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將所述特征語(yǔ)句中的所述第二預(yù)設(shè)字符后面的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為所述實(shí)體詞成分的詞語(yǔ)組成所述實(shí)體詞,標(biāo)記為所述上位詞成分的詞語(yǔ)組成所述上位詞。
優(yōu)選地,所述構(gòu)造子單元,具體用于:
檢測(cè)所述特征語(yǔ)句中是否包含第三預(yù)設(shè)字符和第四預(yù)設(shè)字符;若包含,則將所述特征語(yǔ)句中所述第三預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將所述特征語(yǔ)句中所述第三預(yù)設(shè)字符和第四預(yù)設(shè)字之間的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為所述實(shí)體詞成分的詞語(yǔ)組成所述實(shí)體詞,標(biāo)記為所述上位詞成分的詞語(yǔ)組成所述上位詞。
優(yōu)選地,所述構(gòu)造子單元,具體用于:
基于正則表達(dá)式,標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置。
優(yōu)選地,所述訓(xùn)練單元,包括:
第一提取子單元,用于提取所述U個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句;
第二提取子單元,用于基于所述特征語(yǔ)句中實(shí)體詞和上位詞的位置,從所述每個(gè)特征語(yǔ)句中提取所述實(shí)體詞和上位詞;
生成子單元,用于基于提取出所述實(shí)體詞和上位詞,生成U個(gè)實(shí)體詞和上位詞向量;
訓(xùn)練子單元,用于將所述U個(gè)特征語(yǔ)句向量作為所述第一深度神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù),將所述U個(gè)實(shí)體詞和上位詞向量作為所述第一深度神經(jīng)網(wǎng)絡(luò)模型的輸出數(shù)據(jù),對(duì)所述第一深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
優(yōu)選地,所述提取單元,包括:
第三提取子單元,用于提取所述第二網(wǎng)頁(yè)中的文字內(nèi)容;
分割子單元,用于對(duì)所述第二網(wǎng)頁(yè)中的文字內(nèi)容進(jìn)行語(yǔ)句分割,獲得L個(gè)語(yǔ)句,L為正整數(shù);
輸入子單元,用于將所述L個(gè)語(yǔ)句依次輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)模型中,從而在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞。
本申請(qǐng)實(shí)施例中提供的一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
在本發(fā)明實(shí)施例中,公開(kāi)了一種提取實(shí)體詞和上位詞的方法,包括:基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本;基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型;利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,所述第二網(wǎng)頁(yè)數(shù)據(jù)包括所述第一網(wǎng)頁(yè)數(shù)據(jù),所述上位詞與所述實(shí)體詞對(duì)應(yīng)。本發(fā)明解決了現(xiàn)有技術(shù)中,在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞時(shí),存在效率低的技術(shù)問(wèn)題,實(shí)現(xiàn)了高效率地在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞的技術(shù)效果。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種提取實(shí)體詞和上位詞的方法的流程圖;
圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種提取實(shí)體詞和上位詞的裝置的結(jié)構(gòu)圖;
圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的百科網(wǎng)頁(yè)的示意圖。
具體實(shí)施方式
本發(fā)明實(shí)施例提供了一種提取實(shí)體詞和上位詞的方法及裝置,用以解決現(xiàn)有技術(shù)中,在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞時(shí),存在效率低的技術(shù)問(wèn)題。
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
實(shí)施例一
本實(shí)施例提供了一種提取實(shí)體詞和上位詞的方法,如圖1所示,包括:
步驟S101:基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本。
在具體實(shí)施過(guò)程中,第一網(wǎng)頁(yè)數(shù)據(jù)為百科網(wǎng)頁(yè)數(shù)據(jù)。
舉例來(lái)講,第一網(wǎng)頁(yè)數(shù)據(jù)可以為“360百科”網(wǎng)頁(yè)數(shù)據(jù)?!?60百科”是一個(gè)網(wǎng)絡(luò)百科全書(shū),涵蓋了大量的知識(shí)領(lǐng)域,收錄了超過(guò)800萬(wàn)的詞條,“360百科”網(wǎng)頁(yè)是由人工編輯的豐富的結(jié)構(gòu)化信息,這為我們提供了高質(zhì)量的挖掘語(yǔ)料庫(kù)。如圖3所示,給出了“360百科”網(wǎng)頁(yè)中的一個(gè)詞條“臥虎藏龍”的網(wǎng)頁(yè)信息。本實(shí)施主要是利用“360百科”網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型,并利用第一深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)體詞和上位詞的挖掘和提取。
作為一種可選的實(shí)施例,步驟S101,包括:對(duì)百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù),U為正整數(shù);基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本。
在具體實(shí)施過(guò)程中,由于相同類別的百科網(wǎng)頁(yè),通常具有相同或相似的特點(diǎn),實(shí)體詞和上位詞的分布位置存在相同或相似的規(guī)律,為了提高實(shí)體詞和上位詞的提取效率,此處可以先將百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,再基于分類后的百科網(wǎng)頁(yè)數(shù)據(jù)構(gòu)造第一訓(xùn)練樣本。
在具體實(shí)施過(guò)程中,可以將百科網(wǎng)頁(yè)數(shù)據(jù)分為以下類別:影視類、書(shū)籍類、人物類、地點(diǎn)類、公司類、游戲類、學(xué)校類、神話故事類、網(wǎng)站類、動(dòng)畫(huà)類、植物類、國(guó)家類、疾病類、食物類、雜志類、動(dòng)物類、語(yǔ)言類、車站類、成語(yǔ)類、等等。此處,對(duì)百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,也就是對(duì)百科網(wǎng)頁(yè)上的詞條進(jìn)行分類。
在具體實(shí)施過(guò)程中,所述對(duì)百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù),包括:從百科網(wǎng)頁(yè)數(shù)據(jù)中提取部分百科網(wǎng)頁(yè)數(shù)據(jù);基于部分百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本;基于第二訓(xùn)練樣本,訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型;利用第二深度神經(jīng)網(wǎng)絡(luò)模型,對(duì)百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù)。
舉例來(lái)講,可以從全部百科網(wǎng)頁(yè)數(shù)據(jù)中提取一部分百科網(wǎng)頁(yè)數(shù)據(jù)來(lái)訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型,再通過(guò)第二深度神經(jīng)網(wǎng)絡(luò)模型對(duì)全部百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類。此處,提取的百科網(wǎng)頁(yè)數(shù)據(jù)數(shù)量越多,獲得的第二訓(xùn)練樣本效果越好,最終訓(xùn)練得到的第二深度神經(jīng)網(wǎng)絡(luò)模型的分類準(zhǔn)確率越高。
在具體實(shí)施過(guò)程中,所述基于部分百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本,包括:在部分百科網(wǎng)頁(yè)數(shù)據(jù)中的每個(gè)百科網(wǎng)頁(yè)中提取預(yù)設(shè)信息;基于預(yù)設(shè)信息,對(duì)這部分百科網(wǎng)頁(yè)數(shù)據(jù)中的每個(gè)百科網(wǎng)頁(yè)進(jìn)行分類,獲得M類百科網(wǎng)頁(yè)數(shù)據(jù),M為正整數(shù);基于所述M類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本。
其中,所述預(yù)設(shè)信息中包含有用于表示百科網(wǎng)頁(yè)的類別的特征詞。
舉例來(lái)講,影視類百科網(wǎng)頁(yè)對(duì)應(yīng)有“電影”、“影片”、“導(dǎo)演”、“主演”、“編劇”、“上映時(shí)間”、“片長(zhǎng)”、“對(duì)白”、“制片”、“劇情”、“演員”、“角色”等特征詞;游戲類百科網(wǎng)頁(yè)對(duì)應(yīng)有“游戲”、“網(wǎng)游”、“單機(jī)”、“電競(jìng)”、“玩家”、“游戲裝備”、“游戲賽事”、“打怪”、“刷副本”、“主線任務(wù)”等特征詞;書(shū)籍類百科網(wǎng)頁(yè)對(duì)應(yīng)有“作者”、“出版”、“出版社”、“自傳”、“小說(shuō)”、“書(shū)名”、“圖書(shū)”、“文學(xué)”、“裝幀”、“印張”、“目錄”等特征詞;學(xué)校類百科網(wǎng)頁(yè)對(duì)應(yīng)有“學(xué)?!?、“大學(xué)”、“中學(xué)”、“小學(xué)”、“??啤?、“本科”、“教育部”、“博士點(diǎn)”、“碩士點(diǎn)”、“高校”、“學(xué)院”、“校區(qū)”、“校址”、“校歌”、“校訓(xùn)”、“招生”、“教學(xué)”、“師資力量”、“錄取分?jǐn)?shù)”、“科研”、“辦學(xué)”、“校友”、“學(xué)科”“教務(wù)處”、“學(xué)生處”、“學(xué)生會(huì)”、“教工”、“教員”等特征詞。通過(guò)識(shí)別這些特征詞,有助于確定百科網(wǎng)頁(yè)的類別。
在具體實(shí)施過(guò)程中,所述預(yù)設(shè)信息,包括:詞條標(biāo)題、詞條副標(biāo)題、詞條摘要、詞條信息框內(nèi)信息、詞條分段標(biāo)題中的一種或多種。在這些信息中,通常有能夠表示該網(wǎng)頁(yè)的類別的特征詞。例如,如圖3所示,對(duì)于詞條“臥虎藏龍”的百科網(wǎng)頁(yè),詞條副標(biāo)題中含有特征詞“電影”、詞條摘要中含有特征詞“電影”、“影片”等,在詞條信息框中含有特征詞“導(dǎo)演”、“主演”、“編劇”、“上映時(shí)間”、“片長(zhǎng)”、“對(duì)白”、“制片”等,在詞條分段標(biāo)題中含有特征詞“劇情”、“演員”、“角色”、“影片”等,通過(guò)識(shí)別這些特征詞,有助于確定該百科網(wǎng)頁(yè)屬于影視類。
在具體實(shí)施過(guò)程中,所述基于所述M類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本,包括:在所述M類百科網(wǎng)頁(yè)中的每一類百科網(wǎng)頁(yè)中提取一組特征詞,共獲得M組特征詞,所述M組特征詞中的每一組特征詞均包括N個(gè)特征詞,該特征詞用于表示百科網(wǎng)頁(yè)的類別,N為正整數(shù);基于所述M組特征詞,生成M個(gè)N維特征詞向量,所述M個(gè)N維特征詞向量即為第二訓(xùn)練樣本。
舉例來(lái)講,在對(duì)部分百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得M類百科網(wǎng)頁(yè)數(shù)據(jù)后,對(duì)于每一類百科網(wǎng)頁(yè)數(shù)據(jù),可以提取該類百科網(wǎng)頁(yè)數(shù)據(jù)對(duì)應(yīng)的全部特征詞,然后利用TF-IDF(term frequency–inverse document frequency)算法計(jì)算每個(gè)特征詞的權(quán)重,并按照權(quán)重大小對(duì)每個(gè)特征詞進(jìn)行排序,再篩選出排序靠前的N個(gè)特征詞。其中,特征詞的權(quán)重越大,則表明基于該特征詞確定百科網(wǎng)頁(yè)的類別時(shí)的準(zhǔn)確率越高。此處,對(duì)于每一類百科網(wǎng)頁(yè)數(shù)據(jù),需要篩選出權(quán)重大的特征詞,淘汰權(quán)重小的特征詞。其中,N的取值可以根據(jù)實(shí)際情況設(shè)置,此處給出的取值范圍為50~250,例如,N可以為50、或100、或150、或200、或250,等等。
舉例來(lái)講,可以選用Word2vec訓(xùn)練所述M個(gè)N維特征詞向量。其中,Word2vec是一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過(guò)訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為多維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。
在具體實(shí)施過(guò)程中,所述第二訓(xùn)練樣本中包含所述M個(gè)N維特征詞向量,同時(shí)還包括所述M類百科網(wǎng)頁(yè)數(shù)據(jù)的類別信息,其中,所述M個(gè)N維特征詞向量和所述M類百科網(wǎng)頁(yè)數(shù)據(jù)的類別信息一一對(duì)應(yīng)。
在獲得第二訓(xùn)練樣本之后,即可基于第二訓(xùn)練樣本訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型。
在具體實(shí)施過(guò)程中,第二深度神經(jīng)網(wǎng)絡(luò)模型可以采用OPTIMUS平臺(tái)的提供的CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))模型,從而提高第二深度神經(jīng)網(wǎng)絡(luò)模型的泛化能力和可擴(kuò)展性。其中,OPTIMUS是優(yōu)秀的過(guò)程集成與優(yōu)化設(shè)計(jì)平臺(tái)。過(guò)程集成和優(yōu)化設(shè)計(jì)軟件,集成CAD/CAE仿真工具,實(shí)現(xiàn)仿真流程自動(dòng)化,包括試驗(yàn)設(shè)計(jì)、單目標(biāo)/多目標(biāo)優(yōu)化、魯棒性/可靠性設(shè)計(jì)等模塊,是多學(xué)科仿真設(shè)計(jì)輔助工具。
在具體實(shí)施過(guò)程中,在基于第二訓(xùn)練樣本,訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型時(shí),可將所述M個(gè)N維特征詞向量作為第二深度神經(jīng)網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)輸入,將所述M類百科網(wǎng)頁(yè)數(shù)據(jù)的類別信息作為第二深度神經(jīng)網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)輸出,以此訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練完成的第二深度神經(jīng)網(wǎng)絡(luò)模型具有對(duì)任一百科網(wǎng)頁(yè)進(jìn)行分類的能力,可以根據(jù)任一百科網(wǎng)頁(yè)上的特征詞組成的征詞向量對(duì)該百科網(wǎng)頁(yè)進(jìn)行分類。
作為一種可選的實(shí)施例,還可以將第二訓(xùn)練樣本分成多份,并利用每一份訓(xùn)練樣本訓(xùn)練一個(gè)小型CNN模型,獲得多個(gè)小型CNN模型,最后再利用全部第二訓(xùn)練樣本訓(xùn)練一個(gè)大型CNN模型。在訓(xùn)練完成第二深度神經(jīng)網(wǎng)絡(luò)模型后,即可利用第二深度神經(jīng)網(wǎng)絡(luò)模對(duì)全部百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,從而獲得所述U類百科網(wǎng)頁(yè)數(shù)據(jù)。例如,可以對(duì)“360百科”中800萬(wàn)的網(wǎng)頁(yè)進(jìn)行分類預(yù)測(cè),每個(gè)百科網(wǎng)頁(yè)依次經(jīng)過(guò)小型CNN模型和大型CNN模型,從而對(duì)每個(gè)百科網(wǎng)頁(yè)進(jìn)行分類,其中,一個(gè)百科網(wǎng)頁(yè)可以有多個(gè)類別。
在對(duì)全部百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類后,則按照已分類類別聚類百科網(wǎng)頁(yè),獲得所述U類百科網(wǎng)頁(yè)數(shù)據(jù)。
在獲得所述U類百科網(wǎng)頁(yè)數(shù)據(jù)后,即可基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本。
作為一種可選的實(shí)施例,所述基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本,包括:基于U類百科網(wǎng)頁(yè)數(shù)據(jù)中的每一類百科網(wǎng)頁(yè),生成每一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量,共獲得U個(gè)特征語(yǔ)句向量,所述U個(gè)特征語(yǔ)句向量與所述U類百科網(wǎng)頁(yè)一一對(duì)應(yīng),所述U個(gè)特征語(yǔ)句向量即為第一訓(xùn)練樣本。
其中,所述基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù)中的每一類百科網(wǎng)頁(yè),生成每一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量,包括:在第一類百科網(wǎng)頁(yè)中,提取特征語(yǔ)句,特征語(yǔ)句中包含實(shí)體詞和上位詞,第一類百科網(wǎng)頁(yè)是U類百科網(wǎng)頁(yè)中的任一類百科網(wǎng)頁(yè);標(biāo)記特征語(yǔ)句中實(shí)體詞和上位詞的位置;基于標(biāo)記后的特征語(yǔ)句,生成第一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量。這樣,就獲得了所述U類百科網(wǎng)頁(yè)數(shù)據(jù)各自對(duì)應(yīng)的特征語(yǔ)句向量。其中,每個(gè)特征語(yǔ)句向量中包含多個(gè)特征語(yǔ)句,并且在每個(gè)特征語(yǔ)句中標(biāo)記出了實(shí)體詞和上位詞的位置。
在具體實(shí)施過(guò)程中,按照分類類別聚類百科網(wǎng)頁(yè)后,可以發(fā)現(xiàn)一個(gè)現(xiàn)象:在某些分類中,在詞條摘要中,含有詞條標(biāo)題語(yǔ)句中往往含有詞條標(biāo)題的上位詞??梢?jiàn),實(shí)體詞和上位詞在語(yǔ)句中的位置,帶有顯著的模式特征。
在具體實(shí)施過(guò)程中,在第一類百科網(wǎng)頁(yè)中提取特征語(yǔ)句時(shí),可以提取第一類百科網(wǎng)頁(yè)中的詞條摘要;對(duì)詞條摘要進(jìn)行語(yǔ)句分割;從分割后的語(yǔ)句中篩選出包含詞條標(biāo)題的語(yǔ)句,其中,包含詞條標(biāo)題的語(yǔ)句即為特征語(yǔ)句。其中,在對(duì)詞條摘要進(jìn)行語(yǔ)句分割時(shí),可以按照“!”、“?”“。”三種標(biāo)點(diǎn)符號(hào)切割語(yǔ)句。
舉例來(lái)講,如表1所示,左欄為詞條摘要中的包含詞條標(biāo)題的特征語(yǔ)句,右欄為對(duì)應(yīng)的實(shí)體詞和上位詞。在詞條“上古戰(zhàn)紀(jì)”的詞條摘要中含有特征語(yǔ)句“《上古戰(zhàn)紀(jì)》是一款以即時(shí)戰(zhàn)斗模式為核心的神話戰(zhàn)爭(zhēng)游戲?!保渲邪瑢?shí)體詞“上古戰(zhàn)紀(jì)”和上位詞“神話戰(zhàn)爭(zhēng)游戲”;在詞條“何塞·加拉特”的詞條摘要中含有特征語(yǔ)句“何塞·加拉特是西班牙的一名足球運(yùn)動(dòng)員,他踢的是前鋒”,其中包含實(shí)體詞“何塞·加拉特”和上位詞“足球運(yùn)動(dòng)員”;在詞條“聯(lián)記餅家”的詞條摘要中含有特征語(yǔ)句“聯(lián)記餅家,是一家位于佛山市的糕點(diǎn)制作店”,其中包含實(shí)體詞“聯(lián)記餅家”和上位詞“糕點(diǎn)制作店”;在詞條“蘭花笑”的詞條摘要中含有特征語(yǔ)句“《蘭花笑》是一部勵(lì)志的短片小說(shuō),講述了主人公蘭花通過(guò)不懈的努力”,其中包含實(shí)體詞“蘭花笑”和上位詞“短片小說(shuō)”??梢?jiàn),在這樣的特征語(yǔ)句中包含實(shí)體詞和上位詞,可以基于這樣的特征語(yǔ)句進(jìn)行實(shí)體詞和上位詞的挖掘和提取。
表1
在具體實(shí)施過(guò)程中,所述標(biāo)記特征語(yǔ)句中實(shí)體詞和上位詞的位置,包括以下兩種實(shí)施方式:
方式一:檢測(cè)特征語(yǔ)句中是否包含第一預(yù)設(shè)字符和第二預(yù)設(shè)字符;若包含,則將特征語(yǔ)句中的第一預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將特征語(yǔ)句中的第二預(yù)設(shè)字符后面的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為實(shí)體詞成分的詞語(yǔ)組成實(shí)體詞,標(biāo)記為上位詞成分的詞語(yǔ)組成上位詞。
在對(duì)特征語(yǔ)句標(biāo)記成分時(shí),e代表實(shí)體詞成分,h代表上位詞成分,o代表其他成分,一般,特征語(yǔ)句中的標(biāo)點(diǎn)符號(hào)標(biāo)記為其他成分。
具體來(lái)講,第一預(yù)設(shè)字符可以為“是”,第二預(yù)設(shè)字符可以為“的”,也就是說(shuō),對(duì)于“A是……的B”的語(yǔ)句模式,若A屬于詞條標(biāo)題,則A屬于實(shí)體詞,B為上位詞。
舉例來(lái)講,對(duì)于特征語(yǔ)句“《上古戰(zhàn)紀(jì)》是一款以即時(shí)戰(zhàn)斗模式為核心的神話戰(zhàn)爭(zhēng)游戲?!?,可以對(duì)其中的每個(gè)詞語(yǔ)進(jìn)行成分標(biāo)記,標(biāo)記結(jié)果如下:
《:o上古:e戰(zhàn)紀(jì):e》:o是:o一款:o以:o即時(shí):o戰(zhàn)斗:o模式:o為:o核心:o的:o神話:h戰(zhàn)爭(zhēng)游戲:h。:o
其中,標(biāo)記為e的詞語(yǔ)“上古”和“戰(zhàn)紀(jì)”一起組成實(shí)體詞“上古戰(zhàn)紀(jì)”,標(biāo)記為h的詞語(yǔ)“神話”和“戰(zhàn)爭(zhēng)游戲”一起組成上位詞“神話戰(zhàn)爭(zhēng)游戲”。
另外,第一預(yù)設(shè)字符還可以為“地處”,第二預(yù)設(shè)字符可以為“的”,也就是說(shuō),對(duì)于“A地處……的B”的語(yǔ)句模式,若A屬于詞條標(biāo)題,則A屬于實(shí)體詞,B為上位詞。
舉例來(lái)講,對(duì)于特征語(yǔ)句“煙臺(tái)國(guó)華酒店地處山東省煙臺(tái)市黃金經(jīng)濟(jì)中心,膠東最大的小商品批發(fā)市場(chǎng)”,可以對(duì)其中的每個(gè)詞語(yǔ)進(jìn)行成分標(biāo)記,標(biāo)記結(jié)果如下:
煙臺(tái):e國(guó)華酒店:e地處:o山東?。簅煙臺(tái)市:o黃金經(jīng)濟(jì)中心:o,:o膠東:o最大:o的:o小商品:h批發(fā)市場(chǎng):h”
其中,標(biāo)記為e的詞語(yǔ)“煙臺(tái)”和“國(guó)華酒店”一起組成實(shí)體詞“煙臺(tái)國(guó)華酒店”,標(biāo)記為h的詞語(yǔ)“小商品”和“批發(fā)市場(chǎng)”一起組成上位詞“小商品批發(fā)市場(chǎng)”。
方式二:檢測(cè)特征語(yǔ)句中是否包含第三預(yù)設(shè)字符和第四預(yù)設(shè)字符;若包含,則將特征語(yǔ)句中第三預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將特征語(yǔ)句中第三預(yù)設(shè)字符和第四預(yù)設(shè)字之間的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為實(shí)體詞成分的詞語(yǔ)組成實(shí)體詞,標(biāo)記為上位詞成分的詞語(yǔ)組成上位詞。
具體來(lái)講,第三預(yù)設(shè)字符可以為“是”,第四預(yù)設(shè)字符可以為“之一”,也就是說(shuō),對(duì)于“A是B之一”的語(yǔ)句模式,若A屬于詞條標(biāo)題,則A屬于實(shí)體詞,B為上位詞。
舉例來(lái)講,對(duì)于特征語(yǔ)句“肥肉糊是熱菜菜譜之一,以肥肉,芝麻為制作主料”,可以對(duì)其中的每個(gè)詞語(yǔ)進(jìn)行成分標(biāo)記,標(biāo)記結(jié)果如下:
肥肉糊:e是:o熱菜:h菜譜:h之一:o,:o以:o肥肉:o,:o芝麻:o為:o制作:o主料o
其中,標(biāo)記為e的詞語(yǔ)“肥肉糊”是實(shí)體詞,標(biāo)記為h的詞語(yǔ)“熱菜”和“菜譜”一起組成上位詞“熱菜菜譜”。
此處,為了提高標(biāo)記效率,可以先基于正則表達(dá)式,確定特征語(yǔ)句中實(shí)體詞和上位詞的位置,再進(jìn)行標(biāo)記。例如:
對(duì)于具有“A是……的B”的語(yǔ)句模式的特征語(yǔ)句,可以利用如下正則表達(dá)式:
regx=u'([《\u4e00-\u9fa5》·-]{1,})是[\u4e00-\u9fa5\w\s·-]{1,}的([\u4e00-\u9fa5“”""]{1,})[,。]*'
對(duì)于具有“A地處……的B”的語(yǔ)句模式的特征語(yǔ)句,可以利用如下正則表達(dá)式:
regx=u'[,\s]*([\u4e00-\u9fa5《》“”""\-·\w()\s():;]{1,}).*地處[\u4e00-\u9fa5\w,]{1,}的([\u4e00-\u9fa5、“”《》]{1,})[,。;]*'
對(duì)于具有“A是B之一”的語(yǔ)句模式的特征語(yǔ)句,可以利用如下正則表達(dá)式:
regx=u'([\u4e00-\u9fa5《》\-“”""·\w()\s()]{1,})是([\u4e00-\u9fa5\w\s、]{1,})之一[\u4e00-\u9fa5,。;]*'
基于以上方法即可獲得第一訓(xùn)練樣本,其中,第一訓(xùn)練樣本具體為所述U個(gè)特征語(yǔ)句向量,其中,每個(gè)特征語(yǔ)句向量中包含多個(gè)特征語(yǔ)句,并且在每個(gè)特征語(yǔ)句中標(biāo)記出了實(shí)體詞和上位詞的位置。
步驟S102:基于第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型。
作為一種可選的實(shí)施例,步驟S102,包括:提取所述U個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句;基于每個(gè)特征語(yǔ)句中實(shí)體詞和上位詞的位置,從每個(gè)特征語(yǔ)句中提取實(shí)體詞和上位詞;基于提取出實(shí)體詞和上位詞,生成U個(gè)實(shí)體詞和上位詞向量;將所述U個(gè)特征語(yǔ)句向量作為第一深度神經(jīng)網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)輸入數(shù)據(jù),并將所述U個(gè)實(shí)體詞和上位詞向量作為第一深度神經(jīng)網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)輸出數(shù)據(jù),對(duì)第一深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
在具體實(shí)施過(guò)程中,每個(gè)特征語(yǔ)句向量中包含K個(gè)特征語(yǔ)句,每個(gè)實(shí)體詞和上位詞向量中包含有K對(duì)實(shí)體詞和上位詞,K為正整數(shù),所述K個(gè)特征語(yǔ)句和所述K對(duì)實(shí)體詞和上位詞一一對(duì)應(yīng),所述U個(gè)特征語(yǔ)句向量和所述U個(gè)實(shí)體詞和上位詞向量一一對(duì)應(yīng)。這樣,第一深度神經(jīng)網(wǎng)絡(luò)模在從所述U個(gè)特征語(yǔ)句向量中獲取一個(gè)特征語(yǔ)句時(shí),對(duì)應(yīng)地就可以從所述U個(gè)實(shí)體詞和上位詞向量中獲取該特征語(yǔ)句對(duì)應(yīng)的實(shí)體詞和上位詞,從而完成對(duì)該特征語(yǔ)句和對(duì)應(yīng)的實(shí)體詞和上位詞的學(xué)習(xí)。
在具體實(shí)施過(guò)程中,第一深度神經(jīng)網(wǎng)絡(luò)模型可以采用雙向的BLSTM-RNN(Bidirectional Long Short-Term Memory Recurrent Neural Network,雙向遞歸神經(jīng)網(wǎng)絡(luò)短期記憶)模型。訓(xùn)練完成的第一深度神經(jīng)網(wǎng)絡(luò)模型即可根據(jù)輸入的任一語(yǔ)句,預(yù)測(cè)出該語(yǔ)句中實(shí)體詞和上位詞的位置,最后提取實(shí)體詞和上位詞。
步驟S103:利用第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,第二網(wǎng)頁(yè)數(shù)據(jù)包括第一網(wǎng)頁(yè)數(shù)據(jù),上位詞與實(shí)體詞對(duì)應(yīng)。
作為一種可選的實(shí)施例,步驟S103,包括:提取第二網(wǎng)頁(yè)中的文字內(nèi)容;對(duì)第二網(wǎng)頁(yè)中的文字內(nèi)容進(jìn)行語(yǔ)句分割,獲得L個(gè)語(yǔ)句,L為正整數(shù);將L個(gè)語(yǔ)句依次輸入至第一深度神經(jīng)網(wǎng)絡(luò)模型中,從而在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞。
在具體實(shí)施過(guò)程中,第二網(wǎng)頁(yè)可以為網(wǎng)絡(luò)上的任一網(wǎng)頁(yè),包含百科網(wǎng)頁(yè),也可以是其他任一網(wǎng)頁(yè)(例如:“360問(wèn)答”網(wǎng)頁(yè)、論壇網(wǎng)頁(yè),等等)。以百科網(wǎng)頁(yè)為例,可以從百科網(wǎng)頁(yè)的詞條摘要中提取實(shí)體詞和上位詞,也可以從正文中提取實(shí)體詞和上位詞,由于正文中數(shù)據(jù)量更大,所以提取到的實(shí)體詞和上位詞也更多。
在具體實(shí)施過(guò)程中,在利用第一深度神經(jīng)網(wǎng)絡(luò)模型從第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞時(shí),需要先對(duì)第二網(wǎng)頁(yè)中的文字內(nèi)容進(jìn)行語(yǔ)句分割,如上文所述,可以按照“!”、“?”“?!比N標(biāo)點(diǎn)符號(hào)切割語(yǔ)句,在將分割后的語(yǔ)句組成的語(yǔ)句向量輸入到第一深度神經(jīng)網(wǎng)絡(luò)模型中,第一深度神經(jīng)網(wǎng)絡(luò)模型輸出的也是一個(gè)向量,其中包含提取到成對(duì)的實(shí)體詞和上位詞。
在具體實(shí)施過(guò)程中,在步驟S103中,通過(guò)第一深度神經(jīng)網(wǎng)絡(luò)模型可以獲得大量的實(shí)體詞和上位詞,此處,可以進(jìn)一步計(jì)算出每一對(duì)實(shí)體詞和上位詞的置信度,并將置信度低于某一個(gè)閾值的實(shí)體詞和上位詞過(guò)濾掉,保留置信度較高的實(shí)體詞和上位詞,從而進(jìn)一步提高抽取實(shí)體詞和上位詞的準(zhǔn)確率。
上述本申請(qǐng)實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
在本發(fā)明實(shí)施例中,公開(kāi)了一種提取實(shí)體詞和上位詞的方法,包括:基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本;基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型;利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,所述第二網(wǎng)頁(yè)數(shù)據(jù)包括所述第一網(wǎng)頁(yè)數(shù)據(jù),所述上位詞與所述實(shí)體詞對(duì)應(yīng)。本發(fā)明解決了現(xiàn)有技術(shù)中,在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞時(shí),存在效率低的技術(shù)問(wèn)題,實(shí)現(xiàn)了高效率地在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞的技術(shù)效果。
實(shí)施例二
基于同一發(fā)明構(gòu)思,本實(shí)施例提供了一種提取實(shí)體詞和上位詞的裝置,如圖2所示,包括:
構(gòu)造單元201,用于基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本;
訓(xùn)練單元202,用于基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型;
提取單元203,用于利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,所述第二網(wǎng)頁(yè)數(shù)據(jù)包括所述第一網(wǎng)頁(yè)數(shù)據(jù),所述上位詞與所述實(shí)體詞對(duì)應(yīng)。
作為一種可選的實(shí)施例,所述第一網(wǎng)頁(yè)數(shù)據(jù)為百科網(wǎng)頁(yè)數(shù)據(jù)。
作為一種可選的實(shí)施例,構(gòu)造單元201,包括:
分類子單元,用于對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得U類百科網(wǎng)頁(yè)數(shù)據(jù),U為正整數(shù);
構(gòu)造子單元,用于基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造所述第一訓(xùn)練樣本。
作為一種可選的實(shí)施例,分類子單元,具體用于:
從所述百科網(wǎng)頁(yè)數(shù)據(jù)中提取部分百科網(wǎng)頁(yè)數(shù)據(jù);基于所述部分百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建第二訓(xùn)練樣本;基于所述第二訓(xùn)練樣本,訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò)模型;利用所述第二深度神經(jīng)網(wǎng)絡(luò)模型,對(duì)所述百科網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類,獲得所述U類百科網(wǎng)頁(yè)數(shù)據(jù)。
作為一種可選的實(shí)施例,分類子單元,具體用于:
在所述部分百科網(wǎng)頁(yè)數(shù)據(jù)中的每個(gè)百科網(wǎng)頁(yè)中提取預(yù)設(shè)信息;基于所述預(yù)設(shè)信息,對(duì)所述每個(gè)百科網(wǎng)頁(yè)進(jìn)行分類,獲得M類百科網(wǎng)頁(yè)數(shù)據(jù),M為正整數(shù);基于所述M類百科網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建所述第二訓(xùn)練樣本。
作為一種可選的實(shí)施例,所述預(yù)設(shè)信息,包括:
詞條標(biāo)題、詞條副標(biāo)題、詞條摘要、詞條信息框內(nèi)信息、詞條分段標(biāo)題中的一種或多種。
作為一種可選的實(shí)施例,分類子單元,具體用于:
在所述M類百科網(wǎng)頁(yè)中的每一類百科網(wǎng)頁(yè)中提取一組特征詞,共獲得M組特征詞,其中,所述M組特征詞中的每組特征詞均包括N個(gè)特征詞,所述特征詞用于表示所述百科網(wǎng)頁(yè)的類別,N為正整數(shù);基于所述M組特征詞,生成M個(gè)N維特征詞向量,其中,所述M個(gè)N維特征詞向量即為所述第二訓(xùn)練樣本。
作為一種可選的實(shí)施例,構(gòu)造子單元,具體用于:
基于所述U類百科網(wǎng)頁(yè)數(shù)據(jù)中的每一類百科網(wǎng)頁(yè),生成所述每一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量,共獲得U個(gè)特征語(yǔ)句向量,所述U個(gè)特征語(yǔ)句向量與所述U類百科網(wǎng)頁(yè)一一對(duì)應(yīng),所述U個(gè)特征語(yǔ)句向量即為所述第一訓(xùn)練樣本。
作為一種可選的實(shí)施例,構(gòu)造子單元,具體用于:
在第一類百科網(wǎng)頁(yè)中,提取特征語(yǔ)句,所述特征語(yǔ)句中包含實(shí)體詞和上位詞,所述第一類百科網(wǎng)頁(yè)是所述U類百科網(wǎng)頁(yè)中的任一類百科網(wǎng)頁(yè);標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置;基于標(biāo)記后的所述特征語(yǔ)句,生成所述第一類百科網(wǎng)頁(yè)對(duì)應(yīng)的特征語(yǔ)句向量。
作為一種可選的實(shí)施例,構(gòu)造子單元,具體用于:
提取所述第一類百科網(wǎng)頁(yè)中的詞條摘要;對(duì)所述詞條摘要進(jìn)行語(yǔ)句分割;從分割后的語(yǔ)句中篩選出包含詞條標(biāo)題的語(yǔ)句,其中,所述包含詞條標(biāo)題的語(yǔ)句即為所述特征語(yǔ)句。
作為一種可選的實(shí)施例,構(gòu)造子單元,具體用于:
檢測(cè)所述特征語(yǔ)句中是否包含第一預(yù)設(shè)字符和第二預(yù)設(shè)字符;若包含,則將所述特征語(yǔ)句中的所述第一預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將所述特征語(yǔ)句中的所述第二預(yù)設(shè)字符后面的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為所述實(shí)體詞成分的詞語(yǔ)組成所述實(shí)體詞,標(biāo)記為所述上位詞成分的詞語(yǔ)組成所述上位詞。
作為一種可選的實(shí)施例,構(gòu)造子單元,具體用于:
檢測(cè)所述特征語(yǔ)句中是否包含第三預(yù)設(shè)字符和第四預(yù)設(shè)字符;若包含,則將所述特征語(yǔ)句中所述第三預(yù)設(shè)字符前面的詞語(yǔ)標(biāo)記為實(shí)體詞成分,并將所述特征語(yǔ)句中所述第三預(yù)設(shè)字符和第四預(yù)設(shè)字之間的詞語(yǔ)標(biāo)記為上位詞成分,其中,標(biāo)記為所述實(shí)體詞成分的詞語(yǔ)組成所述實(shí)體詞,標(biāo)記為所述上位詞成分的詞語(yǔ)組成所述上位詞。
作為一種可選的實(shí)施例,所述構(gòu)造子單元,具體用于:
基于正則表達(dá)式,標(biāo)記所述特征語(yǔ)句中實(shí)體詞和上位詞的位置。
作為一種可選的實(shí)施例,訓(xùn)練單元202,包括:
第一提取子單元,用于提取所述U個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句向量中的每個(gè)特征語(yǔ)句;
第二提取子單元,用于基于所述特征語(yǔ)句中實(shí)體詞和上位詞的位置,從所述每個(gè)特征語(yǔ)句中提取所述實(shí)體詞和上位詞;
生成子單元,用于基于提取出所述實(shí)體詞和上位詞,生成U個(gè)實(shí)體詞和上位詞向量;
訓(xùn)練子單元,用于將所述U個(gè)特征語(yǔ)句向量作為所述第一深度神經(jīng)網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)輸入數(shù)據(jù),將所述U個(gè)實(shí)體詞和上位詞向量作為所述第一深度神經(jīng)網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)輸出數(shù)據(jù),對(duì)所述第一深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
作為一種可選的實(shí)施例,提取單元203,包括:
第三提取子單元,用于提取所述第二網(wǎng)頁(yè)中的文字內(nèi)容;
分割子單元,用于對(duì)所述第二網(wǎng)頁(yè)中的文字內(nèi)容進(jìn)行語(yǔ)句分割,獲得L個(gè)語(yǔ)句,L為正整數(shù);
輸入子單元,用于將所述L個(gè)語(yǔ)句依次輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)模型中,從而在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞。
上述本申請(qǐng)實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
由于本實(shí)施例所介紹的提取實(shí)體詞和上位詞的裝置為實(shí)施本申請(qǐng)實(shí)施例中提取實(shí)體詞和上位詞的方法所采用的裝置,故而基于本申請(qǐng)實(shí)施例中所介紹的提取實(shí)體詞和上位詞的方法,本領(lǐng)域所屬技術(shù)人員能夠了解本實(shí)施例的提取實(shí)體詞和上位詞的裝置的具體實(shí)施方式以及其各種變化形式,所以在此對(duì)于該提取實(shí)體詞和上位詞的裝置如何實(shí)現(xiàn)本申請(qǐng)實(shí)施例中的方法不再詳細(xì)介紹。只要本領(lǐng)域所屬技術(shù)人員實(shí)施本申請(qǐng)實(shí)施例中提取實(shí)體詞和上位詞的方法所采用的裝置,都屬于本申請(qǐng)所欲保護(hù)的范圍。
上述本申請(qǐng)實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
在本發(fā)明實(shí)施例中,公開(kāi)了一種提取實(shí)體詞和上位詞的裝置,包括:構(gòu)造單元,用于基于第一網(wǎng)頁(yè)數(shù)據(jù),構(gòu)造第一訓(xùn)練樣本;訓(xùn)練單元,用于基于所述第一訓(xùn)練樣本,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)模型;提取單元,用于利用所述第一深度神經(jīng)網(wǎng)絡(luò)模型,在第二網(wǎng)頁(yè)數(shù)據(jù)中提取實(shí)體詞和上位詞,其中,所述第二網(wǎng)頁(yè)數(shù)據(jù)包括所述第一網(wǎng)頁(yè)數(shù)據(jù),所述上位詞與所述實(shí)體詞對(duì)應(yīng)。本發(fā)明解決了現(xiàn)有技術(shù)中,在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞時(shí),存在效率低的技術(shù)問(wèn)題,實(shí)現(xiàn)了高效率地在網(wǎng)頁(yè)信息中提取實(shí)體詞和上位詞的技術(shù)效果。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一種提取實(shí)體詞和上位詞的裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。