專利名稱:可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)識別人類語言的方法,特別涉及到一種可以準(zhǔn)確的識別漢語語目的方法。
背景技術(shù):
搜索引擎的工作原理就是基于關(guān)鍵字匹配,將用戶的輸入進(jìn)行切詞,把一句話變成短小的詞語,然后進(jìn)入后臺數(shù)據(jù)庫進(jìn)行網(wǎng)頁內(nèi)容的關(guān)鍵字匹配。其捜索返回的結(jié)果中,只要帶有這些關(guān)鍵字的都會返回,包含大量的無關(guān)信息,查準(zhǔn)率低下,不能切中用戶的真正意圖。顯然,基于關(guān)鍵字匹配的切詞和搜索技術(shù),限制了計(jì)算機(jī)在檢索中的自動分析能 力。對ー個句子進(jìn)行關(guān)鍵詞匹配切割,雖然很容易處理由關(guān)鍵字拼湊成的一句話,但是卻很難理解自然語言形式的一句話。因?yàn)樵~庫里存放的,是詞語的大雜匯,標(biāo)注出的結(jié)果詞語,缺乏語義信息,缺乏知識的理解和推理能力。因此,對ー個自然語言句子的切分和標(biāo)注,是搜索、推薦、人工智能等高科技領(lǐng)域迫切需要突破的基礎(chǔ)技術(shù)。當(dāng)前,這個領(lǐng)域的主要進(jìn)展是,對于自然語言句子的標(biāo)注方法,采用詞典語料樣本庫進(jìn)行句法分析,通過建立機(jī)器學(xué)習(xí)模型來實(shí)現(xiàn)自動的語義角色標(biāo)注。但這類方法仍然存在很大的局限和缺點(diǎn)
1、句法分析以詞庫為基礎(chǔ),需要積累大規(guī)模的語料庫才能實(shí)現(xiàn)初歩的語義標(biāo)注,建設(shè)成本巨大;
2、詞庫不分領(lǐng)域,每個詞只有語法上的意義,比如名詞、動詞、狀語、主語、賓語等,卻缺乏清晰的語義意義。3、由于語料庫是ー個詞語的大雜匯,所以在運(yùn)用的時候,為了要適應(yīng)不同的領(lǐng)域特性,需要繁瑣的學(xué)習(xí)算法,重用度低,系統(tǒng)性能難以達(dá)到商業(yè)生產(chǎn)環(huán)境的實(shí)用要求,從而無法走出實(shí)驗(yàn)室;
總之,這種基于語義角色的標(biāo)注,粒度過粗,對于句子意義的理解無法適應(yīng)深度人工智能問答的要求。
發(fā)明內(nèi)容
本發(fā)明的發(fā)明目的是提供一種計(jì)算機(jī)準(zhǔn)確理解中國漢語言的方法,它拋棄了以往選字取詞的方法,從漢語的語言特點(diǎn)出發(fā),通過詞語架構(gòu),準(zhǔn)確的讓計(jì)算機(jī)知道操作者輸入的語言內(nèi)容;確切的分析出一句漢語的語意。為完成上述發(fā)明目的,本發(fā)明是這樣實(shí)現(xiàn)的一種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,它包括以下步聚;
a在某個領(lǐng)域建立本體庫;
將某個領(lǐng)域內(nèi)所有的精確描述的無歧義的詞語歸放到一起構(gòu)成本體庫;b基于領(lǐng)域本體建立語義框架知識庫;
對自然語言句子的理解,建立“語義框架=謂詞+核心框架元素+非核心框架元素”的語義框架體系;形成有某種特定含義的框架知識庫;
C基于語義框架的本體映射,實(shí)現(xiàn)自然語言句子到語義結(jié)構(gòu)的直觀匹配;根據(jù)框架模式進(jìn)行匹配性識別。本發(fā)明為解決以往技術(shù)中漢語的復(fù)雜問題,以往語言的的魚龍混雜,語義不清的特點(diǎn),以往語言中,由于前提不明確,語境不定,因此對于復(fù)雜的漢語言來說,其語義沒有辦法確定,也確實(shí)無法確定。而本專利采用分別建立相應(yīng)的專業(yè)領(lǐng)域庫,讓某些語言在特定的環(huán)境下工作,那么他的語義就是ー個明確的語義。再建立相應(yīng)的,可以人為理解的語義框架,從而讓計(jì)算機(jī)相應(yīng)的去篩選語句中特定的語義框架,由語義框架所標(biāo)注的意思來理解這句話所最終表達(dá)含義。 對上述技術(shù)方案作進(jìn)ー步的改進(jìn),所述的框架元素是由本體庫內(nèi)的無歧義的詞語本體構(gòu)成。本方案是為了確保語義的準(zhǔn)確性而設(shè)計(jì)的,確保詞庫內(nèi)的詞語無歧義這也是確保語義識別準(zhǔn)確的前提。對上述技術(shù)方案作進(jìn)ー步的改進(jìn),所述的本體庫分為本領(lǐng)域知識本體庫和通用詞本體知識庫;所述的領(lǐng)域本體知識庫,也是ー個詞庫。它里面主要包括實(shí)詞和領(lǐng)域相關(guān)的有意義的詞匯;所述的通用詞本體知識庫是也是ー個詞庫;它里面主要包括虛詞、代詞、形容詞、數(shù)詞、量詞、介詞、助詞、語氣詞,這些詞是獨(dú)立于特定領(lǐng)域的,但卻是針對特定語言表達(dá)的,利用通用詞庫匹配標(biāo)注出來的詞語,在后面的機(jī)器理解中,可以當(dāng)作輔助分析的詞語,對領(lǐng)域內(nèi)的句式、語境產(chǎn)生補(bǔ)充作用。本方案確實(shí)考慮到現(xiàn)實(shí)語言的復(fù)雜情況,在一句話中,會有很多的用于限定的詞語,而這些詞語本身對于這句話的實(shí)際意義不大,只是有了他們意思更加明確,這些詞語的存在會給語言帶來復(fù)雜性,因此,本專利將詞庫建立成兩個類,以便計(jì)算機(jī)下一歩的分析處理,從不同的詞內(nèi)提取不同的內(nèi)容,最終達(dá)到準(zhǔn)確識別。對上述技術(shù)方案作進(jìn)ー步的改進(jìn),所述的框架元素(核心框架元素和非心核框架元素)是以本領(lǐng)域知識本體庫相匹配的詞語為意義主干,以通用詞本體庫相匹配的詞語為意義表達(dá)的補(bǔ)充。所述的語義框架也是建立在某一特定專業(yè)領(lǐng)域內(nèi)的,且該專業(yè)領(lǐng)域是與本體庫相關(guān)的專業(yè)領(lǐng)域。所述的語義框架知識庫內(nèi)的每ー個語義框架都標(biāo)識有一個確切意義。在特定的專業(yè)領(lǐng)域內(nèi),語義框架才有對應(yīng)的唯一的意義,因此,上述方案均是針對語義的確定性而安排設(shè)計(jì)的。對上述技術(shù)方案作進(jìn)ー步的改進(jìn),為了更加確切的,具體的識別用戶的主_,本專利采用語義與語法的類比關(guān)系,在C步中所述的匹配性識別的特征在干語義框架對應(yīng)于句子級別,框架元素相當(dāng)短語級別,本體相當(dāng)于詞語級別,通過嚴(yán)格語義化的匹配關(guān)系,獲得對自然語言句子的精確理解。從而為人工智能的發(fā)展做一點(diǎn)思想上的貢獻(xiàn)。對上述技術(shù)方案作進(jìn)ー步的改進(jìn),在C步中所述的匹配性識別的具體性方法是指首先根據(jù)語句中的動詞和核心框架元素找出相應(yīng)的語義框架;根據(jù)語義框架的框架元素的排列組合而來的語序結(jié)構(gòu),篩選出相應(yīng)的句式,通過句子與可能句式之間的匹比,來深入框架元素的內(nèi)部結(jié)構(gòu),進(jìn)行本體匹配。對上述技術(shù)方案作進(jìn)ー步的改進(jìn),框架元素的匹配,其特征在于將句塊與框架元素的短語結(jié)構(gòu)進(jìn)行匹配,依次識別出通用詞本體和領(lǐng)域本體,實(shí)現(xiàn)明確的基于本體的語義識別,并結(jié)合語義框架本身的意義,從而確定語句的真實(shí)意思。因此,計(jì)算機(jī)就此可以知道用戶的主旨。通過語義框架和領(lǐng)域本體知識庫的建設(shè),實(shí)現(xiàn)自然語言句子的自動語義標(biāo)注,擺脫了詞庫建設(shè)和句法分析的復(fù)雜性和模糊性,不僅易于操作和實(shí)現(xiàn),同時,基于本體概念的語義標(biāo)注,可以有效實(shí)現(xiàn)對句子意義的精確理解,為深度人工智能問答奠定基礎(chǔ)。一個單句子的意圖,必需要在語境、領(lǐng)域的前提下,才能明確;而不是單看ー個詞語。因?yàn)椹`個詞語可以用在各個領(lǐng)域,各種語境下。再看當(dāng)前句子標(biāo)注切分的算法,其實(shí)就是為了實(shí)現(xiàn)關(guān)鍵字搜索的字符串匹配,當(dāng)前主流的技術(shù)只需要把句子切開、切成詞就完成了任務(wù)。那么這個詞代表什么?這個詞在這個句子中有多重要?這個句子是什么語境、什 么領(lǐng)域的?當(dāng)前的主流搜索引擎給出的答案是無數(shù)網(wǎng)頁,這些網(wǎng)頁只要包含切出的詞語,就返回它們。主流搜索引擎根本無法回答以上的幾個問題,所以他們給出的結(jié)果必定是網(wǎng)頁的羅列。如果機(jī)器能夠區(qū)分語境、區(qū)分領(lǐng)域、區(qū)分句式、區(qū)分一個詞的不同意義,那么就可以給出特定的答案,精確且符合人們預(yù)期的答案,而不是無數(shù)網(wǎng)頁的羅列。
具體實(shí)施例方式 下面結(jié)合具體實(shí)例來了解一下,如何讓計(jì)算機(jī)知道用戶的用意主旨的。下面以“購買”領(lǐng)域?yàn)槔?,以“在淘寶上買一臺5000元左右的筆記本電腦”為例句,來具體說明實(shí)現(xiàn)自動語義標(biāo)注的方法和步驟。一、本體概念知識庫的建設(shè)
①購買領(lǐng)域的本體概念,如
[產(chǎn)品類別]:如,筆記本電腦 [場所]:如,淘寶(網(wǎng))
[價格單位]:如,元
通用詞的本體概念,如
[數(shù)量指向(大于或小于)]:如,左右 [數(shù)量]:如,一臺 [場所指向I :如,在…上
ニ、購買語義框架知識庫的建設(shè) ①購買語義框架如下
謂詞V: {購買},{團(tuán)購},{買},……
核心框架元素{商品}
非核心框架元素{賣方}、{受益方}、{價格}、{方式}、{時間}、{處所}、......
句式結(jié)構(gòu)與語序,如
v+{商品}:買電腦
{商品}+ν :如,電腦買了
{處所}+V+{商品}:如,在淘寶上買電腦ν+{價格} +{商品}:如,買6000元的電腦 {商品} +{價格}+V :如,電腦6000元訂購了
@框架元素的本體概念的定義,如
{商品}-〉[產(chǎn)品類別]或[產(chǎn)品],如,電腦,或具體型號 {商品}-〉[數(shù)量]+[產(chǎn)品],如一臺電腦 {價格}-〉[數(shù)量]+[價格単位],如,6000元 {處所}-〉[場所],如,淘寶(網(wǎng))
{處所}-〉[場所指向]+[場所],如,在淘寶上 自動語義標(biāo)注的過程和步驟
①接收用戶的自然語句作為輸入,例句如下
在淘寶上買一臺5000元左右的筆記本電腦
@根據(jù)句子中出現(xiàn)的謂詞V和核心框架元素匹配語義框架
上面例句有謂詞{買},核心框架元素是{商品},故是購買類語義框架
③根據(jù)該語義框架可能的句式語序進(jìn)行本體概念匹配,上面例句最切合的句式結(jié)構(gòu)
是
{處所}+V+{數(shù)量} +{價格} +{商品}
根據(jù)框架元素的本體概念定義,把句式結(jié)構(gòu)中的框架元素進(jìn)行匹配,這樣就有
{處所}-〉[場所指向]+[場所]:在淘寶上 V {買}
{數(shù)量}-〉{數(shù)量}: 一臺
{價格}-〉[數(shù)量]+[價格単位]+ [數(shù)量指向(大于或小干)]:5000元左右 {商品}-〉[產(chǎn)品類別]:電腦
從而實(shí)現(xiàn)本體的概念標(biāo)注如下
在淘寶上買一臺5000元左右的筆記本電腦
[場所]=〈淘寶〉,V=〈買〉,[數(shù)量]=1,[價格]〈>5000,[產(chǎn)品類別]=〈筆記本電腦
>
Cl)由于語義框架通常會有多個句式結(jié)構(gòu),故從@ 是ー個重復(fù)匹配的過程,最后
需要根據(jù)匹配的精確度計(jì)算,選擇最佳匹配
比如,上面這個例句如果按照“ V+{商品} ”句式進(jìn)行匹配,則顯然就會有大量不能識別和匹配的語詞,因精確度過低而被舍棄。本發(fā)明與ニ代搜索引擎技術(shù)中主流切詞方法有很大的區(qū)別,切出的詞語有領(lǐng)域本體的概念標(biāo)注,從而獲得自然語言句子的精確語義匹配,計(jì)算機(jī)系統(tǒng)就能夠進(jìn)行本體知 識的計(jì)算和推理,從而為深度人工智能問答提供了廣泛的應(yīng)用前景。
權(quán)利要求
1.一種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,它包括以下步聚 a在某個領(lǐng)域建立本體庫; 將某個領(lǐng)域內(nèi)所有的精確描述的無歧義的詞語歸放到一起構(gòu)成本體庫; b基于領(lǐng)域本體建立語義框架知識庫; 對自然語言句子的理解,建立“語義框架=謂詞+核心框架元素+非核心框架元素”的語義框架體系;形成有某種特定含義的框架知識庫; c基于語義框架的本體映射,實(shí)現(xiàn)自然語言句子到語義結(jié)構(gòu)的直觀匹配;根據(jù)框架模式進(jìn)行匹配性識別。
2.根據(jù)權(quán)利要求I所述的可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,其特征在于所述的框架元素是由本體庫內(nèi)的無歧義的詞語本體或本體組合構(gòu)成。
3.根據(jù)權(quán)利要求I所述的可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,其特征在于所述的本體庫分為本領(lǐng)域知識本體庫和通用詞本體知識庫;所述的領(lǐng)域本體知識庫,也是一個詞庫,它里面主要包括實(shí)詞和領(lǐng)域相關(guān)的有意義的詞匯;所述的通用詞本體知識庫是也是ー個詞庫;它里面主要包括虛詞、代詞、形容詞、數(shù)詞、量詞、介詞、助詞、語氣詞,這些詞是獨(dú)立于特定領(lǐng)域的,但卻是針對特定語言表達(dá)的,利用通用詞庫匹配標(biāo)注出來的詞語,在后面的機(jī)器理解中,可以當(dāng)作輔助分析的詞語,對領(lǐng)域內(nèi)的句式、語境產(chǎn)生補(bǔ)充作用。
4.根據(jù)權(quán)利要求3所述的ー種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,其特征在于所述的框架元素是以本領(lǐng)域知識本體庫相匹配的詞語為意義主干,以通用詞本體庫相匹配的詞語為意義表達(dá)的補(bǔ)充。
5.根據(jù)權(quán)利要求I所述的ー種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,其特征在于所述的語義框架也是建立在某一特定領(lǐng)域內(nèi)的,且該專業(yè)領(lǐng)域是與本體庫相關(guān)的專業(yè)領(lǐng)域。
6.根據(jù)權(quán)利要求I所述的ー種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,其特征在于所述的語義框架知識庫內(nèi)的每ー個語義框架都標(biāo)識有一個確切意義。
7.根據(jù)權(quán)利要求3所述的ー種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,特征在于語義框架對應(yīng)于句子級別,框架元素相當(dāng)短語級別,本體相當(dāng)于詞語級別,通過嚴(yán)格語義化的匹配關(guān)系,獲得對自然語言句子的精確理解。
8.根據(jù)權(quán)利要求7所述的ー種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,其特征在于首先根據(jù)語句中的動詞和核心框架元素找出相應(yīng)的語義框架;根據(jù)語義框架的框架元素的排列組合而來的語序結(jié)構(gòu),篩選出相應(yīng)的句式,通過句子與可能句式之間的匹比,來深入框架元素的內(nèi)部結(jié)構(gòu),進(jìn)行本體匹配。
9.根據(jù)權(quán)利要求8所述的ー種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,框架元素的匹配,其特征在于將句塊與框架元素的短語結(jié)構(gòu)進(jìn)行匹配,依次識別出通用詞本體和領(lǐng)域本體,實(shí)現(xiàn)明確的基于本體的語義識別,并結(jié)合語義框架本身的意義,從而確定語句的真實(shí)意思。
全文摘要
可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,涉及到一種可以準(zhǔn)確的識別漢語語言的方法。具體它包括以下步聚a在某個領(lǐng)域建立本體庫;b基于領(lǐng)域本體建立語義框架知識庫;c基于語義框架的本體映射,實(shí)現(xiàn)自然語言句子到語義結(jié)構(gòu)的直觀匹配;根據(jù)框架模式進(jìn)行匹配性識別。本發(fā)明與二代搜索引擎技術(shù)中主流切詞方法有很大的區(qū)別,切出的詞語有領(lǐng)域本體的概念標(biāo)注,從而獲得自然語言句子的精確語義匹配,計(jì)算機(jī)系統(tǒng)就能夠進(jìn)行本體知識的計(jì)算和推理,從而為深度人工智能問答提供了廣泛的應(yīng)用前景。
文檔編號G06F17/27GK102681982SQ20121006754
公開日2012年9月19日 申請日期2012年3月15日 優(yōu)先權(quán)日2012年3月15日
發(fā)明者余健, 劉琨, 李磊, 楚秉智, 段建剛, 陳緒平 申請人:上海云叟網(wǎng)絡(luò)科技有限公司