專利名稱:遙感數(shù)據(jù)檢索自然語言的處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遙感數(shù)據(jù)檢索領(lǐng)域,尤其涉及一種遙感數(shù)據(jù)檢索自然語言的處理方法及裝置能夠應(yīng)用于面向自然語言的遙感數(shù)據(jù)檢索系統(tǒng)。
背景技術(shù):
自然語言相對于受控語言,是未經(jīng)過加工和規(guī)范化處理的人類語言。面向自然語言的查詢系統(tǒng)能夠允許用戶不受專業(yè)術(shù)語的約束,直接使用字、詞、句子甚至段落等自然語言表達提問,完成信息的查詢檢索。該查詢方式有利于非專業(yè)人員的信息檢索,為信息檢索系統(tǒng)更好地應(yīng)用普及提供了技術(shù)支持。目前,遙感數(shù)據(jù)查詢一般是系統(tǒng)提供一個圖形化的查詢界面,用戶根據(jù)需求在其上直接選擇如采集時間、經(jīng)緯度、衛(wèi)星名、傳感器名等查詢參數(shù),系統(tǒng)按照選定的參數(shù)進行查詢。這種方法簡單、直觀但也限制了用戶的需求。當(dāng)用戶的查詢需求界面選擇沒有或滿足不了時,如查詢用于“土壤濕度分析”的遙感數(shù)據(jù),用戶只能先將該應(yīng)用需求轉(zhuǎn)換成為一系列的元數(shù)據(jù)信息,再在查詢界面進行條件設(shè)置才能達到查詢目的,這就要求用戶具有遙感專業(yè)背景,還要對數(shù)據(jù)庫內(nèi)部結(jié)構(gòu)有一定的了解。為數(shù)據(jù)庫建立一個自然語言檢索的接口可以突破這些局限,使遙感數(shù)據(jù)為更多的非專業(yè)用戶所用,該接口將用戶輸入的自然查詢語句轉(zhuǎn)化成數(shù)據(jù)庫結(jié)構(gòu)化的查詢語言,其過程就包括將用戶的應(yīng)用需求轉(zhuǎn)換成元數(shù)據(jù)信息。然而,由于自然語言的復(fù)雜性,如何正確、充分的理解自然查詢語句是面向自然語言檢索系統(tǒng)亟待解決的重要問題之一。特別是當(dāng)自然語言檢索系統(tǒng)應(yīng)用于某一專業(yè)領(lǐng)域時,一般的自然語言處理技術(shù)并不能很好地挖掘、理解出與專業(yè)領(lǐng)域相關(guān)的用戶檢索需求。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種遙感數(shù)據(jù)檢索自然語言的處理方法及裝置以進一步為遙感數(shù)據(jù)檢索系統(tǒng)建立自然語言檢索接口。利用本發(fā)明對遙感數(shù)據(jù)的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉(zhuǎn)化為符合用戶意圖的查詢條件組,從而解決現(xiàn)有技術(shù)中存在的前述問題。為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:一種遙感數(shù)據(jù)檢索自然語言的處理方法,包括以下步驟:SI,切分用戶的查詢語句,從中提取得到待處理關(guān)鍵詞;S2,對所述待處理關(guān)鍵詞進行語義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;S3,對所述關(guān)鍵詞組進行語義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。優(yōu)選的,SI具體為對用戶查詢語句進行分詞和詞性標(biāo)注,并從切分出的詞中篩選出與遙感數(shù)據(jù)屬性有關(guān)的部分,作為關(guān)鍵詞。優(yōu)選的,SI包括以下步驟:SI I,建立遙感專業(yè)術(shù)語詞典RSDic ;S12,利用正則表達式從所述查詢語句中匹配提取得到待處理關(guān)鍵詞;
和/或利用ICTCLAS2012漢語分詞軟件和所述遙感專業(yè)術(shù)語詞典RSDic從所述查詢語句中提取得到待處理關(guān)鍵詞。優(yōu)選的,所述利用正則表達式匹配提取得到的待處理關(guān)鍵詞包括:時間、經(jīng)緯度和比例尺中的一種或幾種;所述利用ICTCLAS2012漢語分詞軟件和所述遙感專業(yè)術(shù)語詞典RSDic從所述查詢語句中提取得到的待處理關(guān)鍵詞包括:衛(wèi)星、傳感器、空間區(qū)域和應(yīng)用中的一種或幾種。優(yōu)選的,S12后還包括以下步驟:S13,把從所述查詢語句中提取出的所有關(guān)鍵詞表示為一 N元組:vKeyWord(ffl, W2,..., WN)其中W為關(guān)鍵詞KeyWordS14,把任何一個KeyWord都由五元組來描述:Keyfford(Word, Attribute, No, SameFlag, WordDB)其中Word是關(guān)鍵詞,Attribute是關(guān)鍵詞的詞性,No表示關(guān)鍵詞在源語句中的詞序,SameFlag值為I或O,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對應(yīng)的遙感數(shù)據(jù)庫語義。優(yōu)選的,S2包括以下步驟:S21,建立遙感數(shù)據(jù)庫語義詞典DBDic ;利用本體編輯工具Prot6g6構(gòu)建遙感應(yīng)用本體知識庫RSAO ;S22,基于所述遙感數(shù)據(jù)庫語義詞典DBDic對SI中提取得到的所述關(guān)鍵詞進行正規(guī)化和歸一化處理,得到所述關(guān)鍵詞的標(biāo)準(zhǔn)格式的遙感數(shù)據(jù)庫語義S23,根據(jù)所述遙感應(yīng)用本體知識庫RSAO中的事件應(yīng)用信息與遙感數(shù)據(jù)元數(shù)據(jù)信息的對應(yīng)關(guān)系,獲得事件應(yīng)用類關(guān)鍵詞相應(yīng)的元數(shù)據(jù)信息;S24,將得到的所述遙感數(shù)據(jù)庫語義和所述元數(shù)據(jù)信息置于所述KeyWord的WordDB屬性中;循環(huán)執(zhí)行S22-S24,直到處理完從所述查詢語句中提取出的所有關(guān)鍵詞,形成關(guān)鍵詞組。優(yōu)選的,S3包括以下步驟:S31,對所述關(guān)鍵詞組進行組合條件判斷,將復(fù)雜查詢語句拆分為符合用戶查詢意圖的條件組;S32,對相鄰的所述條件組進行正序比較和倒序比較,完善所述條件組。優(yōu)選的,所述組合條件是目標(biāo)關(guān)鍵詞與相鄰關(guān)鍵詞Attribute不同且在非相鄰的關(guān)鍵詞中存在與目標(biāo)關(guān)鍵詞Attribute相同的詞;所述組合條件判斷具體為迭代判斷關(guān)鍵詞組vKeyWord是否符合所述組合條件,如符合,則以目標(biāo)關(guān)鍵詞為界將vKeyWord劃分為多個條件組Wordlists (ffordlistI, Wordlist2,...),并將與目標(biāo)關(guān)鍵詞Attribute相同的關(guān)鍵詞的SameFlag標(biāo)記為I ;否則,判定源語句為簡單句,系統(tǒng)將vKeyWord作為單一條件組ffordlist 返回。優(yōu)選的,所述正序比較和倒序比較具體為:對已生成的Wordlists中相鄰條件組進行正序和倒序比較,以Wordlistl,Wordlist2標(biāo)識:按照詞序,從前往后正序比較ffordlistl中SameFlag為I的關(guān)鍵詞之前的關(guān)鍵詞與Wordlist2關(guān)鍵詞的Attribute是否相同,全部不同時將目標(biāo)關(guān)鍵詞加入WordliSt2中;然后按照相同的方法從后往前倒序比較Wordlist2的關(guān)鍵詞與Wordlistl中SameFlag為I的關(guān)鍵詞之后的所有關(guān)鍵詞Attribute,從而完善 Wordlistl。一種遙感數(shù)據(jù)檢索自然語言的處理裝置,包括:關(guān)鍵詞提取模塊,用于切分用戶的查詢語句,從中提取得到待處理關(guān)鍵詞;語義挖掘模塊,用于對所述待處理關(guān)鍵詞進行語義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;語義分析模塊,用于對所述關(guān)鍵詞組進行語義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。本發(fā)明的有益效果是:利用本發(fā)明的方法或裝置對遙感數(shù)據(jù)的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉(zhuǎn)化為符合用戶意圖的查詢條件組。本發(fā)明根據(jù)遙感數(shù)據(jù)查詢特點,從自然語言的詞法分析和語義分析層面上,提出一種適用于遙感數(shù)據(jù)檢索領(lǐng)域的自然語言處理方法,以充分理解用戶查詢語句。
圖1是本發(fā)明的遙感數(shù)據(jù)檢索自然語言的處理方法的步驟流程示意圖;圖2是本發(fā)明的遙感數(shù)據(jù)檢索自然語言的處理方法中關(guān)鍵詞語義分析的流程示意圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施方式
僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。如圖1所示本發(fā)明公開了一種遙感數(shù)據(jù)檢索自然語言的處理方法,包括以下步驟:SI,切分用戶的查詢語句,從中提取得到待處理關(guān)鍵詞;S2,對所述待處理關(guān)鍵詞進行語義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;S3,對所述關(guān)鍵詞組進行語義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。以下對具體步驟進行詳述:遙感數(shù)據(jù)檢索自然語言處理方法是從自然查詢語句中篩選出能反映用戶查詢意圖的關(guān)鍵詞,并對關(guān)鍵詞進行語義挖掘和語義分析,從而得到符合用戶意圖的查詢條件組。關(guān)鍵詞提取是對用戶查詢語句進行分詞和詞性標(biāo)注,并從切分出的詞中篩選出與遙感數(shù)據(jù)屬性有關(guān)的部分。本發(fā)明采用規(guī)則與統(tǒng)計相結(jié)合的策略進行分詞。規(guī)則體現(xiàn)在正則表達式的運用,對于經(jīng)緯度、時間、比例尺等內(nèi)容不定,格式固定的詞,一般的基于統(tǒng)計的分詞算法很難將其正確分離出來,正則匹配則根據(jù)其格式特點通過定義正則表達式將其匹配提取出來。其他如衛(wèi)星、傳感器模式、圖像模式、事件應(yīng)用、地點等沒有特定格式所循的關(guān)鍵詞,本發(fā)明利用基于統(tǒng)計的漢語分詞軟件ICTCLAS2012進行處理[http://www.nlpir.org]。查詢語句中的通用詞匯如常見地名,借助ICTCLAS2012自帶的通用詞典即可分離,而遙感專業(yè)術(shù)語則需借助遙感專業(yè)術(shù)語詞典RSdic進行處理。該詞典用txt文件格式進行描述,涵蓋了衛(wèi)星、傳感器模式、圖像模式、事件應(yīng)用等遙感領(lǐng)域詞匯。每個詞條還有相應(yīng)詞性標(biāo)注,與傳統(tǒng)的名詞、動詞、形容詞等標(biāo)注不同,RSdic的詞性是根據(jù)詞的遙感數(shù)據(jù)庫語義來定義,衛(wèi)星、傳感器模式、圖像模式、時間、地點、事件應(yīng)用的詞性分別標(biāo)識為:rs_sate、rs_senp、rs_type、rs_time、rs—plac、rs_evet。從查詢語句提取出的所有關(guān)鍵詞形成一 N元組:vKeyWord (ffl, W2,..., WN)其中W為關(guān)鍵詞KeyWord,任一 KeyWord都由五元組來描述:Keyfford(Word, Attribute, No, SameFlag, WordDB)其中Word是關(guān)鍵詞,Attribute是關(guān)鍵詞的詞性,No表示關(guān)鍵詞在源語句中的詞序,SameFlag值為I或O,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對應(yīng)的遙感數(shù)據(jù)庫語義。關(guān)鍵詞語義挖掘是為關(guān)鍵詞賦予數(shù)據(jù)庫語義,具體有兩個步驟:一是將關(guān)鍵詞正規(guī)化、歸一化處理成數(shù)據(jù)庫標(biāo)準(zhǔn)形式;二是根據(jù)遙感應(yīng)用本體知識庫(RSAO)中事件應(yīng)用信息與遙感數(shù)據(jù)元數(shù)據(jù)信息的對應(yīng)關(guān)系,獲得事件應(yīng)用類關(guān)鍵詞相應(yīng)的元數(shù)據(jù)信息。本發(fā)明根據(jù)遙感語義詞典DBdic對空間區(qū)域、衛(wèi)星、傳感器模式、圖像模式、事件應(yīng)用關(guān)鍵詞進行正規(guī)化、歸一化處理。該詞`典也用txt文件格式描述,主要記錄了關(guān)鍵詞及其在數(shù)據(jù)庫中的表示形式。正規(guī)化處理是根據(jù)DBdic將一些特殊的空間區(qū)域轉(zhuǎn)換成數(shù)據(jù)庫可識別的行政區(qū)域,如“東北三省”應(yīng)正規(guī)化表式為“遼寧,黑龍江,吉林”。歸一化處理則是將同義不同形的關(guān)鍵詞表示成唯一的數(shù)據(jù)庫標(biāo)準(zhǔn)格式,如將“17、187、1&11(1犯丨7、1^11(15&七7”歸一表示為“LANDSAT-7”。對于表示形式復(fù)雜、多變的時間和經(jīng)緯度,語義挖掘需利用專門的解析程序進行正規(guī)化處理,如將“08年5月到2010年3月”表達為數(shù)據(jù)庫標(biāo)準(zhǔn)形式“[2008-05-01,2010-03-31]”。事件應(yīng)用對應(yīng)遙感元數(shù)據(jù)信息的獲取需借助遙感應(yīng)用本體知識庫RSAO完成。RSAO由本體編輯工具Prot6g6構(gòu)建完成,以owl文件形式進行存放。RSAO從語義和知識的層面上描述并組織了遙感元數(shù)據(jù)和事件應(yīng)用信息。借助本體的推理機機制,根據(jù)本體規(guī)則可自動地將事件應(yīng)用與遙感元數(shù)據(jù)信息關(guān)聯(lián)起來。本發(fā)明通過讀取RSAO即可得到遙感事件應(yīng)用對應(yīng)的元數(shù)據(jù)信息。語義挖掘出的數(shù)據(jù)庫語義將存放在KeyWord的WordDB屬性中。關(guān)鍵詞語義分析是對提取出的關(guān)鍵詞詞組進行組合分析,并生成符合用戶查詢意圖的條件組。如圖2所示,首先判斷查詢語句是否為復(fù)合句,即組合條件判斷,滿足條件則將復(fù)合句拆分成為多個條件組,然后結(jié)合關(guān)鍵詞間的語義關(guān)系對相鄰條件組進行正序比較和倒序比較,從而完善條件組。組合條件判斷對于關(guān)鍵詞組vKeyWord (ffl, W2,..., WN),組合條件如下:①Wi的Attribute值與W1-1的Attribute值不同,i為I到N中的任一整數(shù);②(W1,…,W1-1)中存在Wj 的 Attribute 值與 Wi 的 Attribute 值相同,j 為 I到i_l中的任一整數(shù)當(dāng)①②都滿足時,得到一新條件組Wordlis t (W1,..., Wi_l),同時標(biāo)記Wj的SameFlag值為I,迭代判斷可將vKeyWord初步拆分為多個條件組,記為Wordlistl,Wordlist2,...。當(dāng)①或②有任一不滿足時,將vKeyWord作為單一條件組Wordlist返回。組合條件判斷后形成的條件組記為Wordlists (Wordlistl,..., WordlistM), M為不小于I的整數(shù)。條件組完善當(dāng)條件組Wordlist個數(shù)M >=2時,記Wordlists中任意相鄰兩條件組為:ffordlistl (ffl,..., Wj-1,ffj, ffj+1,..., Wp)Wordlist2 (ffl,..., ffq)其中Wj的SameFlag值為1,p、q為I到N間的整數(shù),且P與q的和不大于N。I 正序比較:正序判斷 Wordlis tl 的(Wl,..., ffj-Ι)中 Ws 的 Attribute 值是否與Wordlist2的(W2,..., Wq)中關(guān)鍵詞的Attribute值相同,全都不同則將Ws添入Wordlist2oII倒序比較:倒序判斷Wordlist2的(Wq,..., W2)中Wt的Attribute值是否與Wordlistl的(Wj+1,..., Wp)中關(guān)鍵詞的Attribut值相同,全都不同則將Wt添入ffordlistlο其中s為I到j(luò)-Ι間的任意整數(shù),t為2到q間的任意整數(shù)。利用本發(fā)明的方法對自然查詢語句如“查詢2010年12月用于分析大興安嶺植被覆蓋率的遙感數(shù)據(jù)”進行處理,可得到用關(guān)鍵詞的WordDB屬性描述的條件組:ffordlist ([2010-12-012010-12-31]、大興安嶺地區(qū)、SPOT-4、LANDSAT-5)該方法正確的提取出時間、地點、事件應(yīng)用等遙感專業(yè)詞匯,并將“植被覆蓋率”轉(zhuǎn)化為相應(yīng)的衛(wèi)星信息“SPOT-4、LANDSAT-5”,克服一般自然語言處理方法解析不足的缺點,有效地“理解”自然查詢語句并將其轉(zhuǎn)化為符合用戶意圖的查詢條件組。本發(fā)明的遙感數(shù)據(jù)檢索自然語言的處理方法還可以以裝置的形式體現(xiàn):一種遙感數(shù)據(jù)檢索自然語言的處理裝置,包括:關(guān)鍵詞提取模塊,用于在待處理查詢語句中提取關(guān)鍵詞;語義挖掘模塊,用于對提取出的所述關(guān)鍵詞進行語義挖掘;語義分析模塊,用于對提取出的所述關(guān)鍵詞進行語義分析。通過采用本發(fā)明公開的上述技術(shù)方案,得到了如下有益的效果:利用本發(fā)明的方法或裝置對遙感數(shù)據(jù)的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉(zhuǎn)化為符合用戶意圖的查詢條件組。本發(fā)明根據(jù)遙感數(shù)據(jù)查詢特點,從自然語言的詞法分析和語義分析層面上,提出一種適用于遙感數(shù)據(jù)檢索領(lǐng)域的自然語言處理方法,以充分理解用戶查詢語句。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視本發(fā)明的保護范圍。
權(quán)利要求
1.一種遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,包括以下步驟: Si,切分用戶的查詢語句,從中提取得到待處理關(guān)鍵詞; S2,對所述待處理關(guān)鍵詞進行語義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組; S3,對所述關(guān)鍵詞組進行語義分析,得到條件組,將所述條件組用作檢索遙感數(shù)據(jù)的條件。
2.根據(jù)權(quán)利要求1所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,SI具體為對用戶查詢語句進行分詞和詞性標(biāo)注,并從切分出的詞中篩選出與遙感數(shù)據(jù)屬性有關(guān)的部分,作為關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,SI包括以下步驟: SI I,建立遙感專業(yè)術(shù)語詞典RSDic ; S12,利用正則表達式從所述查詢語句中匹配提取得到待處理關(guān)鍵詞; 和/或 利用ICTCLAS2012漢語分詞軟件和所述遙感專業(yè)術(shù)語詞典RSDic從所述查詢語句中提取得到待處理關(guān)鍵詞。
4.根據(jù)權(quán)利要求3所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,所述利用正則表達式匹配提取得到的待處理關(guān)鍵詞包括:時間、經(jīng)緯度和比例尺中的一種或幾種;所述利用ICTCLAS2012漢語分詞軟件和所述遙感專業(yè)術(shù)語詞典RSDic從所述查詢語句中提取得到的待處理關(guān)鍵詞包括:衛(wèi)星、傳感器、空間區(qū)域和應(yīng)用中的一種或幾種。
5.根據(jù)權(quán)利要求3所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,S12后還包括以下步驟: S13,把從所述查詢語句中提取出的所有關(guān)鍵詞表示為一 N元組: vKeyfford(ffl, W2,..., WN) 其中W為關(guān)鍵詞KeyWord S14,把任何一個KeyWord都由五元組來描述:Keyfford(Word, Attribute, No, SameFlag, WordDB) 其中Word是關(guān)鍵詞,Attribute是關(guān)鍵詞的詞性,No表示關(guān)鍵詞在源語句中的詞序,SameFlag值為I或0,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對應(yīng)的遙感數(shù)據(jù)庫語義。
6.根據(jù)權(quán)利要求5所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,S2包括以下步驟: S21,建立遙感數(shù)據(jù)庫語義詞典DBDic ;利用本體編輯工具Prot6g6構(gòu)建遙感應(yīng)用本體知識庫RSAO ; S22,基于所述遙感數(shù)據(jù)庫語義詞典DBDic對SI中提取得到的所述關(guān)鍵詞進行正規(guī)化和歸一化處理,得到所述關(guān)鍵詞的標(biāo)準(zhǔn)格式的遙感數(shù)據(jù)庫語義 S23,根據(jù)所述遙感應(yīng)用本體知識庫RSAO中的事件應(yīng)用信息與遙感數(shù)據(jù)元數(shù)據(jù)信息的對應(yīng)關(guān)系,獲得事件應(yīng)用類關(guān)鍵詞相應(yīng)的元數(shù)據(jù)信息; S24,將得到的所述遙感數(shù)據(jù)庫語義和所述元數(shù)據(jù)信息置于所述KeyWord的WordDB屬性中;循環(huán)執(zhí)行S22-S24,直到處理完從所述查詢語句中提取出的所有關(guān)鍵詞,形成關(guān)鍵詞組。
7.根據(jù)權(quán)利要求6所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,S3包括以下步驟: S31,對所述關(guān)鍵詞組進行組合條件判斷,將復(fù)雜查詢語句拆分為符合用戶查詢意圖的條件組; S32,對相鄰的所述條件組進行正序比較和倒序比較,完善所述條件組。
8.根據(jù)權(quán)利要求7所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,所述組合條件是目標(biāo)關(guān)鍵詞與相鄰關(guān)鍵詞Attribute不同且在非相鄰的關(guān)鍵詞中存在與目標(biāo)關(guān)鍵詞Attribute相同的詞;所述組合條件判斷具體為迭代判斷關(guān)鍵詞組vKeyWord是否符合所述組合條件,如符合,則以目標(biāo)關(guān)鍵詞為界將vKeyWord劃分為多個條件組Wordlists (ffordlistI, Wordlist2,...),并將與目標(biāo)關(guān)鍵詞Attribute相同的關(guān)鍵詞的SameFlag標(biāo)記為I ;否則,判定源語句為簡單句,將vKeyWord作為單一條件組Wordlist返回。
9.根據(jù)權(quán)利要求7所述的遙感數(shù)據(jù)檢索自然語言的處理方法,其特征在于,所述正序比較和倒序比較具體為:對已生成的Wordlists中相鄰條件組進行正序和倒序比較,以ffordlistl, Wordlist2標(biāo)識:按照詞序,從前往后正序比較Wordlistl中SameFlag為I的關(guān)鍵詞之前的關(guān)鍵詞與WordliSt2關(guān)鍵詞的Attribute是否相同,全部不同時將目標(biāo)關(guān)鍵詞加入Wordlist2中;然后按照相同的方法從后往前倒序比較Wordlist2的關(guān)鍵詞與ffordlistl中SameFlag為I的 關(guān)鍵詞之后的所有關(guān)鍵詞Attribute,從而完善Wordlistl。
10.一種遙感數(shù)據(jù)檢索自然語言的處理裝置,其特征在于,包括: 關(guān)鍵詞提取模塊,用于切分用戶的查詢語句,從中提取得到待處理關(guān)鍵詞; 語義挖掘模塊,用于對所述待處理關(guān)鍵詞進行語義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組; 語義分析模塊,用于對所述關(guān)鍵詞組進行語義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。
全文摘要
本發(fā)明公開了一種遙感數(shù)據(jù)檢索自然語言的處理方法及裝置,該方法包括步驟S1,切分用戶的查詢語句,從中提取得到待處理關(guān)鍵詞;S2,對所述待處理關(guān)鍵詞進行語義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;S3,對所述關(guān)鍵詞組進行語義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。利用本發(fā)明對遙感數(shù)據(jù)的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉(zhuǎn)化為符合用戶意圖的查詢條件組,從而解決現(xiàn)有技術(shù)中存在的前述問題。
文檔編號G06F17/27GK103092979SQ20131003723
公開日2013年5月8日 申請日期2013年1月31日 優(yōu)先權(quán)日2013年1月31日
發(fā)明者楊進, 宣萱, 劉建波, 劉士彬, 梁龍彬, 戴芹, 馬彩虹, 張靜, 段建波, 李信鵬, 屈倩, 劉巍 申請人:中國科學(xué)院對地觀測與數(shù)字地球科學(xué)中心