亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

處理自然語言問題的方法和裝置的制作方法

文檔序號:6577875閱讀:273來源:國知局
專利名稱:處理自然語言問題的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般地涉及處理自然語言問題的方法和裝置。更具體地說,本發(fā)明涉及一 種能夠使用開放鏈接的結(jié)構(gòu)化信息回答自然語言問題的處理自然語言問題的方法和裝置。
背景技術(shù)
在最近幾十年,問題回答(Question Answering, QA)在人工智能領(lǐng)域已經(jīng)是經(jīng) 典問題,同時也是很難解決的問題之一。假定一個自然語言問題,例如,“一部電影,其中 Justin Henry作為其第一個電影角色扮演Dustin Hoffman和Meryl Stre印的兒子,這部 影片為其贏得了 Oscar提名”,計(jì)算機(jī)系統(tǒng)將針對該問題嘗試返回用自然語言表達(dá)的正確答 案,例如“Kramer vs. Kramer”,正如一個人所做的那樣。針對計(jì)算機(jī)系統(tǒng)處理自然語言問題的要求,已經(jīng)廣泛開發(fā)了自然語言處理 (natural language processing, NLP)技術(shù),以利用非結(jié)構(gòu)化的數(shù)據(jù)解決大多數(shù)的QA問題。 毫無疑問,有充分的理由發(fā)展NLP技術(shù),因?yàn)槭澜缟铣^80%的數(shù)據(jù)是非結(jié)構(gòu)化的。圖1示出現(xiàn)有QA系統(tǒng)的總體架構(gòu)。如圖1所示,一般的QA系統(tǒng)均包括問題處理 模塊101、文檔/段落檢索模塊103、以及回答處理模塊105三大模塊。針對用戶提出的自 然語言問題,在問題處理模塊101中進(jìn)行問題解析和焦點(diǎn)檢測,從中選擇出對于該問題的 關(guān)鍵字。接著,文檔/段落檢索模塊103根據(jù)問題處理模塊101所選擇的關(guān)鍵字,從數(shù)據(jù) 庫中進(jìn)行關(guān)鍵字搜索并進(jìn)行文檔過濾,在包括關(guān)鍵字的文檔中進(jìn)一步進(jìn)行段落的后過濾處 理,以便生成候選答案。然后,在回答處理模塊105中,對文檔/段落檢索模塊103所生成 的候選答案進(jìn)行候選標(biāo)識和回答排名,并最終形成針對所提出的自然語言問題的回答,以 最后向用戶輸出簡短的用自然語言表述的回答。另外,還針對QA系統(tǒng)開發(fā)了 QA評估系統(tǒng),用于對QA系統(tǒng)進(jìn)行性能評估。TREC QA track作為一種用于QA的評估平臺,是世界上已知的用于QA的最好評估平臺,其中提供各 種數(shù)據(jù)集和問題集以評估不同QA系統(tǒng)的準(zhǔn)確性和性能。然而,隨著數(shù)據(jù)庫和語義網(wǎng)的發(fā)展,結(jié)構(gòu)化數(shù)據(jù)逐步增加,并且相比于NLP所針對 的非結(jié)構(gòu)化數(shù)據(jù),由于其非歧義的特性而變得更加重要。此外,大多數(shù)大型商業(yè)公司在其 經(jīng)營中也總是處理結(jié)構(gòu)化數(shù)據(jù)并且將它們存儲在數(shù)據(jù)庫中,而不會轉(zhuǎn)換為非結(jié)構(gòu)化數(shù)據(jù)。 為了使得在企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)上支持QA,必須開發(fā)一些新技術(shù),例如NLDBOiatural languagedatabase,自然語言數(shù)據(jù)庫)技術(shù),將NLP與數(shù)據(jù)庫技術(shù)結(jié)合,在數(shù)據(jù)庫上提供自 然語言界面以方便用戶提出問題??偟膩碚f,NLDB技術(shù)取決于數(shù)據(jù)庫元數(shù)據(jù)模式的句法, 將自然語言問題翻譯成能夠在數(shù)據(jù)庫中執(zhí)行的一些SQL語句。因此,其限制了用戶提出一 些具有特定自然語言語法的問題,而且僅能返回?cái)?shù)據(jù)庫范圍內(nèi)的答案。除了數(shù)據(jù)庫之外,隨著實(shí)現(xiàn)語義網(wǎng)愿景的不斷發(fā)展和進(jìn)步,已經(jīng)出現(xiàn)了許多新的 結(jié)構(gòu)化數(shù)據(jù),例如作為一種形式的鏈接數(shù)據(jù)的RDF(Resource Description Framework,資 源描述框架)數(shù)據(jù)。針對RDF數(shù)據(jù),已經(jīng)提出了語義查詢語言,例如SPARQL語言,能夠不依 靠句法而是根據(jù)語義來查詢數(shù)據(jù)。
但是,迄今為止尚沒有完善的技術(shù)來針對鏈接數(shù)據(jù)進(jìn)行自然語言問題的處理,而 不受自然語言語法的限制。

發(fā)明內(nèi)容
鑒于上述情況,本發(fā)明提出一種處理自然語言問題的方法和裝置,能夠使用開放 鏈接的結(jié)構(gòu)化信息回答開放域和自由語法的自然語言問題。在下文中首先給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基 本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明 的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些 概念,以此作為稍后論述的更詳細(xì)描述的前序。根據(jù)本發(fā)明的一個方面,提供一種處理自然語言問題的方法,包括檢測自然語言 問題中的命名實(shí)體;提取自然語言問題中與答案相關(guān)的信息;根據(jù)檢測到的命名實(shí)體在鏈 接數(shù)據(jù)中進(jìn)行檢索;根據(jù)檢索結(jié)果生成候選答案;根據(jù)與答案相關(guān)的信息對候選答案進(jìn)行 解析,獲取候選答案的特征的值;以及通過對候選答案的特征的值進(jìn)行綜合,評估每一個候 選答案。根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例,根據(jù)檢測到的命名實(shí)體在鏈接數(shù)據(jù)中進(jìn)行檢索包 括基于相似度在鏈接數(shù)據(jù)中搜索與命名實(shí)體相匹配的通用資源標(biāo)識符;以及利用通用資 源標(biāo)識符之間的鏈接關(guān)系,擴(kuò)展搜索與命名實(shí)體相匹配的通用資源標(biāo)識符所鏈接的通用資 源標(biāo)識符。此外,根據(jù)鏈接的通用資源標(biāo)識符生成候選答案。優(yōu)選地,在對候選答案的特征的值進(jìn)行綜合以評估每一個候選答案之前,根據(jù)候 選答案的特征對從不同鏈接數(shù)據(jù)中檢索得到的候選答案進(jìn)行合并。根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的處理自然語言問題的方法還包括根據(jù)候選答案 的特征進(jìn)行機(jī)器學(xué)習(xí)以訓(xùn)練出計(jì)分模型,并且在對候選答案的特征的值進(jìn)行綜合以評估每 一個候選答案時,按照所述計(jì)分模型計(jì)算出每一個候選答案的分?jǐn)?shù)。根據(jù)本發(fā)明的另一個方面,提供一種處理自然語言問題的裝置,包括問題分析模 塊,配置為檢測自然語言問題中的命名實(shí)體并提取自然語言問題中與答案相關(guān)的信息;候 選答案生成模塊,配置為根據(jù)檢測到的命名實(shí)體在鏈接數(shù)據(jù)中進(jìn)行檢索,并根據(jù)檢索結(jié)果 生成候選答案;特征值生成模塊,配置為根據(jù)與答案相關(guān)的信息對候選答案進(jìn)行解析,獲取 候選答案的特征的值;以及候選答案評估模塊,配置為對候選答案的特征的值進(jìn)行綜合來 評估每一個候選答案。另外,本發(fā)明還提供用于實(shí)現(xiàn)上述處理自然語言問題的方法的計(jì)算機(jī)程序。此外,本發(fā)明也提供至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用 于實(shí)現(xiàn)上述處理自然語言問題的方法的計(jì)算機(jī)程序代碼。


本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的 詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本 發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中
5
圖1示出現(xiàn)有QA系統(tǒng)的總體架構(gòu);圖2示出RDF三元組數(shù)據(jù)的鏈接圖結(jié)構(gòu);圖3示出根據(jù)本發(fā)明的實(shí)施例的處理自然語言問題的方法的總體流程圖;
圖4示出根據(jù)本發(fā)明的實(shí)施例的檢索鏈接數(shù)據(jù)庫及候選答案生成步驟的處理流 程;圖5示出根據(jù)本發(fā)明的實(shí)施例的處理自然語言問題的裝置的示意結(jié)構(gòu)方框圖;圖6示出根據(jù)本發(fā)明的實(shí)施例的候選答案生成模塊的示意結(jié)構(gòu)方框圖;以及圖7示出用于實(shí)施根據(jù)本發(fā)明的處理自然語言問題的方法的信息處理設(shè)備的結(jié) 構(gòu)方塊圖。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以 便有助于提高對本發(fā)明實(shí)施例的理解。
具體實(shí)施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施 例的過程中必須做出很多特定于該實(shí)際實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo), 例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實(shí)施方式的 不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時的,但對得益 于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。為了便于說明本發(fā)明的原理,在下文中將以RDF數(shù)據(jù)作為鏈接數(shù)據(jù)的示例來對本 發(fā)明的實(shí)施例進(jìn)行描述,這是因?yàn)镽DF數(shù)據(jù)作為一種類型的鏈接數(shù)據(jù)在網(wǎng)絡(luò)上盛行,涵蓋 各種數(shù)據(jù)和知識。尤其是迄今為止,W3C鏈接開放數(shù)據(jù)(Linking Open Data, L0D)計(jì)劃已 經(jīng)鏈接了由超過20億個RDF三元組數(shù)據(jù)組成的超過30個開放許可數(shù)據(jù)集。除了物理RDF數(shù)據(jù)之外,虛擬RDF數(shù)據(jù)集也在不斷增長。很多大型企業(yè)一直在其 各個商業(yè)系統(tǒng)內(nèi)部管理和處理結(jié)構(gòu)化數(shù)據(jù),因此,它們也需要集成其結(jié)構(gòu)化數(shù)據(jù)。通過利用 例如VirtuS0、D2R、以及SeDA的語義網(wǎng)工具可以方便地以這些企業(yè)的結(jié)構(gòu)化數(shù)據(jù)庫為基礎(chǔ) 建立虛擬RDF視圖(view)。但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明白,本發(fā)明并不僅僅局限于RDF數(shù)據(jù),而是可以應(yīng)用 到各種鏈接數(shù)據(jù),比如通過映射微格式(Micro-format)的數(shù)據(jù)所獲得的鏈接數(shù)據(jù)等等。接下來將以Dbpedia作為RDF數(shù)據(jù)的具體實(shí)例并以如何得到下面的自然語言 問題“In this 1992 Robert Altman film, Tim Robbins gets angry messages from a screenwriter he’ s snubbed”的自然語言答案為例來詳細(xì)說明本發(fā)明的原理。這里首先列出與上面的自然語言問題有關(guān)的Dbpedia中的一些RDF三元組數(shù)據(jù), 并且在圖2中給出這些RDF三元組數(shù)據(jù)的鏈接圖結(jié)構(gòu)。# <http://dbpedia. org/resource/The_Player>
<http//dbpedia. org/property/director)<http//dbpedia. org/resource/Robert—Altman>·# <http://dbpedia. org/resource/The_Player><http://www. w3. org/2000/01/rdf-schema% 231abel>"The Player,,@en·· <http://dbpedia. org/resource/Gosford_Park>
<http://dbpedia. org/property/director)<http://dbpedia. org/resource/Robert—Altman>·· <http://dbpedia. org/resource/Robert—Altman><http://dbpedia. org/property/birthplace)<http://dbpedia. org/resource/Kansas—City% 2C—Missouri〉·# <http://dbpedia. org/resource/The_Player><http://dbpedia. org/property/starring)<http://dbpedia. org/resource/Tim—Robbins>·· <http://dbpedia. org/resource/Tim—Robbins><http://dbpedia. org/property/spouse> <http://dbpedia. org/resource/Susan_Sarandon>.# <http://dbpedia. org/resource/The_Player><http://www. w3. org/1999/02/22-rdf-syntax_ns#type><http://dbpedia. org/class/yago/MotionPictureFilml03789400>.· <http://dbpedia. org/class/yago/MotionPictureFilml03789400><http://www. w3. org/2000/01/rdf-schema% 23subClass0f><http://dbpedia. org/class/yago/Filml03435300>.參〈http://dbpedia. org/class/yago/Filml03435300><http://www. w3. org/2000/01/rdf-schema% 231abel>“Film”@en.在圖2中,圓圈代表與命名實(shí)體相關(guān)的URI (Universal Resource Identifier, 通用資源標(biāo)識符),也就是RDF三元組數(shù)據(jù)中的主語和賓語。兩個圓圈之間的連線表示命 名實(shí)體之間的關(guān)系,也就是RDF三元組數(shù)據(jù)中的謂詞。以上面所示的第一個RDF三元組 數(shù) 據(jù)“<http//dbpedia. org/resource/The_Player><http//dbpedia. org/property/ directorXhttp//dbpedia. org/resource/Robert_Altman>“為 列,其中"The—Player,, 和 ‘‘Robert_Altman” 二者為命名實(shí)體,‘‘<http //dbpedia. org/resource/The_Player>“ 為與命名實(shí)體"The_Player” 相關(guān)的 URI,而 ‘‘<http //dbpedia. org/resource/Robert_ Altman〉”為與命名實(shí)體“R0bert_Altman”相關(guān)的URI,因此在圖2所示的鏈接圖中用圓圈 表示。另外,“ <http //dbpedia. org/property/director> ” 為 RDF 三元組數(shù)據(jù)中的謂詞, 表明了 命名實(shí)體“ The_Player,,和 “ Robert_Altman,,之間的關(guān)系,即 “ Robert_Altman,,為影 片“The_Player”的“director (導(dǎo)演)”。其他的RDF三元組數(shù)據(jù)可以以相同的方式進(jìn)行解 析,這里不再一一詳細(xì)列出。圖3示出根據(jù)本發(fā)明的實(shí)施例的處理自然語言問題的方法的總體流程圖。如圖3所示,根據(jù)本發(fā)明實(shí)施例的處理自然語言問題的方法包括命名實(shí)體檢測步驟S301、答案相 關(guān)信息提取步驟S303、鏈接數(shù)據(jù)庫檢索步驟S305、候選答案生成步驟S307、特征值獲取步 驟S309、以及候選答案評估步驟S311。首先,在命名實(shí)體檢測步驟S301中,對用戶輸入的自然語言問題進(jìn)行分析,從中 檢測命名實(shí)體。接著,在答案相關(guān)信息提取步驟S303提取自然語言問題中與答案相關(guān)的信 肩、ο例如,對于上面提到的自然語言問題“In this 1992 Robert Altman film,Tim Robbins gets angry messages from a screenwriter he,ssnubbed”,從中可以檢狽|J到 命名實(shí)體“Robert_Altman”和“Tim Robbins”,而且還能夠提取出與答案類型相關(guān)的信息 “film”以及與答案相關(guān)的時間驗(yàn)證信息“ 1992”等。然后,在鏈接數(shù)據(jù)庫檢索步驟S305中,根據(jù)在命名實(shí)體檢測步驟S301中檢測得到 的命名實(shí)體,在不同的數(shù)據(jù)源,比如DBpedia和IMDb的鏈接數(shù)據(jù)中進(jìn)行檢索。接著,在候選 答案生成步驟S307,根據(jù)鏈接數(shù)據(jù)庫檢索步驟S305中的檢索結(jié)果生成候選答案。圖4示出了根據(jù)本發(fā)明的一種優(yōu)選實(shí)施方式的候選答案生成方法的處理流程。如 圖4所示,首先在匹配步驟S401中,基于相似度在鏈接數(shù)據(jù)中搜索與命名實(shí)體相匹配的 URI。對于作為實(shí)例的上述自然語言問題,可以根據(jù)在命名實(shí)體檢測步驟S301中檢測所得 到的命名實(shí)體“Robert_Altman”以及“Tim Robbins”,分別從DBpedia中搜索到與之相匹配 的 URI “<http//dbpedia. org/resource/Robert_Altman>,,以及"<http://dbpedia· org/ resource/Tim_Robbins>,,。
接著,在擴(kuò)展搜索步驟S403中,利用URI之間的鏈接關(guān)系,擴(kuò)展搜索與命名實(shí)體相 匹配的URI所直接鏈接的URI。在上述示例中,對于與命名實(shí)體“Robert_Altman”相匹配的 URI "<http://dbpedia. org/resource/Robert_Altman>,,,可以通過擴(kuò)展搜索從圖 2 所示 的鏈接圖中非常容易地得到與之直接鏈接的URI,例如“<http://dbpedia. org/resource/ The_Player>,,、” <http //dbpedia. org/resource/Gosford_Park>,,禾口 ” <http //dbpedia. org/resource/Kansas_City% 2C_Missouri>,,。對于與命名實(shí)體“Tim Robbins,,相匹配的 URI "<http://dbpedia. org/resource/Tim_Robbins>,,,也可以通過擴(kuò)展搜索從圖 2 所示 的鏈接圖中非常容易地得到與之直接鏈接的URI,例如“<http://dbpedia. org/resource/ The_Player>” 禾口 “ <http//dbpedia. org/resource/Susan_Sarandon>”。在擴(kuò)展獲得了上述各個URI之后,在候選生成步驟S405中就可以從各個直接鏈 接的URI中提取得出候選答案。這里,候選答案可以為URI中所包含的標(biāo)簽。對于上述示 例,比如可以從擴(kuò)展搜索步驟S403中得到的各個直接鏈接的URI中提取出候選答案“The_ Player,,、“Gosford_Park,,、“Kansas_City,,、以及“Susan_Sarandon,,。這里雖然只描述了擴(kuò) 展搜索與命名實(shí)體相匹配的URI所直接鏈接的通用資源標(biāo)識符;以及根據(jù)直接鏈接的URI 生成候選答案。本領(lǐng)域技術(shù)人員知道,在擴(kuò)展搜索及生成候選答案時可以不限于直接鏈接 的 URI。在根據(jù)圖4所示的處理過程生成候選答案之后,接著在圖3所示的特征值獲取步 驟S309中,根據(jù)在答案相關(guān)信息提取步驟S303中提取的與答案相關(guān)的信息對候選答案進(jìn) 行解析,以獲取候選答案的特征的值。這里,候選答案的特征包括與答案相關(guān)的信息以及與候選答案相關(guān)聯(lián)的直接鏈接的通用資源標(biāo)識符的數(shù)量。與答案相關(guān)的信息比如是在答案相關(guān)信息提取步驟S303中提 取的與答案類型相關(guān)的信息“film”以及與答案相關(guān)的時間驗(yàn)證信息“1992”等等。答案類 型信息可以用“tycor”來表示,時間驗(yàn)證信息可以直接用“year”來表示。與候選答案相關(guān) 聯(lián)的直接鏈接的通用資源標(biāo)識符的數(shù)量例如是圖2中與各個候選答案所屬的URI直接鏈接 的URI的數(shù)量,在此用“triple”來表示該特征。據(jù)此,下表1給出了針對上面所述具體示 例的各個候選答案的特征的值。表1候選答案的特征的值 從表1中可以看出,對于特征“tycor”,由于候選答案“The_Player”和“Gosford_ Park”均為影片名稱,與在答案相關(guān)信息提取步驟S303中提取的與答案類型相關(guān)的信息 “film”一致,因此其 tycor = 1。候選答案“Kansas_City”為城市名,而“Susan_Sarandon” 為人名,均與答案類型信息“film”不一致,因此其tycor = 0。對于特征“triple”,從圖2 中可以直觀地看出與候選答案“The_Player,,、“Gosford_Park,,、“Kansas_City,,和“Susan_ Sarandon"直接鏈接的和命名實(shí)體“Robert_Altman”及“TimRobbins”相關(guān)的URI分別為 2、1、1和1,因此其特征“triple”分別被賦予2、1、1和1的值。對于特征“year”,由于只有 與候選答案 “The_Player” 相鏈接的 URI "<http //www. w3. org/1999/02/22-rdf-syntax-nS#type>”中出現(xiàn)了在答案相關(guān)信息提取步驟S303中提取的時間驗(yàn)證信息“ 1992”,因此將 候選答案“The_Player”的特征“year”賦予值1,而其他候選答案的特征“year”均賦予值 O0在此需要指出的是,候選答案的特征不僅限于上面示例中提到的與答案類型相關(guān) 的信息、與候選答案相關(guān)聯(lián)的直接鏈接的通用資源標(biāo)識符的數(shù)量、以及與答案相關(guān)的時間 驗(yàn)證信息,而是可以包括各種涉及答案、命名實(shí)體、URI等等的信息,比如與命名實(shí)體相匹配 的通用資源標(biāo)識符之間的關(guān)聯(lián)信息。在特征值獲取步驟S309中獲取各個候選答案的特征的值之后,就可以在候選答 案評估步驟S311中對候選答案的特征的值進(jìn)行綜合,以便對每一個候選答案進(jìn)行評估,從 中選出最佳答案提供給用戶。根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例,事先根據(jù)選定的候選答案的特征進(jìn)行機(jī)器學(xué)習(xí), 由此訓(xùn)練出滿意的計(jì)分模型。這樣,在候選答案評估步驟S311中對候選答案的特征的值進(jìn) 行綜合時,可以按照訓(xùn)練好的計(jì)分模型計(jì)算出每一個候選答案的分?jǐn)?shù),并從中選擇分?jǐn)?shù)最 高的候選答案作為最終答案提供給用戶。下表2示出了針對上面所述的示例,對各個候選 答案進(jìn)行評估后得到的評分結(jié)果。
表2候選答案的評估 在表2中,對于候選答案“The_Player”,不僅其答案類型與想要的答案的類型匹 配,與時間相關(guān)的驗(yàn)證信息也吻合,而且與候選答案相關(guān)聯(lián)的直接鏈接的URI的數(shù)量最多, 因此給出最高100的評分并作為最佳答案提供給用戶。對于候選答案“GosforcLPark”,由 于其特征“year = 0”,而且與候選答案相關(guān)聯(lián)的直接鏈接的URI的數(shù)量僅為1,因此雖然其 答案類型與想要的答案的類型匹配,但不能作為最佳答案,給出了 60分的評分。另外,對于 候選答案“Kansas_City”和“SUsan_Sarandon”,由于其答案類型的值均為0,與想要的答案 的類型不匹配,因此其最后的評估分?jǐn)?shù)為O。當(dāng)然,表2中給出的評分結(jié)果僅僅作為示例給出,在實(shí)際應(yīng)用中,可以根據(jù)不同的 情況對各個特征賦予不同的權(quán)重值,從而對候選答案進(jìn)行相應(yīng)的評估。另外,這里還要指出的是,候選答案不一定必須從同一個鏈接數(shù)據(jù),比如上面示例 中所用的DBpedia中進(jìn)行查找,而是可以從不同的鏈接數(shù)據(jù)中檢索得到。這樣,在從不同的 鏈接數(shù)據(jù)中分別得到候選答案時,在候選答案評估步驟S311中對候選答案進(jìn)行評估之前, 可以根據(jù)候選答案的特征對從不同鏈接數(shù)據(jù)中檢索得到的候選答案進(jìn)行合并,從而避免出 現(xiàn)重復(fù)的候選答案。以上描述了根據(jù)本發(fā)明實(shí)施例的處理自然語言問題的方法的處理流程,下面將結(jié) 合圖5和圖6描述根據(jù)本發(fā)明實(shí)施例的處理自然語言問題的裝置的工作原理。圖5示出根據(jù)本發(fā)明實(shí)施例的處理自然語言問題的裝置500的結(jié)構(gòu)方框圖。如圖 5所示,根據(jù)該實(shí)施例的處理自然語言問題的裝置500包括問題分析模塊501、候選答案生 成模塊503、特征值生成模塊505、以及候選答案評估模塊507。首先,問題分析模塊501分析自然語言問題,從中檢測命名實(shí)體并提取與答案相 關(guān)的信息。然后,候選答案生成模塊503根據(jù)問題分析模塊501檢測到的命名實(shí)體在比如 DBpedia和IMDb等的鏈接數(shù)據(jù)中進(jìn)行檢索,由此生成候選答案。接著,特征值生成模塊505 根據(jù)與答案相關(guān)的信息對候選答案生成模塊503所生成的候選答案進(jìn)行解析,從而獲取候 選答案的特征的值。最后,候選答案評估模塊507對特征值生成模塊505獲取的候選答案 的特征的值進(jìn)行綜合以評估每一個候選答案,并將最佳的候選答案作為最終結(jié)果提供給用 戶。圖6示出根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的候選答案生成模塊600的示意結(jié)構(gòu)方框 圖。如圖6所示,根據(jù)該實(shí)施例的候選答案生成模塊600包括匹配單元601、擴(kuò)展搜索單元 603和候選生成單元605。匹配單元601基于相似度在鏈接數(shù)據(jù)中搜索與命名實(shí)體相匹配的通用資源標(biāo)識符,擴(kuò)展搜索單元603則利用通用資源標(biāo)識符之間的鏈接關(guān)系,通過擴(kuò)展搜索匹配單元601 獲得的與命名實(shí)體相匹配的通用資源標(biāo)識符所直接鏈接的通用資源標(biāo)識符,然后由候選生 成單元605從擴(kuò)展搜索單元603搜索得到的直接鏈接的通用資源標(biāo)識符生成候選答案。候選生成單元605可以將通用資源標(biāo)識符中所包含的標(biāo)簽作為候選答案。候選答 案的特征應(yīng)當(dāng)至少包括與答案相關(guān)的信息、以及與候選答案相關(guān)聯(lián)的直接鏈接的通用資源 標(biāo)識符的數(shù)量,與答案相關(guān)的信息至少包括答案類型。根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例,與答案相關(guān)的信息還包括從自然語言問題中提取 的與答案相關(guān)的時間驗(yàn)證信息,候選答案的特征還包括與命名實(shí)體相匹配的通用資源標(biāo)識 符之間的關(guān)聯(lián)信息。在此值得指出的是,候選答案不一定必須從同一個鏈接數(shù)據(jù),而是可以從不同的 鏈接數(shù)據(jù)中檢索得到。為此,根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例還包括合并模塊(圖中未示 出),用以在從不同的鏈接數(shù)據(jù)中分別得到候選答案時,在候選答案評估模塊507中對候選 答案進(jìn)行評估之前,根據(jù)候選答案的特征對從不同鏈接數(shù)據(jù)中檢索得到的候選答案進(jìn)行合 并,從而避免出現(xiàn)重復(fù)的候選答案。另外,根據(jù)本發(fā)明的一個優(yōu)選實(shí)施例的處理自然語言問題的裝置還包括訓(xùn)練模塊 (圖中未示出),用以事先根據(jù)選定的候選答案的特征進(jìn)行機(jī)器學(xué)習(xí),由此訓(xùn)練出滿意的計(jì) 分模型。這樣,在候選答案評估模塊507中對候選答案的特征的值進(jìn)行綜合時,可以按照訓(xùn) 練好的計(jì)分模型計(jì)算出每一個候選答案的分?jǐn)?shù),并從中選擇分?jǐn)?shù)最高的候選答案作為最終 答案提供給用戶。這里還要指出的是,在根據(jù)本發(fā)明的處理自然語言問題的裝置中的問題分析模塊 501、候選答案生成模塊503、特征值生成模塊505、以及候選答案評估模塊507等各個模塊 中的具體處理過程分別與參照圖3描述的處理自然語言問題的方法中的命名實(shí)體檢測步 驟S301和答案相關(guān)信息提取步驟S303、鏈接數(shù)據(jù)庫檢索步驟S305和候選答案生成步驟 S307、特征值獲取步驟S309、以及候選答案評估步驟S311等各個步驟中的處理類似,而在 候選答案生成模塊600中的匹配單元601、擴(kuò)展搜索單元603和候選生成單元605等各個單 元中的具體處理過程則分別與參照圖4描述的候選答案生成方法中的匹配步驟S401、擴(kuò)展 搜索步驟S403、以及候選生成步驟S405等各個步驟中的處理類似,因此在此略去進(jìn)一步的 詳細(xì)描述。從以上對本發(fā)明的具體實(shí)施例的描述以及對現(xiàn)有技術(shù)的分析中可以看出,當(dāng)使用 NLP技術(shù)分析文件/句子/單詞時,由于自然語言很難進(jìn)行完善的解析,因此針對非結(jié)構(gòu)化 數(shù)據(jù)進(jìn)行處理的現(xiàn)有QA系統(tǒng)必須處理許多模糊的問題。而根據(jù)本發(fā)明實(shí)施例的處理自然 語言問題的方法和裝置則是針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理的QA系統(tǒng),能夠基于當(dāng)前業(yè)已存在 的大量鏈接數(shù)據(jù),很好地改善QA系統(tǒng)的精度。另外,根據(jù)本發(fā)明實(shí)施例的處理自然語言問題的方法和裝置,還可以幫助企業(yè)在 虛擬RDF視圖實(shí)現(xiàn)QA系統(tǒng),而無需對現(xiàn)有的QA系統(tǒng)進(jìn)行改造以適用企業(yè)業(yè)已大量生成的 RDF數(shù)據(jù)和虛擬RDF數(shù)據(jù)。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對本領(lǐng)域的 普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在 任何計(jì)算裝置(包括處理器、存儲介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運(yùn)用他們 的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計(jì)算裝置上運(yùn)行一個程序或者一組程序來 實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包 含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu) 成本發(fā)明,并且存儲有這樣的程序產(chǎn)品的存儲介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲介質(zhì)可以 是任何公知的存儲介質(zhì)或者將來所開發(fā)出來的任何存儲介質(zhì)。
在通過軟件和/或固件實(shí)現(xiàn)本發(fā)明的實(shí)施例的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有 專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖7所示的通用個人計(jì)算機(jī)700安裝構(gòu)成該軟件的程序,該計(jì) 算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。在圖7中,中央處理單元(CPU) 701根據(jù)只讀存儲器(ROM) 702中存儲的程序或從 存儲部分708加載到隨機(jī)存取存儲器(RAM) 703的程序執(zhí)行各種處理。在RAM 703中,也根 據(jù)需要存儲當(dāng)CPU 701執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 70UROM 702和RAM 703經(jīng) 由總線704彼此連接。輸入/輸出接口 705也連接到總線704。下述部件連接到輸入/輸出接口 705 輸入部分706,包括鍵盤、鼠標(biāo)等等;輸出部 分707,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚(yáng)聲器等等;存儲部 分708,包括硬盤等等;和通信部分709,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通 信部分709經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器710也連接到輸入/輸出接口 705。可拆卸介質(zhì)711比如磁盤、 光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器710上,使得從中讀出的計(jì)算機(jī) 程序根據(jù)需要被安裝到存儲部分708中。在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆 卸介質(zhì)711安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖7所示的其中存儲有程 序、與裝置相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)711。可拆卸介質(zhì)711的例子 包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是 ROM 702、存儲部分708中包含的硬盤等等,其中存有程序,并且與包含它們的裝置一起被 分發(fā)給用戶。還需要指出的是,在本發(fā)明的裝置和方法中,顯然,各部件或各步驟是可以分解和 /或重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。并且,執(zhí)行上述系列 處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序 執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要求 所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本申請的術(shù) 語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要 素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素, 或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下, 由語句“包括一個......”限定的要素,并不排除在包括所述要素的過程、方法、物品或者裝置中還存在另外的相同要素。
權(quán)利要求
一種處理自然語言問題的方法,包括檢測自然語言問題中的命名實(shí)體;提取自然語言問題中與答案相關(guān)的信息;根據(jù)檢測到的命名實(shí)體在鏈接數(shù)據(jù)中進(jìn)行檢索;根據(jù)檢索結(jié)果生成候選答案;根據(jù)與答案相關(guān)的信息對候選答案進(jìn)行解析,獲取候選答案的特征的值;以及通過對候選答案的特征的值進(jìn)行綜合,評估每一個候選答案。
2.根據(jù)權(quán)利要求1所述的處理自然語言問題的方法,其中根據(jù)檢測到的命名實(shí)體在鏈接數(shù)據(jù)中進(jìn)行檢索包括基于相似度在鏈接數(shù)據(jù)中搜索與 命名實(shí)體相匹配的通用資源標(biāo)識符;利用通用資源標(biāo)識符之間的鏈接關(guān)系,擴(kuò)展搜索與命 名實(shí)體相匹配的通用資源標(biāo)識符所鏈接的通用資源標(biāo)識符;以及根據(jù)鏈接的通用資源標(biāo)識符生成候選答案。
3.根據(jù)權(quán)利要求2所述的處理自然語言問題的方法,其中候選答案為通用資源標(biāo)識符 中所包含的標(biāo)簽。
4.根據(jù)權(quán)利要求3所述的處理自然語言問題的方法,其中候選答案的特征至少包括與 答案相關(guān)的信息、以及與候選答案相關(guān)聯(lián)的直接鏈接的通用資源標(biāo)識符的數(shù)量。
5.根據(jù)權(quán)利要求4所述的處理自然語言問題的方法,其中與答案相關(guān)的信息至少包括 答案類型。
6.根據(jù)權(quán)利要求5所述的處理自然語言問題的方法,其中與答案相關(guān)的信息還包括從 自然語言問題中提取的與答案相關(guān)的時間驗(yàn)證信息,候選答案的特征還包括與命名實(shí)體相 匹配的通用資源標(biāo)識符之間的關(guān)聯(lián)信息。
7.根據(jù)權(quán)利要求1至6之任一所述的處理自然語言問題的方法,還包括根據(jù)候選答案 的特征對從不同鏈接數(shù)據(jù)中檢索得到的候選答案進(jìn)行合并。
8.根據(jù)權(quán)利要求1至6之任一所述的處理自然語言問題的方法,還包括根據(jù)候選答案 的特征進(jìn)行機(jī)器學(xué)習(xí)以訓(xùn)練出計(jì)分模型;以及其中,在評估每一個候選答案時,按照所述計(jì)分模型計(jì)算出每一個候選答案的分?jǐn)?shù)。
9.根據(jù)權(quán)利要求1至6之任一所述的處理自然語言問題的方法,其中所述鏈接數(shù)據(jù)為 資源描述框架數(shù)據(jù)。
10.根據(jù)權(quán)利要求1至6之任一所述的處理自然語言問題的方法,其中鏈接數(shù)據(jù)是通過 映射微格式的數(shù)據(jù)來獲得的。
11.一種處理自然語言問題的裝置,包括問題分析模塊,配置為檢測自然語言問題中的命名實(shí)體并提取自然語言問題中與答案 相關(guān)的信息;候選答案生成模塊,配置為根據(jù)檢測到的命名實(shí)體在鏈接數(shù)據(jù)中進(jìn)行檢索,并根據(jù)檢 索結(jié)果生成候選答案;特征值生成模塊,配置為根據(jù)與答案相關(guān)的信息對候選答案進(jìn)行解析,獲取候選答案 的特征的值;以及候選答案評估模塊,配置為通過對候選答案的特征的值進(jìn)行綜合來評估每一個候選答案。
12.根據(jù)權(quán)利要求11所述的處理自然語言問題的裝置,其中候選答案生成模塊包括 匹配單元,配置為基于相似度在鏈接數(shù)據(jù)中搜索與命名實(shí)體相匹配的通用資源標(biāo)識符;擴(kuò)展搜索單元,配置為利用通用資源標(biāo)識符之間的鏈接關(guān)系,擴(kuò)展搜索與命名實(shí)體相 匹配的通用資源標(biāo)識符所鏈接的通用資源標(biāo)識符;以及候選生成單元,配置為根據(jù)鏈接的通用資源標(biāo)識符生成候選答案。
13.根據(jù)權(quán)利要求12所述的處理自然語言問題的裝置,其中候選生成單元將通用資源 標(biāo)識符中所包含的標(biāo)簽作為候選答案。
14.根據(jù)權(quán)利要求13所述的處理自然語言問題的裝置,其中候選答案的特征至少包括 與答案相關(guān)的信息、以及與候選答案相關(guān)聯(lián)的直接鏈接的通用資源標(biāo)識符的數(shù)量。
15.根據(jù)權(quán)利要求14所述的處理自然語言問題的裝置,其中與答案相關(guān)的信息至少包 括答案類型。
16.根據(jù)權(quán)利要求15所述的處理自然語言問題的裝置,其中與答案相關(guān)的信息還包括 從自然語言問題中提取的與答案相關(guān)的時間驗(yàn)證信息,候選答案的特征還包括與命名實(shí)體 相匹配的通用資源標(biāo)識符之間的關(guān)聯(lián)信息。
17.根據(jù)權(quán)利要求11至16之任一所述的處理自然語言問題的裝置,還包括合并模塊, 配置為根據(jù)候選答案的特征對從不同鏈接數(shù)據(jù)中檢索得到的候選答案進(jìn)行合并。
18.根據(jù)權(quán)利要求11至16之任一所述的處理自然語言問題的裝置,還包括訓(xùn)練模塊, 配置為根據(jù)候選答案的特征進(jìn)行機(jī)器學(xué)習(xí)以訓(xùn)練出計(jì)分模型;以及其中,候選答案評估模塊在評估每一個候選答案時,按照所述計(jì)分模型計(jì)算出每一個 候選答案的分?jǐn)?shù)。
19.根據(jù)權(quán)利要求11至16之任一所述的處理自然語言問題的裝置,其中所述鏈接數(shù)據(jù) 為資源描述框架數(shù)據(jù)。
20.根據(jù)權(quán)利要求11至16之任一所述的處理自然語言問題的裝置,其中鏈接數(shù)據(jù)是通 過映射微格式的數(shù)據(jù)來獲得的。
全文摘要
本發(fā)明公開了一種處理自然語言問題的方法和裝置。根據(jù)本發(fā)明的處理自然語言問題的方法包括檢測自然語言問題中的命名實(shí)體;提取自然語言問題中與答案相關(guān)的信息;根據(jù)檢測到的命名實(shí)體在鏈接數(shù)據(jù)中進(jìn)行檢索;根據(jù)檢索結(jié)果生成候選答案;根據(jù)與答案相關(guān)的信息對候選答案進(jìn)行解析,獲取候選答案的特征的值;以及通過對候選答案的特征的值進(jìn)行綜合,評估每一個候選答案。
文檔編號G06F17/30GK101872349SQ200910135368
公開日2010年10月27日 申請日期2009年4月23日 優(yōu)先權(quán)日2009年4月23日
發(fā)明者克里斯托弗·韋爾蒂, 大衛(wèi)·費(fèi)魯奇, 張雷, 潘越, 王晨, 裘照明, 馬力 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1