專利名稱:用于文檔分析的基于語義的方法和裝置的制作方法
用于文檔分析的基于語義的方法和裝置相關(guān)申請的交叉引用 本非臨時(shí)申請要求基于題為"A Semantics-Based Methodand Apparatus for Selecting Interpretations of Text Strings"、以MichaelJohn Witbrock、 David Andrew Schneider、 Benjamin Paul Rode、和BjoemAldag的名義于2006年11月7日提交的在先美國臨時(shí)專利申請SerialNo. 60/857379的優(yōu)先權(quán)。
背景技術(shù):
和
發(fā)明內(nèi)容
因特網(wǎng)及其它計(jì)算機(jī)網(wǎng)絡(luò)已成為信息傳輸?shù)闹е?。就此而言,相關(guān)數(shù)據(jù)存儲的有效分析和搜索極為重要。如果自動(dòng)機(jī)器可以處理包含在口語或書面自然語言中的意義,則計(jì)算機(jī)技術(shù)的許多應(yīng)用將被更好地實(shí)現(xiàn)并享受提高的穩(wěn)健性和完整性。以前,由在文檔本身中出現(xiàn)的詞條或源自該文檔所在的文集、較大文檔集或這兩者的統(tǒng)計(jì)模型來導(dǎo)出此類解釋。 因此,公開了一種用于產(chǎn)生文本的富含語義的表示的新型系統(tǒng)和方法,所述系統(tǒng)和方法利用語義^=莫型來》文大并加深文本的解釋。這種方法不4又可適用于產(chǎn)生文本的語義表示,而且可適用于匹配多個(gè)文本的表示。所述方法依賴于這樣的事實(shí),即存在相當(dāng)數(shù)量的與大多數(shù)文本串相關(guān)聯(lián)的語義內(nèi)容,其在那些串中或僅僅在該串與其它串的統(tǒng)計(jì)共現(xiàn)中是不明確的,但其仍然與文本極其相關(guān)。 此附加信息可以用來加深直接從文本串導(dǎo)出的表示,而且還對該表示擴(kuò)充雖未在該串中明確提及、但在文本中是暗含的、且如果使其明確則可以用來支持文本處理應(yīng)用的性能的內(nèi)容,所述文本處理應(yīng)用包括文檔標(biāo)引和檢索、文檔分類、文檔傳閱(documentrouting)、文檔綜述、以及文檔加標(biāo)簽。這些改進(jìn)還支持下游處理,諸如自動(dòng)化文檔閱讀和理解、在線廣告設(shè)置、電子商務(wù)、企業(yè)知識管理、以及商業(yè)和政府智能應(yīng)用。
閱讀以下詳細(xì)說明時(shí)和參考附圖時(shí),本發(fā)明的前述及其它優(yōu)點(diǎn)將變得顯而易見,在附圖中 圖1是舉例說明其中利用數(shù)據(jù)存儲的語義表示的本發(fā)明的 一 個(gè)實(shí)施例的數(shù)據(jù)流程檔和原始文檔的可用解釋的語義搜索結(jié)果的數(shù)據(jù)流程圖;口 ' 圖3是舉例說明依照本發(fā)明的實(shí)施例的語義解釋器的一個(gè)實(shí)施例的數(shù)據(jù)流程圖。 雖然本發(fā)明可以接受各種修改和替代形式,但已在附圖中通過舉例示出并將在本文中詳細(xì)描述特定實(shí)施例。然而,應(yīng)理解的是,本發(fā)明并不意圖局限于所公開的特定形式。相反,本發(fā)明將涵蓋在隨附權(quán)利要求所限定的本發(fā)明的精神和范圍內(nèi)的所有修改、等價(jià)物、以及替代。
具體實(shí)施例方式
如上所述,本發(fā)明的實(shí)施例提供了用于文本的解釋、分析和搜索的基于語義模型的系統(tǒng)和方法。另外,所述模型可以有利地
應(yīng)用于圖示、描述圖像的信息、發(fā)言記錄、音樂唱片的描述信息等等。 公開了一種用于產(chǎn)生文本的富含語義的表示的新型系統(tǒng)和方法,所述系統(tǒng)和方法利用語義模型來放大并加深文本的解釋。這種方法不僅可適用于產(chǎn)生文本的語義表示,而且可適用于匹配多個(gè)文本的表示。所述方法依賴于這樣的事實(shí),即存在相當(dāng)數(shù)量的與大多數(shù)文本串相關(guān)聯(lián)的語義內(nèi)容,其在那些串中或僅僅在該串與其它串的統(tǒng)計(jì)共現(xiàn)中不明確,但其仍然與文本極其相關(guān)。此附加信息既用來加深直接從文本串導(dǎo)出的表示,而且還對該表示擴(kuò)充雖未在該串中明確才是及、但在文本中是暗含的、且如果使其明確則可以用來支持文本處理應(yīng)用的性能的內(nèi)容,所述文本處理應(yīng)用包括文檔標(biāo)引和檢索、文檔分類、文檔傳閱、基于可以由文檔中的特定注解術(shù)語(term)或以其它方式來舉例說明的概括性總結(jié)的文檔綜述、文檔之間的自動(dòng)鏈接、文檔與用文檔元特征加標(biāo)簽的文檔之間的不 一致性的#企測,所述元特征諸如作者的態(tài)度或情感傾向、或預(yù)定目標(biāo)讀者的性格。然后,可以使
用這些改進(jìn)來支持下游處理,諸如自動(dòng)化文檔閱讀和理解、在線廣告設(shè)置、電子商務(wù)、企業(yè)知識管理、基于信息用戶訪問或產(chǎn)生的信息的意義的信息用戶之間的合作或社會(huì)聯(lián)網(wǎng)機(jī)會(huì)的識別、以及商業(yè)和政府智能應(yīng)用。 該方法利用文本本身之外的包含信息的語義模型,所述信息在優(yōu)選實(shí)施例中可以用來消除串的可能的不正確解釋,而且用來對所述表示擴(kuò)充附加相關(guān)概念。為了舉例說明后者,考慮串"GeorgeW. Bush signed the budget act today"。此串的簡單表示將包括"GeorgeW. Bush" 、 "signed" 、 "budget act"、以及"today"的才既念。然而,此串中隱含的是概念"President ofthe United States"和"becomelaw":因此,該串的更完整表示將包括那兩個(gè)附加概念。所述系統(tǒng)可以將文本自身中的信息與基于邏輯的表示(包括但不限于類似Cyc的基于謂詞演算的邏輯知識庫和用描述邏輯、包括馬爾可夫邏輯和提高一階謂詞演算的概率邏輯、命題邏輯和模態(tài)邏輯表示的知識庫,且包括但不限于部分或完全手工構(gòu)造、或者
部分或完全自動(dòng)構(gòu)造的知識庫,所述自動(dòng)構(gòu)造包4舌通過自動(dòng)閱讀、知識的自動(dòng)歸納、自動(dòng)溯因推理、以及自動(dòng)化知識發(fā)現(xiàn)和確認(rèn)的其它手段)中所表示的語義模型相匹配以對所述表示擴(kuò)充附加概念、關(guān)系、斷言和來自模型的斷言的集合。除了通過包括自然語言處理(NLP)中通常使用的基于標(biāo)準(zhǔn)文集和基于文檔加權(quán)的其他手段對來自模型的概念進(jìn)行加權(quán)以外,還可以通過根據(jù)來自模型的概念與文檔的初始表示的匹配緊密程度和/或根據(jù)其在外部模型中的突出性來對來自模型的概念進(jìn)行加權(quán)。 為了舉例說明,在不限制本發(fā)明中要求的范圍的情況下,通過信息檢索中的應(yīng)用,假設(shè)作為一個(gè)人通??赡茏龅氖拢脩粝蚓W(wǎng)頁搜索引擎中輸入單詞查詢"TxDOT"。當(dāng)前,搜索引擎將搜索包含該串的文檔。除非由于統(tǒng)計(jì)學(xué)原因,否則它們將不會(huì)優(yōu)選提及例如TxDOT的當(dāng)前標(biāo)題、或德克薩斯、或運(yùn)輸、或車輛登記、或在線服務(wù)、或公路等的文檔,即使這些術(shù)語和概念全部與TxDOT有特定的語義關(guān)系且如果它們出現(xiàn)的話則全部可表示比簡單地用名稱提及組織的文章更加與TxDOT有關(guān)的文章。公開的是一種語義模型,其包括諸如關(guān)于組織結(jié)構(gòu)的信息等背景信息和諸如重要人物在組織中扮演的特定角色等特定信息,以擴(kuò)充查詢并增強(qiáng)或?qū)崿F(xiàn)相關(guān)文檔的檢索。還可以在文檔內(nèi)部有效地使用同種類的模型,因?yàn)榕c語義模型相互一致的術(shù)語所占的文檔得到的相關(guān)性分?jǐn)?shù)應(yīng)成比例地比不能這樣來解釋其出現(xiàn)的術(shù)語所占的更多。語義模型的這種應(yīng)用勝過類似隱蔽相關(guān)性反饋或隱性語義索引等技術(shù),該技術(shù)將僅添加碰巧在統(tǒng)計(jì)學(xué)上常常與文檔中的目標(biāo)術(shù)語同時(shí)出現(xiàn)的搜索術(shù)語。 單個(gè)語義 f莫型不需要說明在查詢或文檔中出現(xiàn)的術(shù)語。相反,對于例如類似"ACL,,等查詢術(shù)語,可以存在若干語義模型,其中之一與如涉及Association for Computational Linguistics(計(jì)算語言學(xué)十辦會(huì))的解釋一致、 一個(gè)長口涉及Association of Christian Librarians(基督教圖書管理員協(xié)會(huì))、 一個(gè)涉及Austin City Limits music festival(奧斯汀城區(qū)音樂節(jié)),以及一個(gè)涉及在計(jì)算機(jī)文件系統(tǒng)中使用的Access Control Lists (訪問控制表)。此外,在文檔中出現(xiàn)的ACL以及詞語"Library (圖書館),,支持Access Control List (訪問控制表)和Association of Christian Librarians (基督教圖書管理員協(xié)會(huì))語義才莫型兩者。 由于文檔可以與若干不同模型一致,所以計(jì)算文檔的若干不同表示可能有用,每個(gè)表示與不同的語義模型一致。例如,在上述情況下,對于Association of Christian Librarians (基督教圖書管理員協(xié)會(huì))和Access Control List (訪問控制表)兩者,概念"Library (圖書館),,在表示中將具有增加的權(quán)重。然而,對于與Association ofChristian Librarians (基督教圖書管理員協(xié)會(huì))一致的文檔的表示,概念
"Librarian (圖書管理員)"在被文檔再現(xiàn)(evoke)時(shí)將具有較高權(quán)重,而概念"file permission(文件許可)"在集中于Access Control List
(訪問控制表)的表示中將具有較高權(quán)重。如果遇到信息檢索查詢
9"music Zilker(音樂Zilker )",則該查詢將被本發(fā)明擴(kuò)展為包括"Austin City Limits music festival (奧斯汀城區(qū)音樂節(jié))",因?yàn)樵撘魳饭?jié)與
"音樂"和"Zilker"(舉行該節(jié)日的公園)兩者一致。該查詢表示 還將被擴(kuò)展為包括不同的音樂流派(例如搖滾樂、古典樂、爵士樂), 因?yàn)樗鼈兣c"音樂" 一致,但不具有特別高的權(quán)重,因?yàn)樵赯ilker7> 園與音樂流派之間不存在緊密的語義聯(lián)系。
口語或文本文檔中的子'i分配:情確的標(biāo)i化的解釋:、其以比原始串i
經(jīng)得起進(jìn)一步處理的檢驗(yàn)的形式表示那些子串所表示的概念或斷言、 或可能的概念或解釋的語義。由于語言的模糊或由于應(yīng)被解釋的語言 的上下文知識的缺乏,所以語言串的可能解釋的數(shù)目常常非常大,因 此,"下游,,處理難以在可能取決于該解釋的可能動(dòng)作之間正確地進(jìn) 行選擇。 因此,如果可以在給定解釋上下文的情況下找到識別哪 些可能的解釋具有較高或較低的概率、或較高或較低的必然性的手 段,則對于這些解釋分配系統(tǒng)(其"信息提取"和"事實(shí)提取"系統(tǒng) 形成值得注意的子類)以及尤其是對于到本公開中所述的信息檢索和 總結(jié)的應(yīng)用來說是很有價(jià)值的。已使用不精確語義描述(例如組織、 武器、人、地方)的現(xiàn)有技術(shù)"信息提取"系統(tǒng)需要少得多的歧義消 除,因此這是較不重要的問題。然而,前述LE系統(tǒng)確實(shí)在執(zhí)行共指 消解(例如確定對"比爾克林頓"的引用與對"克林頓總統(tǒng)"的引用 指的是同一實(shí)體)時(shí)解決了此問題的限制形式。本發(fā)明包括被設(shè)計(jì)為 在許多種描述中使用的方法(即,不僅僅是單獨(dú)的實(shí)體)。 通常,某些解釋比其它解釋基本上具有較低的概率。例 如,"狗,,作為熱狗、乃至返祖性地(atavistically)作為腳的意義的 解釋比作為對犬的引用的解釋具有低得多的概率。本發(fā)明利用這種不 對稱性作為默認(rèn),只承認(rèn)高概率解釋;其它低概率解釋只有在其得 到語義模型的應(yīng)用的許可時(shí)才得到承認(rèn)。在其它情況下,可以基于與 語義模型的相關(guān)部分結(jié)合的文檔中隱含的上下文而具體地將高概率 解釋解除許可(delicense),留下低概率解釋,或根本不留下解釋。此類許可可以采取在權(quán)利要求的范圍內(nèi)非限制性地枚舉和在以下段 落中廣義地描述的許多形式。 為了舉例說明許可處理,假設(shè)新聞報(bào)道包含文本 "Chicago opened the 2007 season at Wrigley by putting Aardsma and Mateo in to pitch (芝力口哥P人在Wrigley以Aardsma和Mateo 4旦4壬才殳J求 手開始2007賽季)"。英文單詞Chicago根據(jù)上下文而具有許多解釋, 在其通常的高概率意義"伊利諾斯州芝加哥市"(OpenCyc中的 CityOfChicago IL ( http:〃opencyc.org )語義詞匯,其用于說明的目的, 但并不縮窄本發(fā)明的權(quán)利要求的范圍)以外,還包括電影《芝加哥》、 芝加哥大學(xué)和芝加哥小熊隊(duì)。很明顯,在此上下文中所指的是該最后 的意義,而不是指城市,這是因?yàn)樵谠撋舷挛闹惺褂昧嗽谶壿嬌吓c芝 加哥小熊隊(duì)相關(guān)的其它術(shù)語,即詞語"投球",其指的是棒球比賽中 要求的子事件,由于芝加哥小熊隊(duì)的隊(duì)員們作為職業(yè)棒球隊(duì)隊(duì)員的身 份,所以執(zhí)行該子事件是芝加哥小熊隊(duì)的隊(duì)員們的工作的必要部分。 同樣地,對芝加哥小熊隊(duì)的兩個(gè)隊(duì)員Aardsma和Mateo的提及許可該 解釋,如對Wrigley的提及一樣,Wrigley可以指示W(wǎng)rigley球場,小 熊隊(duì)的家。 通過比較,單詞"pound"(在其它所有條件相同的情況 下應(yīng)用來意指質(zhì)量單位-磅)在該單詞與意指支持英磅的術(shù)語英國便 士出現(xiàn)在同一句子中時(shí)將該意義(即質(zhì)量單位-磅)解除,,而許可意 義英磅。這樣,許可不僅添加否則將不會(huì)被考慮的解釋,而且還去除 替代、可能不正確的解釋。 在"芝加哥"的"芝加哥小熊隊(duì),,意義被許可的以上討 論中,值得注意的是用于許可的關(guān)系包括一般和特定知識兩者。特定 知識、例如芝加哥小熊隊(duì)是棒球隊(duì),職業(yè)球隊(duì)具有數(shù)目很少的隊(duì)員且 那些隊(duì)員為球隊(duì)所專有的 一般知識,且特別地Aardsma和Mateo是此 類隊(duì)員的特定知識。在一種實(shí)施方式中,本發(fā)明的重要特征是通過應(yīng) 用包含在知識庫中的知識或知識庫而以許可和解除許可失見則的特定 的形式有成本效益地導(dǎo)出許可和解除許可規(guī)則,該規(guī)則否則將必須為 每個(gè)術(shù)語單獨(dú)構(gòu)造以消除歧義,所述知識庫被設(shè)計(jì)為支持一種或多種
ii自動(dòng)推理形式。 在一種實(shí)施方式中,進(jìn)一步的特征是使用知識庫來不僅 計(jì)算用來注解文檔的非常特定的語義術(shù)語,而且用來產(chǎn)生具有那些術(shù) 語的概括和與那些術(shù)語相關(guān)的材料的注解,以允許在使用注解時(shí)進(jìn)行 高效、預(yù)編譯的推理。例如,除在文檔中被用來注解"申請以獲得專 利保護(hù)"的特定術(shù)語專利申請之外,還將向注解添加更概括的術(shù)語"請 求動(dòng)作",包括關(guān)系是概括的事實(shí)。這將允許與搜索"專利申請"同 樣快地搜索"請求動(dòng)作,,以檢索具有原始短語的文檔。此外,由于注 解包括術(shù)語之間的關(guān)系的性質(zhì),所以基于這些注解而操作的檢索引擎 將能解釋為什么檢索到該文檔因?yàn)槠浒枋鲆阉鞯氖马?xiàng)的更特 定的形式的術(shù)語。同樣地,通過在定義專利申請的子事件的情況下注 解文檔,可以在搜索"專利申請"期間檢索涉及官方動(dòng)作的文檔,而 不降低搜索速度。為了進(jìn)一步舉例說明,可以在搜索"車輛制造商" 期間在文檔中匹配術(shù)語"福特",因?yàn)橄到y(tǒng)已預(yù)先算出(在一種實(shí)施 方式中)"福特公司"與"(ManufacturerFn MotorVehicle )"之間的 相關(guān)性,因?yàn)楦L厥且阎?(ManufacturerFn Truck)"且"卡車" 是已知的一種"汽車",且因?yàn)樵~語"卡車"出現(xiàn)在文檔中,所以許 可了 "福特"作為公司而不是涉水的解釋。此許可關(guān)系連同文檔術(shù)語 之間的其它語義連接可以特別地用來擴(kuò)充相關(guān)(affected)術(shù)語的術(shù)語 權(quán)重以供在文檔^r索、文檔綜述及其它應(yīng)用中使用。此外,在一種實(shí) 施方式中,系統(tǒng)可以存儲這些關(guān)系的使用記錄以使"福特,,與"汽車 制造商"相關(guān)聯(lián),特別地使系統(tǒng)能夠描述其為什么檢索到該文檔,或 使用戶能夠指示系統(tǒng)優(yōu)選或不優(yōu)選某些種類的信息(例如關(guān)于公司所 制造的產(chǎn)品的信息)在相關(guān)應(yīng)用(在本例示中為信息檢索)中的使用。 現(xiàn)在轉(zhuǎn)到圖1,數(shù)據(jù)流程圖舉例說明其中利用數(shù)據(jù)存儲 的語義表示的本發(fā)明的一個(gè)實(shí)施例。文檔l被提交給語義解釋器3, 生成具有語義標(biāo)簽的文檔4。語義解釋器3啟用基于邏輯的知識庫2。 具有語義標(biāo)簽的文檔4通過語義擴(kuò)充器5,語義擴(kuò)充器5為文檔4的 語義標(biāo)簽擴(kuò)充其語義標(biāo)簽和知識庫2中的知識的組合中隱含的語義標(biāo) 簽,且文檔4中的可選權(quán)重術(shù)語部分地基于術(shù)語在文檔4的一部分內(nèi)的出現(xiàn)可以基于語義標(biāo)簽和知識庫2中的知識的組合而被顯示為被許 可的程度,結(jié)果得到具有語義標(biāo)簽的文檔6。圖2示出了依照本發(fā)明的用語義模型進(jìn)行操作的搜索查 詢處理設(shè)備9的自然語言處理模型。信息需要10的信息檢索查詢或 聲明由以圖1中的文檔處理系統(tǒng)的方式發(fā)生作用的查詢解釋器11和 擴(kuò)充器12來處理,其中,查詢IO充當(dāng)圖1中的文檔1,結(jié)果得到具 有語義標(biāo)簽的查詢和擴(kuò)充查詢13。在語義IR檢索引擎15內(nèi)將原始術(shù) 語、語義標(biāo)簽和權(quán)重與具有語義標(biāo)簽的和擴(kuò)充的文檔集14中的文檔 的術(shù)語、標(biāo)簽和權(quán)重相比較,其方式為通過檢索參數(shù)16來調(diào)節(jié)以產(chǎn) 生最少的一些文檔14的有序排列子集,供在相應(yīng)的注解文檔14和擴(kuò) 充查詢13中以確定的處理信息的形式使用,允許以合意的形式將其 呈現(xiàn)為語義搜索結(jié)果17,在多種其它呈現(xiàn)屬性中,其可以包括顯示為 什么檢索到該文檔的解釋的手段。 圖3提供了如圖1所示的語義解釋器3的一個(gè)實(shí)施例的 進(jìn)一步細(xì)節(jié)。輸入文檔20經(jīng)受語言預(yù)處理21,包括根據(jù)現(xiàn)有技術(shù)的 語法分析和命名實(shí)體標(biāo)簽以產(chǎn)生初始標(biāo)簽文檔22。此文檔由通過直接 或借助推理來應(yīng)用源自知識庫的規(guī)則而操作的規(guī)則應(yīng)用器23來處理, 但作為許可和解除許可規(guī)則集23而被存儲以供高效應(yīng)用。在應(yīng)用與 初始標(biāo)簽文檔22或輸出文檔24中的術(shù)語和標(biāo)簽有關(guān)的每條規(guī)則時(shí), 為了修改產(chǎn)生新版本文檔24的注解,標(biāo)簽完成分析器25確定其余規(guī) 則是否可用且是否應(yīng)該應(yīng)用。如果不是,則使當(dāng)前文檔24可用于進(jìn) 一步處理或存儲為最終標(biāo)簽文檔。 當(dāng)理解本發(fā)明的范圍時(shí),所述的要處理的文檔可以包括 但不限于口語、音頻或音樂、書面、會(huì)話、圖像、運(yùn)動(dòng)圖像、計(jì)算機(jī) 渲染圖形、信息圖形、或其任何組合,所述的注解處理可以用來降低 由文檔處理裝置的任何適當(dāng)集合所產(chǎn)生的所述文檔的特征的可能語 義解釋的任何集合內(nèi)的模糊度。例如,可以通過由語音識別系統(tǒng)進(jìn)行 記錄來對口語文檔進(jìn)行預(yù)處理,且結(jié)果得到的抄本被統(tǒng)計(jì)加權(quán)注解系 統(tǒng)自動(dòng)但含糊不清地加標(biāo)簽。
通常,以k階謂詞演算來表示知識庫中的事實(shí)和規(guī)則。 在一個(gè)實(shí)施例中,K = 1,且該表示是一階謂詞演算。在優(yōu)選實(shí)施例中, 謂詞演算可以被擴(kuò)展為支持模態(tài)邏輯。在另一優(yōu)選實(shí)施例中,以命題 邏輯來表示事實(shí)。在另一優(yōu)選實(shí)施例中,以概率邏輯來表示知識庫中 的事實(shí)和規(guī)則。在另一優(yōu)選實(shí)施例中,所述概率邏輯是一階概率謂詞 邏輯。在另一優(yōu)選實(shí)施例中,所述表示是馬爾可夫邏輯網(wǎng)絡(luò)。在另一 優(yōu)選實(shí)施例中,所述表示是提高的一階概率邏輯。在另一優(yōu)選實(shí)施例 中,所使用的表示是組合或多種邏輯或其它形式的表示,可能包括但 不限于前述事項(xiàng)。 某些許可規(guī)則可以部分地基于術(shù)語的精確語義解釋相 互、或與自然語言中的術(shù)語或短語、或與關(guān)于文檔的元數(shù)據(jù)同時(shí)出現(xiàn) 的頻率的統(tǒng)計(jì)分析,所述元數(shù)據(jù)諸如其文件類型、公布國家、在文件 系統(tǒng)內(nèi)的位置、作者、或其它類似數(shù)據(jù)。
1. 規(guī)則消歧義器的示例 在優(yōu)選實(shí)施例中,規(guī)則消歧義器將已用每個(gè)詞語的基本 上所有可能的意義對其詞語加標(biāo)簽的自然語言文檔轉(zhuǎn)換為只用適合 于上下文的意義對其詞語加標(biāo)簽的文檔。 為此,在祐:設(shè)計(jì)為改善標(biāo)簽系統(tǒng)的效率的一個(gè)實(shí)施例中, 可以在歧義消除期間查閱由根據(jù)更概括的規(guī)則的自動(dòng)推理而生成的 大型規(guī)則集,其允許(許可)或不允許(解除許可)給定文檔上下文 中的特定意義。只有當(dāng)?shù)玫揭?guī)則集許可時(shí),才為詞語保留意義;否則, 將其丟棄。
2. *見則
2.1規(guī)則格式和解釋 在上述規(guī)則系統(tǒng)的一個(gè)實(shí)施例中,每個(gè)規(guī)則具有形式 <sense〉 -〉 ((<sign> . <licensing sense>) ... (<sign> . <licensingsense〉》
其中〈sense〉是特定字義(例如Cyc術(shù)語),每個(gè)〈sign〉是+或-, 且每個(gè)〈licensing sense〉是邏l辱術(shù)i吾,i者》口 Cyc術(shù)i吾?!磗ense〉稱、為^見 則的才示題,且每個(gè)(<sign〉 .<licensing sense> ) 一爾為頭見則的條獸欠。 規(guī)則的每個(gè)條款支持〈sense^如果〈sign〉為+且在文檔中 的某處發(fā)現(xiàn)〈licensing sense〉)或阻止〈sense〉(如果〈sign〉為-且在文 檔中的某處發(fā)現(xiàn)〈icensingsense;^ 。整個(gè)規(guī)則的解釋參閱所有條款并 將其推薦組合以許可或解除規(guī)則的標(biāo)題。如果至少一個(gè)條款支持詞語
意義且沒有條款阻止該意義,則一個(gè)規(guī)則解釋將許可該意義,可以想 到其它實(shí)施方式。 作為本發(fā)明中所采用的意義歧義消除功能的本實(shí)施例的 才喿作示例,為了給具有兩種可能Cyc意義#$Bat-Mammal或 弁SBaseballBat的歧義名詞"bat"賦予正確的意義,可能寫出或經(jīng)由某 種形式的邏輯推理而生成兩條規(guī)則
#$Bat-Mammal -〉 ((+ . #$Cave) (+ . #$Bridge) (- . #$Baseball)…)
#$BaseballBat-〉((+ . #$BaseballInning) (+ . #SHittingAHomeRun)…)
闡明#$Cave和弁SBridge在文檔的其它位置的存在支持意義 #$Bat-Mammal, ^a#$Baseball的存在阻止該意義。
同樣,
2.2身見則生成 以上介紹的規(guī)則可以手動(dòng)地生成,但是大多是通過使用 所應(yīng)用的(元)規(guī)則的小集合,使用推理機(jī)來推理歧義消除規(guī)則而從 知識庫自動(dòng)生成。 例如,通過定義兩個(gè)二元CycL謂詞而4吏用Cyc KB和4, 理機(jī),例如(#$isLicensedBy <sense> <licensing sense〉)
(#$ isDelicensedBy <sense> <deliquescing sense>)
其直接對應(yīng)于在2.1中介紹的規(guī)則,可以直接斷言 #$isLicensedBy/#$isDelicensedBy 事實(shí),或?qū)懗鲈试S推理 存SisLicensedBy和存SisDelicensedBy事實(shí)的CycL規(guī)則。然后,將這些 規(guī)則 一 般地轉(zhuǎn)換為歧義消除規(guī)則格式。
例如,可以直接斷言諸如以下歧義消除事實(shí)
(#$isLicensedBy#$Bat-Mammal .#$Cave)
或?qū)懗霭ɡ缫韵聝?nèi)容的 一般CycL規(guī)則
(#$ implies
(#Sand
(#$isa CITY #$City)
(#$geographicalSubRegionsOfState STATE CITY))
(弁SisLicensedBy CITY STATE))
其允許系統(tǒng)推斷很大量的歧義消除規(guī)則,該歧義消除規(guī)則只有在 存在城市所在的州的情況下才許可特定的城市詞語意義。例如,用上 述CycL城市規(guī)則,系統(tǒng)可以推斷特定的歧義消除規(guī)則
(#$isLicensedBy #$Paris-Texas #$Texas-State)
只有當(dāng)在文檔中的其它位置處發(fā)現(xiàn)術(shù)語意義弁STexas-State時(shí),其 才將允許意義弁SParis-Texas。
3.歧義消除和擴(kuò)充算法的更多細(xì)節(jié) 在本發(fā)明的優(yōu)選實(shí)施例中,歧義消除算法部件在給定詞 語的詞性的情況下預(yù)期其詞語被用可能的意義加標(biāo)簽的文檔。 在第一遍中,其逐個(gè)詞語地遍歷文檔并將每個(gè)詞語的所 有意義聚集在一個(gè)意義集合中。在第二遍、即實(shí)際的歧義消除中,其
16查看每個(gè)詞語的每個(gè)意義,提取其標(biāo)題為該意義的歧義消除規(guī)則,并 應(yīng)用該規(guī)則的條款以及在第一遍中創(chuàng)建的意義集合以許可該意義或 對該意義解除許可。在第三遍中,其遍歷所確定的意義,并從詞語中 去除被解除許可的意義且保持經(jīng)許可的意義。 在歧義消除算法的才喿作之后,在擴(kuò)充的一遍中,系統(tǒng)遍 歷由歧義消除算法所確定的詞語和意義,對其擴(kuò)充包含或隱含在背景 KB中的知識,并可能基于該意義所關(guān)聯(lián)的程度來調(diào)整術(shù)語和意義相 關(guān)性權(quán)重。 因此,本發(fā)明包括用于通過生成已處理文本串的子串的 可能解釋的邏輯表示、將那些邏輯表示放置在知識庫中、從知識庫檢 索背景知識、并用來自知識庫的編碼知識擴(kuò)充文本串來使用基于邏輯 的表示中包含的背景知識擴(kuò)充文本串的表示的系統(tǒng)。 雖然已參考一個(gè)或多個(gè)實(shí)施例描述了本發(fā)明,但本領(lǐng)域 的技術(shù)人員應(yīng)認(rèn)識到,在不脫離本發(fā)明的精神和范圍的情況下可以對 其進(jìn)行許多修改。這些實(shí)施例中的每 一 個(gè)及其明顯變更被視為在本發(fā) 明的權(quán)利要求的精神和范圍,該精神和范圍在以下權(quán)利要求中闡述。
權(quán)利要求
1.一種用于排列搜索結(jié)果的方法,包括接收多個(gè)搜索術(shù)語;對于所述搜索術(shù)語中的每一個(gè),形成相對于本體的消歧義解釋;在所述搜索期間使用所述消歧義解釋來定義包括多個(gè)文檔的一組結(jié)果;以及依照所述多個(gè)文檔中的每一個(gè)與所述消歧義解釋在語義上連貫的程度來對所述多個(gè)文檔加權(quán)。
2. 權(quán)利要求1的方法,其中,所述消歧義解釋源自謂詞演算表示。
3. 權(quán)利要求1的方法,其中,所述消歧義解釋被存儲在知識庫中。
4. 權(quán)利要求3的方法,其中,使用基于概率謂詞演算的邏輯來表 示所述知識庫。
5. 權(quán)利要求4的方法,其中,所述概率謂詞演算是一階概率邏輯。
6. 權(quán)利要求5的方法,其中,所述概率邏輯是馬爾可夫邏輯。
7. 權(quán)利要求5的方法,其中,所述概率邏輯是提高一階謂詞演算。
8. 權(quán)利要求l的方法,其中,對所述多個(gè)文檔中的每一個(gè)擴(kuò)充所 述權(quán)重。
9. 權(quán)利要求1的方法,還包括向用戶顯示所述搜索術(shù)語中的至少 一個(gè)的所述消歧義解釋。
10. 權(quán)利要求9的方法,還包括接收取消選定所述消歧義解釋中 的一個(gè)或多個(gè)的用戶輸入。
11. 權(quán)利要求9的方法,其中,當(dāng)所述用戶將鼠標(biāo)移動(dòng)到所述搜 索術(shù)語中的所述至少一個(gè)上時(shí),執(zhí)行所述顯示步驟。
12. —種用于在語義上擴(kuò)充文本串的方法,包括 以電子方式分析包括多個(gè)文本串的第 一文檔; 對于所述多個(gè)文本串中的每一個(gè),識別對應(yīng)于該文本串的一組可能解釋的邏輯表示;將所述邏輯表示》文在知識庫內(nèi); 從知識庫檢索所述可能的解釋組;以及用對應(yīng)于所述可能解釋的一個(gè)或多個(gè)串?dāng)U充來擴(kuò)充所述文本串 中的每一個(gè)。
13. 權(quán)利要求12的方法,其中,使用謂詞演算來表示所述知識庫。
14. 權(quán)利要求12的方法,其中,所述對應(yīng)的串?dāng)U充源自謂詞演算 表示。
15. 權(quán)利要求2的方法,其中,使用基于概率謂詞演算的邏輯來 表示所述知識庫。
16. 權(quán)利要求15的方法,其中,所述概率謂詞演算是一階概率邏輯。
17. 權(quán)利要求16的方法,其中,所述概率邏輯是馬爾可夫邏輯。
18. 權(quán)利要求16的方法,其中,所述概率邏輯是提高一階謂詞演算。
19. 權(quán)利要求12的方法,還包括 接收搜索串;識別對應(yīng)于所述搜索串的第二邏輯表示; 將所述邏輯表示放在知識庫內(nèi); 從所述知識庫纟全索第二組可能解釋;以及用對應(yīng)于所述第二組可能解釋的一個(gè)或多個(gè)搜索串?dāng)U充來擴(kuò)充 所述第二搜索串。
20. 權(quán)利要求19的方法,其中,用至少部分地由所述串?dāng)U充與基 礎(chǔ)語義模型一致的程度所確定的檢索權(quán)重來擴(kuò)充所述第一文檔。
21. 權(quán)利要求20的方法,其中,至少部分地通過應(yīng)用用于將所述 背景知識與所述第 一 文檔的內(nèi)容組合的 一 組特定規(guī)則來確定所述檢 索權(quán)重。
22. 權(quán)利要求19的方法,其中,執(zhí)行所述擴(kuò)充步驟以加強(qiáng)信息檢索。
23. 權(quán)利要求12的方法,還包括向用戶顯示所述搜索串中的至少 一個(gè)的所述消歧義解釋。
24. 權(quán)利要求23的方法,其中,當(dāng)所述用戶將鼠標(biāo)移動(dòng)到所述搜 索串中的所述一個(gè)上時(shí),執(zhí)行所述顯示步驟。
25. 權(quán)利要求19的方法,還包括搜索包括所述第一文檔的數(shù)據(jù)庫 并利用所述串?dāng)U充來生成識別所述第一文檔的一組搜索結(jié)果。
26. 權(quán)利要求25的方法,其中,所述擴(kuò)充步驟包括自動(dòng)地生成包 含在所述背景語義模型中的相關(guān)信息的自然語言翻譯,并將這些自然 語言翻譯在線或作為元信息添加到查詢或內(nèi)容中。
27. 權(quán)利要求12的方法,還包括將排列加于所述第一文檔。
28. 權(quán)利要求19的方法,還包括檢索包含所述搜索串?dāng)U充中的至 少一個(gè)的多個(gè)文檔。
29. 權(quán)利要求19的方法,其中,基于由一個(gè)或多個(gè)用戶所執(zhí)行的 一系列搜索而以隨著時(shí)間的推移持久不變的查詢模型的形式來累積 所述查詢。
30. 權(quán)利要求12的方法,還包括在所述用戶使用所述第一文檔的 時(shí)間之前識別相關(guān)語義模型,并將所述相關(guān)語義模型存儲在所述知識 庫中。
31. 權(quán)利要求12的方法,其中,所述知識庫包括用來使^^莫型與所 述第一文檔相關(guān)聯(lián)的推導(dǎo)過程的描述。
32. 權(quán)利要求12的方法,還包括向用戶提供所述串?dāng)U充中的一個(gè) 或多個(gè)。
33. 權(quán)利要求32的方法,還包括基于來自用戶的輸入而選擇所述 串?dāng)U充之一。
34. 權(quán)利要求33的方法,其中,所述用戶的輸入至少部分地基于 由所述用戶操作的應(yīng)用程序。
35. 權(quán)利要求34的方法,還包括基于所述用戶的指令來修改所述 知識庫,從而影響文本串的表示。
36. ^L利要求12的方法,還包括在確定所述串?dāng)U充中的至少一個(gè) 相關(guān)時(shí),為第一文本串許可所述串?dāng)U充中的至少一個(gè)。
37. 權(quán)利要求12的方法,還包括在確定所述串?dāng)U充中的所述至少 一個(gè)不相關(guān)時(shí),為第一文本串解除許可所述串?dāng)U充中的至少一個(gè)。
38. —種支持信息搜索、信息提取和信息檢索的系統(tǒng),包括 多個(gè)計(jì)算設(shè)備;多個(gè)數(shù)據(jù)庫,其中每一個(gè)包括多個(gè)文檔,所述文檔包括多個(gè)文本串;知識數(shù)據(jù)庫,其經(jīng)由網(wǎng)絡(luò)而可通信地耦合到所述設(shè)備,所述知識 數(shù)據(jù)庫包括用于所述多個(gè)文本串中的每一個(gè)的一組語義表示;響應(yīng)于所述計(jì)算設(shè)備的搜索引擎,其適合于接收搜索串并利用所 述語義表示從所述多個(gè)數(shù)據(jù)庫上的全部所述多個(gè)文檔中識別文檔的 子集的,并依照所述搜索串與所述文檔子集中的每個(gè)文檔之間的相干程度來排列所述文檔子集。
39. 權(quán)利要求38的搜索系統(tǒng),其中,所述數(shù)據(jù)庫包括非文本信息。
40. 權(quán)利要求39的搜索系統(tǒng),其中,所述知識庫包括至少某些所 述非文本信息的語義表示。
41. 權(quán)利要求40的搜索系統(tǒng),其中,在識別所述文檔子集時(shí)使用 來自非文本源的所述語義表示。
42. 權(quán)利要求38的搜索系統(tǒng),其中,基于至少某些語義表示之間 的語義相干性的缺乏來對其解除許可。42. 權(quán)利要求38的搜索系統(tǒng),其中,基于至少某些語義表示之間 的語義相干程度來許可該語義表示。
43. 權(quán)利要求42的搜索系統(tǒng),其中,所述許可至少部分地基于與 所述語義表示相關(guān)的概念的統(tǒng)計(jì)分布。
44. 權(quán)利要求42的搜索系統(tǒng),其中,所述許可至少部分地基于一 組上下文信 息o
45. 權(quán)利要求41的搜索系統(tǒng),其中,所述解除許可至少部分地基 于一組上下文信息。
46. 權(quán)利要求38的搜索系統(tǒng),還包括使廣告與至少某些所述語義 表示匹配,并向所述計(jì)算設(shè)備中的至少一個(gè)的用戶顯示所述廣告。
全文摘要
本發(fā)明公開了一種用于生成文本的富含語義的表示以放大并加深文本的解釋的系統(tǒng)和方法。該方法依賴于這樣的事實(shí),即存在相當(dāng)數(shù)量的與大多數(shù)文本串相關(guān)聯(lián)的語義內(nèi)容,其在那些串中或僅僅在該串與其它串的統(tǒng)計(jì)共現(xiàn)中不明確,但其仍然與文本極其相關(guān)。此附加信息用于加深直接從文本串導(dǎo)出的表示,而且還用于對該表示擴(kuò)充該串中雖未明確提及、但在文本中是暗含的、且如果使其明確則可以用來支持文本處理應(yīng)用的性能的內(nèi)容,所述文本處理應(yīng)用包括文檔標(biāo)引和檢索、文檔分類、文檔傳閱、文檔綜述、以及文檔加標(biāo)簽。這些改進(jìn)還可以用來支持下游處理,諸如自動(dòng)文檔閱讀和理解、在線廣告設(shè)置、電子商務(wù)、企業(yè)知識管理、以及商業(yè)和政府智能應(yīng)用。
文檔編號G06F17/00GK101681348SQ200880012107
公開日2010年3月24日 申請日期2008年2月11日 優(yōu)先權(quán)日2007年2月15日
發(fā)明者B·P·羅德, B·阿爾達(dá), D·A·施奈德, M·J·維特布羅克 申請人:塞科普公司