專利名稱:一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及知識庫擴(kuò)展、網(wǎng)絡(luò)抓取、淺層語言處理技術(shù)(實(shí)體識別、分詞)、數(shù)值統(tǒng)計等技術(shù)領(lǐng)域,具體的說是一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,如何從海量的無結(jié)構(gòu)的數(shù)據(jù)里抽取出結(jié)構(gòu)化的數(shù)據(jù)成為當(dāng)前的研究熱點(diǎn),目前信息抽取的主要研究方向是命名實(shí)體識別、指代消解、實(shí)體關(guān)系抽取等,其中實(shí)體關(guān)系抽取是當(dāng)前的重要的研究內(nèi)容。而當(dāng)前實(shí)體關(guān)系抽取有基于知識工程的方法和基于機(jī)器學(xué)習(xí)的方法。但是基于知識工程的方法需要大量人力同時需要構(gòu)建專業(yè)知識,使得領(lǐng)域的可移植性差,而基于機(jī)器學(xué)習(xí)的方法需要使用大量深層語言處理技術(shù), 比如基于SVM方法在構(gòu)造特征向量時需要用到句法分析和語義分析、基于kernel的方法通過引入依存樹來構(gòu)建最短樹核、弱監(jiān)督的自舉方法需要詞法分析中的命名實(shí)體識別技術(shù)等,僅從抽取方法上改進(jìn)很難進(jìn)一步提高實(shí)體關(guān)系的效果,本發(fā)明提出了一種元組精化方法以提聞實(shí)體關(guān)系抽取的準(zhǔn)確率。
當(dāng)前實(shí)體關(guān)系抽取中元組精化方法集中在可信度評估,snowball方法在沒有人工干預(yù)的情況下評估模式和元組,僅僅保留最可信(超過閾值T)的模式和元組進(jìn)入下一輪迭代。但其可信度評估僅僅依賴關(guān)系的一個關(guān)鍵屬性擴(kuò)展性小。哈工大方法設(shè)計了元組的可信度自動評估方法,哈工大方法僅僅利用種子元組可信度來評估其它元組,并未考慮到元組和模式的多樣性,使得準(zhǔn)確率不高。本文提出了一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法,利用關(guān)系的多樣性和網(wǎng)絡(luò)信息的冗余性,根據(jù)實(shí)體和關(guān)鍵詞共現(xiàn)特征和就近原則從網(wǎng)絡(luò)中提取實(shí)體,從而對實(shí)體關(guān)系抽取中的元組進(jìn)行精化。此精化方法獨(dú)立于抽取方法,使得本發(fā)明的方法可移植性強(qiáng),且準(zhǔn)確率高。發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的是提供一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法。
根據(jù)本發(fā)明的關(guān)系關(guān)鍵詞擴(kuò)展,提供了一種基于知識庫擴(kuò)展的關(guān)系關(guān)鍵詞擴(kuò)展方法,利用關(guān)系的多樣性,利用《同義詞詞林?jǐn)U展版》將實(shí)體關(guān)系關(guān)鍵詞進(jìn)行初步擴(kuò)展,然后再手工去掉一些停用詞和錯誤詞,這樣擴(kuò)展后的詞語就能更好的表示關(guān)系的多樣性。
首先根據(jù)本發(fā)明的方法,需要用戶采取某種實(shí)體關(guān)系抽取方法(未經(jīng)精化)抽取元組,作為待評估元組。然后,利用待評估元組構(gòu)造初始元組,再利用實(shí)體和關(guān)鍵詞共現(xiàn)的特性,從網(wǎng)絡(luò)中就近抽取預(yù)先已定義類型的另一實(shí)體,從而達(dá)到元組精化的目的。
本方法中僅利用淺層語言處理技術(shù)(分詞、實(shí)體識別)等,避免了深層語言技術(shù)當(dāng)前無可避免的噪音問題。
根據(jù)本發(fā)明的一個方面,提供一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法,其特征在于,包括如下步驟a.擴(kuò)展待評估元組的關(guān)系關(guān)鍵詞;b.獲取與所述關(guān)系關(guān)鍵詞相適應(yīng)的共現(xiàn)句集合;c.根據(jù)所述共現(xiàn)句集合抽取候選實(shí)體集合;以及d.確定用于替換的實(shí)體,將所述替換實(shí)體作為所述待評估元組中的實(shí)體。
根據(jù)本發(fā)明的另一個方面,還提供一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法,其特征在于,包括如下步驟a.關(guān)系關(guān)鍵詞擴(kuò)展;b.抓取共現(xiàn)句集合;c.抽取候選實(shí)體集合; d.數(shù)值統(tǒng)計抽取實(shí)體。
優(yōu)選地,所述步驟a包括如下步驟al.構(gòu)建初始元組(el, k, r_type),利用某一實(shí)體關(guān)系抽取出待評估元組(el, e2, k, r_type),初始元組來源于待評估元組;a2.構(gòu)建關(guān)系擴(kuò)展表{ (k,ki)},利用關(guān)系的多樣性,首先用《同義詞詞林?jǐn)U展版》對關(guān)系關(guān)鍵詞進(jìn)行同義詞擴(kuò)展,再手工去掉一些停用詞和不常用詞;a3.構(gòu)建關(guān)系擴(kuò)展元組集合{ (el,ki,r_ type) },利用初始元組和關(guān)系關(guān)鍵詞擴(kuò)展表對關(guān)系關(guān)鍵詞進(jìn)行擴(kuò)展,構(gòu)成關(guān)系關(guān)鍵詞擴(kuò)展后的元組集合。
優(yōu)選地,所述步驟通過構(gòu)建實(shí)體一與關(guān)系關(guān)鍵詞共現(xiàn)的句子集合SS,利用網(wǎng)絡(luò)信息的冗余性,抽取關(guān)系擴(kuò)展元組集合中的實(shí)體一和關(guān)系關(guān)鍵詞共現(xiàn)的句子集合。
優(yōu)選地,所述步驟c包括如下步驟cl.對共現(xiàn)句集合SS進(jìn)行實(shí)體識別和分詞等淺層語言處理;c2.利用就近原則和預(yù)先定義的實(shí)體類型從共現(xiàn)句集合中抽取候選實(shí)體集口 ο
優(yōu)選地,所述步驟d利用數(shù)值統(tǒng)計從候選實(shí)體集合中抽取統(tǒng)計值最高的詞作為實(shí)體二。
本發(fā)明公開了一種基于實(shí)體關(guān)鍵詞擴(kuò)展的元組精化方法,不需要深層語言處理技術(shù),也不需要依賴實(shí)體關(guān)系抽取方法。當(dāng)用戶通過實(shí)體關(guān)系抽取方法抽出實(shí)體后(未經(jīng)精化),利用關(guān)系關(guān)鍵詞擴(kuò)展技術(shù)對實(shí)體關(guān)系關(guān)鍵詞進(jìn)行擴(kuò)展,再利用網(wǎng)絡(luò)信息的冗余性,利用實(shí)體和關(guān)鍵詞共現(xiàn)特征從共現(xiàn)句集合中就近抽取出候選實(shí)體,取候選實(shí)體集中統(tǒng)計值最優(yōu)的詞作為實(shí)體,從而對元組進(jìn)行精化。針對當(dāng)前實(shí)體關(guān)系抽取準(zhǔn)確率低,使用本方法可避免深層語言處理帶來的噪音,同時盡量獨(dú)立于實(shí)體關(guān)系抽取方法且獨(dú)立于抽取過程,期待能提聞實(shí)體關(guān)系抽取的效果。
通過閱讀參照以下附圖對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、 目的和優(yōu)點(diǎn)將會變得更明顯
圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法的流程圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法擴(kuò)展關(guān)系關(guān)鍵詞的流程圖3示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法根據(jù)擴(kuò)展關(guān)系關(guān)鍵詞替換元組實(shí)體的流程圖;以及
圖4示出根據(jù)本發(fā)明的一個具體實(shí)施方式
的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法的流程圖。
具體實(shí)施方式
本發(fā)明公開了一種基于實(shí)體關(guān)鍵詞擴(kuò)展的元組精化方法,不需要深層語言處理技術(shù),也不需要依賴實(shí)體關(guān)系抽取方法。
當(dāng)用戶通過實(shí)體關(guān)系抽取方法抽出實(shí)體后(未經(jīng)精化),利用關(guān)系關(guān)鍵詞擴(kuò)展技術(shù)對實(shí)體關(guān)系關(guān)鍵詞進(jìn)行擴(kuò)展,再利用網(wǎng)絡(luò)信息的冗余性,利用實(shí)體和關(guān)鍵詞共現(xiàn)特征從共現(xiàn)句集合中就近抽取出候選實(shí)體,取候選實(shí)體集中統(tǒng)計值最優(yōu)的詞作為實(shí)體,從而對元組進(jìn)行精化。
針對當(dāng)前實(shí)體關(guān)系抽取準(zhǔn)確率低,使用本方法可避免深層語言處理帶來的噪音, 同時盡量獨(dú)立于實(shí)體關(guān)系抽取方法且獨(dú)立于抽取過程,提高實(shí)體關(guān)系抽取的效果。
本方法包含了一種關(guān)系關(guān)鍵詞擴(kuò)展的方法。該方法結(jié)合了基于知識工程的自動擴(kuò)展和手工擴(kuò)展方法,充分利用了關(guān)系的多樣性。
本方法也利用了網(wǎng)絡(luò)信息的冗余性,通過實(shí)體和關(guān)系關(guān)鍵詞共現(xiàn)特征,從網(wǎng)絡(luò)中提取共現(xiàn)句集合,通過淺層語言處理技術(shù)就近提取實(shí)體,最后取統(tǒng)計值最優(yōu)的詞作為實(shí)體, 從而對待評估元組進(jìn)行精化。
本方法利用關(guān)系多樣性和網(wǎng)絡(luò)信息冗余性,實(shí)現(xiàn)了一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法,避免使用深層語言處理技術(shù),采用數(shù)值統(tǒng)計的方法就近抽取實(shí)體。本方法獨(dú)立于實(shí)體關(guān)系抽取方法,避免使用深層語言處理技術(shù)。使得實(shí)體關(guān)系抽取可移植性好抽取效果好。
通過閱讀參照以下附圖對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、 目的和優(yōu)點(diǎn)將會變得更明顯
圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法的流程圖。具體地,本領(lǐng)域技術(shù)人員理解,本發(fā)明提供的基于關(guān)系關(guān)鍵詞擴(kuò)展的方法適用于關(guān)系詞明確的實(shí)體關(guān)系抽取方法中。例如StatSnowbalI種子元祖由(el,e2, k)組成,其中el代表實(shí)體一,e2代表實(shí)體二,k代表關(guān)系詞。則可利用關(guān)系關(guān)鍵詞擴(kuò)展對StatSnowball方法進(jìn)行元祖精化。更具體地,圖I示出了四個步驟。首先是步驟S201,擴(kuò)展待評估元組的關(guān)系關(guān)鍵詞。然后是步驟S202獲取與所述關(guān)系關(guān)鍵詞相適應(yīng)的共現(xiàn)句集合。步驟S203根據(jù)所述共現(xiàn)句集合抽取候選實(shí)體集合。最后執(zhí)行步驟S204 確定用于替換的實(shí)體,將所述替換實(shí)體作為所述待評估元組中的實(shí)體。本領(lǐng)域技術(shù)人員理解,所述待評估元組至少包括實(shí)體一,實(shí)體二,待評估關(guān)系關(guān)鍵詞以及待評估關(guān)系類型。本發(fā)明對所述待評估元組中的關(guān)系關(guān)鍵詞進(jìn)行同義詞擴(kuò)展,并進(jìn)一步獲取與所述待評估元組中某一實(shí)體具有類似關(guān)系的,出現(xiàn)頻率最高的實(shí)體以對待評估元組進(jìn)行精化,使得最后確定的用于替換的實(shí)體比原實(shí)體更加適用于原關(guān)系關(guān)鍵詞。本發(fā)明基于上述四個步驟針對當(dāng)前實(shí)體關(guān)系抽取準(zhǔn)確率低,可避免深層語言處理帶來的噪音,同時盡量獨(dú)立于實(shí)體關(guān)系抽取方法且獨(dú)立于抽取過程,提高實(shí)體關(guān)系抽取的效果。
圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法擴(kuò)展關(guān)系關(guān)鍵詞的流程圖。具體地,本圖示出了五個步驟。 首先是步驟S301獲取待評估元組。然后是步驟S302根據(jù)待評估元組生成初始元組。步驟 S303將所述初始關(guān)系關(guān)鍵詞進(jìn)行同義詞擴(kuò)展。步驟S304去除停用詞和不常用詞。最后為步驟S305生成擴(kuò)展后的關(guān)系關(guān)鍵詞集合。具體地,本領(lǐng)域技術(shù)人員理解,所述待評估元組至少包括實(shí)體一,實(shí)體二,待評估關(guān)系關(guān)鍵詞以及待評估關(guān)系類型。所述初始元組包括初始實(shí)體,初始關(guān)系關(guān)鍵詞以及初始關(guān)系類型。其中,所述初始實(shí)體從所述實(shí)體一、實(shí)體二中選擇,所述初始關(guān)系關(guān)鍵詞與待評估關(guān)系關(guān)鍵詞相同,所述初始關(guān)系類型與所述待評估關(guān)系類型相同。當(dāng)所述初始實(shí)體任取所述待評估元組中所述實(shí)體一以及實(shí)體二中任意一個實(shí)體時,需要注意的是實(shí)體關(guān)系類型的變化。例如(奧巴馬,美國,總統(tǒng)),如果取(奧妾(巴)馬, 總統(tǒng))則實(shí)體關(guān)系類型為“人物與國家”,如果取(美國,總統(tǒng)),則實(shí)體關(guān)系類型為“國家與人物”。更進(jìn)一步地,本領(lǐng)域技術(shù)人員理解,所述關(guān)系關(guān)鍵詞優(yōu)選地,根據(jù)《同義詞詞林?jǐn)U展版》進(jìn)行擴(kuò)展。由于《同義詞詞林》著作時間較為久遠(yuǎn),且之后沒有更新,所以原書中的某些詞語成為生僻詞,而很多新詞又沒有加入。有鑒于此,哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗室利用眾多詞語相關(guān)資源,并投入大量的人力和物力,完成了一部具有漢語大詞表的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》。擴(kuò)展版剔除了原版中的14,706個罕用詞和非常用詞,最終的詞表包含77,343條詞語。擴(kuò)展后的《同義詞詞林》,含有比較豐富的語義信息。但是目前由于種種原因,《同義詞詞林》完整版并沒有共享,而只是共享了其中的詞典文件。期待著哈工大信息檢索實(shí)驗室能夠在不久的將來能夠?qū)⑼暾孢M(jìn)行共享,以滿足研究和實(shí)際應(yīng)用的需要。所述關(guān)系關(guān)鍵詞基于所述《同義詞詞林?jǐn)U展版》擴(kuò)展后生成關(guān)系關(guān)鍵詞集合,本發(fā)明提供的基于關(guān)系關(guān)鍵詞擴(kuò)展的兀組精化的方法根據(jù)生成的關(guān)系關(guān)鍵詞集合以及初始兀組中的實(shí)體對待評估元組進(jìn)行精化。
圖3示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法根據(jù)擴(kuò)展關(guān)系關(guān)鍵詞替換元組實(shí)體的流程圖。首先是步驟 S401獲取所述初始實(shí)體與所述關(guān)系關(guān)鍵詞集合中每一個關(guān)系關(guān)鍵詞的所述共現(xiàn)句集合。之后為步驟S402對所述共現(xiàn)句集合中每一個共現(xiàn)句進(jìn)行實(shí)體識別以及分詞處理。分詞處理完畢后,執(zhí)行步驟S403提取所述共現(xiàn)句集合中與所述初始實(shí)體以及所述擴(kuò)展后的關(guān)系關(guān)鍵詞最近的實(shí)體。步驟S404根據(jù)預(yù)先定義的實(shí)體類型抽取候選實(shí)體集合。上述步驟S402 至步驟S404基于就近原則完成候選實(shí)體集合的抽取。具體地,本領(lǐng)域技術(shù)人員理解,所述預(yù)先定義的實(shí)體類型是根據(jù)待評估元組中的關(guān)系類型推理出來的。例如所述關(guān)系類型為 “人物與國家”,則實(shí)體一表示是人物類型,實(shí)體二表示是國家類型。所述初始元組選擇了實(shí)體一,則“國家"類型即是預(yù)定義的要提取的實(shí)體類型。之后執(zhí)行步驟S405,記錄所述候選實(shí)體集合中每一個實(shí)體的頻數(shù)。步驟S406將所述頻數(shù)最高的候選實(shí)體以及所述初始實(shí)體作為待評估實(shí)體中的實(shí)體一以及實(shí)體二。最后執(zhí)行步驟S407,將替換后的待評估元組作為精化后的元組。上述步驟S405至步驟S407確定替換的實(shí)體,并將該實(shí)體替換并未被選作初始實(shí)體的所述待評估元組中的實(shí)體,生成精化的元組。
更進(jìn)一步地,本領(lǐng)域技術(shù)人員理解,所述共現(xiàn)句集合優(yōu)選地,通過如下步驟進(jìn)行抽取,首先,將所述初始實(shí)體與所述關(guān)系關(guān)鍵詞集合中每一個關(guān)系關(guān)鍵詞作為搜索關(guān)鍵詞輸入搜索引擎,并根據(jù)所述搜索結(jié)果各項標(biāo)題和摘要獲取共現(xiàn)句集合。在本實(shí)施例的一個變化例中,所述共現(xiàn)句集合通過如下步驟進(jìn)行抽取,將所述初始實(shí)體與所述關(guān)系關(guān)鍵詞集合中每一個關(guān)系關(guān)鍵詞作為關(guān)鍵詞輸入語料庫,并根據(jù)所述語料庫搜索結(jié)果獲取共現(xiàn)句集入口 ο
本方法需要采用一種實(shí)體關(guān)系抽取方法抽取待評估元組,下面以哈工大抽取方法為例,結(jié)合附圖對本發(fā)明做進(jìn)一步說明。
圖4為本發(fā)明的流程圖。具體地,在圖4示出的實(shí)施例中,利用關(guān)系擴(kuò)展表對實(shí)體CN 102982063 A書明說5/5頁
關(guān)系進(jìn)行擴(kuò)展,利用實(shí)體和關(guān)鍵詞共現(xiàn)特性,從網(wǎng)絡(luò)中抽取大量實(shí)體關(guān)系句,利用淺層語言處理技術(shù)對共現(xiàn)句進(jìn)行處理,利用就近原則從中提取出符合預(yù)先定義實(shí)體類型的詞作為候選實(shí)體,再取最大統(tǒng)計詞作為實(shí)體,從而對待評估元組進(jìn)行精化。
具體的方法流程圖如下
I.利用哈工大實(shí)體關(guān)系抽取方法抽取待評估元組(el,e2, k, r_type),其中el代表實(shí)體一,e2代表實(shí)體二,k代表關(guān)系關(guān)鍵詞,r_type代表關(guān)系類型。再根據(jù)待評估元組構(gòu)造初始元組(el, k, r_type).其中,el, k, r_type來源于待評估元組。
2.構(gòu)建關(guān)系擴(kuò)展表,首先利用《同義詞詞林?jǐn)U展版》對關(guān)系關(guān)鍵詞k進(jìn)行同義詞擴(kuò)展,然后再手工去掉一些停用詞和不常用詞,擴(kuò)展后的關(guān)系擴(kuò)展表為 KeywordsList{(k, ki)}.
3.構(gòu)建關(guān)系關(guān)鍵詞擴(kuò)展元組集合,利用關(guān)系擴(kuò)展表對關(guān)系進(jìn)行擴(kuò)展,從而將初始元組擴(kuò)展成為一個關(guān)系擴(kuò)展的元組集合{(el, ki, r_type)}.
4.抽取實(shí)體與擴(kuò)展后的關(guān)系關(guān)鍵詞共現(xiàn)的句子集合SS { (el,ki)}·
5.從共現(xiàn)句集合中抽取候選實(shí)體集合。利用淺層語言技術(shù),對共現(xiàn)句集合進(jìn)行實(shí)體識別和分詞等處理,應(yīng)用就近原則和預(yù)先定義的實(shí)體類型抽取候選實(shí)體結(jié)合。
6.從候選實(shí)體集合中取統(tǒng)計值最高的詞作為實(shí)體二。
本發(fā)明公開了一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法,其通過對實(shí)體關(guān)系抽取的結(jié)果做進(jìn)一步精化以提高實(shí)體關(guān)系抽取的效果,本發(fā)明中的方法完全獨(dú)立于任何實(shí)體關(guān)系抽取方法,也適用于自舉方法任一輪迭代后,而且本方法僅使用淺層語言處理技術(shù),避免了深層語言當(dāng)前無法控制的噪音問題。本發(fā)明公開的方法包含一種基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化方法,其中關(guān)系關(guān)鍵詞擴(kuò)展,通過利用實(shí)體關(guān)系的多樣性,提出了一種基于知識庫自動擴(kuò)展結(jié)合手工擴(kuò)展方法,本發(fā)明利用實(shí)體和關(guān)系關(guān)鍵詞共現(xiàn)特性,從共現(xiàn)句中就近抽取預(yù)定定義類型的詞作為候選實(shí)體,最后利用數(shù)值統(tǒng)計從候選實(shí)體中取最優(yōu)值作為實(shí)體。 本發(fā)明充分利用網(wǎng)絡(luò)信息的冗余性和實(shí)體關(guān)系的多樣性,對實(shí)體關(guān)系抽取的結(jié)果做進(jìn)一步精化,提高實(shí)體關(guān)系抽取的效果。
以上對本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。8
權(quán)利要求
1.ー種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法,其特征在于,包括如下步驟 a.擴(kuò)展待評估兀組的關(guān)系關(guān)鍵詞; b.獲取與所述關(guān)系關(guān)鍵詞相適應(yīng)的共現(xiàn)句集合; c.根據(jù)所述共現(xiàn)句集合抽取候選實(shí)體集合;以及 d.確定用于替換的實(shí)體,將所述替換實(shí)體作為所述待評估元組中的實(shí)體。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟a還包括如下步驟 al.獲取待評估元組; a2.根據(jù)待評估元組生成初始元組。
3.根據(jù)權(quán)利要求I或2所述的控制方法,所述待評估元組至少包括實(shí)體一,實(shí)體ニ,待評估關(guān)系關(guān)鍵詞以及待評估關(guān)系類型。
4.根據(jù)權(quán)利要求I至3任一項所述的控制方法,所述初始元組包括初始實(shí)體,初始關(guān)系關(guān)鍵詞以及初始關(guān)系類型。
5.根據(jù)權(quán)利要求I至4任一項所述的控制方法,所述初始實(shí)體從所述實(shí)體一、實(shí)體ニ中選擇,所述初始關(guān)系關(guān)鍵詞與待評估關(guān)系關(guān)鍵詞相同,所述初始關(guān)系類型與所述待評估關(guān)系類型相同。
6.根據(jù)權(quán)利要求I至5任一項所述的控制方法,其特征在于,所述步驟a2之后還包括如下步驟 a3.將所述初始關(guān)系關(guān)鍵詞進(jìn)行同義詞擴(kuò)展; a4.去除停用詞和不常用詞;以及 a5.生成擴(kuò)展后的關(guān)系關(guān)鍵詞集合。
7.根據(jù)權(quán)利要求I至6任一項所述的控制方法,其特征在于,所述步驟b包括 bl.獲取所述初始實(shí)體與所述關(guān)系關(guān)鍵詞集合中每ー個關(guān)系關(guān)鍵詞的所述共現(xiàn)句集ロ ο
8.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,獲取所述步驟bl包括如下步驟 bll.將所述初始實(shí)體與所述關(guān)系關(guān)鍵詞集合中每ー個關(guān)系關(guān)鍵詞作為搜索關(guān)鍵詞輸入搜索引擎;以及 bl2.根據(jù)所述捜索結(jié)果各項標(biāo)題和摘要獲取共現(xiàn)句集合。
9.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,獲取所述步驟bl包括如下步驟 bll'.將所述初始實(shí)體與所述關(guān)系關(guān)鍵詞集合中每ー個關(guān)系關(guān)鍵詞作為關(guān)鍵詞輸入語料庫;以及 bl2".根據(jù)所述語料庫捜索結(jié)果獲取共現(xiàn)句集合。
10.根據(jù)權(quán)利要求I至7任一項所述的控制方法,其特征在于,所述步驟C包括 Cl.對所述共現(xiàn)句集合中每ー個共現(xiàn)句進(jìn)行實(shí)體識別以及分詞處理; c2.提取所述共現(xiàn)句集合中與所述初始實(shí)體以及所述擴(kuò)展后的關(guān)系關(guān)鍵詞左右兩邊取最近的ー個詞,中間部分取全部的實(shí)體詞;以及 c3.根據(jù)預(yù)先定義的實(shí)體類型抽取候選實(shí)體集合。
11.根據(jù)權(quán)利要求8所述的控制方法,其特征在于,所述預(yù)先定義的實(shí)體類型根據(jù)所述待評估關(guān)系類型由初始實(shí)體確定。
12.根據(jù)權(quán)利要求I至9任一項所述的控制方法,其特征在于,所述步驟d包括 dl.記錄所述候選實(shí)體集合中姆ー個實(shí)體的頻數(shù); d2.將所述頻數(shù)最高的候選實(shí)體以及所述初始實(shí)體作為待評估實(shí)體中的實(shí)體ー以及實(shí)體ニ;以及 d3.將替換后的待評估元組作為精化后的元組。
全文摘要
本發(fā)明提供一種在自然語言處理系統(tǒng)中基于關(guān)系關(guān)鍵詞擴(kuò)展的元組精化的控制方法,其特征在于,包括如下步驟a.擴(kuò)展待評估元組的關(guān)系關(guān)鍵詞;b.獲取與所述關(guān)系關(guān)鍵詞相適應(yīng)的共現(xiàn)句集合;c.根據(jù)所述共現(xiàn)句集合抽取候選實(shí)體集合;以及d.確定用于替換的實(shí)體,將所述替換實(shí)體作為所述待評估元組中的實(shí)體。本發(fā)明中的方法完全獨(dú)立于任何實(shí)體關(guān)系抽取方法,也適用于自舉方法任一輪迭代后,而且本方法僅使用淺層語言處理技術(shù),避免了深層語言當(dāng)前無法控制的噪音問題。
文檔編號G06F17/30GK102982063SQ20121034975
公開日2013年3月20日 申請日期2012年9月18日 優(yōu)先權(quán)日2012年9月18日
發(fā)明者楊小玲, 楊靜 申請人:華東師范大學(xué)