文本數(shù)據(jù)高效搜索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理,特別涉及一種文本數(shù)據(jù)高效搜索方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,當(dāng)今社會已進(jìn)入信息時(shí)代,尤其是當(dāng)前金融領(lǐng)域大 數(shù)據(jù)背景下網(wǎng)絡(luò)文本信息文檔的數(shù)量越來越龐大。網(wǎng)絡(luò)信息文本文檔隨之呈現(xiàn)出更加復(fù)雜 的特性,暴露出一些亟待解決的問題。然而,傳統(tǒng)金融領(lǐng)域搜索引擎面對文本字符串匹配的 語法層面,缺乏針對信息表示及處理和理解的語義級分析,即信息是豐富的,而知識卻是貧 乏的,所以依賴傳統(tǒng)的數(shù)據(jù)檢索方式已很難滿足越來越高的金融類用戶的需求。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種文本數(shù)據(jù)高效搜索方法, 包括:
[0004] 對實(shí)體進(jìn)行概念描述,構(gòu)建實(shí)體知識庫;
[0005] 基于所述知識庫對文本文檔進(jìn)行語義分析;
[0006] 計(jì)算用戶檢索詞與實(shí)體概念的相似值,以及
[0007] 基于所計(jì)算的相似值對檢索結(jié)果進(jìn)行排序并返回給用戶。
[0008] 優(yōu)選地,所述對文本文檔進(jìn)行語義分析,包括對文檔的語義進(jìn)行標(biāo)記,并提取文檔 特征和進(jìn)行文本映射,從實(shí)體詞匯中獲取實(shí)體概念,建立文檔的語義特征域,完成文檔庫文 檔的自動(dòng)標(biāo)記,并標(biāo)記和索引文檔的非語義特征,由此生成文檔索引庫和元數(shù)據(jù)庫,其中基 于文檔標(biāo)記信息構(gòu)建索引庫,以索引庫為依據(jù)檢索出滿足用戶需求的文檔信息;
[0009] 所述基于相似值對檢索結(jié)果進(jìn)行排序,包括以實(shí)體生成的實(shí)體詞庫為依據(jù),執(zhí)行 用戶檢索輸入文字的分詞過程,將用戶檢索分成實(shí)體概念集合和非實(shí)體概念集合;然后分 別對這兩個(gè)集合按相似值拓展,得到兩個(gè)檢索候選集合,獲得排序后的檢索集合,最后將檢 索結(jié)果按檢索請求的相似值排序后,將結(jié)果推送給用戶。
[0010] 優(yōu)選地,所述文本映射包括以下步驟:
[0011] 首先將實(shí)體概念描述為F= (U,T,J,Y),其中U=K,u2,...,U|u|}表示使用詞語 管理文本文檔的用戶,并且每個(gè)用戶有唯一的ID號標(biāo)識;T= {ti,t2,. . .,t|T|}表示集合中 用戶使用過的詞語,該詞語為任意的字符串,J= {^,込...,1|;|}表示所有領(lǐng)域相關(guān)文本 文檔,其內(nèi)容取決于用戶標(biāo)記集合的類型,用戶標(biāo)記集合由用戶、詞語、文檔三個(gè)要素組成, 即用(U,T,J)進(jìn)行描述;YgLXTXj表示三元關(guān)系,其中(u,t,i)元素描述用戶使用詞語 t標(biāo)記收藏的文本文檔i;F(u,i) ={teT| (u,t,i)eY}描述用戶使用一組詞語定義一個(gè) 文本文檔,其中ueU,ieJ;用二元組構(gòu)建主實(shí)體B0 = (C,R),其中C= {Cl,c2,...,Cw} 表示概念集合,所述概念表示為c= (id,syn,phase,kind),id是概念的唯一標(biāo)識,syn是 同義詞集合,phase是描述概念的短語,kind是將概念所分類的詞類;R= {η,r2,. . .,r|R|} 表示概念集合之間的關(guān)系;現(xiàn)定義為一組同義詞集合S,每個(gè)文本文檔weS用二元組表示 為:(w,fq。)),其中,fq。(w)為文本文檔w的出現(xiàn)頻率;
[0012] 在文本映射階段,利用以下文本映射方法之一:
[0013] 直接映射,即將每個(gè)詞語映射到實(shí)體中的概念,表示為TC:對于所有teT,有 T- 2%其中,概念集合中C的每個(gè)t都是同義詞集合syn中的一個(gè)資源,描述詞語到概念 的直接映射;
[0014] 部分映射,即當(dāng)詞語不能直接映射時(shí),從開始到結(jié)束的時(shí)間,將短語逐步縮短成一 個(gè)詞;基于語法從短語的左邊開始嘗試在哪個(gè)階段可以映射縮短短語,然后從右邊進(jìn)行完 善修改;
[0015] 文檔映射,即首先設(shè)置用于描述詞語和概念之間映射強(qiáng)度的矩陣DC:[Ut山Xn, 其中,m= |T|即詞語數(shù)量,n= |C|即概念數(shù)量;在映射過程中產(chǎn)生初始矩陣,初始矩陣的 映射強(qiáng)度是相關(guān)聯(lián)的syn文檔詞頻:
[0016]
[0017] 映射結(jié)束后,初始矩陣DC的值表示詞庫中tjPcj的映射強(qiáng)度。
[0018] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
[0019] 本發(fā)明提出了一種文本數(shù)據(jù)高效搜索方法,彌補(bǔ)傳統(tǒng)數(shù)據(jù)檢索的不足,從信息查 全率和查準(zhǔn)率方面改善數(shù)據(jù)檢索的效率。
【附圖說明】
[0020] 圖1是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)高效搜索方法的流程圖。
【具體實(shí)施方式】
[0021] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán) 利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié) 以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無這些具體細(xì)節(jié)中 的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
[0022] 本發(fā)明的一方面提供了一種文本數(shù)據(jù)高效搜索方法。圖1是根據(jù)本發(fā)明實(shí)施例的 文本數(shù)據(jù)高效搜索方法流程圖。本發(fā)明利用實(shí)體建立詞語之間的語義關(guān)系,實(shí)現(xiàn)語義檢索, 通過語義中豐富的描述能力和強(qiáng)大的邏輯推理能力準(zhǔn)確描述信息文本文檔,構(gòu)建一種能夠 實(shí)現(xiàn)語義級分析的檢索方法。語義檢索與傳統(tǒng)基于關(guān)鍵字匹配的檢索方式不同,因?yàn)檎Z義 檢索基于信息理解的語義級對信息文本文檔及用戶提交的檢索請求進(jìn)行分析,語義檢索方 式對檢索條件、信息組織以及檢索結(jié)果均賦予了語義成分,可提高檢索精度。
[0023] 基于實(shí)體的語義數(shù)據(jù)檢索,在于使文檔進(jìn)行語義描述,借助實(shí)體知識庫完成對文 檔對象的語義標(biāo)記,進(jìn)而分析出文檔對象的語義理解,及其用戶檢索詞的語義信息,同時(shí)可 實(shí)現(xiàn)實(shí)體檢索詞的語義拓展,最終完成理想檢索結(jié)果的獲取,具體檢索過程為:
[0024] 步驟1 :構(gòu)建并描述實(shí)體概念。描述實(shí)體概念,構(gòu)建實(shí)體知識庫。
[0025] 步驟2 :提取文檔的特征并進(jìn)行文本映射。借助實(shí)體概念描述及知識庫構(gòu)建和管 理,對獲取的文檔進(jìn)行語義標(biāo)記及文本映射,對文檔語義含義進(jìn)行分析。
[0026] 步驟3 :制定實(shí)體概念拓展及檢索語義拓展策略。在實(shí)體概念描述的基礎(chǔ)上,對用 戶檢索請求的語義信息進(jìn)行分析,并對用戶檢索詞進(jìn)行語義拓展,檢索系統(tǒng)完成對生成的 備選檢索詞集的檢索過程。
[0027] 步驟4 :進(jìn)行實(shí)體概念相似值計(jì)算。依賴實(shí)體概念結(jié)構(gòu)圖,執(zhí)行實(shí)體概念語義距離 計(jì)算、實(shí)體概念結(jié)點(diǎn)深度計(jì)算及語義總體相似值計(jì)算,以此服務(wù)于檢索結(jié)果排序過程。
[0028] 步驟5 :對檢索系統(tǒng)的檢索結(jié)果進(jìn)行排序?;陉P(guān)聯(lián)相似值計(jì)算規(guī)則,完成用戶原 始檢索詞及檢索系統(tǒng)返回檢索結(jié)果的相似值比較,基于相似值對檢索系統(tǒng)的檢索結(jié)果進(jìn)行 排序并反饋給用戶。
[0029] 其中,實(shí)體及其分類體系作為數(shù)據(jù)文本文檔語義表征的核心,可對文檔描述給予 指導(dǎo)。領(lǐng)域知識也作為檢索拓展和檢索結(jié)果排序的基本依據(jù)。因此,領(lǐng)域知識的構(gòu)建和維 護(hù),如推理規(guī)則的構(gòu)建和維護(hù),離不開領(lǐng)域知識管理。文檔的語義可通過標(biāo)記進(jìn)行語義分 析,再借助文檔特征提取技術(shù),從實(shí)體詞匯中獲取實(shí)體概念,建立文檔的語義特征域,完成 文檔庫文檔的自動(dòng)標(biāo)記,并完成標(biāo)記和索引文檔的非語義特征,由此生成文檔索引庫和元 數(shù)據(jù)庫?;谖臋n標(biāo)記信息構(gòu)建索引庫,以此為依據(jù),檢索出能滿足用戶需求的文檔信息。 實(shí)現(xiàn)檢索拓展及結(jié)果排序,就是以實(shí)體生成的實(shí)體詞庫為依據(jù),完成用戶檢索輸入文字的 分詞工作,將用戶檢索分成實(shí)體概念集合和非實(shí)體概念集合。然后,分別對這兩個(gè)集合按 相似值拓展,得到兩個(gè)檢索候選集合,借助關(guān)聯(lián)相似值排序算法獲得排序后的檢索集合,最 后,完成檢索請求到索引庫及檢索庫的提交環(huán)節(jié),將檢索結(jié)果按檢索請求的相似值排序后, 將結(jié)果推送給用戶。
[0030] 本發(fā)明將實(shí)體概念描述為:F= (U,T,J,Y),其中,U= {Ul,u2, . . .,U|u|}表 示用戶,描述使用詞語管理文本文檔的用戶,并且每個(gè)用戶有唯一的ID號標(biāo)識。T= ΙΛ,t2, . . .,t|T|}表示詞語,描述集合中用戶使用過的詞語,詞語可以是任意的字符串(單 詞或短語),現(xiàn)將詞語表示為一組詞語序列,t={termuterm2,. . .,termj,teT,上述公 式描述詞語并映射成一組術(shù)語,術(shù)語可以是任意單詞。J=ΙΛ,i2,. . .,表示文本文檔, 描述所有領(lǐng)域相關(guān)文檔,其內(nèi)容取決于用戶標(biāo)記集合的類型,用戶標(biāo)記集合由用戶、詞語、 文檔三個(gè)要素組成,即用(U,T,J)進(jìn)行描述。YdIXTXJ表示三元關(guān)系,其中(u,t,i)元 素描述用戶使用詞語t標(biāo)記收藏的文本文檔i。F(u,i) = {teT|(u,t,i)eY}描述用戶 使用一組詞語定義一個(gè)文本文檔,其中ueU,ieJ。
[0031] 為了理解用戶詞語含義及詞語之間的關(guān)系,構(gòu)建主實(shí)體,用二元組進(jìn)行描述:B0 =(C,R),其中C= {ο。c2,. . .,Cw}表示概念集合,概念表示為c= (id,syn,phase,kind), id是概念的唯一標(biāo)識,syn是同義詞集合,包含了概念的同義術(shù)語集合,phase是描述概念 的短語,kind是將概念所分類的詞類;R= {Γι,r2,. . .,r|R|}表示概念集合之間的關(guān)系?,F(xiàn) 定義為一組同義詞集合S,文本文檔weS,每個(gè)文本文檔w用二元組表示為:(w,fq。)),其 中,fqjw)為文本文檔w的出現(xiàn)頻率。
[0032] -個(gè)詞語可以映射成一個(gè)或多個(gè)概念,也有可能只有部分詞語可以映射成一個(gè)或 多個(gè)概念,本發(fā)明利用以下幾種文本映射方法。
[0033]直接映射:描述詞語到概念的映射,即將每個(gè)詞語映射到實(shí)體中的概念,可表示 為:TC:對于所有teT,有T-2、其中,概念集合中的每個(gè)t都是syn中的一個(gè)文本文檔, 描述詞語到概念的直接映射。
[0034] 部分映射:當(dāng)詞語不能直接映射時(shí),從開始到結(jié)束的時(shí)間,可按如下步驟完成部分 映射。步驟1:將短語逐步縮短成一個(gè)詞。步驟2:基于語法,從短語的左邊開始,嘗試在哪 個(gè)階段可以映射縮短短語,然后從右邊進(jìn)行完善修改。
[0035] 文檔映射:首先設(shè)置用于描述詞語和概念之間映射強(qiáng)度的矩陣:DC:[Ut山Xn,其 中,m= |T|即詞語數(shù)量,n= |C|即概念數(shù)量。在映射過程中將產(chǎn)生初始矩陣,初始矩陣 的映射強(qiáng)度是相關(guān)聯(lián)的syn文本文檔單詞頻率:
[0036]
[003