亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于圖書內(nèi)容結(jié)構(gòu)的語義關(guān)聯(lián)方法

文檔序號:9396852閱讀:296來源:國知局
一種基于圖書內(nèi)容結(jié)構(gòu)的語義關(guān)聯(lián)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)計(jì)數(shù)字圖書領(lǐng)域,尤其涉及結(jié)合領(lǐng)域本體和圖書內(nèi)容對用戶檢索請求進(jìn) 行語義關(guān)聯(lián)的方法。
【背景技術(shù)】
[0002] 數(shù)字圖書館的核心競爭力是對數(shù)字圖書的準(zhǔn)確檢索,而準(zhǔn)確檢索的核心是對圖書 內(nèi)容的準(zhǔn)確理解和對用戶檢索意圖的準(zhǔn)確理解,查詢擴(kuò)展是準(zhǔn)確分析用戶檢索請求,以提 高檢索準(zhǔn)確率的有效方法。
[0003] 基于本體的查詢擴(kuò)展思想源于1994年Voorhees提出并通過后續(xù)不斷深入研究而 成。在目前圖書檢索領(lǐng)域,語義查詢擴(kuò)展方法主要借助領(lǐng)域本體概念間的各種關(guān)系進(jìn)行語 義擴(kuò)展,大部分算法只找到語義關(guān)聯(lián)詞,默認(rèn)查詢擴(kuò)展詞和原查詢詞權(quán)重一樣,常導(dǎo)致"主 題偏移"和查準(zhǔn)率下降。
[0004] 基于局部分析法的查詢擴(kuò)展思想,利用初始檢索結(jié)果與前面相關(guān)度最高的若干篇 文檔來選取擴(kuò)展詞。局部反饋法是多次TREC評測會議公認(rèn)的最有代表性的局部分析方法, 是一種簡單、有效的查詢擴(kuò)展技術(shù)。它能夠整合關(guān)鍵詞在語料集中的全局統(tǒng)計(jì)信息,使所 選取的擴(kuò)展詞與初始查詢所表征的主題或概念具有更好的相關(guān)性。查詢擴(kuò)展是將圖書目錄 內(nèi)容作為局部文檔,根據(jù)語料庫中實(shí)際關(guān)鍵詞見的共現(xiàn)關(guān)系進(jìn)行,較好解決了 "主題偏移" 的現(xiàn)象。
[0005] 因此,本發(fā)明公布的一種基于圖書內(nèi)容結(jié)構(gòu)的語義關(guān)聯(lián)方法,綜合考慮領(lǐng)域本體 和實(shí)際圖書內(nèi)容中關(guān)鍵詞的關(guān)聯(lián)性,有效解決因查詢"主題偏移"導(dǎo)致的圖書檢索查全率、 查準(zhǔn)率低下的問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明所要解決的技術(shù)問題在于提供一種基于圖書內(nèi)容結(jié)構(gòu)的語義關(guān)聯(lián)方法。該 方法可用于圖書搜索引擎中,對用戶的檢索請求進(jìn)行語義關(guān)聯(lián)并篩選得到擴(kuò)展關(guān)鍵詞集, 從而提尚圖書檢索的精度。
[0007] -種基于圖書內(nèi)容結(jié)構(gòu)的語義關(guān)聯(lián)方法包括如下步驟:(1)接收用戶檢索請求, 并結(jié)合領(lǐng)域詞典對其進(jìn)行中文分詞,生成用戶檢索初始關(guān)鍵詞集T1。(2)基于領(lǐng)域本體對 初始關(guān)鍵詞集Tl進(jìn)行語義關(guān)聯(lián)度計(jì)算,生成經(jīng)領(lǐng)域本體關(guān)聯(lián)后檢索向量VI。(3)關(guān)鍵詞集 Tl對圖書庫檢索,取前N本。(4)基于上述前N本圖書的內(nèi)容結(jié)構(gòu)對Tl進(jìn)行語義關(guān)聯(lián),生 成經(jīng)圖書內(nèi)容結(jié)構(gòu)關(guān)聯(lián)后的檢索向量V2。(5)對檢索向量VI、V2進(jìn)行融合,生成最終的融 合領(lǐng)域本體語義信息和圖書內(nèi)容結(jié)構(gòu)語義信息的綜合檢索向量V3。
[0008] 進(jìn)一步,本發(fā)明中的步驟(1)進(jìn)一步包括:結(jié)合領(lǐng)域詞典對用戶檢索請求進(jìn)行中 文分詞、去除停用詞,生成用戶檢索初始關(guān)鍵詞集T1,涉及的領(lǐng)域詞典在專家參與下構(gòu)建。
[0009] 進(jìn)一步,本發(fā)明中的步驟(2)進(jìn)一步包括:將Tl中關(guān)鍵詞分別映射到領(lǐng)域本體, 并根據(jù)本體概念語義關(guān)聯(lián)度算法進(jìn)行關(guān)鍵詞擴(kuò)展,并計(jì)算出擴(kuò)展關(guān)鍵詞的權(quán)重。
[0010] 語義關(guān)聯(lián)度算法見公式(1)包括:語義相似度計(jì)算sim(ci,cj)、語義關(guān)聯(lián)度計(jì)算 rel(ci,cj)
[0011] simrel (ci, cj) = sim(ci,cj)+rel (ci,cj)+sim(ci,cj) Xrel (ci,cj) (I)
[0012] 生成領(lǐng)域本體關(guān)聯(lián)后的檢索向量VI,向量中關(guān)鍵詞ci的權(quán)重wi代表它與
[0013] 初始關(guān)鍵詞的相關(guān)程度。
[0014] Vl = ((cl,wl),(c2, w2),(c3, w3),· · ·,(cn,wn)
[0015] 進(jìn)一步,本發(fā)明中的步驟(3)進(jìn)一步包括:關(guān)鍵詞集Tl對圖書庫檢索,對圖書庫 中的圖書進(jìn)行領(lǐng)域詞典參與的中文分詞,對圖書目錄結(jié)構(gòu)的題名、章、節(jié)分別賦予不同的權(quán) 重構(gòu)建索引,其中權(quán)重根據(jù)各部分對主題的貢獻(xiàn)程度大小來設(shè)置,最后根據(jù)關(guān)鍵詞在目錄 中出現(xiàn)的位置、頻率等因素綜合計(jì)算排序輸出,并取出前N本圖書參與后續(xù)步驟。
[0016] 進(jìn)一步,本發(fā)明中的所述步驟(4):基于上述前N本圖書的內(nèi)容結(jié)構(gòu)對Tl進(jìn)行語 義關(guān)聯(lián),圖書內(nèi)容結(jié)構(gòu)本質(zhì)為樹狀結(jié)構(gòu),根節(jié)點(diǎn)為圖書題名節(jié)點(diǎn),往下各層分別是各章標(biāo)題 節(jié)點(diǎn)、節(jié)標(biāo)題節(jié)點(diǎn)、子節(jié)標(biāo)題節(jié)點(diǎn),分別對各節(jié)點(diǎn)內(nèi)容結(jié)合領(lǐng)域詞典進(jìn)行中文分詞,將Tl中 關(guān)鍵詞分別映射到圖書內(nèi)容結(jié)構(gòu)樹,根據(jù)相應(yīng)的結(jié)構(gòu)語義關(guān)聯(lián)算法,計(jì)算擴(kuò)展詞的權(quán)重。
[0017] 結(jié)構(gòu)語義關(guān)聯(lián)算法見公式(2):
[0018] W (k, q ID) = log (stf (k | D) +1. 0) *log (stf (q | D) +1. 0) (2) _9] 上式,Stffkl D:) = 2二(奶_對傳統(tǒng)的局部共現(xiàn)公式僅關(guān)鍵詞出現(xiàn)的頻率做了修 改,考慮了關(guān)鍵詞在局部文檔所處的位置和頻率。
[0020] 生成經(jīng)圖書內(nèi)容結(jié)構(gòu)樹擴(kuò)展后的檢索向量V2,向量中關(guān)鍵詞的權(quán)重代表它與初 始關(guān)鍵詞的相關(guān)程度。
[0021] V2 = ((cl,w 'I),(c2, w' 2),(c3, w '3),· · ·,(cn,w' η)
[0022] 進(jìn)一步,本發(fā)明中的所述步驟(5):對檢索向量VI、V2進(jìn)行融合,根據(jù)相應(yīng)融合算 法對VI、V2中相同關(guān)鍵詞的權(quán)重進(jìn)行合并、不同關(guān)鍵詞權(quán)重值進(jìn)行調(diào)整,并根據(jù)篩選策略, 保留權(quán)重大于某一閾值的關(guān)鍵詞,生成最后經(jīng)過領(lǐng)域本體和圖書內(nèi)容結(jié)構(gòu)雙重語義關(guān)聯(lián)的 向量V3。
[0023] V3 = θ Vl+ μ V2
[0024] θ、μ是調(diào)節(jié)因子,θ + μ = 1,經(jīng)過融合向量VI、V2使得同時(shí)出現(xiàn)在領(lǐng)域本體和 圖書內(nèi)容結(jié)構(gòu)中的關(guān)鍵詞具有更高的權(quán)重,僅出現(xiàn)在領(lǐng)域本體或者圖書目錄內(nèi)容結(jié)構(gòu)中的 關(guān)鍵詞權(quán)重被削弱,使得圖書的語義關(guān)聯(lián)更準(zhǔn)確。
[0025] 本發(fā)明的有益效果:本發(fā)明將關(guān)鍵詞映射到圖書領(lǐng)域本體進(jìn)行領(lǐng)域內(nèi)的語義擴(kuò) 展。查詢擴(kuò)展是將圖書目錄內(nèi)容作為局部文檔,根據(jù)語料庫中實(shí)際關(guān)鍵詞見的共現(xiàn)關(guān)系進(jìn) 行,采用融合策略將二者綜合考慮。能解決目前僅通過領(lǐng)域本體語義擴(kuò)展過度,而導(dǎo)致查全 率增加、查準(zhǔn)率降低現(xiàn)象;能解決傳統(tǒng)局部共現(xiàn)概率模型僅考慮初次返回文本中關(guān)鍵詞頻 率,而不考慮其所處位置對權(quán)重影響,導(dǎo)致擴(kuò)展后關(guān)鍵詞權(quán)重不能充分代表其相對重要程 度,而導(dǎo)致檢索結(jié)果偏離用戶意圖的問題;能解決目前圖書檢索效果難以滿足用戶需求的 現(xiàn)象。
【附圖說明】
[0026] 圖1為本發(fā)明方法的邏輯流程圖。
【具體實(shí)施方式】
[0027] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方 式對本發(fā)明做進(jìn)一步的詳細(xì)說明:
[0028] 圖1是本發(fā)明所述方法的處理流程圖,如圖所示本發(fā)明包括如下幾個(gè)步驟:
[0029] 步驟(1):結(jié)合領(lǐng)域詞典對用戶檢索請求進(jìn)行中文分詞、去除停用詞,生成用戶檢 索初始關(guān)鍵詞集Tl。涉及的領(lǐng)域詞典在專家參與下構(gòu)建。
[0030] 步驟(2):生成經(jīng)領(lǐng)域本體關(guān)聯(lián)后檢索向量VI。將Tl映射到領(lǐng)域本體,根據(jù)本體 概念間語義關(guān)聯(lián)度算法分別計(jì)算Tl中各關(guān)鍵詞與本體中其它節(jié)點(diǎn)間的語義相關(guān)度,相關(guān) 度值為相應(yīng)關(guān)鍵詞的權(quán)重,得到向量Vl。
[0031] Vl = ((cl,wl),(c2, w2),(c3, w3),· · ·,(cn,wn)
[0032] 其中:wi代表概念ci的語義關(guān)聯(lián)權(quán)重,權(quán)重越大代表它與用戶意圖的關(guān)聯(lián)性越
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1