一種基于可讀性指標(biāo)的信息檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種信息檢索方法,尤其設(shè)及一種基于可讀性指標(biāo)的信息檢索方法。
【背景技術(shù)】
[0002] 信息檢索是指從一個信息資源集中獲取與信息需求相關(guān)信息資源的活動。在現(xiàn)代 社會中,信息檢索已成為人們發(fā)現(xiàn)與獲取知識和信息的重要途徑。針對傳統(tǒng)信息檢索而言, 用戶在向檢索系統(tǒng)提交一系列查詢之后,檢索系統(tǒng)根據(jù)文檔與查詢之間的"相關(guān)性"和超鏈 接結(jié)構(gòu)的"重要性"返回結(jié)果列表供用戶挑選閱讀,具體過程如圖1所示,圖中展示了傳統(tǒng)信 息檢索交互過程,當(dāng)用戶提交查詢給捜索引擎后,捜素引擎根據(jù)相關(guān)技術(shù),比如有向量空間 模型計算文本相似度,根據(jù)化geRank算法計算文檔權(quán)重等來計算出對應(yīng)于用戶提交查詢應(yīng) 該返回的對應(yīng)文檔集,然后返回捜索結(jié)果給用戶。
[0003] 近來,可讀性作為一項新興指標(biāo)在文檔相關(guān)性W、質(zhì)量W和實用性W評價中占據(jù) 重要地位。隨著網(wǎng)絡(luò)資源地爆炸式增長W及用戶多樣化,如何為用戶提供既與查詢相關(guān)又 可讀的文檔已成為亟需解決的問題。用戶因教育背景、閱讀動機(jī)、身體狀況等因素,形成了 一定程度的閱讀能力差異。如圖2所示,基于對用戶閱讀能力的考慮,我們根據(jù)個體的差異 程度對個體進(jìn)行聚類形成個體組,圖形中用不同的紋理來體現(xiàn)用戶之間的差異性,從開始 沒有用戶進(jìn)行聚類,到按照用戶個體間差異聚類后,將用戶聚類成不同的個體組,基于運種 差異能夠?qū)€體進(jìn)行相關(guān)聚類,并且聚類之后依舊存在一定程度群體差異,即相同的文本 對于不同個體類而言具有不同的可讀性。
[0004] 由此可見,為提高用戶檢索體驗,將可讀性融入到信息檢索過程具有重要意義。具 體地,針對于捜索引擎初次返回的結(jié)果列表,既可W基于文本可讀性進(jìn)行重排序,又可W通 過具體可讀性標(biāo)示予W體現(xiàn),例如:可讀性顏色指示(不同顏色代表不同可讀性),或者分值 界定(根據(jù)一些可讀性指標(biāo)計算得到的可讀性分值)等。
[0005] 針對可讀性指標(biāo)已有數(shù)十年歷史,一些經(jīng)典的指標(biāo)已經(jīng)被廣泛接受并利用,例如: 金凱德等級水平(Flesch-Kincaid Grade Level)、迷霧指數(shù)(FOG Index)、自動可讀性指標(biāo) (Automated Readability 1]1(1糾)等[4]?;谄骄珠L、平均句長、難詞比例等詞匯表面基 本特征,運些經(jīng)典的方法具有一定的有效性。近來,為提高可讀性計算方法的準(zhǔn)確性,一些 可讀性方法嘗試使用機(jī)器學(xué)習(xí)的思想將可讀性計算問題轉(zhuǎn)化成分類和預(yù)測問題,例如使用 支持向量機(jī)(Support Vector Machine)"]、回歸(Regression)[6]、插值預(yù)測 (Inte巧olation Prediction)[7]等,然而運些方法卻難W支持無監(jiān)督的可讀性在線預(yù)測。
[0006] 截至目前,捜索引擎并沒有顯示標(biāo)示檢索結(jié)果相對于用戶可讀性的功能。
[0007] [參考文獻(xiàn)]
[0008] [IJZhang Y,Zhang J,Lease M,et al.Multidimensional relevance modeling via psychometrics and crowdsourcing.Proceedings of the 37th international ACM SIGIR conference on Research&development in information retrieval.ACM,2014: 435-444.
[0009] [2]Bendersky Μ,Croft W B,Diao Υ.Quality-biased ranking of web documents. Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:95-104.
[0010] [3]Yilmaz E,Verma M,Craswell N,et al.Relevance and effort:an analysis of document utility.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:91-100.
[0011] [4]Chall J S,Dale E.Readability revisited:The new Dale-Chall re曰(lability formul曰.Brookline Books, 1995.
[0012] [5]Petersen S E,0stendorf M.A machine learning approach to reading level assessment.Computer speech&language,2009,23(1):89-106.
[0013] [6]Crossley S A,Dufty D F,McCarthy P M,et al.Toward a new readability:A mixed model approach.Proceedings of the 29th annual conference of the Cognitive Science Society.2007:197-202.
[0014] [7]Pitler E,Nenkova A.Revisiting readability:A unified framework for predicting text qu曰lity.Proceedings of the Conference on Empiric曰1 Methods in Natural Language Processing.Association for Computational Linguistics ,2008: 186-195.
【發(fā)明內(nèi)容】
[0015] 針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出一種基于可讀性指標(biāo)的信息檢索方法, 綜合了用戶可讀性評價技術(shù)W及在線更新數(shù)據(jù)技術(shù),另外,針對一些特殊群體用戶可W自 己定做屬于自己可讀性評價水平的接口。
[0016] 本發(fā)明中所提及到的文本可讀性是指:用戶在理解并且領(lǐng)會一段文本或者一篇文 檔內(nèi)容過程中的難易程度。
[0017] 為了解決上述技術(shù)問題,本發(fā)明提出的一種基于可讀性指標(biāo)的信息檢索方法,包 括W下步驟:
[0018] 步驟一、當(dāng)用戶使用捜索引擎W希望查詢的關(guān)鍵字進(jìn)行捜索時,捜索引擎從索引 中檢索出符合捜索條件的文檔;
[0019] 步驟二、捜索引擎在捜索過程中,對符合捜索條件的文檔按照其與查詢的關(guān)鍵字 的相關(guān)度進(jìn)行排序,同時進(jìn)行文本可讀性得分的計算,將符合捜索條件的文檔、相關(guān)度排序 和可讀性得分組織成頁面返回給用戶;其中可讀性得分按照如下方法計算:
[0020] 文本可讀性=MX (NX中文平均筆畫數(shù)+(1-N) X中文難詞頻度) + (l-M) X (PX英 文平均字符數(shù)+(1-P) X英文難詞頻度)
[0021] 式中,對于文檔中同時出現(xiàn)英文W及中文的情況下,可調(diào)參數(shù)Μ負(fù)責(zé)調(diào)整對于該文 檔中中英文可讀性的權(quán)重配比;可調(diào)參數(shù)Ν,負(fù)責(zé)調(diào)整文檔中中文部分的中文平均筆畫數(shù)指 標(biāo)W及中文難詞頻度指標(biāo)之間的權(quán)重配比;可調(diào)參數(shù)Ρ,負(fù)責(zé)調(diào)整文檔中英文部分的英文平 均字符數(shù)指標(biāo)和英文難詞頻度指標(biāo)之間的權(quán)重配比。
[0022] 進(jìn)一步講,步驟2中,可調(diào)參數(shù)Μ的值域為[0,1],當(dāng)文檔著重于中文可讀性的情況 下,Μ值大于0.5 ;當(dāng)文檔著重于英文可讀性的情況下,Μ的值小于0.5 ;可調(diào)參數(shù)Ν的值域為
[0,1 ],當(dāng)文檔著重于中文平均筆畫數(shù)的情況下,N值大于ο. 5;當(dāng)文檔著重于中文難詞頻度 的情況下,N的值小于0.5;可調(diào)參數(shù)P的值域為[0,1 ],當(dāng)文檔著重于英文平均字符數(shù)的情況 下,P值大于0.5;當(dāng)文檔著重于英文難詞頻度的情況下,P的值小于0.5。
[0023] 另外,本發(fā)明針對有一定能力并且對自身認(rèn)知程度有一定程度了解的用戶,開放 了文本可讀性可自定義的接口。從而可讓用戶可W根據(jù)自身需求動態(tài)調(diào)整計算方法。
[0024] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0025] 本發(fā)明可W作為捜索引擎展現(xiàn)方式的一部分,W及用戶可定制捜索引擎的一部 分。通過檢索后返回文檔的可讀性得分,用戶便于快速提取相關(guān)度較高文檔中對于自身而 言較為可讀的部分,增加檢索效率。同時,可W根據(jù)自身情況來調(diào)節(jié)對于捜索結(jié)果可讀性的 評價算法進(jìn)而更加貼合用戶自身需求。
[0026] 例1:假設(shè)群體A為計算機(jī)相關(guān)群體,群體B為金融相關(guān)群體,那么根據(jù)當(dāng)前捜索引 擎的返回結(jié)果,當(dāng)兩群體在其他捜索條件完全相同的情況下捜索相同關(guān)鍵詞,如果返回的 某條文本中包含Python關(guān)鍵字,那么該條文本對于群體A的可讀性更強(qiáng),對于群體B可讀性 相對較低。
[0027] 例2:假設(shè)群體A經(jīng)常捜索中文關(guān)鍵字,群體B經(jīng)常捜索英文關(guān)鍵字,那么根據(jù)當(dāng)前 捜索引擎的返回結(jié)果,當(dāng)兩群體在其他捜索條件完全相同的情況下捜索相同關(guān)鍵詞,如果 返回的某條文本只包含英文,那么該條文本對于群體B的可讀性更強(qiáng),對于群體A可讀性相 對較低
【附圖說明】
[0028] 圖1是傳統(tǒng)信息檢索交互流程圖;
[0029] 圖2是基于用戶閱讀能力的相關(guān)聚類示意圖;
[0030] 圖3是一種基于可讀性指標(biāo)的檢索方法交互流程圖;
[0031 ]圖4使用用戶自定義算法之前系統(tǒng)檢索結(jié)果圖;
[0032] 圖5使用用戶自定義算法之后系統(tǒng)檢索結(jié)果圖;
[0033] 圖6是用戶自定義算法界面圖;
[0034] 圖7是本發(fā)明基于可讀性指標(biāo)的檢索方法的主體框架圖。
【具體實施方式】
[0035] 下面結(jié)合附圖和具體實施例對本發(fā)明技術(shù)方案作進(jìn)一步詳細(xì)描述,所描述的具體 實施例僅對本發(fā)明進(jìn)行解釋說明,并不用W限制本發(fā)明。
[0036] 本發(fā)明提出的一種基于可讀性指標(biāo)的信息檢索方法,包括W下步驟:
[0037] 步驟一、當(dāng)用戶使用捜索引擎W希望查詢的關(guān)鍵字進(jìn)行捜索時,捜索引擎從索引 中檢索出符合捜索條件的文檔;
[0038] 步驟二、捜索引擎在捜索過程中,對符合捜索條件的文檔按照其與查詢的關(guān)鍵字 的相關(guān)度進(jìn)行排序,同時進(jìn)行文本可讀性得分的計算,將符合捜索條件的文檔、相關(guān)度排序 和可讀性得分組織成頁面返回給用戶;目前國內(nèi)捜索引擎W中文和英文內(nèi)容為主要捜索結(jié) 果,因此本發(fā)明主要考慮對中文W及英文內(nèi)容可讀性的處理。其中,中文W字為單位,英文 W詞為單位,中英文的單位不同導(dǎo)致其對可讀性計算方式過程中存在差異。
[0039] 對于中文,一句話中筆畫數(shù)越多認(rèn)知難度相對越高(從直觀上對漢字的認(rèn)識是由 易到難的,而相比于難字,易字的筆畫數(shù)相比要少一些)。對于英文,一句話中每個單詞所含 有的英文字母越少,其可讀性就更好。運里將中文中單位字W及英文中的單位詞統(tǒng)稱為字, 那么定義中英文句子中字的難易程度指標(biāo)如公式(1):
[0040] (1)
[0041] 對于中英文中字的具體評價方式,僅僅使用字難易程度指