一種基于可讀性指標(biāo)的信息檢索方法

文檔序號：9865664閱讀：1453來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于可讀性指標(biāo)的信息檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種信息檢索方法，尤其設(shè)及一種基于可讀性指標(biāo)的信息檢索方法。
【背景技術(shù)】
[0002] 信息檢索是指從一個信息資源集中獲取與信息需求相關(guān)信息資源的活動。在現(xiàn)代社會中，信息檢索已成為人們發(fā)現(xiàn)與獲取知識和信息的重要途徑。針對傳統(tǒng)信息檢索而言，用戶在向檢索系統(tǒng)提交一系列查詢之后，檢索系統(tǒng)根據(jù)文檔與查詢之間的"相關(guān)性"和超鏈接結(jié)構(gòu)的"重要性"返回結(jié)果列表供用戶挑選閱讀，具體過程如圖1所示，圖中展示了傳統(tǒng)信息檢索交互過程，當(dāng)用戶提交查詢給捜索引擎后，捜素引擎根據(jù)相關(guān)技術(shù)，比如有向量空間模型計算文本相似度，根據(jù)化geRank算法計算文檔權(quán)重等來計算出對應(yīng)于用戶提交查詢應(yīng) 該返回的對應(yīng)文檔集，然后返回捜索結(jié)果給用戶。
[0003] 近來，可讀性作為一項新興指標(biāo)在文檔相關(guān)性W、質(zhì)量W和實用性W評價中占據(jù) 重要地位。隨著網(wǎng)絡(luò)資源地爆炸式增長W及用戶多樣化，如何為用戶提供既與查詢相關(guān)又可讀的文檔已成為亟需解決的問題。用戶因教育背景、閱讀動機(jī)、身體狀況等因素，形成了一定程度的閱讀能力差異。如圖2所示，基于對用戶閱讀能力的考慮，我們根據(jù)個體的差異程度對個體進(jìn)行聚類形成個體組，圖形中用不同的紋理來體現(xiàn)用戶之間的差異性，從開始沒有用戶進(jìn)行聚類，到按照用戶個體間差異聚類后，將用戶聚類成不同的個體組，基于運種差異能夠?qū)€體進(jìn)行相關(guān)聚類，并且聚類之后依舊存在一定程度群體差異，即相同的文本對于不同個體類而言具有不同的可讀性。
[0004] 由此可見，為提高用戶檢索體驗，將可讀性融入到信息檢索過程具有重要意義。具體地，針對于捜索引擎初次返回的結(jié)果列表，既可W基于文本可讀性進(jìn)行重排序，又可W通過具體可讀性標(biāo)示予W體現(xiàn)，例如:可讀性顏色指示(不同顏色代表不同可讀性），或者分值界定(根據(jù)一些可讀性指標(biāo)計算得到的可讀性分值)等。
[0005] 針對可讀性指標(biāo)已有數(shù)十年歷史，一些經(jīng)典的指標(biāo)已經(jīng)被廣泛接受并利用，例如：金凱德等級水平(Flesch-Kincaid Grade Level)、迷霧指數(shù)(FOG Index)、自動可讀性指標(biāo) (Automated Readability 1]1(1糾)等[4]?；谄骄珠L、平均句長、難詞比例等詞匯表面基本特征，運些經(jīng)典的方法具有一定的有效性。近來，為提高可讀性計算方法的準(zhǔn)確性，一些可讀性方法嘗試使用機(jī)器學(xué)習(xí)的思想將可讀性計算問題轉(zhuǎn)化成分類和預(yù)測問題，例如使用支持向量機(jī)（Support Vector Machine)"]、回歸（Regression)[6]、插值預(yù)測 (Inte巧olation Prediction)[7]等，然而運些方法卻難W支持無監(jiān)督的可讀性在線預(yù)測。
[0006] 截至目前，捜索引擎并沒有顯示標(biāo)示檢索結(jié)果相對于用戶可讀性的功能。
[0007] [參考文獻(xiàn)]
[0008] [IJZhang Y,Zhang J,Lease M,et al.Multidimensional relevance modeling via psychometrics and crowdsourcing.Proceedings of the 37th international ACM SIGIR conference on Research&development in information retrieval.ACM,2014: 435-444.
[0009] [2]Bendersky Μ,Croft W B,Diao Υ.Quality-biased ranking of web documents. Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:95-104.
[0010] [3]Yilmaz E,Verma M,Craswell N,et al.Relevance and effort:an analysis of document utility.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:91-100.
[0011] [4]Chall J S,Dale E.Readability revisited:The new Dale-Chall re曰(lability formul曰.Brookline Books, 1995.
[0012] [5]Petersen S E,0stendorf M.A machine learning approach to reading level assessment.Computer speech&language,2009,23(1):89-106.
[0013] [6]Crossley S A,Dufty D F,McCarthy P M,et al.Toward a new readability:A mixed model approach.Proceedings of the 29th annual conference of the Cognitive Science Society.2007:197-202.
[0014] [7]Pitler E,Nenkova A.Revisiting readability:A unified framework for predicting text qu曰lity.Proceedings of the Conference on Empiric曰1 Methods in Natural Language Processing.Association for Computational Linguistics ,2008: 186-195.

【發(fā)明內(nèi)容】

[0015] 針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明提出一種基于可讀性指標(biāo)的信息檢索方法，綜合了用戶可讀性評價技術(shù)W及在線更新數(shù)據(jù)技術(shù)，另外，針對一些特殊群體用戶可W自己定做屬于自己可讀性評價水平的接口。
[0016] 本發(fā)明中所提及到的文本可讀性是指:用戶在理解并且領(lǐng)會一段文本或者一篇文檔內(nèi)容過程中的難易程度。
[0017] 為了解決上述技術(shù)問題，本發(fā)明提出的一種基于可讀性指標(biāo)的信息檢索方法，包括W下步驟：
[0018] 步驟一、當(dāng)用戶使用捜索引擎W希望查詢的關(guān)鍵字進(jìn)行捜索時，捜索引擎從索引中檢索出符合捜索條件的文檔；
[0019] 步驟二、捜索引擎在捜索過程中，對符合捜索條件的文檔按照其與查詢的關(guān)鍵字的相關(guān)度進(jìn)行排序，同時進(jìn)行文本可讀性得分的計算，將符合捜索條件的文檔、相關(guān)度排序和可讀性得分組織成頁面返回給用戶;其中可讀性得分按照如下方法計算：
[0020] 文本可讀性=MX (NX中文平均筆畫數(shù)+(1-N) X中文難詞頻度) + (l-M) X (PX英文平均字符數(shù)+(1-P) X英文難詞頻度）
[0021] 式中，對于文檔中同時出現(xiàn)英文W及中文的情況下，可調(diào)參數(shù)Μ負(fù)責(zé)調(diào)整對于該文檔中中英文可讀性的權(quán)重配比；可調(diào)參數(shù)Ν，負(fù)責(zé)調(diào)整文檔中中文部分的中文平均筆畫數(shù)指標(biāo)W及中文難詞頻度指標(biāo)之間的權(quán)重配比;可調(diào)參數(shù)Ρ，負(fù)責(zé)調(diào)整文檔中英文部分的英文平均字符數(shù)指標(biāo)和英文難詞頻度指標(biāo)之間的權(quán)重配比。
[0022] 進(jìn)一步講，步驟2中，可調(diào)參數(shù)Μ的值域為[0，1]，當(dāng)文檔著重于中文可讀性的情況下，Μ值大于0.5 ;當(dāng)文檔著重于英文可讀性的情況下，Μ的值小于0.5 ;可調(diào)參數(shù)Ν的值域為
[0,1 ]，當(dāng)文檔著重于中文平均筆畫數(shù)的情況下，N值大于ο. 5;當(dāng)文檔著重于中文難詞頻度的情況下，N的值小于0.5;可調(diào)參數(shù)P的值域為[0，1 ]，當(dāng)文檔著重于英文平均字符數(shù)的情況下，P值大于0.5;當(dāng)文檔著重于英文難詞頻度的情況下，P的值小于0.5。
[0023] 另外，本發(fā)明針對有一定能力并且對自身認(rèn)知程度有一定程度了解的用戶，開放了文本可讀性可自定義的接口。從而可讓用戶可W根據(jù)自身需求動態(tài)調(diào)整計算方法。
[0024] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：
[0025] 本發(fā)明可W作為捜索引擎展現(xiàn)方式的一部分，W及用戶可定制捜索引擎的一部分。通過檢索后返回文檔的可讀性得分，用戶便于快速提取相關(guān)度較高文檔中對于自身而言較為可讀的部分，增加檢索效率。同時，可W根據(jù)自身情況來調(diào)節(jié)對于捜索結(jié)果可讀性的評價算法進(jìn)而更加貼合用戶自身需求。
[0026] 例1:假設(shè)群體A為計算機(jī)相關(guān)群體，群體B為金融相關(guān)群體，那么根據(jù)當(dāng)前捜索引擎的返回結(jié)果，當(dāng)兩群體在其他捜索條件完全相同的情況下捜索相同關(guān)鍵詞，如果返回的某條文本中包含Python關(guān)鍵字，那么該條文本對于群體A的可讀性更強(qiáng)，對于群體B可讀性相對較低。
[0027] 例2:假設(shè)群體A經(jīng)常捜索中文關(guān)鍵字，群體B經(jīng)常捜索英文關(guān)鍵字，那么根據(jù)當(dāng)前捜索引擎的返回結(jié)果，當(dāng)兩群體在其他捜索條件完全相同的情況下捜索相同關(guān)鍵詞，如果返回的某條文本只包含英文，那么該條文本對于群體B的可讀性更強(qiáng)，對于群體A可讀性相對較低
【附圖說明】
[0028] 圖1是傳統(tǒng)信息檢索交互流程圖；
[0029] 圖2是基于用戶閱讀能力的相關(guān)聚類示意圖；
[0030] 圖3是一種基于可讀性指標(biāo)的檢索方法交互流程圖；
[0031 ]圖4使用用戶自定義算法之前系統(tǒng)檢索結(jié)果圖；
[0032] 圖5使用用戶自定義算法之后系統(tǒng)檢索結(jié)果圖；
[0033] 圖6是用戶自定義算法界面圖；
[0034] 圖7是本發(fā)明基于可讀性指標(biāo)的檢索方法的主體框架圖。
【具體實施方式】
[0035] 下面結(jié)合附圖和具體實施例對本發(fā)明技術(shù)方案作進(jìn)一步詳細(xì)描述，所描述的具體實施例僅對本發(fā)明進(jìn)行解釋說明，并不用W限制本發(fā)明。
[0036] 本發(fā)明提出的一種基于可讀性指標(biāo)的信息檢索方法，包括W下步驟：
[0037] 步驟一、當(dāng)用戶使用捜索引擎W希望查詢的關(guān)鍵字進(jìn)行捜索時，捜索引擎從索引中檢索出符合捜索條件的文檔；
[0038] 步驟二、捜索引擎在捜索過程中，對符合捜索條件的文檔按照其與查詢的關(guān)鍵字的相關(guān)度進(jìn)行排序，同時進(jìn)行文本可讀性得分的計算，將符合捜索條件的文檔、相關(guān)度排序和可讀性得分組織成頁面返回給用戶；目前國內(nèi)捜索引擎W中文和英文內(nèi)容為主要捜索結(jié) 果，因此本發(fā)明主要考慮對中文W及英文內(nèi)容可讀性的處理。其中，中文W字為單位，英文 W詞為單位，中英文的單位不同導(dǎo)致其對可讀性計算方式過程中存在差異。
[0039] 對于中文，一句話中筆畫數(shù)越多認(rèn)知難度相對越高(從直觀上對漢字的認(rèn)識是由易到難的，而相比于難字，易字的筆畫數(shù)相比要少一些）。對于英文，一句話中每個單詞所含有的英文字母越少，其可讀性就更好。運里將中文中單位字W及英文中的單位詞統(tǒng)稱為字，那么定義中英文句子中字的難易程度指標(biāo)如公式(1):
[0040] (1)
[0041] 對于中英文中字的具體評價方式，僅僅使用字難易程度指

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張程;宋大為;張鵬;王博;張文雅;
技術(shù)所有人：天津大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

百度檢索方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于可讀性指標(biāo)的信息檢索方法