亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于版面信息的檢索方法

文檔序號:6513231閱讀:131來源:國知局
一種基于版面信息的檢索方法
【專利摘要】本發(fā)明公開了一種基于版面信息的檢索方法,該方法包括,設置檢索條件,該檢索條件包括版面信息;根據(jù)該檢索條件,從所需檢索的電子文檔中獲取檢索結果。本發(fā)明基于版面信息的檢索方法提供了一種全面、高效、準確的電子文檔檢索方式,能夠提高文本檢索的檢索效率,有針對性的對圖形和圖像進行檢索,擴大了可檢索對象的范圍。
【專利說明】一種基于版面信息的檢索方法

【技術領域】
[0001] 本發(fā)明涉及檢索技術,具體涉及一種基于版面信息的檢索方法。

【背景技術】
[0002] 隨著計算機技術的推廣和應用,采用電子文檔存儲信息已經(jīng)正在逐漸代替?zhèn)鹘y(tǒng)的 信息存儲方式。電子紙張就是電子文檔的一種。電子紙張技術可以取代傳統(tǒng)的紙質(zhì)信息的 保存方式,它能夠以電子格式存儲文本、圖形和圖像等信息。這就給借助計算機技術,方便 的瀏覽、處理電子紙張上的信息提供了方便。
[0003] 目前,對電子紙張的檢索方式,主要是針對文本、基于文本字符匹配的檢索。在應 用時會發(fā)現(xiàn),由于輸入的檢索條件不夠精確,因此現(xiàn)有的檢索方式除了檢索到需要的文本, 還會檢索到大量無用的文本。用戶需要從檢索得到的文本中再進行人為篩選,因此檢索不 夠精確。而且,電子文檔存儲的遠遠不只有文本,還包括豐富的圖形、圖像、甚至媒體信息, 而現(xiàn)有的檢索方法只停留在文本的檢索。目前有少數(shù)圖形、圖像檢索方法,也只能檢索出是 否包含圖像,并進行定位,而不能根據(jù)用戶設定的檢索條件,進行有針對性的檢索。
[0004] 可見,現(xiàn)有的基于字符的電子文檔檢索方式,不能滿足全面、高效、準確的檢索要 求。


【發(fā)明內(nèi)容】

[0005] 有鑒于此,本發(fā)明的目的在于提供一種基于版面信息的檢索方法,能夠提高檢索 效率、擴大可檢索對象的范圍。
[0006] 為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
[0007] 本發(fā)明公開了一種基于版面信息的檢索方法,該方法包括:
[0008] 設置檢索條件,該檢索條件包括版面信息;
[0009] 根據(jù)所述檢索條件,從所需檢索的電子文檔中獲取檢索結果。
[0010] 該方法進一步包括:預先設置檢索條件與檢索規(guī)則的對應關系;
[0011] 所述獲取檢索結果的步驟包括:根據(jù)所述檢索條件,從所述對應關系中獲取所述 檢索條件對應的檢索規(guī)則;根據(jù)所述檢索條件及其檢索規(guī)則,從所需檢索的電子文檔中獲 取檢索結果。
[0012] 其中,所述設置檢索條件為:用戶輸入版面信息,作為檢索條件;
[0013] 或者,所述設置檢索條件之前,該方法進一步包括:預先將所述所需檢索的電子文 檔涉及的版面信息提供給用戶;所述確定版面信息為:用戶從所述提供的版面信息中選擇 檢索條件。
[0014] 所述作為檢索條件的版面信息為文本版面信息、和/或圖形版面信息、和/或圖像 版面信息、和/或公共版面信息。
[0015] 當所述版面信息為文本版面信息時,所述文本版面信息為字體、字號、文本顏色、 文本填充方式、文本勾邊方式、文字特效中的一種或者任意組合。
[0016] 所述文本版面信息進一步包括文本字符。
[0017] 當所述版面信息為圖形版面信息時,所述圖形版面信息為圖形形狀、圖形大小、圖 形填充方式、圖形勾邊方式中的一種,或任意組合。
[0018] 當所述版面信息為圖像版面信息時,所述圖像版面信息為圖像形狀、圖像大小、圖 像顏色、圖像格式中的一種,或任意組合。
[0019] 當所述版面信息為公共版面信息時,所述公共版面信息為對象位置和/或?qū)ο笞?標空間變換。
[0020] 與現(xiàn)有技術相比,本發(fā)明所提供的基于版面信息的檢索方案,采用單獨或組合的 版面信息作為檢索條件,根據(jù)該檢索條件從所需檢索的電子文檔中得到檢索結果。由于 作為檢索條件的版面信息包括了文本版面信息、圖形版面信息、圖像版面信息、公共版面信 息,因此本發(fā)明在對文本進行檢索時,可以采用較現(xiàn)有技術更為豐富的版面信息作為檢索 條件,檢索針對性更強,檢索結果更為精確,從而提高了檢索效率。而且,本發(fā)明還可以根據(jù) 用戶輸入的版面信息,有針對性的對圖形和圖像進行檢索,擴大了可檢索對象的范圍。

【專利附圖】

【附圖說明】
[0021] 圖1為本發(fā)明實施例基于版面信息的檢索方法的流程圖;
[0022] 圖2為本發(fā)明實施例一實現(xiàn)基于版面信息的文本檢索的方法流程圖;
[0023] 圖3為本發(fā)明實施例二實現(xiàn)基于版面信息的圖形檢索的方法流程圖;
[0024] 圖4為本發(fā)明實施例三實現(xiàn)基于版面信息的圖像檢索的方法流程圖;
[0025] 圖5為本發(fā)明實施例四實現(xiàn)基于版面信息的圖像檢索的方法流程圖。

【具體實施方式】
[0026] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下面結合實施例和附圖,對本 發(fā)明進一步詳細說明。
[0027] 版面信息是對電子文檔可見部分的描述,包括呈現(xiàn)在版面上所有對象的可見屬性 的描述。版面上的對象一般包括文本、圖形、圖形等,描述這些對象的可見屬性例如文本的 字體、位置,圖像的分辨率、色彩,圖形的線寬、位置等。每類對象都具有描述其可見屬性的 多個版面信息。對于不同對象,描述其可見屬性的版面信息不盡相同。
[0028] 本發(fā)明實施例的核心思想是:用戶設置檢索條件,該檢索條件中包括版面信息,采 用設置的檢索條件對需要檢索的電子文檔進行檢索,從而提供了一種全面、高效、準確的檢 索方式。
[0029] 這里,電子文檔為以電子/數(shù)字方式存儲的文檔信息,其表現(xiàn)形式可能是單獨的 文檔文件,如常見的Office文件、網(wǎng)頁等,也可能是以結構化數(shù)據(jù)形式存儲文檔信息的數(shù) 據(jù)庫,或者是以非結構化數(shù)據(jù)形式存儲文檔信息的文檔庫,該文檔庫采用非結構操作標記 語言(UOML)和文檔庫技術,可以存儲一個或一個以上的文檔文件。
[0030] 電子文檔中被檢索的對象為文本、圖形和圖像等以電子格式存儲的信息。作為檢 索條件的版面信息可以包括文本版面信息、圖形版面信息、圖像版面信息、公共版面信息中 的一類,或者任意組合。其中,每類版面信息又可以包括一個或者一個以上的可見屬性描述 項。
[0031] 圖1為本發(fā)明實施例基于版面信息的檢索方法的流程圖。參見圖1,該方法包括以 下步驟:
[0032] 步驟101 :預先在檢索系統(tǒng)中設置檢索條件與檢索規(guī)則的對應關系。
[0033] 步驟102 :用戶設置檢索條件,該檢索條件包括版面信息,檢索系統(tǒng)根據(jù)檢索條 件,從其保存的對應關系中,獲取該檢索條件對應的檢索規(guī)則。
[0034] 本步驟中,用戶設置作為檢索條件的版面信息的方法可以是用戶輸入,也可以是 用戶從檢索系統(tǒng)提供的版面信息選項中選取一個或一個以上的版面信息作為檢索條件。檢 索系統(tǒng)可以列出所有的版面信息,也可以只列出用戶所要檢索電子文檔中涉及到的版面信 肩、。
[0035] 步驟103 :根據(jù)所述檢索條件及其檢索規(guī)則,從所需檢索的電子文檔中獲取檢索 結果。
[0036] 檢索規(guī)則主要是采用匹配的方法。電子文檔中的文本、圖形和圖形等對象在存儲 時對應一系列的字段。匹配是以版面信息為條件,查找電子文檔中符合條件的字段,將該字 段描述的對象作為匹配成功的結果,即檢索結果。
[0037] 由于電子文檔存儲的內(nèi)容主要包括文本、圖形、圖像這三大類對象。下面就針對以 文本、圖形、圖像作為檢索對象舉多個實施例,說明基于版面信息檢索的【具體實施方式】。這 里需要說明的是,檢索條件和檢索規(guī)則之間的對應關系已經(jīng)預先設置好,在以下各實施例 中就不再說明該步驟。
[0038] 實施例一
[0039] 本實施例以文本作為檢索對象,根據(jù)文本版面信息進行文本檢索。
[0040] 文本的版面描述信息檢索主要是以文本的字體、字號、顏色、填充方式、勾邊方式、 字體特效作為檢索條件。其中,
[0041] 1、字體,可以是文本字體的具體名。也可以是文本所使用字體的分類名稱,例如仿 宋。分類字體的分類名稱為仿宋的字體,又包括方正仿宋、華文仿宋、文星仿宋等文本字體 的具體名。其對應的檢索規(guī)則為根據(jù)用戶設定的字體匹配所需檢索電子文檔中的文本字 體。
[0042] 2、字號,可以是文本具體的字號,也可以是一個字號的范圍,或者是一個對字號大 小的描述。當字號是具體字號或者字號范圍時,屬于精確檢索條件,對應的檢索規(guī)則為根據(jù) 用戶設定的字號或者字號范圍匹配電子文檔中的文本字號。當字號是一個對字號大小的描 述時,屬于模糊檢索,例如,對字號大小的描述為字號最大,則該檢索條件對應的檢索規(guī)則 為:首先判斷出電子文檔所有文本中的最大字號,然后將該最大字號作為檢索條件,進行文 本字號的匹配,匹配成功的文本即為檢索結果。
[0043] 3、文本顏色,包括文本顯示所用的前景色和/或背景色。文本顏色可以是一個具 體的顏色代碼、或顏色代碼范圍。其檢索規(guī)則為:根據(jù)用戶指定的文本顏色代碼或代碼范圍 匹配電子文檔中的文本顏色。
[0044] 4、文本填充方式,包括文本中某個文字的填充顏色、填充圖案和填充算法。其中,
[0045] 4a)填充顏色,可以是文本的整體顏色或者文本的部分顏色。采用整體顏色作為檢 索條件時,其對應的檢索規(guī)則為:根據(jù)用戶指定的顏色代碼匹配電子文檔中文本填充顏色 的顏色代碼;采用文本填充部分顏色作為檢索條件時,其對應的檢索規(guī)則為:根據(jù)用戶指 定的顏色代碼匹配文本中所占比例最大的填充顏色;填充顏色還可以是圖形特效,根據(jù)用 戶指定的特效算法匹配文本填充顏色的特效算法。
[0046] 4b)填充圖案,對應的檢索規(guī)則為根據(jù)用戶指定的圖案模版匹配文本的填充圖案。 圖案模版可以由檢索系統(tǒng)提供,并由用戶選擇。
[0047] 4c)填充算法,對應的檢索規(guī)則為根據(jù)用戶指定的填充算法匹配文本的填充算法。 檢索系統(tǒng)可以列出幾種主要的填充算法,由用戶選擇。
[0048] 5、文本勾邊方式,包括本文勾邊的顏色、線條樣式和線條粗細。其中,
[0049] 5a)勾邊顏色,可以是一種具體的紅綠藍(RGB,Red Green Blue)顏色值,也可以是 RGB顏色值范圍,或者對顏色的描述。對于精確檢索條件,例如指定了 RGB顏色值或RGB顏 色值的范圍,檢索規(guī)則采用匹配的方法;對于顏色的描述這樣的模糊檢索條件,例如指定紅 色,其檢索規(guī)則為首先將顏色的描述轉(zhuǎn)化為RGB顏色值或者RGB顏色值的范圍,然后再進行 匹配。
[0050] 5b)勾邊線條樣式,是指虛線、實線,或者沒有線等。其檢索規(guī)則采用匹配的方法。
[0051] 5c)勾邊線條粗細,可以是一個具體的粗細值,也可以是粗細值的范圍,或者是一 個線條粗細的描述,例如最粗、最細。對于指定具體粗細值或者粗細值范圍的精確的檢索條 件,采用匹配的方法。對于線條粗細的描述,可以參見對字號模糊檢索的方法。
[0052] 6、文字特效,是文本顯示時所使用的具體特殊效果,主要包括加粗、傾斜、下劃線、 刪除線、陰文、陽文、上標、下標、陰影、隱藏等特效。
[0053] 以上這些文本版面信息可以由檢索系統(tǒng)通過頁面的方式提供給用戶,由用戶從中 選擇;或者由用戶手動輸入。每種文本版面信息可以單獨作為檢索條件使用,也可以相互 組合使用;組合使用時每種文本版面信息可以選擇一個,也可以選擇一個以上。檢索時,可 以只采用以上所說的文本版面信息作為檢索條件,也可以將版面信息與文本字符組合作為 檢索條件,以提高檢索的命中率。例如,檢索條件可以是查找3號紅色"專利"二字,或紅色 3?18號"專利"二字、或加粗的字號最大的"專利"二字等等。
[0054] 本實施例采用現(xiàn)有的字符匹配作為基本檢索手段,采用根據(jù)版面信息檢索作為輔 助檢索手段進行文本的檢索。其中,版面信息采用字體、字號、文本顏色和勾邊顏色作為組 合檢索條件。
[0055] 圖2為本發(fā)明實施例一基于版面信息的文本檢索的方法流程圖。參見圖2,該方法 包括以下步驟:
[0056] 步驟200 :檢索系統(tǒng)分析電子文檔中的所有文本的文本版面信息,將該電子文檔 中所有用到的字體、字號、文本顏色、勾邊顏色等版面信息顯示給用戶。用戶選擇文本版面 信息作為檢索條件。
[0057] 本步驟中,用戶可以從檢索系統(tǒng)提供的版面信息中選擇檢索條件,也可以輸入檢 索條件。檢索條件可以為單一檢索條件,即采用一個文本版面信息作為檢索條件;也可以組 合檢索條件,即采用多個文本版面信息組成組合檢索條件。本實施例中,用戶選擇的組合檢 索條件為在電子文檔中查找使用3號宋體來顯示的紅色綠邊"專利"二字。
[0058] 步驟201 :根據(jù)文本字符匹配"專利"二字。
[0059] 本步驟中,將檢索條件中的"專利"二字轉(zhuǎn)化為文本字符的字符編碼,在電子文檔 中以字符編碼為索引,查找對應的文字。
[0060] 步驟202 :判斷是否匹配到;如果是,則執(zhí)行步驟203 ;否則執(zhí)行步驟210。
[0061] 步驟203?206 :根據(jù)檢索條件中的各文本版面信息,判斷匹配的"專利"二字字體 是否為宋體、字號是否為3號、字體顏色的前景色是否為紅色、勾邊顏色是否為綠色。其中 只要有一項不符合,即執(zhí)行步驟208 ;全符合,則執(zhí)行步驟207。
[0062] 本實施例中,對"專利"二字的版面信息的判斷順序為字體、字號、字體顏色的前景 色、勾邊顏色。在實際應用中,判斷順序可以任意組合,只要完成對檢索條件中的多個文本 版面信息的匹配即可。可以采用預先對文本版面信息設置優(yōu)先級的方法來預定義匹配文本 版面信息的順序。判斷的過程也是匹配,只是被匹配的對象只有一個被字符匹配的"專利" 二字。
[0063] 步驟207 :將匹配的"專利"記錄在匹配列表中。
[0064] 本步驟中,記錄在匹配列表中的文本包括匹配文本的所有版面信息。
[0065] 步驟208 :匹配下一個"專利"二字。返回步驟202。
[0066] 步驟210 :判斷匹配列表是否為空;如果是,則執(zhí)行步驟211 ;否則執(zhí)行步驟212。
[0067] 步驟211 :返回未匹配到信息。本流程結束。
[0068] 本步驟中,返回的未匹配到信息可以作為一類檢索結果,通知用戶。
[0069] 步驟212 :返回匹配到的檢索結果。本流程結束。
[0070] 本步驟中,可以將匹配的檢索結果在文檔中突出顯示,或者將匹配的檢索結果保 存和/或?qū)С觥?br> [0071] 本實施例中的檢索過程可總結為,首先根據(jù)一個文本版面信息進行匹配,先查找 到一個符合條件的文本,再對該查找到的文本進行其它文本版面信息的匹配,直到判定該 文本符合用戶設定的檢索條件并查找下一個,或者不符合檢索條件中的某個文本版面信息 并查找下一個。由于本實施例的檢索條件比較精確,因此檢索規(guī)則也比較的簡單,即針對組 成檢索條件的每個版面信息采用匹配的方法進行檢索即可。
[0072] 從本實施例一的方案中可以看出,根據(jù)多個文本版面信息組成的檢索條件進行檢 索時,不僅用到單個文本版面信息的檢索規(guī)則,還需要將這些檢索規(guī)則進行組合,采用一定 的順序執(zhí)行每個文本版面信息的檢索規(guī)則。這個執(zhí)行順序可以采用預先對文本版面信息設 置優(yōu)先級的方法來預定義。同樣,對于圖形、圖像等其它對象進行檢索時,當采用多個版面 信息作為檢索條件時,也需要對版面信息對應檢索規(guī)則的執(zhí)行順序進行定義。
[0073] 在實際應用中,檢索過程可以很靈活。例如,可以先將與一個文本版面信息匹配的 文本全部查找出來,暫存在匹配列表中,再對匹配列表中的文本進行第二個文本版面信息 的匹配,將不匹配的文本從匹配列表中刪除。當匹配完檢索條件中所有文本版面信息,則最 后保存在匹配列表中的文本就是匹配成功的檢索結果。這種方法中的匹配順序也可以由用 戶預先設定。
[0074] 實施例一是針對文本進行的基于版面信息的檢索。根據(jù)版面信息對圖形和圖像進 行檢索的過程與實施例一基本相同,只要根據(jù)用戶指定的版面信息,匹配被檢索電子文檔 中的相應對象的版面信息即可實現(xiàn)。
[0075] 實施例二
[0076] 對于電子文檔來說,文本、圖形和圖像除了擁有其各自的版面信息,還有擁有公共 版面信息。公共版面信息適用電子文檔所包含的所有對象。公共版面信息可以與文本、圖 形、圖像版面信息進行組合作為檢索條件,也可以單獨使用作為檢索條件。參見表1,作為檢 索條件的公共版面信息主要包括幾種:
[0077]

【權利要求】
1. 一種基于版面信息的檢索方法,其特征在于,該方法包括: 設置檢索條件,該檢索條件包括版面信息; 根據(jù)所述檢索條件,從所需檢索的電子文檔中獲取檢索結果。
2. 如權利要求1所述的方法,其特征在于,該方法進一步包括:預先設置檢索條件與檢 索規(guī)則的對應關系; 所述獲取檢索結果的步驟包括: 根據(jù)所述檢索條件,從所述對應關系中獲取所述檢索條件對應的檢索規(guī)則; 根據(jù)所述檢索條件及其檢索規(guī)則,從所需檢索的電子文檔中獲取檢索結果。
3. 如權利要求1所述的方法,其特征在于,所述設置檢索條件為;用戶輸入版面信息, 作為檢索條件; 或者,所述設置檢索條件之前,該方法進一步包括:預先將所述所需檢索的電子文檔涉 及的版面信息提供給用戶;所述確定版面信息為:用戶從所述提供的版面信息中選擇檢索 條件。
4. 如權利要求1所述的方法,其特征在于,所述作為檢索條件的版面信息為文本版面 信息、和/或圖形版面信息、和/或圖像版面信息、和/或公共版面信息。
5. 如權利要求4所述的方法,其特征在于,當所述版面信息為文本版面信息時,所述文 本版面信息為字體、字號、文本顏色、文本填充方式、文本勾邊方式、文字特效中的一種或者 任意組合。
6. 如權利要求5所述的方法,其特征在于,所述文本版面信息進一步包括文本字符。
7. 如權利要求4所述的方法,其特征在于,當所述版面信息為圖形版面信息時,所述圖 形版面信息為圖形形狀、圖形大小、圖形填充方式、圖形勾邊方式中的一種,或任意組合。
8. 如權利要求4所述的方法,其特征在于,當所述版面信息為圖像版面信息時,所述圖 像版面信息為圖像形狀、圖像大小、圖像顏色、圖像格式中的一種,或任意組合。
9. 如權利要求4所述的方法,其特征在于,當所述版面信息為公共版面信息時,所述公 共版面信息為對象位置和/或?qū)ο笞鴺丝臻g變換。
【文檔編號】G06F17/30GK104462153SQ201310444588
【公開日】2015年3月25日 申請日期:2013年9月25日 優(yōu)先權日:2013年9月25日
【發(fā)明者】王東臨 申請人:天津書生軟件技術有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1