亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種分層過(guò)濾文檔的方法及裝置的制造方法

文檔序號(hào):9579381閱讀:278來(lái)源:國(guó)知局
一種分層過(guò)濾文檔的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息搜索技術(shù)領(lǐng)域,具體而言,涉及一種分層過(guò)濾文檔的方法及裝置。
【背景技術(shù)】
[0002]日常生活中,用戶經(jīng)常利用關(guān)鍵詞在搜索引擎中搜索需要的內(nèi)容,搜索引擎需要根據(jù)關(guān)鍵詞從海量的文檔中搜索出相關(guān)文檔,以使用戶從相關(guān)文檔中讀取其需要的內(nèi)容。
[0003]目前,搜索引擎搜索文檔時(shí),首先利用具有一定數(shù)量特征的相關(guān)性算法計(jì)算海量的文檔中每個(gè)文檔與關(guān)鍵詞的相關(guān)度,即該文檔的質(zhì)量值,過(guò)濾掉質(zhì)量值低于本次過(guò)濾閾值的文檔。然后增加相關(guān)性算法的特征并對(duì)剩余文檔的質(zhì)量值進(jìn)行計(jì)算,繼續(xù)過(guò)濾質(zhì)量值低于本次過(guò)濾閾值的文檔。如此按照上述方式多次計(jì)算文檔的質(zhì)量值并過(guò)濾質(zhì)量值低于過(guò)濾閾值的文檔,直到過(guò)濾出的文檔的數(shù)量到達(dá)預(yù)期數(shù)量,將最終剩余的文檔確定為搜索出的相關(guān)文檔。
[0004]在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn),當(dāng)搜索的文檔數(shù)量非常大時(shí),每次過(guò)濾后剩余的文檔數(shù)量仍然非常多,每次都需花費(fèi)很長(zhǎng)時(shí)間來(lái)計(jì)算大量文檔的質(zhì)量值,總體的時(shí)間花費(fèi)很多,導(dǎo)致搜索效率很低,搜索響應(yīng)時(shí)間很長(zhǎng)。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種分層過(guò)濾文檔的方法及裝置,實(shí)現(xiàn)了對(duì)文檔的分層過(guò)濾,縮短了搜索響應(yīng)時(shí)間,提高了搜索效率。
[0006]第一方面,本發(fā)明實(shí)施例提供了一種分層過(guò)濾文檔的方法,所述方法包括:
[0007]根據(jù)預(yù)設(shè)采樣策略從當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合中選取多個(gè)文檔,按照選取出的所述文檔在所述待過(guò)濾文檔集合中的先后順序,將選取出的所述文檔組成第一文檔列表,所述待過(guò)濾文檔集合中的文檔按照其在上一文檔過(guò)濾層的質(zhì)量值進(jìn)行排序;
[0008]按照當(dāng)前文檔過(guò)濾層的相關(guān)性計(jì)算方式,分別計(jì)算所述第一文檔列表中每個(gè)文檔的質(zhì)量值;
[0009]根據(jù)所述第一文檔列表中的每個(gè)文檔的質(zhì)量值,對(duì)所述第一文檔列表中的文檔進(jìn)行重新排序,得到第二文檔列表;
[0010]根據(jù)所述第一文檔列表和所述第二文檔列表的一致性程度,對(duì)當(dāng)前文檔過(guò)濾層的所述待過(guò)濾文檔集合進(jìn)行過(guò)濾。
[0011]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第一種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)預(yù)設(shè)采樣策略從當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合中選取多個(gè)文檔,包括:
[0012]根據(jù)當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合包括的文檔的數(shù)量,確定所述待過(guò)濾文檔集合所需劃分的文檔子集合的第一數(shù)量,及從每個(gè)所述文檔子集合中所需選取的文檔的第二數(shù)量;
[0013]按照文檔的先后順序?qū)⑺龃^(guò)濾文檔集合劃分為所述第一數(shù)量的文檔子集合;
[0014]分別從每個(gè)所述文檔子集合中選取出所述第二數(shù)量的文檔,以得到多個(gè)文檔。
[0015]結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第一方面的第三種可能的實(shí)現(xiàn)方式,其中,所述分別從每個(gè)所述文檔子集合中選取出所述第二數(shù)量的文檔,包括:
[0016]分別從每個(gè)所述文檔子集合的前部選取出第二數(shù)量的文檔;或者,
[0017]以預(yù)定間隔分別從每個(gè)所述文檔子集合中選取出第二數(shù)量的文檔;或者,
[0018]以隨機(jī)選取的方式分別從每個(gè)所述文檔子集合中選取出第二數(shù)量的文檔。
[0019]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第二種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)預(yù)設(shè)采樣策略從當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合中選取多個(gè)文檔,包括:
[0020]根據(jù)當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合包括的文檔的數(shù)量,確定文檔的采樣間隔;
[0021]按照所述文檔的采樣間隔從所述待過(guò)濾文檔集合中選取文檔,以得到多個(gè)文檔。
[0022]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第四種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)所述第一文檔列表和所述第二文檔列表的一致性程度,對(duì)當(dāng)前文檔過(guò)濾層的所述待過(guò)濾文檔集合進(jìn)行過(guò)濾,包括:
[0023]判斷所述第一文檔列表和所述第二文檔列表的一致性程度是否大于預(yù)設(shè)一致性閾值,如果是,則過(guò)濾掉當(dāng)前文檔過(guò)濾層的所述待過(guò)濾文檔集合中滿足預(yù)設(shè)過(guò)濾條件的文檔,如果否,則按照所述當(dāng)前文檔過(guò)濾層的相關(guān)性計(jì)算方式計(jì)算所述待過(guò)濾文檔集合中每個(gè)文檔的質(zhì)量值,根據(jù)計(jì)算的質(zhì)量值,對(duì)所述待過(guò)濾文檔集合中的文檔重新排序,從排序后的所述待過(guò)濾文檔集合中過(guò)濾掉滿足所述預(yù)設(shè)過(guò)濾條件的文檔。
[0024]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第五種可能的實(shí)現(xiàn)方式,其中,所述根據(jù)所述第一文檔列表和所述第二文檔列表的一致性程度,對(duì)當(dāng)前文檔過(guò)濾層的所述待過(guò)濾文檔集合進(jìn)行過(guò)濾之后,還包括:
[0025]根據(jù)所述當(dāng)前文檔過(guò)濾層的層數(shù)或過(guò)濾后的所述待過(guò)濾文檔集合中的文檔數(shù)量,判斷是否達(dá)到預(yù)設(shè)的過(guò)濾停止條件,若達(dá)到,則將過(guò)濾后的所述待過(guò)濾文檔集合中的文檔確定為搜索結(jié)果,若未達(dá)到,則將過(guò)濾后的所述待過(guò)濾文檔集合作為新的文檔集合,通過(guò)下一文檔過(guò)濾層對(duì)所述新的文檔集合進(jìn)行過(guò)濾。
[0026]第二方面,本發(fā)明實(shí)施例提供了一種分層過(guò)濾文檔的裝置,所述裝置包括:
[0027]選取模塊,用于根據(jù)預(yù)設(shè)采樣策略從當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合中選取多個(gè)文檔,按照選取出的所述文檔在所述待過(guò)濾文檔集合中的先后順序,將選取出的所述文檔組成第一文檔列表,所述待過(guò)濾文檔集合中的文檔按照其在上一文檔過(guò)濾層的質(zhì)量值進(jìn)行排序;
[0028]計(jì)算模塊,用于按照當(dāng)前文檔過(guò)濾層的相關(guān)性計(jì)算方式,分別計(jì)算所述第一文檔列表中每個(gè)文檔的質(zhì)量值;
[0029]排序模塊,用于根據(jù)所述第一文檔列表中的每個(gè)文檔的質(zhì)量值,對(duì)所述第一文檔列表中的文檔進(jìn)行重新排序,得到第二文檔列表;
[0030]過(guò)濾模塊,用于根據(jù)所述第一文檔列表和所述第二文檔列表的一致性程度,對(duì)當(dāng)前文檔過(guò)濾層的所述待過(guò)濾文檔集合進(jìn)行過(guò)濾。
[0031]結(jié)合第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第一種可能的實(shí)現(xiàn)方式,其中,所述選取模塊包括:
[0032]第一確定單元,用于根據(jù)當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合包括的文檔的數(shù)量,確定所述待過(guò)濾文檔集合所需劃分的文檔子集合的第一數(shù)量,及從每個(gè)所述文檔子集合中所需選取的文檔的第二數(shù)量;
[0033]劃分單元,用于按照文檔的先后順序?qū)⑺龃^(guò)濾文檔集合劃分為所述第一數(shù)量的文檔子集合;
[0034]第一選取單元,用于分別從每個(gè)所述文檔子集合中選取出所述第二數(shù)量的文檔,以得到多個(gè)文檔。
[0035]結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第二方面的第三種可能的實(shí)現(xiàn)方式,其中,所述第一選取單元包括:
[0036]第一選取子單元,用于分別從每個(gè)所述文檔子集合的前部選取出第二數(shù)量的文檔;或者,
[0037]第二選取子單元,用于以預(yù)定間隔分別從每個(gè)所述文檔子集合中選取出第二數(shù)量的文檔;或者,
[0038]第三選取子單元,用于以隨機(jī)選取的方式分別從每個(gè)所述文檔子集合中選取出第二數(shù)量的文檔。
[0039]結(jié)合第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第二種可能的實(shí)現(xiàn)方式,其中,所述選取模塊包括:
[0040]第二確定單元,用于根據(jù)當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合包括的文檔的數(shù)量,確定文檔的采樣間隔;
[0041]第二選取單元,用于按照所述文檔的采樣間隔從所述待過(guò)濾文檔集合中選取文檔,以得到多個(gè)文檔。
[0042]結(jié)合第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第四種可能的實(shí)現(xiàn)方式,其中,所述過(guò)濾模塊包括:
[0043]過(guò)濾單元,用于判斷所述第一文檔列表和所述第二文檔列表的一致性程度是否大于預(yù)設(shè)一致性閾值,如果是,則過(guò)濾掉當(dāng)前文檔過(guò)濾層的所述待過(guò)濾文檔集合中滿足預(yù)設(shè)過(guò)濾條件的文檔,如果否,則按照所述當(dāng)前文檔過(guò)濾層的相關(guān)性計(jì)算方式計(jì)算所述待過(guò)濾文檔集合中每個(gè)文檔的質(zhì)量值,根據(jù)計(jì)算的質(zhì)量值,對(duì)所述待過(guò)濾文檔集合中的文檔重新排序,從排序后的所述待過(guò)濾文檔集合中過(guò)濾掉滿足所述預(yù)設(shè)過(guò)濾條件的文檔。
[0044]結(jié)合第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第五種可能的實(shí)現(xiàn)方式,其中,所述裝置還包括:
[0045]停止判斷模塊,用于根據(jù)所述當(dāng)前文檔過(guò)濾層的層數(shù)或過(guò)濾后的所述待過(guò)濾文檔集合中的文檔數(shù)量,判斷是否達(dá)到預(yù)設(shè)的過(guò)濾停止條件,若達(dá)到,則將過(guò)濾后的所述待過(guò)濾文檔集合中的文檔確定為搜索結(jié)果,若未達(dá)到,則將過(guò)濾后的所述待過(guò)濾文檔集合作為新的文檔集合,通過(guò)下一文檔過(guò)濾層對(duì)所述新的文檔集合進(jìn)行過(guò)濾。
[0046]在本發(fā)明實(shí)施例提供的方法及裝置中,根據(jù)預(yù)設(shè)采樣策略從當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合中選取多個(gè)文檔組成第一文檔列表,按照當(dāng)前文檔過(guò)濾層的相關(guān)性計(jì)算方式分別計(jì)算第一文檔列表中每個(gè)文檔的質(zhì)量值,根據(jù)第一文檔列表中的每個(gè)文檔的質(zhì)量值,對(duì)第一文檔列表中的文檔進(jìn)行重新排序得到第二文檔列表,根據(jù)第一文檔列表和第二文檔列表的一致性程度,對(duì)當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合進(jìn)行過(guò)濾。由于對(duì)當(dāng)前文檔過(guò)濾層的待過(guò)濾文檔集合進(jìn)行了過(guò)濾,大大降低了下一文檔過(guò)濾層需要處理的文檔的數(shù)量,每一層都可以按照本方案對(duì)本層的待過(guò)濾文檔集合進(jìn)行過(guò)濾,實(shí)現(xiàn)了對(duì)文檔的分層過(guò)濾,縮短了搜索響應(yīng)時(shí)
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1