第四輸入子模塊,用于對所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題進(jìn)行分詞并輸入所述第=預(yù)測 模型;
[0%0] 第四預(yù)測子模塊,用于針對各個(gè)分詞,所述第=預(yù)測模型判斷所述分詞屬于所述 某個(gè)網(wǎng)頁分類的第二概率值大于第二目標(biāo)概率值,則將所述網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所 屬的候選網(wǎng)頁分類。
[0%1] 依據(jù)本發(fā)明實(shí)施例,提取待預(yù)測網(wǎng)頁的多種網(wǎng)頁元素,并W此為依據(jù)從多維度預(yù) 測該網(wǎng)頁的網(wǎng)頁分類,進(jìn)一步通過比較各種網(wǎng)頁元素對應(yīng)預(yù)測的網(wǎng)頁分類,確定所述待預(yù) 測網(wǎng)頁的最終網(wǎng)頁分類,實(shí)現(xiàn)了完全自動(dòng)化的分類過程,不需要人工參與,極大地提高了網(wǎng) 頁分類的效率,尤其是針對全網(wǎng)海量的網(wǎng)頁和互聯(lián)網(wǎng)上新產(chǎn)生的網(wǎng)頁,能夠?qū)崿F(xiàn)快速有效 地分類,保證網(wǎng)頁分類的時(shí)效性。
[0%2] 進(jìn)一步,本發(fā)明的網(wǎng)頁分類可W通過挖掘歷史捜索日志生成,一方面對歷史捜索 數(shù)據(jù)進(jìn)行了更充分的利用,另一方面可W克服人工定義網(wǎng)頁分類擴(kuò)展性較差的問題。
[0263] 對于上述網(wǎng)頁分類的裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所W描述 的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0264] 本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與 其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
[0265] 本領(lǐng)域技術(shù)人員易于想到的是:上述各個(gè)實(shí)施例的任意組合應(yīng)用都是可行的,故 上述各個(gè)實(shí)施例之間的任意組合都是本發(fā)明的實(shí)施方案,但是由于篇幅限制,本說明書在 此就不一一詳述了。
[0%6] 在此提供的基于移動(dòng)終端的電話舉報(bào)方案不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其 它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可W與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu) 造具有本發(fā)明方案的系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編 程語言。應(yīng)當(dāng)明白,可W利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定 語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0%7]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施 例可W在沒有該些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù),W便不模糊對本說明書的理解。
[0268] 類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖;即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利 要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具 體實(shí)施方式的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為 本發(fā)明的單獨(dú)實(shí)施例。
[0269] 本領(lǐng)域那些技術(shù)人員可W理解,可W對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可W把實(shí)施例中的模塊或單 元或組件組合成一個(gè)模塊或單元或組件,W及此外可W把它們分成多個(gè)子模塊或子單元或 子組件。除了該樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可W采用任 何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征W及如此公開 的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴 隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可W由提供相同、等同或相似目的的替代 特征來代替。
[0270] 此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一 都可WW任意的組合方式來使用。
[0271] 本發(fā)明的各個(gè)部件實(shí)施例可WW硬件實(shí)現(xiàn),或者W在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者W它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可W在實(shí)踐中使用 微處理器或者數(shù)字信號處理器值S巧來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁分類的方案中的一 些或者全部部件的一些或者全部功能。本發(fā)明還可W實(shí)現(xiàn)為用于執(zhí)行該里所描述的方法的 一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。該樣的實(shí)現(xiàn) 本發(fā)明的程序可W存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可W具有一個(gè)或者多個(gè)信號的形式。該 樣的信號可W從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者W任何其他形式提 供。
[0272] 應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在 未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)該 樣的元件。本發(fā)明可W借助于包括有若干不同元件的硬件W及借助于適當(dāng)編程的計(jì)算機(jī)來 實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,該些裝置中的若干個(gè)可W是通過同一個(gè)硬件 項(xiàng)來具體體現(xiàn)。單詞第一、第二、W及第=等的使用不表示任何順序??蓪⒃撔﹩卧~解釋為 名稱。
【主權(quán)項(xiàng)】
1. 一種網(wǎng)頁分類的方法,其中,包括: 從待預(yù)測網(wǎng)頁中解析多個(gè)網(wǎng)頁元素; 根據(jù)各個(gè)網(wǎng)頁元素分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分類; 通過比對各個(gè)網(wǎng)頁元素分別預(yù)測的候選網(wǎng)頁分類,確定所述待預(yù)測網(wǎng)頁的最終網(wǎng)頁分 類。2. 根據(jù)權(quán)利要求1所述的方法,其中,在所述從待預(yù)測網(wǎng)頁中解析多個(gè)網(wǎng)頁元素之前, 所述方法還包括: 針對各個(gè)網(wǎng)頁元素,分別創(chuàng)建基于所述網(wǎng)頁元素預(yù)測所述網(wǎng)頁分類的預(yù)測模型; 所述根據(jù)各個(gè)網(wǎng)頁元素分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分類包括: 根據(jù)各個(gè)網(wǎng)頁元素對應(yīng)的預(yù)測模型分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分類。3. 根據(jù)權(quán)利要求1-2任一項(xiàng)所述的方法,其中,所述針對各個(gè)網(wǎng)頁元素,分別創(chuàng)建基于 所述網(wǎng)頁元素預(yù)測所述網(wǎng)頁分類的預(yù)測模型包括: 基于搜索日志挖掘多個(gè)網(wǎng)頁分類以及屬于所述網(wǎng)頁分類的查詢詞; 針對各個(gè)網(wǎng)頁元素,分別根據(jù)所述搜索日志中相關(guān)聯(lián)的查詢詞和所述網(wǎng)頁元素,創(chuàng)建 根據(jù)所述網(wǎng)頁元素預(yù)測所述網(wǎng)頁分類的預(yù)測模型。4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其中,所述基于搜索日志挖掘多個(gè)網(wǎng)頁分類 以及屬于所述網(wǎng)頁分類的查詢詞包括: 統(tǒng)計(jì)所述搜索日志中各個(gè)查詢詞的查詢頻度; 提取查詢頻度高于預(yù)設(shè)閥值或是預(yù)設(shè)比例的查詢詞作為網(wǎng)頁分類; 提取與所述網(wǎng)頁分類觸發(fā)同一網(wǎng)頁的查詢詞添加至所述網(wǎng)頁分類。5. 根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其中,當(dāng)所述網(wǎng)頁元素包括根域名時(shí),所述預(yù) 測模型包括根據(jù)所述根域名預(yù)測所述網(wǎng)頁分類的第一預(yù)測模型,所述針對各個(gè)網(wǎng)頁元素, 分別根據(jù)所述搜索日志中相關(guān)聯(lián)的查詢詞和所述網(wǎng)頁元素,創(chuàng)建根據(jù)所述網(wǎng)頁元素預(yù)測所 述網(wǎng)頁分類的預(yù)測模型包括: 提取所述搜索日志對應(yīng)訪問的歷史網(wǎng)頁的根域名; 根據(jù)所述搜索日志訪問的多個(gè)歷史網(wǎng)頁以及觸發(fā)所述歷史網(wǎng)頁的查詢詞,統(tǒng)計(jì)各個(gè)根 域名對應(yīng)的查詢詞; 根據(jù)所述查詢詞所屬的網(wǎng)頁分類,計(jì)算所述根域名屬于各個(gè)網(wǎng)頁分類的第一概率值, 并根據(jù)所述第一概率值創(chuàng)建包括所述根域名屬于各個(gè)網(wǎng)頁分類的判斷條件的第一預(yù)測模 型; 所述根據(jù)各個(gè)網(wǎng)頁元素對應(yīng)的預(yù)測模型分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分 類包括: 提取所述目標(biāo)網(wǎng)頁的根域名輸入所述第一預(yù)測模型; 所述第一預(yù)測模型判斷所述根域名屬于所述某個(gè)網(wǎng)頁分類的第一概率值大于第一目 標(biāo)概率值,則將所述網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所屬的候選網(wǎng)頁分類。6. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其中,當(dāng)所述網(wǎng)頁元素包括網(wǎng)頁標(biāo)題時(shí),所述 預(yù)測模型包括根據(jù)所述網(wǎng)頁標(biāo)題預(yù)測所述網(wǎng)頁分類的第二預(yù)測模型,所述針對各個(gè)網(wǎng)頁元 素,分別根據(jù)所述搜索日志中相關(guān)聯(lián)的查詢詞和所述網(wǎng)頁元素,創(chuàng)建根據(jù)所述網(wǎng)頁元素預(yù) 測所述網(wǎng)頁分類的預(yù)測模型包括: 根據(jù)所述網(wǎng)頁分類以及屬于所述網(wǎng)頁分類的查詢詞,生成根據(jù)所述查詢詞檢索所述網(wǎng) 頁分類的第一倒排索引,創(chuàng)建包括所述第一倒排索引的第二預(yù)測模型; 所述根據(jù)各個(gè)網(wǎng)頁元素對應(yīng)的預(yù)測模型分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分 類包括: 提取所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題中包括的查詢詞輸入所述第二預(yù)測模型; 所述第二預(yù)測模型按照所述第一倒排索引查找所述查詢詞對應(yīng)的網(wǎng)頁分類,并將查找 的網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所屬的候選網(wǎng)頁分類。7. 根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其中,當(dāng)所述網(wǎng)頁元素包括網(wǎng)頁標(biāo)題時(shí),所述 預(yù)測模型包括根據(jù)所述網(wǎng)頁標(biāo)題預(yù)測所述網(wǎng)頁分類的第二預(yù)測模型時(shí),所述針對各個(gè)網(wǎng)頁 元素,分別根據(jù)所述搜索日志中相關(guān)聯(lián)的查詢詞和所述網(wǎng)頁元素,創(chuàng)建根據(jù)所述網(wǎng)頁元素 預(yù)測所述網(wǎng)頁分類的預(yù)測模型包括: 依據(jù)所述網(wǎng)頁分類下的查詢詞,對各個(gè)網(wǎng)頁分類添加預(yù)先搜集的查詢詞,生成根據(jù)添 加的查詢詞檢索所述網(wǎng)頁分類的第二倒排索引,創(chuàng)建包括所述第二倒排索引的第二預(yù)測模 型; 所述根據(jù)各個(gè)網(wǎng)頁元素對應(yīng)的預(yù)測模型分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分 類包括: 提取所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題中包括的查詢詞輸入所述第二預(yù)測模型; 所述第二預(yù)測模型按照所述第二倒排索引查找提取的查詢詞對應(yīng)的網(wǎng)頁分類,并將查 找的網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所屬的候選網(wǎng)頁分類。8. 根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,其中,當(dāng)所述網(wǎng)頁元素包括網(wǎng)頁標(biāo)題時(shí),所述 預(yù)測模型包括根據(jù)所述網(wǎng)頁標(biāo)題的分詞預(yù)測所述網(wǎng)頁分類的第三預(yù)測模型,所述針對各個(gè) 網(wǎng)頁元素,分別根據(jù)所述搜索日志中相關(guān)聯(lián)的查詢詞和所述網(wǎng)頁元素,創(chuàng)建根據(jù)所述網(wǎng)頁 元素預(yù)測所述網(wǎng)頁分類的預(yù)測模型包括: 對所述查詢詞進(jìn)行分詞,統(tǒng)計(jì)各個(gè)分詞所屬的網(wǎng)頁分類; 計(jì)算各個(gè)分詞屬于各個(gè)網(wǎng)頁分類的第二概率值,并根據(jù)所述第二概率值創(chuàng)建包括所述 分詞屬于各個(gè)網(wǎng)頁分類的判斷條件的第三預(yù)測模型; 所述根據(jù)各個(gè)網(wǎng)頁元素對應(yīng)的預(yù)測模型分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分 類包括: 對所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題進(jìn)行分詞并輸入所述第三預(yù)測模型; 針對各個(gè)分詞,所述第三預(yù)測模型判斷所述分詞屬于所述某個(gè)網(wǎng)頁分類的第二概率值 大于第二目標(biāo)概率值,則將所述網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所屬的候選網(wǎng)頁分類。9. 根據(jù)權(quán)利要求1-8任一項(xiàng)所述的方法,其中,所述通過比對各個(gè)網(wǎng)頁元素分別預(yù)測 的候選網(wǎng)頁分類,確定所述待預(yù)測網(wǎng)頁的最終網(wǎng)頁分類包括: 提取與所述待預(yù)測網(wǎng)頁的文本相似度符合預(yù)設(shè)條件的候選網(wǎng)頁分類作為所述待預(yù)測 網(wǎng)頁所屬的最終網(wǎng)頁分類。10. -種網(wǎng)頁分類的裝置,其中,包括: 元素解析模塊,用于從待預(yù)測網(wǎng)頁中解析多個(gè)網(wǎng)頁元素; 候選預(yù)測模塊,用于根據(jù)各個(gè)網(wǎng)頁元素分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分 類; 分類確定模塊,用于通過比對各個(gè)網(wǎng)頁元素分別預(yù)測的候選網(wǎng)頁分類,確定所述待預(yù) 測網(wǎng)頁的最終網(wǎng)頁分類。
【專利摘要】本發(fā)明提供了一種網(wǎng)頁分類的方法和裝置。所述方法包括:從待預(yù)測網(wǎng)頁中解析多個(gè)網(wǎng)頁元素;根據(jù)各個(gè)網(wǎng)頁元素分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分類;通過比對各個(gè)網(wǎng)頁元素分別預(yù)測的候選網(wǎng)頁分類,確定所述待預(yù)測網(wǎng)頁的最終網(wǎng)頁分類。本發(fā)明實(shí)現(xiàn)了完全自動(dòng)化的分類過程,不需要人工參與,極大地提高了網(wǎng)頁分類的效率,尤其是針對全網(wǎng)海量的網(wǎng)頁和互聯(lián)網(wǎng)上新產(chǎn)生的網(wǎng)頁,能夠?qū)崿F(xiàn)快速有效地分類,保證網(wǎng)頁分類的時(shí)效性。
【IPC分類】G06F17/30
【公開號】CN104965905
【申請?zhí)枴緾N201510378183
【發(fā)明人】王建剛, 沈亮, 鄧本洋, 陳培軍
【申請人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2015年10月7日
【申請日】2015年6月30日