述目標(biāo)網(wǎng)頁所屬的候選網(wǎng)頁分類。
[0080] 可選地,當(dāng)所述網(wǎng)頁元素包括網(wǎng)頁標(biāo)題時,所述預(yù)測模型包括根據(jù)所述網(wǎng)頁標(biāo)題 預(yù)測所述網(wǎng)頁分類的第二預(yù)測模型時,所述模型生成子模塊包括:
[0081] 第=模型創(chuàng)建子模塊,用于依據(jù)所述網(wǎng)頁分類下的查詢詞,對各個網(wǎng)頁分類添加 預(yù)先捜集的查詢詞,生成根據(jù)添加的查詢詞檢索所述網(wǎng)頁分類的第二倒排索引,創(chuàng)建包括 所述第二倒排索引的第二預(yù)測模型;
[0082] 所述候選預(yù)測模塊包括:
[0083] 第=輸入子模塊,用于提取所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題中包括的查詢詞輸入所述第 二預(yù)測模型;
[0084] 第=預(yù)測子模塊,用于所述第二預(yù)測模型按照所述第二倒排索引查找提取的查詢 詞對應(yīng)的網(wǎng)頁分類,并將查找的網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所屬的候選網(wǎng)頁分類。
[0085] 可選地,當(dāng)所述網(wǎng)頁元素包括網(wǎng)頁標(biāo)題時,所述預(yù)測模型包括根據(jù)所述網(wǎng)頁標(biāo)題 的分詞預(yù)測所述網(wǎng)頁分類的第=預(yù)測模型,所述模型生成子模塊包括:
[0086] 分類統(tǒng)計子單元,用于對所述查詢詞進(jìn)行分詞,統(tǒng)計各個分詞所屬的網(wǎng)頁分類;
[0087]第=模塊性創(chuàng)建子單元,計算各個分詞屬于各個網(wǎng)頁分類的第二概率值,并根據(jù) 所述第二概率值創(chuàng)建包括所述分詞屬于各個網(wǎng)頁分類的判斷條件的第=預(yù)測模型;
[0088] 所述候選預(yù)測模塊包括:
[0089] 第四輸入子模塊,用于對所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題進(jìn)行分詞并輸入所述第=預(yù)測 模型;
[0090] 第四預(yù)測子模塊,用于針對各個分詞,所述第=預(yù)測模型判斷所述分詞屬于所述 某個網(wǎng)頁分類的第二概率值大于第二目標(biāo)概率值,則將所述網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所 屬的候選網(wǎng)頁分類。
[0091] 可選地,所述分類確定模塊,具體用于提取與所述待預(yù)測網(wǎng)頁的文本相似度符合 預(yù)設(shè)條件的候選網(wǎng)頁分類作為所述待預(yù)測網(wǎng)頁所屬的最終網(wǎng)頁分類。
[0092] 可選地,所述裝置還包括:
[0093] 網(wǎng)頁分類詞向量構(gòu)建模塊,用于在所述提取與所述目標(biāo)網(wǎng)頁的文本相似度符合預(yù) 設(shè)條件的候選網(wǎng)頁分類作為所述目標(biāo)網(wǎng)頁所屬的最終網(wǎng)頁分類之前,對所述網(wǎng)頁分類下的 各個查詢詞進(jìn)行分詞,并按照所述分詞的詞頻W及逆向文件頻率提取部分分詞構(gòu)建所述網(wǎng) 頁分類的詞向量。
[0094] 可選地,所述分類確定模塊包括:
[0095] 網(wǎng)頁詞向量構(gòu)建子模塊,用于對所述目標(biāo)網(wǎng)頁的網(wǎng)頁標(biāo)題和正文進(jìn)行分詞,并構(gòu) 建所述目標(biāo)網(wǎng)頁的詞向量;
[0096] 相似度計算子模塊,用于計算所述候選網(wǎng)頁分類的詞向量與所述目標(biāo)網(wǎng)頁的詞向 量的余弦相似度;
[0097] 最終分類提取子模塊,用于提取所述余弦相似度符合預(yù)設(shè)范圍的候選網(wǎng)頁分類作 為所述目標(biāo)網(wǎng)頁所屬的最終網(wǎng)頁分類。
[0098] 可選地,所述裝置還包括:
[0099] 歸一化處理模塊,用于在所述根據(jù)各個網(wǎng)頁元素分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的 候選網(wǎng)頁分類之前,對所述網(wǎng)頁元素進(jìn)行歸一化處理。
[0100] 依據(jù)本發(fā)明實施例,提取待預(yù)測網(wǎng)頁的多種網(wǎng)頁元素,并W此為依據(jù)從多維度預(yù) 測該網(wǎng)頁的網(wǎng)頁分類,進(jìn)一步通過比較各種網(wǎng)頁元素對應(yīng)預(yù)測的網(wǎng)頁分類,確定所述待預(yù) 測網(wǎng)頁的最終網(wǎng)頁分類,實現(xiàn)了完全自動化的分類過程,不需要人工參與,極大地提高了網(wǎng) 頁分類的效率,尤其是針對全網(wǎng)海量的網(wǎng)頁和互聯(lián)網(wǎng)上新產(chǎn)生的網(wǎng)頁,能夠?qū)崿F(xiàn)快速有效 地分類,保證網(wǎng)頁分類的時效性。
[0101] 進(jìn)一步,本發(fā)明的網(wǎng)頁分類可W通過挖掘歷史捜索日志生成,一方面對歷史捜索 數(shù)據(jù)進(jìn)行了更充分的利用,另一方面可W克服人工定義網(wǎng)頁分類擴(kuò)展性較差的問題。
[0102] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予W實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,W下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0103] 通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0104] 圖1是根據(jù)本發(fā)明實施例1的一種網(wǎng)頁分類的方法的步驟流程圖;
[0105] 圖2是根據(jù)本發(fā)明實施例2的一種網(wǎng)頁分類的方法的步驟流程圖;
[0106] 圖3是本發(fā)明實施例的一個示例中網(wǎng)頁分類方法的流程圖;
[0107] 圖4是根據(jù)本發(fā)明實施例1的一種網(wǎng)頁分類的裝置的結(jié)構(gòu)框圖;
[0108] 圖5是根據(jù)本發(fā)明實施例2的一種網(wǎng)頁分類的裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0109] 下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應(yīng)當(dāng)理解,可各種形式實現(xiàn)本公開而不應(yīng)被該里闡述的實施例 所限制。相反,提供該些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0110] 參照圖1,示出了本發(fā)明實施例1中的一種網(wǎng)頁分類的方法的步驟流程圖。
[0111] 步驟101,從待預(yù)測網(wǎng)頁中解析多個網(wǎng)頁元素。
[0112] 本發(fā)明實施例基于網(wǎng)頁元素進(jìn)行網(wǎng)頁分類的預(yù)測,網(wǎng)頁元素可W為待預(yù)測網(wǎng)頁的 一部分,例如可W包括網(wǎng)頁的根域名、網(wǎng)頁標(biāo)題、網(wǎng)頁正文和網(wǎng)頁U化之中的任意多個;網(wǎng) 頁元素也可W是待預(yù)測網(wǎng)頁的某種屬性,例如,網(wǎng)頁支持的網(wǎng)絡(luò)傳輸協(xié)議、網(wǎng)頁大小、網(wǎng)頁 連接加密方式和網(wǎng)頁創(chuàng)建時間等。在具體實現(xiàn)中可W采用任意適用的種類,本發(fā)明對此并 不做限制。
[0113] 步驟102,根據(jù)各個網(wǎng)頁元素分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候選網(wǎng)頁分類。
[0114] 從待預(yù)測網(wǎng)頁中解析得到了多個網(wǎng)頁元素,針對每個網(wǎng)頁元素,分別根據(jù)該網(wǎng)頁 元素預(yù)測待預(yù)測網(wǎng)頁所屬的網(wǎng)頁分類,作為候選網(wǎng)頁分類。
[0115] 基于各個網(wǎng)頁元素進(jìn)行網(wǎng)頁分類的預(yù)測,可W預(yù)先通過對大量樣本網(wǎng)頁的分析建 立網(wǎng)頁元素與網(wǎng)頁分類的映射關(guān)系,進(jìn)一步根據(jù)網(wǎng)頁元素可W查找該網(wǎng)頁對應(yīng)的網(wǎng)頁分 類;也可W預(yù)先通過對大量樣本網(wǎng)頁的分析建立根據(jù)網(wǎng)頁元素預(yù)測網(wǎng)頁分類的預(yù)測模型, 進(jìn)一步將網(wǎng)頁元素輸入對應(yīng)的預(yù)測模型,預(yù)測模型輸出的結(jié)果即為該網(wǎng)頁對應(yīng)的網(wǎng)頁分 類;還可W采用任意適用的方式根據(jù)網(wǎng)頁元素預(yù)測網(wǎng)頁分類,本發(fā)明對此并不做限制。
[0116] 步驟103,通過比對各個網(wǎng)頁元素分別預(yù)測的候選網(wǎng)頁分類,確定所述待預(yù)測網(wǎng)頁 的最終網(wǎng)頁分類。
[0117] 通過對各個網(wǎng)頁元素預(yù)測得到的候選網(wǎng)頁分類進(jìn)行比對,從中選取更準(zhǔn)確描述待 預(yù)測網(wǎng)頁的最終網(wǎng)頁分類。具體可W根據(jù)各個候選網(wǎng)頁分類與待預(yù)測網(wǎng)頁的文本相似度進(jìn) 行篩選,待預(yù)測的網(wǎng)頁文本相似度排序靠前或是超過一定闊值的候選網(wǎng)頁分類可作為最終 網(wǎng)頁分類;或是,對預(yù)設(shè)的各個網(wǎng)頁元素與待預(yù)測網(wǎng)頁的表征權(quán)重進(jìn)行比較,將與待預(yù)測網(wǎng) 頁的表征權(quán)重靠前的候選網(wǎng)頁分類作為最終網(wǎng)頁分類;還可W統(tǒng)計各個候選網(wǎng)頁分類被作 為最終網(wǎng)頁分類的次數(shù),將次數(shù)排序靠前的候選網(wǎng)頁分類作為最終網(wǎng)頁分類;還可W采用 任意適用的方式從候選網(wǎng)頁分類中確定最終網(wǎng)頁分類,最終網(wǎng)頁分類的個數(shù)可W是一個或 多個,本發(fā)明對此均不做限制。
[0118] 依據(jù)本發(fā)明實施例,提取待預(yù)測網(wǎng)頁的多種網(wǎng)頁元素,并W此為依據(jù)從多維度預(yù) 測該網(wǎng)頁的網(wǎng)頁分類,進(jìn)一步通過比較各種網(wǎng)頁元素對應(yīng)預(yù)測的網(wǎng)頁分類,確定所述待預(yù) 測網(wǎng)頁的最終網(wǎng)頁分類,實現(xiàn)了完全自動化的分類過程,不需要人工參與,極大地提高了網(wǎng) 頁分類的效率,尤其是針對全網(wǎng)海量的網(wǎng)頁和互聯(lián)網(wǎng)上新產(chǎn)生的網(wǎng)頁,能夠?qū)崿F(xiàn)快速有效 地分類,保證網(wǎng)頁分類的時效性。
[0119] 參照圖2,示出了本發(fā)明實施例2中的一種網(wǎng)頁分類的方法的步驟流程圖。
[0120] 步驟201,針對各個網(wǎng)頁元素,分別創(chuàng)建基于所述網(wǎng)頁元素預(yù)測所述網(wǎng)頁分類的預(yù) 測模型。
[0121] 相比于上個實施例,本實施例具體采用預(yù)測模型來預(yù)測網(wǎng)頁分類。因此,在解析待 預(yù)測網(wǎng)頁的網(wǎng)頁元素之前,針對各個網(wǎng)頁元素創(chuàng)建基于該網(wǎng)頁元素預(yù)測所述網(wǎng)頁分類的預(yù) 測模型。通過預(yù)先收集大量的網(wǎng)頁及其對應(yīng)的網(wǎng)頁分類,解析該網(wǎng)頁的網(wǎng)頁元素,進(jìn)一步建 立基于網(wǎng)頁元素預(yù)測網(wǎng)頁分類的預(yù)測模型,預(yù)測模型可W是任意適用的類型,例如可W是 貝葉斯模型、KNN化-NearestNei曲bor,K最近鄰)模型等。
[0122] 步驟202,從待預(yù)測網(wǎng)頁中解析多個網(wǎng)頁元素。
[0123] 步驟203,對所述網(wǎng)頁元素進(jìn)行歸一化處理。
[0124] 相比于上個實施例,本實施例在提取網(wǎng)頁元素之后,還進(jìn)一步對網(wǎng)頁元素進(jìn)行歸 一化處理,例如去除特殊字符,進(jìn)行大小寫轉(zhuǎn)換,格式轉(zhuǎn)換等,處理后的網(wǎng)頁元素便于進(jìn)一 步的分析處理。
[01巧]步驟204,根據(jù)各個網(wǎng)頁元素對應(yīng)的預(yù)測模型分別預(yù)測所述待預(yù)測網(wǎng)頁所屬的候 選網(wǎng)頁分類。
[01%] 步驟205,提取與所述待預(yù)測網(wǎng)頁的文本相似度符合預(yù)設(shè)條件的候選網(wǎng)頁分類作 為所述待預(yù)測網(wǎng)頁所屬的最終網(wǎng)頁分類。
[0127] 本實施例中,具體W文本相似度為依據(jù)從候選網(wǎng)頁分類中篩選最終網(wǎng)頁分類,計 算各個候選網(wǎng)頁分類與待預(yù)測網(wǎng)頁的文本相似度,按照文本相似度是否符合篩選條件來選 取最終網(wǎng)頁分類,例如,選取按照大小排序后選擇排序靠前的候選網(wǎng)頁分類,或是選取文本 相似度符合預(yù)設(shè)范圍的候選網(wǎng)頁分類,或是選取文本相似度符合多個不同的預(yù)設(shè)區(qū)間的候 選網(wǎng)頁分類。具體的選取方式可W根據(jù)實際應(yīng)用和需求設(shè)置。
[0128] 依據(jù)本發(fā)明實施例,提取待預(yù)測網(wǎng)頁的多種網(wǎng)頁元素,并W此為依據(jù)從多維度預(yù) 測該網(wǎng)頁的網(wǎng)頁分類,進(jìn)一步通過比較各種網(wǎng)頁元素對應(yīng)預(yù)測的網(wǎng)頁分類,確定所述待預(yù) 測網(wǎng)頁的最終網(wǎng)頁分類,實現(xiàn)了完全自動化的分類過程,不需要人工參與,極大地提高了網(wǎng) 頁分類的效率,尤其是針對全網(wǎng)海量的網(wǎng)頁和互聯(lián)網(wǎng)上新產(chǎn)生的網(wǎng)頁,能夠?qū)崿F(xiàn)快速有效 地分類,保證網(wǎng)頁分類的時效性。
[0129] 本發(fā)明實施例中,優(yōu)選地,所述步驟201可W包括:
[0130] 子步驟S1,基于捜索日志挖掘多個網(wǎng)頁分類W及屬于所述網(wǎng)頁分類的查詢詞;
[0131] 子步驟S2,針對各個網(wǎng)頁元素,分別根據(jù)所述捜索日志中相關(guān)聯(lián)的查詢詞和所述 網(wǎng)頁元素,創(chuàng)建根據(jù)所述網(wǎng)頁元素預(yù)測所述網(wǎng)頁分類的預(yù)測模型。
[0132] 本發(fā)明實施例的網(wǎng)頁分類可W通過挖掘歷史捜索日志生成,一方面對歷史捜索數(shù) 據(jù)進(jìn)行了更充分的利用,另一方面可W克服人工定義網(wǎng)頁分類擴(kuò)展性較差的問題。
[0133] 捜索日志記錄終端與服務(wù)器之間的歷史捜索行為,可W包括輸入查詢關(guān)鍵詞、基 于查詢關(guān)鍵詞反饋捜索結(jié)果、對捜索結(jié)果的點(diǎn)擊、翻頁或重新輸入捜索結(jié)果等各種捜索行 為,可W由終端記錄,也可W由服務(wù)器端記錄。
[0134] 具體可W通過解析捜索日志獲取用戶輸入的查詢詞,統(tǒng)計查詢詞并按照預(yù)置的規(guī) 則提取符合要求的查詢詞作為網(wǎng)頁分類,將與符合要求的查詢詞關(guān)聯(lián)的其他查詢詞作為屬 于該網(wǎng)頁分類的查詢詞。針對可W作為網(wǎng)頁分類的查詢詞,由于捜索日志中記錄了根據(jù)查 詢詞觸發(fā)展示或訪問的目標(biāo)網(wǎng)頁,因此,可W將對應(yīng)的查詢詞作為該目標(biāo)網(wǎng)頁的網(wǎng)頁分類, 進(jìn)一步對目標(biāo)網(wǎng)頁進(jìn)行解析,根據(jù)解析得到的網(wǎng)頁元素與網(wǎng)頁分類的對應(yīng)關(guān)系,創(chuàng)建根據(jù) 網(wǎng)頁元素預(yù)測網(wǎng)頁分類的預(yù)測模塊。
[01巧]進(jìn)一步優(yōu)選地,所述子步驟S1可W包括:
[0136] 子步驟S11,統(tǒng)計所述捜索日志中各個查詢詞的查詢頻度;
[0137] 子步驟S12,提取查詢頻度高于預(yù)設(shè)閥值或是預(yù)設(shè)比例的查詢詞作為網(wǎng)