一種網(wǎng)頁(yè)分類的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是設(shè)及一種網(wǎng)頁(yè)分類的方法,W及,一種網(wǎng)頁(yè)分 類的裝置。
【背景技術(shù)】
[0002] 網(wǎng)頁(yè)分類在互聯(lián)網(wǎng)很多產(chǎn)品中都有著至關(guān)重要的作用。例如在新聞媒體中,新聞 網(wǎng)頁(yè)的分類對(duì)于合理有效地整理新聞內(nèi)容,提升用戶閱讀體驗(yàn)有著非常重要的作用。
[0003] 目前的網(wǎng)頁(yè)分類技術(shù)主要是一種半自動(dòng)化的方式對(duì)網(wǎng)頁(yè)進(jìn)行分類,通過(guò)算法和人 工審核共同完成的,在算法階段,采用一種傳統(tǒng)的分類算法(比如樸素貝葉斯)對(duì)網(wǎng)頁(yè)進(jìn)行 初步分類,但該階段的主要問(wèn)題一般是準(zhǔn)確率無(wú)法保證;在人工審核階段,為了提升分類準(zhǔn) 確率,一般需要人工進(jìn)行審查。
[0004] 上述方案由于是半自動(dòng)化,因而當(dāng)面對(duì)大量需要分類的數(shù)據(jù)時(shí)是無(wú)法滿足要求 的;并且,由于網(wǎng)頁(yè)的分類一般是前期人工定義好的,可擴(kuò)展性較差;整個(gè)系統(tǒng)的時(shí)效性很 差,由于需要經(jīng)歷兩個(gè)階段,且第二階段人工審核的時(shí)間成本很高,導(dǎo)致整個(gè)系統(tǒng)的時(shí)效性 無(wú)法保證。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問(wèn)題,提出了本發(fā)明W便提供一種克服上述問(wèn)題或者至少部分地解決上 述問(wèn)題的網(wǎng)頁(yè)分類的方法和網(wǎng)頁(yè)分類的裝置。
[0006] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁(yè)分類的方法,其中,包括:
[0007] 從待預(yù)測(cè)網(wǎng)頁(yè)中解析多個(gè)網(wǎng)頁(yè)元素;
[000引根據(jù)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類;
[0009] 通過(guò)比對(duì)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)的候選網(wǎng)頁(yè)分類,確定所述待預(yù)測(cè)網(wǎng)頁(yè)的最終網(wǎng) 頁(yè)分類。
[0010] 可選地,在所述從待預(yù)測(cè)網(wǎng)頁(yè)中解析多個(gè)網(wǎng)頁(yè)元素之前,所述方法還包括:
[0011] 針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別創(chuàng)建基于所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型;
[0012] 所述根據(jù)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類包括:
[0013] 根據(jù)各個(gè)網(wǎng)頁(yè)元素對(duì)應(yīng)的預(yù)測(cè)模型分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分 類。
[0014] 可選地,所述針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別創(chuàng)建基于所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類 的預(yù)測(cè)模型包括:
[0015] 基于捜索日志挖掘多個(gè)網(wǎng)頁(yè)分類W及屬于所述網(wǎng)頁(yè)分類的查詢?cè)~;
[0016] 針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別根據(jù)所述捜索日志中相關(guān)聯(lián)的查詢?cè)~和所述網(wǎng)頁(yè)元素, 創(chuàng)建根據(jù)所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型。
[0017] 可選地,所述基于捜索日志挖掘多個(gè)網(wǎng)頁(yè)分類W及屬于所述網(wǎng)頁(yè)分類的查詢?cè)~包 括:
[0018] 統(tǒng)計(jì)所述捜索日志中各個(gè)查詢?cè)~的查詢頻度;
[0019] 提取查詢頻度高于預(yù)設(shè)閥值或是預(yù)設(shè)比例的查詢?cè)~作為網(wǎng)頁(yè)分類;
[0020] 提取與所述網(wǎng)頁(yè)分類觸發(fā)同一網(wǎng)頁(yè)的查詢?cè)~添加至所述網(wǎng)頁(yè)分類。
[0021] 可選地,當(dāng)所述網(wǎng)頁(yè)元素包括根域名時(shí),所述預(yù)測(cè)模型包括根據(jù)所述根域名預(yù)測(cè) 所述網(wǎng)頁(yè)分類的第一預(yù)測(cè)模型,所述針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別根據(jù)所述捜索日志中相關(guān)聯(lián) 的查詢?cè)~和所述網(wǎng)頁(yè)元素,創(chuàng)建根據(jù)所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型包括:
[0022] 提取所述捜索日志對(duì)應(yīng)訪問(wèn)的歷史網(wǎng)頁(yè)的根域名;
[0023] 根據(jù)所述捜索日志訪問(wèn)的多個(gè)歷史網(wǎng)頁(yè)W及觸發(fā)所述歷史網(wǎng)頁(yè)的查詢?cè)~,統(tǒng)計(jì)各 個(gè)根域名對(duì)應(yīng)的查詢?cè)~;
[0024] 根據(jù)所述查詢?cè)~所屬的網(wǎng)頁(yè)分類,計(jì)算所述根域名屬于各個(gè)網(wǎng)頁(yè)分類的第一概率 值,并根據(jù)所述第一概率值創(chuàng)建包括所述根域名屬于各個(gè)網(wǎng)頁(yè)分類的判斷條件的第一預(yù)測(cè) 模型;
[0025] 所述根據(jù)各個(gè)網(wǎng)頁(yè)元素對(duì)應(yīng)的預(yù)測(cè)模型分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng) 頁(yè)分類包括:
[0026] 提取所述目標(biāo)網(wǎng)頁(yè)的根域名輸入所述第一預(yù)測(cè)模型;
[0027] 所述第一預(yù)測(cè)模型判斷所述根域名屬于所述某個(gè)網(wǎng)頁(yè)分類的第一概率值大于第 一目標(biāo)概率值,則將所述網(wǎng)頁(yè)分類作為所述目標(biāo)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類。
[002引可選地,當(dāng)所述網(wǎng)頁(yè)元素包括網(wǎng)頁(yè)標(biāo)題時(shí),所述預(yù)測(cè)模型包括根據(jù)所述網(wǎng)頁(yè)標(biāo)題 預(yù)測(cè)所述網(wǎng)頁(yè)分類的第二預(yù)測(cè)模型,所述針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別根據(jù)所述捜索日志中相 關(guān)聯(lián)的查詢?cè)~和所述網(wǎng)頁(yè)元素,創(chuàng)建根據(jù)所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型包 括:
[0029] 根據(jù)所述網(wǎng)頁(yè)分類W及屬于所述網(wǎng)頁(yè)分類的查詢?cè)~,生成根據(jù)所述查詢?cè)~檢索所 述網(wǎng)頁(yè)分類的第一倒排索引,創(chuàng)建包括所述第一倒排索引的第二預(yù)測(cè)模型;
[0030] 所述根據(jù)各個(gè)網(wǎng)頁(yè)元素對(duì)應(yīng)的預(yù)測(cè)模型分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng) 頁(yè)分類包括:
[0031] 提取所述目標(biāo)網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)題中包括的查詢?cè)~輸入所述第二預(yù)測(cè)模型;
[0032] 所述第二預(yù)測(cè)模型按照所述第一倒排索引查找所述查詢?cè)~對(duì)應(yīng)的網(wǎng)頁(yè)分類,并將 查找的網(wǎng)頁(yè)分類作為所述目標(biāo)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類。
[0033] 可選地,當(dāng)所述網(wǎng)頁(yè)元素包括網(wǎng)頁(yè)標(biāo)題時(shí),所述預(yù)測(cè)模型包括根據(jù)所述網(wǎng)頁(yè)標(biāo)題 預(yù)測(cè)所述網(wǎng)頁(yè)分類的第二預(yù)測(cè)模型時(shí),所述針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別根據(jù)所述捜索日志中 相關(guān)聯(lián)的查詢?cè)~和所述網(wǎng)頁(yè)元素,創(chuàng)建根據(jù)所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型包 括:
[0034] 依據(jù)所述網(wǎng)頁(yè)分類下的查詢?cè)~,對(duì)各個(gè)網(wǎng)頁(yè)分類添加預(yù)先捜集的查詢?cè)~,生成根 據(jù)添加的查詢?cè)~檢索所述網(wǎng)頁(yè)分類的第二倒排索引,創(chuàng)建包括所述第二倒排索引的第二預(yù) 測(cè)模型;
[0035] 所述根據(jù)各個(gè)網(wǎng)頁(yè)元素對(duì)應(yīng)的預(yù)測(cè)模型分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng) 頁(yè)分類包括:
[0036] 提取所述目標(biāo)網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)題中包括的查詢?cè)~輸入所述第二預(yù)測(cè)模型;
[0037] 所述第二預(yù)測(cè)模型按照所述第二倒排索引查找提取的查詢?cè)~對(duì)應(yīng)的網(wǎng)頁(yè)分類,并 將查找的網(wǎng)頁(yè)分類作為所述目標(biāo)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類。
[003引可選地,當(dāng)所述網(wǎng)頁(yè)元素包括網(wǎng)頁(yè)標(biāo)題時(shí),所述預(yù)測(cè)模型包括根據(jù)所述網(wǎng)頁(yè)標(biāo)題 的分詞預(yù)測(cè)所述網(wǎng)頁(yè)分類的第=預(yù)測(cè)模型,所述針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別根據(jù)所述捜索日 志中相關(guān)聯(lián)的查詢?cè)~和所述網(wǎng)頁(yè)元素,創(chuàng)建根據(jù)所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模 型包括:
[0039] 對(duì)所述查詢?cè)~進(jìn)行分詞,統(tǒng)計(jì)各個(gè)分詞所屬的網(wǎng)頁(yè)分類;
[0040] 計(jì)算各個(gè)分詞屬于各個(gè)網(wǎng)頁(yè)分類的第二概率值,并根據(jù)所述第二概率值創(chuàng)建包括 所述分詞屬于各個(gè)網(wǎng)頁(yè)分類的判斷條件的第S預(yù)測(cè)模型;
[0041] 所述根據(jù)各個(gè)網(wǎng)頁(yè)元素對(duì)應(yīng)的預(yù)測(cè)模型分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng) 頁(yè)分類包括:
[0042] 對(duì)所述目標(biāo)網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)題進(jìn)行分詞并輸入所述第=預(yù)測(cè)模型;
[0043] 針對(duì)各個(gè)分詞,所述第=預(yù)測(cè)模型判斷所述分詞屬于所述某個(gè)網(wǎng)頁(yè)分類的第二概 率值大于第二目標(biāo)概率值,則將所述網(wǎng)頁(yè)分類作為所述目標(biāo)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類。
[0044] 可選地,所述通過(guò)比對(duì)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)的候選網(wǎng)頁(yè)分類,確定所述待預(yù)測(cè) 網(wǎng)頁(yè)的最終網(wǎng)頁(yè)分類包括:
[0045] 提取與所述待預(yù)測(cè)網(wǎng)頁(yè)的文本相似度符合預(yù)設(shè)條件的候選網(wǎng)頁(yè)分類作為所述待 預(yù)測(cè)網(wǎng)頁(yè)所屬的最終網(wǎng)頁(yè)分類。
[0046] 可選地,在所述提取與所述目標(biāo)網(wǎng)頁(yè)的文本相似度符合預(yù)設(shè)條件的候選網(wǎng)頁(yè)分類 作為所述目標(biāo)網(wǎng)頁(yè)所屬的最終網(wǎng)頁(yè)分類之前,所述方法還包括:
[0047] 對(duì)所述網(wǎng)頁(yè)分類下的各個(gè)查詢?cè)~進(jìn)行分詞,并按照所述分詞的詞頻W及逆向文件 頻率提取部分分詞構(gòu)建所述網(wǎng)頁(yè)分類的詞向量。
[0048] 可選地,所述提取與所述目標(biāo)網(wǎng)頁(yè)的文本相似度符合預(yù)設(shè)條件的候選網(wǎng)頁(yè)分類作 為所述目標(biāo)網(wǎng)頁(yè)所屬的最終網(wǎng)頁(yè)分類包括:
[0049] 對(duì)所述目標(biāo)網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)題和正文進(jìn)行分詞,并構(gòu)建所述目標(biāo)網(wǎng)頁(yè)的詞向量;
[0050] 計(jì)算所述候選網(wǎng)頁(yè)分類的詞向量與所述目標(biāo)網(wǎng)頁(yè)的詞向量的余弦相似度,提取所 述余弦相似度符合預(yù)設(shè)范圍的候選網(wǎng)頁(yè)分類作為所述目標(biāo)網(wǎng)頁(yè)所屬的最終網(wǎng)頁(yè)分類。
[0化1] 可選地,在所述根據(jù)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類 之前,所述方法還包括:
[0化2] 對(duì)所述網(wǎng)頁(yè)元素進(jìn)行歸一化處理。
[0053] 根據(jù)本發(fā)明的另一個(gè)方面,提供了一種網(wǎng)頁(yè)分類的裝置,其中,包括:
[0化4] 元素解析模塊,用于從待預(yù)測(cè)網(wǎng)頁(yè)中解析多個(gè)網(wǎng)頁(yè)元素;
[0055] 候選預(yù)測(cè)模塊,用于根據(jù)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)所述待預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè) 分類;
[0056] 分類確定模塊,用于通過(guò)比對(duì)各個(gè)網(wǎng)頁(yè)元素分別預(yù)測(cè)的候選網(wǎng)頁(yè)分類,確定所述 待預(yù)測(cè)網(wǎng)頁(yè)的最終網(wǎng)頁(yè)分類。
[0化7] 可選地,所述裝置還包括:
[0化引模型創(chuàng)建模塊,用于在所述從待預(yù)測(cè)網(wǎng)頁(yè)中解析多個(gè)網(wǎng)頁(yè)元素之前,針對(duì)各個(gè)網(wǎng) 頁(yè)元素,分別創(chuàng)建基于所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型;
[0化9] 所述候選預(yù)測(cè)模塊,具體用于根據(jù)各個(gè)網(wǎng)頁(yè)元素對(duì)應(yīng)的預(yù)測(cè)模型分別預(yù)測(cè)所述待 預(yù)測(cè)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè)分類。
[0060] 可選地,所述模型創(chuàng)建模塊包括:
[0061] 查詢?cè)~挖掘子模塊,用于基于捜索日志挖掘多個(gè)網(wǎng)頁(yè)分類W及屬于所述網(wǎng)頁(yè)分類 的查詢?cè)~;
[0062] 模型生成子模塊,用于針對(duì)各個(gè)網(wǎng)頁(yè)元素,分別根據(jù)所述捜索日志中相關(guān)聯(lián)的查 詢?cè)~和所述網(wǎng)頁(yè)元素,創(chuàng)建根據(jù)所述網(wǎng)頁(yè)元素預(yù)測(cè)所述網(wǎng)頁(yè)分類的預(yù)測(cè)模型。
[0063] 可選地,所述查詢?cè)~挖掘子模塊包括:
[0064] 頻度統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)所述捜索日志中各個(gè)查詢?cè)~的查詢頻度;
[00化]分類提取子單元,用于提取查詢頻度高于預(yù)設(shè)閥值或是預(yù)設(shè)比例的查詢?cè)~作為網(wǎng) 頁(yè)分類;
[0066] 分類添加子單元,用于提取與所述網(wǎng)頁(yè)分類觸發(fā)同一網(wǎng)頁(yè)的查詢?cè)~添加至所述網(wǎng) 頁(yè)分類。
[0067] 可選地,當(dāng)所述網(wǎng)頁(yè)元素包括根域名時(shí),所述預(yù)測(cè)模型包括根據(jù)所述根域名預(yù)測(cè) 所述網(wǎng)頁(yè)分類的第一預(yù)測(cè)模型,所述模型生成子模塊包括:
[0068] 根域名提取子單元,用于提取所述捜索日志對(duì)應(yīng)訪問(wèn)的歷史網(wǎng)頁(yè)的根域名;
[0069] 查詢?cè)~統(tǒng)計(jì)子單元,用于根據(jù)所述捜索日志訪問(wèn)的多個(gè)歷史網(wǎng)頁(yè)W及觸發(fā)所述歷 史網(wǎng)頁(yè)的查詢?cè)~,統(tǒng)計(jì)各個(gè)根域名對(duì)應(yīng)的查詢?cè)~;
[0070] 第一概率值計(jì)算子單元,用于根據(jù)所述查詢?cè)~所屬的網(wǎng)頁(yè)分類,計(jì)算所述根域名 屬于各個(gè)網(wǎng)頁(yè)分類的第一概率值;
[0071] 第一預(yù)測(cè)模型創(chuàng)建子單元,用于根據(jù)所述第一概率值創(chuàng)建包括所述根域名屬于各 個(gè)網(wǎng)頁(yè)分類的判斷條件的第一預(yù)測(cè)模型;
[0072] 所述候選預(yù)測(cè)模塊包括:
[0073] 第一輸入子模塊,用于提取所述目標(biāo)網(wǎng)頁(yè)的根域名輸入所述第一預(yù)測(cè)模型;
[0074] 第一預(yù)測(cè)子模塊,用于所述第一預(yù)測(cè)模型判斷所述根域名屬于所述某個(gè)網(wǎng)頁(yè)分類 的第一概率值大于第一目標(biāo)概率值,則將所述網(wǎng)頁(yè)分類作為所述目標(biāo)網(wǎng)頁(yè)所屬的候選網(wǎng)頁(yè) 分類。
[0075] 可選地,當(dāng)所述網(wǎng)頁(yè)元素包括網(wǎng)頁(yè)標(biāo)題時(shí),所述預(yù)測(cè)模型包括根據(jù)所述網(wǎng)頁(yè)標(biāo)題 預(yù)測(cè)所述網(wǎng)頁(yè)分類的第二預(yù)測(cè)模型,所述模型生成子模塊包括:
[0076] 第二預(yù)測(cè)模型創(chuàng)建子單元,用于根據(jù)所述網(wǎng)頁(yè)分類W及屬于所述網(wǎng)頁(yè)分類的查詢 詞,生成根據(jù)所述查詢?cè)~檢索所述網(wǎng)頁(yè)分類的第一倒排索引,創(chuàng)建包括所述第一倒排索引 的第二預(yù)測(cè)模型;
[0077] 所述候選預(yù)測(cè)模塊包括:
[007引第二輸入子模塊,用于提取所述目標(biāo)網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)題中包括的查詢?cè)~輸入所述第 二預(yù)測(cè)模型;
[0079] 第二預(yù)測(cè)子模塊,用于所述第二預(yù)測(cè)模型按照所述第一倒排索引查找所述查詢?cè)~ 對(duì)應(yīng)的網(wǎng)頁(yè)分類,并將查找的網(wǎng)頁(yè)分類作為所