專利名稱:一種同義詞的挖掘方法和裝置的制作方法
一種同義詞的挖掘方法和裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種同義詞的挖掘方法和裝置。
背景技木當(dāng)用戶在使用搜索引擎進(jìn)行搜索時(shí),為了能夠?qū)⑴c用戶所輸入query的同義詞相匹配的網(wǎng)頁(yè)也包含在捜索結(jié)果中召回,會(huì)用到基于同義詞的搜索請(qǐng)求(query)擴(kuò)展,即在利用query進(jìn)行搜索的同時(shí)也利用query的同義詞進(jìn)行捜索。為了在搜索引擎中應(yīng)用該技木,同義詞的挖掘是非常重要的基礎(chǔ)工作。現(xiàn)有的同義詞挖掘方式通過計(jì)算語(yǔ)料庫(kù)中各詞語(yǔ)之間的相關(guān)概率來進(jìn)行同義詞 挖掘,但這種方式需要對(duì)語(yǔ)料庫(kù)中的詞語(yǔ)兩兩進(jìn)行計(jì)算,效率很低。
發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種同義詞的挖掘方法和裝置,以便于提高同義詞挖掘的效率。具體技術(shù)方案如下一種同義詞的挖掘方法,該方法包括A、從搜索日志中,搜索請(qǐng)求query及其對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取由短語(yǔ)對(duì)構(gòu)成的同義詞的候選資源;B、從候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的短語(yǔ)對(duì)中具有相同的上下文。步驟A中所述候選資源的獲取具體包括以下所列任一方式或任意方式的組合從搜索日志中獲取query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到query與標(biāo)題構(gòu)成的短語(yǔ)對(duì);從搜索日志中獲取相同query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到標(biāo)題與標(biāo)題構(gòu)成的短語(yǔ)對(duì);以及,從搜索日志中獲取被點(diǎn)擊或?yàn)g覽的相同網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,得到query與query構(gòu)成的短語(yǔ)對(duì)。所述步驟B具體包括BI、對(duì)同義詞的候選資源的各短語(yǔ)對(duì)進(jìn)行相似性過濾,得到候選同義短語(yǔ)對(duì);B2、從候選同義短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的候選同義短語(yǔ)對(duì)中具有相同的上下文。具體地,所述步驟BI中將滿足以下所列相似性過濾條件中的任一或任意組合的短語(yǔ)對(duì)過濾掉,得到候選同義短語(yǔ)對(duì)短語(yǔ)對(duì)在候選資源中出現(xiàn)的次數(shù)在設(shè)定次數(shù)閾值NI以下;短語(yǔ)對(duì)中短語(yǔ)之間的編輯距離在設(shè)定距離閾值L以下;
短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值;短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值;以及,短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度小于預(yù)設(shè)的相似度閾值。短語(yǔ)對(duì)中短語(yǔ)之間的字重合度采用 公式C1(P1,P2) = C(°i(p(^ L1(丨2))計(jì)算,其
中,Cl (P1,P2)為短語(yǔ)對(duì)中短語(yǔ)Pl和短語(yǔ)P2之間的字重合度,Coml (Pl,P2)為Pl和P2間相同的字?jǐn)?shù)目,LUX)為短語(yǔ)X包含的字?jǐn)?shù)目;短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度采用公式C2(P1,P2) = ~ゴL20^P: L2(p2))'計(jì)算,
其中,C2 (PI, P2)為短語(yǔ)對(duì)中短語(yǔ)Pl和短語(yǔ)P2之間的詞重合度,Com2 (PI, P2)為Pl和P2間相同的詞數(shù)目,LUX)為短語(yǔ)X包含的詞數(shù)目。具體地,短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度的計(jì)算方法為對(duì)由短語(yǔ)Pl和短語(yǔ)P2構(gòu)成的短語(yǔ)對(duì),分別計(jì)算Pl中各詞語(yǔ)的TF-IDF值構(gòu)成Pl的特征向量以及P2中各詞語(yǔ)的TF-IDF值構(gòu)成P2的特征向量;計(jì)算Pl的特征向量和P2的特征向量的余弦距離作為Pl和P2的TF-IDF相似度。較優(yōu)地,在所述步驟A和步驟B之間進(jìn)一歩包括E、對(duì)候選資源的各短語(yǔ)對(duì)中來源于標(biāo)題的短語(yǔ)進(jìn)行預(yù)處理,以刪除所述來源于標(biāo)題的短語(yǔ)中的噪聲數(shù)據(jù);其中,所述預(yù)處理包括E1、基于預(yù)設(shè)的符號(hào)對(duì)所述來源于標(biāo)題的短語(yǔ)進(jìn)行分割;E2、將分割后得到的各部分中滿足預(yù)設(shè)刪除位置要求的部分刪除;或者,如果所述短語(yǔ)對(duì)中的另ー個(gè)短語(yǔ)來源于query,則將步驟El分割后得到的各部分中,與所述來源于query的短語(yǔ)之間字重合度不滿足預(yù)設(shè)字重合度要求的部分刪除。更優(yōu)地,在所述步驟BI和B2之間還包括將其中一個(gè)短語(yǔ)包含另ー個(gè)短語(yǔ)的全部?jī)?nèi)容的候選短語(yǔ)對(duì)刪除。更進(jìn)一歩地,在所述步驟B之后還包括C、將抽取出的同義詞對(duì)進(jìn)行整合,將同一個(gè)詞語(yǔ)對(duì)應(yīng)的所有同義詞構(gòu)成該詞語(yǔ)對(duì)應(yīng)的同義詞集合。更進(jìn)一歩地,在所述步驟C之后還包括D、對(duì)同義詞集合進(jìn)行噪聲過濾,具體為將詞語(yǔ)Wl對(duì)應(yīng)的同義詞集合中滿足以下所列過濾條件中的任一或任意組合的詞語(yǔ)w2從詞語(yǔ)Wl對(duì)應(yīng)的同義詞集合中過濾掉詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)在預(yù)設(shè)的次數(shù)閾值N2以下;詞語(yǔ)w2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻在預(yù)設(shè)的相對(duì)詞頻閾值N3以下,其中,詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻的計(jì)算方式為詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)除以詞語(yǔ)對(duì)應(yīng)的同義詞集合中各詞語(yǔ)與詞語(yǔ)分別構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)次數(shù)的最大值;詞語(yǔ)w2對(duì)應(yīng)的同義詞集合與詞語(yǔ)wl對(duì)應(yīng)的同義詞集合的重合度小于預(yù)設(shè)的重合度閾值Ol ;在捜索日志中,詞語(yǔ)w2與詞語(yǔ)wl在同一個(gè)query中共現(xiàn)的次數(shù)超過預(yù)設(shè)的次數(shù)閾值N4 ;以及,詞語(yǔ)w2與詞語(yǔ)wl對(duì)應(yīng)同一語(yǔ)種的翻譯詞語(yǔ)重合度小于預(yù)設(shè)的重合度閾值02。一種同義詞的挖掘裝置,該裝置包括候選資源獲取單元和同義詞抽取単元;所述候選資源獲取単元,用于從搜索日志中,搜索請(qǐng)求query及其對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取由短語(yǔ)對(duì)構(gòu)成的同義詞的候選資源;所述同義詞抽取単元,用于從候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的 同義詞對(duì)在所屬的短語(yǔ)對(duì)中具有相同的上下文。具體地,所述候選資源獲取單元采用以下所列任一方式或任意方式的組合獲取所述候選資源從搜索日志中獲取query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到query與標(biāo)題構(gòu)成的短語(yǔ)對(duì);從搜索日志中獲取相同query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到標(biāo)題與標(biāo)題構(gòu)成的短語(yǔ)對(duì);以及,從搜索日志中獲取被點(diǎn)擊或?yàn)g覽的相同網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,得到query與query構(gòu)成的短語(yǔ)對(duì)。其中,所述同義詞抽取単元具體包括相似性過濾子単元和同義詞抽取子単元;所述相似性過濾子単元,用于對(duì)同義詞的候選資源的各短語(yǔ)對(duì)進(jìn)行相似性過濾,得到候選同義短語(yǔ)對(duì);所述同義詞抽取子単元,用于從候選同義短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的候選同義短語(yǔ)對(duì)中具有相同的上下文。所述相似性過濾子単元具體將滿足以下所列相似性過濾條件中的任一或任意組合的短語(yǔ)對(duì)過濾掉,得到候選同義短語(yǔ)對(duì)短語(yǔ)對(duì)在候選資源中出現(xiàn)的次數(shù)在設(shè)定次數(shù)閾值NI以下;短語(yǔ)對(duì)中短語(yǔ)之間的編輯距離在設(shè)定距離閾值L以下;短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值;短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值;以及,短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度小于預(yù)設(shè)的相似度閾值。當(dāng)所述相似性過濾條件包括短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值時(shí),所述同義詞抽取單元還包括字重合度計(jì)算子単元,用于采用公式C1(P1,P2) =L1(^>2))計(jì)算所述候
選資源的短語(yǔ)對(duì)中短語(yǔ)之間的字重合度,并將計(jì)算結(jié)果提供給所述相似性過濾子単元;其中,C1(P1,P2)為短語(yǔ)對(duì)中短語(yǔ)Pl和短語(yǔ)P2之間的字重合度,Coml (PI,P2)為Pl和P2間相同的字?jǐn)?shù)目,LI⑴為短語(yǔ)X包含的字?jǐn)?shù)目。當(dāng)所述相似性過濾條件包括短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值時(shí),所述同義詞抽取單元還包括
詞重合度計(jì)算子単元,用于采用公式C2(P1,P2)='計(jì)算所述
候選資源的短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度,并將計(jì)算結(jié)果提供給所述相似性過濾子単元;其中,C2(P1,P2)為短語(yǔ)對(duì)中短語(yǔ)Pl和短語(yǔ)P2之間的詞重合度,Com2(Pl,P2)為Pl和P2間相同的詞數(shù)目,LI⑴為短語(yǔ)X包含的詞數(shù)目。當(dāng)所述相似性過濾條件包括短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度小于預(yù)設(shè)的相似度閾值時(shí),所述同義詞抽取單元還包括相似度確定子単元,用于在所述候選資源中,對(duì)短語(yǔ)Pl和短語(yǔ)P2構(gòu)成的短語(yǔ)對(duì)分別計(jì)算Pl中各詞語(yǔ)的TF-IDF值構(gòu)成Pl的特征向量以及P2中各詞語(yǔ)的TF-IDF值構(gòu)成P2的特征向量,計(jì)算Pl的特征向量和P2的特征向量的余弦距離作為Pl和P2的TF-IDF相似度,并將計(jì)算結(jié)果提供給所述相似性過濾子単元。
較優(yōu)地,該裝置還包括預(yù)處理単元,用于對(duì)候選資源的各短語(yǔ)對(duì)中來源于標(biāo)題的短語(yǔ)進(jìn)行預(yù)處理,以刪除所述來源于標(biāo)題的短語(yǔ)中的噪聲數(shù)據(jù);其中所述預(yù)處理單元具體包括分割處理子単元和過濾處理子單元;所述分割處理子単元,用于基于預(yù)設(shè)的符號(hào)對(duì)所述來源于標(biāo)題的短語(yǔ)進(jìn)行分割;所述過濾處理子単元,用于將所述分割處理子単元分割后得到的各部分中滿足預(yù)設(shè)刪除位置要求的部分刪除;或者,如果所述短語(yǔ)對(duì)中的另ー個(gè)短語(yǔ)來源于query,則將所述分割處理子単元分割后得到的各部分中,與所述來源于query的短語(yǔ)之間字重合度不滿足于預(yù)設(shè)字重合度要求的部分刪除;所述同義詞抽取単元,用于從經(jīng)所述預(yù)處理單元處理后的候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì)。更優(yōu)地,所述同義詞抽取單元還包括無效短語(yǔ)對(duì)過濾子單元,用于在所述候選同義短語(yǔ)對(duì)中,將其中一個(gè)短語(yǔ)包含另ー個(gè)短語(yǔ)的全部?jī)?nèi)容的候選短語(yǔ)對(duì)刪除;所述同義詞抽取子單元從所述無效短語(yǔ)對(duì)過濾子單元處理后的候選同義短語(yǔ)對(duì)中抽取同義詞對(duì)。更進(jìn)一歩地,該裝置還包括同義詞整合単元,用于將所述同義詞抽取單元抽取出的同義詞進(jìn)行整合,將同一個(gè)詞語(yǔ)對(duì)應(yīng)的所有同義詞構(gòu)成該詞語(yǔ)對(duì)應(yīng)的同義詞集合。另外,該裝置還可以包括噪聲過濾單元,用于對(duì)所述同義詞整合単元得到的同義詞集合進(jìn)行噪聲過濾,具體為將詞語(yǔ)Wl對(duì)應(yīng)的同義詞集合中滿足以下所列過濾條件中的任一或任意組合的詞語(yǔ)w2從詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中過濾掉詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)在預(yù)設(shè)的次數(shù)閾值N2以下;詞語(yǔ)w2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻在預(yù)設(shè)的相對(duì)詞頻閾值N3以下,其中,詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻的計(jì)算方式為詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)除以詞語(yǔ)對(duì)應(yīng)的同義詞集合中各詞語(yǔ)與詞語(yǔ)分別構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)次數(shù)的最大值;詞語(yǔ)w2對(duì)應(yīng)的同義詞集合與詞語(yǔ)wl對(duì)應(yīng)的同義詞集合的重合度小于預(yù)設(shè)的重合度閾值01 ;
在捜索日志中,詞語(yǔ)《2與詞語(yǔ)wl在同一個(gè)query中共現(xiàn)的次數(shù)超過預(yù)設(shè)的次數(shù)閾值N4 ;以及,詞語(yǔ)w2與詞語(yǔ)wl對(duì)應(yīng)同一語(yǔ)種的翻譯詞語(yǔ)重合度小于預(yù)設(shè)的重合度閾值02。由以上技術(shù)方案可以看出,本發(fā)明從搜索日志中,query及其對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取由短語(yǔ)對(duì)構(gòu)成的同義詞的候選資源,并利用同義詞對(duì)在所屬的短語(yǔ)中具有相同的上下文這ー特點(diǎn),從候選資源中抽取同義詞對(duì)。本發(fā)明無需對(duì)網(wǎng)頁(yè)中的詞語(yǔ)兩兩計(jì)算相似度,顯然大大提高了同義詞挖掘的效率。
圖I為本發(fā)明實(shí)施例一提供的方法流程圖;圖2為本發(fā)明實(shí)施例ニ提供的裝置結(jié)構(gòu)圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。實(shí)施例一、圖I為本發(fā)明實(shí)施例一提供的方法流程圖,該實(shí)施例所示的方法可以由搜索引擎所在的服務(wù)器端在后臺(tái)離線執(zhí)行,如圖I所示,該方法可以包括以下步驟步驟101 :從搜索日志中,query及其對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取同義詞的候選資源。當(dāng)用戶輸入query后,在搜索結(jié)果中發(fā)生了點(diǎn)擊或?yàn)g覽行為,通常這個(gè)query和被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題間會(huì)具有語(yǔ)義上的關(guān)聯(lián)甚至一致,同一 query對(duì)應(yīng)的被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題間也可能具有語(yǔ)義上的關(guān)聯(lián)甚至一致。再者,不同用戶輸入不同的query,或者相同用戶輸入不同的query,但對(duì)于不同query的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)相同,則這些相同的網(wǎng)頁(yè)對(duì)應(yīng)的不同query間可能具有語(yǔ)義上的關(guān)聯(lián)甚至一致。基于以上情況的考慮,可以將上述的這些可能具有語(yǔ)義上的關(guān)聯(lián)甚至一致的短語(yǔ)(本實(shí)施例中所述的短語(yǔ)為廣義的短語(yǔ)包含句子、詞語(yǔ)等形式)獲取出來,作為抽取同義詞的候選資源。具體地,候選資源的獲取可以包括以下三種方式任一或任意組合I)從搜索日志中獲取query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到query與標(biāo)題構(gòu)成的短語(yǔ)對(duì)(即“query-title”對(duì))作為同義詞的候選資源。2)從搜索日志中獲取相同query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到標(biāo)題與標(biāo)題構(gòu)成的短語(yǔ)對(duì)(即“title-title”對(duì))作為同義詞的候選資源。3)從搜索日志中獲取被點(diǎn)擊或?yàn)g覽的相同網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,得到query與query構(gòu)成的短語(yǔ)對(duì)(即“query-query”對(duì))作為同義詞的候選資源。在得到上述各短語(yǔ)對(duì)(包括“query_title”對(duì)、“title-title”對(duì)或“query-query”對(duì))后,可以將這些短語(yǔ)對(duì)作為同義詞的候選資源存儲(chǔ)為數(shù)據(jù)文件,供步驟102調(diào)用。步驟102 :對(duì)同義詞的候選資源進(jìn)行相似性過濾,得到候選同義短語(yǔ)對(duì)。由于在實(shí)際情況中,能會(huì)存在大量的無關(guān)點(diǎn)擊、瀏覽或者網(wǎng)頁(yè)標(biāo)題不規(guī)范等原因,可能會(huì)導(dǎo)致步驟101獲取的同義詞的候選資源中,各短語(yǔ)對(duì)之間在語(yǔ)義上相去甚遠(yuǎn)。因此,在本步驟中可以對(duì)候選資源進(jìn)行相似性過濾,將在語(yǔ)義上相去甚遠(yuǎn)的短語(yǔ)對(duì)過濾掉。在進(jìn)行相似性過濾時(shí),可以將滿足以下過濾條件中的任一或任意組合的短語(yǔ)對(duì)從候選資源中過濾掉I)基于出現(xiàn)次數(shù)統(tǒng)計(jì)的過濾條件短語(yǔ)對(duì)在候選資源中共現(xiàn)的次數(shù)在設(shè)定次數(shù)閾值NI以下。即統(tǒng)計(jì)短語(yǔ)對(duì)在候選資源中共現(xiàn)的次數(shù),將共現(xiàn)的次數(shù)在設(shè)定次數(shù)閾值NI以下的短語(yǔ)對(duì)從候選資源中過濾棹。如果短語(yǔ)對(duì)為“query-title”對(duì),則統(tǒng)計(jì)該query對(duì)應(yīng)的搜索結(jié)果中該title的 網(wǎng)頁(yè)被點(diǎn)擊或?yàn)g覽的次數(shù),即為該短語(yǔ)對(duì)在候選資源中共現(xiàn)的次數(shù)。如果短語(yǔ)對(duì)為“title-title”對(duì),則統(tǒng)計(jì)這兩個(gè)title的網(wǎng)頁(yè)作為同一 query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的次數(shù),即為該短語(yǔ)對(duì)在候選資源中共現(xiàn)的次數(shù)。如果短語(yǔ)對(duì)為“query-query”對(duì),則統(tǒng)計(jì)這兩個(gè)query對(duì)應(yīng)同一個(gè)被點(diǎn)擊或?yàn)g覽網(wǎng)頁(yè)的次數(shù),即為該短語(yǔ)對(duì)在候選資源中共現(xiàn)的次數(shù)。2)基于編輯距離的過濾條件短語(yǔ)對(duì)中短語(yǔ)之間的編輯距離在設(shè)定距離閾值L以下。計(jì)算短語(yǔ)對(duì)中短語(yǔ)之間的編輯距離,將編輯距離在設(shè)定距離閾值L以下的短語(yǔ)對(duì)從候選資源中過濾掉。其中,短語(yǔ)之間的編輯距離可以采用萊文斯坦算法(LD, LevenshteinDistance)算法計(jì)算。在本實(shí)施例中,LD算法衡量的是短語(yǔ)對(duì)之間從ー個(gè)短語(yǔ)轉(zhuǎn)換為另ー個(gè)短語(yǔ)所需要的最小詞語(yǔ)操作數(shù)包括増加、刪除或修改詞語(yǔ)的次數(shù)。比如,短語(yǔ)對(duì)由短語(yǔ)Pl和短語(yǔ)P2構(gòu)成,Pl的詞語(yǔ)構(gòu)成為al、a2和a3,P2的詞語(yǔ)構(gòu)成為bl、b2和b3,則短語(yǔ)Pl和短語(yǔ)P2之間的編輯距離LD(Pl,P2)可以采用以下的迭代方式計(jì)算LD(P I ,P2)=LD(ala2a3 ,blb2b3)=
Jmin(LD(ala2a3, bib2) +1, LD(ala2,blb2b3) +1,LD(ala2,blb2)),a3 = b3LD算法為已有成熟技木,在此不再詳細(xì)描述。3)基于字重合度的過濾條件短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值。計(jì)算短語(yǔ)對(duì)中短語(yǔ)之間的字重合度,將字重合度小于預(yù)設(shè)的字重合度閾值的短語(yǔ)對(duì)從候選資源中過濾棹。其中,短語(yǔ)之間的字重合度指的是兩個(gè)短語(yǔ)間相同的字?jǐn)?shù)目與兩個(gè)短語(yǔ)中字長(zhǎng)度中較大值的比值。比如,短語(yǔ)對(duì)由短語(yǔ)Pl和短語(yǔ)P2構(gòu)成,Pl和P2之間的字重合度Cl (Pl,P2)為
C1(P1,P2)、ニ1^,ニ)),(2)其中,Coml (Pl,P2)為Pl和P2間相同的字?jǐn)?shù)目,LI (X)為短語(yǔ)X包含的字?jǐn)?shù)目。
4)基于詞重合度的過濾條件短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值。計(jì)算短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度,將詞重合度小于預(yù)設(shè)的詞重合度閾值的短語(yǔ)對(duì)從候選資源中過濾棹。其中,短語(yǔ)之間的詞重合度指的是兩個(gè)短語(yǔ)間相同的詞數(shù)目與兩個(gè)短語(yǔ)中詞數(shù)目中較大值的比值。比如,短語(yǔ)對(duì)由短語(yǔ)Pl和短語(yǔ)P2構(gòu)成,Pl和P2之間的詞重合度C2 (Pl,P2)為
C2(P1,P2) = ^^l|W’⑶其中,Com2(Pl,P2)為Pl和P2間相同的詞數(shù)目,L2 (X)為短語(yǔ)X包含的詞數(shù)目。5)基于詞頻-倒文檔率(TF-IDF)相似度的過濾條件短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度小于預(yù)設(shè)的相似度閾值。計(jì)算短語(yǔ)對(duì)中兩短語(yǔ)的各詞語(yǔ)TF-IDF值分別作 為兩短語(yǔ)的特征向量,然后計(jì)算兩特征向量的余弦距離作為兩短語(yǔ)的TF-IDF相似度,將TF-IDF相似度小于預(yù)設(shè)的相似度閾值的短語(yǔ)對(duì)從候選資源中過濾棹。其中,短語(yǔ)P中詞語(yǔ)Wi的TF-IDF值T (Wi)可以采用如下公式計(jì)算
T(w,) = tf(wt) * log(—— + a),(4)
C(W1)tf(w,)為詞語(yǔ)Wi在短語(yǔ)P中出現(xiàn)的次數(shù)除以短語(yǔ)P包含的詞語(yǔ)數(shù)目,N為候選資源中所有短語(yǔ)的數(shù)目,C(Wi)為Wi在所有短語(yǔ)中出現(xiàn)的次數(shù),a為預(yù)設(shè)的參數(shù)。上述過濾條件中涉及到的閾值可以根據(jù)對(duì)同義詞質(zhì)量的需求進(jìn)行設(shè)置和調(diào)整。上述五種過濾條件可以以任意組合的形式使用,例如,當(dāng)同時(shí)采用以上五種過濾條件時(shí),可以同時(shí)滿足以上五種過濾條件的短語(yǔ)對(duì)從候選資源中過濾棹。另外,在標(biāo)題中可能會(huì)含有大量的噪聲數(shù)據(jù),例如標(biāo)題“冬天穿鞋要注意什么_百度知道”中的“_百度知道”就是噪聲數(shù)據(jù)。為了避免噪聲數(shù)據(jù)對(duì)步驟102中過濾處理以及后續(xù)同義詞抽取所帯來的影響,較優(yōu)地,在執(zhí)行步驟102之前可以首先對(duì)短語(yǔ)對(duì)中來源于標(biāo)題的短語(yǔ)進(jìn)行預(yù)處理,刪除短語(yǔ)中的噪聲數(shù)據(jù)。具體地,上述預(yù)處理可以包括基于預(yù)設(shè)的符號(hào)對(duì)來源于標(biāo)題的短語(yǔ)進(jìn)行分割,將分割后得到的各部分中,滿足預(yù)設(shè)刪除位置要求的部分刪除。例如當(dāng)存在預(yù)設(shè)符號(hào)“
時(shí),將分段后在“以后位置的部分刪除,對(duì)于“冬天穿鞋要注意什么_百度知道”的短語(yǔ),將以后位置的部分刪除,得到“冬天穿鞋要注意什么”。如果短語(yǔ)對(duì)為“query-title”對(duì),則基于預(yù)設(shè)的符號(hào)對(duì)來源于標(biāo)題的短語(yǔ)進(jìn)行分割后,可以將分割后得到的各部分中與query之間字重合度不滿足預(yù)設(shè)字重合度要求的部分刪除。例如,“小孩嗓子疼怎么辦”和“小孩喉嚨疼怎么辦_百度知道”的短語(yǔ)對(duì),來源于標(biāo)題的短語(yǔ)“小孩喉嚨疼怎么辦_百度知道”進(jìn)行分割后,“百度知道”顯然與“小孩嗓子疼怎么辦”的字重合度很低,將其刪除,僅保留“小孩喉嚨疼怎么辦”。需要說明的是,本步驟102并不是本發(fā)明的必要步驟,也可以將候選資源的各短語(yǔ)對(duì)都作為候選同義短語(yǔ)對(duì),直接對(duì)候選資源的各短語(yǔ)對(duì)執(zhí)行步驟103,即抽取同義詞對(duì)。步驟103 :從候選同義短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的候選同義短語(yǔ)對(duì)中的上下文相同。在確定出候選同義短語(yǔ)對(duì)后,需要對(duì)候選同義短語(yǔ)對(duì)中的同義詞進(jìn)行準(zhǔn)確地抽取。基于搜索引擎的特點(diǎn),候選同義短語(yǔ)對(duì)中大部分的詞語(yǔ)是一祥的,同義詞出現(xiàn)的上下文也是ー樣的。例如“小孩喉嚨疼怎么辦”與“小孩嗓子疼怎么辦”這樣的候選同義短語(yǔ)對(duì),同義詞對(duì)“喉嚨”和“嗓子”具有相同的上下文,即前面都是“小孩”,后面都是“疼”。利用這一特點(diǎn)便可以抽取出同義 詞對(duì)。另外,在執(zhí)行步驟103之前,當(dāng)步驟102確定的候選同義短語(yǔ)對(duì)中其中一個(gè)短語(yǔ)包含另ー個(gè)短語(yǔ)的全部?jī)?nèi)容,則該候選同義短語(yǔ)對(duì)無法用于同義詞的抽取,將這種情況的候選同義短語(yǔ)對(duì)刪除。步驟104 :將抽取出的同義詞對(duì)進(jìn)行整合構(gòu)成各詞語(yǔ)的同義詞集合。在抽取的同義詞對(duì)中,可能會(huì)在多個(gè)同義詞對(duì)中具有相同的同義詞,也就是說,一個(gè)詞語(yǔ)可能會(huì)抽取出多個(gè)同義詞,將同一個(gè)詞語(yǔ)對(duì)應(yīng)的所有同義詞構(gòu)成該詞語(yǔ)對(duì)應(yīng)的同義詞集合。例如,抽取出的同義詞對(duì)中包括“&1-&2”、“&1-&3”、“&1-&4”,“&2-&4”進(jìn)行整合后,可以得到al對(duì)應(yīng)的同義詞集合為{a2,a3,a4},a2對(duì)應(yīng)的同義詞集合為{al,a4},a4對(duì)應(yīng)的同義詞集合為{al,a2}。步驟105 :將各同義詞集合進(jìn)行噪聲過濾。本步驟中進(jìn)行的噪聲過濾可以采用以下方式過濾條件中的任一或任意組合I)基于同義詞的絕對(duì)詞頻的過濾條件對(duì)應(yīng)同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)在預(yù)設(shè)的次數(shù)閾值N2以下。即統(tǒng)計(jì)詞語(yǔ)w的同義詞集合中各詞語(yǔ)與w分別構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù),將對(duì)應(yīng)同義詞對(duì)的出現(xiàn)次數(shù)在N2以下的詞語(yǔ)從詞語(yǔ)w的同義詞集合中刪除。2)基于同義詞的相對(duì)詞頻的過濾條件對(duì)應(yīng)同義詞對(duì)在同義詞集合中的相對(duì)詞頻在預(yù)設(shè)的相對(duì)詞頻閾值N3以下。一個(gè)詞語(yǔ)可能會(huì)對(duì)應(yīng)多個(gè)同義詞,如果在詞語(yǔ)w對(duì)應(yīng)的同義詞集合中,某個(gè)詞語(yǔ)a與詞語(yǔ)w構(gòu)成的同義詞對(duì)的絕對(duì)詞頻相比較其他詞語(yǔ)與詞語(yǔ)w構(gòu)成的同義詞對(duì)的絕對(duì)詞頻低很多,則這個(gè)詞語(yǔ)a就不太可能是詞語(yǔ)w的同義詞。詞語(yǔ)a與詞語(yǔ)w構(gòu)成的同義詞對(duì)的相對(duì)詞頻可以為詞語(yǔ)a與詞語(yǔ)w構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)除以該同義詞集合中各詞語(yǔ)與詞語(yǔ)w分別構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)次數(shù)的最大值。例如,在詞語(yǔ)w的同義詞集合中存在詞語(yǔ)al、a2、a3,假設(shè)a3與w構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)最大,即為Num3,al與w構(gòu)成的同義詞對(duì)以及a2與w構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)分別為Numl和Num2。al對(duì)應(yīng)同義詞對(duì)在同義詞集合中的相對(duì)詞頻為Numl/Num3,a2對(duì)應(yīng)同義詞在同義詞集合中的相對(duì)詞頻為Num2/Num3,a3對(duì)應(yīng)同義詞在同義詞集合中的相對(duì)詞頻為I。如果Numl/Num3的值在預(yù)設(shè)的相對(duì)詞頻閾值N3以下,則將al從w對(duì)應(yīng)的同義詞集合中刪除。3)基于同義詞的重合度的過濾條件兩詞語(yǔ)對(duì)應(yīng)的同義詞集合的重合度小于預(yù)設(shè)的重合度閾值01。如果詞語(yǔ)wl對(duì)應(yīng)的同義詞集合為{&1,&2,&3},詞語(yǔ)《2對(duì)應(yīng)的同義詞集合為出1沘2,ゎ3},如果《1和《2是同義詞,則{al,a2,a3}和{bl,b2,b3}的重合度也會(huì)較高。基于該道理對(duì)詞語(yǔ)w對(duì)應(yīng)的同義詞集合進(jìn)行過濾時(shí),可以確定同義詞集合中各詞語(yǔ)對(duì)應(yīng)的同義詞集合,分別與詞語(yǔ)W對(duì)應(yīng)的同義詞集合計(jì)算重合度,對(duì)應(yīng)重合度低于預(yù)設(shè)的重合度閾值的詞語(yǔ)從同義詞集合中過濾棹。4)基于同義詞的上下文共現(xiàn)的過濾條件兩詞語(yǔ)在同一個(gè)query中共現(xiàn)的次數(shù)超過預(yù)設(shè)的次數(shù)閾值N4。如果兩個(gè)詞語(yǔ)wl和《2是同義詞,則wl和《2通常是不會(huì)共現(xiàn)于同ー個(gè)query中的,也就是說,用戶在輸入query時(shí),通常不會(huì)同時(shí)輸入互為同義詞的兩個(gè)詞。因此,可以統(tǒng)計(jì)詞語(yǔ)w對(duì)應(yīng)的同義詞集合中各詞語(yǔ)與w共現(xiàn)于同一個(gè)query中的次數(shù),如果次數(shù)超過設(shè)定的次數(shù)閾值N4,則將對(duì)應(yīng)詞語(yǔ)從詞語(yǔ)w對(duì) 應(yīng)的同義詞集合中過濾棹。5)基于雙語(yǔ)翻譯語(yǔ)料的過濾條件兩詞語(yǔ)對(duì)應(yīng)同一語(yǔ)種的翻譯詞語(yǔ)重合度小于預(yù)設(shè)的重合度閾值02。如果詞語(yǔ)wl和w2是同義詞,那么wl和w2對(duì)應(yīng)的同一語(yǔ)種的翻譯詞語(yǔ)通常具有較高的重合度,例如,對(duì)于“著名”和“聞名”來說,“著名”對(duì)應(yīng)的英文的翻譯詞語(yǔ)為 “famous”、“well-known'“celebrated” 和 “renowned”,“聞名”對(duì)應(yīng)的英文的翻譯詞語(yǔ)為“throat'“famous”和“renowned”,可見兩者對(duì)應(yīng)的翻譯詞語(yǔ)具有很高的重合度。反之,可以確定詞語(yǔ)w對(duì)應(yīng)的同義詞集合中各詞語(yǔ)與詞語(yǔ)w對(duì)應(yīng)同一語(yǔ)種的翻譯詞語(yǔ)的重合度,如果重合度很低,則將對(duì)應(yīng)詞語(yǔ)從詞語(yǔ)w對(duì)應(yīng)的同義詞集合中過濾棹。本步驟中的五種過濾條件可以擇ー使用,也可以以任意組合的形式使用。例如,當(dāng)選擇以上五種過濾條件組合使用時(shí),將同時(shí)滿足以上五種過濾條件的詞語(yǔ)從同義詞集合中過濾棹。通過上述過濾條件組合方式以及過濾條件中閾值的設(shè)置,能夠靈活控制挖掘出的同義詞的質(zhì)量。至此實(shí)施例一所示的流程結(jié)束。利用實(shí)施例一提供的方法能夠挖掘出詞語(yǔ)的同義詞集合,并存儲(chǔ)在數(shù)據(jù)庫(kù)中。在數(shù)據(jù)庫(kù)中的數(shù)據(jù)存儲(chǔ)格式實(shí)例可以如表I所示。表I
權(quán)利要求
1.一種同義詞的挖掘方法,其特征在于,該方法包括 A、從搜索日志中,搜索請(qǐng)求query及其對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取由短語(yǔ)對(duì)構(gòu)成的同義詞的候選資源; B、從候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的短語(yǔ)對(duì)中具有相同的上下文。
2.根據(jù)權(quán)利要求I所述的方法,其特征在干,步驟A中所述候選資源的獲取具體包括以下所列任一方式或任意方式的組合 從搜索日志中獲取query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到query與 標(biāo)題構(gòu)成的短語(yǔ)對(duì); 從搜索日志中獲取相同query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到標(biāo)題與標(biāo)題構(gòu)成的短語(yǔ)對(duì);以及, 從搜索日志中獲取被點(diǎn)擊或?yàn)g覽的相同網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,得到query與query構(gòu)成的短語(yǔ)對(duì)。
3.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,所述步驟B具體包括 BI、對(duì)同義詞的候選資源的各短語(yǔ)對(duì)進(jìn)行相似性過濾,得到候選同義短語(yǔ)對(duì); B2、從候選同義短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的候選同義短語(yǔ)對(duì)中具有相同的上下文。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟BI中將滿足以下所列相似性過濾條件中的任一或任意組合的短語(yǔ)對(duì)過濾掉,得到候選同義短語(yǔ)對(duì) 短語(yǔ)對(duì)在候選資源中出現(xiàn)的次數(shù)在設(shè)定次數(shù)閾值NI以下; 短語(yǔ)對(duì)中短語(yǔ)之間的編輯距離在設(shè)定距離閾值L以下; 短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值; 短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值;以及, 短語(yǔ)對(duì)中短語(yǔ)之間的詞頻TF-倒文檔率IDF相似度小于預(yù)設(shè)的相似度閾值。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,短語(yǔ)對(duì)中短語(yǔ)之間的字重合度采用公式
6.根據(jù)權(quán)利要求4所述的方法,其特征在干,短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度的計(jì)算方法為 對(duì)由短語(yǔ)Pl和短語(yǔ)P2構(gòu)成的短語(yǔ)對(duì),分別計(jì)算Pl中各詞語(yǔ)的TF-IDF值構(gòu)成Pl的特征向量以及P2中各詞語(yǔ)的TF-IDF值構(gòu)成P2的特征向量; 計(jì)算Pl的特征向量和P2的特征向量的余弦距離作為Pl和P2的TF-IDF相似度。
7.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,在所述步驟A和步驟B之間進(jìn)一歩包括 E、對(duì)候選資源的各短語(yǔ)對(duì)中來源于標(biāo)題的短語(yǔ)進(jìn)行預(yù)處理,以刪除所述來源于標(biāo)題的短語(yǔ)中的噪聲數(shù)據(jù); 其中,所述預(yù)處理包括 E1、基于預(yù)設(shè)的符號(hào)對(duì)所述來源于標(biāo)題的短語(yǔ)進(jìn)行分割; E2、將分割后得到的各部分中滿足預(yù)設(shè)刪除位置要求的部分刪除;或者,如果所述短語(yǔ)對(duì)中的另ー個(gè)短語(yǔ)來源于query,則將步驟El分割后得到的各部分中,與所述來源于query的短語(yǔ)之間字重合度不滿足預(yù)設(shè)字重合度要求的部分刪除。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟BI和B2之間還包括 將其中一個(gè)短語(yǔ)包含另ー個(gè)短語(yǔ)的全部?jī)?nèi)容的候選短語(yǔ)對(duì)刪除。
9.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,在所述步驟B之后還包括 C、將抽取出的同義詞對(duì)進(jìn)行整合,將同一個(gè)詞語(yǔ)對(duì)應(yīng)的所有同義詞構(gòu)成該詞語(yǔ)對(duì)應(yīng)的同義詞集合。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,在所述步驟C之后還包括 D、對(duì)同義詞集合進(jìn)行噪聲過濾,具體為將詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中滿足以下所列過濾條件中的任一或任意組合的詞語(yǔ)w2從詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中過濾掉 詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)在預(yù)設(shè)的次數(shù)閾值N2以下; 詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻在預(yù)設(shè)的相對(duì)詞頻閾值N3以下,其中,詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻的計(jì)算方式為詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)除以詞語(yǔ)對(duì)應(yīng)的同義詞集合中各詞語(yǔ)與詞語(yǔ)分別構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)次數(shù)的最大值; 詞語(yǔ)《2對(duì)應(yīng)的同義詞集合與詞語(yǔ)wl對(duì)應(yīng)的同義詞集合的重合度小于預(yù)設(shè)的重合度閾值Ol ; 在捜索日志中,詞語(yǔ)w2與詞語(yǔ)wl在同一個(gè)query中共現(xiàn)的次數(shù)超過預(yù)設(shè)的次數(shù)閾值N4 ;以及, 詞語(yǔ)《2與詞語(yǔ)wl對(duì)應(yīng)同一語(yǔ)種的翻譯詞語(yǔ)重合度小于預(yù)設(shè)的重合度閾值02。
11.一種同義詞的挖掘裝置,其特征在于,該裝置包括候選資源獲取單元和同義詞抽取單元; 所述候選資源獲取単元,用于從搜索日志中,搜索請(qǐng)求query及其對(duì)應(yīng)的捜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取由短語(yǔ)對(duì)構(gòu)成的同義詞的候選資源; 所述同義詞抽取単元,用于從候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的短語(yǔ)對(duì)中具有相同的上下文。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述候選資源獲取單元采用以下所列任一方式或任意方式的組合獲取所述候選資源 從搜索日志中獲取query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到query與標(biāo)題構(gòu)成的短語(yǔ)對(duì);從搜索日志中獲取相同query對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,得到標(biāo)題與標(biāo)題構(gòu)成的短語(yǔ)對(duì);以及, 從搜索日志中獲取被點(diǎn)擊或?yàn)g覽的相同網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,得到query與query構(gòu)成的短語(yǔ)對(duì)。
13.根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,所述同義詞抽取単元具體包括相似性過濾子単元和同義詞抽取子単元; 所述相似性過濾子単元,用于對(duì)同義詞的候選資源的各短語(yǔ)對(duì)進(jìn)行相似性過濾,得到候選同義短語(yǔ)對(duì); 所述同義詞抽取子単元,用于從候選同義短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的候選同義短語(yǔ)對(duì)中具有相同的上下文。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述相似性過濾子単元具體將滿足以下所列相似性過濾條件中的任一或任意組合的短語(yǔ)對(duì)過濾掉,得到候選同義短語(yǔ)對(duì) 短語(yǔ)對(duì)在候選資源中出現(xiàn)的次數(shù)在設(shè)定次數(shù)閾值NI以下; 短語(yǔ)對(duì)中短語(yǔ)之間的編輯距離在設(shè)定距離閾值L以下; 短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值; 短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值;以及, 短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度小于預(yù)設(shè)的相似度閾值。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在干,當(dāng)所述相似性過濾條件包括短語(yǔ)對(duì)中短語(yǔ)之間的字重合度小于預(yù)設(shè)的字重合度閾值時(shí),所述同義詞抽取單元還包括 字重合度計(jì)算子単元,用于采用公式
16.根據(jù)權(quán)利要求14所述的裝置,其特征在干,當(dāng)所述相似性過濾條件包括短語(yǔ)對(duì)中短語(yǔ)之間的詞重合度小于預(yù)設(shè)的詞重合度閾值時(shí),所述同義詞抽取單元還包括 i司重合度計(jì)算子単元,用于采用公式
17.根據(jù)權(quán)利要求14所述的裝置,其特征在于,當(dāng)所述相似性過濾條件包括短語(yǔ)對(duì)中短語(yǔ)之間的TF-IDF相似度小于預(yù)設(shè)的相似度閾值時(shí),所述同義詞抽取單元還包括 相似度確定子単元,用于在所述候選資源中,對(duì)短語(yǔ)Pl和短語(yǔ)P2構(gòu)成的短語(yǔ)對(duì)分別計(jì)算Pl中各詞語(yǔ)的TF-IDF值構(gòu)成Pl的特征向量以及P2中各詞語(yǔ)的TF-IDF值構(gòu)成P2的特征向量,計(jì)算Pl的特征向量和P2的特征向量的余弦距離作為Pl和P2的TF-IDF相似度,并將計(jì)算結(jié)果提供給所述相似性過濾子単元。
18.根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,該裝置還包括預(yù)處理単元,用于對(duì)候選資源的各短語(yǔ)對(duì)中來源于標(biāo)題的短語(yǔ)進(jìn)行預(yù)處理,以刪除所述來源于標(biāo)題的短語(yǔ)中的噪聲數(shù)據(jù); 其中所述預(yù)處理單元具體包括分割處理子単元和過濾處理子單元; 所述分割處理子単元,用于基于預(yù)設(shè)的符號(hào)對(duì)所述來源于標(biāo)題的短語(yǔ)進(jìn)行分割; 所述過濾處理子単元,用于將所述分割處理子単元分割后得到的各部分中滿足預(yù)設(shè)刪除位置要求的部分刪除;或者,如果所述短語(yǔ)對(duì)中的另ー個(gè)短語(yǔ)來源于query,則將所述分割處理子単元分割后得到的各部分中,與所述來源于query的短語(yǔ)之間字重合度不滿足于預(yù)設(shè)字重合度要求的部分刪除; 所述同義詞抽取単元,用于從經(jīng)所述預(yù)處理單元處理后的候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì)。
19.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述同義詞抽取單元還包括無效短語(yǔ)對(duì)過濾子単元,用于在所述候選同義短語(yǔ)對(duì)中,將其中一個(gè)短語(yǔ)包含另ー個(gè)短語(yǔ)的全部?jī)?nèi)容的候選短語(yǔ)對(duì)刪除; 所述同義詞抽取子單元從所述無效短語(yǔ)對(duì)過濾子單元處理后的候選同義短語(yǔ)對(duì)中抽取同義詞對(duì)。
20.根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,該裝置還包括同義詞整合単元,用于將所述同義詞抽取單元抽取出的同義詞進(jìn)行整合,將同一個(gè)詞語(yǔ)對(duì)應(yīng)的所有同義詞構(gòu)成該詞語(yǔ)對(duì)應(yīng)的同義詞集合。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,該裝置還包括噪聲過濾單元,用于對(duì)所述同義詞整合単元得到的同義詞集合進(jìn)行噪聲過濾,具體為將詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中滿足以下所列過濾條件中的任一或任意組合的詞語(yǔ)w2從詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中過濾掉 詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)在預(yù)設(shè)的次數(shù)閾值N2以下; 詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻在預(yù)設(shè)的相對(duì)詞頻閾值N3以下,其中,詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在所述詞語(yǔ)wl對(duì)應(yīng)的同義詞集合中的相對(duì)詞頻的計(jì)算方式為詞語(yǔ)《2與詞語(yǔ)wl構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)的次數(shù)除以詞語(yǔ)對(duì)應(yīng)的同義詞集合中各詞語(yǔ)與詞語(yǔ)分別構(gòu)成的同義詞對(duì)在候選資源中出現(xiàn)次數(shù)的最大值; 詞語(yǔ)《2對(duì)應(yīng)的同義詞集合與詞語(yǔ)wl對(duì)應(yīng)的同義詞集合的重合度小于預(yù)設(shè)的重合度閾值Ol ; 在捜索日志中,詞語(yǔ)w2與詞語(yǔ)wl在同一個(gè)query中共現(xiàn)的次數(shù)超過預(yù)設(shè)的次數(shù)閾值N4 ;以及, 詞語(yǔ)《2與詞語(yǔ)wl對(duì)應(yīng)同一語(yǔ)種的翻譯詞語(yǔ)重合度小于預(yù)設(shè)的重合度閾值02。
全文摘要
本發(fā)明提供了一種同義詞的挖掘方法和裝置,其中方法包括從搜索日志中,搜索請(qǐng)求(query)及其對(duì)應(yīng)的搜索結(jié)果中被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題,或者,被點(diǎn)擊或?yàn)g覽的網(wǎng)頁(yè)標(biāo)題對(duì)應(yīng)的不同query,獲取由短語(yǔ)對(duì)構(gòu)成的同義詞的候選資源;從候選資源的各短語(yǔ)對(duì)中抽取同義詞對(duì),其中抽取的同義詞對(duì)在所屬的短語(yǔ)對(duì)中具有相同的上下文。通過本發(fā)明能夠提高同義詞挖掘的效率和準(zhǔn)確性,也使挖掘出的同義詞更符合搜索引擎的語(yǔ)言特點(diǎn)。
文檔編號(hào)G06F17/30GK102760134SQ20111010897
公開日2012年10月31日 申請(qǐng)日期2011年4月28日 優(yōu)先權(quán)日2011年4月28日
發(fā)明者呼大為, 徐文智, 趙世奇 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司