一種用戶興趣偏好相似度確定方法及裝置制造方法
【專利摘要】本申請(qǐng)公開(kāi)了一種用戶興趣偏好相似度確定方法及裝置,包括:分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞;并基于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,分別確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第一用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量的分量為第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞;以及確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量之間的相似度,作為第一用戶和第二用戶之間的興趣偏好相似度。采用本申請(qǐng)實(shí)施例提供的方案,提高了確定用戶興趣偏好相似度的準(zhǔn)確性。
【專利說(shuō)明】一種用戶興趣偏好相似度確定方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】和計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種用戶興趣偏好相似 度確定方法及裝置。
【背景技術(shù)】
[0002] 在現(xiàn)有的互聯(lián)網(wǎng)技術(shù)中,網(wǎng)站上一般會(huì)發(fā)布一些業(yè)務(wù)對(duì)象,供登錄該網(wǎng)站的用戶 瀏覽,以及進(jìn)一步的針對(duì)特定業(yè)務(wù)對(duì)象的后續(xù)處理操作。例如,以電子商務(wù)網(wǎng)站為例,業(yè)務(wù) 對(duì)象具體可以是賣家用戶發(fā)布的產(chǎn)品,業(yè)務(wù)對(duì)象的信息具體可以是產(chǎn)品的描述信息,產(chǎn)品 的屬性信息,以及產(chǎn)品的購(gòu)買信息等,登錄電子商務(wù)網(wǎng)站的用戶可以通過(guò)瀏覽所發(fā)布產(chǎn)品 的各種信息,了解該產(chǎn)品的詳細(xì)情況,并可以進(jìn)一步的執(zhí)行收藏、購(gòu)買或推薦給其他用戶等 處理操作;以社區(qū)網(wǎng)站為例,業(yè)務(wù)對(duì)象具體可以是社區(qū)用戶發(fā)布的帖子,業(yè)務(wù)對(duì)象的信息具 體可以是帖子的描述信息,帖子的內(nèi)容信息等,登錄社區(qū)網(wǎng)站的瀏覽用戶可以通過(guò)瀏覽發(fā) 布的帖子的各種信息,了解該帖子的詳細(xì)情況,并可以進(jìn)一步的執(zhí)行收藏、回帖或推薦給其 他用戶等處理操作。
[0003] 在實(shí)際應(yīng)用中,當(dāng)用戶瀏覽一個(gè)業(yè)務(wù)對(duì)象時(shí),網(wǎng)站服務(wù)器可以向用戶推薦一些該 用戶可能感興趣的業(yè)務(wù)對(duì)象,以便用戶能夠快速?gòu)乃扑]的業(yè)務(wù)對(duì)象中找到自身需要的業(yè) 務(wù)對(duì)象。例如,可以根據(jù)用戶本次瀏覽的業(yè)務(wù)對(duì)象,向用戶推薦與本次瀏覽的業(yè)務(wù)對(duì)象相關(guān) 的業(yè)務(wù)對(duì)象;也可以根據(jù)用戶歷史進(jìn)行指定操作的業(yè)務(wù)對(duì)象(如購(gòu)買的商品),確定該用戶 感興趣的業(yè)務(wù)對(duì)象的種類,并向用戶推薦該種類的業(yè)務(wù)對(duì)象。
[0004] 現(xiàn)有技術(shù)中還可以根據(jù)用戶之間的興趣偏好相似度,向用戶推薦與該用戶的興趣 偏好相似度較高的用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象。目前,對(duì)于用戶之間的興趣偏好相似度 的確定,主要是基于用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的記錄,兩個(gè)用戶進(jìn)行指定操作的相同 的業(yè)務(wù)對(duì)象越多,則這兩個(gè)用戶之間的興趣偏好相似度越高,例如,在電子商務(wù)網(wǎng)站中,可 以基于用戶購(gòu)買產(chǎn)品的記錄進(jìn)行確定,兩個(gè)用戶購(gòu)買的相同產(chǎn)品越多,則這兩個(gè)用戶之間 的興趣偏好相似度越高。
[0005] 然而,在實(shí)際應(yīng)用中,兩個(gè)用戶可能沒(méi)有對(duì)相同的業(yè)務(wù)對(duì)象進(jìn)行指定操作,但可能 對(duì)相似的業(yè)務(wù)對(duì)象進(jìn)行了指定操作,所以,僅僅基于用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的記錄, 確定兩個(gè)用戶之間的興趣偏好相似度,其準(zhǔn)確性較低。
[0006] 并且,當(dāng)網(wǎng)站上所發(fā)布的業(yè)務(wù)對(duì)象是由多個(gè)提供方提供時(shí),可能會(huì)出現(xiàn)不同的提 供方提供相同業(yè)務(wù)對(duì)象的情況,即提供同一款業(yè)務(wù)對(duì)象,例如電子商務(wù)網(wǎng)站上,不同的賣家 可能會(huì)提供同一款產(chǎn)品,但對(duì)于網(wǎng)站側(cè)來(lái)講,不同提供方提供的業(yè)務(wù)對(duì)象均是不同的業(yè)務(wù) 對(duì)象,此時(shí)兩個(gè)用戶可能針對(duì)同一款業(yè)務(wù)對(duì)象進(jìn)行了指定操作,但網(wǎng)站側(cè)會(huì)認(rèn)為這兩個(gè)用 戶所進(jìn)行指定操作的業(yè)務(wù)對(duì)象不同,從而也將導(dǎo)致所確定的這兩個(gè)用戶之間的興趣偏好相 似度的準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0007] 有鑒于此,本申請(qǐng)實(shí)施例提供一種用戶興趣偏好相似度確定方法及裝置,用于解 決現(xiàn)有技術(shù)中存在的確定用戶興趣偏好相似度的準(zhǔn)確性較低的問(wèn)題。
[0008] 本申請(qǐng)實(shí)施例通過(guò)如下技術(shù)方案實(shí)現(xiàn):
[0009] 本申請(qǐng)實(shí)施例提供了一種用戶興趣偏好相似度確定方法,包括:
[0010] 分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞;
[0011] 基于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,分別確定第一用戶 的興趣偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第 一用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量的分量為第二用戶進(jìn) 行指定操作的業(yè)務(wù)對(duì)象的描述詞;
[0012] 確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量之間的相似度,作為第 一用戶和第二用戶之間的興趣偏好相似度。
[0013] 本申請(qǐng)實(shí)施例還提供了一種用戶興趣偏好相似度確定裝置,包括:
[0014] 描述詞獲取單元,用于分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的 描述詞;
[0015] 向量確定單元,用于基于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述 詞,分別確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣 偏好向量的分量為第一用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量 的分量為第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞;
[0016] 相似度確定單元,用于確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量 之間的相似度,作為第一用戶和第二用戶之間的興趣偏好相似度。
[0017] 本申請(qǐng)實(shí)施例提供的上述至少一個(gè)技術(shù)方案中,在確定兩個(gè)用戶之間的興趣偏好 相似度時(shí),首先分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,然后基 于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,分別確定第一用戶的興趣偏好 向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第一用戶進(jìn)行 指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量的分量為第二用戶進(jìn)行指定操作 的業(yè)務(wù)對(duì)象的描述詞,再根據(jù)第一用戶的興趣偏好向量和第二用戶的興趣偏好向量,確定 第一用戶和第二用戶之間的興趣偏好相似度。由于業(yè)務(wù)對(duì)象的描述詞能夠描述業(yè)務(wù)對(duì)象的 一些特征和屬性信息,所以,根據(jù)用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞確定的該用戶的 興趣偏好向量,相比業(yè)務(wù)對(duì)象本身,能夠進(jìn)一步更準(zhǔn)確的表征該用戶的興趣偏好,從而提高 了確定用戶興趣偏好相似度的準(zhǔn)確性。
[0018] 本申請(qǐng)的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變 得顯而易見(jiàn),或者通過(guò)實(shí)施本申請(qǐng)而了解。本申請(qǐng)的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明 書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
【專利附圖】
【附圖說(shuō)明】
[0019] 附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本申請(qǐng)實(shí)施 例一起用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的限制。在附圖中:
[0020] 圖1為本申請(qǐng)實(shí)施例提供的用戶興趣偏好相似度確定方法的流程圖;
[0021] 圖2為本申請(qǐng)實(shí)施例提供的確定業(yè)務(wù)對(duì)象的描述詞的處理流程圖;
[0022] 圖3為本申請(qǐng)實(shí)施例提供的確定用戶的興趣偏好向量的處理流程圖;
[0023] 圖4為本申請(qǐng)實(shí)施例提供的確定預(yù)定義的描述詞字典的處理流程圖;
[0024] 圖5為本申請(qǐng)實(shí)施例提供的確定用戶的興趣偏好向量的分量的分量值的處理流 程圖;
[0025] 圖6為本申請(qǐng)實(shí)施例提供的確定第一用戶和第二用戶之間的興趣偏好相似度的 處理流程圖;
[0026] 圖7為本申請(qǐng)實(shí)施例提供的用戶興趣偏好相似度確定裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027] 為了給出提高確定用戶興趣偏好相似度的準(zhǔn)確性的實(shí)現(xiàn)方案,本申請(qǐng)實(shí)施例提供 了一種用戶興趣偏好相似度確定方法及裝置,該技術(shù)方案可以應(yīng)用于確定用戶興趣偏好相 似度的過(guò)程,既可以實(shí)現(xiàn)為一種方法,也可以實(shí)現(xiàn)為一種裝置。以下結(jié)合說(shuō)明書(shū)附圖對(duì)本申 請(qǐng)的優(yōu)選實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說(shuō)明和解釋本申請(qǐng), 并不用于限定本申請(qǐng)。并且在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以 相互組合。
[0028] 本申請(qǐng)實(shí)施例提供一種用戶興趣偏好相似度確定方法,如圖1所示,包括:
[0029] 步驟101、分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞。
[0030] 步驟102、基于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,分別確定 第一用戶的興趣偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的 分量為第一用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量的分量為第 二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞。
[0031] 步驟103、確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量之間的相似 度,作為第一用戶和第二用戶之間的興趣偏好相似度。
[0032] 本申請(qǐng)實(shí)施例中,當(dāng)需要向當(dāng)前用戶進(jìn)行業(yè)務(wù)對(duì)象推薦時(shí),可以根據(jù)當(dāng)前用戶與 其他各用戶之間的興趣偏好相似度,從其他各用戶中確定與當(dāng)前用戶的興趣偏好相似度 達(dá)到預(yù)設(shè)相似度閾值的用戶,并將所確定的用戶進(jìn)行了指定操作的業(yè)務(wù)對(duì)象推薦給當(dāng)前用 戶;或者,按照當(dāng)前用戶與其他各用戶之間的興趣偏好相似度從大到小的順序?qū)ζ渌饔?戶進(jìn)行排序,并從其他各用戶中選擇排序在前的一個(gè)或多個(gè)用戶,將所選擇的用戶進(jìn)行了 指定操作的業(yè)務(wù)對(duì)象推薦給當(dāng)前用戶。
[0033] 本申請(qǐng)實(shí)施例中,當(dāng)需要向當(dāng)前用戶推薦好友時(shí),可以根據(jù)當(dāng)前用戶與其他各用 戶之間的興趣偏好相似度,從其他各用戶中確定與當(dāng)前用戶的興趣偏好相似度達(dá)到預(yù)設(shè)相 似度閾值的用戶,將所確定的用戶作為好友推薦給當(dāng)前用戶;或者,按照當(dāng)前用戶與其他各 用戶之間的興趣偏好相似度從大到小的順序?qū)ζ渌饔脩暨M(jìn)行排序,從其他各用戶中選擇 排序在前的一個(gè)或多個(gè)用戶,將所選擇的用戶作為好友推薦給當(dāng)前用戶。
[0034] 下面結(jié)合附圖,用具體實(shí)施例對(duì)本申請(qǐng)?zhí)峁┑姆椒把b置進(jìn)行詳細(xì)描述。
[0035] 下面在本申請(qǐng)具體實(shí)施例中,對(duì)上述步驟101進(jìn)行詳細(xì)描述。
[0036] 在上述步驟101中,具體可以獲取第一用戶進(jìn)行指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述 詞,以及獲取第二用戶進(jìn)行指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞;也可以獲取第一用戶在預(yù) 設(shè)時(shí)間段內(nèi)進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,以及獲取第二用戶在同一個(gè)預(yù)設(shè)時(shí)間段內(nèi) 進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,以便使得后續(xù)所確定的用戶的興趣偏好向量能夠更準(zhǔn) 確的表征用戶的興趣偏好情況。其中,指定操作可以根據(jù)網(wǎng)站上發(fā)布的業(yè)務(wù)對(duì)象的實(shí)際特 性進(jìn)行靈活設(shè)置,例如,在電子商務(wù)網(wǎng)站中,指定操作可以是對(duì)業(yè)務(wù)對(duì)象(即產(chǎn)品)的購(gòu)買操 作。
[0037] 本申請(qǐng)實(shí)施例中,可以是預(yù)先針對(duì)網(wǎng)站上發(fā)布的每個(gè)業(yè)務(wù)對(duì)象的描述信息確定該 業(yè)務(wù)對(duì)象的描述詞,并存儲(chǔ),上述步驟101中,在確定用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象之后, 可以直接獲取該業(yè)務(wù)對(duì)象的描述詞。
[0038] 目前,由于一些網(wǎng)站上所發(fā)布的業(yè)務(wù)對(duì)象可以是由多個(gè)提供方提供的,所以可能 會(huì)出現(xiàn)不同的提供方提供相同業(yè)務(wù)對(duì)象的情況,即提供同一款業(yè)務(wù)對(duì)象,例如電子商務(wù)網(wǎng) 站上,不同的賣家可能會(huì)提供同一款產(chǎn)品。
[0039] 當(dāng)網(wǎng)站上所發(fā)布的業(yè)務(wù)對(duì)象均是不同款的業(yè)務(wù)對(duì)象時(shí),可以直接針對(duì)每個(gè)業(yè)務(wù)對(duì) 象的描述信息確定該業(yè)務(wù)對(duì)象的描述詞,而當(dāng)網(wǎng)站上所發(fā)布的業(yè)務(wù)對(duì)象可以是由多個(gè)提供 方提供的,從而可能存在多個(gè)同一款業(yè)務(wù)對(duì)象時(shí),可以采用如圖2所示的方法,確定業(yè)務(wù)對(duì) 象的描述詞,具體包括如下處理步驟:
[0040] 步驟201、在網(wǎng)站上發(fā)布的業(yè)務(wù)對(duì)象中,確定由多個(gè)提供方分別提供的同一款業(yè)務(wù) 對(duì)象。
[0041] 本步驟具體可以根據(jù)網(wǎng)站上發(fā)布的業(yè)務(wù)對(duì)象的代表性圖片,確定代表性圖片的圖 片指紋,并將圖片指紋相同或滿足設(shè)定相似條件的代表性圖片所屬的業(yè)務(wù)對(duì)象,確定為同 一款業(yè)務(wù)對(duì)象。
[0042] 其中,確定圖片指紋所采用的方法可以為現(xiàn)有技術(shù)中的各種方法,在此不再進(jìn)行 詳細(xì)描述。
[0043] 步驟202、針對(duì)同一款業(yè)務(wù)對(duì)象,基于多個(gè)提供方分別提供的該同一款業(yè)務(wù)對(duì)象的 描述信息,確定該同一款業(yè)務(wù)對(duì)象的描述詞。
[0044] 不同提供方在提供同一款業(yè)務(wù)對(duì)象時(shí),所提供的該同一款業(yè)務(wù)對(duì)象的描述信息可 能是存在差別的,例如,業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容可能會(huì)存在差別,以及業(yè)務(wù)對(duì)象的屬性信息也 可能會(huì)存在差別,所以,本步驟中參考多個(gè)提供方分別提供的該同一款業(yè)務(wù)對(duì)象的描述信 息,以便所確定的該同一款業(yè)務(wù)對(duì)象的描述詞更能夠準(zhǔn)確體現(xiàn)該同一款業(yè)務(wù)對(duì)象的各種信 息。
[0045] 具體的,步驟202可以采用如下兩種方式執(zhí)行:
[0046] 第一種方式:針對(duì)多個(gè)提供方分別提供的同一款業(yè)務(wù)對(duì)象,分別對(duì)每個(gè)提供方提 供的該同一款業(yè)務(wù)對(duì)象的標(biāo)題進(jìn)行分詞,得到分詞結(jié)果;
[0047] 從得到的所有分詞結(jié)果中選擇出現(xiàn)頻率高的前第一設(shè)定數(shù)量的詞,作為該同一款 業(yè)務(wù)對(duì)象的描述詞;即對(duì)分詞結(jié)果中的分詞按照其出現(xiàn)頻率從大到小排序,取排序在前的 第一設(shè)定數(shù)量的分詞作為該款業(yè)務(wù)對(duì)象的描述詞。
[0048] 其中,所有分詞結(jié)果即為對(duì)各提供方提供的該同一款業(yè)務(wù)對(duì)象的標(biāo)題進(jìn)行分詞得 到的所有分詞結(jié)果;該第一設(shè)定數(shù)量可以根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置,例如,基于目前網(wǎng)絡(luò) 的實(shí)際情況,可以設(shè)置為15。
[0049] 較佳的,由于標(biāo)題中有些詞的作用并非是描述業(yè)務(wù)對(duì)象,如一些連接詞,所以,在 基于分詞結(jié)果進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì)時(shí),可以將這一些詞排除,后續(xù)即不會(huì)選擇這些詞作為 業(yè)務(wù)對(duì)象的描述詞。
[0050] 第二種方式:獲取每個(gè)提供方提供的該同一款業(yè)務(wù)對(duì)象的各屬性詞;
[0051] 從得到的所有屬性詞中選擇出現(xiàn)頻率高的前第二設(shè)定數(shù)量的詞,作為該同一款業(yè) 務(wù)對(duì)象的描述詞;其中,所有屬性詞即為各提供方提供的該同一款業(yè)務(wù)對(duì)象的所有屬性詞; 該第二設(shè)定數(shù)量可以根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置,也可以與第一設(shè)定數(shù)量相同,例如,基于 目前網(wǎng)絡(luò)的實(shí)際情況,可以設(shè)置為15。
[0052] 較佳的,由于有些屬性詞不適用于作為業(yè)務(wù)對(duì)象的信息標(biāo)簽,如表示價(jià)格的屬性 詞,所以,在基于分詞結(jié)果進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì)時(shí),可以將這一些詞排除,后續(xù)即不會(huì)選擇 這些詞作為業(yè)務(wù)對(duì)象的描述詞。
[0053] 步驟202中,也可以將上述兩種方式結(jié)果,即將采用上述兩種方式確定的該同一 款業(yè)務(wù)對(duì)象的描述詞進(jìn)行去重處理,將去重之后的描述詞均作為該同一款業(yè)務(wù)對(duì)象的描述 。
[0054] 由于業(yè)務(wù)對(duì)象的描述詞可能存在多個(gè),然而不同的描述詞在描述業(yè)務(wù)對(duì)象的特征 和屬性信息時(shí)所體現(xiàn)的代表度存在差別,所以,使用代表度較高的描述詞確定用戶的興趣 偏好向量,能夠更準(zhǔn)確的表征用戶的興趣偏好情況,本申請(qǐng)對(duì)于上述步驟102,可以采用如 圖3所示的方法,具體包括如下步驟:
[0055] 步驟301、分別從第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞中,確定 在預(yù)定義的描述詞字典中存在的描述詞,對(duì)應(yīng)作為第一用戶的興趣偏好描述詞和第二用戶 的興趣偏好描述詞。
[0056] 其中,預(yù)定義的描述詞字典中的描述詞為預(yù)先選擇的在描述業(yè)務(wù)對(duì)象時(shí)的代表度 較高的描述詞。
[0057] 步驟302、基于第一用戶和第二用戶的興趣偏好描述詞,分別確定第一用戶的興趣 偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第一用戶 的興趣偏好描述詞,第二用戶的興趣偏好向量的分量為第二用戶的興趣偏好描述詞。
[0058] 用戶偏好的描述詞可以包括一個(gè)或多個(gè),對(duì)應(yīng)地,用戶的興趣偏好向量可以包括 一個(gè)或多個(gè)分量,每一分量即為用戶的興趣偏好描述詞。
[0059] 本申請(qǐng)實(shí)施例中,對(duì)于上述預(yù)定義的描述詞字典中的描述詞,可以預(yù)先通過(guò)人工 選擇的方式,從大量的業(yè)務(wù)對(duì)象的描述詞中進(jìn)行選擇。為了能夠進(jìn)一步提高預(yù)定義的描述 詞字典中描述詞選擇的合理性,可以基于網(wǎng)站上發(fā)布的業(yè)務(wù)對(duì)象的描述詞的實(shí)際情況,從 中選擇合適的描述詞作為基于描述詞集合中的描述詞。如圖4所不,描述詞字典的確定方 法具體包括如下處理步驟:
[0060] 步驟401、針對(duì)由多個(gè)業(yè)務(wù)對(duì)象各自的描述詞組成的描述詞集合進(jìn)行主題聚類,將 該描述詞集合中的描述詞劃分為多個(gè)主題詞簇,其中,一個(gè)主題詞簇中的描述詞用于描述 業(yè)務(wù)對(duì)象的同一個(gè)主題特征,一個(gè)主題詞簇對(duì)應(yīng)一個(gè)主題。
[0061] 在本步驟中,可以為每一主題詞簇設(shè)定一個(gè)主題。比如,對(duì)于某一主題詞簇,其包 含的描述詞有"清新"、"蘿莉"、"學(xué)院派"及"淑女范"等,都是用于描述著裝風(fēng)格,可以將"風(fēng) 格"作為該主題詞簇的主題。
[0062] 本步驟具體可以采用潛在狄利克雷分配模型(Latent Dirichlet Allocation, LDA)技術(shù)進(jìn)行主題聚類處理,LDA技術(shù)為現(xiàn)有技術(shù)中一種用于對(duì)詞進(jìn)行主題聚類的方法,其 在文本挖掘中可以用來(lái)識(shí)別詞語(yǔ)庫(kù)中潛藏的主題信息。
[0063] 步驟402、分別針對(duì)劃分得到的上述多個(gè)主題中的每個(gè)主題,確定主題的主題代表 詞,一個(gè)主題的主題代表詞為從該主題對(duì)應(yīng)的主題詞簇中選擇的用于表示該主題的主題含 義的描述詞。
[0064] 在從一個(gè)主題對(duì)應(yīng)的主題詞簇中選擇該主題的主題代表詞時(shí),可以先針對(duì)該主題 詞簇中的每個(gè)描述詞進(jìn)行評(píng)分,然后基于描述詞的分值,從該主題詞簇中選擇分值高的前 第一預(yù)設(shè)數(shù)量的描述詞,作為該主題詞簇的主題代表詞,即對(duì)描述詞按照其分值從大到小 依次排序,取排序在前的第一預(yù)設(shè)數(shù)量的描述詞作為該主題詞簇的主題代表詞。
[0065] 其中,第一預(yù)設(shè)數(shù)量可以根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置,以便能夠全面準(zhǔn)確的表示 該主題的主題含義,例如,可以設(shè)置為3個(gè)。
[0066] 本步驟中,對(duì)描述詞在表征該主題的主題含義時(shí)的代表度進(jìn)行評(píng)價(jià),以描述詞的 標(biāo)準(zhǔn)分來(lái)表示。
[0067] 采用如下公式確定一個(gè)主題詞簇中的描述詞的標(biāo)準(zhǔn)分:
【權(quán)利要求】
1. 一種用戶興趣偏好相似度確定方法,其特征在于,包括: 分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞; 基于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,分別確定第一用戶的興 趣偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第一用 戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量的分量為第二用戶進(jìn)行指 定操作的業(yè)務(wù)對(duì)象的描述詞; 確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量之間的相似度,作為第一用 戶和第二用戶之間的興趣偏好相似度。
2. 如權(quán)利要求1所述的方法,其特征在于,基于第一用戶和第二用戶進(jìn)行指定操作的 業(yè)務(wù)對(duì)象的描述詞,分別確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量,具體 包括: 分別從第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞中,確定在預(yù)定義的描 述詞字典中存在的描述詞,對(duì)應(yīng)作為第一用戶的興趣偏好描述詞和第二用戶的興趣偏好描 述詞; 基于第一用戶和第二用戶的興趣偏好描述詞,分別確定第一用戶的興趣偏好向量和第 二用戶的興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第一用戶的興趣偏好描 述詞,第二用戶的興趣偏好向量的分量為第二用戶的興趣偏好描述詞。
3. 如權(quán)利要求2所述的方法,其特征在于,采用如下方式確定所述預(yù)定義的描述詞字 血. ,N · 針對(duì)由多個(gè)業(yè)務(wù)對(duì)象各自的描述詞組成的描述詞集合進(jìn)行主題聚類,將所述描述詞集 合中的描述詞劃分為多個(gè)主題詞簇,其中,一個(gè)主題詞簇對(duì)應(yīng)一個(gè)主題; 分別確定多個(gè)主題詞簇各自對(duì)應(yīng)的多個(gè)主題的主題代表詞中,其中,一個(gè)主題的主題 代表詞為從該主題對(duì)應(yīng)的主題詞簇中選擇的用于表示該主題的主題含義的描述詞; 將所述多個(gè)主題的主題代表詞組成所述預(yù)定義的描述詞字典。
4. 如權(quán)利要求3所述的方法,其特征在于,采用如下方式從一個(gè)主題對(duì)應(yīng)的主題詞簇 中選擇出該主題的主題代表詞: 采用如下公式確定一個(gè)主題詞簇中的描述詞的標(biāo)準(zhǔn)分:
其中,Zw,t為描述詞w在主題詞簇t中時(shí)的標(biāo)準(zhǔn)分;county為所述描述詞集合中歸屬 主題詞簇t的描述詞w的數(shù)量;countw,。為所述描述詞集合中描述詞w的數(shù)量;count。為描 述詞集合中描述詞的數(shù)量; 基于該主題詞簇的描述詞的標(biāo)準(zhǔn)分,從該主題詞簇中選擇標(biāo)準(zhǔn)分高的前第一預(yù)設(shè)數(shù)量 的描述詞,作為該主題詞簇的主題代表詞。
5. 如權(quán)利要求1所述的方法,其特征在于,分別獲取第一用戶和第二用戶進(jìn)行指定操 作的業(yè)務(wù)對(duì)象的描述詞,具體為: 分別獲取第一用戶和第二用戶進(jìn)行指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞; 采用如下方式分別確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量的分量 的分量值: 確定第一用戶的興趣偏好向量的分量的分量值,為該分量對(duì)應(yīng)描述詞在第一用戶進(jìn)行 指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞中出現(xiàn)的次數(shù),以及確定第二用戶的興趣偏好向量的分 量的分量值,為該分量對(duì)應(yīng)描述詞在第二用戶進(jìn)行指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞中出 現(xiàn)的次數(shù)。
6. 如權(quán)利要求1所述的方法,其特征在于,采用如下方式分別確定第一用戶的興趣偏 好向量和第二用戶的興趣偏好向量的分量的分量值: 分別按照多個(gè)不同的主題模型對(duì)由多個(gè)業(yè)務(wù)對(duì)象的描述詞組成的描述詞集合進(jìn)行主 題聚類,將該描述詞集合中的描述詞劃分為設(shè)定的主題詞簇?cái)?shù)的多個(gè)主題詞簇,生成所述 描述詞集合在多個(gè)不同的主題模型下的主題聚類結(jié)果;其中,一個(gè)主題詞簇對(duì)應(yīng)一個(gè)主題, 不同主題模型下分別設(shè)定不同的主題詞簇?cái)?shù); 針對(duì)每個(gè)主題詞簇,按照描述詞表征該主題詞簇對(duì)應(yīng)主題的代表度從高到低的順序, 對(duì)該主題詞簇中的描述詞進(jìn)行排序,得到該主題詞簇中的描述詞的主題代表度排序; 采用如下公式確定第一用戶的興趣偏好向量的分量和第二用戶的興趣偏好向量的分 量中每個(gè)分量對(duì)應(yīng)描述詞的綜合分:
其中,Sw為描述詞w的綜合分,為描述詞w在第i個(gè)主題模型的多個(gè)主題詞簇中出 現(xiàn)的次數(shù),IV i為描述詞w在第i個(gè)主題模型的多個(gè)主題詞簇中按照主題代表度排序前第二 預(yù)設(shè)數(shù)量的描述詞中出現(xiàn)的次數(shù),h為第i個(gè)主題詞簇?cái)?shù)的數(shù)值,N為主題模型的總數(shù); 確定第一用戶的興趣偏好向量的分量的分量值為該分量對(duì)應(yīng)描述詞的綜合分,以及確 定第二用戶的興趣偏好向量的分量的分量值為該分量對(duì)應(yīng)描述詞的綜合分。
7. 如權(quán)利要求6所述的方法,其特征在于,針對(duì)每個(gè)主題詞簇,按照描述詞表征該主題 詞簇對(duì)應(yīng)主題的代表度從高到低的順序,對(duì)該主題詞簇中的描述詞進(jìn)行排序,得到該主題 詞簇中的描述詞的主題代表度排序,具體包括: 針對(duì)每個(gè)主題詞簇,采用如下公式確定該主題詞簇中的每個(gè)描述詞的標(biāo)準(zhǔn)分:
其中,Zw,t為描述詞w在該主題詞簇t中時(shí)的標(biāo)準(zhǔn)分;county為所述描述詞集合中歸 屬該主題詞簇t的描述詞w的數(shù)量;countw。為所述描述詞集合中描述詞w的數(shù)量;count。 為描述詞集合中描述詞的數(shù)量; 按照描述詞的標(biāo)準(zhǔn)分從高到低的順序,對(duì)該主題詞簇中的描述詞進(jìn)行排序,得到該主 題詞簇中的描述詞的主題代表度排序。
8. 如權(quán)利要求1-7任一所述的方法,其特征在于,還包括: 當(dāng)需要向當(dāng)前用戶進(jìn)行業(yè)務(wù)對(duì)象推薦時(shí),從其他各用戶中確定與當(dāng)前用戶的興趣偏好 相似度達(dá)到預(yù)設(shè)相似度閾值的用戶,將所確定的用戶進(jìn)行了指定操作的業(yè)務(wù)對(duì)象推薦給當(dāng) 前用戶;或者 當(dāng)需要向當(dāng)前用戶進(jìn)行業(yè)務(wù)對(duì)象推薦時(shí),按照當(dāng)前用戶與其他各用戶之間的興趣偏好 相似度從大到小的順序?qū)ζ渌饔脩暨M(jìn)行排序,從其他各用戶中選擇排序在前的一個(gè)或多 個(gè)用戶,將所選擇的用戶進(jìn)行了指定操作的業(yè)務(wù)對(duì)象推薦給當(dāng)前用戶。
9. 如權(quán)利要求1-7任一所述的方法,其特征在于,還包括: 當(dāng)需要向當(dāng)前用戶推薦好友時(shí),從其他各用戶中確定與當(dāng)前用戶的興趣偏好相似度達(dá) 到預(yù)設(shè)相似度閾值的用戶,將所確定的用戶作為好友推薦給當(dāng)前用戶;或者 當(dāng)需要向當(dāng)前用戶推薦好友時(shí),按照當(dāng)前用戶與其他各用戶之間的興趣偏好相似度從 大到小的順序?qū)ζ渌饔脩暨M(jìn)行排序,從其他各用戶中選擇排序在前的一個(gè)或多個(gè)用戶, 將所選擇的用戶作為好友推薦給當(dāng)前用戶。
10. -種用戶興趣偏好相似度確定裝置,其特征在于,包括: 描述詞獲取單元,用于分別獲取第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述 詞; 向量確定單元,用于基于第一用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,分 別確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量,其中,第一用戶的興趣偏好 向量的分量為第一用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞,第二用戶的興趣偏好向量的分 量為第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞; 相似度確定單元,用于確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量之間 的相似度,作為第一用戶和第二用戶之間的興趣偏好相似度。
11. 如權(quán)利要求10所述的裝置,其特征在于,所述向量確定單元,具體用于分別從第一 用戶和第二用戶進(jìn)行指定操作的業(yè)務(wù)對(duì)象的描述詞中,確定在預(yù)定義的描述詞字典中存在 的描述詞,對(duì)應(yīng)作為第一用戶的興趣偏好描述詞和第二用戶的興趣偏好描述詞;以及基于 第一用戶和第二用戶的興趣偏好描述詞,分別確定第一用戶的興趣偏好向量和第二用戶的 興趣偏好向量,其中,第一用戶的興趣偏好向量的分量為第一用戶的興趣偏好描述詞,第二 用戶的興趣偏好向量的分量為第二用戶的興趣偏好描述詞。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述向量確定單元,用于采用如下方式確 定所述預(yù)定義的描述詞字典: 針對(duì)由多個(gè)業(yè)務(wù)對(duì)象各自的描述詞組成的描述詞集合進(jìn)行主題聚類,將所述描述詞集 合中的描述詞劃分為多個(gè)主題詞簇,其中,一個(gè)主題詞簇對(duì)應(yīng)一個(gè)主題;并分別確定多個(gè)主 題詞簇各自對(duì)應(yīng)的多個(gè)主題的主題代表詞中,其中,一個(gè)主題的主題代表詞為從該主題對(duì) 應(yīng)的主題詞簇中選擇的用于表示該主題的主題含義的描述詞;以及將所述多個(gè)主題的主題 代表詞組成所述預(yù)定義的描述詞字典。
13. 如權(quán)利要求12所述的裝置,其特征在于,所述向量確定單元,用于采用如下方式從 一個(gè)主題對(duì)應(yīng)的主題詞簇中選擇出該主題的主題代表詞: 采用如下公式確定一個(gè)主題詞簇中的描述詞的標(biāo)準(zhǔn)分:
其中,ZWit為描述詞W在主題詞簇t中時(shí)的標(biāo)準(zhǔn)分;county為所述描述詞集合中歸屬 主題詞簇t的描述詞w的數(shù)量;countw,。為所述描述詞集合中描述詞w的數(shù)量;count。為描 述詞集合中描述詞的數(shù)量; 基于該主題詞簇的描述詞的標(biāo)準(zhǔn)分,從該主題詞簇中選擇標(biāo)準(zhǔn)分高的前第一預(yù)設(shè)數(shù)量 的描述詞,作為該主題詞簇的主題代表詞。
14. 如權(quán)利要求10所述的裝置,其特征在于,描述詞獲取單元,具體用于分別獲取第一 用戶和第二用戶進(jìn)行指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞; 所述向量確定單元,用于采用如下方式分別確定第一用戶的興趣偏好向量和第二用戶 的興趣偏好向量的分量的分量值: 確定第一用戶的興趣偏好向量的分量的分量值,為該分量對(duì)應(yīng)描述詞在第一用戶進(jìn)行 指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞中出現(xiàn)的次數(shù),以及確定第二用戶的興趣偏好向量的分 量的分量值,為該分量對(duì)應(yīng)描述詞在第二用戶進(jìn)行指定操作的多個(gè)業(yè)務(wù)對(duì)象的描述詞中出 現(xiàn)的次數(shù)。
15. 如權(quán)利要求10所述的裝置,其特征在于,所述向量確定單元,用于采用如下方式分 別確定第一用戶的興趣偏好向量和第二用戶的興趣偏好向量的分量的分量值: 分別按照多個(gè)不同的主題模型對(duì)由多個(gè)業(yè)務(wù)對(duì)象的描述詞組成的描述詞集合進(jìn)行主 題聚類,將該描述詞集合中的描述詞劃分為設(shè)定的主題詞簇?cái)?shù)的多個(gè)主題詞簇,生成所述 描述詞集合在多個(gè)不同的主題模型下的主題聚類結(jié)果;其中,一個(gè)主題詞簇對(duì)應(yīng)一個(gè)主題, 不同主題模型下分別設(shè)定不同的主題詞簇?cái)?shù); 針對(duì)每個(gè)主題詞簇,按照描述詞表征該主題詞簇對(duì)應(yīng)主題的代表度從高到低的順序, 對(duì)該主題詞簇中的描述詞進(jìn)行排序,得到該主題詞簇中的描述詞的主題代表度排序; 采用如下公式確定第一用戶的興趣偏好向量的分量和第二用戶的興趣偏好向量的分 量中每個(gè)分量對(duì)應(yīng)描述詞的綜合分:
其中,sw為描述詞W的綜合分,為描述詞W在第i個(gè)主題模型的多個(gè)主題詞簇中出 現(xiàn)的次數(shù),IV i為描述詞w在第i個(gè)主題模型的多個(gè)主題詞簇中按照主題代表度排序前第二 預(yù)設(shè)數(shù)量的描述詞中出現(xiàn)的次數(shù),h為第i個(gè)主題詞簇?cái)?shù)的數(shù)值,N為主題模型的總數(shù); 確定第一用戶的興趣偏好向量的分量的分量值為該分量對(duì)應(yīng)描述詞的綜合分,以及確 定第二用戶的興趣偏好向量的分量的分量值為該分量對(duì)應(yīng)描述詞的綜合分。
16. 如權(quán)利要求10-15任一所述的裝置,其特征在于,還包括: 業(yè)務(wù)對(duì)象推薦單元,用于當(dāng)需要向當(dāng)前用戶進(jìn)行業(yè)務(wù)對(duì)象推薦時(shí),從其他各用戶中確 定與當(dāng)前用戶的興趣偏好相似度達(dá)到預(yù)設(shè)相似度閾值的用戶,將所確定的用戶進(jìn)行了指定 操作的業(yè)務(wù)對(duì)象推薦給當(dāng)前用戶;或者 當(dāng)需要向當(dāng)前用戶進(jìn)行業(yè)務(wù)對(duì)象推薦時(shí),按照當(dāng)前用戶與其他各用戶之間的興趣偏好 相似度從大到小的順序?qū)ζ渌饔脩暨M(jìn)行排序,從其他各用戶中選擇排序在前的一個(gè)或多 個(gè)用戶,將所選擇的用戶進(jìn)行了指定操作的業(yè)務(wù)對(duì)象推薦給當(dāng)前用戶。
17. 如權(quán)利要求10-15任一所述的裝置,其特征在于,還包括: 好友推薦單元,用于當(dāng)需要向當(dāng)前用戶推薦好友時(shí),從其他各用戶中確定與當(dāng)前用戶 的興趣偏好相似度達(dá)到預(yù)設(shè)相似度閾值的用戶,將所確定的用戶作為好友推薦給當(dāng)前用 戶;或者 當(dāng)需要向當(dāng)前用戶推薦好友時(shí),按照當(dāng)前用戶與其他各用戶之間的興趣偏好相似度從 大到小的順序?qū)ζ渌饔脩暨M(jìn)行排序,從其他各用戶中選擇排序在前的一個(gè)或多個(gè)用戶, 將所選擇的用戶作為好友推薦給當(dāng)前用戶。
【文檔編號(hào)】G06F17/30GK104102662SQ201310122170
【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2013年4月10日 優(yōu)先權(quán)日:2013年4月10日
【發(fā)明者】李軍 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司