亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法和系統(tǒng)的制作方法

文檔序號(hào):6547016閱讀:220來(lái)源:國(guó)知局
社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法和系統(tǒng),所述方法包括:針對(duì)所述社交網(wǎng)絡(luò)中待識(shí)別用戶的每篇博文,將該博文進(jìn)行分詞,得到該博文的分詞結(jié)果,并針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,將該博文的分詞結(jié)果與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞進(jìn)行匹配,并根據(jù)匹配結(jié)果,確定該博文與該領(lǐng)域的相關(guān)度;針對(duì)每個(gè)領(lǐng)域,統(tǒng)計(jì)與該領(lǐng)域的相關(guān)度超過設(shè)定閾值的該用戶的博文的個(gè)數(shù),并將統(tǒng)計(jì)出的博文的個(gè)數(shù)與所述用戶的博文總數(shù)的比值,作為所述用戶與該領(lǐng)域的相關(guān)度;若所述用戶與該領(lǐng)域的相關(guān)度超過設(shè)定值,則確定所述用戶為該領(lǐng)域的專家。應(yīng)用本發(fā)明,可提高發(fā)現(xiàn)的領(lǐng)域?qū)<业臏?zhǔn)確度。
【專利說明】社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,通過社交網(wǎng)絡(luò)軟件來(lái)進(jìn)行信息的分享、傳播以及獲取,已成為廣大網(wǎng)民的主要社交方式之一。例如,通過微博或Twitter (推特)等社交網(wǎng)絡(luò)軟件,用戶可以通過各種客戶端組建個(gè)人社區(qū),不斷通過文字、圖片等形式更新信息,實(shí)現(xiàn)自己的最新動(dòng)態(tài)和想法的即時(shí)分享。
[0003]實(shí)際應(yīng)用中,通過對(duì)微博等社交網(wǎng)絡(luò)軟件的觀察和分析發(fā)現(xiàn),在整個(gè)社交網(wǎng)絡(luò)之上分布著大大小小的不同領(lǐng)域的社交圈,如何在整個(gè)社交網(wǎng)絡(luò)中的全部人群中分析出不同領(lǐng)域的專家,對(duì)于后續(xù)的用戶擴(kuò)展、商業(yè)運(yùn)營(yíng)等都起著至關(guān)重要的作用。如果能夠?qū)τ谀硞€(gè)領(lǐng)域的專家進(jìn)行準(zhǔn)確的挖掘,則可以利用該挖掘結(jié)果為社交網(wǎng)絡(luò)軟件提供領(lǐng)域?qū)<覕U(kuò)展服務(wù)、以及為垂直領(lǐng)域項(xiàng)目提供數(shù)據(jù)支撐。例如,為用戶推薦其感興趣的領(lǐng)域?qū)<遥换蛘?,為專家搜索提供基礎(chǔ)服務(wù)等。
[0004]現(xiàn)有存在一種人工發(fā)現(xiàn)社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<业姆椒ǎ渲饕亲屔缃痪W(wǎng)絡(luò)中的用戶按照指定格式填寫的標(biāo)簽、認(rèn)證信息等用于確定用戶相關(guān)領(lǐng)域的認(rèn)證內(nèi)容,繼而,社交網(wǎng)絡(luò)的運(yùn)營(yíng)人員可以根據(jù)用戶填寫的認(rèn)證內(nèi)容進(jìn)行人工審查,判斷該用戶是否為某一領(lǐng)域的權(quán)威專家。實(shí)際應(yīng)用中,填寫認(rèn)證內(nèi)容的用戶并不是很多,且用戶填寫的認(rèn)證內(nèi)容只能涉及部分領(lǐng)域,準(zhǔn)確率低,導(dǎo)致上述領(lǐng)域?qū)<野l(fā)現(xiàn)方法的領(lǐng)域覆蓋率低,且其發(fā)現(xiàn)的領(lǐng)域?qū)<业臏?zhǔn)確度不高。而且,通過人工進(jìn)行審核,存在工作量大、耗費(fèi)時(shí)間長(zhǎng)的不足。
[0005]為了減少發(fā)現(xiàn)領(lǐng)域?qū)<业墓ぷ髁考昂馁M(fèi)時(shí)間,現(xiàn)有還提出了一種基于用戶分組信息的領(lǐng)域?qū)<野l(fā)現(xiàn)方法,其主要是根據(jù)用戶的粉絲或其他用戶對(duì)該用戶的分組名稱,統(tǒng)計(jì)出該用戶在各領(lǐng)域的權(quán)重,繼而,根據(jù)該用戶在各領(lǐng)域的權(quán)重及預(yù)置的判定條件,判斷該用戶是否為某一領(lǐng)域的專家。實(shí)際應(yīng)用中,并不是所有用戶都會(huì)對(duì)其關(guān)注的其他用戶進(jìn)行分組,且其對(duì)其他用戶的分組主要基于主觀了解,領(lǐng)域覆蓋率低且準(zhǔn)確度也不高,繼而導(dǎo)致上述基于用戶分組信息的領(lǐng)域?qū)<野l(fā)現(xiàn)方法存在用戶召回率低、準(zhǔn)確度不高的不足。
[0006]綜上所述,現(xiàn)有的領(lǐng)域?qū)<野l(fā)現(xiàn)方法,存在領(lǐng)域覆蓋率低、發(fā)現(xiàn)的領(lǐng)域?qū)<业臏?zhǔn)確度不高的不足,因此,有必要提供一種提高領(lǐng)域覆蓋率及準(zhǔn)確度的社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法。

【發(fā)明內(nèi)容】

[0007]本發(fā)明實(shí)施例提供了一種社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法和系統(tǒng),提高了領(lǐng)域?qū)<野l(fā)現(xiàn)的準(zhǔn)確度。
[0008]根據(jù)本發(fā)明的一個(gè)方面,提供了一種社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法,包括:
[0009]針對(duì)所述社交網(wǎng)絡(luò)中待識(shí)別用戶的每篇博文,將該博文進(jìn)行分詞,得到該博文的分詞結(jié)果,并針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,將該博文的分詞結(jié)果與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞進(jìn)行匹配;根據(jù)匹配結(jié)果,確定該博文與該領(lǐng)域的相關(guān)度;
[0010]針對(duì)每個(gè)領(lǐng)域,統(tǒng)計(jì)與該領(lǐng)域的相關(guān)度超過設(shè)定閾值的該用戶的博文的個(gè)數(shù),并將統(tǒng)計(jì)出的博文的個(gè)數(shù)與所述用戶的博文總數(shù)的比值,作為所述用戶與該領(lǐng)域的相關(guān)度;若所述用戶與該領(lǐng)域的相關(guān)度超過設(shè)定值,則確定所述用戶為該領(lǐng)域的專家。
[0011]較佳地,所述領(lǐng)域的特征詞庫(kù)是預(yù)先構(gòu)建的,具體包括:
[0012]將社交網(wǎng)絡(luò)中已劃分到所述領(lǐng)域中的若干個(gè)用戶作為所述領(lǐng)域的種子用戶,并將各種子用戶的博文作為該領(lǐng)域的種子博文存儲(chǔ)至博文語(yǔ)料集中;
[0013]對(duì)于博文語(yǔ)料集中該領(lǐng)域的每個(gè)種子博文,對(duì)該種子博文進(jìn)行分詞,統(tǒng)計(jì)出該種子博文的分詞結(jié)果中各詞匯的頻率信息;并根據(jù)各詞匯的頻率信息從該種子博文的分詞結(jié)果中選擇出該領(lǐng)域的特征候選詞;
[0014]針對(duì)該領(lǐng)域的每個(gè)特征候選詞,統(tǒng)計(jì)博文語(yǔ)料集中各領(lǐng)域的種子博文中包含該特征候選詞的領(lǐng)域個(gè)數(shù),并將統(tǒng)計(jì)出的領(lǐng)域個(gè)數(shù)作為該特征候選詞的領(lǐng)域頻率;
[0015]針對(duì)該領(lǐng)域的每個(gè)特征候選詞,根據(jù)該特征候選詞的頻率信息以及領(lǐng)域頻率,計(jì)算出該特征候選詞的特征得分;在判斷該特征得分超過預(yù)先設(shè)定的特征閾值后,將該特征候選詞作為該領(lǐng)域的領(lǐng)域特征詞存儲(chǔ)至所述領(lǐng)域的特征詞庫(kù)中,并在所述領(lǐng)域的特征詞庫(kù)中將該特征得分作為該領(lǐng)域特征詞的權(quán)重與該領(lǐng)域特征詞對(duì)應(yīng)存儲(chǔ)。
[0016]較佳地,所述根據(jù)匹配結(jié)果,確定該博文與該領(lǐng)域的相關(guān)度,具體包括:
[0017]將該博文的分詞結(jié)果中與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞相同的詞匯作為該博文的特征詞;
[0018]對(duì)于該博文的每個(gè)特征詞,統(tǒng)計(jì)出該特征詞在該博文中出現(xiàn)的頻次,并將該特征詞在所述特征詞庫(kù)中所對(duì)應(yīng)的權(quán)重作為該特征詞的領(lǐng)域權(quán)重;
[0019]根據(jù)該博文的特征詞總數(shù)、該博文的各特征詞的領(lǐng)域權(quán)重以及在該博文中出現(xiàn)的頻次,計(jì)算出該博文與該領(lǐng)域的相關(guān)度。
[0020]較佳地,所述根據(jù)該博文的特征詞總數(shù)、該博文的各特征詞的領(lǐng)域權(quán)重以及在該博文中出現(xiàn)的頻次,計(jì)算出該博文與該領(lǐng)域的相關(guān)度,具體包括:
[0021]根據(jù)如下公式1,計(jì)算出該博文與該領(lǐng)域的相關(guān)度St:
[0022]
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)方法,其特征在于,包括: 針對(duì)所述社交網(wǎng)絡(luò)中待識(shí)別用戶的每篇博文,將該博文進(jìn)行分詞,得到該博文的分詞結(jié)果,并針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,將該博文的分詞結(jié)果與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞進(jìn)行匹配;根據(jù)匹配結(jié)果,確定該博文與該領(lǐng)域的相關(guān)度; 針對(duì)每個(gè)領(lǐng)域,統(tǒng)計(jì)與該領(lǐng)域的相關(guān)度超過設(shè)定閾值的該用戶的博文的個(gè)數(shù),并將統(tǒng)計(jì)出的博文的個(gè)數(shù)與所述用戶的博文總數(shù)的比值,作為所述用戶與該領(lǐng)域的相關(guān)度;若所述用戶與該領(lǐng)域的相關(guān)度超過設(shè)定值,則確定所述用戶為該領(lǐng)域的專家。
2.如權(quán)利要求1所述的方法,其特征在于,所述領(lǐng)域的特征詞庫(kù)是預(yù)先構(gòu)建的,具體包括: 將社交網(wǎng)絡(luò)中已劃分到所述領(lǐng)域中的若干個(gè)用戶作為所述領(lǐng)域的種子用戶,并將各種子用戶的博文作為該領(lǐng)域的種子博文存儲(chǔ)至博文語(yǔ)料集中; 對(duì)于博文語(yǔ)料集中該領(lǐng)域的每個(gè)種子博文,對(duì)該種子博文進(jìn)行分詞,統(tǒng)計(jì)出該種子博文的分詞結(jié)果中各詞匯的頻率信息;并根據(jù)各詞匯的頻率信息從該種子博文的分詞結(jié)果中選擇出該領(lǐng)域的特征候選詞; 針對(duì)該領(lǐng)域的每個(gè)特征候選詞,統(tǒng)計(jì)博文語(yǔ)料集中各領(lǐng)域的種子博文中包含該特征候選詞的領(lǐng)域個(gè)數(shù),并將統(tǒng)計(jì)出的領(lǐng)域個(gè)數(shù)作為該特征候選詞的領(lǐng)域頻率; 針對(duì)該領(lǐng)域的每個(gè)特征候選詞,根據(jù)該特征候選詞的頻率信息以及領(lǐng)域頻率,計(jì)算出該特征候選詞的特征得分;在判斷該特征得分超過預(yù)先設(shè)定的特征閾值后,將該特征候選詞作為該領(lǐng)域的領(lǐng)域特征詞存儲(chǔ)至所述領(lǐng)域的特征詞庫(kù)中,并在所述領(lǐng)域的特征詞庫(kù)中將該特征得分作為該領(lǐng)域特征詞的權(quán)重與該領(lǐng)域特征詞對(duì)應(yīng)存儲(chǔ)。
3.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)匹配結(jié)果,確定該博文與該領(lǐng)域的相關(guān)度,具體包括: 將該博文的分詞結(jié)果中與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞相同的詞匯作為該博文的特征詞; 對(duì)于該博文的每個(gè)特征詞,統(tǒng)計(jì)出該特征詞在該博文中出現(xiàn)的頻次,并將該特征詞在所述特征詞庫(kù)中所對(duì)應(yīng)的權(quán)重作為該特征詞的領(lǐng)域權(quán)重; 根據(jù)該博文的特征詞總數(shù)、該博文的各特征詞的領(lǐng)域權(quán)重以及在該博文中出現(xiàn)的頻次,計(jì)算出該博文與該領(lǐng)域的相關(guān)度。
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)該博文的特征詞總數(shù)、該博文的各特征詞的領(lǐng)域權(quán)重以及在該博文中出現(xiàn)的頻次,計(jì)算出該博文與該領(lǐng)域的相關(guān)度,具體包括: 根據(jù)如下公式1,計(jì)算出該博文與該領(lǐng)域的相關(guān)度St:
5.如權(quán)利要求3所述的方法,其特征在于,所述將該博文的分詞結(jié)果中與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞相同的詞匯作為該博文的特征詞之后,還包括:對(duì)于該博文的每個(gè)特征詞,將該特征詞與該領(lǐng)域的共現(xiàn)特征詞庫(kù)中的領(lǐng)域共現(xiàn)特征詞進(jìn)行匹配;若所述共現(xiàn)特征詞庫(kù)中存在與該特征詞相同的領(lǐng)域共現(xiàn)特征詞,則將所述共現(xiàn)特征詞庫(kù)中與該領(lǐng)域共現(xiàn)特征詞結(jié)對(duì)的詞匯作為該博文的新的特征詞;以及 將該特征詞在該博文中出現(xiàn)的頻次作為該新的特征詞在該博文中出現(xiàn)的頻次,并將該新的特征詞在該領(lǐng)域的特征詞庫(kù)中所對(duì)應(yīng)的權(quán)重作為該新的特征詞的領(lǐng)域權(quán)重。
6.如權(quán)利要1-5任一所述的方法,其特征在于,所述博文具體是指待識(shí)別用戶在所述社交網(wǎng)絡(luò)上發(fā)布、評(píng)論、收藏、或轉(zhuǎn)發(fā)的博文。
7.一種社交網(wǎng)絡(luò)中的領(lǐng)域?qū)<野l(fā)現(xiàn)系統(tǒng),其特征在于,包括: 博文分詞模塊,用于針對(duì)所述社交網(wǎng)絡(luò)中待識(shí)別用戶的每篇博文,將該博文進(jìn)行分詞,并輸出該博文的分詞結(jié)果; 領(lǐng)域特征詞匹配模塊,用于對(duì)于所述用戶的每篇博文,針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,將所述博文分詞模塊輸出的該博文的分詞結(jié)果與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞進(jìn)行匹配,并輸出該博文與該領(lǐng)域的匹配結(jié)果; 博文領(lǐng)域相關(guān)度計(jì)算模塊,用于對(duì)于所述用戶的每篇博文,針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,根據(jù)所述領(lǐng)域特征詞匹配模塊輸出的該博文與該領(lǐng)域的匹配結(jié)果,確定該博文與該領(lǐng)域的相關(guān)度并輸出; 用戶領(lǐng)域相關(guān)度計(jì)算模塊,用于對(duì)于所述用戶的每篇博文,針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,根據(jù)所述博文領(lǐng)域相關(guān)度計(jì)算模塊輸出的該博文與該領(lǐng)域的相關(guān)度,統(tǒng)計(jì)與該領(lǐng)域的相關(guān)度超過設(shè)定閾值的所述用戶的博文的個(gè)數(shù),并將統(tǒng)計(jì)出的博文的個(gè)數(shù)與所述用戶的博文總數(shù)的比值,作為所述用戶與該領(lǐng)域的相關(guān)度并輸出; 領(lǐng)域?qū)<掖_定模塊,用于針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,若所述用戶領(lǐng)域相關(guān)度計(jì)算模塊輸出的所述用戶與該領(lǐng)域的相關(guān)度超過設(shè)定值,則確定所述用戶為該領(lǐng)域的專家。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,還包括: 特征詞庫(kù)構(gòu)建模塊,用于將社交網(wǎng)絡(luò)中已劃分到所述領(lǐng)域中的若干個(gè)用戶作為所述領(lǐng)域的種子用戶,并將各種子用戶的博文作為該領(lǐng)域的種子博文存儲(chǔ)至博文語(yǔ)料集中;對(duì)于博文語(yǔ)料集中該領(lǐng)域的每個(gè)種子博文,對(duì)該種子博文進(jìn)行分詞,統(tǒng)計(jì)出該種子博文的分詞結(jié)果中各詞匯的頻率信息,并根據(jù)各詞匯的頻率信息從該種子博文的分詞結(jié)果中選擇出的詞匯作為該領(lǐng)域的特征候選詞;針對(duì)該領(lǐng)域的每個(gè)特征候選詞,統(tǒng)計(jì)博文語(yǔ)料集中各領(lǐng)域的種子博文中包含該特征候選詞的領(lǐng)域個(gè)數(shù),并將統(tǒng)計(jì)出的領(lǐng)域個(gè)數(shù)作為該特征候選詞的領(lǐng)域頻率;針對(duì)該領(lǐng)域的每個(gè)特征候選詞,根據(jù)該特征候選詞的頻率信息以及領(lǐng)域頻率,計(jì)算出該特征候選詞的特征得分;在判斷該特征得分超過預(yù)先設(shè)定的特征閾值后,將該特征候選詞作為該領(lǐng)域的領(lǐng)域特征詞存儲(chǔ)至所述領(lǐng)域的特征詞庫(kù)中,并在所述領(lǐng)域的特征詞庫(kù)中將該特征得分作為該領(lǐng)域特征詞的權(quán)重與該領(lǐng)域特征詞對(duì)應(yīng)存儲(chǔ)。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于, 所述博文領(lǐng)域相關(guān)度計(jì)算模塊具體用于將所述博文分詞模塊輸出的該博文的分詞結(jié)果中與該領(lǐng)域的特征詞庫(kù)中的領(lǐng)域特征詞相同的詞匯作為該博文的特征詞;對(duì)于該博文的每個(gè)特征詞,統(tǒng)計(jì)出該特征詞在該博文中出現(xiàn)的頻次,并將該特征詞在所述特征詞庫(kù)中所對(duì)應(yīng)的權(quán)重作為該特征詞的領(lǐng)域權(quán)重;根據(jù)該博文的特征詞總數(shù)、該博文的各特征詞的領(lǐng)域權(quán)重以及在該博文中出現(xiàn)的頻次,計(jì)算出該博文與該領(lǐng)域的相關(guān)度。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,還包括: 領(lǐng)域共現(xiàn)特征詞匹配模塊,用于針對(duì)所述用戶的每篇博文,對(duì)于所述博文領(lǐng)域相關(guān)度計(jì)算模塊確定出的該博文的每個(gè)特征詞,將該特征詞與該領(lǐng)域的共現(xiàn)特征詞庫(kù)中的領(lǐng)域共現(xiàn)特征詞進(jìn)行匹配,并輸出該博文與各領(lǐng)域的共現(xiàn)特征詞庫(kù)的匹配結(jié)果;以及 所述博文領(lǐng)域相關(guān)度計(jì)算模塊還用于針對(duì)所述社交網(wǎng)絡(luò)中的每個(gè)領(lǐng)域,對(duì)于博文的每個(gè)特征詞,若所述領(lǐng)域共現(xiàn)特征詞匹配模塊輸出的該博文與該領(lǐng)域的共現(xiàn)特征詞庫(kù)的匹配結(jié)果具體為:所述共現(xiàn)特征詞庫(kù)中存在與該特征詞相同的領(lǐng)域共現(xiàn)特征詞,則將所述共現(xiàn)特征詞庫(kù)中與該領(lǐng)域共現(xiàn)特征詞結(jié)對(duì)的詞匯作為該博文的新的特征詞,并將該特征詞在該博文中出現(xiàn)的頻次作為該新的特征詞在該博文中出現(xiàn)的頻次,將該新的特征詞在該領(lǐng)域的特征詞庫(kù)中所對(duì)應(yīng)的權(quán)重作為該新的特征詞的領(lǐng)域權(quán)重。
【文檔編號(hào)】G06F17/27GK104035967SQ201410213795
【公開日】2014年9月10日 申請(qǐng)日期:2014年5月20日 優(yōu)先權(quán)日:2014年5月20日
【發(fā)明者】李金奎, 諶貽榮 申請(qǐng)人:微夢(mèng)創(chuàng)科網(wǎng)絡(luò)科技(中國(guó))有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1