亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

網(wǎng)絡(luò)文本處理方法及裝置制造方法

文檔序號(hào):6630948閱讀:184來源:國知局
網(wǎng)絡(luò)文本處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)文本處理方法及裝置。該網(wǎng)絡(luò)文本處理方法包括:獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度;判斷相似度是否大于預(yù)設(shè)閾值;如果相似度大于預(yù)設(shè)閾值,則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系;以及如果相似度不大于預(yù)設(shè)閾值,則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。通過本發(fā)明解決了相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題,進(jìn)而達(dá)到了提高網(wǎng)絡(luò)文本傳播路徑分析的準(zhǔn)確性的效果。
【專利說明】網(wǎng)絡(luò)文本處理方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)絡(luò)文本處理方法及裝置。

【背景技術(shù)】
[0002]隨著社會(huì)化媒體營銷渠道的發(fā)展,商家們逐漸開始重視用戶在網(wǎng)絡(luò)渠道上發(fā)出的言論,通過分析人們發(fā)出的這些言論來提高自己商業(yè)效益。同時(shí)也對(duì)網(wǎng)絡(luò)上的負(fù)面言論設(shè)置警報(bào),可及時(shí)發(fā)現(xiàn)對(duì)于品牌或商家有威脅的公關(guān)危機(jī),并且分析這些負(fù)面言論的傳播形式與途徑,進(jìn)行追根述源的剖析?;谏鲜鲈?,判斷文章或言論的傳播途徑變得尤為重要?,F(xiàn)在存在的對(duì)傳播途徑的分析僅僅停留在用網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁上的文章,通過網(wǎng)絡(luò)爬蟲抓取到的表示轉(zhuǎn)發(fā)來源的標(biāo)志詞(如,此文章轉(zhuǎn)自:新浪)來判斷文章的轉(zhuǎn)發(fā)源頭。
[0003]上述方法有很大的局限性,一旦網(wǎng)站上沒有標(biāo)記文章的轉(zhuǎn)摘出處時(shí),就無從判斷文章的轉(zhuǎn)發(fā)源頭。但是,如果在不同網(wǎng)站上采集到內(nèi)容完全相同的多篇文章,則可以通過查看文章內(nèi)容是否完全相同來查看是否是轉(zhuǎn)載關(guān)系,但這種方法也有很大的局限性,該方法僅僅能對(duì)文章內(nèi)容完全相同的情況給予判斷,但現(xiàn)在的網(wǎng)絡(luò)媒體大多會(huì)對(duì)原文稍作修改,再進(jìn)行發(fā)布,而該方法無法對(duì)這類情況進(jìn)行文章傳播路徑的分析。
[0004]針對(duì)相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題,目前尚未提出有效的解決方案。


【發(fā)明內(nèi)容】

[0005]本發(fā)明的主要目的在于提供一種網(wǎng)絡(luò)文本處理方法及裝置,以解決相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)絡(luò)文本處理方法。
[0007]根據(jù)本發(fā)明的網(wǎng)絡(luò)文本處理方法包括:獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度;判斷相似度是否大于預(yù)設(shè)閾值;如果相似度大于預(yù)設(shè)閾值,則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系;以及如果相似度不大于預(yù)設(shè)閾值,則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。
[0008]進(jìn)一步地,獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本包括:由第一目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第一網(wǎng)絡(luò)文本;由第二目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第二網(wǎng)絡(luò)文本,在獲取第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本之后,方法還包括:將第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫,計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度包括:從目標(biāo)數(shù)據(jù)庫中取出第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;計(jì)算取出的第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0009]進(jìn)一步地,計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度包括:對(duì)第一網(wǎng)絡(luò)文本進(jìn)行分詞,得到第一分詞集合,對(duì)第二網(wǎng)絡(luò)文本進(jìn)行分詞,得到第二分詞集合;統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù);統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù),其中,相同詞語組合中的組合詞語的順序相同;以及根據(jù)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)和第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0010]進(jìn)一步地,根據(jù)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)和第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度包括:統(tǒng)計(jì)第一分詞集合與第二分詞集合中詞語的總數(shù);計(jì)算第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)與第一分詞集合與第二分詞集合中詞語的總數(shù)的比值,得到第一比值;統(tǒng)計(jì)相同詞語兩兩組合的總數(shù);計(jì)算相同詞語組合的個(gè)數(shù)與相同詞語兩兩組合的總數(shù)的比值,得到第二比值;以及通過第一比值和第二比值計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0011]進(jìn)一步地,在確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,方法包括:獲取第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;獲取第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;以及如果第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間晚于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間,則確定第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站,如果第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間早于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間,則確定第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站。
[0012]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)文本處理裝置。
[0013]根據(jù)本發(fā)明的網(wǎng)絡(luò)文本處理裝置包括:獲取單元,用于獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;計(jì)算單元,用于計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度;判斷單元,用于判斷相似度是否大于預(yù)設(shè)閾值;以及確定單元,用于當(dāng)相似度大于預(yù)設(shè)閾值時(shí),則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系,當(dāng)相似度不大于預(yù)設(shè)閾值時(shí),則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。
[0014]進(jìn)一步地,獲取單元包括:第一抓取模塊,用于由第一目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第一網(wǎng)絡(luò)文本;第二抓取模塊,用于由第二目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第二網(wǎng)絡(luò)文本,該裝置還包括:存儲(chǔ)模塊,用于在獲取第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本之后,將第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫,計(jì)算單元包括:取出模塊,用于從目標(biāo)數(shù)據(jù)庫中取出第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;第一計(jì)算模塊,用于計(jì)算取出的第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0015]進(jìn)一步地,計(jì)算單元包括:分詞模塊,用于對(duì)第一網(wǎng)絡(luò)文本進(jìn)行分詞,得到第一分詞集合,對(duì)第二網(wǎng)絡(luò)文本進(jìn)行分詞,得到第二分詞集合;第一統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù);第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù),其中,相同詞語組合中的組合詞語的順序相同;以及第二計(jì)算模塊,用于根據(jù)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)和第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0016]進(jìn)一步地,第二計(jì)算模塊包括:第一統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中詞語的總數(shù);第一計(jì)算子模塊,用于計(jì)算第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)與第一分詞集合與第二分詞集合中詞語的總數(shù)的比值,得到第一比值;第二統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語兩兩組合的總數(shù);第二計(jì)算子模塊,用于計(jì)算相同詞語組合的個(gè)數(shù)與相同詞語兩兩組合的總數(shù)的比值,得到第二比值;以及第三計(jì)算子模塊,用于通過第一比值和第二比值計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0017]進(jìn)一步地,在確定單元確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,該裝置包括:第一獲取單元,用于獲取第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;第二獲取單元,用于獲取第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;以及第一確定單元,用于當(dāng)?shù)谝痪W(wǎng)絡(luò)文本的發(fā)布時(shí)間晚于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間時(shí),確定第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站,當(dāng)?shù)谝痪W(wǎng)絡(luò)文本的發(fā)布時(shí)間早于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間時(shí),確定第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站。
[0018]通過本發(fā)明,采用計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度,并通過判斷該相似度是否大于預(yù)設(shè)閾值來確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系,解決了相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題,進(jìn)而達(dá)到了提高網(wǎng)絡(luò)文本傳播路徑分析的準(zhǔn)確性的效果。

【專利附圖】

【附圖說明】
[0019]構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0020]圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)文本處理方法的流程圖;
[0021]圖2是根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)絡(luò)文本處理方法的流程圖;
[0022]圖3是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)文本處理裝置示意圖;以及
[0023]圖4是根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)絡(luò)文本處理裝置示意圖。

【具體實(shí)施方式】
[0024]需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0025]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0026]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了多個(gè)元器件的系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些元器件,而是可包括沒有清楚地列出的或?qū)τ谶@些產(chǎn)品或設(shè)備固有的其它元器件。
[0027]本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)文本處理方法,圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)文本處理方法的流程圖。
[0028]如圖1所示,該方法包括如下的步驟S102至步驟SllO:
[0029]步驟S102:獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本。
[0030]第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本可以是不同網(wǎng)站的網(wǎng)絡(luò)文本,也可以是相同網(wǎng)站不同時(shí)間發(fā)布的網(wǎng)絡(luò)文本??梢酝ㄟ^網(wǎng)絡(luò)爬蟲來獲取網(wǎng)絡(luò)文本,通過設(shè)置網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的規(guī)則,可以使得網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上符合要求的數(shù)據(jù),例如,通過設(shè)置可以使得網(wǎng)絡(luò)爬蟲從網(wǎng)站上抓取含有標(biāo)題的網(wǎng)絡(luò)文本,在獲得網(wǎng)絡(luò)文本后,通過設(shè)置可以使網(wǎng)絡(luò)爬蟲獲取該網(wǎng)絡(luò)文本的名詞詞語。
[0031]優(yōu)選地,為了提高獲取網(wǎng)絡(luò)文本的效率與質(zhì)量,獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本包括:由第一目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第一網(wǎng)絡(luò)文本;由第二目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第二網(wǎng)絡(luò)文本。
[0032]第一目標(biāo)網(wǎng)站和第二目標(biāo)網(wǎng)站都是預(yù)設(shè)的需要進(jìn)行網(wǎng)絡(luò)文本轉(zhuǎn)載關(guān)系分析的目標(biāo)網(wǎng)站。這些目標(biāo)網(wǎng)站可以是用戶經(jīng)常瀏覽的網(wǎng)站,例如網(wǎng)易、新浪、搜狐等網(wǎng)站,也可以是競爭對(duì)手的網(wǎng)站。通過從第一目標(biāo)網(wǎng)站獲取第一網(wǎng)絡(luò)文本,從第二目標(biāo)網(wǎng)站獲取第二網(wǎng)絡(luò)文本,這樣可以避免從不相關(guān)的網(wǎng)站獲取網(wǎng)絡(luò)文本,提高獲取的網(wǎng)絡(luò)文本的效率與質(zhì)量。
[0033]由于每天網(wǎng)絡(luò)上都會(huì)發(fā)布海量的文本數(shù)據(jù),為了分析這些網(wǎng)絡(luò)文本的傳播路徑,首先需要分析不同網(wǎng)站發(fā)布的網(wǎng)絡(luò)文章之間的轉(zhuǎn)載關(guān)系。由于事先無法確定哪些網(wǎng)絡(luò)文本被轉(zhuǎn)載,也無法確定那些被轉(zhuǎn)載的網(wǎng)絡(luò)文本轉(zhuǎn)載后的位置,因此需要獲取大量的網(wǎng)絡(luò)文本,并分別對(duì)這些網(wǎng)絡(luò)文本進(jìn)行轉(zhuǎn)載關(guān)系判斷,這種缺乏目的性的實(shí)現(xiàn)方式會(huì)造成較低的效率。面對(duì)網(wǎng)絡(luò)上數(shù)量巨大的網(wǎng)絡(luò)文本數(shù)據(jù),可以通過預(yù)先設(shè)定多個(gè)目標(biāo)網(wǎng)站。通過從目標(biāo)網(wǎng)站獲取網(wǎng)絡(luò)文本,可以降低網(wǎng)絡(luò)文本的獲取量,同時(shí)增加網(wǎng)絡(luò)文本傳播路徑分析的針對(duì)性,提聞獲取的網(wǎng)絡(luò)文本的質(zhì)量。
[0034]在獲取第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本之后,將第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫,在計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度時(shí),從目標(biāo)數(shù)據(jù)庫中取出第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;計(jì)算取出的第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0035]目標(biāo)數(shù)據(jù)庫是存儲(chǔ)網(wǎng)絡(luò)爬蟲從網(wǎng)站上抓取的數(shù)據(jù)的數(shù)據(jù)庫。在該目標(biāo)數(shù)據(jù)庫中,不僅存儲(chǔ)了網(wǎng)絡(luò)文本,還存儲(chǔ)了網(wǎng)絡(luò)文本對(duì)應(yīng)的發(fā)布時(shí)間和發(fā)布網(wǎng)站。將獲取的所有的網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫中,有利于批量進(jìn)行網(wǎng)絡(luò)文本間的相似度計(jì)算。通過分別計(jì)算數(shù)據(jù)庫中所有網(wǎng)絡(luò)文本間的相似度來整體分析網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系,進(jìn)而分析網(wǎng)絡(luò)文本的傳播路徑。
[0036]步驟S104:計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0037]第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度是指這兩個(gè)網(wǎng)絡(luò)文本的相似程度,可以通過統(tǒng)計(jì)第一網(wǎng)絡(luò)文本的關(guān)鍵詞語和第二網(wǎng)絡(luò)文本的關(guān)鍵詞語相同的個(gè)數(shù)占關(guān)鍵詞語的總數(shù)來衡量,也可以通過一些比較復(fù)雜的算法來計(jì)算。
[0038]由于網(wǎng)絡(luò)媒體在轉(zhuǎn)載網(wǎng)絡(luò)文章時(shí),通常會(huì)對(duì)網(wǎng)絡(luò)文章進(jìn)行一定的修改之后再發(fā)布,而且不標(biāo)識(shí)轉(zhuǎn)載來源,這種情況會(huì)造成難以分析網(wǎng)絡(luò)文章的轉(zhuǎn)載關(guān)系。但是,經(jīng)過修改的網(wǎng)絡(luò)文章跟原網(wǎng)絡(luò)文章大部分內(nèi)容還是相似的,通過計(jì)算兩篇網(wǎng)絡(luò)文章的相似度,可以得出兩篇網(wǎng)絡(luò)文章的相似程度。可以通過兩篇網(wǎng)絡(luò)文章的相似程度來確定它們之間是否有轉(zhuǎn)載關(guān)系。
[0039]計(jì)算兩個(gè)網(wǎng)絡(luò)文本的相似度的算法較多,例如向量空間模型法,該方法通過將文本內(nèi)容中的詞轉(zhuǎn)化為向量形式,從而計(jì)算向量間的關(guān)系,該方法實(shí)現(xiàn)較為復(fù)雜。由于存在轉(zhuǎn)載關(guān)系的兩個(gè)網(wǎng)絡(luò)文本,就算進(jìn)行了一定程度的修改,兩者之間的相似度還是很高,因此,無需采用復(fù)雜的算法去計(jì)算兩個(gè)網(wǎng)絡(luò)文本的相似度,為了降低計(jì)算量,提高計(jì)算效率,優(yōu)選地,如圖2所示,可以通過如下方法計(jì)算兩個(gè)網(wǎng)絡(luò)文本的相似度:
[0040]步驟S202:對(duì)第一網(wǎng)絡(luò)文本進(jìn)行分詞,得到第一分詞集合,對(duì)第二網(wǎng)絡(luò)文本進(jìn)行分詞,得到第二分詞集合。
[0041]分別對(duì)第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本進(jìn)行分詞,將完整的網(wǎng)絡(luò)文本劃分成一個(gè)一個(gè)的詞語,第一網(wǎng)絡(luò)文本進(jìn)行分詞后的詞語組成第一分詞集合,第二網(wǎng)絡(luò)文本進(jìn)行分詞后的詞語組成第二分詞集合。由于網(wǎng)絡(luò)文本中存在一些停用詞,例如語氣詞、連接詞等,這些詞對(duì)于網(wǎng)絡(luò)文本相似度的計(jì)算不起作用,可選地,可以過濾掉這些停用詞。
[0042]步驟S204:統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)。
[0043]分別比較第一分詞集合與第二分詞集合中的詞語,識(shí)別出相同的詞語,并統(tǒng)計(jì)相同詞語的個(gè)數(shù)。
[0044]步驟S206:統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù),其中,相同詞語組合中的組合詞語的順序相同。
[0045]分別將第一分詞集合與第二分詞集合中相同詞語按照在網(wǎng)絡(luò)文本出現(xiàn)的順序兩兩進(jìn)行組合,只有兩個(gè)相同詞語在第一網(wǎng)絡(luò)文本中出現(xiàn)的次序與這兩個(gè)相同詞語在第二網(wǎng)絡(luò)文本中出現(xiàn)的次序相同時(shí),這兩個(gè)相同詞語才構(gòu)成一個(gè)相同詞語組合。
[0046]例如,第一分詞集合與第二分詞集合中都存在相同詞語A、B,在第一網(wǎng)絡(luò)文本中,A、B的組合AB中A排在B前,在第二網(wǎng)路文本中A、B的組合為AB,A排在B前,則AB為一個(gè)相同詞語組合。
[0047]步驟S208:根據(jù)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)和第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0048]在得到第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)和第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù)后,可選地,統(tǒng)計(jì)第一分詞集合與第二分詞集合中詞語的總數(shù);計(jì)算第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)與第一分詞集合與第二分詞集合中詞語的總數(shù)的比值,得到第一比值;統(tǒng)計(jì)相同詞語兩兩組合的總數(shù);計(jì)算相同詞語組合的個(gè)數(shù)與相同詞語兩兩組合的總數(shù)的比值,得到第二比值;以及通過第一比值和第二比值計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0049]通過第一比值和第二比值計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度時(shí),可以預(yù)設(shè)兩個(gè)比值的權(quán)重,例如,第一比值為85 %,權(quán)重為0.7,第二比值為70 %,權(quán)重為0.3,則將85% *0.7+70% *0.3作為兩個(gè)網(wǎng)絡(luò)文本的相似度。
[0050]步驟S106:判斷相似度是否大于預(yù)設(shè)閾值。
[0051]預(yù)設(shè)閾值用來篩選出那些相似度較高的網(wǎng)絡(luò)文本,比較第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的相似度和預(yù)設(shè)閾值的大小,只有當(dāng)相似度大于預(yù)設(shè)閾值時(shí),第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的相似度才較高。由于當(dāng)兩個(gè)網(wǎng)絡(luò)文本的相似度過低時(shí),則這兩個(gè)網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系的可能性較低。因此需要通過設(shè)置閾值來剔篩選出相似度較高的兩個(gè)網(wǎng)絡(luò)文本,來過濾掉相似度較低的兩個(gè)網(wǎng)絡(luò)文本。閾值的設(shè)置可以根據(jù)多次試驗(yàn)得到一個(gè)合適的閾值,例如,可以取預(yù)設(shè)閾值為80%。通過比較相似度和預(yù)設(shè)閾值來確定兩個(gè)網(wǎng)絡(luò)文本是否存在轉(zhuǎn)載關(guān)系。
[0052]步驟S108:如果相似度大于預(yù)設(shè)閾值,則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系。
[0053]步驟SllO:如果相似度不大于預(yù)設(shè)閾值,則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。
[0054]當(dāng)?shù)谝痪W(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度大于預(yù)設(shè)閾值,則說明第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本相似度較高,存在轉(zhuǎn)載關(guān)系,當(dāng)?shù)谝痪W(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度不大于預(yù)設(shè)閾值,則說明第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本相似度較低,不存在轉(zhuǎn)載關(guān)系。
[0055]本發(fā)明實(shí)施例通過計(jì)算兩個(gè)網(wǎng)絡(luò)文本的相似度,并通過判斷該相似度是否大于預(yù)設(shè)閾值來確定這兩個(gè)網(wǎng)絡(luò)文本的是否存在轉(zhuǎn)載關(guān)系,當(dāng)相似度大于預(yù)設(shè)閾值時(shí),則這兩個(gè)網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系,當(dāng)相似度不大于預(yù)設(shè)閾值時(shí),則這兩個(gè)網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系,解決了相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題。
[0056]優(yōu)選地,在確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,方法包括:獲取第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;獲取第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;以及如果第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間晚于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間,則確定第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站,如果第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間早于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間,則確定第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站。
[0057]第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站以及第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站同樣存儲(chǔ)在目標(biāo)數(shù)據(jù)庫中,而且在目標(biāo)數(shù)據(jù)庫中建立了第一網(wǎng)絡(luò)文本與第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站的對(duì)應(yīng)關(guān)系,以及第二網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站的對(duì)應(yīng)關(guān)系,通過第一網(wǎng)絡(luò)文本可以查詢到第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站,通過第二網(wǎng)絡(luò)文本也同樣可以查詢到第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站。
[0058]由于進(jìn)行網(wǎng)絡(luò)文本轉(zhuǎn)載關(guān)系分析的目的是用來分析網(wǎng)絡(luò)文本的傳播路徑。因此在確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,可以進(jìn)一步分析第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的傳播路徑。在將網(wǎng)絡(luò)文本存入數(shù)據(jù)庫的同時(shí),將該網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站等信息同時(shí)存入數(shù)據(jù)庫,并在數(shù)據(jù)庫中建立該網(wǎng)絡(luò)文本與該網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站的對(duì)應(yīng)關(guān)系。因此,從數(shù)據(jù)庫中可以快速的獲取網(wǎng)絡(luò)文本對(duì)應(yīng)的發(fā)布時(shí)間和發(fā)布網(wǎng)站。通過比較兩個(gè)網(wǎng)絡(luò)文本的發(fā)布時(shí)間的先后可以確定該兩個(gè)網(wǎng)絡(luò)文本的傳播路徑。例如,網(wǎng)絡(luò)文本I與網(wǎng)絡(luò)文本2存在轉(zhuǎn)載關(guān)系,網(wǎng)絡(luò)文本I發(fā)布時(shí)間為2014-8-26,發(fā)布網(wǎng)站為新浪,網(wǎng)絡(luò)文本2的發(fā)布時(shí)間為2014-6-9,發(fā)布網(wǎng)站為網(wǎng)易,則說明新浪網(wǎng)站轉(zhuǎn)載了網(wǎng)易網(wǎng)站的網(wǎng)絡(luò)文本2,該網(wǎng)絡(luò)文本2的傳播路徑為從網(wǎng)易網(wǎng)站至新浪網(wǎng)站。
[0059]從以上的描述中,可以看出,本發(fā)明實(shí)現(xiàn)了如下技術(shù)效果:
[0060]本發(fā)明實(shí)施例通過計(jì)算第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的相似度,并與預(yù)設(shè)閾值比較來判斷第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本是否存在轉(zhuǎn)載關(guān)系,解決了相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題,在確定第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,通過分別獲取第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站來確定網(wǎng)絡(luò)文本的傳播路徑,從而實(shí)現(xiàn)了對(duì)為標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的傳播路徑的分析,進(jìn)一步提高了網(wǎng)絡(luò)文本傳播路徑分析的準(zhǔn)確性。
[0061]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0062]根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種網(wǎng)絡(luò)文本處理裝置,該網(wǎng)絡(luò)文本處理裝置可以用于執(zhí)行本發(fā)明實(shí)施例的網(wǎng)絡(luò)文本處理方法,本發(fā)明實(shí)施例的網(wǎng)絡(luò)文本處理方法也可以通過本發(fā)明實(shí)施例的網(wǎng)絡(luò)文本處理裝置來執(zhí)行。
[0063]如圖3所示,該裝置包括:獲取單元10、計(jì)算單元20、判斷單元30和確定單元40。
[0064]獲取單元10,用于獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本。
[0065]第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本可以是不同網(wǎng)站的網(wǎng)絡(luò)文本,也可以是相同網(wǎng)站不同時(shí)間發(fā)布的網(wǎng)絡(luò)文本??梢酝ㄟ^網(wǎng)絡(luò)爬蟲來獲取網(wǎng)絡(luò)文本,通過設(shè)定網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的規(guī)則,可以使得網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上符合要求的數(shù)據(jù),例如,通過設(shè)置可以使得網(wǎng)絡(luò)爬蟲從網(wǎng)站上抓取含有標(biāo)題的網(wǎng)絡(luò)文本,在獲得網(wǎng)絡(luò)文本后,通過設(shè)置可以使網(wǎng)絡(luò)爬蟲獲取該網(wǎng)絡(luò)文本的名詞詞語。
[0066]面對(duì)如此數(shù)量巨大的網(wǎng)絡(luò)文本數(shù)據(jù),優(yōu)選地,可以通過預(yù)先設(shè)定多個(gè)目標(biāo)網(wǎng)站,這些目標(biāo)網(wǎng)站可以是用戶經(jīng)常瀏覽的網(wǎng)站,例如網(wǎng)易、新浪、搜狐等網(wǎng)站,在需要判斷競爭對(duì)手有沒有轉(zhuǎn)載網(wǎng)站發(fā)布的網(wǎng)絡(luò)文本時(shí),也可以將一些競爭對(duì)手的網(wǎng)站設(shè)為目標(biāo)網(wǎng)站。通過從目標(biāo)網(wǎng)站獲取網(wǎng)絡(luò)文本,可以降低網(wǎng)絡(luò)文本的獲取量,同時(shí)增加網(wǎng)絡(luò)文本傳播路徑分析的針對(duì)性。
[0067]計(jì)算單元20,用于計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0068]第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度是指這兩個(gè)網(wǎng)絡(luò)文本的相似程度,可以通過統(tǒng)計(jì)第一網(wǎng)絡(luò)文本的關(guān)鍵詞語和第二網(wǎng)絡(luò)文本的關(guān)鍵詞語相同的個(gè)數(shù)占兩個(gè)網(wǎng)絡(luò)文本中關(guān)鍵詞語的總數(shù)來衡量,也可以通過一些比較復(fù)雜的算法來計(jì)算。
[0069]由于網(wǎng)絡(luò)媒體在轉(zhuǎn)載網(wǎng)絡(luò)文章時(shí),通常會(huì)對(duì)網(wǎng)絡(luò)文章進(jìn)行一定的修改之后再發(fā)布,而且不標(biāo)識(shí)轉(zhuǎn)載來源,這種情況會(huì)造成難以分析網(wǎng)絡(luò)文章的轉(zhuǎn)載關(guān)系。但是,經(jīng)過修改的網(wǎng)絡(luò)文章跟原網(wǎng)絡(luò)文章大部分內(nèi)容還是相似的,通過計(jì)算兩篇網(wǎng)絡(luò)文章的相似度,可以得出兩篇網(wǎng)絡(luò)文章的相似程度??梢酝ㄟ^兩篇網(wǎng)絡(luò)文章的相似程度來確定它們之間是否有轉(zhuǎn)載關(guān)系。
[0070]判斷單元30,用于判斷相似度是否大于預(yù)設(shè)閾值。
[0071]預(yù)設(shè)閾值用來篩選出那些相似度較高的網(wǎng)絡(luò)文本,比較第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的相似度和預(yù)設(shè)閾值的大小,只有當(dāng)相似度大于預(yù)設(shè)閾值時(shí),第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的相似度才較高。由于當(dāng)兩個(gè)網(wǎng)絡(luò)文本的相似度過低時(shí),則這兩個(gè)網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系的可能性較低。因此需要通過設(shè)置閾值來剔篩選出相似度較高的兩個(gè)網(wǎng)絡(luò)文本,來過濾掉相似度較低的兩個(gè)網(wǎng)絡(luò)文本。閾值的設(shè)置可以根據(jù)多次試驗(yàn)得到一個(gè)合適的閾值,例如,可以取預(yù)設(shè)閾值為80%。通過比較相似度和預(yù)設(shè)閾值來確定兩個(gè)網(wǎng)絡(luò)文本是否存在轉(zhuǎn)載關(guān)系。
[0072]確定單元40,用于當(dāng)相似度大于預(yù)設(shè)閾值時(shí),則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系,當(dāng)相似度不大于預(yù)設(shè)閾值時(shí),則確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。
[0073]當(dāng)?shù)谝痪W(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度大于預(yù)設(shè)閾值,則說明第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本相似度較高,存在轉(zhuǎn)載關(guān)系,當(dāng)?shù)谝痪W(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度不大于預(yù)設(shè)閾值,則說明第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本相似度較低,不存在轉(zhuǎn)載關(guān)系。
[0074]本發(fā)明實(shí)施例通過計(jì)算單元20計(jì)算兩個(gè)網(wǎng)絡(luò)文本的相似度,并通過判斷單元30判斷該相似度是否大于預(yù)設(shè)閾值來確定這兩個(gè)網(wǎng)絡(luò)文本的是否存在轉(zhuǎn)載關(guān)系,當(dāng)相似度大于預(yù)設(shè)閾值時(shí),確定單元40則確定這兩個(gè)網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系,當(dāng)相似度不大于預(yù)設(shè)閾值時(shí),確定單元40則確定這兩個(gè)網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系,解決了相關(guān)技術(shù)中無法確定未標(biāo)識(shí)轉(zhuǎn)載來源的網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系的問題。
[0075]優(yōu)選地,為了提高獲取網(wǎng)絡(luò)文本的效率與質(zhì)量,獲取單元10包括:第一抓取模塊,用于由第一目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第一網(wǎng)絡(luò)文本;第二抓取模塊,用于由第二目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第二網(wǎng)絡(luò)文本,該裝置還包括:存儲(chǔ)模塊,用于在獲取第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本之后,將第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫,計(jì)算單元20包括:取出模塊,用于從目標(biāo)數(shù)據(jù)庫中取出第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本;第一計(jì)算模塊,用于計(jì)算取出的第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0076]第一目標(biāo)網(wǎng)站和第二目標(biāo)網(wǎng)站都是預(yù)設(shè)的需要進(jìn)行網(wǎng)絡(luò)文本轉(zhuǎn)載關(guān)系分析的目標(biāo)網(wǎng)站。這些目標(biāo)網(wǎng)站可以是用戶經(jīng)常瀏覽的網(wǎng)站,例如網(wǎng)易、新浪、搜狐等網(wǎng)站,也可以是競爭對(duì)手的網(wǎng)站。通過從第一目標(biāo)網(wǎng)站獲取第一網(wǎng)絡(luò)文本,從第二目標(biāo)網(wǎng)站獲取第二網(wǎng)絡(luò)文本,這樣可以避免從不相關(guān)的網(wǎng)站獲取網(wǎng)絡(luò)文本,提高獲取的網(wǎng)絡(luò)文本的效率與質(zhì)量。
[0077]由于每天網(wǎng)絡(luò)上都會(huì)發(fā)布海量的文本數(shù)據(jù),為了分析這些網(wǎng)絡(luò)文本的傳播路徑,首先需要分析不同網(wǎng)站發(fā)布的網(wǎng)絡(luò)文章之間的轉(zhuǎn)載關(guān)系。由于事先無法確定哪些網(wǎng)絡(luò)文本被轉(zhuǎn)載,也無法確定那些被轉(zhuǎn)載的網(wǎng)絡(luò)文本轉(zhuǎn)載后的位置,因此需要獲取大量的網(wǎng)絡(luò)文本,并分別對(duì)這些網(wǎng)絡(luò)文本進(jìn)行轉(zhuǎn)載關(guān)系判斷,這種缺乏目的性的實(shí)現(xiàn)方式會(huì)造成較低的效率。面對(duì)網(wǎng)絡(luò)上數(shù)量巨大的網(wǎng)絡(luò)文本數(shù)據(jù),可以通過預(yù)先設(shè)定多個(gè)目標(biāo)網(wǎng)站。通過從目標(biāo)網(wǎng)站獲取網(wǎng)絡(luò)文本,可以降低網(wǎng)絡(luò)文本的獲取量,同時(shí)增加網(wǎng)絡(luò)文本傳播路徑分析的針對(duì)性,提聞獲取的網(wǎng)絡(luò)文本的質(zhì)量。
[0078]目標(biāo)數(shù)據(jù)庫是存儲(chǔ)網(wǎng)絡(luò)爬蟲從網(wǎng)站上抓取的數(shù)據(jù)的數(shù)據(jù)庫。在該目標(biāo)數(shù)據(jù)庫中,不僅存儲(chǔ)了網(wǎng)絡(luò)文本,還存儲(chǔ)了網(wǎng)絡(luò)文本對(duì)應(yīng)的發(fā)布時(shí)間和發(fā)布網(wǎng)站。將獲取的所有的網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫中,有利于批量進(jìn)行網(wǎng)絡(luò)文本間的相似度計(jì)算。通過分別計(jì)算數(shù)據(jù)庫中所有網(wǎng)絡(luò)文本間的相似度來整體分析網(wǎng)絡(luò)文本的轉(zhuǎn)載關(guān)系,進(jìn)而分析網(wǎng)絡(luò)文本的傳播路徑。
[0079]優(yōu)選地,為了降低計(jì)算第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本的相似度的計(jì)算量,提高計(jì)算效率,如圖4所示,計(jì)算單元20包括:分詞模塊201,第一統(tǒng)計(jì)模塊202,第二統(tǒng)計(jì)模塊203和第二計(jì)算模塊204。
[0080]分詞模塊201,用于對(duì)第一網(wǎng)絡(luò)文本進(jìn)行分詞,得到第一分詞集合,對(duì)第二網(wǎng)絡(luò)文本進(jìn)行分詞,得到第二分詞集合。
[0081]分別對(duì)第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本進(jìn)行分詞,將完整的網(wǎng)絡(luò)文本劃分成一個(gè)一個(gè)的詞語,第一網(wǎng)絡(luò)文本進(jìn)行分詞后的詞語組成第一分詞集合,第二網(wǎng)絡(luò)文本進(jìn)行分詞后的詞語組成第二分詞集合。由于網(wǎng)絡(luò)文本中存在一些停用詞,例如語氣詞、連接詞等,這些詞對(duì)于網(wǎng)絡(luò)文本相似度的計(jì)算不起作用,可選地,可以過濾掉這些停用詞。
[0082]第一統(tǒng)計(jì)模塊202,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)。
[0083]分別比較第一分詞集合與第二分詞集合中的詞語,識(shí)別出相同的詞語,并統(tǒng)計(jì)相同詞語的個(gè)數(shù)。
[0084]第二統(tǒng)計(jì)模塊203,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù),其中,相同詞語組合中的組合詞語的順序相同。
[0085]分別將第一分詞集合與第二分詞集合中相同詞語按照在網(wǎng)絡(luò)文本出現(xiàn)的順序兩兩進(jìn)行組合,只有兩個(gè)相同詞語在第一網(wǎng)絡(luò)文本中出現(xiàn)的次序與這兩個(gè)相同詞語在第二網(wǎng)絡(luò)文本中出現(xiàn)的次序相同時(shí),這兩個(gè)相同詞語才構(gòu)成一個(gè)相同詞語組合。
[0086]例如,第一分詞集合與第二分詞集合中都存在相同詞語A、B,在第一網(wǎng)絡(luò)文本中,A、B的組合AB中A排在B前,在第二網(wǎng)路文本中A、B的組合為AB,A排在B前,則AB為一個(gè)相同詞語組合。
[0087]第二計(jì)算模塊204,用于根據(jù)第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)和第一分詞集合與第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0088]可選地,第二計(jì)算模塊204包括:第一統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中詞語的總數(shù);第一計(jì)算子模塊,用于計(jì)算第一分詞集合與第二分詞集合中相同詞語的個(gè)數(shù)與第一分詞集合與第二分詞集合中詞語的總數(shù)的比值,得到第一比值;第二統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)第一分詞集合與第二分詞集合中相同詞語兩兩組合的總數(shù);第二計(jì)算子模塊,用于計(jì)算相同詞語組合的個(gè)數(shù)與相同詞語兩兩組合的總數(shù)的比值,得到第二比值;以及第三計(jì)算子模塊,用于通過第一比值和第二比值計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度。
[0089]通過第一比值和第二比值計(jì)算第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的相似度時(shí),可以預(yù)設(shè)兩個(gè)比值的權(quán)重,例如,第一比值為85 %,權(quán)重為0.7,第二比值為70 %,權(quán)重為0.3,則將85% *0.7+70% *0.3作為兩個(gè)網(wǎng)絡(luò)文本的相似度。
[0090]在確定單元40確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,該裝置包括:第一獲取單元,用于獲取第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;第二獲取單元,用于獲取第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;以及第一確定單元,用于當(dāng)?shù)谝痪W(wǎng)絡(luò)文本的發(fā)布時(shí)間晚于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間時(shí),確定第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站,當(dāng)?shù)谝痪W(wǎng)絡(luò)文本的發(fā)布時(shí)間早于第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間時(shí),確定第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站。
[0091]第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站以及第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站同樣存儲(chǔ)在目標(biāo)數(shù)據(jù)庫中,而且在目標(biāo)數(shù)據(jù)庫中建立了第一網(wǎng)絡(luò)文本與第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站的對(duì)應(yīng)關(guān)系,以及第二網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站的對(duì)應(yīng)關(guān)系,通過第一網(wǎng)絡(luò)文本可以查詢到第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站,通過第二網(wǎng)絡(luò)文本也同樣可以查詢到第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間、發(fā)布網(wǎng)站。
[0092]由于進(jìn)行網(wǎng)絡(luò)文本轉(zhuǎn)載關(guān)系分析的目的是用來分析網(wǎng)絡(luò)文本的傳播路徑。因此在確定第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,可以進(jìn)一步分析第一網(wǎng)絡(luò)文本與第二網(wǎng)絡(luò)文本的傳播路徑。在將網(wǎng)絡(luò)文本存入數(shù)據(jù)庫的同時(shí),將該網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站等信息同時(shí)存入數(shù)據(jù)庫,并在數(shù)據(jù)庫中建立該網(wǎng)絡(luò)文本與該網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站的對(duì)應(yīng)關(guān)系。因此,從數(shù)據(jù)庫中可以快速的獲取網(wǎng)絡(luò)文本對(duì)應(yīng)的發(fā)布時(shí)間和發(fā)布網(wǎng)站。通過比較兩個(gè)網(wǎng)絡(luò)文本的發(fā)布時(shí)間的先后可以確定該兩個(gè)網(wǎng)絡(luò)文本的傳播路徑。例如,網(wǎng)絡(luò)文本I與網(wǎng)絡(luò)文本2存在轉(zhuǎn)載關(guān)系,網(wǎng)絡(luò)文本I發(fā)布時(shí)間為2014-8-26,發(fā)布網(wǎng)站為新浪,網(wǎng)絡(luò)文本2的發(fā)布時(shí)間為2014-6-9,發(fā)布網(wǎng)站為網(wǎng)易,則說明新浪網(wǎng)站轉(zhuǎn)載了網(wǎng)易網(wǎng)站的網(wǎng)絡(luò)文本2,該網(wǎng)絡(luò)文本2的傳播路徑為從網(wǎng)易網(wǎng)站至新浪網(wǎng)站。
[0093]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0094]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)文本處理方法,其特征在于,包括: 獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本; 計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度; 判斷所述相似度是否大于預(yù)設(shè)閾值; 如果所述相似度大于所述預(yù)設(shè)閾值,則確定所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系;以及 如果所述相似度不大于所述預(yù)設(shè)閾值,則確定所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)文本處理方法,其特征在于, 獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本包括:由第一目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第一網(wǎng)絡(luò)文本;由第二目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第二網(wǎng)絡(luò)文本, 在獲取所述第一網(wǎng)絡(luò)文本和所述第二網(wǎng)絡(luò)文本之后,所述方法還包括:將所述第一網(wǎng)絡(luò)文本和所述第二網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫, 計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度包括:從所述目標(biāo)數(shù)據(jù)庫中取出所述第一網(wǎng)絡(luò)文本和所述第二網(wǎng)絡(luò)文本;計(jì)算取出的所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)文本處理方法,其特征在于,計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度包括: 對(duì)所述第一網(wǎng)絡(luò)文本進(jìn)行分詞,得到第一分詞集合,對(duì)所述第二網(wǎng)絡(luò)文本進(jìn)行分詞,得到第二分詞集合; 統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù); 統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中相同詞語組合的個(gè)數(shù),其中,相同詞語組合中的組合詞語的順序相同;以及 根據(jù)所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù)和所述第一分詞集合與所述第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度。
4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)文本處理方法,其特征在于,根據(jù)所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù)和所述第一分詞集合與所述第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度包括: 統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中詞語的總數(shù); 計(jì)算所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù)與所述第一分詞集合與所述第二分詞集合中詞語的總數(shù)的比值,得到第一比值; 統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中相同詞語兩兩組合的總數(shù); 計(jì)算所述相同詞語組合的個(gè)數(shù)與所述相同詞語兩兩組合的總數(shù)的比值,得到第二比值;以及 通過所述第一比值和所述第二比值計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)文本處理方法,其特征在于,在確定所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,所述方法包括: 獲取所述第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站; 獲取所述第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;以及 如果所述第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間晚于所述第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間,則確定所述第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自所述第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站,如果所述第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間早于所述第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間,則確定所述第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自所述第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站。
6.一種網(wǎng)絡(luò)文本處理裝置,其特征在于,包括: 獲取單元,用于獲取網(wǎng)絡(luò)發(fā)布的第一網(wǎng)絡(luò)文本和第二網(wǎng)絡(luò)文本; 計(jì)算單元,用于計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度; 判斷單元,用于判斷所述相似度是否大于預(yù)設(shè)閾值;以及 確定單元,用于當(dāng)所述相似度大于所述預(yù)設(shè)閾值時(shí),則確定所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系,當(dāng)所述相似度不大于所述預(yù)設(shè)閾值時(shí),則確定所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本不存在轉(zhuǎn)載關(guān)系。
7.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)文本處理裝置,其特征在于, 所述獲取單元包括:第一抓取模塊,用于由第一目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第一網(wǎng)絡(luò)文本;第二抓取模塊,用于由第二目標(biāo)網(wǎng)站抓取文本數(shù)據(jù),得到第二網(wǎng)絡(luò)文本, 所述裝置還包括:存儲(chǔ)模塊,用于在獲取所述第一網(wǎng)絡(luò)文本和所述第二網(wǎng)絡(luò)文本之后,將所述第一網(wǎng)絡(luò)文本和所述第二網(wǎng)絡(luò)文本存儲(chǔ)至目標(biāo)數(shù)據(jù)庫, 所述計(jì)算單元包括:取出模塊,用于從所述目標(biāo)數(shù)據(jù)庫中取出所述第一網(wǎng)絡(luò)文本和所述第二網(wǎng)絡(luò)文本;第一計(jì)算模塊,用于計(jì)算取出的所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度。
8.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)文本處理裝置,其特征在于,所述計(jì)算單元包括: 分詞模塊,用于對(duì)所述第一網(wǎng)絡(luò)文本進(jìn)行分詞,得到第一分詞集合,對(duì)所述第二網(wǎng)絡(luò)文本進(jìn)行分詞,得到第二分詞集合; 第一統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù);第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中相同詞語組合的個(gè)數(shù),其中,相同詞語組合中的組合詞語的順序相同;以及 第二計(jì)算模塊,用于根據(jù)所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù)和所述第一分詞集合與所述第二分詞集合中相同詞語組合的個(gè)數(shù)計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度。
9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)文本處理裝置,其特征在于,所述第二計(jì)算模塊包括: 第一統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中詞語的總數(shù); 第一計(jì)算子模塊,用于計(jì)算所述第一分詞集合與所述第二分詞集合中相同詞語的個(gè)數(shù)與所述第一分詞集合與所述第二分詞集合中詞語的總數(shù)的比值,得到第一比值; 第二統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述第一分詞集合與所述第二分詞集合中相同詞語兩兩組合的總數(shù); 第二計(jì)算子模塊,用于計(jì)算所述相同詞語組合的個(gè)數(shù)與所述相同詞語兩兩組合的總數(shù)的比值,得到第二比值;以及 第三計(jì)算子模塊,用于通過所述第一比值和所述第二比值計(jì)算所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本的相似度。
10.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)文本處理裝置,其特征在于,在所述確定單元確定所述第一網(wǎng)絡(luò)文本與所述第二網(wǎng)絡(luò)文本存在轉(zhuǎn)載關(guān)系后,所述裝置包括: 第一獲取單元,用于獲取所述第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站; 第二獲取單元,用于獲取所述第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間和發(fā)布網(wǎng)站;以及第一確定單元,用于當(dāng)所述第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間晚于所述第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間時(shí),確定所述第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自所述第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站,當(dāng)所述第一網(wǎng)絡(luò)文本的發(fā)布時(shí)間早于所述第二網(wǎng)絡(luò)文本的發(fā)布時(shí)間時(shí),確定所述第二網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站轉(zhuǎn)載自所述第一網(wǎng)絡(luò)文本的發(fā)布網(wǎng)站。
【文檔編號(hào)】G06F17/30GK104346443SQ201410559608
【公開日】2015年2月11日 申請(qǐng)日期:2014年10月20日 優(yōu)先權(quán)日:2014年10月20日
【發(fā)明者】余德樂, 陳俊宏, 楊韜 申請(qǐng)人:北京國雙科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1