文本內(nèi)容挖掘方法及裝置制造方法
【專利摘要】本發(fā)明公開一種文本內(nèi)容挖掘方法及裝置,其方法包括:實時創(chuàng)建挖掘文本;對挖掘文本所包括的文字進行文字拆分,生成候選串并統(tǒng)計串頻率;計算各候選串的左右熵;根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選,創(chuàng)建目標詞的集合。本發(fā)明通過實時收集數(shù)據(jù)并確定挖掘文本,對挖掘文本進行文字拆分,生成候選串并統(tǒng)計串頻率,計算各候選串的左右熵;然后根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選,其不依賴于現(xiàn)有詞典,能夠快速準確地挖掘出各個時段出現(xiàn)的新詞熱詞等流行詞,由此給數(shù)據(jù)的索引、基于詞典的網(wǎng)頁分詞、焦點事件的快速發(fā)現(xiàn)及追蹤提供了重要價值。
【專利說明】文本內(nèi)容挖掘方法及裝置
【技術領域】
[0001] 本發(fā)明實施例涉及互聯(lián)網(wǎng)【技術領域】,尤其涉及一種文本內(nèi)容挖掘方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的快速發(fā)展,網(wǎng)絡信息呈爆炸式增長,這給基于海量信息的離線 挖掘提供了良好的數(shù)據(jù)基礎。此外,隨著博客、微博等各種形式的社交網(wǎng)絡媒體或平臺的興 起,每天的熱門事件更加聚焦;同時文本內(nèi)容中包括的文字也逐漸趨于口語化、濃縮化,由 此產(chǎn)生了大量的以前從未出現(xiàn)的詞語,比如新詞、熱詞等流行詞。如何及時準確發(fā)現(xiàn)這些新 詞及熱詞,對于追蹤實時熱點、改進分詞及索引效果等都具有重要意義。
[0003] 現(xiàn)有技術主要是通過搜索引擎的用戶查詢行為來發(fā)現(xiàn)新詞熱詞,當某一段時間 內(nèi),用戶檢索詞里存在大量相似信息時,予以挖掘。
[0004] 但是,現(xiàn)有技術的這種挖掘方法,主要依賴于用戶行為數(shù)據(jù),而這種用戶行為數(shù)據(jù) 通常僅限于搜索引擎本地搜索業(yè)務使用,因為用戶行為數(shù)據(jù)會涉及到用戶隱私以及搜索業(yè) 務自身的商業(yè)機密等問題,通常不會對外公開,因此,其無法廣泛應用于其它網(wǎng)絡搜索業(yè) 務。另外,依靠用戶搜索行為的挖掘模式在時間上還存在一定的滯后性。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實施例提供一種挖掘周期短的文本內(nèi)容挖掘方法及裝置。
[0006] 為了達到上述目的,本發(fā)明實施例提出一種文本內(nèi)容挖掘方法,包括:
[0007] 實時創(chuàng)建挖掘文本;
[0008] 對所述挖掘文本所包括的文字進行文字拆分,生成候選串并統(tǒng)計串頻率;
[0009] 計算各候選串的左右熵;
[0010] 根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選,創(chuàng)建 目標詞的集合。
[0011] 本發(fā)明實施例還提出一種文本內(nèi)容挖掘裝置,包括:
[0012] 獲取模塊,用于實時創(chuàng)建挖掘文本;
[0013] 生成統(tǒng)計模塊,用于對所述挖掘文本所包括的文字進行文字拆分,生成候選串并 統(tǒng)計串頻率;
[0014] 計算模塊,用于計算各候選串的左右熵;
[0015] 計算獲取模塊,用于根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜 合權重并篩選。
[0016] 本發(fā)明實施例提出的一種文本內(nèi)容挖掘方法及裝置,通過實時創(chuàng)建挖掘文本,對 挖掘文本所包括的文字進行文字拆分,生成候選串并統(tǒng)計串頻率,計算各候選串的左右熵; 然后根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選,創(chuàng)建目標詞的 集合,本發(fā)明不依賴于現(xiàn)有詞典,能夠快速準確地挖掘出各個時段出現(xiàn)的新詞熱詞等流行 詞,這給數(shù)據(jù)的索引、基于詞典的網(wǎng)頁分詞、焦點事件的快速發(fā)現(xiàn)及追蹤提供了重要價值。
【專利附圖】
【附圖說明】
[0017] 圖1是本發(fā)明文本內(nèi)容挖掘方法較佳實施例的流程示意圖;
[0018] 圖2是本發(fā)明文本內(nèi)容挖掘方法較佳實施例中挖掘網(wǎng)頁中流行詞的具體處理流 程不意圖;
[0019] 圖3是本發(fā)明文本內(nèi)容挖掘裝置較佳實施例的結構示意圖;
[0020] 圖4是本發(fā)明文本內(nèi)容挖掘裝置較佳實施例中獲取模塊的結構示意圖。
[0021] 為了使本發(fā)明實施例的技術方案更加清楚、明了,下面將結合附圖作進一步詳述。
【具體實施方式】
[0022] 本發(fā)明實施例的解決方案主要是:實時收集數(shù)據(jù)并確定挖掘文本,對挖掘文本進 行文字拆分,生成候選串并統(tǒng)計串頻率,計算各候選串的左右熵;然后根據(jù)串頻率及各候選 串的左右熵計算獲取各候選串的綜合權重并篩選,能夠快速準確地挖掘出所述發(fā)明實施例 文本內(nèi)容挖掘方法挖掘的目標詞,目標詞可以是各個時段出現(xiàn)的新詞熱詞等流行詞。
[0023] 如圖1所示,本發(fā)明實施例提出一種文本內(nèi)容挖掘方法,包括:
[0024] 步驟S101,實時創(chuàng)建挖掘文本;
[0025] 本實施例中所述文本包括可供挖掘的流行詞,所述流行詞是指隨著互聯(lián)網(wǎng)技術發(fā) 展而出現(xiàn)的比較流行的新詞、熱詞等。
[0026] 本實施例可以不依賴于現(xiàn)有詞典來對新詞和熱詞進行快速準確的離線挖掘。
[0027] 首先實時創(chuàng)建挖掘文本,具體可以通過實時收集網(wǎng)絡信息文檔來確定挖掘集合, 并從挖掘集合中提取挖掘文本。
[0028] 其中,網(wǎng)絡信息文檔可以是網(wǎng)頁、微博、博客、論文等網(wǎng)絡文本。
[0029] 具體地,實時收集網(wǎng)絡信息文檔,該網(wǎng)絡信息文檔可以來自以下兩種收集方式,一 是用戶通過瀏覽器所訪問過的網(wǎng)絡文檔;另一種是通過網(wǎng)頁爬蟲技術不間斷地從各個網(wǎng)站 抓取到的網(wǎng)絡文檔。由于上述兩種收集方式均為流式收集方式,因此數(shù)據(jù)的實時性能夠得 到很好的保證。
[0030] 之后將收集的網(wǎng)絡信息文檔按照收集時間進行排序;確定預定期限內(nèi)(比如最新 的)的預定數(shù)量(比如一萬個)的網(wǎng)絡信息文檔作為挖掘集合;并對該挖掘集合中的每一網(wǎng) 絡信息文檔內(nèi)容進行解析,提取符合條件的文字,作為該網(wǎng)絡信息文檔的挖掘文本。以網(wǎng)頁 為例:考慮到網(wǎng)頁一般在標題里包含了頁面的主體內(nèi)容,因此可以只提取網(wǎng)頁標題作為挖 掘文本,而且可以大大降低挖掘復雜性并提高挖掘效率,另一方面也保持了數(shù)據(jù)的信息含 量及挖掘準度。
[0031] 步驟S102,對所述挖掘文本所包括的文字進行文字拆分,生成候選串并統(tǒng)計串頻 率;
[0032] 具體將挖掘文本拆分為單一漢字,并統(tǒng)計每一漢字在所述挖掘集合中出現(xiàn)的字頻 率;然后基于拆分后的漢字,生成每一標題的候選串并統(tǒng)計串頻率。
[0033] 以網(wǎng)頁為例,將每一網(wǎng)頁標題拆分為單一的漢字,并統(tǒng)計每一漢字在挖掘集合中 出現(xiàn)的字頻率。比如,標題"在信息論里面"被拆分為"在I信I息I論I里I面",由此可 以統(tǒng)計各個漢字"在、信、息、論、里、面"在挖掘集合中出現(xiàn)的頻率。
[0034] 同時,基于拆分后的漢字,生成每一標題的候選串并統(tǒng)計串頻率。其中,候選串指 每個標題的所有連續(xù)且長度為N的子串的集合。比如,標題為"在信息論里面"中,以兩字 為一串(N=2)舉例,該標題"在信息論里面"可以拆分生成5個候選串"在信、信息、息論、論 里、里面"。
[0035] 步驟S103,計算各候選串的左右熵;
[0036] 其中,在信息論里,熵是對不確定性的度量,可表示一個隨機變量的混亂程度。
[0037] 本實施例在計算各候選串的左右熵時,可以根據(jù)上述統(tǒng)計的每一漢字在挖掘集合 中出現(xiàn)的字頻率,采用以下預設的熵公式來計算:
[0038] H(X) =sum(_p*logp) (1)
[0039] 上述式(1)中,Η表示熵,p表示挖掘集合中每一漢字在挖掘集合中出現(xiàn)的字頻率。
[0040] 步驟S104,根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并 篩選,創(chuàng)建目標詞的集合。
[0041] 其中,綜合權重的公式如下:
[0042]
【權利要求】
1. 一種文本內(nèi)容挖掘方法,其特征在于,包括: 實時創(chuàng)建挖掘文本; 對所述挖掘文本所包括的文字進行文字拆分,生成候選串并統(tǒng)計串頻率; 計算各候選串的左右熵; 根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選,創(chuàng)建目標 詞的集合。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述實時創(chuàng)建挖掘文本的步驟包括: 獲取挖掘集合,從中提取可供挖掘的信息以創(chuàng)建挖掘文本。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述獲取挖掘集合,從中提取可供挖掘的 信息以創(chuàng)建挖掘文本的步驟包括: 實時收集網(wǎng)絡信息文檔; 將收集的網(wǎng)絡信息文檔按照收集時間進行排序; 確定預定期限內(nèi)的預定數(shù)量的網(wǎng)絡信息文檔作為挖掘集合; 對所述挖掘集合中的每一網(wǎng)絡信息文檔內(nèi)容進行解析,提取符合條件的文字,作為該 網(wǎng)絡信息文檔的挖掘文本。
4. 根據(jù)權利要求3所述的方法,其特征在于,所述網(wǎng)絡信息文檔為網(wǎng)頁;所述提取符合 條件的文字,作為該網(wǎng)絡信息文檔的挖掘文本的步驟包括: 從所述網(wǎng)頁中提取網(wǎng)頁標題,作為所述網(wǎng)頁的挖掘文本。
5. 根據(jù)權利要求4所述的方法,其特征在于,所述對挖掘文本進行文字拆分,生成候選 串并統(tǒng)計串頻率的步驟包括: 將每一網(wǎng)頁標題拆分為單一漢字,并統(tǒng)計每一漢字在所述挖掘集合中出現(xiàn)的字頻率; 基于拆分后的漢字,生成每一標題的候選串并統(tǒng)計串頻率。
6. 根據(jù)權利要求1所述的方法,其特征在于,所述對挖掘文本所包括的文字進行文字 拆分,生成候選串并統(tǒng)計串頻率的步驟包括: 將挖掘文本拆分為單一漢字,并統(tǒng)計每一漢字在所述挖掘文本所在挖掘集合中出現(xiàn)的 字頻率; 基于拆分后的漢字,生成每一標題的候選串并統(tǒng)計串頻率。
7. 根據(jù)權利要求6所述的方法,其特征在于,所述計算各候選串的左右熵的步驟包括: 根據(jù)所述字頻率及預設的熵公式計算各候選串的左右熵。
8. 根據(jù)權利要求1-7中任一項所述的方法,其特征在于,所述根據(jù)串頻率及各候選串 的左右熵計算獲取各候選串的綜合權重并篩選的步驟之前還包括: 根據(jù)所述串頻率及各候選串的左右熵的相關權重因子閾值對是否進行綜合權重計算 進行過濾。
9. 一種文本內(nèi)容挖掘裝置,其特征在于,包括: 獲取模塊,用于實時創(chuàng)建挖掘文本; 生成統(tǒng)計模塊,用于對所述挖掘文本所包括的文字進行文字拆分,生成候選串并統(tǒng)計 串頻率; 計算模塊,用于計算各候選串的左右熵; 計算獲取模塊,用于根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權 重并篩選,創(chuàng)建目標詞的集合。
10. 根據(jù)權利要求9所述的裝置,其特征在于,所述獲取模塊還用于獲取挖掘集合,從 中提取可供挖掘的信息以創(chuàng)建挖掘文本。
11. 根據(jù)權利要求10所述的裝置,其特征在于,所述獲取模塊包括: 收集單元,用于實時收集網(wǎng)絡信息文檔; 排序單元,用于將收集的網(wǎng)絡信息文檔按照收集時間進行排序; 確定單元,用于確定預定期限內(nèi)的預定數(shù)量的網(wǎng)絡信息文檔作為挖掘集合; 解析提取單元,用于對所述挖掘集合中的每一網(wǎng)絡信息文檔內(nèi)容進行解析,提取符合 條件的文字,作為該網(wǎng)絡信息文檔的挖掘文本。
12. 根據(jù)權利要求11所述的裝置,其特征在于,所述網(wǎng)絡信息文檔為網(wǎng)頁;所述解析提 取單元還用于從所述網(wǎng)頁中提取網(wǎng)頁標題,作為所述網(wǎng)頁的挖掘文本。
13. 根據(jù)權利要求12所述的裝置,其特征在于,所述生成統(tǒng)計模塊還用于將每一網(wǎng)頁 標題拆分為單一漢字,并統(tǒng)計每一漢字在所述挖掘集合中出現(xiàn)的字頻率;基于拆分后的漢 字,生成每一標題的候選串并統(tǒng)計串頻率。
14. 根據(jù)權利要求9所述的裝置,其特征在于,所述生成統(tǒng)計模塊還用于將挖掘文本拆 分為單一漢字,并統(tǒng)計每一漢字在所述挖掘文本所在挖掘集合中出現(xiàn)的字頻率;基于拆分 后的漢字,生成每一標題的候選串并統(tǒng)計串頻率。
15. 根據(jù)權利要求14所述的裝置,其特征在于,所述計算模塊還用于根據(jù)所述字頻率 及預設的熵公式計算各候選串的左右熵。
16. 根據(jù)權利要求9-15中任一項所述的裝置,其特征在于,還包括: 過濾模塊,用于根據(jù)所述串頻率及各候選串的左右熵的相關權重因子閾值對是否進行 綜合權重計算進行過濾。
【文檔編號】G06F17/30GK104102658SQ201310121492
【公開日】2014年10月15日 申請日期:2013年4月9日 優(yōu)先權日:2013年4月9日
【發(fā)明者】蔡兵 申請人:騰訊科技(深圳)有限公司