文本內(nèi)容挖掘方法及裝置制造方法

文檔序號：6501587閱讀：205來源：國知局

文本內(nèi)容挖掘方法及裝置制造方法
【專利摘要】本發(fā)明公開一種文本內(nèi)容挖掘方法及裝置，其方法包括：實時創(chuàng)建挖掘文本；對挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率；計算各候選串的左右熵；根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，創(chuàng)建目標詞的集合。本發(fā)明通過實時收集數(shù)據(jù)并確定挖掘文本，對挖掘文本進行文字拆分，生成候選串并統(tǒng)計串頻率，計算各候選串的左右熵；然后根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，其不依賴于現(xiàn)有詞典，能夠快速準確地挖掘出各個時段出現(xiàn)的新詞熱詞等流行詞，由此給數(shù)據(jù)的索引、基于詞典的網(wǎng)頁分詞、焦點事件的快速發(fā)現(xiàn)及追蹤提供了重要價值。
【專利說明】文本內(nèi)容挖掘方法及裝置

【技術領域】
[0001] 本發(fā)明實施例涉及互聯(lián)網(wǎng)【技術領域】，尤其涉及一種文本內(nèi)容挖掘方法及裝置。

【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的快速發(fā)展，網(wǎng)絡信息呈爆炸式增長，這給基于海量信息的離線挖掘提供了良好的數(shù)據(jù)基礎。此外，隨著博客、微博等各種形式的社交網(wǎng)絡媒體或平臺的興起，每天的熱門事件更加聚焦；同時文本內(nèi)容中包括的文字也逐漸趨于口語化、濃縮化，由此產(chǎn)生了大量的以前從未出現(xiàn)的詞語，比如新詞、熱詞等流行詞。如何及時準確發(fā)現(xiàn)這些新詞及熱詞，對于追蹤實時熱點、改進分詞及索引效果等都具有重要意義。
[0003] 現(xiàn)有技術主要是通過搜索引擎的用戶查詢行為來發(fā)現(xiàn)新詞熱詞，當某一段時間內(nèi)，用戶檢索詞里存在大量相似信息時，予以挖掘。
[0004] 但是，現(xiàn)有技術的這種挖掘方法，主要依賴于用戶行為數(shù)據(jù)，而這種用戶行為數(shù)據(jù) 通常僅限于搜索引擎本地搜索業(yè)務使用，因為用戶行為數(shù)據(jù)會涉及到用戶隱私以及搜索業(yè) 務自身的商業(yè)機密等問題，通常不會對外公開，因此，其無法廣泛應用于其它網(wǎng)絡搜索業(yè) 務。另外，依靠用戶搜索行為的挖掘模式在時間上還存在一定的滯后性。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例提供一種挖掘周期短的文本內(nèi)容挖掘方法及裝置。
[0006] 為了達到上述目的，本發(fā)明實施例提出一種文本內(nèi)容挖掘方法，包括：
[0007] 實時創(chuàng)建挖掘文本；
[0008] 對所述挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率；
[0009] 計算各候選串的左右熵；
[0010] 根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，創(chuàng)建目標詞的集合。
[0011] 本發(fā)明實施例還提出一種文本內(nèi)容挖掘裝置，包括：
[0012] 獲取模塊，用于實時創(chuàng)建挖掘文本；
[0013] 生成統(tǒng)計模塊，用于對所述挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率；
[0014] 計算模塊，用于計算各候選串的左右熵；
[0015] 計算獲取模塊，用于根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選。
[0016] 本發(fā)明實施例提出的一種文本內(nèi)容挖掘方法及裝置，通過實時創(chuàng)建挖掘文本，對挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率，計算各候選串的左右熵；然后根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，創(chuàng)建目標詞的集合，本發(fā)明不依賴于現(xiàn)有詞典，能夠快速準確地挖掘出各個時段出現(xiàn)的新詞熱詞等流行詞，這給數(shù)據(jù)的索引、基于詞典的網(wǎng)頁分詞、焦點事件的快速發(fā)現(xiàn)及追蹤提供了重要價值。

【專利附圖】

【附圖說明】
[0017] 圖1是本發(fā)明文本內(nèi)容挖掘方法較佳實施例的流程示意圖；
[0018] 圖2是本發(fā)明文本內(nèi)容挖掘方法較佳實施例中挖掘網(wǎng)頁中流行詞的具體處理流程不意圖；
[0019] 圖3是本發(fā)明文本內(nèi)容挖掘裝置較佳實施例的結構示意圖；
[0020] 圖4是本發(fā)明文本內(nèi)容挖掘裝置較佳實施例中獲取模塊的結構示意圖。
[0021] 為了使本發(fā)明實施例的技術方案更加清楚、明了，下面將結合附圖作進一步詳述。

【具體實施方式】
[0022] 本發(fā)明實施例的解決方案主要是：實時收集數(shù)據(jù)并確定挖掘文本，對挖掘文本進行文字拆分，生成候選串并統(tǒng)計串頻率，計算各候選串的左右熵；然后根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，能夠快速準確地挖掘出所述發(fā)明實施例文本內(nèi)容挖掘方法挖掘的目標詞，目標詞可以是各個時段出現(xiàn)的新詞熱詞等流行詞。
[0023] 如圖1所示，本發(fā)明實施例提出一種文本內(nèi)容挖掘方法，包括：
[0024] 步驟S101，實時創(chuàng)建挖掘文本；
[0025] 本實施例中所述文本包括可供挖掘的流行詞，所述流行詞是指隨著互聯(lián)網(wǎng)技術發(fā) 展而出現(xiàn)的比較流行的新詞、熱詞等。
[0026] 本實施例可以不依賴于現(xiàn)有詞典來對新詞和熱詞進行快速準確的離線挖掘。
[0027] 首先實時創(chuàng)建挖掘文本，具體可以通過實時收集網(wǎng)絡信息文檔來確定挖掘集合，并從挖掘集合中提取挖掘文本。
[0028] 其中，網(wǎng)絡信息文檔可以是網(wǎng)頁、微博、博客、論文等網(wǎng)絡文本。
[0029] 具體地，實時收集網(wǎng)絡信息文檔，該網(wǎng)絡信息文檔可以來自以下兩種收集方式，一是用戶通過瀏覽器所訪問過的網(wǎng)絡文檔；另一種是通過網(wǎng)頁爬蟲技術不間斷地從各個網(wǎng)站抓取到的網(wǎng)絡文檔。由于上述兩種收集方式均為流式收集方式，因此數(shù)據(jù)的實時性能夠得到很好的保證。
[0030] 之后將收集的網(wǎng)絡信息文檔按照收集時間進行排序；確定預定期限內(nèi)（比如最新的）的預定數(shù)量（比如一萬個）的網(wǎng)絡信息文檔作為挖掘集合；并對該挖掘集合中的每一網(wǎng) 絡信息文檔內(nèi)容進行解析，提取符合條件的文字，作為該網(wǎng)絡信息文檔的挖掘文本。以網(wǎng)頁為例：考慮到網(wǎng)頁一般在標題里包含了頁面的主體內(nèi)容，因此可以只提取網(wǎng)頁標題作為挖掘文本，而且可以大大降低挖掘復雜性并提高挖掘效率，另一方面也保持了數(shù)據(jù)的信息含量及挖掘準度。
[0031] 步驟S102,對所述挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率；
[0032] 具體將挖掘文本拆分為單一漢字，并統(tǒng)計每一漢字在所述挖掘集合中出現(xiàn)的字頻率；然后基于拆分后的漢字，生成每一標題的候選串并統(tǒng)計串頻率。
[0033] 以網(wǎng)頁為例，將每一網(wǎng)頁標題拆分為單一的漢字，并統(tǒng)計每一漢字在挖掘集合中出現(xiàn)的字頻率。比如，標題"在信息論里面"被拆分為"在I信I息I論I里I面"，由此可以統(tǒng)計各個漢字"在、信、息、論、里、面"在挖掘集合中出現(xiàn)的頻率。
[0034] 同時，基于拆分后的漢字，生成每一標題的候選串并統(tǒng)計串頻率。其中，候選串指每個標題的所有連續(xù)且長度為N的子串的集合。比如，標題為"在信息論里面"中，以兩字為一串（N=2)舉例，該標題"在信息論里面"可以拆分生成5個候選串"在信、信息、息論、論里、里面"。
[0035] 步驟S103,計算各候選串的左右熵；
[0036] 其中，在信息論里，熵是對不確定性的度量，可表示一個隨機變量的混亂程度。
[0037] 本實施例在計算各候選串的左右熵時，可以根據(jù)上述統(tǒng)計的每一漢字在挖掘集合中出現(xiàn)的字頻率，采用以下預設的熵公式來計算：
[0038] H(X) =sum(_p*logp) (1)
[0039] 上述式（1)中，Η表示熵，p表示挖掘集合中每一漢字在挖掘集合中出現(xiàn)的字頻率。
[0040] 步驟S104,根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，創(chuàng)建目標詞的集合。
[0041] 其中，綜合權重的公式如下：
[0042]

【權利要求】
1. 一種文本內(nèi)容挖掘方法，其特征在于，包括：實時創(chuàng)建挖掘文本；對所述挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率；計算各候選串的左右熵；根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，創(chuàng)建目標詞的集合。
2. 根據(jù)權利要求1所述的方法，其特征在于，所述實時創(chuàng)建挖掘文本的步驟包括：獲取挖掘集合，從中提取可供挖掘的信息以創(chuàng)建挖掘文本。
3. 根據(jù)權利要求2所述的方法，其特征在于，所述獲取挖掘集合，從中提取可供挖掘的信息以創(chuàng)建挖掘文本的步驟包括：實時收集網(wǎng)絡信息文檔；將收集的網(wǎng)絡信息文檔按照收集時間進行排序；確定預定期限內(nèi)的預定數(shù)量的網(wǎng)絡信息文檔作為挖掘集合；對所述挖掘集合中的每一網(wǎng)絡信息文檔內(nèi)容進行解析，提取符合條件的文字，作為該網(wǎng)絡信息文檔的挖掘文本。
4. 根據(jù)權利要求3所述的方法，其特征在于，所述網(wǎng)絡信息文檔為網(wǎng)頁；所述提取符合條件的文字，作為該網(wǎng)絡信息文檔的挖掘文本的步驟包括：從所述網(wǎng)頁中提取網(wǎng)頁標題，作為所述網(wǎng)頁的挖掘文本。
5. 根據(jù)權利要求4所述的方法，其特征在于，所述對挖掘文本進行文字拆分，生成候選串并統(tǒng)計串頻率的步驟包括：將每一網(wǎng)頁標題拆分為單一漢字，并統(tǒng)計每一漢字在所述挖掘集合中出現(xiàn)的字頻率；基于拆分后的漢字，生成每一標題的候選串并統(tǒng)計串頻率。
6. 根據(jù)權利要求1所述的方法，其特征在于，所述對挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率的步驟包括：將挖掘文本拆分為單一漢字，并統(tǒng)計每一漢字在所述挖掘文本所在挖掘集合中出現(xiàn)的字頻率；基于拆分后的漢字，生成每一標題的候選串并統(tǒng)計串頻率。
7. 根據(jù)權利要求6所述的方法，其特征在于，所述計算各候選串的左右熵的步驟包括：根據(jù)所述字頻率及預設的熵公式計算各候選串的左右熵。
8. 根據(jù)權利要求1-7中任一項所述的方法，其特征在于，所述根據(jù)串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選的步驟之前還包括：根據(jù)所述串頻率及各候選串的左右熵的相關權重因子閾值對是否進行綜合權重計算進行過濾。
9. 一種文本內(nèi)容挖掘裝置，其特征在于，包括：獲取模塊，用于實時創(chuàng)建挖掘文本；生成統(tǒng)計模塊，用于對所述挖掘文本所包括的文字進行文字拆分，生成候選串并統(tǒng)計串頻率；計算模塊，用于計算各候選串的左右熵；計算獲取模塊，用于根據(jù)所述串頻率及各候選串的左右熵計算獲取各候選串的綜合權重并篩選，創(chuàng)建目標詞的集合。
10. 根據(jù)權利要求9所述的裝置，其特征在于，所述獲取模塊還用于獲取挖掘集合，從中提取可供挖掘的信息以創(chuàng)建挖掘文本。
11. 根據(jù)權利要求10所述的裝置，其特征在于，所述獲取模塊包括：收集單元，用于實時收集網(wǎng)絡信息文檔；排序單元，用于將收集的網(wǎng)絡信息文檔按照收集時間進行排序；確定單元，用于確定預定期限內(nèi)的預定數(shù)量的網(wǎng)絡信息文檔作為挖掘集合；解析提取單元，用于對所述挖掘集合中的每一網(wǎng)絡信息文檔內(nèi)容進行解析，提取符合條件的文字，作為該網(wǎng)絡信息文檔的挖掘文本。
12. 根據(jù)權利要求11所述的裝置，其特征在于，所述網(wǎng)絡信息文檔為網(wǎng)頁；所述解析提取單元還用于從所述網(wǎng)頁中提取網(wǎng)頁標題，作為所述網(wǎng)頁的挖掘文本。
13. 根據(jù)權利要求12所述的裝置，其特征在于，所述生成統(tǒng)計模塊還用于將每一網(wǎng)頁標題拆分為單一漢字，并統(tǒng)計每一漢字在所述挖掘集合中出現(xiàn)的字頻率；基于拆分后的漢字，生成每一標題的候選串并統(tǒng)計串頻率。
14. 根據(jù)權利要求9所述的裝置，其特征在于，所述生成統(tǒng)計模塊還用于將挖掘文本拆分為單一漢字，并統(tǒng)計每一漢字在所述挖掘文本所在挖掘集合中出現(xiàn)的字頻率；基于拆分后的漢字，生成每一標題的候選串并統(tǒng)計串頻率。
15. 根據(jù)權利要求14所述的裝置，其特征在于，所述計算模塊還用于根據(jù)所述字頻率及預設的熵公式計算各候選串的左右熵。
16. 根據(jù)權利要求9-15中任一項所述的裝置，其特征在于，還包括：過濾模塊，用于根據(jù)所述串頻率及各候選串的左右熵的相關權重因子閾值對是否進行綜合權重計算進行過濾。
【文檔編號】G06F17/30GK104102658SQ201310121492
【公開日】2014年10月15日申請日期:2013年4月9日優(yōu)先權日:2013年4月9日
【發(fā)明者】蔡兵申請人:騰訊科技（深圳）有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：蔡兵
技術所有人：騰訊科技(深圳)有限公司
我是此專利的發(fā)明人

上一篇：搜索音樂的方法及終端的制作方法
上一篇：多重屏幕解鎖系統(tǒng)及方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文本內(nèi)容挖掘方法及裝置制造方法