亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本聚類方法及系統(tǒng)與流程

文檔序號:11230508閱讀:847來源:國知局
一種文本聚類方法及系統(tǒng)與流程

本發(fā)明涉及聚類分析,具體地涉及一種文本聚類方法及系統(tǒng)。



背景技術(shù):

文本聚類在輿情監(jiān)控、情感分析、大數(shù)據(jù)預警等系統(tǒng)中有重要意義,如從包含大量垃圾或者冗余信息的文本中挖掘?qū)ψ约河幸饬x的信息,或者從大量的未知核心方向的文章中找出自己較關(guān)心的方向的那些文本。

目前比較成熟的文本聚類算法是利用文本向量的相似性作凝聚層次聚類計算得到,具體包括:對各文檔預處理,包括分詞、過濾停用詞等;基于向量空間模型,利用特征選擇和權(quán)重計算,將各文檔映射到高維、稀疏矩陣中,建立文檔-詞語矩陣;通過計算各文檔向量間相似性,來表達文檔的相似性。該聚類方法需要人工對文檔進行聚類信息的標注,無法應用到無監(jiān)督的文本聚類中,忽略了詞與詞之間的語義關(guān)系,而且存在詞頻維數(shù)過高,計算復雜度高等問題。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供一種文本聚類方法及系統(tǒng),以解決或部分解決上述的聚類方法無法應用到無監(jiān)督的文本聚類中,忽略了詞與詞之間的語義關(guān)系,而且存在詞頻維數(shù)過高,計算復雜度高等問題。

第一方面,本發(fā)明實施例提供了一種文本聚類方法,具體可以包括:

對輸入的各文本的內(nèi)容進行預處理,獲取各文本的各特征詞;

分別針對各文本,建立所述文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所述文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所述文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所述文本中出現(xiàn)的頻率;

針對所有文本,建立有向復雜總網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所有文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所有文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所有文本中出現(xiàn)的頻率;

利用有向復雜網(wǎng)絡的社團挖掘算法,對所述有向復雜總網(wǎng)絡進行社團劃分,生成各社團;

分別針對各文本,計算所述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定所述文本所屬的社團。

另一方面,本發(fā)明實施例提供了一種文本聚類系統(tǒng),具體可以包括:

預處理模塊,用于對輸入的各文本的內(nèi)容進行預處理,獲取各文本的各特征詞;

子網(wǎng)絡建立模塊,用于分別針對各文本,建立所述文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所述文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所述文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所述文本中出現(xiàn)的頻率;

總網(wǎng)絡建立模塊,用于針對所有文本,建立有向復雜總網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所有文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所有文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所有文本中出現(xiàn)的頻率;

社團劃分模塊,用于利用有向復雜網(wǎng)絡的社團挖掘算法,對所述有向復雜總網(wǎng)絡進行社團劃分,生成各社團;

社團確定模塊,用于分別針對各文本,計算所述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定所述文本所屬的社團。

這樣,本發(fā)明實施例中,通過由文本內(nèi)特征詞之間的先后關(guān)系以及先后關(guān)系出現(xiàn)的頻率,構(gòu)成有向復雜網(wǎng)絡,在社團劃分的過程中利用了文本中特征詞之間的先后關(guān)系(其中包含了文本語義信息),以及文本中特征詞之間先后關(guān)系的頻率(其中包含了文本中特征詞的概率分布信息);因此,本發(fā)明實施例一方面無需進行聚類信息的標注,因此可以應用到無監(jiān)督的文本聚類中,降低了處理負擔;另一方面,聚類方法中涉及了文本語義信息、文本中特征詞的概率分布信息、特征詞之間的先后關(guān)系、特征詞之間先后關(guān)系的頻率,包含了詞與詞之間的語義關(guān)系,有助于提高文檔歸類的準確度;再一方面,因為上述文本聚類方法最大的特征詞維數(shù)為所有文本的特征詞的個數(shù),因為相當于將所有文本讀入一個總的文本來獲取特征詞,每一個特征詞可能出現(xiàn)的頻率較高,實際上特征詞的個數(shù)是有限的,因此特征詞維數(shù)低,計算復雜度低;還有,根據(jù)本發(fā)明實施例構(gòu)建的文本聚類的社團模型,對于新的待分類文本,只需建立其有向復雜子網(wǎng)絡,然后計算其屬于各社團的概率,即可得到該文本的分類結(jié)果,便于后續(xù)處理大量待分類文本。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例的描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1示出了本發(fā)明實施例的一種應用環(huán)境示意圖;

圖2示出了本發(fā)明實施例一的一種文本聚類方法的步驟示意圖;

圖3示出了本發(fā)明實施例一的一種文本聚類方法的有向復雜網(wǎng)絡示意圖;

圖4示出了本發(fā)明實施例二的一種文本聚類方法的步驟示意圖;

圖5示出了本發(fā)明實施例三的一種文本聚類系統(tǒng)的結(jié)構(gòu)框圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明實施例可以應用于文本信息挖掘領(lǐng)域,即通過計算機對大量未知內(nèi)容文本語料的自動聚類、自動摘要生成、文檔自動整理、用戶興趣文檔推薦、搜索引擎的搜索結(jié)果聚類等系統(tǒng)中,在一定程度上滿足商業(yè)人員進行商業(yè)推薦、信息提供等方面的需求,以及情報人員對大量電子文檔進行管理的需求等等。

參照圖1所示,本發(fā)明實施例可以通過對大量的輸入文本進行預處理、分詞等操作,再根據(jù)文本的特征詞之間的先后關(guān)系,構(gòu)建有向復雜網(wǎng)絡,進行文本聚類,得到對上述輸入的文本的聚類結(jié)果以及文本聚類模型,即社團劃分的結(jié)果;進一步地,對于新的待分類的文本,可以在進行預處理、文本分詞等操作之后,根據(jù)上述文本聚類模型對該待分類文本進行文本分類,得到分類結(jié)果,因此本發(fā)明實施例便于后續(xù)處理大量待分類文本,例如可以應用于語音識別得到的大量文檔的后續(xù)分類中,便于后續(xù)進一步分析優(yōu)化語音識別模型。

【實施例一】

參照圖2所示,示出了本發(fā)明實施例的一種文本聚類方法,具體可以包括:

步驟201:對輸入的各文本的內(nèi)容進行預處理,獲取各文本的各特征詞。

本發(fā)明實施例中,對輸入的各文本的內(nèi)容進行預處理,盡可能的去除各文本中不能被識別出的文字,不符合對應標準的文字,沒有實際語義或內(nèi)容無意義的文字;進一步地,還可以對各文本中進行分詞處理,即將各文本中的文字序列按照設(shè)定的規(guī)范或詞庫切分成一個一個單獨的詞。

例如,對于示例性文本“北京時間3月28日晚,2018世界杯預選賽亞洲12強賽第7輪賽事展開,中國男足客場0-1負于伊朗隊,中國男足進入2018世界杯僅剩理論可能。”而言,經(jīng)過上述預處理之后,可以獲得特征詞為“2018世界杯”、“預選賽”、“中國男足”、“客場”“0-1”、“負于”“伊朗隊”。

可以理解的是,本發(fā)明實施例中,上述文本可以是各類語言文本,如漢語文字、漢語拼音、英語、日語等等,或者互相混雜;也可以是語音文本通過語音識別之后的文本,也可以是其他形式。總之,本發(fā)明實施例對此不做限制。

步驟202:分別針對各文本,建立上述文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為上述文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在上述文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在上述文本中出現(xiàn)的頻率。

本發(fā)明實施例中,分別地針對上述輸入的每一個文本,建立對應于該文本的有向復雜子網(wǎng)絡。其中,對上述的一個文本而言,以上述文本中的各特征詞為各網(wǎng)絡節(jié)點,各特征詞為互不相同的;以上述文本中各特征詞之間的先后順序的先后關(guān)系作為各網(wǎng)絡節(jié)點的有向邊;而上述有向邊的權(quán)重即為各特征詞之間的先后關(guān)系在上述文本中出現(xiàn)的頻率。

例如,對于上述的示例性文本,參照圖3所示,可以以上述獲得的特征詞“2018世界杯”、“預選賽”、“中國男足”、“客場”“0-1”、“負于”“伊朗隊”分別為網(wǎng)絡節(jié)點,而且,上述七個特征詞之中,任意兩個相鄰的特征詞之間就存在先后關(guān)系,且頻率都為1,因此相應有向邊的權(quán)重都為1;此外“伊朗隊”與“中國男足”,“中國男足”與“2018世界杯”也存在先后關(guān)系,頻率為1,相應有向邊的權(quán)重為1。當然,在實際應用中,上述輸入的文本中可以包含成百上千個詞匯,經(jīng)過預處理之后特征詞也可以有幾十或上百個,各特征詞之間的先后關(guān)系出現(xiàn)的頻率也可以不止一次;上述示例僅為了更詳細地進行描述。

步驟203:針對所有文本,建立有向復雜總網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所有文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所有文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所有文本中出現(xiàn)的頻率。

本發(fā)明實施例中,針對上述所有輸入的文本,等同于將各文本內(nèi)的內(nèi)容放于同一個總的文本中,建立有向復雜總網(wǎng)絡;其中,以總的文本的各特征詞為各網(wǎng)絡節(jié)點,以各特征詞在總的文本中的先后關(guān)系為各網(wǎng)絡節(jié)點之間的有向邊,以各特征詞在總的文本中的先后關(guān)系出現(xiàn)的頻率為各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重。

本發(fā)明實施例的一種實施方式中,可以將上述輸入的各文本按照設(shè)定的順序編號為第一文本、第二文本等等,在建立上述第一文本的有向復雜子網(wǎng)絡時,可以同時建立有向復雜總網(wǎng)絡,此時上述第一文本的有向復雜子網(wǎng)絡與上述有向復雜總網(wǎng)絡相同;在按照編號順序,建立上述第二文本的有向復雜子網(wǎng)絡時,可以在上述有向復雜總網(wǎng)絡的基礎(chǔ)上添加上述第二文本中的特征詞以及先后關(guān)系,更新上述有向復雜總網(wǎng)絡;如此,當最后一個文本的有向復雜子網(wǎng)絡建立成功后,針對所有文本的有向復雜總網(wǎng)絡也建立成功。

步驟204:利用有向復雜網(wǎng)絡的社團挖掘算法,對上述有向復雜總網(wǎng)絡進行社團劃分,生成各社團。

在有向復雜網(wǎng)絡中,網(wǎng)絡節(jié)點間存在連接疏密的現(xiàn)象,將連接緊密的部分看作一個社團,其內(nèi)部網(wǎng)絡節(jié)點之間的連接較兩個社團之間的節(jié)點間連接要更緊密些;因此在本實施例中,通過有向復雜網(wǎng)絡的社團挖掘算法,對上述有向復雜總網(wǎng)絡進行社團劃分,生成各社團,各社團內(nèi)的特征詞之間的連接更緊密,相當于將上述總的文本中的各特征詞劃分為多個社團。

有向復雜網(wǎng)絡的社團挖掘算法具有多種,例如刪邊法,可以基于設(shè)定指標,刪除網(wǎng)絡中的有向邊,使網(wǎng)絡呈現(xiàn)多個互不相連的連通分量作為社團;例如凝聚法,可以將每個節(jié)點都看作一個社團,基于設(shè)定指標,將每兩個臨社團進行合并,直到社團數(shù)量達到閾值或者設(shè)定指標不滿足為止;例如譜平分法,將上述有向復雜網(wǎng)絡轉(zhuǎn)化為矩陣,因為不為零的特征值對應的特征向量的各元素中,同一社團的節(jié)點對應的元素是近似相等的,因此通過計算分析矩陣的特征值和特征向量,可以進行社團劃分;此外,還有其它不同的算法,本實施例對此不做限制。

步驟205:分別針對各文本,計算上述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述文本所屬的社團。

本發(fā)明實施例中,分別針對上述各文本,計算上述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述文本所屬的社團。例如,上述有向復雜總網(wǎng)絡被劃分為甲、乙、丙、丁四個社團,對某一文本而言,分別計算該文本對應的有向復雜子網(wǎng)絡屬于上述四種社團的概率,則該文本屬于概率最大的社團。

具體地,計算該文本對應的有向復雜子網(wǎng)絡屬于某一社團的概率,具有多種不同類型的算法,例如可以先確定該文本與該社團的共有的特征詞;進而統(tǒng)計該文本對應的有向復雜子網(wǎng)絡中所有網(wǎng)絡節(jié)點的有向邊的個數(shù);再統(tǒng)計該文本對應的有向復雜子網(wǎng)絡中,上述共有的特征詞對應的有向邊的個數(shù);上述共有的特征詞對應的有向邊的個數(shù)與上述所有網(wǎng)絡節(jié)點的有向邊的個數(shù)的商,可以作為該文本對應的有向復雜子網(wǎng)絡屬于該社團的概率。當然,上述的計算方式僅是示例性的,本發(fā)明實施例中還可以采用其它的更準確或更有針對性的算法,對此不做限制。

綜上,本發(fā)明實施例中,通過由文本內(nèi)特征詞之間的先后關(guān)系以及先后關(guān)系出現(xiàn)的頻率,構(gòu)成有向復雜網(wǎng)絡,在社團劃分的過程中利用了文本中特征詞之間的先后關(guān)系(其中包含了文本語義信息),以及文本中特征詞之間先后關(guān)系的頻率(其中包含了文本中特征詞的概率分布信息);因此,本發(fā)明實施例一方面無需進行聚類信息的標注,因此可以應用到無監(jiān)督的文本聚類中,降低了處理負擔;另一方面,聚類方法中涉及了文本語義信息、文本中特征詞的概率分布信息、特征詞之間的先后關(guān)系、特征詞之間先后關(guān)系的頻率,包含了詞與詞之間的語義關(guān)系,有助于提高文檔歸類的準確度;再一方面,因為上述文本聚類方法最大的特征詞維數(shù)為所有文本的特征詞的個數(shù),因為相當于將所有文本讀入一個總的文本來獲取特征詞,每一個特征詞可能出現(xiàn)的頻率較高,實際上特征詞的個數(shù)是有限的,因此特征詞維數(shù)低,計算復雜度低;還有,根據(jù)本發(fā)明實施例構(gòu)建的文本聚類的社團模型,對于新的待分類文本,只需建立其有向復雜子網(wǎng)絡,然后計算其屬于各社團的概率,即可得到該文本的分類結(jié)果,便于后續(xù)處理大量待分類文本。

【實施例二】

參照圖4所示,示出了本發(fā)明實施例的一種文本聚類方法,具體可以包括:

步驟401:對輸入的各文本的內(nèi)容進行內(nèi)容過濾。

本發(fā)明實施例的一種實施方式中,對輸入的各文本的內(nèi)容進行預處理:統(tǒng)一編碼格式為utf-8(8-bitunicodetransformationformat,萬國碼)無bom(byteordermark,字節(jié)順序標記),過濾其中的火星文、表情、無意義字符、特殊字符等,并將標點為分隔符將文本進行分行。

步驟402:對過濾后的各文本進行分詞,獲取分詞后的各文本的各特征詞。

本發(fā)明實施例的一種實施方式中,可以按照設(shè)定的詞庫,對上述過濾后的各文本進行分詞處理,獲得各文本的各特征詞。

本發(fā)明實施例的另一種實施方式中,還可以對上述分行的文本進行分詞,去除其中的標點,并根據(jù)設(shè)定的停用詞表去除文本中的停用詞。

步驟403:分別針對各文本,以句為單位分析上述文本的各特征詞之間的先后關(guān)系。

本發(fā)明實施例中,分別針對各文本,以句為單位分析上述文本的各特征詞之間的先后關(guān)系。本發(fā)明實施例的一種實施方式中,在上述步驟401中,可以通過識別上述文本中的標點符號,如問號、感嘆號、省略號、句號,甚至是分號、逗號等,將各文本識別為一個個完整的句子或者一個個短句,并通過空格或者其他方式進行標注;在上述步驟403中,可以通過識別上述標注,將上述文本以句為單位進行分析,分析每一句中的相鄰的特征詞之間的先后關(guān)系。

步驟404:分別針對各文本,統(tǒng)計上述文本的各特征詞之間的先后關(guān)系,建立上述文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為上述文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在上述文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在上述文本中出現(xiàn)的頻率。

本發(fā)明實施例中,分別針對各文本,統(tǒng)計上述文本的各特征詞之間的先后關(guān)系以及對應出現(xiàn)的頻率,建立上述文本的有向復雜子網(wǎng)絡。特別地,針對各文本中的孤立的特征詞,可以進行刪除,也可以作為孤立的網(wǎng)絡節(jié)點加入上述文本的有向復雜子網(wǎng)絡中。

步驟405:將上述各文本的有向復雜子網(wǎng)絡按照所有文本的各特征詞進行整合,建立有向復雜總網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所有文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所有文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所有文本中出現(xiàn)的頻率。

本發(fā)明實施例的一種實施方式中,可以將上述各文本的有向復雜子網(wǎng)絡按照所有文本的各特征詞進行整合,例如將相同的網(wǎng)絡節(jié)點(特征詞)整合為一個網(wǎng)絡節(jié)點,兩個網(wǎng)絡節(jié)點之間的有向關(guān)系也通過調(diào)節(jié)對應的權(quán)重進行整合,建立有向復雜總網(wǎng)絡。

步驟406:利用有向復雜網(wǎng)絡的社團挖掘算法,對上述有向復雜總網(wǎng)絡進行社團劃分,生成各社團。

本發(fā)明實施例的一種實施方式中,采用凝聚法對上述有向復雜總網(wǎng)絡進行社團劃分,生成各社團,可以包括以下步驟a、b、c、d:

a、初始化,將每個網(wǎng)絡節(jié)點劃分在不同的社團中;

b、針對每個網(wǎng)絡節(jié)點,將每個網(wǎng)絡節(jié)點嘗試劃分到與其連接的網(wǎng)絡節(jié)點所在的社團中,計算此時的模塊度,判斷劃分前后的模塊度q的差值δq是否為正數(shù),若為正數(shù),則接受本次的劃分;若不為正數(shù),則放棄本次的劃分;

其中,模塊度q為一種評價劃分社團優(yōu)劣的指標,可以為

其中,m為網(wǎng)絡中所有有向邊的權(quán)重之和;∑in為社團c內(nèi)部的有向邊的權(quán)重之和,∑tot為與社團c內(nèi)部的網(wǎng)絡節(jié)點連接的有向邊的權(quán)重,包括社團c內(nèi)部的有向邊以及社團c外部的有向邊;

c、重復以上的過程,直到不能再增大模塊度q為止;

d、構(gòu)造新圖,新圖中的每個網(wǎng)絡節(jié)點代表的是步驟c中劃出來的每個社團,繼續(xù)執(zhí)行步驟b和步驟c,直到社團的結(jié)構(gòu)不再改變?yōu)橹埂?/p>

步驟407:分別針對各文本,計算上述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述文本所屬的社團。

優(yōu)選地,上述計算上述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述文本所屬的社團包括:

分別針對各社團,確定上述文本和上述社團的各共有特征詞;

分別針對各社團,計算上述文本的有向復雜子網(wǎng)絡中各上述共有特征詞的權(quán)重;

分別針對各社團,計算上述社團中各上述共有特征詞的權(quán)重;

分別針對各社團,根據(jù)上述文本的有向復雜子網(wǎng)絡中各上述共有特征詞的權(quán)重和上述社團中各上述共有特征詞的權(quán)重,計算上述文本屬于上述社團的概率;

比較上述文本屬于各社團的概率,確定上述文本屬于上述概率最大時對應的社團。

本發(fā)明實施例中,上述共有特征詞的權(quán)重計算方法可以通過計算上述各共有特征詞的介數(shù)來實現(xiàn)。上述共有特征詞的介數(shù),可以分為邊介數(shù)和節(jié)點介數(shù)兩種,節(jié)點介數(shù)定義為網(wǎng)絡中所有最短路徑中經(jīng)過該網(wǎng)絡節(jié)點的路徑的數(shù)目占最短路徑總數(shù)的比例;邊介數(shù)定義為網(wǎng)絡中所有最短路徑中經(jīng)過該邊的路徑的數(shù)目占最短路徑總數(shù)的比例,介數(shù)反映了相應的節(jié)點或者邊在整個網(wǎng)絡中的作用和影響力,是一個重要的全局幾何量。在計算上述介數(shù)的過程中,應該注意網(wǎng)絡節(jié)點之間有向邊的權(quán)重是應該考慮進去的。

因此,上述共有的特征詞的介數(shù),與上述各共有的特征詞的介數(shù)之和,的商,可以作為為上述共有的特征詞的權(quán)重;按照上述方法,可以得到上述文本的有向復雜子網(wǎng)絡中各上述共有特征詞的權(quán)重,以及上述社團中各上述共有特征詞的權(quán)重。

進一步地,分別針對各社團,根據(jù)每一個上述共有特征詞,計算上述文本中上述共有特征詞的權(quán)重和上述社團中對應的共有特征詞的權(quán)重的商,并求和,求和的結(jié)果可以作為上述文本屬于上述社團的概率;比較上述文本屬于上述各社團的概率,確定上述文本屬于上述概率最大時對應的社團。

更進一步地,本發(fā)明實施例中,還可以通過比較上述各特征詞的介數(shù),確定對全局(各社團、各文本或所有文本)最關(guān)鍵的特征詞,即核心詞,便于后續(xù)文本信息的挖掘、整理。

可以理解的是,上述采用介數(shù)的權(quán)重來計算各文本屬于各社團的概率,僅是本發(fā)明實施例的一種實施例方式;還可以采用入度或出度的權(quán)重來衡量,對于有向圖,節(jié)點的入度是指進入該網(wǎng)絡節(jié)點的有向邊的權(quán)重之和;節(jié)點的出度是指從該網(wǎng)絡節(jié)點出發(fā)的有向邊的權(quán)重之和。

步驟408:對一待分類文本的內(nèi)容進行預處理,獲取上述待分類文本的各特征詞。

上述步驟401-407已經(jīng)建立了文本聚類模型,即社團劃分結(jié)果;對于一個新的待分類文本,僅需要按照上述文本聚類模型,進行簡單的處理,即可對該待分類文本進行分類,劃分到上述某個社團中。

參照上述對輸入的各文本的預處理方法,對一待分類文本的內(nèi)容進行預處理,獲取上述待分類文本的各特征詞,這里不再贅述。

步驟409:建立上述待分類文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為上述待分類文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在上述待分類文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在上述待分類文本中出現(xiàn)的頻率。

參照針對上述各文本建立有向復雜子網(wǎng)絡的方法,對上述待分類文本建立有向復雜子網(wǎng)絡,這里不再贅述。

步驟410:計算上述待分類文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述待分類文本所屬的社團。

參照上述計算各文本的有向復雜子網(wǎng)絡屬于各社團的概率方法,對上述待分類文本的有向復雜子網(wǎng)絡屬于各社團的概率進行計算,并確定上述待分類文本所屬的社團,這里不再贅述。

綜上,本發(fā)明實施例中,通過由文本內(nèi)特征詞之間的先后關(guān)系以及先后關(guān)系出現(xiàn)的頻率,構(gòu)成有向復雜網(wǎng)絡,在社團劃分的過程中利用了文本中特征詞之間的先后關(guān)系(其中包含了文本語義信息),以及文本中特征詞之間先后關(guān)系的頻率(其中包含了文本中特征詞的概率分布信息);因此,本發(fā)明實施例一方面無需進行聚類信息的標注,因此可以應用到無監(jiān)督的文本聚類中,降低了處理負擔;另一方面,聚類方法中涉及了文本語義信息、文本中特征詞的概率分布信息、特征詞之間的先后關(guān)系、特征詞之間先后關(guān)系的頻率,包含了詞與詞之間的語義關(guān)系,有助于提高文檔歸類的準確度;再一方面,因為上述文本聚類方法最大的特征詞維數(shù)為所有文本的特征詞的個數(shù),因為相當于將所有文本讀入一個總的文本來獲取特征詞,每一個特征詞可能出現(xiàn)的頻率較高,實際上特征詞的個數(shù)是有限的,因此特征詞維數(shù)低,計算復雜度低;還有,本發(fā)明實施例通過構(gòu)建的文本聚類的社團模型,對新的待分類文本進行分類,通用性強,降低了處理負擔。

對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。

【實施例三】

參照圖5所示,示出了本發(fā)明實施例的一種文本聚類系統(tǒng),具體可以包括:

預處理模塊501,用于對輸入的各文本的內(nèi)容進行預處理,獲取各文本的各特征詞。

優(yōu)選地,上述預處理模塊501具體可以包括:

過濾子模塊,用于對輸入的各文本的內(nèi)容進行內(nèi)容過濾;

分詞子模塊,用于對過濾后的各文本進行分詞,獲取分詞后的各文本的各特征詞。

子網(wǎng)絡建立模塊502,用于分別針對各文本,建立上述文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為上述文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在上述文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在上述文本中出現(xiàn)的頻率。

優(yōu)選地,上述子網(wǎng)絡建立模塊502具體可以包括:

文本分析子模塊,用于分別針對各文本,以句為單位分析上述文本的各特征詞之間的先后關(guān)系;

先后關(guān)系子網(wǎng)絡建立子模塊,用于分別針對各文本,統(tǒng)計上述文本的各特征詞之間的先后關(guān)系,建立上述文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為上述文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在上述文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在上述文本中出現(xiàn)的頻率。

總網(wǎng)絡建立模塊503,用于針對所有文本,建立有向復雜總網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所有文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所有文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所有文本中出現(xiàn)的頻率。

優(yōu)選地,上述總網(wǎng)絡建立模塊503具體可以包括:

先后關(guān)系總網(wǎng)絡建立子模塊,用于將上述各文本的有向復雜子網(wǎng)絡按照所有文本的各特征詞進行整合,建立有向復雜總網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為所有文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在所有文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在所有文本中出現(xiàn)的頻率。

社團劃分模塊504,用于利用有向復雜網(wǎng)絡的社團挖掘算法,對上述有向復雜總網(wǎng)絡進行社團劃分,生成各社團。

社團確定模塊505,用于分別針對各文本,計算上述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述文本所屬的社團。

優(yōu)選地,上述計算上述文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述文本所屬的社團包括:

分別針對各社團,確定上述文本和上述社團的各共有特征詞;

分別針對各社團,計算上述文本的有向復雜子網(wǎng)絡中各上述共有特征詞的權(quán)重;

分別針對各社團,計算上述社團中各上述共有特征詞的權(quán)重;

分別針對各社團,根據(jù)上述文本的有向復雜子網(wǎng)絡中各上述共有特征詞的權(quán)重和上述社團中各上述共有特征詞的權(quán)重,計算上述文本屬于上述社團的概率;

比較上述文本屬于各社團的概率,確定上述文本屬于上述概率最大時對應的社團。

上述系統(tǒng)具體還可以包括:

待分類文本預處理模塊,用于對一待分類文本的內(nèi)容進行預處理,獲取上述待分類文本的各特征詞;

待分類文本子網(wǎng)絡建立模塊,用于建立上述待分類文本的有向復雜子網(wǎng)絡;其中,各網(wǎng)絡節(jié)點為上述待分類文本的各特征詞,各網(wǎng)絡節(jié)點之間的有向邊為各特征詞在上述待分類文本中的先后關(guān)系,各網(wǎng)絡節(jié)點之間的有向邊的權(quán)重為各特征詞之間的先后關(guān)系在上述待分類文本中出現(xiàn)的頻率;

待分類文本社團確定模塊,用于計算上述待分類文本的有向復雜子網(wǎng)絡屬于各社團的概率,確定上述待分類文本所屬的社團。

綜上,本發(fā)明實施例中,通過由文本內(nèi)特征詞之間的先后關(guān)系以及先后關(guān)系出現(xiàn)的頻率,構(gòu)成有向復雜網(wǎng)絡,在社團劃分的過程中利用了文本中特征詞之間的先后關(guān)系(其中包含了文本語義信息),以及文本中特征詞之間先后關(guān)系的頻率(其中包含了文本中特征詞的概率分布信息);因此,本發(fā)明實施例一方面無需進行聚類信息的標注,因此可以應用到無監(jiān)督的文本聚類中,降低了處理負擔;另一方面,聚類方法中涉及了文本語義信息、文本中特征詞的概率分布信息、特征詞之間的先后關(guān)系、特征詞之間先后關(guān)系的頻率,包含了詞與詞之間的語義關(guān)系,有助于提高文檔歸類的準確度;再一方面,因為上述文本聚類方法最大的特征詞維數(shù)為所有文本的特征詞的個數(shù),因為相當于將所有文本讀入一個總的文本來獲取特征詞,每一個特征詞可能出現(xiàn)的頻率較高,實際上特征詞的個數(shù)是有限的,因此特征詞維數(shù)低,計算復雜度低;還有,本發(fā)明實施例通過構(gòu)建的文本聚類的社團模型,對新的待分類文本進行分類,通用性強,降低了處理負擔。

對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。

本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本發(fā)明實施例中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

在本申請所提供的實施例中,應該理解到,所揭露的裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,上述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。

上述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。

上述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務器,或者網(wǎng)絡設(shè)備等)執(zhí)行本發(fā)明各個實施例上述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、rom、ram、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括上述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上上述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以權(quán)利要求的保護范圍為準。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1