面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)信息處理技術(shù)領(lǐng)域,具體地,涉及面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息服務(wù)和計(jì)算機(jī)技術(shù)的迅速發(fā)展和普及,大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)應(yīng)運(yùn)而生,尤其是以文本等為代表的非結(jié)構(gòu)化數(shù)據(jù),人們力圖從海量數(shù)據(jù)中提取出有效、簡(jiǎn)潔、精煉和易于理解的知識(shí)。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過(guò)程,針對(duì)文本類(lèi)數(shù)據(jù)的數(shù)據(jù)挖掘主要有索引建立、實(shí)體識(shí)別、關(guān)鍵詞提取、自動(dòng)摘要和自動(dòng)分類(lèi)等操作過(guò)程,而這些過(guò)程的實(shí)現(xiàn)均需要進(jìn)行文本處理。所以,面向數(shù)據(jù)挖掘的文本處理系統(tǒng)需要解決文本抽取、文本分詞、索引建立、實(shí)體識(shí)別、關(guān)鍵詞提取、自動(dòng)摘要和自動(dòng)分類(lèi)等多方面的問(wèn)題。
[0003]經(jīng)對(duì)現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),中國(guó)專(zhuān)利公開(kāi)號(hào)CN101576872A,公開(kāi)日為2009.11.11,專(zhuān)利名稱(chēng)為:一種中文文本處理方法及裝置,公開(kāi)了一種中文文本處理方法及裝置,僅使用了中文分詞方法對(duì)文本進(jìn)行分割,然后對(duì)得到的文本片段進(jìn)行聚合,雖然其通過(guò)增加文本片段長(zhǎng)度降低了檢索結(jié)果的誤報(bào)概率,但是其僅僅涉及了文本分詞和聚合的文本處理方法,對(duì)其他文本處理方面有一定局限性。中國(guó)專(zhuān)利公開(kāi)號(hào)為:CN102262632A,公開(kāi)日為2011.11.30,專(zhuān)利名稱(chēng)為:進(jìn)行文本處理的方法和系統(tǒng),公開(kāi)了一種文本處理方法和實(shí)現(xiàn)這種方法的系統(tǒng),介紹了一種在數(shù)據(jù)挖掘領(lǐng)域利用對(duì)現(xiàn)有的對(duì)象共指技術(shù)的擴(kuò)展實(shí)現(xiàn)有效的文本數(shù)據(jù)的分析和處理,但是其主要涉及到了文本獲取、文本分詞、主體詞提取等文本處理方法,其還可以通過(guò)自動(dòng)摘要和自動(dòng)分類(lèi)等文本處理技術(shù)進(jìn)一步提升其系統(tǒng)能力。中國(guó)專(zhuān)利公開(kāi)號(hào)為:CN103176953A,公開(kāi)日為2013.06.26,專(zhuān)利名稱(chēng)為:一種文本處理方法及系統(tǒng),公開(kāi)了一種用于提高現(xiàn)有技術(shù)中文本處理的效率和準(zhǔn)確性的文本處理方法及系統(tǒng),但其中僅涉及了文本分詞、詞性標(biāo)注、實(shí)體識(shí)別等有限的文本處理技術(shù),限制了對(duì)文本處理的能力。
【發(fā)明內(nèi)容】
[0004]針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法。
[0005]根據(jù)本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng),包括:文本抽取模塊、文本分詞模塊、索引建立模塊、實(shí)體識(shí)別模塊、關(guān)鍵詞提取模塊、自動(dòng)摘要模塊、自動(dòng)分類(lèi)模塊以及服務(wù)接口模塊;
[0006]-所述文本抽取模塊,用于接收外部文本文件,當(dāng)判斷出外部文本文件為破損時(shí),舍棄掉該外部文本文件;否則識(shí)別該外部文本文件的文件格式,并根據(jù)該文件格式抽取文本;
[0007]-所述文本分詞模塊,用于接收所述文本抽取模塊抽取的文本,對(duì)接收到的文本依次進(jìn)行編碼轉(zhuǎn)換、簡(jiǎn)繁轉(zhuǎn)換、分詞以及詞性標(biāo)注操作,并且將帶詞性標(biāo)注的分詞結(jié)果分別傳遞給索引建立模塊、實(shí)體識(shí)別模塊、關(guān)鍵詞提取模塊、自動(dòng)摘要模塊和自動(dòng)分類(lèi)模塊;
[0008]-所述索引建立模塊,用于根據(jù)文本分詞模塊所提供的分詞結(jié)果建立文本內(nèi)容的索引文件,并為服務(wù)接口模塊提供索引文件;
[0009]-所述實(shí)體識(shí)別模塊,用于針對(duì)來(lái)自文本分詞模塊的分詞結(jié)果,識(shí)別出文本內(nèi)容中的實(shí)體詞,并輸出給服務(wù)接口模塊;
[0010]-所述關(guān)鍵詞提取模塊,用于接收文本分詞模塊的分詞結(jié)果,提取文本內(nèi)容中的關(guān)鍵詞,并輸出給服務(wù)接口模塊;
[0011]-所述自動(dòng)摘要模塊,用于根據(jù)文本分詞模塊所得到的分詞結(jié)果以及上下文結(jié)構(gòu),自動(dòng)生成摘要,并將生成的摘要輸出給服務(wù)接口模塊;
[0012]-所述自動(dòng)分類(lèi)模塊,用于根據(jù)文本分詞模塊所輸出的分詞結(jié)果給文本內(nèi)容確定一個(gè)類(lèi)別分類(lèi),并將該分類(lèi)結(jié)果輸出給服務(wù)接口模塊;
[0013]-所述服務(wù)接口模塊,用于分別接收來(lái)自索引建立模塊、實(shí)體識(shí)別模塊、關(guān)鍵詞提取模塊、自動(dòng)摘要模塊、自動(dòng)分類(lèi)模塊的輸出結(jié)果,并分別以服務(wù)的形式發(fā)布這些結(jié)果,以供其他系統(tǒng)調(diào)用。
[0014]根據(jù)本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理方法,包括如下步驟:
[0015]步驟1:根據(jù)外部文本文件的文件格式,對(duì)外部文本文件進(jìn)行抽取文本操作;
[0016]步驟2:對(duì)所述文本進(jìn)行編碼轉(zhuǎn)換、簡(jiǎn)繁轉(zhuǎn)換、分詞以及詞性標(biāo)注操作;
[0017]步驟3:利用分詞結(jié)果分別得到文本內(nèi)容的索引文件、實(shí)體詞、關(guān)鍵詞、摘要以及類(lèi)別分類(lèi)結(jié)果;
[0018]步驟4:以服務(wù)的形式發(fā)布所述結(jié)果,以供其他系統(tǒng)調(diào)用。
[0019]優(yōu)選地,所述步驟1包括如下步驟:
[0020]步驟1.1:接收外部文本文件,判斷外部文本文件是否為破損,若接收的外部文本文件為破損狀態(tài),則舍棄該外部文本文件,并提醒用戶(hù)文件已破損,結(jié)束流程;若接收的外部文本文件無(wú)破損,則進(jìn)入步驟1.2 ;
[0021]步驟1.2:識(shí)別無(wú)破損外部文本文件的文件格式,并根據(jù)識(shí)別出的文件格式進(jìn)行相應(yīng)的文本抽取操作。
[0022]優(yōu)選地,所述步驟2包括如下步驟:
[0023]步驟2.1:將抽取的文本轉(zhuǎn)換成統(tǒng)一編碼格式的文本內(nèi)容;
[0024]步驟2.2:將統(tǒng)一編碼格式的文本內(nèi)容進(jìn)行繁簡(jiǎn)轉(zhuǎn)換,即將該文本內(nèi)容中包含的中文繁體字統(tǒng)一轉(zhuǎn)換為中文簡(jiǎn)體字;
[0025]步驟2.3:將統(tǒng)一編碼格式、中文簡(jiǎn)體的文本內(nèi)容進(jìn)行文本分詞操作,將該文本內(nèi)容按詞進(jìn)行切分并進(jìn)行詞性標(biāo)注。
[0026]優(yōu)選地,所述步驟3包括:
[0027]-根據(jù)分詞結(jié)果建立文本內(nèi)容的索引文件;
[0028]-針對(duì)分詞結(jié)果,識(shí)別出文本內(nèi)容中的實(shí)體詞;
[0029]-接收分詞結(jié)果,提取文本內(nèi)容中的關(guān)鍵詞;
[0030]-根據(jù)分詞結(jié)果以及上下文結(jié)構(gòu),自動(dòng)生成摘要;
[0031]-根據(jù)分詞結(jié)果給文本內(nèi)容確定一個(gè)類(lèi)別分類(lèi)。
[0032]優(yōu)選地,所述步驟1.1中判斷外部文本文件是否為破損,包括判斷文本結(jié)構(gòu)、擴(kuò)展名及內(nèi)部標(biāo)志位是否完整。
[0033]優(yōu)選地,步驟2.1中將抽取的文本轉(zhuǎn)換成統(tǒng)一的編碼格式,所述編碼格式為UTF-8格式。
[0034]優(yōu)選地,所述提取文本內(nèi)容中的關(guān)鍵詞,具體包括:根據(jù)詞項(xiàng)在文本內(nèi)容中的文檔頻率、位置、詞性權(quán)重、詞頻以及文本內(nèi)容長(zhǎng)度參數(shù)確定每個(gè)詞項(xiàng)的綜合權(quán)重,依據(jù)綜合權(quán)重大小排序得到Μ個(gè)關(guān)鍵詞,其中Μ的數(shù)量由用戶(hù)指定。
[0035]優(yōu)選地,所述自動(dòng)生成摘要,具體包括:
[0036]通過(guò)計(jì)算詞和句子的權(quán)重,并對(duì)文本內(nèi)容中的所有句子根據(jù)權(quán)重值按高低降序排列,經(jīng)過(guò)以余弦距離為度量的相似性判斷進(jìn)行去重和整合,從而得到根據(jù)要求輸出的摘要文本。
[0037]優(yōu)選地,所述給文本內(nèi)容確定一個(gè)類(lèi)別,具體包括:
[0038]根據(jù)預(yù)先定義的分類(lèi)體系以及經(jīng)過(guò)訓(xùn)練得到的分類(lèi)模型,對(duì)分詞結(jié)果進(jìn)行特征向量表示,利用樸素貝葉斯、Κ近鄰、支持向量積這些算法中的任一種算法將所述文本內(nèi)容與分類(lèi)模型進(jìn)行距離計(jì)算,從而得到該文本內(nèi)容的分類(lèi)類(lèi)別。
[0039]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
[0040]1、本發(fā)明提供的方法,包括文本分詞、詞性標(biāo)注、實(shí)體識(shí)別、關(guān)鍵詞提取、自動(dòng)生成摘要、自動(dòng)分類(lèi)等文本處理能力,功能更全面。
[0041]2、本發(fā)明提供的方法更加充分挖掘文本數(shù)據(jù)背后的信息和價(jià)值,并能夠?qū)Σ煌袷?、不同編碼的文本數(shù)據(jù)進(jìn)行文本處理。
[0042]3、本發(fā)明提供的方法提高了文本處理效率,同時(shí)加快了與文本處理相關(guān)系統(tǒng)的開(kāi)發(fā)進(jìn)度,提高了系統(tǒng)的交互性和擴(kuò)展性。
【附圖說(shuō)明】
[0043]通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0044]圖1為本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng)框圖;
[0045]圖2為本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng)流程圖;
[0046]圖中:
[0047]101-面向數(shù)據(jù)挖掘的文本處理系統(tǒng);
[0048]102-文本抽取模塊;
[0049]103-文本分詞模塊;
[0050]104-索引建立模塊;
[0051 ]105-實(shí)體識(shí)別模塊;
[0052]106-關(guān)鍵詞提取模塊;
[0053]107-自動(dòng)摘要模塊;
[0054]108-自動(dòng)分類(lèi)模塊;
[0055]109-服務(wù)接口模塊。
【具體實(shí)施方式】
[0056]下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
[0057]根據(jù)本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng),包括:文本抽取模塊102、文本分詞模塊103、索引建立模塊104、實(shí)體識(shí)別模塊105、關(guān)鍵詞提取模塊106、自動(dòng)摘要模塊107、自動(dòng)分類(lèi)模塊108以及服務(wù)接口模塊109 ;
[0058]-所述文本抽取模塊102,用于接收外部文本文件,當(dāng)判斷出外部文本文件為破損時(shí),舍棄掉該外部文本文件;否則識(shí)別該外部文本文件的文件格式,并根據(jù)該文件格式抽取文本;
[00