面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法

文檔序號(hào)：9489492閱讀：248來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)信息處理技術(shù)領(lǐng)域，具體地，涉及面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息服務(wù)和計(jì)算機(jī)技術(shù)的迅速發(fā)展和普及，大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)應(yīng)運(yùn)而生，尤其是以文本等為代表的非結(jié)構(gòu)化數(shù)據(jù)，人們力圖從海量數(shù)據(jù)中提取出有效、簡(jiǎn)潔、精煉和易于理解的知識(shí)。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過(guò)程，針對(duì)文本類(lèi)數(shù)據(jù)的數(shù)據(jù)挖掘主要有索引建立、實(shí)體識(shí)別、關(guān)鍵詞提取、自動(dòng)摘要和自動(dòng)分類(lèi)等操作過(guò)程，而這些過(guò)程的實(shí)現(xiàn)均需要進(jìn)行文本處理。所以，面向數(shù)據(jù)挖掘的文本處理系統(tǒng)需要解決文本抽取、文本分詞、索引建立、實(shí)體識(shí)別、關(guān)鍵詞提取、自動(dòng)摘要和自動(dòng)分類(lèi)等多方面的問(wèn)題。
[0003]經(jīng)對(duì)現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn)，中國(guó)專(zhuān)利公開(kāi)號(hào)CN101576872A，公開(kāi)日為2009.11.11，專(zhuān)利名稱(chēng)為:一種中文文本處理方法及裝置，公開(kāi)了一種中文文本處理方法及裝置，僅使用了中文分詞方法對(duì)文本進(jìn)行分割，然后對(duì)得到的文本片段進(jìn)行聚合，雖然其通過(guò)增加文本片段長(zhǎng)度降低了檢索結(jié)果的誤報(bào)概率，但是其僅僅涉及了文本分詞和聚合的文本處理方法，對(duì)其他文本處理方面有一定局限性。中國(guó)專(zhuān)利公開(kāi)號(hào)為:CN102262632A，公開(kāi)日為2011.11.30，專(zhuān)利名稱(chēng)為:進(jìn)行文本處理的方法和系統(tǒng)，公開(kāi)了一種文本處理方法和實(shí)現(xiàn)這種方法的系統(tǒng)，介紹了一種在數(shù)據(jù)挖掘領(lǐng)域利用對(duì)現(xiàn)有的對(duì)象共指技術(shù)的擴(kuò)展實(shí)現(xiàn)有效的文本數(shù)據(jù)的分析和處理，但是其主要涉及到了文本獲取、文本分詞、主體詞提取等文本處理方法，其還可以通過(guò)自動(dòng)摘要和自動(dòng)分類(lèi)等文本處理技術(shù)進(jìn)一步提升其系統(tǒng)能力。中國(guó)專(zhuān)利公開(kāi)號(hào)為:CN103176953A，公開(kāi)日為2013.06.26，專(zhuān)利名稱(chēng)為:一種文本處理方法及系統(tǒng)，公開(kāi)了一種用于提高現(xiàn)有技術(shù)中文本處理的效率和準(zhǔn)確性的文本處理方法及系統(tǒng)，但其中僅涉及了文本分詞、詞性標(biāo)注、實(shí)體識(shí)別等有限的文本處理技術(shù)，限制了對(duì)文本處理的能力。

【發(fā)明內(nèi)容】

[0004]針對(duì)現(xiàn)有技術(shù)中的缺陷，本發(fā)明的目的是提供一種面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法。
[0005]根據(jù)本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng)，包括:文本抽取模塊、文本分詞模塊、索引建立模塊、實(shí)體識(shí)別模塊、關(guān)鍵詞提取模塊、自動(dòng)摘要模塊、自動(dòng)分類(lèi)模塊以及服務(wù)接口模塊；
[0006]-所述文本抽取模塊，用于接收外部文本文件，當(dāng)判斷出外部文本文件為破損時(shí)，舍棄掉該外部文本文件；否則識(shí)別該外部文本文件的文件格式，并根據(jù)該文件格式抽取文本；
[0007]-所述文本分詞模塊，用于接收所述文本抽取模塊抽取的文本，對(duì)接收到的文本依次進(jìn)行編碼轉(zhuǎn)換、簡(jiǎn)繁轉(zhuǎn)換、分詞以及詞性標(biāo)注操作，并且將帶詞性標(biāo)注的分詞結(jié)果分別傳遞給索引建立模塊、實(shí)體識(shí)別模塊、關(guān)鍵詞提取模塊、自動(dòng)摘要模塊和自動(dòng)分類(lèi)模塊；
[0008]-所述索引建立模塊，用于根據(jù)文本分詞模塊所提供的分詞結(jié)果建立文本內(nèi)容的索引文件，并為服務(wù)接口模塊提供索引文件；
[0009]-所述實(shí)體識(shí)別模塊，用于針對(duì)來(lái)自文本分詞模塊的分詞結(jié)果，識(shí)別出文本內(nèi)容中的實(shí)體詞，并輸出給服務(wù)接口模塊；
[0010]-所述關(guān)鍵詞提取模塊，用于接收文本分詞模塊的分詞結(jié)果，提取文本內(nèi)容中的關(guān)鍵詞，并輸出給服務(wù)接口模塊；
[0011]-所述自動(dòng)摘要模塊，用于根據(jù)文本分詞模塊所得到的分詞結(jié)果以及上下文結(jié)構(gòu)，自動(dòng)生成摘要，并將生成的摘要輸出給服務(wù)接口模塊；
[0012]-所述自動(dòng)分類(lèi)模塊，用于根據(jù)文本分詞模塊所輸出的分詞結(jié)果給文本內(nèi)容確定一個(gè)類(lèi)別分類(lèi)，并將該分類(lèi)結(jié)果輸出給服務(wù)接口模塊；
[0013]-所述服務(wù)接口模塊，用于分別接收來(lái)自索引建立模塊、實(shí)體識(shí)別模塊、關(guān)鍵詞提取模塊、自動(dòng)摘要模塊、自動(dòng)分類(lèi)模塊的輸出結(jié)果，并分別以服務(wù)的形式發(fā)布這些結(jié)果，以供其他系統(tǒng)調(diào)用。
[0014]根據(jù)本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理方法，包括如下步驟:
[0015]步驟1:根據(jù)外部文本文件的文件格式，對(duì)外部文本文件進(jìn)行抽取文本操作；
[0016]步驟2:對(duì)所述文本進(jìn)行編碼轉(zhuǎn)換、簡(jiǎn)繁轉(zhuǎn)換、分詞以及詞性標(biāo)注操作；
[0017]步驟3:利用分詞結(jié)果分別得到文本內(nèi)容的索引文件、實(shí)體詞、關(guān)鍵詞、摘要以及類(lèi)別分類(lèi)結(jié)果；
[0018]步驟4:以服務(wù)的形式發(fā)布所述結(jié)果，以供其他系統(tǒng)調(diào)用。
[0019]優(yōu)選地，所述步驟1包括如下步驟:
[0020]步驟1.1:接收外部文本文件，判斷外部文本文件是否為破損，若接收的外部文本文件為破損狀態(tài)，則舍棄該外部文本文件，并提醒用戶(hù)文件已破損，結(jié)束流程；若接收的外部文本文件無(wú)破損，則進(jìn)入步驟1.2 ;
[0021]步驟1.2:識(shí)別無(wú)破損外部文本文件的文件格式，并根據(jù)識(shí)別出的文件格式進(jìn)行相應(yīng)的文本抽取操作。
[0022]優(yōu)選地，所述步驟2包括如下步驟:
[0023]步驟2.1:將抽取的文本轉(zhuǎn)換成統(tǒng)一編碼格式的文本內(nèi)容；
[0024]步驟2.2:將統(tǒng)一編碼格式的文本內(nèi)容進(jìn)行繁簡(jiǎn)轉(zhuǎn)換，即將該文本內(nèi)容中包含的中文繁體字統(tǒng)一轉(zhuǎn)換為中文簡(jiǎn)體字；
[0025]步驟2.3:將統(tǒng)一編碼格式、中文簡(jiǎn)體的文本內(nèi)容進(jìn)行文本分詞操作，將該文本內(nèi)容按詞進(jìn)行切分并進(jìn)行詞性標(biāo)注。
[0026]優(yōu)選地，所述步驟3包括:
[0027]-根據(jù)分詞結(jié)果建立文本內(nèi)容的索引文件；
[0028]-針對(duì)分詞結(jié)果，識(shí)別出文本內(nèi)容中的實(shí)體詞；
[0029]-接收分詞結(jié)果，提取文本內(nèi)容中的關(guān)鍵詞；
[0030]-根據(jù)分詞結(jié)果以及上下文結(jié)構(gòu)，自動(dòng)生成摘要；
[0031]-根據(jù)分詞結(jié)果給文本內(nèi)容確定一個(gè)類(lèi)別分類(lèi)。
[0032]優(yōu)選地，所述步驟1.1中判斷外部文本文件是否為破損，包括判斷文本結(jié)構(gòu)、擴(kuò)展名及內(nèi)部標(biāo)志位是否完整。
[0033]優(yōu)選地，步驟2.1中將抽取的文本轉(zhuǎn)換成統(tǒng)一的編碼格式，所述編碼格式為UTF-8格式。
[0034]優(yōu)選地，所述提取文本內(nèi)容中的關(guān)鍵詞，具體包括:根據(jù)詞項(xiàng)在文本內(nèi)容中的文檔頻率、位置、詞性權(quán)重、詞頻以及文本內(nèi)容長(zhǎng)度參數(shù)確定每個(gè)詞項(xiàng)的綜合權(quán)重，依據(jù)綜合權(quán)重大小排序得到Μ個(gè)關(guān)鍵詞，其中Μ的數(shù)量由用戶(hù)指定。
[0035]優(yōu)選地，所述自動(dòng)生成摘要，具體包括:
[0036]通過(guò)計(jì)算詞和句子的權(quán)重，并對(duì)文本內(nèi)容中的所有句子根據(jù)權(quán)重值按高低降序排列，經(jīng)過(guò)以余弦距離為度量的相似性判斷進(jìn)行去重和整合，從而得到根據(jù)要求輸出的摘要文本。
[0037]優(yōu)選地，所述給文本內(nèi)容確定一個(gè)類(lèi)別，具體包括:
[0038]根據(jù)預(yù)先定義的分類(lèi)體系以及經(jīng)過(guò)訓(xùn)練得到的分類(lèi)模型，對(duì)分詞結(jié)果進(jìn)行特征向量表示，利用樸素貝葉斯、Κ近鄰、支持向量積這些算法中的任一種算法將所述文本內(nèi)容與分類(lèi)模型進(jìn)行距離計(jì)算，從而得到該文本內(nèi)容的分類(lèi)類(lèi)別。
[0039]與現(xiàn)有技術(shù)相比，本發(fā)明具有如下的有益效果:
[0040]1、本發(fā)明提供的方法，包括文本分詞、詞性標(biāo)注、實(shí)體識(shí)別、關(guān)鍵詞提取、自動(dòng)生成摘要、自動(dòng)分類(lèi)等文本處理能力，功能更全面。
[0041]2、本發(fā)明提供的方法更加充分挖掘文本數(shù)據(jù)背后的信息和價(jià)值，并能夠?qū)Σ煌袷?、不同編碼的文本數(shù)據(jù)進(jìn)行文本處理。
[0042]3、本發(fā)明提供的方法提高了文本處理效率，同時(shí)加快了與文本處理相關(guān)系統(tǒng)的開(kāi)發(fā)進(jìn)度，提高了系統(tǒng)的交互性和擴(kuò)展性。
【附圖說(shuō)明】
[0043]通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述，本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0044]圖1為本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng)框圖；
[0045]圖2為本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng)流程圖；
[0046]圖中:
[0047]101-面向數(shù)據(jù)挖掘的文本處理系統(tǒng)；
[0048]102-文本抽取模塊；
[0049]103-文本分詞模塊；
[0050]104-索引建立模塊；
[0051 ]105-實(shí)體識(shí)別模塊；
[0052]106-關(guān)鍵詞提取模塊；
[0053]107-自動(dòng)摘要模塊；
[0054]108-自動(dòng)分類(lèi)模塊；
[0055]109-服務(wù)接口模塊。
【具體實(shí)施方式】
[0056]下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明，但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是，對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
[0057]根據(jù)本發(fā)明提供的面向數(shù)據(jù)挖掘的文本處理系統(tǒng)，包括:文本抽取模塊102、文本分詞模塊103、索引建立模塊104、實(shí)體識(shí)別模塊105、關(guān)鍵詞提取模塊106、自動(dòng)摘要模塊107、自動(dòng)分類(lèi)模塊108以及服務(wù)接口模塊109 ;
[0058]-所述文本抽取模塊102，用于接收外部文本文件，當(dāng)判斷出外部文本文件為破損時(shí)，舍棄掉該外部文本文件；否則識(shí)別該外部文本文件的文件格式，并根據(jù)該文件格式抽取文本；
[00

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳培華;謝彬;焦瑩;
技術(shù)所有人：中國(guó)電子科技集團(tuán)公司第三十二研究所;
我是此專(zhuān)利的發(fā)明人

上一篇：路徑查詢(xún)方法及裝置的制造方法
上一篇：商品屬性特征詞聚類(lèi)方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本數(shù)據(jù)挖掘相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向數(shù)據(jù)挖掘的文本處理系統(tǒng)及方法