一種文本段落切片方法及系統(tǒng)的制作方法

文檔序號(hào)：6630016閱讀：282來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本段落切片方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種文本段落切片方法及系統(tǒng)，該方法包括以下步驟：獲取互聯(lián)網(wǎng)數(shù)據(jù)；對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分；對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組；將重組后的段落合并為語義段落；將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。本發(fā)明有利于系統(tǒng)統(tǒng)一接口和設(shè)計(jì)，而且充分利用在段落級別文本分析的優(yōu)勢，在更小粒度的文本上精煉更加詳盡、準(zhǔn)確的語義信息，以支持情報(bào)采集、識(shí)別和分析。
【專利說明】一種文本段落切片方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】，尤其涉及一種文本段落切片方法及系統(tǒng)。

【背景技術(shù)】
[0002]文本是指書面語言的表現(xiàn)形式，從文學(xué)的角度說，通常是具有完整、系統(tǒng)含義的一個(gè)句子或多個(gè)句子的組合。一個(gè)文本可以是一個(gè)句子、一個(gè)段落或者一個(gè)篇章。通常一個(gè)文本文件可能包括數(shù)萬甚至數(shù)十萬字，在該文本文件中搜索某些語義時(shí)需要花費(fèi)大量時(shí)間。雖然可以通過將整個(gè)文本文件進(jìn)行段落化分割，提高搜索效率，但現(xiàn)有技術(shù)中的段落化切割不但需要考慮文本、段落長度限制因素，而且很難在最大限度上保證將語義關(guān)聯(lián)緊密的小段落合并為長度較為適中的語義段落。

【發(fā)明內(nèi)容】

[0003]為了解決【背景技術(shù)】中存在的技術(shù)問題，本發(fā)明提出了一種文本段落切片方法及系統(tǒng)，使文本更加精煉詳盡，語義信息更加準(zhǔn)確。
[0004]本發(fā)明提出的一種文本段落切片方法，包括以下步驟:
[0005]獲取互聯(lián)網(wǎng)數(shù)據(jù)；
[0006]對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分；
[0007]對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組；
[0008]將重組后的段落合并為語義段落；
[0009]將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
[0010]優(yōu)選地，所述互聯(lián)網(wǎng)數(shù)據(jù)包括HTML中正文、title、meta以及錨文字。
[0011]優(yōu)選地，所述粗切分為對超過預(yù)定長度字的文本，根據(jù)語義終止符號(hào)切割為小段落。
[0012]優(yōu)選地，所述終止符號(hào)包括句點(diǎn)、嘆號(hào)。
[0013]優(yōu)選地，所述粗切分為根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
[0014]優(yōu)選地，所述段落相關(guān)性分析與段落重組具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度，以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案，以組成各個(gè)語義段落群。
[0015]本發(fā)明提出了一種文本段落切片系統(tǒng)，包括:
[0016]獲取模塊，用于獲取互聯(lián)網(wǎng)數(shù)據(jù)；
[0017]切分模塊，與所述獲取模塊連接，用于對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分；
[0018]重組模塊，與所述切分模塊連接，用于對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組；
[0019]合并模塊，與所述重組模塊連接，用于將重組后的段落合并為語義段落；
[0020]存儲(chǔ)模塊，與所述合同模塊連接，用于將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
[0021]優(yōu)選地，
[0022]所述切分模塊，具體用于對超過預(yù)定長度字的文本，根據(jù)語義終止符號(hào)切割為小段落。
[0023]優(yōu)選地，所述切分模塊根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
[0024]優(yōu)選地，所述重組模塊，具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度，以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案，以組成各個(gè)語義段落群。
[0025]本發(fā)明中，通過對文本切割，使以文本文檔形式的文本數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式的段落，這不但有利于系統(tǒng)統(tǒng)一接口和設(shè)計(jì)，而且充分利用在段落級別文本分析的優(yōu)勢，在更小粒度的文本更加詳盡精煉，語義信息更加準(zhǔn)確，以支持情報(bào)采集、識(shí)別和分析。

【專利附圖】

【附圖說明】
[0026]圖1為本發(fā)明實(shí)施例提出的一種文本段落切片方法流程圖；
[0027]圖2為本發(fā)明實(shí)施例提出的一種文本段落切片系統(tǒng)結(jié)構(gòu)圖。

【具體實(shí)施方式】
[0028]如圖1所示，本發(fā)明實(shí)施例提出了一種文本段落切片方法，包括以下步驟:
[0029]步驟101，獲取互聯(lián)網(wǎng)數(shù)據(jù)，取自存儲(chǔ)系統(tǒng)，其中，互聯(lián)網(wǎng)數(shù)據(jù)包括HTMLOlyperTextMark-up Language,超文本標(biāo)記語言)中正文、title、meta以及錨文字。HTML是目前網(wǎng)絡(luò)上應(yīng)用最為廣泛的語言，也是構(gòu)成網(wǎng)頁文檔的主要語言，由HTML命令組成的描述性文本，HTML命令可以說明文字、圖形、動(dòng)畫、聲音、表格、鏈接等；HTML文件的結(jié)構(gòu)包括頭部(title)、主體(meta)兩大部分，其中頭部描述瀏覽器所需的信息，而主體則包含所要說明的具體內(nèi)容。錨文字是網(wǎng)頁上超鏈接的文字部分，是影響網(wǎng)頁搜索引擎排名的一項(xiàng)重要因素，錨文字指的是在網(wǎng)頁上，或者在其他有鏈接的幻燈片等頁面，含有超鏈接，能指向其他頁面或其他內(nèi)容的文字鏈接，此類文在文本中出現(xiàn)時(shí)，常常含有超鏈接。
[0030]步驟102，對文本段落進(jìn)行粗切分，對文本長度超過預(yù)定長度(例如300字)的文檔盡量依據(jù)原文的段落結(jié)構(gòu)，進(jìn)行切分；對超過300字的文本，根據(jù)語義終止符號(hào)，例如句點(diǎn)、嘆號(hào)等標(biāo)點(diǎn)符號(hào)，在合適位置(各段等長原則及長句子獨(dú)立語義段落原則)，強(qiáng)制切割為小段落。頁面原始信息(HTML文檔的title、meta,body標(biāo)簽以及其中文字)作為參考信息指導(dǎo)強(qiáng)制切割，原則為，body中內(nèi)容進(jìn)行切割,但是在title、meta中出現(xiàn)的詞匯應(yīng)盡量拆分到至少兩個(gè)自然段落中。在title、meta中的名詞優(yōu)先拆分到至少兩個(gè)自然段落中。
[0031]步驟103,段落相關(guān)性分析與段落重組，實(shí)現(xiàn)根據(jù)LSA (Latent semanticanalysis)訓(xùn)練的矩陣計(jì)算各小的自然(包括認(rèn)為強(qiáng)制切割的小段落)段落之間潛在語義關(guān)聯(lián)度，以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案，以組成各個(gè)語義段落群(即段落級文本)。
[0032]LSA是用在語義檢索上，為了解決一詞多義和一義多詞的問題:一詞多義:美女和PPMM表示相同的含義，但是單純依靠檢索詞“美女”來檢索文檔，很可能喪失掉那些包含“PPMM”的文檔；一義多詞:如果輸入檢索詞是多個(gè)檢索詞組成的一個(gè)小document，例如“清澈孩子”，那就知道這段文字主要想表達(dá)concept是和道德相關(guān)的，不應(yīng)該將“春天到了，小河多么的清澈”這樣的文本包含在內(nèi)。為了能夠解決這個(gè)問題，需要將詞語(term)中的concept提取出來,建立一個(gè)詞語和概念的關(guān)聯(lián)關(guān)系(t_c relat1nship),這樣一個(gè)文檔就能表示成為概念的向量。這樣輸入一段檢索詞之后，就可以先將檢索詞轉(zhuǎn)換為概念，再通過概念去匹配文檔。
[0033]步驟104，成本最小化原則下將重組后的段落合并為語義段落；文本段落化描述，實(shí)現(xiàn)將原始文檔與段落級文本之間建立關(guān)聯(lián)，以便于知道段落與文本之間的關(guān)系、段落之間的先后關(guān)系。
[0034]語義化是指用合理HTML標(biāo)記以及其特有的屬性去格式化文檔內(nèi)容，也就是對數(shù)據(jù)和信息進(jìn)行處理，使得機(jī)器可以理解。語義分析的任務(wù)是對結(jié)構(gòu)上正確的文本進(jìn)行上下文有關(guān)性質(zhì)的審查，進(jìn)行類型審查。語義分析是審查有無語義錯(cuò)誤。比如語義分析的一個(gè)工作是進(jìn)行類型審查，審查每個(gè)算符是否具有語言規(guī)范允許的運(yùn)算對象，當(dāng)不符合語言規(guī)范時(shí)，應(yīng)報(bào)告錯(cuò)誤。
[0035]步驟105，將這種關(guān)系永久地序列化到存儲(chǔ)系統(tǒng)之中，輸出為段落化的文本描述，輸出對象為存儲(chǔ)系統(tǒng)，也是與其他模塊物理上隔離，以單獨(dú)進(jìn)程形式存在。
[0036]如圖2所示，本發(fā)明實(shí)施例提出了一種文本段落切片系統(tǒng)，包括:獲取模塊10，用于獲取互聯(lián)網(wǎng)數(shù)據(jù)；切分模塊20，與所述獲取模塊10連接，用于對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分；重組模塊30，與所述切分模塊20連接，用于對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組；合并模塊40，與所述重組模塊30連接，用于將重組后的段落合并為語義段落；存儲(chǔ)模塊50，與所述合并模塊40連接，用于將相同語義段落永久地序列化到存儲(chǔ)模塊50之中。
[0037]所述切分模塊，具體用于對超過預(yù)定長度字的文本，根據(jù)語義終止符號(hào)切割為小段落。
[0038]所述切分模塊根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
[0039]所述重組模塊，具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度，以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案，以組成各個(gè)語義段落群。
[0040]以上所述，僅為本發(fā)明較佳的【具體實(shí)施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種文本段落切片方法，其特征在于，包括以下步驟: 獲取互聯(lián)網(wǎng)數(shù)據(jù)；對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分；對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組；將重組后的段落合并為語義段落；將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
2.根據(jù)權(quán)利要求1所述的文本段落切片方法，其特征在于，所述互聯(lián)網(wǎng)數(shù)據(jù)包括超文本標(biāo)記語言HTML中的正文、title、meta以及錨文字。
3.根據(jù)權(quán)利要求1所述的文本段落切片方法，其特征在于，所述粗切分為對超過預(yù)定長度字的文本，根據(jù)語義終止符號(hào)切割為小段落。
4.根據(jù)權(quán)利要求3所述的文本段落切片方法，其特征在于，所述終止符號(hào)包括句點(diǎn)或嘆號(hào)。
5.根據(jù)權(quán)利要求1所述的文本段落切片方法，其特征在于，所述粗切分為根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
6.根據(jù)權(quán)利要求1所述的文本段落切片方法，其特征在于，所述段落相關(guān)性分析與段落重組具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度，以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案，以組成各個(gè)語義段落群。
7.一種文本段落切片系統(tǒng)，其特征在于，包括: 獲取模塊，用于獲取互聯(lián)網(wǎng)數(shù)據(jù)；切分模塊，與所述獲取模塊連接，用于對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分；重組模塊，與所述切分模塊連接，用于對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組；合并模塊，與所述重組模塊連接，用于將重組后的段落合并為語義段落；存儲(chǔ)模塊，與所述合同模塊連接，用于將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
8.根據(jù)權(quán)利要求7所述的文本段落切片系統(tǒng)，其特征在于，所述切分模塊，具體用于對超過預(yù)定長度字的文本，根據(jù)語義終止符號(hào)切割為小段落。
9.根據(jù)權(quán)利要求8所述的文本段落切片系統(tǒng)，其特征在于，所述切分模塊根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
10.根據(jù)權(quán)利要求7所述的文本段落切片系統(tǒng)，其特征在于，所述重組模塊，具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度，以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案，以組成各個(gè)語義段落群。
【文檔編號(hào)】G06F17/30GK104317786SQ201410538291
【公開日】2015年1月28日申請日期:2014年10月13日優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】賈巖申請人:安徽華貞信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈巖
技術(shù)所有人：安徽華貞信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種手機(jī)游戲安裝快速啟動(dòng)方法
上一篇：三維影像互動(dòng)系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本段落切片方法及系統(tǒng)的制作方法