一種文本段落切片方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種文本段落切片方法及系統(tǒng),該方法包括以下步驟:獲取互聯(lián)網(wǎng)數(shù)據(jù);對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分;對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組;將重組后的段落合并為語義段落;將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。本發(fā)明有利于系統(tǒng)統(tǒng)一接口和設(shè)計(jì),而且充分利用在段落級別文本分析的優(yōu)勢,在更小粒度的文本上精煉更加詳盡、準(zhǔn)確的語義信息,以支持情報(bào)采集、識(shí)別和分析。
【專利說明】一種文本段落切片方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種文本段落切片方法及系統(tǒng)。
【背景技術(shù)】
[0002]文本是指書面語言的表現(xiàn)形式,從文學(xué)的角度說,通常是具有完整、系統(tǒng)含義的一個(gè)句子或多個(gè)句子的組合。一個(gè)文本可以是一個(gè)句子、一個(gè)段落或者一個(gè)篇章。通常一個(gè)文本文件可能包括數(shù)萬甚至數(shù)十萬字,在該文本文件中搜索某些語義時(shí)需要花費(fèi)大量時(shí)間。雖然可以通過將整個(gè)文本文件進(jìn)行段落化分割,提高搜索效率,但現(xiàn)有技術(shù)中的段落化切割不但需要考慮文本、段落長度限制因素,而且很難在最大限度上保證將語義關(guān)聯(lián)緊密的小段落合并為長度較為適中的語義段落。
【發(fā)明內(nèi)容】
[0003]為了解決【背景技術(shù)】中存在的技術(shù)問題,本發(fā)明提出了一種文本段落切片方法及系統(tǒng),使文本更加精煉詳盡,語義信息更加準(zhǔn)確。
[0004]本發(fā)明提出的一種文本段落切片方法,包括以下步驟:
[0005]獲取互聯(lián)網(wǎng)數(shù)據(jù);
[0006]對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分;
[0007]對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組;
[0008]將重組后的段落合并為語義段落;
[0009]將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
[0010]優(yōu)選地,所述互聯(lián)網(wǎng)數(shù)據(jù)包括HTML中正文、title、meta以及錨文字。
[0011]優(yōu)選地,所述粗切分為對超過預(yù)定長度字的文本,根據(jù)語義終止符號(hào)切割為小段落。
[0012]優(yōu)選地,所述終止符號(hào)包括句點(diǎn)、嘆號(hào)。
[0013]優(yōu)選地,所述粗切分為根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
[0014]優(yōu)選地,所述段落相關(guān)性分析與段落重組具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度,以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案,以組成各個(gè)語義段落群。
[0015]本發(fā)明提出了一種文本段落切片系統(tǒng),包括:
[0016]獲取模塊,用于獲取互聯(lián)網(wǎng)數(shù)據(jù);
[0017]切分模塊,與所述獲取模塊連接,用于對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分;
[0018]重組模塊,與所述切分模塊連接,用于對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組;
[0019]合并模塊,與所述重組模塊連接,用于將重組后的段落合并為語義段落;
[0020]存儲(chǔ)模塊,與所述合同模塊連接,用于將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
[0021]優(yōu)選地,
[0022]所述切分模塊,具體用于對超過預(yù)定長度字的文本,根據(jù)語義終止符號(hào)切割為小段落。
[0023]優(yōu)選地,所述切分模塊根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
[0024]優(yōu)選地,所述重組模塊,具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度,以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案,以組成各個(gè)語義段落群。
[0025]本發(fā)明中,通過對文本切割,使以文本文檔形式的文本數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式的段落,這不但有利于系統(tǒng)統(tǒng)一接口和設(shè)計(jì),而且充分利用在段落級別文本分析的優(yōu)勢,在更小粒度的文本更加詳盡精煉,語義信息更加準(zhǔn)確,以支持情報(bào)采集、識(shí)別和分析。
【專利附圖】
【附圖說明】
[0026]圖1為本發(fā)明實(shí)施例提出的一種文本段落切片方法流程圖;
[0027]圖2為本發(fā)明實(shí)施例提出的一種文本段落切片系統(tǒng)結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0028]如圖1所示,本發(fā)明實(shí)施例提出了一種文本段落切片方法,包括以下步驟:
[0029]步驟101,獲取互聯(lián)網(wǎng)數(shù)據(jù),取自存儲(chǔ)系統(tǒng),其中,互聯(lián)網(wǎng)數(shù)據(jù)包括HTMLOlyperTextMark-up Language,超文本標(biāo)記語言)中正文、title、meta以及錨文字。HTML是目前網(wǎng)絡(luò)上應(yīng)用最為廣泛的語言,也是構(gòu)成網(wǎng)頁文檔的主要語言,由HTML命令組成的描述性文本,HTML命令可以說明文字、圖形、動(dòng)畫、聲音、表格、鏈接等;HTML文件的結(jié)構(gòu)包括頭部(title)、主體(meta)兩大部分,其中頭部描述瀏覽器所需的信息,而主體則包含所要說明的具體內(nèi)容。錨文字是網(wǎng)頁上超鏈接的文字部分,是影響網(wǎng)頁搜索引擎排名的一項(xiàng)重要因素,錨文字指的是在網(wǎng)頁上,或者在其他有鏈接的幻燈片等頁面,含有超鏈接,能指向其他頁面或其他內(nèi)容的文字鏈接,此類文在文本中出現(xiàn)時(shí),常常含有超鏈接。
[0030]步驟102,對文本段落進(jìn)行粗切分,對文本長度超過預(yù)定長度(例如300字)的文檔盡量依據(jù)原文的段落結(jié)構(gòu),進(jìn)行切分;對超過300字的文本,根據(jù)語義終止符號(hào),例如句點(diǎn)、嘆號(hào)等標(biāo)點(diǎn)符號(hào),在合適位置(各段等長原則及長句子獨(dú)立語義段落原則),強(qiáng)制切割為小段落。頁面原始信息(HTML文檔的title、meta,body標(biāo)簽以及其中文字)作為參考信息指導(dǎo)強(qiáng)制切割,原則為,body中內(nèi)容進(jìn)行切割,但是在title、meta中出現(xiàn)的詞匯應(yīng)盡量拆分到至少兩個(gè)自然段落中。在title、meta中的名詞優(yōu)先拆分到至少兩個(gè)自然段落中。
[0031]步驟103,段落相關(guān)性分析與段落重組,實(shí)現(xiàn)根據(jù)LSA (Latent semanticanalysis)訓(xùn)練的矩陣計(jì)算各小的自然(包括認(rèn)為強(qiáng)制切割的小段落)段落之間潛在語義關(guān)聯(lián)度,以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案,以組成各個(gè)語義段落群(即段落級文本)。
[0032]LSA是用在語義檢索上,為了解決一詞多義和一義多詞的問題:一詞多義:美女和PPMM表示相同的含義,但是單純依靠檢索詞“美女”來檢索文檔,很可能喪失掉那些包含“PPMM”的文檔;一義多詞:如果輸入檢索詞是多個(gè)檢索詞組成的一個(gè)小document,例如“清澈孩子”,那就知道這段文字主要想表達(dá)concept是和道德相關(guān)的,不應(yīng)該將“春天到了,小河多么的清澈”這樣的文本包含在內(nèi)。為了能夠解決這個(gè)問題,需要將詞語(term)中的concept提取出來,建立一個(gè)詞語和概念的關(guān)聯(lián)關(guān)系(t_c relat1nship),這樣一個(gè)文檔就能表示成為概念的向量。這樣輸入一段檢索詞之后,就可以先將檢索詞轉(zhuǎn)換為概念,再通過概念去匹配文檔。
[0033]步驟104,成本最小化原則下將重組后的段落合并為語義段落;文本段落化描述,實(shí)現(xiàn)將原始文檔與段落級文本之間建立關(guān)聯(lián),以便于知道段落與文本之間的關(guān)系、段落之間的先后關(guān)系。
[0034]語義化是指用合理HTML標(biāo)記以及其特有的屬性去格式化文檔內(nèi)容,也就是對數(shù)據(jù)和信息進(jìn)行處理,使得機(jī)器可以理解。語義分析的任務(wù)是對結(jié)構(gòu)上正確的文本進(jìn)行上下文有關(guān)性質(zhì)的審查,進(jìn)行類型審查。語義分析是審查有無語義錯(cuò)誤。比如語義分析的一個(gè)工作是進(jìn)行類型審查,審查每個(gè)算符是否具有語言規(guī)范允許的運(yùn)算對象,當(dāng)不符合語言規(guī)范時(shí),應(yīng)報(bào)告錯(cuò)誤。
[0035]步驟105,將這種關(guān)系永久地序列化到存儲(chǔ)系統(tǒng)之中,輸出為段落化的文本描述,輸出對象為存儲(chǔ)系統(tǒng),也是與其他模塊物理上隔離,以單獨(dú)進(jìn)程形式存在。
[0036]如圖2所示,本發(fā)明實(shí)施例提出了一種文本段落切片系統(tǒng),包括:獲取模塊10,用于獲取互聯(lián)網(wǎng)數(shù)據(jù);切分模塊20,與所述獲取模塊10連接,用于對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分;重組模塊30,與所述切分模塊20連接,用于對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組;合并模塊40,與所述重組模塊30連接,用于將重組后的段落合并為語義段落;存儲(chǔ)模塊50,與所述合并模塊40連接,用于將相同語義段落永久地序列化到存儲(chǔ)模塊50之中。
[0037]所述切分模塊,具體用于對超過預(yù)定長度字的文本,根據(jù)語義終止符號(hào)切割為小段落。
[0038]所述切分模塊根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
[0039]所述重組模塊,具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度,以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案,以組成各個(gè)語義段落群。
[0040]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種文本段落切片方法,其特征在于,包括以下步驟: 獲取互聯(lián)網(wǎng)數(shù)據(jù); 對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分; 對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組; 將重組后的段落合并為語義段落; 將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
2.根據(jù)權(quán)利要求1所述的文本段落切片方法,其特征在于,所述互聯(lián)網(wǎng)數(shù)據(jù)包括超文本標(biāo)記語言HTML中的正文、title、meta以及錨文字。
3.根據(jù)權(quán)利要求1所述的文本段落切片方法,其特征在于,所述粗切分為對超過預(yù)定長度字的文本,根據(jù)語義終止符號(hào)切割為小段落。
4.根據(jù)權(quán)利要求3所述的文本段落切片方法,其特征在于,所述終止符號(hào)包括句點(diǎn)或嘆號(hào)。
5.根據(jù)權(quán)利要求1所述的文本段落切片方法,其特征在于,所述粗切分為根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
6.根據(jù)權(quán)利要求1所述的文本段落切片方法,其特征在于,所述段落相關(guān)性分析與段落重組具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度,以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案,以組成各個(gè)語義段落群。
7.一種文本段落切片系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取互聯(lián)網(wǎng)數(shù)據(jù); 切分模塊,與所述獲取模塊連接,用于對所述互聯(lián)網(wǎng)數(shù)據(jù)中的文本段落進(jìn)行粗切分; 重組模塊,與所述切分模塊連接,用于對粗切分的文本段落進(jìn)行段落相關(guān)性分析與段落重組; 合并模塊,與所述重組模塊連接,用于將重組后的段落合并為語義段落; 存儲(chǔ)模塊,與所述合同模塊連接,用于將相同語義段落永久地序列化到存儲(chǔ)系統(tǒng)之中。
8.根據(jù)權(quán)利要求7所述的文本段落切片系統(tǒng),其特征在于, 所述切分模塊,具體用于對超過預(yù)定長度字的文本,根據(jù)語義終止符號(hào)切割為小段落。
9.根據(jù)權(quán)利要求8所述的文本段落切片系統(tǒng),其特征在于,所述切分模塊根據(jù)各段等長原則及長句子獨(dú)立語義段落原則切割為小段落。
10.根據(jù)權(quán)利要求7所述的文本段落切片系統(tǒng),其特征在于,所述重組模塊,具體包括:根據(jù)LSA訓(xùn)練的矩陣計(jì)算各小的自然段落之間潛在語義關(guān)聯(lián)度,以平均代價(jià)最小原則尋找最優(yōu)合并小段落合并方案,以組成各個(gè)語義段落群。
【文檔編號(hào)】G06F17/30GK104317786SQ201410538291
【公開日】2015年1月28日 申請日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司