亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)與流程

文檔序號(hào):12177144閱讀:899來(lái)源:國(guó)知局
文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)與流程

本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)。



背景技術(shù):

隨著互聯(lián)網(wǎng)中文本內(nèi)容在傳播過(guò)程中多次修改和精編, 其內(nèi)容檢索如果按照關(guān)鍵詞來(lái)進(jìn)行召回, 存在召回結(jié)果中存在大量雜質(zhì)的問(wèn)題;如果按照標(biāo)題/正文內(nèi)容段/句來(lái)進(jìn)行檢索,則存在召回結(jié)果遺漏的問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于解決上述的技術(shù)問(wèn)題而提供一種文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)。

為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種文本內(nèi)容顯著性區(qū)域的局部特征抽取方法,包括以下步驟:

按預(yù)設(shè)挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個(gè)單句;

對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;

從每一單句的實(shí)體詞與短語(yǔ)中選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ);

將每一單句中選出的N個(gè)實(shí)體詞和短語(yǔ)按漢語(yǔ)拼音序排序,分別合并成一長(zhǎng)文本;

計(jì)算每一單句的長(zhǎng)文本的 crc64,作為每一單句的的局部特征;

將所述M個(gè)單句的局部特征合并成一個(gè)特征集,作為該資訊文本的局部特征。

本發(fā)明的目的還在于提供一種文本內(nèi)容顯著性區(qū)域的局部特征抽取系統(tǒng),包括:

單句挑選模塊,用于按預(yù)設(shè)挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個(gè)單句;

分詞模塊,用于對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;

分詞結(jié)果選擇模塊,用于從每一單句的實(shí)體詞與短語(yǔ)中選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ);

合并模塊,用于將每一單句中選出的N個(gè)實(shí)體詞和短語(yǔ)按漢語(yǔ)拼音序排序,分別合并成一長(zhǎng)文本;

單句局部特征計(jì)算模塊,用于計(jì)算每一單句的長(zhǎng)文本的 crc64,作為每一單句的的局部特征;

文本局部特征形成模塊,用于將所述M個(gè)單句的局部特征合并成一個(gè)特征集,作為該資訊文本的局部特征。

本發(fā)明基于文本內(nèi)容的顯著性區(qū)域的局部特征來(lái)進(jìn)行召回,這樣可保證了召回結(jié)果的準(zhǔn)確性和全面性;同樣針對(duì)基于文本內(nèi)容的消重系統(tǒng),可以根據(jù)文本內(nèi)容顯著性區(qū)域的局部特征集的匹配數(shù)量來(lái)進(jìn)行。

附圖說(shuō)明

圖1出示了本發(fā)明的文本內(nèi)容顯著性區(qū)域的局部特征抽取方法的流程圖;

圖2出示了本發(fā)明的的分詞結(jié)果的示意圖

圖3出示了本發(fā)明的文本內(nèi)容顯著性區(qū)域的局部特征抽取系統(tǒng)的原理結(jié)構(gòu)圖。

具體實(shí)施方式

下面,結(jié)合實(shí)例對(duì)本發(fā)明的實(shí)質(zhì)性特點(diǎn)和優(yōu)勢(shì)作進(jìn)一步的說(shuō)明,但本發(fā)明并不局限于所列的實(shí)施例。

參見(jiàn)圖1所示,一種文本內(nèi)容顯著性區(qū)域的局部特征抽取方法,包括以下步驟:

按預(yù)設(shè)挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個(gè)單句;

對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;

從每一單句的實(shí)體詞與短語(yǔ)中選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ);

將每一單句中選出的N個(gè)實(shí)體詞和短語(yǔ)按漢語(yǔ)拼音序排序,分別合并成一長(zhǎng)文本;

計(jì)算每一單句的長(zhǎng)文本的 crc64,作為每一單句的的局部特征;

將所述M個(gè)單句的局部特征合并成一個(gè)數(shù)字表的特征集,作為該資訊文本的局部特征。

本發(fā)明通過(guò)從資訊文本中的顯著性區(qū)域中選出M個(gè)單句(M為自然數(shù)),然后對(duì)單句分別分詞,對(duì)選出的實(shí)體詞與短語(yǔ)按預(yù)設(shè)權(quán)重進(jìn)行挑選,選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ)后,對(duì)權(quán)重排列在前的實(shí)體詞與短語(yǔ)按漢語(yǔ)拼音排序合并成一個(gè)長(zhǎng)文本,然后計(jì)算長(zhǎng)文本的crc64作為每一單句的的局部特征,計(jì)算出M個(gè)單句的crc64后,將該M個(gè)單句的crc64作為資訊文本的局部特征,這樣通過(guò)crc64局部特征的數(shù)字性表示,就可以創(chuàng)建每一資訊文本的局部特征集,這樣在就可實(shí)現(xiàn)利用該每一資訊文本的局部特征集,在文本檢索進(jìn)行召回時(shí),就保證了召回結(jié)果的準(zhǔn)確性和全面性;對(duì)基于文本內(nèi)容的消重系統(tǒng)而言,同樣可根據(jù)該文本內(nèi)容顯著性區(qū)域的局部特征集的匹配數(shù)量來(lái)進(jìn)行。

需要說(shuō)明的是,本發(fā)明中,所述資訊文本的顯著性區(qū)域一般是指視覺(jué)重點(diǎn)區(qū)域和\或文本內(nèi)容表述習(xí)慣的重點(diǎn)區(qū)域,可以根據(jù)需要進(jìn)行調(diào)整。

所述資訊文本的所述顯著性區(qū)域的單句是指資訊文本的標(biāo)題、段首句、段尾句,重點(diǎn)句等。

由于本發(fā)明是對(duì)文本內(nèi)容的顯著性區(qū)域的文章的標(biāo)題,段首句,段尾句,重點(diǎn)句等進(jìn)行處理, 這些顯著性區(qū)域也存在被修改的狀況,則通過(guò)考慮該顯著性區(qū)域的單句的局部性特征,而通過(guò)局部性特征關(guān)注該顯著性區(qū)域中的實(shí)體名稱(chēng)和重點(diǎn)詞, 具有更高的精度和全面性,從而就可以避免單字/單詞的修改導(dǎo)致其局部性特征不一致。

具體的,在挑選資訊文本的的顯著性區(qū)域的單句時(shí),可以根據(jù)資訊文本內(nèi)容的段落,單句位置和單句長(zhǎng)度來(lái)確定。

其中,在挑選時(shí),選出的單句的長(zhǎng)度是一個(gè)段落的資訊文本的單句平均長(zhǎng)度的3倍。

需要說(shuō)明的是,本發(fā)明中,所述一個(gè)段落的資訊文本的單句平均長(zhǎng)度是根據(jù)一個(gè)段落中每個(gè)單句的長(zhǎng)度之和除以該段落中單句的數(shù)量確定的。

本發(fā)明中,所述實(shí)體詞通常為人名、地名、專(zhuān)用名詞、以及權(quán)重排序在前的關(guān)鍵詞等,所述實(shí)體詞、短語(yǔ)可以是基于現(xiàn)有語(yǔ)言詞典來(lái)劃分,具體的也可以根據(jù)需要進(jìn)行調(diào)整或修正。

本發(fā)明中,從單句的分詞結(jié)果中挑選實(shí)體詞和短語(yǔ)時(shí),是依照實(shí)體詞和短語(yǔ)的權(quán)重排序,然后挑選權(quán)重最高的N個(gè)實(shí)體詞和短語(yǔ)。

其中,所述實(shí)體詞和短語(yǔ)每一個(gè)分別預(yù)定有一個(gè)相應(yīng)的權(quán)重值,在分詞后本發(fā)明方法可自動(dòng)按預(yù)定的實(shí)體詞與短評(píng)的權(quán)重值進(jìn)行排序,從而形成一個(gè)由高到低的實(shí)體詞和短語(yǔ)的權(quán)重排序,這樣方便后續(xù)選出N個(gè)相應(yīng)的實(shí)體詞和短語(yǔ),其中,N為自然數(shù)。

具體實(shí)現(xiàn)上時(shí),可以是通過(guò)分詞后在分詞結(jié)果中直接將選出的實(shí)體詞和短語(yǔ)按權(quán)重排序。

具體的,分詞結(jié)果會(huì)提供每個(gè)分詞的詞性、權(quán)重和其他屬性,如地名屬性與人名屬性等;對(duì)于名詞,會(huì)標(biāo)明該詞是人名或者地名等屬性,對(duì)于 “十三五”等形式的文本,會(huì)表示該文本是否為短語(yǔ)。這樣對(duì)于分詞結(jié)果,就可以從分詞中挑選相應(yīng)的實(shí)體詞和短語(yǔ),并依據(jù)權(quán)重排序。

例如,一段資訊文本:“十三五”是科技創(chuàng)新在房地產(chǎn)行業(yè)突破的關(guān)鍵期,要推進(jìn)住宅產(chǎn)業(yè)化和新型建造,為老百姓建造長(zhǎng)壽命、好性能、綠色低碳的百年住宅。應(yīng)用本發(fā)明方法分詞后,其分詞結(jié)果為見(jiàn)圖2所示。

分詞后,在分詞結(jié)果中見(jiàn)圖2,每一個(gè)分詞被賦予一個(gè)權(quán)重值,如科技為0.002,創(chuàng)新為0.003,關(guān)鍵為0.002,進(jìn)行權(quán)重排序后結(jié)果見(jiàn)圖2中右列,按分詞的結(jié)果進(jìn)行排序,形成1、2、3……的排序順序,如老百姓權(quán)重為0.149,則排在第一位,其次是房地產(chǎn),權(quán)重為0.088,再次為建造0.007,其它非實(shí)體詞或短語(yǔ)的權(quán)重為0,這樣,實(shí)現(xiàn)了將對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;方便從每一單句的實(shí)體詞與短語(yǔ)中選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ)進(jìn)行處理。

本發(fā)明的目的還在于提供一種文本內(nèi)容顯著性區(qū)域的局部特征抽取系統(tǒng),參見(jiàn)圖3所示,包括:

單句挑選模塊,用于按預(yù)設(shè)挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個(gè)單句;

分詞模塊,用于對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;

分詞結(jié)果選擇模塊,用于從每一單句的實(shí)體詞與短語(yǔ)中選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ);

合并模塊,用于將每一單句中選出的N個(gè)實(shí)體詞和短語(yǔ)按漢語(yǔ)拼音序排序,分別合并成一長(zhǎng)文本;

單句局部特征計(jì)算模塊,用于計(jì)算每一單句的長(zhǎng)文本的 crc64,作為每一單句的的局部特征;

文本局部特征形成模塊,用于將所述M個(gè)單句的局部特征合并成一個(gè)特征集,作為該資訊文本的局部特征。

關(guān)于文本內(nèi)容顯著性區(qū)域的局部特征抽取系統(tǒng)的詳細(xì)說(shuō)明及實(shí)施方式,請(qǐng)?jiān)敿?xì)見(jiàn)本說(shuō)明書(shū)中關(guān)于文本內(nèi)容顯著性區(qū)域的局部特征抽取方法的說(shuō)明,對(duì)此文本內(nèi)容顯著性區(qū)域的局部特征抽取系統(tǒng),本說(shuō)明書(shū)對(duì)此不再進(jìn)行說(shuō)明。

本發(fā)明對(duì)語(yǔ)料庫(kù)建設(shè)規(guī)模和稀疏數(shù)據(jù)問(wèn)題具有較高的魯棒性和穩(wěn)定性:通過(guò)將一篇文本內(nèi)容轉(zhuǎn)換成M個(gè)crc64字符表示,有利于創(chuàng)建基于單句的內(nèi)容檢索系統(tǒng)和基于內(nèi)容的局部特征集的內(nèi)容消重系統(tǒng)。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1