一種針對(duì)長(zhǎng)文本的相似性判定方法與流程

文檔序號(hào)：11950238閱讀：1706來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息技術(shù)領(lǐng)域，特別是一種針對(duì)長(zhǎng)文本的相似性判定方法。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的發(fā)展和信息時(shí)代的到來(lái)，人們從互聯(lián)網(wǎng)獲取信息資源已經(jīng)成為一種非常重要的途徑?；ヂ?lián)網(wǎng)成為人們溝通、交流的重要平臺(tái)，每天互聯(lián)網(wǎng)會(huì)產(chǎn)生大量的信息資源，而這些資源信息的內(nèi)容在很大程度上都是重復(fù)和相似的。據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)表明，互聯(lián)網(wǎng)上近似重復(fù)的網(wǎng)頁(yè)的數(shù)量占網(wǎng)頁(yè)總數(shù)量的比例高達(dá)29%，在一個(gè)大型的信息采集系統(tǒng)中，采集到的網(wǎng)頁(yè)信息內(nèi)容有大多數(shù)完全重復(fù)或近似重復(fù)的。所以，在一個(gè)信息采集系統(tǒng)中，判斷文本內(nèi)容相似成為一個(gè)很重要的環(huán)節(jié)，該發(fā)明就是提供了一個(gè)簡(jiǎn)單而有效文本相似判定方法用于信息采集系統(tǒng)中對(duì)文本內(nèi)容進(jìn)行相似判定，便于系統(tǒng)信息進(jìn)行分組歸類整合。

中國(guó)發(fā)明專利CN 103389987 A文本相似性比較方法，首先提取各待分析文件的各特征向量及各特征向量的值；然后將各待分析文件的特征向量進(jìn)行削峰處理，即將各待分析文件的排序最高的一個(gè)或多個(gè)特征向量移除；再根據(jù)經(jīng)削峰處理后的各待分析文件的各特征向量的值，得到各待分析文件間的相似度。此發(fā)明不是針對(duì)長(zhǎng)文本的相似性進(jìn)行判定的。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明需要解決的技術(shù)問(wèn)題是提供一種針對(duì)長(zhǎng)文本的實(shí)時(shí)高效的文檔相似性判定方法。

為解決上述的技術(shù)問(wèn)題，本發(fā)明的一種針對(duì)長(zhǎng)文本的相似性判定方法，包括以下步驟，

步驟S101：文本語(yǔ)句片段分割，根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語(yǔ)句片段分割；

步驟S102：長(zhǎng)句組合，將文本分割后的長(zhǎng)句片段進(jìn)行隨意組合；

步驟S103：文本相似性判斷，判斷待分析文本的長(zhǎng)句組合是否出現(xiàn)相同的集合；如果是，則待分析文本內(nèi)容相似；如果否，則待分析文本內(nèi)容不相似。

進(jìn)一步的，所述步驟S102長(zhǎng)句組合，具體包括以下步驟，

步驟S1021：排序篩選，對(duì)文本內(nèi)容分割后的語(yǔ)句片段進(jìn)行長(zhǎng)句排序篩選，選擇特定數(shù)量的長(zhǎng)句片段形成集合；

步驟S1022：唯一特征值計(jì)算，針對(duì)排序篩選形成的集合進(jìn)行唯一特征值計(jì)算，形成唯一特征值集合；

步驟S1023：唯一特征值隨意組合，在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值，形成唯一特征值隨意選取集合。

更進(jìn)一步的，所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合中的唯一特征值進(jìn)行對(duì)比，如果唯一特征值相同，則待分析文本內(nèi)容相似；如果唯一特征值不同，則待分析文本內(nèi)容不相似。

更進(jìn)一步的，步驟S1021中選擇長(zhǎng)句片段的特定數(shù)量為n，步驟S1023中隨意選取唯一特征值的特定數(shù)量為m，形成的唯一特征值隨意選取集合總數(shù)量為C(n,m)=n!/((n-m)!*m!)。

采用上述方法后，本發(fā)明計(jì)算簡(jiǎn)單，容易實(shí)現(xiàn)，大大減少時(shí)間、空間計(jì)算復(fù)雜度；相對(duì)于其他相似判定方法，對(duì)于數(shù)據(jù)量大的采集系統(tǒng)是一種簡(jiǎn)潔而非常有效的文本相似判定方法。

附圖說(shuō)明

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。

圖1為本發(fā)明一種針對(duì)長(zhǎng)文本的相似性判定方法的流程圖。

具體實(shí)施方式

如圖1所示，本發(fā)明的一種針對(duì)長(zhǎng)文本的相似性判定方法，包括以下步驟，

步驟S101：文本語(yǔ)句片段分割，根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語(yǔ)句片段分割。本實(shí)施方式中，以待分析的文本A、B為例，由于文本內(nèi)容長(zhǎng)度不一，句子、段落很多，提取語(yǔ)句片段非常關(guān)鍵，不同的規(guī)則分成的語(yǔ)句片段也不同，因此統(tǒng)一采用指定的規(guī)則進(jìn)行內(nèi)容分割成語(yǔ)句片段。待分析文本A、B分割后的語(yǔ)句片段集合分別為C、D。

步驟S102：長(zhǎng)句組合，將文本分割后的長(zhǎng)句片段進(jìn)行隨意組合；具體包括以下步驟，

步驟S1021：排序篩選，對(duì)文本內(nèi)容分割后的語(yǔ)句片段集合分別為C、D進(jìn)行長(zhǎng)句排序篩選，選擇特定數(shù)量的長(zhǎng)句片段形成集合E、F，本實(shí)施方式中長(zhǎng)句片段的特定數(shù)量為n。長(zhǎng)句片段選擇的數(shù)量是隨意選擇的，選擇的數(shù)量越大組合越多，這個(gè)是根據(jù)需要可以調(diào)控選擇的，本實(shí)施方式中選擇的數(shù)量n取4。

步驟S1022：唯一特征值計(jì)算，針對(duì)排序篩選形成的長(zhǎng)句片段集合E、F進(jìn)行唯一特征值計(jì)算，形成唯一特征值集合G、H。唯一特征值計(jì)算，是為了保持?jǐn)?shù)據(jù)的唯一性。

步驟S1023：唯一特征值隨意組合，在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值，形成唯一特征值隨意選取集合I、J。這個(gè)特定的數(shù)量也是可以隨意選擇的，數(shù)量越大說(shuō)明相似度的閾值越高，數(shù)量越小相似度的閾值越低，即兩文本中的相似度達(dá)到該閾值才判定兩篇文本相似。該取值與長(zhǎng)句片段的數(shù)量n有關(guān)系，本實(shí)施方式中特定數(shù)量m為3。進(jìn)行組合得到的唯一特征值集合總數(shù)量計(jì)算公式C(n,m)=n!/((n-m)!*m!)。

步驟S103：文本相似性判斷，判斷待分析文本的長(zhǎng)句組合是否出現(xiàn)相同的集合；如果是，則待分析文本內(nèi)容相似；如果否，則待分析文本內(nèi)容不相似。本實(shí)施方式中，判斷的是集合中唯一特征值是否相同。所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合I、J中的唯一特征值進(jìn)行對(duì)比，如果唯一特征值相同，則待分析文本內(nèi)容相似；如果唯一特征值不同，則待分析文本內(nèi)容不相似。

雖然以上描述了本發(fā)明的具體實(shí)施方式，但是本領(lǐng)域熟練技術(shù)人員應(yīng)當(dāng)理解，這些僅是舉例說(shuō)明，可以對(duì)本實(shí)施方式做出多種變更或修改，而不背離發(fā)明的原理和實(shí)質(zhì)，本發(fā)明的保護(hù)范圍僅由所附權(quán)利要求書限定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐義晴;黃三偉;
技術(shù)所有人：湖南蟻坊軟件有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本相似性相關(guān)技術(shù)

文本相似性計(jì)算相關(guān)技術(shù)

短文本相似性相關(guān)技術(shù)

文本相似性算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種針對(duì)長(zhǎng)文本的相似性判定方法與流程