亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種針對(duì)長(zhǎng)文本的相似性判定方法與流程

文檔序號(hào):11950238閱讀:1706來(lái)源:國(guó)知局

本發(fā)明涉及信息技術(shù)領(lǐng)域,特別是一種針對(duì)長(zhǎng)文本的相似性判定方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)的發(fā)展和信息時(shí)代的到來(lái),人們從互聯(lián)網(wǎng)獲取信息資源已經(jīng)成為一種非常重要的途徑?;ヂ?lián)網(wǎng)成為人們溝通、交流的重要平臺(tái),每天互聯(lián)網(wǎng)會(huì)產(chǎn)生大量的信息資源,而這些資源信息的內(nèi)容在很大程度上都是重復(fù)和相似的。據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)表明,互聯(lián)網(wǎng)上近似重復(fù)的網(wǎng)頁(yè)的數(shù)量占網(wǎng)頁(yè)總數(shù)量的比例高達(dá)29%,在一個(gè)大型的信息采集系統(tǒng)中,采集到的網(wǎng)頁(yè)信息內(nèi)容有大多數(shù)完全重復(fù)或近似重復(fù)的。所以,在一個(gè)信息采集系統(tǒng)中,判斷文本內(nèi)容相似成為一個(gè)很重要的環(huán)節(jié),該發(fā)明就是提供了一個(gè)簡(jiǎn)單而有效文本相似判定方法用于信息采集系統(tǒng)中對(duì)文本內(nèi)容進(jìn)行相似判定,便于系統(tǒng)信息進(jìn)行分組歸類整合。

中國(guó)發(fā)明專利CN 103389987 A文本相似性比較方法,首先提取各待分析文件的各特征向量及各特征向量的值;然后將各待分析文件的特征向量進(jìn)行削峰處理,即將各待分析文件的排序最高的一個(gè)或多個(gè)特征向量移除;再根據(jù)經(jīng)削峰處理后的各待分析文件的各特征向量的值,得到各待分析文件間的相似度。此發(fā)明不是針對(duì)長(zhǎng)文本的相似性進(jìn)行判定的。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明需要解決的技術(shù)問(wèn)題是提供一種針對(duì)長(zhǎng)文本的實(shí)時(shí)高效的文檔相似性判定方法。

為解決上述的技術(shù)問(wèn)題,本發(fā)明的一種針對(duì)長(zhǎng)文本的相似性判定方法,包括以下步驟,

步驟S101:文本語(yǔ)句片段分割,根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語(yǔ)句片段分割;

步驟S102:長(zhǎng)句組合,將文本分割后的長(zhǎng)句片段進(jìn)行隨意組合;

步驟S103:文本相似性判斷,判斷待分析文本的長(zhǎng)句組合是否出現(xiàn)相同的集合;如果是,則待分析文本內(nèi)容相似;如果否,則待分析文本內(nèi)容不相似。

進(jìn)一步的,所述步驟S102長(zhǎng)句組合,具體包括以下步驟,

步驟S1021:排序篩選,對(duì)文本內(nèi)容分割后的語(yǔ)句片段進(jìn)行長(zhǎng)句排序篩選,選擇特定數(shù)量的長(zhǎng)句片段形成集合;

步驟S1022:唯一特征值計(jì)算,針對(duì)排序篩選形成的集合進(jìn)行唯一特征值計(jì)算,形成唯一特征值集合;

步驟S1023:唯一特征值隨意組合,在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值,形成唯一特征值隨意選取集合。

更進(jìn)一步的,所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合中的唯一特征值進(jìn)行對(duì)比,如果唯一特征值相同,則待分析文本內(nèi)容相似;如果唯一特征值不同,則待分析文本內(nèi)容不相似。

更進(jìn)一步的,步驟S1021中選擇長(zhǎng)句片段的特定數(shù)量為n,步驟S1023中隨意選取唯一特征值的特定數(shù)量為m,形成的唯一特征值隨意選取集合總數(shù)量為C(n,m)=n!/((n-m)!*m!)。

采用上述方法后,本發(fā)明計(jì)算簡(jiǎn)單,容易實(shí)現(xiàn),大大減少時(shí)間、空間計(jì)算復(fù)雜度;相對(duì)于其他相似判定方法,對(duì)于數(shù)據(jù)量大的采集系統(tǒng)是一種簡(jiǎn)潔而非常有效的文本相似判定方法。

附圖說(shuō)明

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。

圖1為本發(fā)明一種針對(duì)長(zhǎng)文本的相似性判定方法的流程圖。

具體實(shí)施方式

如圖1所示,本發(fā)明的一種針對(duì)長(zhǎng)文本的相似性判定方法,包括以下步驟,

步驟S101:文本語(yǔ)句片段分割,根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語(yǔ)句片段分割。本實(shí)施方式中,以待分析的文本A、B為例,由于文本內(nèi)容長(zhǎng)度不一,句子、段落很多,提取語(yǔ)句片段非常關(guān)鍵,不同的規(guī)則分成的語(yǔ)句片段也不同,因此統(tǒng)一采用指定的規(guī)則進(jìn)行內(nèi)容分割成語(yǔ)句片段。待分析文本A、B分割后的語(yǔ)句片段集合分別為C、D。

步驟S102:長(zhǎng)句組合,將文本分割后的長(zhǎng)句片段進(jìn)行隨意組合;具體包括以下步驟,

步驟S1021:排序篩選,對(duì)文本內(nèi)容分割后的語(yǔ)句片段集合分別為C、D進(jìn)行長(zhǎng)句排序篩選,選擇特定數(shù)量的長(zhǎng)句片段形成集合E、F,本實(shí)施方式中長(zhǎng)句片段的特定數(shù)量為n。長(zhǎng)句片段選擇的數(shù)量是隨意選擇的,選擇的數(shù)量越大組合越多,這個(gè)是根據(jù)需要可以調(diào)控選擇的,本實(shí)施方式中選擇的數(shù)量n取4。

步驟S1022:唯一特征值計(jì)算,針對(duì)排序篩選形成的長(zhǎng)句片段集合E、F進(jìn)行唯一特征值計(jì)算,形成唯一特征值集合G、H。唯一特征值計(jì)算,是為了保持?jǐn)?shù)據(jù)的唯一性。

步驟S1023:唯一特征值隨意組合,在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值,形成唯一特征值隨意選取集合I、J。這個(gè)特定的數(shù)量也是可以隨意選擇的,數(shù)量越大說(shuō)明相似度的閾值越高,數(shù)量越小相似度的閾值越低,即兩文本中的相似度達(dá)到該閾值才判定兩篇文本相似。該取值與長(zhǎng)句片段的數(shù)量n有關(guān)系,本實(shí)施方式中特定數(shù)量m為3。進(jìn)行組合得到的唯一特征值集合總數(shù)量計(jì)算公式C(n,m)=n!/((n-m)!*m!)。

步驟S103:文本相似性判斷,判斷待分析文本的長(zhǎng)句組合是否出現(xiàn)相同的集合;如果是,則待分析文本內(nèi)容相似;如果否,則待分析文本內(nèi)容不相似。本實(shí)施方式中,判斷的是集合中唯一特征值是否相同。所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合I、J中的唯一特征值進(jìn)行對(duì)比,如果唯一特征值相同,則待分析文本內(nèi)容相似;如果唯一特征值不同,則待分析文本內(nèi)容不相似。

雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域熟練技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,可以對(duì)本實(shí)施方式做出多種變更或修改,而不背離發(fā)明的原理和實(shí)質(zhì),本發(fā)明的保護(hù)范圍僅由所附權(quán)利要求書限定。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1