亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本相似性的比較方法以及裝置的制造方法

文檔序號:9865492閱讀:548來源:國知局
一種文本相似性的比較方法以及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種信息的相似性的比較方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和日益普及,新聞等文本信息用戶所面對的信息量正在以驚人的速度增長,對能夠方便地獲取自己感興趣的文本信息的需求越來越迫切。
[0003]由于文本信息量急速增加,文本類別越發(fā)細化,并具有很強的實時性,往往更新迅速,時效極短,因此對文本進行有效的聚類,以提供給不同的用戶或者提供給不同的應(yīng)用是十分重要的。
[0004]現(xiàn)有技術(shù)中,首先提取文本的特征向量,再根據(jù)不同文本特征向量比較文本的相似性。例如某一文本,提取的特征向量為(馬伊俐新片尺度大職場御姐范兒就得這么穿),另一文本提取的特征向量為(歐美風(fēng)服飾搭配晉級職場御姐范兒),通過比較兩個特征向量可以確定兩個文本的相似性。
[0005]然而,現(xiàn)有技術(shù)比較文本相似性時,并不考慮文本特征向量中字詞元素的重要性,因此,可能會將在實際上大眾不會同時感興趣的兩個文本信息聚類到一起。
[0006]但是,現(xiàn)有的最小哈希算法用于對文本信息進行聚類時,并不考慮文本中每一個字詞元素的重要性,因此,可能會將在實際上大眾不會同時感興趣的兩個文本信息聚類到一起。

【發(fā)明內(nèi)容】

[0007]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的一種文本相似性的比較方法和裝置。
[0008]根據(jù)本發(fā)明的一個方面,提供了一種文本相似性的比較方法,包括:提取兩個以上文本的初始特征向量;初始特征向量中至少一個元素的權(quán)重值被賦予最小權(quán)重值的倍數(shù)值,其他元素的權(quán)重值被賦予最小權(quán)重值;根據(jù)倍數(shù)在初始特征向量中增加相應(yīng)元素形成新的特征向量;根據(jù)新的特征向量,比較兩個以上文本的相似性。
[0009]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,根據(jù)新的特征向量,比較兩個以上文本的相似性具體為:對新的特征向量進行最小哈希運算,根據(jù)運算結(jié)果比較兩個以上文本的相似性。
[0010]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,根據(jù)新的特征向量,比較兩個以上文本的相似性具體為:根據(jù)新的特征向量之間的內(nèi)積或夾角的余弦比較所述兩個以上文本的相似性。
[0011 ]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,將文本進行分詞處理,進一步進行去無用信息處理后形成初始特征向量。
[0012]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,將文本進行分詞處理并去無用信息形成字詞序列,根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞,由前至后取出預(yù)設(shè)數(shù)量的字詞形成初始特征向量。
[0013]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,計算初始特征向量中每一個元素的字詞頻率,字詞頻率為元素在文本中出現(xiàn)的次數(shù),根據(jù)字詞頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素,最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0014]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,計算初始特征向量中每一個元素的文檔頻率,文檔頻率為包括了元素的文本數(shù)量,逆文檔頻率為與文檔頻率呈反比的函數(shù)值,根據(jù)逆文檔頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素,最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0015]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,計算初始特征向量中每一個元素的字詞頻率以及逆文檔頻率,根據(jù)計算得到的字詞頻率以及逆文檔頻率確定特征向量的最小權(quán)重值及其對應(yīng)的元素,最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0016]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,根據(jù)初始特征向量中每一個元素在文本中所處的位置確定元素的權(quán)重值。
[0017]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中,位置包括文本標(biāo)題,文本摘要,文本正文。
[0018]根據(jù)本發(fā)明的另一個方面,提供了一種文本相似性的比較裝置,包括:提取裝置,用于提取兩個以上文本的初始特征向量;賦值裝置,用于將最小權(quán)重值的倍數(shù)值作為權(quán)重值賦予所述初始特征向量中至少一個元素,其他元素的權(quán)重值被賦予最小權(quán)重值;特征向量變換裝置,用于根據(jù)所述倍數(shù)在初始特征向量中增加相應(yīng)元素形成新的特征向量;相似性比較裝置,用于根據(jù)所述新的特征向量,比較所述兩個以上文本的相似性。
[0019]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,相似性比較裝置,用于對新的特征向量進行最小哈希運算,根據(jù)運算結(jié)果比較所述兩個以上文本的相似性。
[0020]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,相似性比較裝置,用于根據(jù)新的特征向量之間的內(nèi)積或夾角的余弦比較兩個以上文本的相似性。
[0021]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,提取裝置,用于將文本進行分詞處理,進一步進行去無用信息處理后形成初始特征向量。
[0022]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,提取裝置,用于將文本進行分詞處理并去無用信息形成字詞序列,根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞,由前至后取出預(yù)設(shè)數(shù)量的字詞形成初始特征向量。
[0023]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,賦值裝置,用于計算初始特征向量中每一個元素的字詞頻率,字詞頻率為元素在文本中出現(xiàn)的次數(shù),根據(jù)字詞頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素,最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0024]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,賦值裝置,用于計算初始特征向量中每一個元素的文檔頻率,文檔頻率為包括了元素的文本數(shù)量,逆文檔頻率為與文檔頻率呈反比的函數(shù)值,根據(jù)逆文檔頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素,最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0025]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,賦值裝置,用于計算初始特征向量中每一個元素的字詞頻率以及逆文檔頻率,根據(jù)計算得到的字詞頻率以及逆文檔頻率確定特征向量的最小權(quán)重值及其對應(yīng)的元素,最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0026]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,賦值裝置,用于根據(jù)初始特征向量中每一個元素在文本中所處的位置確定元素的權(quán)重值。
[0027]可選地,在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中,位置包括文本標(biāo)題,文本摘要,文本正文。
[0028]本發(fā)明的有益效果為:能夠提高文本信息表示的準(zhǔn)確度,使得相似性的比較結(jié)果更符合用戶的需要。
[0029]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0030]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0031]圖1示意性示出了根據(jù)本發(fā)明一個實施例的文本相似性的比較方法的流程圖;
[0032]圖2示意性示出了根據(jù)本發(fā)明一個
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1