一種文本相似性的比較方法以及裝置的制造方法

文檔序號：9865492閱讀：548來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本相似性的比較方法以及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，尤其涉及一種信息的相似性的比較方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和日益普及，新聞等文本信息用戶所面對的信息量正在以驚人的速度增長，對能夠方便地獲取自己感興趣的文本信息的需求越來越迫切。
[0003]由于文本信息量急速增加，文本類別越發(fā)細化，并具有很強的實時性，往往更新迅速，時效極短，因此對文本進行有效的聚類，以提供給不同的用戶或者提供給不同的應(yīng)用是十分重要的。
[0004]現(xiàn)有技術(shù)中，首先提取文本的特征向量，再根據(jù)不同文本特征向量比較文本的相似性。例如某一文本，提取的特征向量為(馬伊俐新片尺度大職場御姐范兒就得這么穿)，另一文本提取的特征向量為(歐美風(fēng)服飾搭配晉級職場御姐范兒)，通過比較兩個特征向量可以確定兩個文本的相似性。
[0005]然而，現(xiàn)有技術(shù)比較文本相似性時，并不考慮文本特征向量中字詞元素的重要性，因此，可能會將在實際上大眾不會同時感興趣的兩個文本信息聚類到一起。
[0006]但是，現(xiàn)有的最小哈希算法用于對文本信息進行聚類時，并不考慮文本中每一個字詞元素的重要性，因此，可能會將在實際上大眾不會同時感興趣的兩個文本信息聚類到一起。

【發(fā)明內(nèi)容】

[0007]鑒于上述問題，提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的一種文本相似性的比較方法和裝置。
[0008]根據(jù)本發(fā)明的一個方面，提供了一種文本相似性的比較方法，包括:提取兩個以上文本的初始特征向量;初始特征向量中至少一個元素的權(quán)重值被賦予最小權(quán)重值的倍數(shù)值，其他元素的權(quán)重值被賦予最小權(quán)重值;根據(jù)倍數(shù)在初始特征向量中增加相應(yīng)元素形成新的特征向量;根據(jù)新的特征向量，比較兩個以上文本的相似性。
[0009]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，根據(jù)新的特征向量，比較兩個以上文本的相似性具體為:對新的特征向量進行最小哈希運算，根據(jù)運算結(jié)果比較兩個以上文本的相似性。
[0010]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，根據(jù)新的特征向量，比較兩個以上文本的相似性具體為:根據(jù)新的特征向量之間的內(nèi)積或夾角的余弦比較所述兩個以上文本的相似性。
[0011 ]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，將文本進行分詞處理，進一步進行去無用信息處理后形成初始特征向量。
[0012]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，將文本進行分詞處理并去無用信息形成字詞序列，根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞，由前至后取出預(yù)設(shè)數(shù)量的字詞形成初始特征向量。
[0013]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，計算初始特征向量中每一個元素的字詞頻率，字詞頻率為元素在文本中出現(xiàn)的次數(shù)，根據(jù)字詞頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素，最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0014]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，計算初始特征向量中每一個元素的文檔頻率，文檔頻率為包括了元素的文本數(shù)量，逆文檔頻率為與文檔頻率呈反比的函數(shù)值，根據(jù)逆文檔頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素，最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0015]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，計算初始特征向量中每一個元素的字詞頻率以及逆文檔頻率，根據(jù)計算得到的字詞頻率以及逆文檔頻率確定特征向量的最小權(quán)重值及其對應(yīng)的元素，最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0016]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，根據(jù)初始特征向量中每一個元素在文本中所處的位置確定元素的權(quán)重值。
[0017]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較方法中，位置包括文本標(biāo)題，文本摘要，文本正文。
[0018]根據(jù)本發(fā)明的另一個方面，提供了一種文本相似性的比較裝置，包括:提取裝置，用于提取兩個以上文本的初始特征向量;賦值裝置，用于將最小權(quán)重值的倍數(shù)值作為權(quán)重值賦予所述初始特征向量中至少一個元素，其他元素的權(quán)重值被賦予最小權(quán)重值;特征向量變換裝置，用于根據(jù)所述倍數(shù)在初始特征向量中增加相應(yīng)元素形成新的特征向量;相似性比較裝置，用于根據(jù)所述新的特征向量，比較所述兩個以上文本的相似性。
[0019]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，相似性比較裝置，用于對新的特征向量進行最小哈希運算，根據(jù)運算結(jié)果比較所述兩個以上文本的相似性。
[0020]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，相似性比較裝置，用于根據(jù)新的特征向量之間的內(nèi)積或夾角的余弦比較兩個以上文本的相似性。
[0021]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，提取裝置，用于將文本進行分詞處理，進一步進行去無用信息處理后形成初始特征向量。
[0022]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，提取裝置，用于將文本進行分詞處理并去無用信息形成字詞序列，根據(jù)字詞序列中字詞出現(xiàn)頻率由高到低的順序排列字詞，由前至后取出預(yù)設(shè)數(shù)量的字詞形成初始特征向量。
[0023]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，賦值裝置，用于計算初始特征向量中每一個元素的字詞頻率，字詞頻率為元素在文本中出現(xiàn)的次數(shù)，根據(jù)字詞頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素，最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0024]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，賦值裝置，用于計算初始特征向量中每一個元素的文檔頻率，文檔頻率為包括了元素的文本數(shù)量，逆文檔頻率為與文檔頻率呈反比的函數(shù)值，根據(jù)逆文檔頻率確定初始特征向量的最小權(quán)重值及其對應(yīng)的元素，最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0025]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，賦值裝置，用于計算初始特征向量中每一個元素的字詞頻率以及逆文檔頻率，根據(jù)計算得到的字詞頻率以及逆文檔頻率確定特征向量的最小權(quán)重值及其對應(yīng)的元素，最小權(quán)重值的倍數(shù)權(quán)重值及其對應(yīng)的元素。
[0026]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，賦值裝置，用于根據(jù)初始特征向量中每一個元素在文本中所處的位置確定元素的權(quán)重值。
[0027]可選地，在根據(jù)本發(fā)明的實施例的文本相似性的比較裝置中，位置包括文本標(biāo)題，文本摘要，文本正文。
[0028]本發(fā)明的有益效果為:能夠提高文本信息表示的準(zhǔn)確度，使得相似性的比較結(jié)果更符合用戶的需要。
[0029]上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0030]通過閱讀下文優(yōu)選實施方式的詳細描述，各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的，而并不認為是對本發(fā)明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中:
[0031]圖1示意性示出了根據(jù)本發(fā)明一個實施例的文本相似性的比較方法的流程圖；
[0032]圖2示意性示出了根據(jù)本發(fā)明一個

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張伸正;魏少俊;陳培軍;
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本相似性相關(guān)技術(shù)

文本相似性算法相關(guān)技術(shù)

短文本相似性相關(guān)技術(shù)

文本相似性計算相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本相似性的比較方法以及裝置的制造方法