一種文本相似性比對方法與流程

文檔序號：11620541閱讀：361來源：國知局

本發(fā)明涉及網絡作品比對技術領域，尤其涉及一種文本相似性比對方法。

背景技術：

目前，隨著互聯(lián)網技術的迅速發(fā)展，網絡作品的傳播速度越來越快，傳播范圍越來越廣泛，對網絡作品的侵權行為也越來越多，為了解決通過網絡發(fā)生的作品侵權行為，可以使用網絡侵權追蹤開發(fā)平臺對作品進行監(jiān)測追蹤。

在追蹤的過程中，主要是使用網絡爬蟲技術，首先從互聯(lián)網上抓取作品，然后與網絡侵權追蹤開發(fā)平臺的作品庫中存儲的作品進行內容相似性比對，從而確認網絡作品是否為侵權作品。

其中，網絡爬蟲(又被稱為網頁蜘蛛，網絡機器人，在foaf社區(qū)中間，更經常被稱為網頁追逐者)，是一種按照一定的規(guī)則，自動的抓取萬維網信息的程序或者腳本，已被廣泛應用于互聯(lián)網領域。搜索引擎使用網絡爬蟲抓取web網頁、文檔甚至圖片、音頻、視頻等資源，通過相應的索引技術組織這些信息，提供給搜索用戶進行查詢。隨著網絡的迅速發(fā)展，不斷優(yōu)化的網絡爬蟲技術正在有效地應對各種挑戰(zhàn)，為高效搜索用戶關注的特定領域與主題提供了有力支撐。網絡爬蟲也為中小站點的推廣提供了有效的途徑。

而在進行內容相似性比對時，由于作品庫中有上千萬的作品，網絡侵權追蹤開發(fā)平臺從互聯(lián)網上抓取的作品數(shù)量更是作品庫中作品數(shù)量的幾百倍以上，因此，兩兩相比的次數(shù)龐大，工作量大，效率及準確率均比較低。

技術實現(xiàn)要素：

本發(fā)明的目的在于提供一種文本相似性比對方法，從而解決現(xiàn)有技術中存在的前述問題。

為了實現(xiàn)上述目的，本發(fā)明采用的技術方案如下：

一種文本相似性比對方法，包括如下步驟：

s1，以文檔為粗粒度，根據詞的淺層次相似度從注冊作品庫中篩選出相似度最大的n個作品形成候選作品集，其中，n為自然數(shù)；

s2，對所述候選作品集中的每個作品進行文本分段，得到分段文本；

s3，以所述分段文本為細粒度，進行文本細粒度相似度比對。

進一步地，s1之前還包括步驟s0：對所述文檔進行分詞和詞性標注。

進一步地，s0和s1之間還包括步驟：對所述分詞進行過濾處理。

優(yōu)選地，所述對所述分詞進行過濾處理，采用插件式過濾鏈，所述插件式過濾鏈包括停用詞過濾器和/或同義詞過濾器。

優(yōu)選地，s1中，所述詞的淺層次相似度，采用如下公式進行計算：

sim(d1,d2)＝count(d1∩d2)/(count(d1)+count(d2))，

式中，

d＝{w1,w2,w3…}表示文檔，

wi表示文檔d中的詞，

d1∩d2表示文檔d1、d2中詞的交集，

count(di)表示文檔di中詞的個數(shù)。

優(yōu)選地，s2中，所述文本分段包括如下方式：以段落分段、以一定數(shù)量的字詞分段或以句子分段。

優(yōu)選地，s3中所述文本細粒度相似度由：基于句子的淺層相似度、信息熵相似度和淺語義相似度組成和計算得到，具體地，

當所述基于句子的淺層相似度，采用如下公式進行計算：

simsha(s1，s2)＝count(s1∩s2)/(count(s1)+count(s2))，

式中，

simsha(s1，s2)表示基于句子的淺層相似度，

s＝{w1,w2,w3…}表示句子，

wi表示句子s中的詞，

s1∩s2表示句子s1、s2中詞的交集，

count(si)表示句子si中詞的個數(shù)；

當所述信息熵相似度，采用如下公式進行計算：

siment(s1，s2)＝∑(e(wi)),e(w)＝log(n/n),

式中，

siment(s1，s2)表示信息熵相似度，

s＝{w1,w2,w3…}表示句子，

wi∈s1∩s2，

s1∩s2表示句子s1、s2中詞的交集，

n表示候選文檔集中句子的總數(shù)，

n表示包含詞w的句子數(shù)；

當所述淺語義相似度，包括詞義相似度、句子語義相似度和句子細粒度相似度，

其中，詞義相似度采用如下公式進行計算：

simsemw(w1，w2)＝f(simlex(w1，w2)，simpos(w1，w2)，simcon(w1，w2))＝simlex(w1，w2)·simpos(w1，w2)·simcon(w1，w2)，

式中，

simsemw(w1，w2)表示詞義相似度，

simlex(w1，w2)、simpos(w1，w2)、simcon(w1，w2)分別表示詞w1與w2的詞匯相似度、詞性相似度、詞上下文相似度，

simlex(w1，w2)是詞w1和w2對應的義原在義原樹上的距離；

simpos(w1，w2)取值：當w1與w2詞性相同時，取值為1；當w1與w2詞性不相同時，取值為0；

simcon(w1，w2)＝abs(pos1/n1-pos2/n2)，其中，pos1、pos2分別是w1、w2在相應句中的位置，n1、n2是w1、w2所在句子的長度；

句子語義相似度采用如下公式進行計算：

simsems(s1，s2)＝2·∑0≤i＜len(s1)argmax{simsemw(wi，wj):0≤j＜len(s2)}/(len(s1)+len(s2))，

式中，

simsems(s1，s2)表示句子語義相似度，

argmax表示尋找具有最大評分的參量，函數(shù)argmax{f(x,y):x∈x}，表示x∈x，使f(x,y)達到最大值時的取值，

len(s)是句子s的長度，即詞語個數(shù)；

則，所述句子細粒度相似度采用如下公式進行計算：

similarity(s1，s2)

＝α·simsha(s1，s2)+β·siment(s1，s2)+γ·simsems(s1，s2)

式中，

α、β、γ為權值參數(shù)，且α+β+γ＝1；

假設所述分段文本為句子，則所述文本細粒度相似度為：

similarity(d1，d2)＝∑wk·segsimilarity(sk，sj)，

segsimilarity(sk，sj)＝max(similarity(sk，si))，

其中，

similarity(d1，d2)表示文本細粒度相似度，

similarity(sk，si)表示句子細粒度相似度，

sk是第一文檔中的句子，si是第二文檔中的句子，1≤i≤n2，n2為第二文檔中中句子數(shù)，j是第二文檔中similarity(sk，si)取得最大值時的i值，

wk是與sk相關的權重，一般可以簡化為1/n，n是文檔的句子總數(shù)。

本發(fā)明的有益效果是：本發(fā)明實施例中，文本相似性比對在系統(tǒng)的架構上采用分布式架構，在比對算法上采用多粒度分層算法，包括以文檔為粗粒度的相似度比對，以及以分段文本為細粒度的相似度比對，從而在內容相似性比對的效率和精確性上取得了較好的均衡，實現(xiàn)了如下的性能指標：在構建的測試數(shù)據上，平均漏警率和虛警率≤10％，比對響應時間≤0.1秒。

附圖說明

圖1是本發(fā)明實施例提供的文本相似性比對方法的流程示意圖。

具體實施方式

為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白，以下結合附圖，對本發(fā)明進行進一步詳細說明。應當理解，此處所描述的具體實施方式僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

網絡侵權追蹤開發(fā)平臺監(jiān)測追蹤的是文字類數(shù)字作品，因此，作品內容相似性比對技術方案是針對文本內容的。文本比對是針對數(shù)據處理后的純文本內容進行。比對系統(tǒng)的架構設計和比對算法的設計對整個追蹤平臺的效率有很大影響。

本發(fā)明實施例中，文本相似性比對在系統(tǒng)的架構上采用分布式架構，在比對算法上采用多粒度分層算法。

具體地，首先使用文本分析調度器將需要做文本內容相似度分析的網絡作品比對任務均衡地分配給多個文本分析器，并監(jiān)測文本分析器的狀態(tài)；然后，在文本分析器中，采用多粒度分層算法進行文檔內容相似性比對。

如圖1所示，本發(fā)明實施例提供了一種文本相似性比對方法，包括如下步驟：

s1，以文檔為粗粒度，根據詞的淺層次相似度從注冊作品庫中篩選出相似度最大的n個作品形成候選作品集，其中，n為自然數(shù)；

s2，對所述候選作品集中的每個作品進行文本分段，得到分段文本；

s3，以所述分段文本為細粒度，進行文本細粒度相似度比對。

其中，粗粒度相似度比對是以整個文檔為單位，基于詞的表層特征來進行相似度計算，從海量的注冊作品庫中篩選出最相似的n個作品來做后續(xù)細粒度的比對。

文本分段是在更小粒度上進行相似度比對的前提，因此，在進行細粒度相似度比對之前，首先需要對文本進行分段，將分段文本作為細粒度。

細粒度相似度的比對，采用基于句子的淺層相似度(segshallowsimilarity)、信息熵相似度(segentropysimilarity)和淺語義相似度(segsemanticsimilarity)組合而成。

在本發(fā)明的一個優(yōu)選實施例中，s1之前還可以包括步驟s0：對所述文檔進行分詞和詞性標注。

s0和s1之間還包括步驟：對所述分詞進行過濾處理。

所述對所述分詞進行過濾處理，采用插件式過濾鏈，所述插件式過濾鏈包括停用詞過濾器和/或同義詞過濾器。

算法是以詞為文本的特征表示項，因此對于中文文本需要對內容進行分詞和詞性標注；為了減少不重要詞對準確性和系統(tǒng)性能的影響，可以對這些分詞進行過濾處理，系統(tǒng)對分詞進行過濾處理可以采用插件式的過濾鏈，所述插件式過濾鏈可以包括停用詞過濾器和/或同義詞過濾器

本發(fā)明的一個優(yōu)選實施例中，s1中，所述詞的淺層次相似度，可以采用如下公式進行計算：

sim(d1,d2)＝count(d1∩d2)/(count(d1)+count(d2))，

式中，

d＝{w1,w2,w3…}表示文檔，

wi表示文檔d中的詞，

d1∩d2表示文檔d1、d2中詞的交集，

count(di)表示文檔di中詞的個數(shù)。

在本發(fā)明的一個優(yōu)選實施例中，s2中，所述文本分段包括如下方式：以段落分段、以一定數(shù)量的字詞分段或以句子分段。

分段方式不一樣，其分段的粒度也不一樣，可以以文檔的段落分段，也可以按一定數(shù)量的字詞固定分段，也可以句子分段。

在本發(fā)明的一個優(yōu)選實施例中，可以以句子(以句號作為句子結束標志)為分段單位，也就是說，細粒度的相似度比對是以句子為單位，以詞為特征表示。

在本發(fā)明的一個優(yōu)選實施例中，s3中所述文本細粒度相似度由：基于句子的淺層相似度、信息熵相似度和淺語義相似度組成和計算得到，具體地，

當所述基于句子的淺層相似度，采用如下公式進行計算：

simsha(s1，s2)＝count(s1∩s2)/(count(s1)+count(s2))，

式中，

simsha(s1，s2)表示基于句子的淺層相似度，

s＝{w1,w2,w3…}表示句子，

wi表示句子s中的詞，

s1∩s2表示句子s1、s2中詞的交集，

count(si)表示句子si中詞的個數(shù)；

當所述信息熵相似度，采用如下公式進行計算：

siment(s1，s2)＝∑(e(wi)),e(w)＝log(n/n),

式中，

siment(s1，s2)表示信息熵相似度，

s＝{w1,w2,w3…}表示句子，

wi∈s1∩s2，

s1∩s2表示句子s1、s2中詞的交集，

n表示候選文檔集中句子的總數(shù)，

n表示包含詞w的句子數(shù)；

當所述淺語義相似度，包括詞義相似度、句子語義相似度和句子細粒度相似度，

其中，詞義相似度采用如下公式進行計算：

simsemw(w1，w2)＝f(simlex(w1，w2)，simpos(w1，w2)，simcon(w1，w2))＝simlex(w1，w2)·simpos(w1，w2)·simcon(w1，w2)，式中，

simsemw(w1，w2)表示詞義相似度，

simlex(w1，w2)、simpos(w1，w2)、simcon(w1，w2)分別表示詞w1與w2的詞匯相似度、詞性相似度、詞上下文相似度，

simlex(w1，w2)是詞w1和w2對應的義原在義原樹上的距離；

simpos(w1，w2)取值：當w1與w2詞性相同時，取值為1；當w1與w2詞性不相同時，取值為0；

simcon(w1，w2)＝abs(pos1/n1-pos2/n2)，其中，pos1、pos2分別是w1、w2在相應句中的位置，n1、n2是w1、w2所在句子的長度；

句子語義相似度采用如下公式進行計算：

simsems(s1，s2)＝2·∑0≤i＜len(s1)argmax{simsemw(wi，wj):0≤j＜len(s2)}/(len(s1)+len(s2))，

式中，

simsems(s1，s2)表示句子語義相似度，

argmax表示尋找具有最大評分的參量，函數(shù)argmax{f(x,y):x∈x}，表示x∈x，使f(x,y)達到最大值時的取值，

len(s)是句子s的長度，即詞語個數(shù)；

則，所述句子細粒度相似度采用如下公式進行計算：

similarity(s1，s2)

＝α·simsha(s1，s2)+β·siment(s1，s2)+γ·simsems(s1，s2)

式中，

α、β、γ為權值參數(shù)，且α+β+γ＝1；

假設所述分段文本為句子，則所述文本細粒度相似度為：

similarity(d1，d2)＝∑wk·segsimilarity(sk，sj)，

segsimilarity(sk，sj)＝max(similarity(sk，si))，

其中，

similarity(d1，d2)表示文本細粒度相似度，

similarity(sk，si)表示句子細粒度相似度，

sk是第一文檔中的句子，si是第二文檔中的句子，1≤i≤n2，n2為第二文檔中中句子數(shù)，j是第二文檔中similarity(sk，si)取得最大值時的i值，

wk是與sk相關的權重，一般可以簡化為1/n，n是文檔的句子總數(shù)。

采用上述本發(fā)明實施例提供的技術方案，在構建的測試數(shù)據上，平均漏警率和虛警率≤10％，比對響應時間≤0.1秒。

通過采用本發(fā)明公開的上述技術方案，得到了如下有益的效果：本發(fā)明實施例中，文本相似性比對在系統(tǒng)的架構上采用分布式架構，在比對算法上采用多粒度分層算法，包括以文檔為粗粒度的相似度比對，以及以分段文本為細粒度的相似度比對，從而在內容相似性比對的效率和精確性上取得了較好的均衡，實現(xiàn)了如下的性能指標：在構建的測試數(shù)據上，平均漏警率和虛警率≤10％，比對響應時間≤0.1秒。

本說明書中的各個實施例均采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域人員應該理解的是，上述實施例提供的方法步驟的時序可根據實際情況進行適應性調整，也可根據實際情況并發(fā)進行。

上述實施例涉及的方法中的全部或部分步驟可以通過程序來指令相關的硬件來完成，所述的程序可以存儲于計算機設備可讀取的存儲介質中，用于執(zhí)行上述各實施例方法所述的全部或部分步驟。所述計算機設備，例如：個人計算機、服務器、網絡設備、智能移動終端、智能家居設備、穿戴式智能設備、車載智能設備等；所述的存儲介質，例如：ram、rom、磁碟、磁帶、光盤、閃存、u盤、移動硬盤、存儲卡、記憶棒、網絡服務器存儲、網絡云存儲等。

最后，還需要說明的是，在本文中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。

以上所述僅是本發(fā)明的優(yōu)選實施方式，應當指出，對于本技術領域的普通技術人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視本發(fā)明的保護范圍。

完整全部詳細技術資料下載

當前第1頁1 2