亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法、裝置及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):11250929閱讀:1528來(lái)源:國(guó)知局
基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法、裝置及存儲(chǔ)介質(zhì)與流程

【技術(shù)領(lǐng)域】

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),特別涉及基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法、裝置及存儲(chǔ)介質(zhì)。



背景技術(shù):

人工智能(artificialintelligence),英文縮寫(xiě)為ai。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專(zhuān)家系統(tǒng)等。

隨著近年來(lái)互聯(lián)網(wǎng)數(shù)據(jù)的爆炸性增長(zhǎng),搜索引擎公司開(kāi)始檢索千億級(jí)別的網(wǎng)頁(yè)資源。在海量網(wǎng)頁(yè)資源的背后,存在相當(dāng)一部分?jǐn)?shù)量的站長(zhǎng)或資源產(chǎn)生方,為了減少網(wǎng)頁(yè)制作的成本,或是利用其它的優(yōu)質(zhì)網(wǎng)頁(yè)為自己的網(wǎng)站吸取點(diǎn)擊增加流量等,轉(zhuǎn)載甚至抄襲其它的優(yōu)質(zhì)原創(chuàng)網(wǎng)頁(yè)。

這種現(xiàn)象雖然在一定程度上有利于網(wǎng)絡(luò)資源的快速傳播,但由于原創(chuàng)內(nèi)容的作者花費(fèi)了一定的時(shí)間和精力創(chuàng)作內(nèi)容,上述的轉(zhuǎn)載或抄襲行為會(huì)削減甚至消除原創(chuàng)作者的創(chuàng)作價(jià)值;另外,對(duì)于搜索引擎而言,如果搜錄了大量重復(fù)的資源,會(huì)消耗掉更多的成本如儲(chǔ)存和檢索時(shí)間等。

因此,需要對(duì)網(wǎng)頁(yè)的原創(chuàng)性進(jìn)行識(shí)別,一方面可以保護(hù)原創(chuàng)作者的權(quán)益,另一方面,搜索引擎可以利用節(jié)省出來(lái)的成本去搜錄更多的原創(chuàng)網(wǎng)頁(yè),從而促進(jìn)高價(jià)值內(nèi)容的成長(zhǎng)以及內(nèi)容生態(tài)的建設(shè)。

現(xiàn)有技術(shù)中,主要采用以下方式來(lái)進(jìn)行網(wǎng)頁(yè)的原創(chuàng)性識(shí)別:從整個(gè)網(wǎng)頁(yè)中,提取出一個(gè)最長(zhǎng)句子,根據(jù)提取出的最長(zhǎng)句子的簽名進(jìn)行分組,同組內(nèi)根據(jù)title的皮爾遜距離(計(jì)算網(wǎng)頁(yè)內(nèi)容的相似度)和鏈接發(fā)現(xiàn)時(shí)間進(jìn)行原創(chuàng)性網(wǎng)頁(yè)的識(shí)別,即判斷同組內(nèi)誰(shuí)是真正的原創(chuàng)。

但是,這種方式在實(shí)際應(yīng)用中會(huì)存在一定的問(wèn)題,即識(shí)別結(jié)果的準(zhǔn)確性較低,比如,網(wǎng)頁(yè)中的句子有細(xì)微的變化,或者最長(zhǎng)句子的提取發(fā)生小的變化等,都會(huì)造成簽名的變化,進(jìn)而影響后續(xù)的分組等處理。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明提供了基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法、裝置及存儲(chǔ)介質(zhì),能夠提高識(shí)別結(jié)果的準(zhǔn)確性。

具體技術(shù)方案如下:

一種基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法,包括:

分別對(duì)保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)進(jìn)行句子提??;

根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典;

根據(jù)所述原創(chuàng)查找詞典,分別識(shí)別出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子是否為原創(chuàng)句子;

根據(jù)識(shí)別結(jié)果確定出所述待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性。

一種基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別裝置,包括:處理單元以及識(shí)別單元;

所述處理單元,用于分別對(duì)保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)進(jìn)行句子提取,并根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典;

所述識(shí)別單元,用于根據(jù)所述原創(chuàng)查找詞典,分別識(shí)別出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子是否為原創(chuàng)句子,根據(jù)識(shí)別結(jié)果確定出所述待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性。

一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如以上所述的方法。

一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如以上所述的方法。

基于上述介紹可以看出,采用本發(fā)明所述方案,可分別對(duì)保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)進(jìn)行句子提取,并根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典,這樣,后續(xù)針對(duì)待識(shí)別的網(wǎng)頁(yè),即可根據(jù)原創(chuàng)查找詞典,分別識(shí)別出從中提取出的各句子是否為原創(chuàng)句子,進(jìn)而根據(jù)識(shí)別結(jié)果確定出待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性,這樣,即便個(gè)別句子的提取等略有變化,也不會(huì)影響整個(gè)網(wǎng)頁(yè)的識(shí)別結(jié)果,從而提高了識(shí)別結(jié)果的準(zhǔn)確性。

【附圖說(shuō)明】

圖1為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法實(shí)施例的流程圖。

圖2為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別裝置實(shí)施例的組成結(jié)構(gòu)示意圖。

圖3示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。

【具體實(shí)施方式】

為了使本發(fā)明的技術(shù)方案更加清楚、明白,以下參照附圖并舉實(shí)施例,對(duì)本發(fā)明所述方案作進(jìn)一步地詳細(xì)說(shuō)明。

圖1為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別方法實(shí)施例的流程圖,如圖1所示,包括以下具體實(shí)現(xiàn)方式:

在101中,分別對(duì)保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)進(jìn)行句子提取;

在102中,根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典;

在103中,根據(jù)原創(chuàng)查找詞典,分別識(shí)別出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子是否為原創(chuàng)句子;

在104中,根據(jù)識(shí)別結(jié)果確定出待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性。

即可根據(jù)數(shù)據(jù)庫(kù)中保存的網(wǎng)頁(yè)生成句子級(jí)的原創(chuàng)查找詞典,進(jìn)而可通過(guò)查詢(xún)所述原創(chuàng)查找詞典,確定出待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性。

以下分別對(duì)上述各部分內(nèi)容的具體實(shí)現(xiàn)進(jìn)行詳細(xì)說(shuō)明。

一)句子提取

在實(shí)際應(yīng)用中,為便于搜索引擎的搜索等,可收集/采集大量的網(wǎng)頁(yè),保存在數(shù)據(jù)庫(kù)中。

對(duì)于保存在數(shù)據(jù)庫(kù)中的每個(gè)網(wǎng)頁(yè),可分別通過(guò)頁(yè)面解析等,獲取該網(wǎng)頁(yè)的標(biāo)題(title)以及正文內(nèi)容(page域),另外還可進(jìn)一步獲取該網(wǎng)頁(yè)的統(tǒng)一資源定位符(url,uniformresourelocator)簽名以及入庫(kù)時(shí)間等。

針對(duì)獲取到的正文內(nèi)容,可對(duì)其進(jìn)行句子切分,如可根據(jù)自然語(yǔ)言中具有句子完結(jié)意義的結(jié)束符及網(wǎng)頁(yè)源碼標(biāo)簽來(lái)切分句子,并可過(guò)濾掉過(guò)短的句子,自然語(yǔ)言中具有句子完結(jié)意義的結(jié)束符可包括“?!?、“?”、“!”等。

之后,可分別計(jì)算出每個(gè)句子的權(quán)值,具體地,可針對(duì)每個(gè)句子分別進(jìn)行以下處理:按照基礎(chǔ)粒度對(duì)該句子進(jìn)行切詞及去停用詞處理,之后,根據(jù)處理結(jié)果計(jì)算該句子的權(quán)值,如將該句子中各切分出的詞(term)的逆文本頻率(idf,inversedocumentfrequency)值相加,將相加之和作為該句子的權(quán)值,如何獲取idf值為現(xiàn)有技術(shù)。

對(duì)于每個(gè)網(wǎng)頁(yè),可按照權(quán)值由大到小的順序?qū)脑摼W(wǎng)頁(yè)的正文內(nèi)容中切分出的各句子進(jìn)行排序,并選出排序后處于前m位的句子,m為大于一的正整數(shù),將選出的句子以及該網(wǎng)頁(yè)的標(biāo)題作為從該網(wǎng)頁(yè)中提取出的句子。

m的具體取值可根據(jù)實(shí)際需要而定,比如可為30,標(biāo)題作為特殊句子進(jìn)行保留并標(biāo)識(shí)。

對(duì)于提取出的每個(gè)句子,可在切詞和去停用詞處理的基礎(chǔ)上計(jì)算出該句子的句子簽名,如simhash值,simhash是一種常用的字符串hash算法,如果兩個(gè)句子相同,那么這兩個(gè)句子的simhash值也會(huì)相同,如果兩個(gè)句子相似,那么這兩個(gè)句子的simhash值的海明距離會(huì)很近。

二)原創(chuàng)查找詞典

按照一)中的方式,可分別從每個(gè)網(wǎng)頁(yè)中提取出多個(gè)句子,之后,可根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典,即將千億級(jí)的網(wǎng)頁(yè)資源建成句子—>網(wǎng)頁(yè)的倒排拉鏈表,并可利用倒排拉鏈表進(jìn)行網(wǎng)頁(yè)的原創(chuàng)性識(shí)別。

相應(yīng)地,可首先對(duì)提取出的各句子進(jìn)行去重處理,之后,針對(duì)去重處理后的每個(gè)句子,可分別生成一個(gè)倒排拉鏈表。

倒排拉鏈表中可包括:句子簽名以及入庫(kù)時(shí)間,還可進(jìn)一步包括:原創(chuàng)時(shí)間,還可進(jìn)一步包括:原創(chuàng)url簽名、拉鏈長(zhǎng)度、鄰近拉鏈總長(zhǎng)度、采集者列表等。

其中,句子簽名、原創(chuàng)url簽名、入庫(kù)時(shí)間、原創(chuàng)時(shí)間、拉鏈長(zhǎng)度、鄰近拉鏈總長(zhǎng)度共同組成倒排拉鏈表中的拉鏈頭數(shù)據(jù),即倒排拉鏈表可由拉鏈頭數(shù)據(jù)以及采集者列表兩部分組成。

其中,原創(chuàng)url表示包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中入庫(kù)時(shí)間最早的網(wǎng)頁(yè)的url。

入庫(kù)時(shí)間表示包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中入庫(kù)時(shí)間最早的網(wǎng)頁(yè)的入庫(kù)時(shí)間,即原創(chuàng)url對(duì)應(yīng)的入庫(kù)時(shí)間。

拉鏈長(zhǎng)度表示包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)數(shù)。

鄰近拉鏈總長(zhǎng)度表示倒排拉鏈表對(duì)應(yīng)的句子的拉鏈長(zhǎng)度以及倒排拉鏈表對(duì)應(yīng)的句子的鄰近句子的拉鏈長(zhǎng)度之和。鄰近句子為與倒排拉鏈表對(duì)應(yīng)的句子的句子簽名之間的海明距離小于預(yù)定閾值的句子,所述閾值的具體取值可根據(jù)實(shí)際需要而定,比如3。

相應(yīng)地,原創(chuàng)時(shí)間表示:確定出倒排拉鏈表對(duì)應(yīng)的句子的鄰近句子,從包含所述鄰近句子或倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中選出入庫(kù)時(shí)間最早的網(wǎng)頁(yè),該選出的網(wǎng)頁(yè)的入庫(kù)時(shí)間即為所述原創(chuàng)時(shí)間。

倒排拉鏈表中的采集者列表中可包括:按照入庫(kù)時(shí)間由先到后的順序,包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中前n個(gè)入庫(kù)的網(wǎng)頁(yè)的url簽名及入庫(kù)時(shí)間。

即采集者列表中保存有包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中前n個(gè)入庫(kù)的網(wǎng)頁(yè)的url簽名及入庫(kù)時(shí)間,并按照入庫(kù)時(shí)間升序排列,n的具體取值可根據(jù)實(shí)際需要而定,比如10。

假設(shè)句子a和句子b的句子簽名之間的海明距離小于預(yù)定閾值,那么句子b則為句子a的鄰近句子,同樣,句子a也為句子b的鄰近句子。

針對(duì)原創(chuàng)查找詞典,還可根據(jù)實(shí)際需要,對(duì)其執(zhí)行插入、刪除或更新等操作,以下分別對(duì)各操作的具體實(shí)現(xiàn)進(jìn)行說(shuō)明。

1)插入操作

即指將待插入的網(wǎng)頁(yè)的句子級(jí)數(shù)據(jù)插入倒排拉鏈表中。

所述待插入的網(wǎng)頁(yè)可以是指新進(jìn)且有原創(chuàng)識(shí)別需求的網(wǎng)頁(yè)。

具體地,可首先對(duì)待插入的網(wǎng)頁(yè)進(jìn)行句子提取等。

之后,可針對(duì)從待插入的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別進(jìn)行以下處理:

確定是否存在該句子對(duì)應(yīng)的倒排拉鏈表;

如果否,則建立該句子對(duì)應(yīng)的倒排拉鏈表,并對(duì)該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新;

如果是,則對(duì)該句子對(duì)應(yīng)的倒排拉鏈表以及該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新。

在建立該句子對(duì)應(yīng)的倒排拉鏈表時(shí),入庫(kù)時(shí)間即為待插入的網(wǎng)頁(yè)的入庫(kù)時(shí)間,其它信息可參照前述說(shuō)明,不再贅述。

對(duì)該句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新可包括:如果待插入的網(wǎng)頁(yè)的入庫(kù)時(shí)間早于倒排拉鏈表中的入庫(kù)時(shí)間,則將倒排拉鏈表中的入庫(kù)時(shí)間更新為待插入的網(wǎng)頁(yè)的入庫(kù)時(shí)間,將原創(chuàng)url簽名更新為待插入的網(wǎng)頁(yè)的url簽名,將拉鏈長(zhǎng)度加一,并將待插入的網(wǎng)頁(yè)的url簽名及入庫(kù)時(shí)間加入到采集者列表中等。

對(duì)該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新可包括:將鄰近句子對(duì)應(yīng)的倒排拉鏈表中的鄰近拉鏈總長(zhǎng)度加一,如果待插入的網(wǎng)頁(yè)的入庫(kù)時(shí)間早于鄰近句子對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間,則將鄰近句子對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間更新為待插入的網(wǎng)頁(yè)的入庫(kù)時(shí)間等。

2)刪除操作

即指將待刪除的網(wǎng)頁(yè)的句子級(jí)數(shù)據(jù)從倒排拉鏈表中刪除。

具體地,可針對(duì)從待刪除的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別對(duì)該句子對(duì)應(yīng)的倒排拉鏈表以及該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新。

其中,對(duì)該句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新可包括:如果倒排拉鏈表中的入庫(kù)時(shí)間為待刪除的網(wǎng)頁(yè)的入庫(kù)時(shí)間,那么則選出采集者列表中除待刪除的網(wǎng)頁(yè)之外的其它各網(wǎng)頁(yè)中入庫(kù)時(shí)間最早的網(wǎng)頁(yè),用選出的網(wǎng)頁(yè)的url簽名和入庫(kù)時(shí)間替代倒排拉鏈表中的原創(chuàng)url簽名及入庫(kù)時(shí)間,并且,將倒排拉鏈表中的拉鏈長(zhǎng)度減一,將待刪除的網(wǎng)頁(yè)的url簽名及入庫(kù)時(shí)間從采集者列表中刪除等。

對(duì)該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新可包括:將鄰近句子對(duì)應(yīng)的倒排拉鏈表中的鄰近拉鏈總長(zhǎng)度減一,如果鄰近句子對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間為待刪除的網(wǎng)頁(yè)的入庫(kù)時(shí)間,則更新鄰近句子對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間等。

3)更新操作

比如,對(duì)于已經(jīng)存在于倒排拉鏈表中的網(wǎng)頁(yè),如果其內(nèi)容發(fā)生了變更,那么則可執(zhí)行更新操作。

更新操作可由刪除操作和插入操作組成,即先執(zhí)行刪除操作,再執(zhí)行插入操作,不再贅述。

除上述插入、刪除和更新操作外,在實(shí)際應(yīng)用中,還可能會(huì)涉及到一些其它操作,比如人工干預(yù)以及天級(jí)例行的原創(chuàng)url填充等。

人工干預(yù):一個(gè)可能的場(chǎng)景是,某個(gè)url的站長(zhǎng)投訴,該url才是原創(chuàng),這種情況,經(jīng)核實(shí)后,可更新該url的入庫(kù)時(shí)間,并執(zhí)行更新操作。

天級(jí)例行的原創(chuàng)url填充:存在這樣的場(chǎng)景,對(duì)于某個(gè)句子對(duì)應(yīng)的倒排拉鏈表,其采集者列表中的全部url簽名及入庫(kù)時(shí)間均被刪除,這樣會(huì)導(dǎo)致倒排拉鏈表中的原創(chuàng)url簽名及入庫(kù)時(shí)間為空,那么則需要對(duì)倒排拉鏈表中的原創(chuàng)url簽名及入庫(kù)時(shí)間進(jìn)行填充,如利用包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中除刪除的網(wǎng)頁(yè)之外的其它網(wǎng)頁(yè)中入庫(kù)時(shí)間最早的網(wǎng)頁(yè)的url簽名及入庫(kù)時(shí)間進(jìn)行填充。

三)原創(chuàng)性識(shí)別

通過(guò)上述操作,即可維護(hù)一個(gè)可隨時(shí)訪問(wèn)的句子級(jí)的原創(chuàng)查找詞典,基于該原創(chuàng)查找詞典,即可對(duì)所有建到倒排拉鏈表中即保存在數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)的原創(chuàng)性進(jìn)行識(shí)別/評(píng)估。

具體地,針對(duì)待識(shí)別的網(wǎng)頁(yè),可首先識(shí)別出從中提取出的各句子是否為原創(chuàng)句子。

本發(fā)明中支持精確識(shí)別和模糊識(shí)別兩種方式,倒排拉鏈表的結(jié)構(gòu)和操作上均支持這兩種識(shí)別方式,系統(tǒng)的可擴(kuò)展性很高。

其中,精確識(shí)別的方式可為:

針對(duì)從待識(shí)別的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別進(jìn)行以下處理:

根據(jù)該句子的句子簽名確定出該句子對(duì)應(yīng)的倒排拉鏈表;

將待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間與對(duì)應(yīng)的倒排拉鏈表中的入庫(kù)時(shí)間進(jìn)行比較,若待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間早于或等于對(duì)應(yīng)的倒排拉鏈表中的入庫(kù)時(shí)間,則確定該句子為原創(chuàng)句子。

模糊識(shí)別的方式可為:

針對(duì)從待識(shí)別的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別進(jìn)行以下處理:

根據(jù)該句子的句子簽名確定出該句子對(duì)應(yīng)的倒排拉鏈表;

將待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間與對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間進(jìn)行比較,若待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間早于或等于對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間,則確定該句子為原創(chuàng)句子。

在分別識(shí)別出待識(shí)別的網(wǎng)頁(yè)中的各句子是否為原創(chuàng)句子之后,即可根據(jù)識(shí)別結(jié)果確定出待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性。

比如,可首先計(jì)算出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子的權(quán)值之和,從而得到第一相加結(jié)果,如何獲取句子的權(quán)值可參照一)中的說(shuō)明。

之后,可進(jìn)一步計(jì)算出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子中的原創(chuàng)句子的權(quán)值之和,從而得到第二相加結(jié)果。

最后,用第二相加結(jié)果除以第一相加結(jié)果,將得到的商作為待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性評(píng)價(jià)結(jié)果。

對(duì)于一個(gè)網(wǎng)頁(yè)來(lái)說(shuō),原創(chuàng)性評(píng)估結(jié)果的取值越大,說(shuō)明其中的原創(chuàng)內(nèi)容的比例越大,相應(yīng)地,該網(wǎng)頁(yè)的原創(chuàng)性也就越高。

進(jìn)一步地,可設(shè)置一個(gè)閾值,具體取值可根據(jù)實(shí)際需要而定,當(dāng)某一網(wǎng)頁(yè)的原創(chuàng)性評(píng)估結(jié)果大于所述閾值時(shí),則可判定該網(wǎng)頁(yè)為原創(chuàng)網(wǎng)頁(yè)。

通過(guò)上述介紹可以看出,采用本發(fā)明所述方案,即便個(gè)別句子的提取等略有變化,也不會(huì)影響整個(gè)網(wǎng)頁(yè)的識(shí)別結(jié)果,從而相比于現(xiàn)有技術(shù)提高了識(shí)別結(jié)果的準(zhǔn)確性。

對(duì)于原創(chuàng)性越高的網(wǎng)頁(yè),在實(shí)際應(yīng)用中如在進(jìn)行資源篩選和召回排序時(shí)越應(yīng)該受到優(yōu)待,對(duì)于站長(zhǎng)和資源產(chǎn)生方來(lái)說(shuō),他們的創(chuàng)作的價(jià)值得到了認(rèn)可和保護(hù),對(duì)于搜索引擎來(lái)說(shuō),能夠鼓勵(lì)站長(zhǎng)去創(chuàng)作更多的優(yōu)質(zhì)資源,而不是轉(zhuǎn)載或剽竊他人的成果,經(jīng)過(guò)一定時(shí)間的積累,搜索引擎就能夠收錄更多的有價(jià)值的資源,繁榮搜索生態(tài)。

以上是關(guān)于方法實(shí)施例的介紹,以下通過(guò)裝置實(shí)施例,對(duì)本發(fā)明所述方案進(jìn)行進(jìn)一步說(shuō)明。

圖2為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)性識(shí)別裝置實(shí)施例的組成結(jié)構(gòu)示意圖,如圖2所示,包括:處理單元201以及識(shí)別單元202。

處理單元201,用于分別對(duì)保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)進(jìn)行句子提取,并根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典。

識(shí)別單元202,用于根據(jù)原創(chuàng)查找詞典,分別識(shí)別出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子是否為原創(chuàng)句子,根據(jù)識(shí)別結(jié)果確定出待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性。

其中,處理單元201可按照以下方式分別對(duì)每個(gè)網(wǎng)頁(yè)進(jìn)行句子提?。?/p>

獲取網(wǎng)頁(yè)的標(biāo)題以及正文內(nèi)容;

對(duì)正文內(nèi)容進(jìn)行句子切分,并分別計(jì)算切分出的每個(gè)句子的權(quán)值;

按照權(quán)值由大到小的順序?qū)η蟹殖龅母骶渥舆M(jìn)行排序;

選出排序后處于前m位的句子,m為大于一的正整數(shù),將選出的句子以及標(biāo)題作為提取出的句子。

在完成句子提取之后,處理單元201可進(jìn)一步對(duì)提取出的句子進(jìn)行去重處理,并針對(duì)去重處理后的每個(gè)句子,分別生成一個(gè)倒排拉鏈表。

倒排拉鏈表中包括:句子簽名以及入庫(kù)時(shí)間,入庫(kù)時(shí)間表示包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中入庫(kù)時(shí)間最早的網(wǎng)頁(yè)的入庫(kù)時(shí)間。

待識(shí)別的網(wǎng)頁(yè)通常為保存在數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè),識(shí)別單元202可針對(duì)從待識(shí)別的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別進(jìn)行以下處理:

根據(jù)該句子的句子簽名確定出該句子對(duì)應(yīng)的倒排拉鏈表;

將待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間與對(duì)應(yīng)的倒排拉鏈表中的入庫(kù)時(shí)間進(jìn)行比較,若待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間早于或等于對(duì)應(yīng)的倒排拉鏈表中的入庫(kù)時(shí)間,則確定該句子為原創(chuàng)句子。

倒排拉鏈表中還可進(jìn)一步包括:原創(chuàng)時(shí)間。

處理單元201可按照以下方式來(lái)獲取原創(chuàng)時(shí)間:

確定出倒排拉鏈表對(duì)應(yīng)的句子的鄰近句子,鄰近句子為與倒排拉鏈表對(duì)應(yīng)的句子的句子簽名之間的海明距離小于預(yù)定閾值的句子;

從包含鄰近句子或倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中選出入庫(kù)時(shí)間最早的網(wǎng)頁(yè);

將選出的網(wǎng)頁(yè)的入庫(kù)時(shí)間作為原創(chuàng)時(shí)間。

相應(yīng)地,識(shí)別單元202可針對(duì)從待識(shí)別的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別進(jìn)行以下處理:

根據(jù)該句子的句子簽名確定出該句子對(duì)應(yīng)的倒排拉鏈表;

將待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間與對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間進(jìn)行比較,若待識(shí)別的網(wǎng)頁(yè)的入庫(kù)時(shí)間早于或等于對(duì)應(yīng)的倒排拉鏈表中的原創(chuàng)時(shí)間,則確定該句子為原創(chuàng)句子。

之后,識(shí)別單元202可計(jì)算從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子的權(quán)值之和,得到第一相加結(jié)果,并計(jì)算從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子中的原創(chuàng)句子的權(quán)值之和,得到第二相加結(jié)果,用第二相加結(jié)果除以第一相加結(jié)果,將得到的商作為待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性評(píng)價(jià)結(jié)果。

除上述介紹外,處理單元201還可進(jìn)一步用于,對(duì)原創(chuàng)查找詞典執(zhí)行插入、刪除或更新操作,其中,更新操作包括:依次執(zhí)行刪除操作和插入操作。

倒排拉鏈表中還可進(jìn)一步包括:原創(chuàng)url簽名、拉鏈長(zhǎng)度、鄰近拉鏈總長(zhǎng)度。

其中,原創(chuàng)url表示包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中入庫(kù)時(shí)間最早的網(wǎng)頁(yè)的url。

拉鏈長(zhǎng)度表示包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)數(shù)。

鄰近拉鏈總長(zhǎng)度表示倒排拉鏈表對(duì)應(yīng)的句子的拉鏈長(zhǎng)度以及倒排拉鏈表對(duì)應(yīng)的句子的鄰近句子的拉鏈長(zhǎng)度之和。

句子簽名、原創(chuàng)url簽名、入庫(kù)時(shí)間、原創(chuàng)時(shí)間、拉鏈長(zhǎng)度、鄰近拉鏈總長(zhǎng)度共同組成倒排拉鏈表中的拉鏈頭數(shù)據(jù)。

倒排拉鏈表中還可進(jìn)一步包括:采集者列表。

采集者列表中可包括:包含倒排拉鏈表對(duì)應(yīng)的句子的網(wǎng)頁(yè)中前n個(gè)入庫(kù)的網(wǎng)頁(yè)的url簽名及入庫(kù)時(shí)間,n為大于一的正整數(shù)。

相應(yīng)地,處理單元202可按照以下方式執(zhí)行插入操作:

對(duì)待插入的網(wǎng)頁(yè)進(jìn)行句子提取,并針對(duì)從待插入的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別進(jìn)行以下處理:

確定是否存在該句子對(duì)應(yīng)的倒排拉鏈表;

如果否,則建立該句子對(duì)應(yīng)的倒排拉鏈表,并對(duì)該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新;

如果是,則對(duì)該句子對(duì)應(yīng)的倒排拉鏈表以及該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新。

處理單元202可按照以下方式執(zhí)行刪除操作:針對(duì)從待刪除的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別對(duì)該句子對(duì)應(yīng)的倒排拉鏈表以及該句子的鄰近句子對(duì)應(yīng)的倒排拉鏈表進(jìn)行更新。

圖2所示裝置實(shí)施例的具體工作流程等請(qǐng)參照前述方法實(shí)施例中的相應(yīng)說(shuō)明,此處不再贅述。

圖3示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖3顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來(lái)任何限制。

如圖3所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器(處理單元)16,存儲(chǔ)器28,連接不同系統(tǒng)組件(包括存儲(chǔ)器28和處理器16)的總線18。

總線18表示幾類(lèi)總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來(lái)說(shuō),這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。

計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問(wèn)的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。

存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫(xiě)不可移動(dòng)的、非易失性磁介質(zhì)(圖3未顯示,通常稱(chēng)為“硬盤(pán)驅(qū)動(dòng)器”)。盡管圖3中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(pán)(例如“軟盤(pán)”)讀寫(xiě)的磁盤(pán)驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(pán)(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫(xiě)的光盤(pán)驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過(guò)一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。

具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。

計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤(pán)、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶(hù)能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過(guò)輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過(guò)網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖3所示,網(wǎng)絡(luò)適配器20通過(guò)總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤(pán)驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。

處理器16通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)圖1所示實(shí)施例中的方法,即分別對(duì)保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)進(jìn)行句子提取,根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典,根據(jù)原創(chuàng)查找詞典,分別識(shí)別出從待識(shí)別的網(wǎng)頁(yè)中提取出的各句子是否為原創(chuàng)句子,根據(jù)識(shí)別結(jié)果確定出待識(shí)別的網(wǎng)頁(yè)的原創(chuàng)性等。具體實(shí)現(xiàn)請(qǐng)參照前述方法實(shí)施例中的相應(yīng)說(shuō)明,此處不再贅述。

本發(fā)明同時(shí)公開(kāi)了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)將實(shí)現(xiàn)如圖1所示實(shí)施例中的方法。

可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤(pán)、硬盤(pán)、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤(pán)只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括——但不限于——電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語(yǔ)言或其組合來(lái)編寫(xiě)用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言—諸如java、smalltalk、c++,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言—諸如”c”語(yǔ)言或類(lèi)似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶(hù)計(jì)算機(jī)上執(zhí)行、部分地在用戶(hù)計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶(hù)計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任意種類(lèi)的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶(hù)計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng)連接)。

在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法等,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。

所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。

上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1