專利名稱:一種科技信息自動(dòng)分類篩選的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁(yè)分類技術(shù)領(lǐng)域,具體地說(shuō)一種科技信息自動(dòng)分類篩選的方法。
背景技術(shù):
現(xiàn)代信息技術(shù)的發(fā)展,信息呈現(xiàn)高速、大容量的特征,有效的信息是競(jìng)爭(zhēng)取得勝利的關(guān)鍵因素,為了有效地管理和利用這些信息收集、加工、處理、傳遞和貯存等環(huán)節(jié)的管理和利用,基于內(nèi)容的信息檢索和數(shù)據(jù)的挖掘已成為備受關(guān)注的領(lǐng)域。隨著互聯(lián)網(wǎng)相關(guān)技術(shù)的發(fā)展與成熟,互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)中提供的網(wǎng)頁(yè)越來(lái)越多,一方面滿足了用戶對(duì)信息的需求,另一方面也產(chǎn)生了一些問(wèn)題,如何根據(jù)網(wǎng)頁(yè)的內(nèi)容把網(wǎng)頁(yè)自動(dòng)分到不同的語(yǔ)義類別,以提高用戶的體驗(yàn),是目前搜索引擎的預(yù)處理或網(wǎng)站的文本自動(dòng)分類管理面臨解決的一個(gè)問(wèn)題。但是,傳統(tǒng)搜索工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來(lái)越不滿意。搜索直接的關(guān)鍵詞,往往會(huì)查找到一些不具有相關(guān)性的頁(yè)面,例如:搜索“**省科技創(chuàng)新”不會(huì)顯示關(guān)于**省內(nèi)的科技創(chuàng)新頁(yè)面,相反系統(tǒng)會(huì)檢索到關(guān)于**省(與科技創(chuàng)新無(wú)關(guān))或是其他省市的“科技”或“創(chuàng)新”的相關(guān)頁(yè)面。之前的搜索機(jī)制是基于各個(gè)單一的詞語(yǔ)而不是對(duì)整個(gè)頁(yè)面的概括,例如“**省科技創(chuàng)新”,所有頁(yè)面中只要提到“**省”或“科技”“創(chuàng)新”這兩個(gè)詞的頁(yè)面都會(huì)被檢索出來(lái),符合這三個(gè)詞語(yǔ)的任何排列組合后的短語(yǔ)或單一詞語(yǔ)都會(huì)出現(xiàn)在檢索結(jié)果中,可能有幾百萬(wàn)頁(yè)的搜索結(jié)果。由于搜索引擎通過(guò)對(duì)網(wǎng)站的相關(guān)性來(lái)優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、標(biāo)簽等公式來(lái)決定的,這才導(dǎo)致搜索引擎的搜索結(jié)果多而雜。因此,文本分類技術(shù)、按照篩選規(guī)則對(duì)數(shù)據(jù)庫(kù)里的內(nèi)容進(jìn)行篩選、比對(duì)等需要一種應(yīng)用面寬、適應(yīng)力強(qiáng)、更新?lián)Q代靈活、技術(shù)新、滿足用戶快速獲取有效信息的需求等特點(diǎn)的技術(shù)。
發(fā)明內(nèi)容
針對(duì)上述不足,本發(fā)明提供了一種科技信息自動(dòng)分類篩選的方法,其不僅能夠解決現(xiàn)有搜索技術(shù)的弊端,而且能夠極大地提高了信息檢索的效率,保證數(shù)據(jù)抓取的完整性和可靠性。本發(fā)明解決其技術(shù)問(wèn)題采取的技術(shù)方案是:一種科技信息自動(dòng)分類篩選的方法,用于實(shí)時(shí)獲取不同類型的科技信息并針對(duì)注冊(cè)用戶的類型實(shí)時(shí)推送其所需要的信息,使注冊(cè)用戶登錄系統(tǒng)網(wǎng)站后及時(shí)獲得最新、有效的科技服務(wù)信息,并實(shí)現(xiàn)自身存儲(chǔ)數(shù)據(jù)的及時(shí)更新,其特征是,包括以下步驟:I)利用網(wǎng)絡(luò)信息篩選裝置從公開地址抓取動(dòng)態(tài)數(shù)據(jù)包;2)對(duì)抓取的動(dòng)態(tài)數(shù)據(jù)包進(jìn)行信息分類篩選,并確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞:2.1)對(duì)出現(xiàn)指定關(guān)鍵詞的所有頁(yè)面進(jìn)行一級(jí)篩選;2.2)建立用戶標(biāo)識(shí)與用戶偏好類型的對(duì)應(yīng)關(guān)系,以及用戶偏好類型與服務(wù)信息的對(duì)應(yīng)關(guān)系,并存儲(chǔ)在服務(wù)器數(shù)據(jù)庫(kù)中;
2.3)確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞;3)查詢與用戶標(biāo)識(shí)相對(duì)應(yīng)的用戶偏好類型,獲取與用戶偏好類型相對(duì)應(yīng)的服務(wù)信息,并將服務(wù)信息顯示到本地用戶終端的瀏覽器首頁(yè)中;4)本地用戶終端根據(jù)用戶的定制條件將數(shù)據(jù)信息推送給用戶。進(jìn)一步地,所述對(duì)出現(xiàn)指定關(guān)鍵詞的所有頁(yè)面進(jìn)行一級(jí)篩選的步驟為:Al、在篩選數(shù)據(jù)庫(kù)中添加非關(guān)鍵詞;A2、對(duì)頁(yè)面中所有詞語(yǔ)進(jìn)行逐一篩選,刪除與篩選數(shù)據(jù)庫(kù)中非關(guān)鍵詞相同的頁(yè)面詞語(yǔ);A3、統(tǒng)計(jì)頁(yè)面中有特殊標(biāo)記詞語(yǔ)的出現(xiàn)頻率,表示為:Pal、Pa2、Pa3…;A4、將特殊詞語(yǔ)頻率分別與權(quán)A相乘得到特殊詞語(yǔ)加權(quán)頻率,表示為:APal、APa2,APa3-*.;A5、刪除頁(yè)面信息文本中帶有特殊標(biāo)記的詞語(yǔ);A6、導(dǎo)入常用詞詞庫(kù),對(duì)頁(yè)面信息文本進(jìn)行全文掃描,統(tǒng)計(jì)常用詞詞庫(kù)中詞語(yǔ)在頁(yè)面信息文本中的出現(xiàn)頻率,表示為:Pbl、Pb2、Pb3…;A7、將常用詞頻率分別與權(quán)B相乘得到常用詞加權(quán)頻率,表示為:BPbl、BPb2、BPb3…;A8、對(duì)特殊詞語(yǔ)加權(quán)頻率APal、APa2、APy與常用詞加權(quán)頻率BPbl、BPb2、BPb3…進(jìn)行排序。進(jìn)一步地,所述確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞的步驟為:B1、從所有關(guān)鍵詞中循環(huán)選取部分關(guān)鍵詞組合,用t (Iia1.1j)來(lái)表示頁(yè)面文章名與屬性的關(guān)聯(lián)度;B2、計(jì)算關(guān)鍵詞組合的自主性,用Dlib(Iiai)來(lái)表示,公式如下:
權(quán)利要求
1.一種科技信息自動(dòng)分類篩選的方法,用于實(shí)時(shí)獲取不同類型的科技信息并針對(duì)注冊(cè)用戶的類型實(shí)時(shí)推送其所需要的信息,使注冊(cè)用戶登錄系統(tǒng)網(wǎng)站后及時(shí)獲得最新、有效的科技服務(wù)信息,并實(shí)現(xiàn)自身存儲(chǔ)數(shù)據(jù)的及時(shí)更新,其特征是,包括以下步驟: 1)利用網(wǎng)絡(luò)信息篩選裝置從公開地址抓取動(dòng)態(tài)數(shù)據(jù)包; 2)對(duì)抓取的動(dòng)態(tài)數(shù)據(jù)包進(jìn)行信息分類篩選,并確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞: 2.1)對(duì)出現(xiàn)指定關(guān)鍵詞的所有頁(yè)面進(jìn)行一級(jí)篩選; 2.2)建立用戶標(biāo)識(shí)與用戶偏好類型的對(duì)應(yīng)關(guān)系,以及用戶偏好類型與服務(wù)信息的對(duì)應(yīng)關(guān)系,并存儲(chǔ)在服務(wù)器數(shù)據(jù)庫(kù)中; 2.3)確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞; 3)查詢與用戶標(biāo)識(shí)相對(duì)應(yīng)的用戶偏好類型,獲取與用戶偏好類型相對(duì)應(yīng)的服務(wù)信息,并將服務(wù)信息顯示到本地用戶終端的瀏覽器首頁(yè)中; 4)本地用戶終端根據(jù)用戶的定制條件將數(shù)據(jù)信息推送給用戶。
2.根據(jù)權(quán)利要求1所述的一種科技信息自動(dòng)分類篩選的方法,其特征是,所述對(duì)出現(xiàn)指定關(guān)鍵詞的所有頁(yè)面進(jìn)行一級(jí)篩選的步驟為: Al、在篩選數(shù)據(jù)庫(kù)中添加非關(guān)鍵詞; A2、對(duì)頁(yè)面中所有詞語(yǔ)進(jìn)行逐一篩選,刪除與篩選數(shù)據(jù)庫(kù)中非關(guān)鍵詞相同的頁(yè)面詞語(yǔ);` A3、統(tǒng)計(jì)頁(yè)面中有特殊標(biāo)記詞語(yǔ)的出現(xiàn)頻率,表示為:Pal、Pa2、Pa3…; A4、將特殊詞語(yǔ)頻率分別與權(quán)A相乘得到特殊詞語(yǔ)加權(quán)頻率,表示為:APal、APa2、APy ; A5、刪除頁(yè)面信息文本中帶有特殊標(biāo)記的詞語(yǔ); A6、導(dǎo)入常用詞詞庫(kù),對(duì)頁(yè)面信息文本進(jìn)行全文掃描,統(tǒng)計(jì)常用詞詞庫(kù)中詞語(yǔ)在頁(yè)面信息文本中的出現(xiàn)頻率,表示為:Pbl、Pb2、Pb3...; A7、將常用詞頻率分別與權(quán)B相乘得到常用詞加權(quán)頻率,表示為:BPbl、BPb2、BPbf ; AS、對(duì)特殊詞語(yǔ)加權(quán)頻率APal、APa2, APa3…與常用詞加權(quán)頻率BPbl、BPb2, BPy進(jìn)行排序。
3.根據(jù)權(quán)利要求1所述的一種科技信息自動(dòng)分類篩選的方法,其特征是,所述確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞的步驟為: B1、從所有關(guān)鍵詞中循環(huán)選取部分關(guān)鍵詞組合,用t(na1.1j)來(lái)表示頁(yè)面文章名與屬性的關(guān)聯(lián)度; B2、計(jì)算關(guān)鍵詞組合的自主性,用Dlib(Iiai)來(lái)表示,公式如下: DwMai) = ^Η0[ {ηα,,1})-\-H^—j B3、用所有的候補(bǔ)文章名對(duì)關(guān)鍵詞組合的自主性進(jìn)行統(tǒng)計(jì); B4、使用文章數(shù)對(duì)Dlib(Iiai)進(jìn)行規(guī)范化,得到最終獨(dú)立度Plib,公式如下: Ρι _Λ Σ:'1) - rnB5、根據(jù)最終獨(dú)立度Plib確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞; 其中,m:顯示的關(guān)鍵詞數(shù),η:候補(bǔ)關(guān)鍵詞,M1:文章名,i = 1、2、...、n, j = 1、2、...、η。
4.根據(jù)權(quán)利要求1所述的一種科技信息自動(dòng)分類篩選的方法,其特征是,本地用戶終端通過(guò)進(jìn)行提示或直接彈出的方式將數(shù) 據(jù)信息推送給用戶。
全文摘要
本發(fā)明公開了一種科技信息自動(dòng)分類篩選的方法,它包括以下步驟1)利用網(wǎng)絡(luò)信息篩選裝置從公開地址抓取動(dòng)態(tài)數(shù)據(jù)包;2)并確定指定關(guān)鍵詞是否為本頁(yè)面的關(guān)鍵詞;3)查詢與用戶標(biāo)識(shí)相對(duì)應(yīng)的用戶偏好類型,獲取與用戶偏好類型相對(duì)應(yīng)的服務(wù)信息,并將服務(wù)信息顯示到本地用戶終端的瀏覽器首頁(yè)中;4)本地用戶終端根據(jù)用戶的定制條件將數(shù)據(jù)信息推送給用戶。本發(fā)明可以針對(duì)用戶需求或者根據(jù)用戶定制,有選擇性地獲取信息并進(jìn)行分類篩選,然后及時(shí)地為用戶提供其所需的科技服務(wù)信息,并實(shí)現(xiàn)用戶數(shù)據(jù)庫(kù)的自動(dòng)更新,為用戶提供更準(zhǔn)確、及時(shí)的科技信息服務(wù)。
文檔編號(hào)G06F17/30GK103235827SQ20131017353
公開日2013年8月7日 申請(qǐng)日期2013年5月13日 優(yōu)先權(quán)日2013年5月13日
發(fā)明者朱濤, 黨榮泉, 蔣夢(mèng)夢(mèng), 陳美麗, 趙西法, 李洪升 申請(qǐng)人:濟(jì)南政和科技有限公司