專利名稱:一種基于網(wǎng)絡(luò)的特定資源獲取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于網(wǎng)絡(luò)的特定資源獲取方法和相
應(yīng)裝置。
背景技術(shù):
隨著信息網(wǎng)絡(luò)技術(shù)的發(fā)展與成熟,人們?cè)絹?lái)越多地通過(guò)網(wǎng)絡(luò)獲取需要的資源,然后利用獲取的資源進(jìn)行知識(shí)庫(kù)構(gòu)建。比如:通過(guò)網(wǎng)絡(luò)獲取互譯詞條,將互譯詞條用于構(gòu)建雙語(yǔ)詞典。由于網(wǎng)絡(luò)的及時(shí)性和開(kāi)放性特征,通過(guò)網(wǎng)絡(luò)構(gòu)建詞典的方式相對(duì)于傳統(tǒng)的人工編寫模式,不僅大為節(jié)省了人力成本、提高了效率,而且構(gòu)建的雙語(yǔ)詞典內(nèi)容反映時(shí)代特色、全面豐富。現(xiàn)有技術(shù)中基于網(wǎng)絡(luò)獲取資源的實(shí)現(xiàn)步驟包括:選定關(guān)鍵詞,通過(guò)搜索引擎獲取一批與該關(guān)鍵詞相關(guān)的網(wǎng)頁(yè),然后分析網(wǎng)頁(yè)找到特定網(wǎng)站,利用預(yù)先編寫的爬蟲程序獲取網(wǎng)站資源。然而,這種基于網(wǎng)絡(luò)的獲取資源方式需要根據(jù)網(wǎng)站類型預(yù)先編寫不同的爬取模板,降低了資源獲取的效率和便捷性。此外,該方式獲取的資源分布范圍窄、數(shù)量有限。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的發(fā)明目的在于提供一種新的基于網(wǎng)絡(luò)的特定資源獲取方式與相應(yīng)的裝置,該方法和裝置通過(guò)網(wǎng)絡(luò)獲取網(wǎng)頁(yè)后,在對(duì)網(wǎng)頁(yè)進(jìn)行處理基礎(chǔ)上獲取資源分布特征,利用資源分布特征獲取相應(yīng)資源,從而避免針對(duì)不同的網(wǎng)站編寫不同的爬蟲模板,提高資源獲取的效率和便捷性。本發(fā)明實(shí)施例提供的一種基于網(wǎng)絡(luò)的特定資源獲取方法包括:讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系;以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);以獲取的每個(gè)網(wǎng)頁(yè)為處理對(duì)象,學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串;將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。優(yōu)選地,將提取的新的對(duì)應(yīng)式字串增加到所述特定資源的樣本空間后,以所述新的對(duì)應(yīng)式字串循環(huán)進(jìn)行權(quán)利要求1所述的各步驟,直至滿足預(yù)設(shè)條件時(shí)停止循環(huán)過(guò)程。優(yōu)選地,所述預(yù)設(shè)條件包括樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,如果是,則停止循環(huán)過(guò)程。優(yōu)選地,所述方法還包括:在學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征之前,基于網(wǎng)頁(yè)代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文,對(duì)網(wǎng)頁(yè)正文進(jìn)行學(xué)習(xí)和提取操作。進(jìn)一步優(yōu)選地,所述網(wǎng)頁(yè)代碼為HTML格式代碼。進(jìn)一步優(yōu)選地,所述基于網(wǎng)頁(yè)代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文包括:獲取網(wǎng)頁(yè)代碼;根據(jù)網(wǎng)頁(yè)代碼的可視標(biāo)簽類型過(guò)濾所述網(wǎng)頁(yè)代碼以獲取網(wǎng)頁(yè)正文。
進(jìn)一步優(yōu)選地,所述方法還包括:定位所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)正文中的位置,由所述對(duì)應(yīng)式字串所在位置向前和/或向后提取網(wǎng)頁(yè)正文中滿足所述分布特征要求的對(duì)應(yīng)式字串。優(yōu)選地,在將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間之前,對(duì)對(duì)應(yīng)式字串進(jìn)行過(guò)濾處理。優(yōu)選地,在提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串時(shí),還提取對(duì)應(yīng)式字串的關(guān)聯(lián)信息,將所述的關(guān)聯(lián)信息一并增加到所述特定資源的樣本空間。優(yōu)選地,以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索按照預(yù)設(shè)配置進(jìn)行,所述預(yù)設(shè)配置包括對(duì)搜索引擎、返回頁(yè)數(shù)、網(wǎng)頁(yè)爬取參數(shù)和/或線程數(shù)的配置。本發(fā)明還提供了一種基于網(wǎng)絡(luò)的特定資源獲取裝置,該裝置包括:讀取單元、搜索單元、學(xué)習(xí)單元、提取單元和更新單元,以及特定資源樣本空間,其中:所述讀取單元,用于讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系;所述搜索單元,用于以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);所述學(xué)習(xí)單元,用于從網(wǎng)頁(yè)中學(xué)習(xí)得到所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)中的分布特征;所述提取單元,用于提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串;所述更新單元,用于將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。優(yōu)選地,將提取的新的對(duì)應(yīng)式字串增加到所述特定資源的樣本空間后,以所述新的對(duì)應(yīng)式字串循環(huán)調(diào)用權(quán)利要求11所述的各單元,直至滿足預(yù)設(shè)條件時(shí)定制循環(huán)過(guò)程。所述預(yù)設(shè)條件包括樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,則:所述裝置包括判斷單元,用于判斷樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,如果是,則停止循環(huán)過(guò)程。。優(yōu)選地,所述裝置還包括抽取單元,用于在學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征之前,基于網(wǎng)頁(yè)代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文。進(jìn)一步優(yōu)選地,所述抽取單元包括獲取子單元和過(guò)濾子單元,其中:所述獲取子單元,用于獲取網(wǎng)頁(yè)代碼;所述過(guò)濾子單元,用于根據(jù)網(wǎng)頁(yè)代碼的可視標(biāo)簽類型過(guò)濾所述網(wǎng)頁(yè)代碼以獲取網(wǎng)頁(yè)正文。進(jìn)一步優(yōu)選地,所述裝置還包括定位單元,用于定位所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)正文中的位置,則:提取單元由所述對(duì)應(yīng)式字串所在位置向前和/或向后提取網(wǎng)頁(yè)正文中滿足所述分布特征要求的對(duì)應(yīng)式字串。優(yōu)選地,所述裝置還包括過(guò)濾單元,用于在將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間之前,對(duì)對(duì)應(yīng)式字串進(jìn)行過(guò)濾處理。優(yōu)選地,所述提取單元還用于提取對(duì)應(yīng)式字串的關(guān)聯(lián)信息,則:所述更新單元還用于將所述的關(guān)聯(lián)信息一并增加到所述特定資源的樣本空間。優(yōu)選地,所述搜索單元以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索按照預(yù)設(shè)配置進(jìn)行,所述預(yù)設(shè)配置包括對(duì)搜索引擎、返回頁(yè)數(shù)、網(wǎng)頁(yè)爬取參數(shù)和/或線程數(shù)的配置。本發(fā)明實(shí)施例給出的技術(shù)方案從特定資源樣本空間中讀取對(duì)應(yīng)式字串后,以對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索,以搜索獲得的各網(wǎng)頁(yè)為處理對(duì)象,從網(wǎng)頁(yè)中學(xué)習(xí)得到對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,然后在該網(wǎng)頁(yè)中提取滿足分布特征要求的對(duì)應(yīng)式字串,將提取的新對(duì)應(yīng)字串加入到特定資源樣本空間實(shí)現(xiàn)更新。與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案從網(wǎng)頁(yè)中學(xué)習(xí)出特征,在網(wǎng)頁(yè)中尋找滿足要求的對(duì)應(yīng)式字串,避免了針對(duì)不同的網(wǎng)站編寫不同的爬取模板,從而提高了特定資源的獲取效率和便捷性。此外,本發(fā)明實(shí)施例的技術(shù)方案可以循環(huán)多次進(jìn)行,對(duì)特定資源的樣本空間可進(jìn)行不斷迭代更新,擴(kuò)展了資源分布范圍,提高了獲取的特定資源的數(shù)量。
圖1為本發(fā)明方法的一個(gè)實(shí)施例流程圖;圖2為本發(fā)明方法的又一個(gè)實(shí)施例流程圖;圖3為本發(fā)明方法實(shí)施例的一個(gè)實(shí)例流程圖;圖4為本發(fā)明裝置的實(shí)施例組成框圖。
具體實(shí)施例方式本發(fā)明實(shí)施例的技術(shù)方案從特定資源樣本空間中讀取對(duì)應(yīng)式字串后,以對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索,以搜索獲得的各網(wǎng)頁(yè)為處理對(duì)象,從網(wǎng)頁(yè)中學(xué)習(xí)得到對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,然后在該網(wǎng)頁(yè)中提取滿足分布特征要求的對(duì)應(yīng)式字串,將提取的新對(duì)應(yīng)字串加入到特定資源樣本空間實(shí)現(xiàn)更新,避免了針對(duì)不同的網(wǎng)站編寫不同的爬蟲模板,提聞了資源獲取的效率和便捷性。為了使本領(lǐng)域技術(shù)人員能進(jìn)一步了解本發(fā)明的特征及技術(shù)內(nèi)容,下面結(jié)合附圖和具體實(shí)施例,對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)描述。在現(xiàn)代信息化社會(huì),對(duì)信息的處理早已擺脫了人工方式,幾乎均采用電子化設(shè)備實(shí)現(xiàn)相應(yīng)的工作。比如雙語(yǔ)詞典的編輯與擴(kuò)充、企業(yè)黃頁(yè)信息的收集與整理等,這類知識(shí)庫(kù)的構(gòu)建逐漸脫離單靠人工的傳統(tǒng)方式,而更多的采取基于互聯(lián)網(wǎng)的實(shí)現(xiàn)方法。但是,如前所述,目前的基于網(wǎng)絡(luò)的資源獲取方式不具有通用性,降低了通過(guò)網(wǎng)絡(luò)獲取資源的效率和復(fù)雜性。為克服現(xiàn)有技術(shù)中基于網(wǎng)絡(luò)實(shí)現(xiàn)資源獲取存在的缺陷,本發(fā)明提供了一種新的基于網(wǎng)絡(luò)的資源獲取方法。參見(jiàn)附圖1,該圖示出了本發(fā)明方法的一個(gè)實(shí)施例的流程圖。該實(shí)施例包括:步驟SlOl:讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系;這里的特定資源是指包含對(duì)應(yīng)式字串信息的集合,該集合構(gòu)成樣本空間,“對(duì)應(yīng)”是特定資源的元素的重要特征。對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,字符序列間具有對(duì)應(yīng)關(guān)系,諸如名人與名言、企業(yè)名稱與企業(yè)聯(lián)系方式、成語(yǔ)與成語(yǔ)的解釋、著作與著作中的語(yǔ)句等等均是可形成對(duì)應(yīng)關(guān)系的對(duì)應(yīng)式字串。比如毛澤東說(shuō):“一切反動(dòng)派都是紙老虎”,這里“毛澤東”是第一字符序列名人字串,“一切反動(dòng)派都是紙老虎”是第二字串名言字串,該兩個(gè)字串具有對(duì)應(yīng)關(guān)系。除這種兩端式對(duì)應(yīng)字串之外,網(wǎng)絡(luò)中還存在大量多段式對(duì)應(yīng)字串,t匕如“北京金山軟件有限公司,010-62927777,海淀區(qū)小營(yíng)西路33號(hào)”,這里第一字符序列“北京金山軟件有限公司”為企業(yè)名稱字串,第二字符序列“010-62927777”為企業(yè)聯(lián)系方式字串,第三字符序列“海淀區(qū)小營(yíng)西路33號(hào)”為企業(yè)地址字串,這三個(gè)字串具有對(duì)應(yīng)關(guān)系。特定資源樣本空間在首次進(jìn)行讀取操作時(shí),可預(yù)設(shè)一定數(shù)量的對(duì)應(yīng)式字串,通過(guò)后續(xù)步驟逐漸擴(kuò)展該樣本空間的容量,從而增加特定資源的數(shù)量。步驟S102:以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);從特定資源樣本空間讀取出對(duì)應(yīng)式字串后,以該對(duì)應(yīng)式字串作為整體進(jìn)行網(wǎng)絡(luò)搜索,網(wǎng)絡(luò)搜索前可對(duì)網(wǎng)絡(luò)搜索的模式進(jìn)行預(yù)先配置,使得網(wǎng)絡(luò)搜索按照預(yù)設(shè)的方式進(jìn)行。這里預(yù)設(shè)配置包括搜索引擎、返回頁(yè)數(shù)、網(wǎng)頁(yè)爬取參數(shù)、線程數(shù)的配置等。如設(shè)定搜索使用的搜索引擎種類和數(shù)量,每次搜索返回的網(wǎng)頁(yè)數(shù)量,同時(shí)開(kāi)啟的線程數(shù)。這些因素的具體取值取決于實(shí)際應(yīng)用場(chǎng)合對(duì)特定資源獲取的容量、精度、類型等的要求。通過(guò)對(duì)搜索模式的配置,可實(shí)現(xiàn)對(duì)搜索過(guò)程控制,有利于針對(duì)性從網(wǎng)絡(luò)中獲取特定資源。步驟S103:以獲取的每個(gè)網(wǎng)頁(yè)為處理對(duì)象,學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征;網(wǎng)頁(yè)搜索后,將獲取包含所述對(duì)應(yīng)式字串的大量網(wǎng)頁(yè),以獲取的每個(gè)網(wǎng)頁(yè)為處理對(duì)象,進(jìn)行分布特征學(xué)習(xí)和新對(duì)應(yīng)字串的提取等操作。學(xué)習(xí)對(duì)應(yīng)式字串的過(guò)程包括:解析所述對(duì)應(yīng)式字串在所述網(wǎng)頁(yè)中的分布形式,提取該分布形式作為分布特征。仍以前述毛澤東的一切反動(dòng)派均是紙老虎為例:假設(shè)在一篇網(wǎng)絡(luò)中該對(duì)應(yīng)式字串以這種分布形式存在:毛澤東-一切反動(dòng)派都是紙老虎,其分布形式是“人名”在前,“名言”在后,名人與名言之間通過(guò)短劃線連接,則分布特征為:()_()。不同的對(duì)應(yīng)式字串在相同的網(wǎng)頁(yè)中的分布特征可能相同,相同的對(duì)應(yīng)式字串在不同的網(wǎng)頁(yè)中的分布特征可能不同,由于以每個(gè)網(wǎng)頁(yè)為處理對(duì)象,一個(gè)對(duì)應(yīng)式字串在一篇網(wǎng)頁(yè)中可能存在多處,多處出現(xiàn)的對(duì)應(yīng)式字串的分布特征大多數(shù)情況下相同,但也可能不同,在不同的情況下,可通過(guò)統(tǒng)計(jì)頻率的方式選擇頻率最高的分布特征作為該對(duì)應(yīng)式字串的分布特征。步驟S104:提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串;獲得對(duì)應(yīng)式字串的分布特征后,即可根據(jù)該分布式特征對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行匹配,找出其他具有該分布特征的對(duì)應(yīng)式字串。比如在前述網(wǎng)頁(yè)中,除了有毛澤東的名言外,還可能以這樣的方式分布的周恩來(lái)的名言:周恩來(lái)-要得到人家尊重,首先要尊重人家。按照前述的分布特征,該句名人名言也滿足分布特征的要求,由此從網(wǎng)頁(yè)中提取出該名人名言作為滿足分布特征要求的對(duì)應(yīng)式字串。步驟S105:將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。特定資源樣本空間是存儲(chǔ)獲取的對(duì)應(yīng)式字串的集合,提取的對(duì)應(yīng)式字串包括用于搜索的對(duì)應(yīng)式字串相同的字串,也包括不相同的字串,這里為避免重復(fù),將提取的其他對(duì)應(yīng)式字串(新的對(duì)應(yīng)式字串)增加到特定資源樣本空間。本方法實(shí)施例給出的技術(shù)方案從特定資源樣本空間中讀取對(duì)應(yīng)式字串后,以對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索,以搜索獲得的各網(wǎng)頁(yè)為處理對(duì)象,從網(wǎng)頁(yè)中學(xué)習(xí)得到對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,然后在該網(wǎng)頁(yè)中提取滿足分布特征要求的對(duì)應(yīng)式字串,將提取的新對(duì)應(yīng)字串加入到特定資源樣本空間實(shí)現(xiàn)更新。與現(xiàn)有技術(shù)相比,本方法實(shí)施例的技術(shù)方案從網(wǎng)頁(yè)中學(xué)習(xí)出特征,在網(wǎng)頁(yè)中尋找滿足要求的對(duì)應(yīng)式字串,避免了針對(duì)不同的網(wǎng)站編寫不同的爬取模板,從而提高了特定資源的獲取效率和便捷性。而且,本方法技術(shù)方案不受限于特定的網(wǎng)站,具有較好的通用性,可適用于獲取具有對(duì)應(yīng)式關(guān)系的各種資源。前述實(shí)施例中雖然實(shí)現(xiàn)對(duì)特定資源樣本空間的更新,向初始預(yù)置的特定資源樣本空間增入了新的對(duì)應(yīng)式字串,但是,在實(shí)際應(yīng)用場(chǎng)合,這種資源樣本空間的增加數(shù)量遠(yuǎn)不能滿足實(shí)際需要。為此,參見(jiàn)圖2,本發(fā)明優(yōu)選循環(huán)進(jìn)行前述實(shí)施例的各步驟,由此構(gòu)成本發(fā)明的又一個(gè)實(shí)施例。該實(shí)施例包括:在將提取的新的對(duì)應(yīng)式字串增加到所述特定資源的樣本空間后,再?gòu)母潞蟮奶囟ㄙY源樣本空間中讀取所述新的對(duì)應(yīng)式字串,然后以該新的對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索,搜索后對(duì)獲取的網(wǎng)頁(yè)進(jìn)行學(xué)習(xí),以得到該對(duì)應(yīng)式字串的分布特征,根據(jù)該分布特征提取網(wǎng)頁(yè)中的其他滿足該分布特征的對(duì)應(yīng)式字串,將該對(duì)應(yīng)式字串增加入特定資源樣本空間,然后判斷特定資源樣本空間的樣本增加量(樣本空間內(nèi)對(duì)應(yīng)式字串的變化量)是否小于預(yù)設(shè)閾值,如果是,說(shuō)明樣本空間的字串已達(dá)到預(yù)定要求,如果否,則繼續(xù)進(jìn)行上述步驟。本方法實(shí)施例的技術(shù)方案通過(guò)循環(huán)多次進(jìn)行,對(duì)特定資源的樣本空間進(jìn)行不斷迭代更新,擴(kuò)展了資源分布范圍,提高了獲取的特定資源的數(shù)量。值得注意的是:本實(shí)施例是通過(guò)判斷樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值的方式控制循環(huán)過(guò)程,實(shí)際上,采取其他預(yù)設(shè)條件同樣能實(shí)現(xiàn)本實(shí)施例的發(fā)明目的,比如:將是否接收到用戶停止循環(huán)的指示作為預(yù)設(shè)條件,當(dāng)用戶指示停止循環(huán)時(shí)則停止;還可以預(yù)先設(shè)定需要獲取的特定資源樣本空間內(nèi)的對(duì)應(yīng)式字串的數(shù)量作為預(yù)設(shè)條件,當(dāng)達(dá)到預(yù)設(shè)數(shù)量時(shí),則停止循環(huán)過(guò)程。上述兩個(gè)實(shí)施例在通過(guò)搜索獲取到大量網(wǎng)頁(yè)后,可對(duì)網(wǎng)頁(yè)直接進(jìn)行學(xué)習(xí)和提取操作,也可對(duì)獲取的網(wǎng)頁(yè)進(jìn)行預(yù)處理后進(jìn)行學(xué)習(xí)和提取操作。本發(fā)明優(yōu)選后者。對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理包括:基于諸如HTML代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文。通過(guò)該預(yù)處理,后續(xù)的學(xué)習(xí)和提取操作可針對(duì)網(wǎng)頁(yè)正文進(jìn)行,使得學(xué)習(xí)和提取操作的準(zhǔn)確性更高、噪聲更低,從而提高了特定資源樣本空間的數(shù)據(jù)質(zhì)量。上述兩個(gè)實(shí)施例中對(duì)網(wǎng)頁(yè)進(jìn)行對(duì)應(yīng)式字串提取時(shí),可直接從網(wǎng)頁(yè)的頭部開(kāi)始順序查找到網(wǎng)頁(yè)尾部,但是,這樣處理可能帶來(lái)較大的噪聲,導(dǎo)致提取的對(duì)應(yīng)式字串出現(xiàn)錯(cuò)誤。為此,本發(fā)明優(yōu)選在學(xué)習(xí)得到對(duì)應(yīng)式字串的分布特征后,先定位所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)中的位置,然后以該對(duì)應(yīng)式字串所在位置為起點(diǎn),向前或者向后提取網(wǎng)頁(yè)中的滿足分布特征的對(duì)應(yīng)式字串。通過(guò)這種以對(duì)應(yīng)式字串為界對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行劃分,可降低提取過(guò)程中的噪聲干擾,達(dá)到盡可能準(zhǔn)確提取新的對(duì)應(yīng)式字串的目的,而且這種方式,還有利于提高獲取對(duì)應(yīng)式字串的速度。上述實(shí)施例中提取單元除用于提取符合分布特征的對(duì)應(yīng)式字串外,還可以提取網(wǎng)頁(yè)中與該對(duì)應(yīng)式字串的關(guān)聯(lián)信息,并將這些相關(guān)信息一同增加到特定資源的樣本空間。比如:對(duì)于名人名言,還可以提取名人的國(guó)籍,名人的生平事跡、名人的居住地等信息。將這些關(guān)聯(lián)信息增加了特定資源樣本空間后將進(jìn)一步豐富樣本空間,增強(qiáng)特定資源的可利用性。為了更清楚地說(shuō)明本發(fā)明的技術(shù)方案,下面以一個(gè)具體實(shí)例進(jìn)行描述:參見(jiàn)附圖3,該圖示出了針對(duì)名人名言這種對(duì)應(yīng)式特定資源的獲取過(guò)程。步驟S301:初始化名人名言樣本空間和配置文件。名人名言樣本空間為本發(fā)明特定資源的一種,初始化時(shí)可設(shè)置各種可能的對(duì)應(yīng)式字串,對(duì)應(yīng)式字串的數(shù)量可根據(jù)實(shí)際需要設(shè)置,數(shù)量較少時(shí),獲得的名人名言的數(shù)量較好,但收斂速度快;數(shù)量大時(shí),獲得的名人名言豐富,但要實(shí)現(xiàn)樣本空間中的所有對(duì)應(yīng)字串的輪詢需要較長(zhǎng)的時(shí)間。配置文件用于定義搜索摸索,即配置使用的搜索引擎、返回頁(yè)數(shù)、樣本地址、網(wǎng)頁(yè)爬取參數(shù)、線程數(shù)及文件地址等信息。
步驟S302:讀取名人名言樣本空間中的一組名人名言,例如“毛澤東”、“一切反動(dòng)派都是紙老虎”為一組名人名言。步驟S303:以所讀取的名人名言為關(guān)鍵詞按照配置文件的預(yù)設(shè)配置進(jìn)行搜索以獲得大量的相關(guān)網(wǎng)頁(yè)。步驟S304:基于HTML可視標(biāo)簽抽取網(wǎng)頁(yè)正文。網(wǎng)頁(yè)中通常包含大量信息,比如廣告、聲明、嵌入控件等,這些內(nèi)容對(duì)于本發(fā)明的特征學(xué)習(xí)和字串提取沒(méi)有直接作用,為了提高處理速度,需要對(duì)他們進(jìn)行剔除?;贖TML可視標(biāo)簽的網(wǎng)頁(yè)正文抽取過(guò)程包括:(I)獲取網(wǎng)頁(yè)的HTML代碼;獲取的網(wǎng)頁(yè)HTML代碼,包括可視代碼和非可視代碼兩種,非可視代碼由于不具有識(shí)別價(jià)值,對(duì)其進(jìn)行刪除處理。(2)分析HTML代碼中的HTML可視標(biāo)簽得到不同類型的標(biāo)簽,根據(jù)可視標(biāo)簽類型采取不同的過(guò)濾措施:比如:分析HTML標(biāo)簽得到如下三種類型的標(biāo)簽:a、需要?jiǎng)h除標(biāo)簽及其內(nèi)容的標(biāo)簽,該類標(biāo)簽包括:script|noscript|style|select |......|iframe|frameset|colgroup|button | .....1 area I link ImetaItextarea ;b、僅需要?jiǎng)h除的標(biāo)簽這類標(biāo)簽包括:a Iabbr|acronym tt|u|i|b big|small|......|dfn|pre|var|strong|em|samp|k
bdI dir|font|ins|label|sub|sup q|s span ;C、需要替換為回車的標(biāo)簽,這類標(biāo)簽包括:body|h\d+ p|br|hr div|......|tfoot|dir|menu ul|ol|Ii|dl|dt|dd ;利用前述步驟對(duì)網(wǎng)頁(yè)進(jìn)行吸收過(guò)濾處理,并刪除多余空格及回車進(jìn)行過(guò)濾,得到網(wǎng)頁(yè)正文。以上僅以HTML作為一種實(shí)施例,在這里特別說(shuō)明的是,獲取的網(wǎng)頁(yè)代碼不僅限于HTML格式,本發(fā)明實(shí)施例的技術(shù)方案對(duì)于HTML各種變體同樣適用,例如jsp、asp、php、xhtml格式代碼。步驟S305:從各網(wǎng)頁(yè)正文中學(xué)習(xí)得到讀取的名人名言在該網(wǎng)頁(yè)中的分布特征。例如該網(wǎng)頁(yè)特征為“說(shuō):”。步驟S306:根據(jù)所述分布特征提取網(wǎng)頁(yè)正文中的名人名言。利用搜索引擎關(guān)鍵詞“名人名言”將網(wǎng)頁(yè)正文一分為二,對(duì)于網(wǎng)頁(yè)正文前半部分自下而上根據(jù)分布特征抽取名人名言;對(duì)于網(wǎng)頁(yè)正文的下半部分自上而下根據(jù)分布特征抽取名人名言。對(duì)于下半部分的抽取還可先將后半部分網(wǎng)頁(yè)進(jìn)行翻轉(zhuǎn)后提取。步驟S307:判斷名人名言樣本空間中的樣本是否讀取完,如果沒(méi)有,則返回步驟S302 ;如果已經(jīng)讀取完,則將提取的新的名人名言增加到名人名言樣本空間,進(jìn)入步驟S308。數(shù)據(jù)量大時(shí),可以對(duì)提取的名人名言進(jìn)行過(guò)濾,提取與樣本空間中不同的名言,從新獲得的名人名言中刪除 樣本空間中已有名言。特別地,提取出的名人名言對(duì)應(yīng)字串可能存在噪聲,混亂字符等無(wú)用信息,還可以再進(jìn)行除噪等過(guò)濾處理,過(guò)濾掉此類無(wú)用信息,有利于擴(kuò)大特定資源的應(yīng)用,減少特定資源樣本空間的存儲(chǔ)量。該過(guò)濾過(guò)程可以統(tǒng)一進(jìn)行,也可以每抽取一次名人名言后緊接著過(guò)濾。步驟S308:判斷新增加的名人名言數(shù)量是否小于預(yù)設(shè)閾值,如果是,則結(jié)束流程;如果否,則返回步驟S302讀取新增加的一組名人名言。上面的敘述主要針對(duì)本發(fā)明的方法實(shí)施例,實(shí)際上,相應(yīng)地,本發(fā)明還提供了一種基于網(wǎng)絡(luò)的特定資源獲取裝置的實(shí)施例。參見(jiàn)附圖4,本發(fā)明提供的裝置實(shí)施例400包括:讀取單元401、搜索單元402、學(xué)習(xí)單元403、提取單元404和更新單元405,以及特定資源樣本空間406,其中:讀取單元401,用于讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系;搜索單元402,用于以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);學(xué)習(xí)單元403,用于從網(wǎng)頁(yè)中學(xué)習(xí)得到所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)中的分布特征;提取單元404,用于提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串;更新單元405,用于將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。本裝置實(shí)施例的工作過(guò)程是:讀取單元401讀取特定資源樣本空間406的對(duì)應(yīng)式字串;搜索單元402以讀取的對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);然后由學(xué)習(xí)單元403從獲取的網(wǎng)頁(yè)中學(xué)習(xí)得到所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)中的分布特征;提取單元404根據(jù)所述分布特征提取網(wǎng)頁(yè)中滿足要求的對(duì)應(yīng)式字串;最后由更新單元405將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。本裝置實(shí)施例給出的技術(shù)方案從特定資源樣本空間中讀取對(duì)應(yīng)式字串后,以對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索,以搜索獲得的各網(wǎng)頁(yè)為處理對(duì)象,從網(wǎng)頁(yè)中學(xué)習(xí)得到對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,然后在該網(wǎng)頁(yè)中提取滿足分布特征要求的對(duì)應(yīng)式字串,將提取的新對(duì)應(yīng)字串加入到特定資源樣本空間實(shí)現(xiàn)更新。與現(xiàn)有技術(shù)相比,本裝置實(shí)施例的技術(shù)方案從網(wǎng)頁(yè)中學(xué)習(xí)出特征,在網(wǎng)頁(yè)中尋找滿足要求的對(duì)應(yīng)式字串,避免了針對(duì)不同的網(wǎng)站編寫不同的爬取模板,從而提高了特定資源的獲取效率和便捷性。而且,本裝置實(shí)施例不受限于特定的網(wǎng)站,具有較好的通用性,可適用于獲取具有對(duì)應(yīng)式關(guān)系的各種資源。上述實(shí)施例中將提取的新的對(duì)應(yīng)式字串增加到所述特定資源的樣本空間后,還可以所述新的對(duì)應(yīng)式字串循環(huán)調(diào)用前述實(shí)施例的各單元,直至滿足預(yù)設(shè)條件時(shí)停止循環(huán)過(guò)程,這里的預(yù)設(shè)條件可根據(jù)實(shí)際情況進(jìn)行設(shè)置。比如預(yù)設(shè)條件可設(shè)置為樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,還可以設(shè)置為是否接收到用戶的停止循環(huán)的指示等等。通過(guò)循環(huán)操作可擴(kuò)大樣本空間的數(shù)量。上述實(shí)施例還可以包括抽取單元407,用于在學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征之前,基于諸如HTML代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文。通過(guò)抽取單元對(duì)獲取的網(wǎng)頁(yè)進(jìn)行預(yù)處理,凈化了網(wǎng)頁(yè),使得后續(xù)的學(xué)習(xí)和提取操作可僅針對(duì)網(wǎng)頁(yè)正文進(jìn)行,從而避免了網(wǎng)頁(yè)中無(wú)關(guān)信息的干擾,提高了提取字串的準(zhǔn)確度和速度。抽取單元可根據(jù)實(shí)際情況具有不同的內(nèi)部結(jié)構(gòu),本實(shí)施例優(yōu)選抽取單元包括獲取子單元和過(guò)濾子單元,獲取子單元用于獲取網(wǎng)頁(yè)的諸如HTML代碼;過(guò)濾子單元用于根據(jù)諸如HTML代碼的可視標(biāo)簽類型過(guò)濾HTML代碼以獲取網(wǎng)頁(yè)正文。值得說(shuō)明的是本發(fā)明裝置實(shí)施例的技術(shù)方案對(duì)于HTML各種變體同樣適用,例如jsp、asp、php、xhtml格式代碼。上述裝置實(shí)施例還可以包括定位單元408,用于定位所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)正文中的位置,則:提取單元由所述對(duì)應(yīng)式字串所在位置向前和/或向后提取網(wǎng)頁(yè)正文中滿足所述分布特征要求的對(duì)應(yīng)式字串。該單元的目的在于減少提取字串過(guò)程中的噪聲干擾,有利于準(zhǔn)確提取字串。上述裝置實(shí)施例還可以包括過(guò)濾單元409,用于在將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間之前,對(duì)提取的新的對(duì)應(yīng)式字串進(jìn)行過(guò)濾處理。通過(guò)過(guò)濾單元可以濾除提取的對(duì)應(yīng)式字串中的冗余信息,有利于擴(kuò)大特定資源的應(yīng)用,減少特定資源樣本空間的存儲(chǔ)量。上述裝置實(shí)施例所述的提取單元還用于提取對(duì)應(yīng)式字串的關(guān)聯(lián)信息,則:所述更新單元還用于將所述的關(guān)聯(lián)信息一并增加到所述特定資源的樣本空間。將這些關(guān)聯(lián)信息增加了特定資源樣本空間后將進(jìn)一步豐富樣本空間,增強(qiáng)特定資源的可利用性。上述實(shí)施例所述的搜索單元以對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索按照預(yù)設(shè)配置進(jìn)行,預(yù)設(shè)配置可以包括對(duì)搜索引擎、返回頁(yè)數(shù)、網(wǎng)頁(yè)爬取參數(shù)和/或線程數(shù)等的配置。通過(guò)對(duì)搜索模式的配置,可實(shí)現(xiàn)對(duì)搜索過(guò)程的控制,有利于針對(duì)性地從網(wǎng)絡(luò)中獲取特定資源。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于網(wǎng)絡(luò)的特定資源獲取方法,其特征在于,該方法包括: 讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系; 以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);以獲取的每個(gè)網(wǎng)頁(yè)為處理對(duì)象,學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串; 將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將提取的新的對(duì)應(yīng)式字串增加到所述特定資源的樣本空間后,以所述新的對(duì)應(yīng)式字串循環(huán)進(jìn)行權(quán)利要求1所述的各步驟,直至滿足預(yù)設(shè)條件時(shí)停止循環(huán)過(guò)程。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)條件包括樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,如果是,則停止循環(huán)過(guò)程。
4.根據(jù)權(quán)利要求1所述的 方法,其特征在于,所述方法還包括:在學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征之前,基于網(wǎng)頁(yè)代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文,對(duì)網(wǎng)頁(yè)正文進(jìn)行學(xué)習(xí)和提取操作。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述網(wǎng)頁(yè)代碼為HTML格式代碼。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于網(wǎng)頁(yè)代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文包括: 獲取網(wǎng)頁(yè)代碼;根據(jù)網(wǎng)頁(yè)代碼的可視標(biāo)簽類型過(guò)濾所述網(wǎng)頁(yè)代碼以獲取網(wǎng)頁(yè)正文。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:定位所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)正文中的位置,由所述對(duì)應(yīng)式字串所在位置向前和/或向后提取網(wǎng)頁(yè)正文中滿足所述分布特征要求的對(duì)應(yīng)式字串。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間之前,對(duì)對(duì)應(yīng)式字串進(jìn)行過(guò)濾處理。
9.根據(jù)權(quán)利要求1至8中任何一項(xiàng)所述的方法,其特征在于,在提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串時(shí),還提取對(duì)應(yīng)式字串的關(guān)聯(lián)信息,將所述的關(guān)聯(lián)信息一并增加到所述特定資源的樣本空間。
10.根據(jù)權(quán)利要求1至8中任何一項(xiàng)所述的方法,其特征在于,以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索按照預(yù)設(shè)配置進(jìn)行,所述預(yù)設(shè)配置包括對(duì)搜索引擎、返回頁(yè)數(shù)、網(wǎng)頁(yè)爬取參數(shù)和/或線程數(shù)的配置。
11.一種基于網(wǎng)絡(luò)的特定資源獲取裝置,其特征在于,該裝置包括:讀取單元、搜索單元、學(xué)習(xí)單元、提取單元和更新單元,以及特定資源樣本空間,其中: 所述讀取單元,用于讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系; 所述搜索單元,用于以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè); 所述學(xué)習(xí)單元,用于從網(wǎng)頁(yè)中學(xué)習(xí)得到所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)中的分布特征; 所述提取單元,用于提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串; 所述更新單元,用于將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,將提取的新的對(duì)應(yīng)式字串增加到所述特定資源的樣本空間后,以所述新的對(duì)應(yīng)式字串循環(huán)調(diào)用權(quán)利要求11所述的各單元,直至滿足預(yù)設(shè)條件時(shí)停止循環(huán)過(guò)程。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述預(yù)設(shè)條件包括樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,則:所述裝置包括判斷單元,用于判斷樣本空間內(nèi)對(duì)應(yīng)式字串的數(shù)量變化是否小于預(yù)設(shè)閾值,如果是,則停止循環(huán)過(guò)程。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括抽取單元,用于在學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征之前,基于網(wǎng)頁(yè)代碼的可視標(biāo)簽抽取網(wǎng)頁(yè)的網(wǎng)頁(yè)正文。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述抽取單元包括獲取子單元和過(guò)濾子單元,其中: 所述獲取子單元,用于獲取網(wǎng)頁(yè)代碼; 所述過(guò)濾子單元,用于根據(jù)網(wǎng)頁(yè)代碼的可視標(biāo)簽類型過(guò)濾所述網(wǎng)頁(yè)代碼以獲取網(wǎng)頁(yè)正文。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述裝置還包括定位單元,用于定位所述對(duì)應(yīng)式字串在網(wǎng)頁(yè)正文中的位 置,則:提取單元由所述對(duì)應(yīng)式字串所在位置向前和/或向后提取網(wǎng)頁(yè)正文中滿足所述分布特征要求的對(duì)應(yīng)式字串。
17.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括過(guò)濾單元,用于在將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間之前,對(duì)對(duì)應(yīng)式字串進(jìn)行過(guò)濾處理。
18.根據(jù)權(quán)利要求11至17中任何一項(xiàng)所述的裝置,其特征在于,所述提取單元還用于提取對(duì)應(yīng)式字串的關(guān)聯(lián)信息,則:所述更新單元還用于將所述的關(guān)聯(lián)信息一并增加到所述特定資源的樣本空間。
19.根據(jù)權(quán)利要求11至17中任何一項(xiàng)所述的裝置,其特征在于,所述搜索單元以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索按照預(yù)設(shè)配置進(jìn)行,所述預(yù)設(shè)配置包括對(duì)搜索引擎、返回頁(yè)數(shù)、網(wǎng)頁(yè)爬取參數(shù)和/或線程數(shù)的配置。
全文摘要
本發(fā)明的實(shí)施例提供了一種基于網(wǎng)絡(luò)的特定資源獲取方法。該方法包括讀取特定資源樣本空間的對(duì)應(yīng)式字串,所述對(duì)應(yīng)式字串包括至少兩個(gè)字符序列,各字符序列間具有對(duì)應(yīng)關(guān)系;以所述對(duì)應(yīng)式字串為關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索獲取網(wǎng)頁(yè);以獲取的每個(gè)網(wǎng)頁(yè)為處理對(duì)象,學(xué)習(xí)得到所述對(duì)應(yīng)式字串在各網(wǎng)頁(yè)的分布特征,提取網(wǎng)頁(yè)中滿足所述分布特征要求的對(duì)應(yīng)式字串;將提取的新的對(duì)應(yīng)式字串增加到所述特定資源樣本空間。本發(fā)明的實(shí)施例還提供了一種于網(wǎng)絡(luò)的特定資源獲取裝置。本發(fā)明實(shí)施例的技術(shù)方案提高了特定資源獲取的效率和便捷性。
文檔編號(hào)G06F17/30GK103186645SQ201110460630
公開(kāi)日2013年7月3日 申請(qǐng)日期2011年12月31日 優(yōu)先權(quán)日2011年12月31日
發(fā)明者田建峰, 于亮 申請(qǐng)人:北京金山軟件有限公司, 北京金山數(shù)字娛樂(lè)科技有限公司