專利名稱:一種數(shù)據(jù)庫(kù)建立方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別涉及一種對(duì)網(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行有序整理和存儲(chǔ)的數(shù)據(jù) 庫(kù)建立方法和裝置。
背景技術(shù):
當(dāng)前,互聯(lián)網(wǎng)上的數(shù)據(jù)總體上雜亂無(wú)章,用戶如果需要查找某個(gè)具體的信息,比如 關(guān)于“ χ X學(xué)校”的介紹,通常需要借助于搜索弓I擎來(lái)進(jìn)行搜索。但是,這種搜索方式存在一定的缺陷,即不能使用戶準(zhǔn)確方便地找到所需信息,甚 至不能找到所需信息。這是因?yàn)榘凑宅F(xiàn)有搜索方式,用戶在輸入關(guān)鍵詞,比如“XX學(xué)?!?后,搜索引擎會(huì)顯示出包含該關(guān)鍵詞的所有信息,如“XX學(xué)校”的地址、用戶對(duì)“XX學(xué) 校”的評(píng)價(jià)、“ X X學(xué)?!钡慕榻B、與“ X X學(xué)?!毕嚓P(guān)的歷史事件,以及“ X X學(xué)?!钡南嚓P(guān) 新聞等,而且這些信息在顯示時(shí)是混雜在一起的,不能進(jìn)行有效區(qū)分,那么,用戶需要進(jìn)行 進(jìn)一步的篩選,才能從中找到自己所需的信息,很不方便。另外,對(duì)于某些比較不常用的關(guān) 鍵詞,比如“ X X學(xué)?!?,該學(xué)校為用戶當(dāng)?shù)匾粋€(gè)很小的學(xué)校,不知名,所以互聯(lián)網(wǎng)上沒(méi)有關(guān) 于該學(xué)校的相關(guān)介紹,那么如果用戶按照現(xiàn)有方式進(jìn)行搜索,則根本就不能得到所需的信 肩、O
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種數(shù)據(jù)庫(kù)建立方法,能夠使用戶準(zhǔn)確方 便地搜索到自己所需的信息。本發(fā)明的另一目的在于提供一種數(shù)據(jù)庫(kù)建立裝置,能夠使用戶準(zhǔn)確方便地搜索到 自己所需的信息。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的—種數(shù)據(jù)庫(kù)建立方法,包括確定目標(biāo)數(shù)據(jù)網(wǎng)站;從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信息按照所屬類別的不 同分別存儲(chǔ)到數(shù)據(jù)庫(kù)中;接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不同分別存儲(chǔ)到所述數(shù) 據(jù)庫(kù)中。所述確定目標(biāo)數(shù)據(jù)網(wǎng)站包括獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;按照預(yù)定規(guī)則,分別判斷每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合要求,如果是,則將該初 選目標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù)據(jù)網(wǎng)站。所述從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息包括訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容;利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁(yè)內(nèi)容中采集所需信息。
所述訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容包 括分析每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站的統(tǒng)一資源定位符URL,確定該目標(biāo)數(shù)據(jù)網(wǎng)站的網(wǎng)頁(yè)網(wǎng)址 是否有規(guī)律可循,如果是,則根據(jù)所述規(guī)律構(gòu)造循環(huán)條件,并利用構(gòu)造出的循環(huán)條件依次訪 問(wèn)每個(gè)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)內(nèi)容;否則,通過(guò)對(duì)目標(biāo)數(shù)據(jù)網(wǎng)站的源代碼進(jìn)行分析或利用搜索引擎進(jìn)行搜索,獲取每 個(gè)網(wǎng)頁(yè)的網(wǎng)址,按照確定出的網(wǎng)址訪問(wèn)每個(gè)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)內(nèi)容。所述利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁(yè)內(nèi)容中采集所需信息 之前,進(jìn)一步包括剔除網(wǎng)頁(yè)內(nèi)容中的超文本鏈接標(biāo)示語(yǔ)言HTML標(biāo)簽以及無(wú)用的空白字符;確定網(wǎng)頁(yè)內(nèi)容的文字編碼方式是否符合要求,如果不符合,將其轉(zhuǎn)換為預(yù)定的文 字編碼方式。該方法進(jìn)一步包括將所確定的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息的方式 進(jìn)行保存,依據(jù)所保存的信息,對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)或定時(shí)更新。該方法進(jìn)一步包括生成搜索界面;接收用戶輸入的關(guān)鍵詞,并在所述數(shù)據(jù)庫(kù)中搜索包含所述關(guān)鍵詞的信息顯示給用 戶。所述搜索包含所述關(guān)鍵詞的信息顯示給用戶包括當(dāng)所述關(guān)鍵詞的數(shù)量為一個(gè)時(shí),在不同類別中分別搜索包含所述關(guān)鍵詞的信息, 并將搜索到的每個(gè)類別中包含所述關(guān)鍵詞的前N條信息顯示給用戶;所述N為正整數(shù);當(dāng)所述關(guān)鍵詞的數(shù)量為兩個(gè)以上時(shí),確定用戶是否需要進(jìn)行比較搜索,如果是,則 針對(duì)每個(gè)關(guān)鍵詞,分別在不同類別中搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)關(guān)鍵 詞所對(duì)應(yīng)的同一類別中的前N條信息以對(duì)照的形式同時(shí)顯示給用戶。該方法進(jìn)一步包括按照預(yù)先設(shè)定的鏈接關(guān)系,搜索與包含所述關(guān)鍵詞的信息相 關(guān)的信息并顯示給用戶。一種數(shù)據(jù)庫(kù)建立裝置,包括數(shù)據(jù)庫(kù)、確定單元、第一存儲(chǔ)單元以及第二存儲(chǔ)單元, 其中所述確定單元,用于確定目標(biāo)數(shù)據(jù)網(wǎng)站;所述第一存儲(chǔ)單元,用于從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所 需信息按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中;所述第二存儲(chǔ)單元,用于接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別 的不同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中。所述確定單元包括獲取子單元,用于獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;確定子單元,用于按照預(yù)定規(guī)則,分別判斷每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合要求, 如果是,則將該初選目標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù)據(jù)網(wǎng)站。所述第一存儲(chǔ)單元包括
訪問(wèn)子單元,用于訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁(yè) 的網(wǎng)頁(yè)內(nèi)容;采集子單元,用于利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁(yè)內(nèi)容中采 集所需信息;存儲(chǔ)子單元,用于將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù) 庫(kù)中。所述采集子單元進(jìn)一步用于,剔除網(wǎng)頁(yè)內(nèi)容中的超文本鏈接標(biāo)示語(yǔ)言HTML標(biāo)簽 以及無(wú)用的空白字符,并確定網(wǎng)頁(yè)內(nèi)容的文字編碼方式是否符合要求,如果不符合,則將其 轉(zhuǎn)換為預(yù)定的文字編碼方式。該裝置進(jìn)一步包括更新單元,用于將所確定的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集 所需信息的方式進(jìn)行保存,依據(jù)所保存的信息,對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)或定時(shí)更新。該裝置進(jìn)一步包括顯示單元,用于生成搜索界面,并根據(jù)用戶輸入的關(guān)鍵詞,在所述數(shù)據(jù)庫(kù)中搜索包 含所述關(guān)鍵詞的信息顯示給用戶;其中,當(dāng)所述關(guān)鍵詞的數(shù)量為一個(gè)時(shí),在不同類別中分別搜索包含所述關(guān)鍵詞的信息, 并將搜索到的每個(gè)類別中包含所述關(guān)鍵詞的前N條信息顯示給用戶,所述N為正整數(shù);當(dāng)所 述關(guān)鍵詞的數(shù)量為兩個(gè)以上時(shí),確定用戶是否需要進(jìn)行比較搜索,如果是,則針對(duì)每個(gè)關(guān)鍵 詞,分別在不同類別中搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)關(guān)鍵詞所對(duì)應(yīng)的同 一類別中的前N條信息以對(duì)照的形式同時(shí)顯示給用戶。所述顯示單元進(jìn)一步用于,按照預(yù)先設(shè)定的鏈接關(guān)系,搜索與包含所述關(guān)鍵詞的 信息相關(guān)的信息并顯示給用戶??梢?jiàn),采用本發(fā)明的技術(shù)方案,可對(duì)互聯(lián)網(wǎng)上的雜亂無(wú)章的數(shù)據(jù)進(jìn)行整理,進(jìn)行有 效分類,利用整理好的數(shù)據(jù)建立數(shù)據(jù)庫(kù),同時(shí),可任由用戶編輯或創(chuàng)建新的數(shù)據(jù),并將其保 存到數(shù)據(jù)庫(kù)中,這樣,即使是原有互聯(lián)網(wǎng)上沒(méi)有的信息,也能在本發(fā)明所述數(shù)據(jù)庫(kù)中保存下 來(lái),從而降低了用戶搜索不到所需信息的概率;再有,本發(fā)明所述方案使得用戶在進(jìn)行搜索 時(shí),一次就能獲取到關(guān)于所輸入的關(guān)鍵詞的方方面面的所有信息,另外,與現(xiàn)有技術(shù)相比, 本發(fā)明所述方案按照不同類別對(duì)搜索到的信息進(jìn)行顯示,從而方便了用戶從中準(zhǔn)確查找到 自己所需的信息;再有,本發(fā)明所述方案可進(jìn)一步顯示出與包含用戶輸入的關(guān)鍵詞的信息 相關(guān)的其它信息,從而為用戶提供了盡可能多的信息量,提升了用戶體驗(yàn)。
圖1為本發(fā)明所述方案的整體流程示意圖。圖2為本發(fā)明方法實(shí)施例的流程圖。圖3為本發(fā)明裝置實(shí)施例的組成結(jié)構(gòu)示意圖。
具體實(shí)施例方式針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明中提出一種全新的數(shù)據(jù)庫(kù)建立方案,如圖1 所示,圖1為本發(fā)明所述方案的整體流程示意圖,即對(duì)互聯(lián)網(wǎng)上已有的數(shù)據(jù)進(jìn)行整理,確定目標(biāo)數(shù)據(jù)網(wǎng)站,并從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,將采集到的所需信息按照所屬類 別的不同分別存儲(chǔ)到數(shù)據(jù)庫(kù)中;同時(shí),可由用戶根據(jù)需要,自己編輯或創(chuàng)建數(shù)據(jù),并將用戶 編輯或創(chuàng)建的數(shù)據(jù)存儲(chǔ)到所建立的數(shù)據(jù)庫(kù)中,以便對(duì)數(shù)據(jù)庫(kù)中所存儲(chǔ)的信息進(jìn)行完善。為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉實(shí)施例,對(duì) 本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明。圖2為本發(fā)明方法實(shí)施例的流程圖。如圖2所示,包括以下步驟步驟201 確定目標(biāo)數(shù)據(jù)網(wǎng)站。本步驟中,首先,利用已有的搜索引擎,搜索所有初選目標(biāo)數(shù)據(jù)網(wǎng)站;然后,判斷各 初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合預(yù)定要求,如果符合,則將該初選目標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù) 據(jù)網(wǎng)站。舉例說(shuō)明在現(xiàn)有的某一搜索引擎的搜索界面上輸入關(guān)鍵詞“餐館信息”,那么將 會(huì)得到一系列有關(guān)餐館信息匯總的網(wǎng)站(這些網(wǎng)站均需要是不會(huì)引起版權(quán)糾紛的網(wǎng)站,即 沒(méi)有版權(quán)保護(hù)的網(wǎng)站),這些網(wǎng)站即為初選目標(biāo)數(shù)據(jù)網(wǎng)站;然后,逐個(gè)分析每個(gè)初選目標(biāo)數(shù) 據(jù)網(wǎng)站上包括的餐館數(shù)目,如果大于某一閾值,比如一萬(wàn)個(gè),則將該初選目標(biāo)數(shù)據(jù)網(wǎng)站確定 為目標(biāo)數(shù)據(jù)網(wǎng)站。如何分析每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站上包括的餐館數(shù)目為現(xiàn)有技術(shù),不再贅 述。另外,通常無(wú)需對(duì)搜索出的所有初選目標(biāo)數(shù)據(jù)網(wǎng)站均進(jìn)行分析,比如可只分析顯示在首 頁(yè)的網(wǎng)站等,具體實(shí)現(xiàn)方式不限。步驟202 從所確定的目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信息按 照所屬類別的不同分別存儲(chǔ)到數(shù)據(jù)庫(kù)中。本步驟中,分別訪問(wèn)確定出的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所 需的信息,比如餐館名稱、地址、聯(lián)系電話以及介紹等。在實(shí)際應(yīng)用中,在采集所需信息之前,需要首先獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè) 網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,具體獲取方式如下分析每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站的統(tǒng)一資源定位符(URL,Uniform ResourceLocator),確 定每個(gè)網(wǎng)頁(yè)的網(wǎng)址是否有規(guī)律可循,如果是,則根據(jù)所述規(guī)律構(gòu)造循環(huán)條件,并利用構(gòu)造出 的循環(huán)條件依次訪問(wèn)每個(gè)網(wǎng)頁(yè),獲取每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容;否則,通過(guò)對(duì)目標(biāo)數(shù)據(jù)網(wǎng)站的源 代碼進(jìn)行分析或利用搜索引擎進(jìn)行搜索,獲取每個(gè)網(wǎng)頁(yè)的網(wǎng)址,按照確定出的網(wǎng)址訪問(wèn)每 個(gè)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)內(nèi)容。舉例說(shuō)明假設(shè)某關(guān)于餐館信息匯總的網(wǎng)站共包括5000個(gè)網(wǎng)頁(yè),其中,每個(gè)餐館對(duì)應(yīng)的介 紹信息所在網(wǎng)頁(yè)的網(wǎng)址均為該網(wǎng)站的網(wǎng)址加上該網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)字編號(hào),如,http://www. mdbchina. cn/persons/123,則可利用其中的數(shù)字部分來(lái)構(gòu)造循環(huán)條件。即首先訪問(wèn) http://www. mdbchina. cn/persons/1,獲取該網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,并采集其中的所需信息進(jìn) 行存儲(chǔ),然后訪問(wèn)http //www. mdbchina. cn/persons/2,獲取該網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,并采集其 中的所需信息進(jìn)行存儲(chǔ),依次類推。如果沒(méi)有上述規(guī)律可循,那么可通過(guò)對(duì)該網(wǎng)站的源代碼進(jìn)行分析,獲取各個(gè)餐館 對(duì)應(yīng)的介紹信息所在網(wǎng)頁(yè)的網(wǎng)址,通常,這種匯總類的網(wǎng)站會(huì)在首頁(yè)或前幾頁(yè)中以列表的 形式顯示出各個(gè)餐館,那么可通過(guò)分析依次確定出每個(gè)餐館對(duì)應(yīng)的介紹信息所在網(wǎng)頁(yè)的網(wǎng) 址;或者,也可以借助于已有的搜索引擎,將各餐館的名稱作為關(guān)鍵詞,分別輸入到搜索引擎中,然后訪問(wèn)搜索到的介紹該餐館的網(wǎng)頁(yè)的網(wǎng)址(如維基百科),并獲取網(wǎng)頁(yè)內(nèi)容。按照上述任一方式獲取到網(wǎng)頁(yè)內(nèi)容后,后續(xù),剔除每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容中的超文 本鏈接標(biāo)示語(yǔ)言(HTML,Hypertext Markup Language)標(biāo)簽以及無(wú)用的空白字符。另外,由 于國(guó)內(nèi)大多數(shù)網(wǎng)站的網(wǎng)頁(yè)文字編碼方式不統(tǒng)一,比如有的網(wǎng)站采用GB2312編碼方式,而有 的網(wǎng)站采用UTF-8編碼方式,所以,為避免后續(xù)采集所需信息時(shí)出錯(cuò),可預(yù)先判斷每個(gè)網(wǎng)頁(yè) 的網(wǎng)頁(yè)內(nèi)容的文字編碼方式是否符合要求,如果不符合,則將其轉(zhuǎn)換為預(yù)定的文字編碼方 式,如何轉(zhuǎn)換為現(xiàn)有技術(shù)。之后,按照關(guān)鍵詞匹配或正則表達(dá)式字符串匹配等方式從每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容中 采集所需信息。這兩種方式的具體實(shí)現(xiàn)均為現(xiàn)有技術(shù),不再贅述。另外,此處僅為舉例說(shuō)明, 如果采用其它方式,只要能夠達(dá)到采集目的,也是可以的。需要說(shuō)明的是,本實(shí)施例中所提到的所需信息,既包括文字,也包括圖片,可以將 采集到的圖片與相關(guān)文字建立對(duì)應(yīng)關(guān)系,比如NBA球隊(duì)的LOGO,各個(gè)國(guó)家的國(guó)旗等。將采集到的信息按照所屬類別的不同,分別進(jìn)行存儲(chǔ),從而建立起數(shù)據(jù)庫(kù)。具體分 類方式不限,比如,可首先分為多個(gè)大類,包括“衣”、“食”、“住”、“行”、“娛樂(lè)”、“教育”等,然 后每個(gè)大類又可進(jìn)一步分別一定數(shù)量的小類,比如“教育”可分為“大學(xué)”、“中學(xué)”、“小學(xué)”、 “幼兒園”以及“培訓(xùn)班”等各小類,“食”可分為“中餐館”、“西餐館”、“韓國(guó)料理”等各小類。另外,本實(shí)施例中,還可對(duì)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行實(shí)時(shí)或定時(shí)更新。具體更新方 式可以是重復(fù)步驟201 202所述過(guò)程?;蛘撸部梢詫⒃诮?shù)據(jù)庫(kù)時(shí)所確定的每個(gè)目 標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息的方式,包括如何獲取網(wǎng)頁(yè)內(nèi)容以 及用哪種方式從網(wǎng)頁(yè)內(nèi)容中采集所需信息等均進(jìn)行保存,后續(xù)依據(jù)所保存的信息,對(duì)數(shù)據(jù) 庫(kù)進(jìn)行實(shí)時(shí)或定時(shí)更新。簡(jiǎn)單來(lái)說(shuō),就相當(dāng)于是建立了一個(gè)表格,該表格中保存有每個(gè)目標(biāo) 數(shù)據(jù)網(wǎng)站的網(wǎng)址與其對(duì)應(yīng)的所需信息采集方式,當(dāng)需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行更新時(shí),將表格所示 內(nèi)容依次執(zhí)行一遍,如果采集到的所需信息與數(shù)據(jù)庫(kù)中已經(jīng)存儲(chǔ)的信息不同,則進(jìn)行更新。步驟203 接收用戶編輯或創(chuàng)建的數(shù)據(jù),將該數(shù)據(jù)按照所屬類別的不同分別存儲(chǔ) 到數(shù)據(jù)庫(kù)中。在實(shí)際應(yīng)用中,可根據(jù)數(shù)據(jù)庫(kù)中存儲(chǔ)的信息建立一網(wǎng)站,網(wǎng)站首頁(yè)可顯示各不同 的大類,用戶通過(guò)點(diǎn)擊相應(yīng)的大類的名稱,可進(jìn)入到其下的小類,依次類推。如何建立網(wǎng)站 為現(xiàn)有技術(shù),不再贅述。假設(shè)用戶點(diǎn)擊打開(kāi)了 “XX學(xué)?!睂?duì)應(yīng)的網(wǎng)頁(yè),那么本實(shí)施例中,允許用戶對(duì)所顯 示的內(nèi)容進(jìn)行編輯,比如,可在界面上顯示一“編輯”按鈕,系統(tǒng)通過(guò)捕捉用戶鼠標(biāo)動(dòng)作確定 用戶點(diǎn)擊此按鈕后,為用戶顯示對(duì)應(yīng)的編輯界面,然后當(dāng)確定用戶編輯完畢(用戶點(diǎn)擊了 “保存”按鈕)后,將編輯后的內(nèi)容存儲(chǔ)到數(shù)據(jù)庫(kù)中。另外,本實(shí)施例中,還允許用戶自己創(chuàng) 建數(shù)據(jù),比如,用戶發(fā)現(xiàn)“學(xué)校”大類下的“幼兒園”小類中沒(méi)有自己曾所在的幼兒園,那么 可點(diǎn)擊界面上的“創(chuàng)建”按鈕,系統(tǒng)通過(guò)捕捉用戶鼠標(biāo)的動(dòng)作確定用戶點(diǎn)擊此按鈕后,為用 戶顯示對(duì)應(yīng)的創(chuàng)建界面,需要說(shuō)明的是,該創(chuàng)建界面的格式需要與已有的介紹其它幼兒園 網(wǎng)頁(yè)的格式相同,待確定用戶創(chuàng)建完畢后,將用戶所輸入的信息存儲(chǔ)到的數(shù)據(jù)庫(kù)中。由于對(duì) 于系統(tǒng)來(lái)說(shuō),用戶所創(chuàng)建的內(nèi)容所屬的小類以及大類等都是已知的,所以在存儲(chǔ)時(shí),能夠正 確地將用戶所輸入的信息存儲(chǔ)到相應(yīng)的位置。步驟204:生成搜索界面,并根據(jù)用戶輸入的關(guān)鍵詞,在數(shù)據(jù)庫(kù)中搜索包含所述關(guān)鍵詞的信息顯示給用戶。結(jié)合步驟203,可在網(wǎng)站首頁(yè)上顯示一搜索窗口,供用戶輸入其要搜索的信息的關(guān) 鍵詞,待監(jiān)測(cè)到用戶輸入了某一關(guān)鍵詞后,在數(shù)據(jù)庫(kù)所存儲(chǔ)的不同類別信息中分別搜索包 含該關(guān)鍵詞的信息,并將搜索到的每個(gè)類別中包含該關(guān)鍵詞的前N條信息顯示給用戶。假設(shè)用戶輸入的關(guān)鍵詞為“ X X大學(xué)”,那么系統(tǒng)將在所有的不同類別中分別搜索 包含“X χ大學(xué)”的信息,比如,在“大學(xué)”類別中搜索到了一條與該學(xué)校相關(guān)的信息,在“歷 史事件”類別中搜索到了 100條與該學(xué)校相關(guān)的信息,在“人物”類別中搜索到了 50條與該 學(xué)校相關(guān)的信息,在“旅游景點(diǎn)”類別中搜索到了 30條與該學(xué)校相關(guān)的信息,那么在實(shí)際顯 示時(shí),為了方便用戶閱讀,可以只顯示每個(gè)類別中最熱門的前N條信息,比如前2條。這樣,對(duì)于用戶來(lái)說(shuō),采用本發(fā)明所述方案后,一次就能獲取到關(guān)于所輸入的關(guān)鍵 詞的方方面面的所有信息,提升了用戶體驗(yàn),而且,與現(xiàn)有技術(shù)相比,本發(fā)明所述方案按照 不同類別對(duì)搜索到的信息進(jìn)行顯示,方便了用戶從中查找自己所需的信息。另外,本實(shí)施例還提供了 一種比較搜索方式。假設(shè)用戶輸入了兩個(gè)關(guān)鍵詞,那么首 先判斷用戶是否需要進(jìn)行比較搜索(確定用戶是否點(diǎn)擊了“比較搜索”按鈕),如果是,則針 對(duì)每個(gè)關(guān)鍵詞,分別按照上述只輸入一個(gè)關(guān)鍵詞的方式進(jìn)行處理,但顯示時(shí),需要按照對(duì)照 的方式進(jìn)行顯示。比如,假設(shè)用戶輸入了兩個(gè)學(xué)校的名字作為關(guān)鍵詞,那么在顯示時(shí),可以 在頁(yè)面的左側(cè)顯示搜索到的關(guān)于第一個(gè)學(xué)校的信息,在頁(yè)面右側(cè)顯示搜索到的關(guān)于第二個(gè) 學(xué)校的信息,并且,屬于同一類別的信息在顯示時(shí)是一一對(duì)應(yīng)的。另外,在建立數(shù)據(jù)庫(kù)時(shí),可以為每個(gè)數(shù)據(jù)建立相關(guān)鏈接,比如,可以將與“XX大 學(xué)”屬于同一城市且屬于同一級(jí)別的學(xué)校作為“XX大學(xué)”的鏈接,這樣,當(dāng)用戶搜索“XX 大學(xué)”時(shí),可將與其相關(guān)的信息,即與“XX大學(xué)”有鏈接關(guān)系的其它學(xué)校的信息一并顯示 給用戶。再有,在實(shí)際應(yīng)用中,也可不通過(guò)監(jiān)測(cè)搜索窗口的方式確定用戶輸入的關(guān)鍵詞,而 是監(jiān)測(cè)用戶的鼠標(biāo)操作,如果監(jiān)測(cè)到用戶通過(guò)層層點(diǎn)擊,最終點(diǎn)擊到了“X X大學(xué)”,那么則 可將“XX大學(xué)”作為關(guān)鍵詞,進(jìn)行搜索和顯示?;谏鲜龇椒?,圖3為本發(fā)明裝置實(shí)施例的組成結(jié)構(gòu)示意圖。如圖3所示,包括 數(shù)據(jù)庫(kù)30、確定單元31、第一存儲(chǔ)單元32以及第二存儲(chǔ)單元33 ;其中確定單元31,用于確定目標(biāo)數(shù)據(jù)網(wǎng)站;第一存儲(chǔ)單元32,用于從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需 信息按照所屬類別的不同分別存儲(chǔ)到數(shù)據(jù)庫(kù)30中;第二存儲(chǔ)單元33,接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不同 分別存儲(chǔ)到數(shù)據(jù)庫(kù)30中。其中,確定單元31中可具體包括獲取子單元311,用于獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;確定子單元312,用于按照預(yù)定規(guī)則,分別判斷每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合預(yù) 定要求,如果是,則將該初選目標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù)據(jù)網(wǎng)站。第一存儲(chǔ)單元32中可具體包括訪問(wèn)子單元321,用于訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng) 頁(yè)的網(wǎng)頁(yè)內(nèi)容;
采集子單元322,用于利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁(yè)內(nèi)容 中采集所需信息;存儲(chǔ)子單元323,用于將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到數(shù)據(jù) 庫(kù)30中。其中,采集子單元322可進(jìn)一步用于,剔除網(wǎng)頁(yè)內(nèi)容中的HTML標(biāo)簽以及無(wú)用的空 白字符,并確定網(wǎng)頁(yè)內(nèi)容的文字編碼方式是否符合要求,如果不符合,則將其轉(zhuǎn)換為預(yù)定的 文字編碼方式。另外,圖3所示裝置中還可進(jìn)一步包括更新單元34,用于將所確定的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采 集所需信息的方式進(jìn)行保存,依據(jù)所保存的信息,對(duì)數(shù)據(jù)庫(kù)30進(jìn)行實(shí)時(shí)或定時(shí)更新。顯示單元35,用于生成搜索界面,并根據(jù)用戶輸入的關(guān)鍵詞,在數(shù)據(jù)庫(kù)30中搜索 包含所述關(guān)鍵詞的信息顯示給用戶;其中,當(dāng)關(guān)鍵詞的數(shù)量為一個(gè)時(shí),在不同類別中分別搜索包含所述關(guān)鍵詞的信息,并將 搜索到的每個(gè)類別中包含所述關(guān)鍵詞的前N條信息顯示給用戶,N為正整數(shù);當(dāng)關(guān)鍵詞的數(shù) 量為兩個(gè)以上時(shí),確定用戶是否需要進(jìn)行比較搜索,如果是,則針對(duì)每個(gè)關(guān)鍵詞,分別在不 同類別中搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)關(guān)鍵詞所對(duì)應(yīng)的同一類別中的前 N條信息以對(duì)照的形式同時(shí)顯示給用戶。進(jìn)一步地,顯示單元35還可按照預(yù)先設(shè)定的鏈接關(guān)系,搜索與包含所述關(guān)鍵詞的 信息相關(guān)的信息,并顯示給用戶。圖3所示裝置實(shí)施例的具體工作流程請(qǐng)參照?qǐng)D2所示方法實(shí)施例中的相應(yīng)說(shuō)明, 此處不再贅述??傊?,采用本發(fā)明的技術(shù)方案,可對(duì)互聯(lián)網(wǎng)上的雜亂無(wú)章的數(shù)據(jù)進(jìn)行整理,進(jìn)行有 效分類,利用整理好的數(shù)據(jù)建立數(shù)據(jù)庫(kù),同時(shí),可任由用戶編輯或創(chuàng)建新的數(shù)據(jù),并將其保 存到數(shù)據(jù)庫(kù)中,這樣,即使是原有互聯(lián)網(wǎng)上沒(méi)有的信息,也能在本發(fā)明所述數(shù)據(jù)庫(kù)中保存下 來(lái),從而降低了用戶搜索不到所需信息的概率;再有,本發(fā)明所述方案使得用戶在進(jìn)行搜索 時(shí),一次就能獲取到關(guān)于所輸入的關(guān)鍵詞的方方面面的所有信息,另外,與現(xiàn)有技術(shù)相比, 本發(fā)明所述方案按照不同類別對(duì)搜索到的信息進(jìn)行顯示,從而方便了用戶從中準(zhǔn)確查找到 自己所需的信息;再有,本發(fā)明所述方案可進(jìn)一步顯示出與包含用戶輸入的關(guān)鍵詞的信息 相關(guān)的其它信息,從而為用戶提供了盡可能多的信息量,提升了用戶體驗(yàn)。綜上所述,以上僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。 凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的 保護(hù)范圍之內(nèi)。
權(quán)利要求
一種數(shù)據(jù)庫(kù)建立方法,其特征在于,包括確定目標(biāo)數(shù)據(jù)網(wǎng)站;從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到數(shù)據(jù)庫(kù)中;接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定目標(biāo)數(shù)據(jù)網(wǎng)站包括 獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;按照預(yù)定規(guī)則,分別判斷每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合要求,如果是,則將該初選目 標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù)據(jù)網(wǎng)站。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信 息包括訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容; 利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁(yè)內(nèi)容中采集所需信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目 標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容包括分析每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站的統(tǒng)一資源定位符URL,確定該目標(biāo)數(shù)據(jù)網(wǎng)站的網(wǎng)頁(yè)網(wǎng)址是否 有規(guī)律可循,如果是,則根據(jù)所述規(guī)律構(gòu)造循環(huán)條件,并利用構(gòu)造出的循環(huán)條件依次訪問(wèn)每 個(gè)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)內(nèi)容;否則,通過(guò)對(duì)目標(biāo)數(shù)據(jù)網(wǎng)站的源代碼進(jìn)行分析或利用搜索引擎進(jìn)行搜索,獲取每個(gè)網(wǎng) 頁(yè)的網(wǎng)址,按照確定出的網(wǎng)址訪問(wèn)每個(gè)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)內(nèi)容。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述利用關(guān)鍵詞匹配或正則表達(dá)式字符 串匹配方式從網(wǎng)頁(yè)內(nèi)容中采集所需信息之前,進(jìn)一步包括剔除網(wǎng)頁(yè)內(nèi)容中的超文本鏈接標(biāo)示語(yǔ)言HTML標(biāo)簽以及無(wú)用的空白字符; 確定網(wǎng)頁(yè)內(nèi)容的文字編碼方式是否符合要求,如果不符合,將其轉(zhuǎn)換為預(yù)定的文字編 碼方式。
6.根據(jù)權(quán)利要求1 5中任一項(xiàng)所述的方法,其特征在于,該方法進(jìn)一步包括將所確定的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息的方式進(jìn)行 保存,依據(jù)所保存的信息,對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)或定時(shí)更新。
7.根據(jù)權(quán)利要求1 5中任一項(xiàng)所述的方法,其特征在于,該方法進(jìn)一步包括 生成搜索界面;接收用戶輸入的關(guān)鍵詞,并在所述數(shù)據(jù)庫(kù)中搜索包含所述關(guān)鍵詞的信息顯示給用戶。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述搜索包含所述關(guān)鍵詞的信息顯示給 用戶包括當(dāng)所述關(guān)鍵詞的數(shù)量為一個(gè)時(shí),在不同類別中分別搜索包含所述關(guān)鍵詞的信息,并將 搜索到的每個(gè)類別中包含所述關(guān)鍵詞的前N條信息顯示給用戶;所述N為正整數(shù);當(dāng)所述關(guān)鍵詞的數(shù)量為兩個(gè)以上時(shí),確定用戶是否需要進(jìn)行比較搜索,如果是,則針對(duì) 每個(gè)關(guān)鍵詞,分別在不同類別中搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)關(guān)鍵詞所 對(duì)應(yīng)的同一類別中的前N條信息以對(duì)照的形式同時(shí)顯示給用戶。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,該方法進(jìn)一步包括按照預(yù)先設(shè)定的鏈接 關(guān)系,搜索與包含所述關(guān)鍵詞的信息相關(guān)的信息,并顯示給用戶。
10.一種數(shù)據(jù)庫(kù)建立裝置,其特征在于,包括數(shù)據(jù)庫(kù)、確定單元、第一存儲(chǔ)單元以及第 二存儲(chǔ)單元,其中所述確定單元,用于確定目標(biāo)數(shù)據(jù)網(wǎng)站;所述第一存儲(chǔ)單元,用于從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信 息按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中;所述第二存儲(chǔ)單元,用于接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不 同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述確定單元包括 獲取子單元,用于獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;確定子單元,用于按照預(yù)定規(guī)則,分別判斷每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合要求,如果 是,則將該初選目標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù)據(jù)網(wǎng)站。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一存儲(chǔ)單元包括訪問(wèn)子單元,用于訪問(wèn)每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁(yè)的網(wǎng) 頁(yè)內(nèi)容;采集子單元,用于利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁(yè)內(nèi)容中采集所 需{曰息;存儲(chǔ)子單元,用于將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述采集子單元進(jìn)一步用于,剔除網(wǎng)頁(yè) 內(nèi)容中的超文本鏈接標(biāo)示語(yǔ)言HTML標(biāo)簽以及無(wú)用的空白字符,并確定網(wǎng)頁(yè)內(nèi)容的文字編 碼方式是否符合要求,如果不符合,則將其轉(zhuǎn)換為預(yù)定的文字編碼方式。
14.根據(jù)權(quán)利要求10 13中任一項(xiàng)所述的裝置,其特征在于,該裝置進(jìn)一步包括更新單元,用于將所確定的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需 信息的方式進(jìn)行保存,依據(jù)所保存的信息,對(duì)所述數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)或定時(shí)更新。
15.根據(jù)權(quán)利要求10 13中任一項(xiàng)所述的裝置,其特征在于,該裝置進(jìn)一步包括 顯示單元,用于生成搜索界面,并根據(jù)用戶輸入的關(guān)鍵詞,在所述數(shù)據(jù)庫(kù)中搜索包含所述關(guān)鍵詞的信息顯示給用戶;其中,當(dāng)所述關(guān)鍵詞的數(shù)量為一個(gè)時(shí),在不同類別中分別搜索包含所述關(guān)鍵詞的信息,并將 搜索到的每個(gè)類別中包含所述關(guān)鍵詞的前N條信息顯示給用戶,所述N為正整數(shù);當(dāng)所述關(guān) 鍵詞的數(shù)量為兩個(gè)以上時(shí),確定用戶是否需要進(jìn)行比較搜索,如果是,則針對(duì)每個(gè)關(guān)鍵詞, 分別在不同類別中搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)關(guān)鍵詞所對(duì)應(yīng)的同一類 別中的前N條信息以對(duì)照的形式同時(shí)顯示給用戶。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述顯示單元進(jìn)一步用于,按照預(yù)先設(shè) 定的鏈接關(guān)系,搜索與包含所述關(guān)鍵詞的信息相關(guān)的信息并顯示給用戶。
全文摘要
本發(fā)明公開(kāi)了一種數(shù)據(jù)庫(kù)建立方法,包括確定目標(biāo)數(shù)據(jù)網(wǎng)站;從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到數(shù)據(jù)庫(kù)中;接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫(kù)中。本發(fā)明同時(shí)公開(kāi)了一種數(shù)據(jù)庫(kù)建立裝置。應(yīng)用本發(fā)明所述的方法和裝置,能夠使用戶準(zhǔn)確方便地搜索到自己所需的信息。
文檔編號(hào)G06F17/30GK101894109SQ200910084130
公開(kāi)日2010年11月24日 申請(qǐng)日期2009年5月20日 優(yōu)先權(quán)日2009年5月20日
發(fā)明者熊燁, 袁學(xué)軍 申請(qǐng)人:無(wú)錫比比網(wǎng)信息有限公司