亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

信息檢索系統(tǒng)及其信息檢索方法

文檔序號(hào):6599061閱讀:288來源:國知局
專利名稱:信息檢索系統(tǒng)及其信息檢索方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息檢索系統(tǒng)和用于該系統(tǒng)的信息檢索方法,更具體地涉及檢索公開具體內(nèi)容的網(wǎng)站的方法。
在這種情況下,因?yàn)闄z索過程利用搜索引擎中輸入的關(guān)鍵字進(jìn)行,用戶選擇關(guān)鍵字和規(guī)定檢索條件是有效檢索的關(guān)鍵點(diǎn)。利用用戶輸入關(guān)鍵字的檢索方法在日本專利2001-52014中公開。
但是,因?yàn)樵跈z索方法中使用用戶輸入的關(guān)鍵字,檢索結(jié)果依賴用戶選擇的關(guān)鍵字,所以存在這樣一個(gè)問題,即每個(gè)用戶獲得的檢索結(jié)果和獲得信息的步驟在每種情況下都不同。
根據(jù)本發(fā)明的信息檢索系統(tǒng)是一種檢索由超文本文件所表示內(nèi)容的記錄網(wǎng)站的信息檢索系統(tǒng),包括提取裝置,用于從外部規(guī)定的超文本文件中提取關(guān)鍵字;和檢索裝置,用于利用提取裝置提取的關(guān)鍵字檢索內(nèi)容的記錄網(wǎng)站。
根據(jù)本發(fā)明的信息檢索方法是一種檢索由超文本文件所表示內(nèi)容的記錄站點(diǎn)的信息檢索方法,包括從外部規(guī)定的超文本文件中提取關(guān)鍵字的步驟;和利用提取的關(guān)鍵字檢索內(nèi)容的記錄網(wǎng)站的步驟。
也就是說,根據(jù)本發(fā)明的網(wǎng)站檢索系統(tǒng)(信息檢索系統(tǒng))可以輕易地檢索到類似于用戶指定網(wǎng)站的網(wǎng)站。
在根據(jù)本發(fā)明的網(wǎng)站檢索系統(tǒng)中,用戶可以檢索到類似于指定網(wǎng)站的網(wǎng)站而不必輸入關(guān)鍵字。因此,可以不必?zé)狸P(guān)鍵字選擇的執(zhí)行檢索過程。
根據(jù)本發(fā)明,可以省略輸入關(guān)鍵字的步驟,從而能夠利用裝有瀏覽器的小移動(dòng)信息終端(例如,PDA(個(gè)人數(shù)字助理)等等)和手持電話機(jī)等等更容易地執(zhí)行檢索,這些終端通常對(duì)輸入字符的裝置具有嚴(yán)格的限制。
在根據(jù)本發(fā)明的網(wǎng)站檢索系統(tǒng)中,關(guān)鍵字可以自動(dòng)地從規(guī)定網(wǎng)站的HTML文件提取,控制信息也可以提取。在這種情況下,不僅可以考慮規(guī)定網(wǎng)站的內(nèi)容,還可以考慮包含在用于規(guī)定網(wǎng)站的HTML(超文本標(biāo)記語言)的控制信息,例如,標(biāo)記的相似性等等。因此,相比較只使用關(guān)鍵字的情況,可以檢索到更相似的網(wǎng)站,從而更容易地執(zhí)行檢索過程。
然后,本發(fā)明的實(shí)施方式將在下文參照附圖描述。

圖1是根據(jù)本發(fā)明第一個(gè)實(shí)施方式的網(wǎng)站檢索系統(tǒng)配置的方框圖。在圖1中,根據(jù)本發(fā)明第一實(shí)施方式的網(wǎng)站檢索系統(tǒng)包括用戶終端1和檢索服務(wù)器2,用戶終端1和檢索服務(wù)器2分別連接到互聯(lián)網(wǎng)100。網(wǎng)絡(luò)(WWW(全球網(wǎng))的縮寫)網(wǎng)站(也稱為WWW服務(wù)器)6連接到互聯(lián)網(wǎng)100。
用戶終端1包括計(jì)算機(jī),網(wǎng)絡(luò)瀏覽器10可以作為互聯(lián)網(wǎng)用戶(以下簡稱為用戶)的接口工作。網(wǎng)絡(luò)瀏覽器10主要提供用戶接口11的功能。用戶接口11包括超級(jí)文本標(biāo)志語言(超文本標(biāo)記語言)顯示裝置12、字符輸入裝置13、和檢索方法規(guī)定裝置14。用戶終端1不局限于個(gè)人計(jì)算機(jī),而可以是裝載有瀏覽器的小的移動(dòng)信息終端(例如,PDA(個(gè)人數(shù)字助理)等等)和手持電話機(jī)等等,只要可以操作網(wǎng)絡(luò)瀏覽器10。
URL(通用資源定位器)利用字符輸入裝置13輸入到網(wǎng)絡(luò)瀏覽器10。檢索方法規(guī)定裝置14提供一用戶接口,來使用根據(jù)本實(shí)施方式的檢索方法。
檢索服務(wù)器2處理來自網(wǎng)絡(luò)瀏覽器10的請(qǐng)求。檢索服務(wù)器2是一網(wǎng)站,例如裝有搜索引擎的門戶網(wǎng)站,包括相似網(wǎng)站檢索裝置3和索引表產(chǎn)生裝置4。
相似網(wǎng)站檢索裝置3提供實(shí)現(xiàn)根據(jù)本實(shí)施方式檢索方法的裝置,包括HTML文件獲得裝置31、還原密鑰提取裝置、檢索結(jié)果存儲(chǔ)裝置32和檢索結(jié)果顯示裝置33。
HTML文件獲得裝置31獲得來自互聯(lián)網(wǎng)100存在的網(wǎng)站6的HTML文件。HTML文件獲得裝置31在執(zhí)行相似網(wǎng)站檢索時(shí)獲得URL規(guī)定的HTML文件,當(dāng)索引表產(chǎn)生裝置4產(chǎn)生索引表時(shí),利用機(jī)器人等等全面收集來自互聯(lián)網(wǎng)100網(wǎng)站6的HTML文件。
還原密鑰提取裝置5分析用戶指定URL所示HTML文件的內(nèi)容和提取關(guān)鍵字作為還原密鑰。提取關(guān)鍵字的方法可以是由關(guān)鍵字提取裝置利用形態(tài)分析從HTML文件提取詞素(詞性)的方法,詞素可以是關(guān)鍵字,例如名詞等等。
當(dāng)一名詞從HTML文件提取為關(guān)鍵字,通??紤]從HTML文件提取多個(gè)關(guān)鍵字。當(dāng)提取多個(gè)關(guān)鍵字時(shí),關(guān)鍵字集被用作還原密鑰。
還原密鑰提取裝置5包括檢測(cè)包含在HTML文件中的控制信息的裝置。根據(jù)本實(shí)施方式,它包括HTML標(biāo)記信息提取裝置52,作為檢測(cè)控制信息的裝置。關(guān)于HTML標(biāo)記的信息由HTML標(biāo)記信息提取裝置52提取,HTML文件所用每個(gè)HTML標(biāo)記的特征也被提取。
檢索結(jié)果存儲(chǔ)裝置32根據(jù)還原密鑰提取裝置5提取的還原密鑰檢索索引表,和存儲(chǔ)器檢索中獲得的檢索結(jié)果。檢索結(jié)果顯示裝置3 3改造保存在檢索結(jié)果存儲(chǔ)裝置32的檢索結(jié)果,以使用戶可以很容易看到檢索結(jié)果,然后輸出改造后的結(jié)果。當(dāng)存在多個(gè)檢索結(jié)果時(shí),多個(gè)HTML文件由計(jì)分裝置41排列,因此文件可以按順序顯示。當(dāng)網(wǎng)絡(luò)瀏覽器10被用作顯示接口時(shí),提供從HTML文件的檢索服務(wù)器輸出響應(yīng)的功能。
索引表產(chǎn)生裝置4包括與相似網(wǎng)站檢索裝置3共享的還原密鑰提取裝置5,計(jì)分計(jì)算裝置41用于計(jì)算所提取HTML標(biāo)記和關(guān)鍵字的分?jǐn)?shù),索引表存儲(chǔ)裝置42存儲(chǔ)已提取的索引和產(chǎn)生要求實(shí)現(xiàn)相似網(wǎng)站檢索的索引表。
作為相似網(wǎng)站檢索裝置3,還原密鑰提取裝置5提取HTML標(biāo)記和關(guān)鍵字作為還原密鑰。計(jì)分裝置41計(jì)算表示已提取HTML標(biāo)記和關(guān)鍵字優(yōu)先級(jí)的分?jǐn)?shù)和分別為HTML標(biāo)記和關(guān)鍵字分配權(quán)值。也就是說,執(zhí)行這樣的計(jì)算,即關(guān)鍵字和HTML標(biāo)記越重要,分?jǐn)?shù)越高,關(guān)鍵字和HTML標(biāo)記越不重要,分配的分?jǐn)?shù)越低。根據(jù)本實(shí)施方式,不規(guī)定計(jì)分方法。
分配給關(guān)鍵字和HTML標(biāo)記的分?jǐn)?shù)記錄在保存在存儲(chǔ)裝置42的索引表中。當(dāng)執(zhí)行檢索時(shí),相似網(wǎng)站檢索裝置3參照索引表。
圖2是根據(jù)本發(fā)明第一個(gè)實(shí)施方式的產(chǎn)生網(wǎng)站檢索系統(tǒng)的索引表的過程流程圖。根據(jù)本發(fā)明第一實(shí)施方式的產(chǎn)生網(wǎng)站檢索系統(tǒng)中的索引表的處理將在下文參照?qǐng)D1和2描述。為了實(shí)現(xiàn)根據(jù)本實(shí)施方式的檢索方法,應(yīng)當(dāng)預(yù)先產(chǎn)生索引表。
首先,HTML文件獲得裝置31全面收集要檢索網(wǎng)站6中的HTML文件(圖2的步驟S1)。HTML文件由HTML文件收集機(jī)器人收集,以便收集互聯(lián)網(wǎng)100中所有的文件。但是,在本實(shí)施方式中,不規(guī)定收集HTML文件的范圍。
還原密鑰提取裝置5的HTML標(biāo)記信息提取裝置52從HTML文件獲得裝置31收集的每個(gè)HTML文件提取HTML標(biāo)記,和獲得正使用的的標(biāo)記信息(圖2所示的S3)。HTML標(biāo)記利用腳本語言,例如Perl(實(shí)際提取和報(bào)告語言)等等提取。
然后,還原密鑰提取裝置5的關(guān)鍵字提取裝置51從HTML文件提取關(guān)鍵字作為還原密鑰(圖2所示的步驟S4)。在提取關(guān)鍵字中,通過自然語言過程,例如形態(tài)分析從HTML文件中提取詞素(一部分語音),例如名詞(詞組)等等。
因?yàn)橐痪唧wHTML標(biāo)記規(guī)定的字符串,例如由充當(dāng)文件摘要信息的TITLE標(biāo)記封閉的字符串、顯示為用規(guī)定加強(qiáng)的大字符的字符串可以是重要的關(guān)鍵字,這種字符串可以提取為關(guān)鍵字。
計(jì)分裝置41為在步驟S3和S4提取的HTML標(biāo)記和關(guān)鍵字計(jì)分,從提取的HTML標(biāo)記和關(guān)鍵字選擇用作重要索引的還原密鑰的HTML標(biāo)記和關(guān)鍵字(圖2所示的步驟S5)。因?yàn)樵谔崛〉腍TML標(biāo)記或與HTML文件內(nèi)容無關(guān)的標(biāo)記中存在調(diào)整布局和風(fēng)格的標(biāo)記,對(duì)已提取HTML標(biāo)記和關(guān)鍵字執(zhí)行這樣的處理,即HTML標(biāo)記和關(guān)鍵字越重要,分配的分?jǐn)?shù)越高,HTML標(biāo)記和關(guān)鍵字越不重要,分配的分?jǐn)?shù)越低。
在步驟S3和S4提取的HTML標(biāo)記和關(guān)鍵字清楚地反映了它們所提取的HTML文件內(nèi)容,當(dāng)檢索HTML文件時(shí)可以是索引。此后,該索引表示從HTML文件提取的HTML標(biāo)記和關(guān)鍵字。
索引表產(chǎn)生裝置4由在索引表中記錄在步驟S3到S5的過程中獲得的索引和HTML文件(圖2所示的步驟S6)之間的對(duì)應(yīng)關(guān)系更新索引表,和對(duì)所有收集的HTML文件執(zhí)行步驟S3到S5的過程(圖2所示的步驟S7)。
由HTML文件獲得裝置31收集的所有HTML文件在一循環(huán)過程重復(fù)上述的過程來處理。此外,已更新的索引表最終保存在索引表存儲(chǔ)裝置42。
作為本發(fā)明第一實(shí)施方式的變型,計(jì)分裝置41計(jì)算由還原密鑰提取裝置5提取的HTML標(biāo)記和關(guān)鍵字的分?jǐn)?shù),而是只計(jì)算關(guān)鍵字的分?jǐn)?shù)。在這種情況下,計(jì)分裝置41計(jì)算表示已提取關(guān)鍵字優(yōu)先級(jí)的分?jǐn)?shù),和向每個(gè)關(guān)鍵字分配一權(quán)值。
也就是說,執(zhí)行這樣的計(jì)算,即關(guān)鍵字越重要,分配的分?jǐn)?shù)越高,關(guān)鍵字越不重要,分配的分?jǐn)?shù)越低。提取的關(guān)鍵字清楚地反映它們所提取的HTML文件的內(nèi)容和當(dāng)檢索到HTML文件時(shí)可以是一個(gè)索引。該索引表示從HTML文件提取的關(guān)鍵字。
圖3是根據(jù)本發(fā)明第一個(gè)實(shí)施方式的網(wǎng)站檢索系統(tǒng)的相似網(wǎng)站檢索過程的流程圖。圖4表示圖1所示網(wǎng)絡(luò)瀏覽器10的顯示屏。圖5表示在圖4所示網(wǎng)絡(luò)瀏覽器10的顯示屏上URL的輸入的例子。參見圖1、圖3到圖5,根據(jù)本發(fā)明第一實(shí)施方式的網(wǎng)站檢索系統(tǒng)的相似網(wǎng)站檢索過程描述如下。在此過程中,從每個(gè)HTML文件提取的HTML標(biāo)記和關(guān)鍵字被用作索引。
首先,假設(shè)用戶利用網(wǎng)絡(luò)瀏覽器10看到互聯(lián)網(wǎng)100的網(wǎng)站6(圖3所示的步驟S11)。此時(shí),如果用戶發(fā)現(xiàn)最喜愛的網(wǎng)站,和執(zhí)行相似網(wǎng)站檢索,以便檢索到類似于最喜愛網(wǎng)站的網(wǎng)站(圖3所示的步驟S12)。
下文描述的是當(dāng)用戶喜歡公告牌系統(tǒng)(BBS)時(shí)執(zhí)行的相似網(wǎng)站檢索,其中例如進(jìn)行新產(chǎn)品,例如移動(dòng)電話機(jī)的討論和試圖查找相似的網(wǎng)站。
當(dāng)執(zhí)行相似網(wǎng)站檢索時(shí),網(wǎng)絡(luò)瀏覽器10將用戶規(guī)定的URL(最喜愛網(wǎng)站的URL)傳送到檢索服務(wù)器2(圖3所示的步驟S13)。此時(shí),網(wǎng)絡(luò)瀏覽器10有必要預(yù)先存入要傳送請(qǐng)求的檢索服務(wù)器2的URL。
在根據(jù)本實(shí)施方式的網(wǎng)絡(luò)瀏覽器10中,假定已經(jīng)合并插入式相似網(wǎng)站檢索。當(dāng)合并插入時(shí),例如如圖4所示,假設(shè)例如“執(zhí)行相似網(wǎng)站檢索”的菜單可以增加到網(wǎng)絡(luò)瀏覽器10編輯菜單的列表。
通過選擇和執(zhí)行“執(zhí)行相似網(wǎng)站檢索”菜單,用戶指定的URL從網(wǎng)絡(luò)瀏覽器10傳送到檢索服務(wù)器2。當(dāng)合并用于相似網(wǎng)站檢索的時(shí),網(wǎng)絡(luò)瀏覽器10傳送HTTP(超文本傳輸協(xié)議)到檢索服務(wù)器2(獲得http//′IP address of retrieval server/cgi-bin/retrieval?url′URL to be retrieved′HTTP/1.0)如圖5所示。
一從網(wǎng)絡(luò)瀏覽器10收到圖5所示的請(qǐng)求,檢索服務(wù)器2由HTML文件獲得裝置31獲得由“要檢索的URL”規(guī)定的HTML文件(圖3所示的步驟S14)。
當(dāng)檢索服務(wù)器2獲得指定的HTML文件時(shí),它由HTML標(biāo)記信息提取裝置52從獲得的HTML文件中提取HTML標(biāo)記,和由關(guān)鍵字提取裝置提取的關(guān)鍵字(圖3所示的步驟S15)。
也就是說,HTML標(biāo)記和關(guān)鍵字從用戶正在瀏覽的′討論移動(dòng)電話機(jī)公告牌′的HTML文件中提取。在′討論移動(dòng)電話機(jī)的公告牌′的HTML文件的情況下,期待提取的關(guān)鍵字是來自HTML標(biāo)記的TITLE標(biāo)記中的字符串的′公告牌′、來自HTML文件的內(nèi)容的′新產(chǎn)品名稱′、′通信公司名稱′、′制造商名稱′、′價(jià)格′、′價(jià)值′、′功能′、′振鈴音′、′液晶′、′郵件′等等。
提取的關(guān)鍵字越多,可以提取的HTML文件的內(nèi)容和主題(在這種情況下,用于討論移動(dòng)電話機(jī)的公告牌)越多。利用關(guān)鍵字集作為還原密鑰,檢索可以開始,用于討論相似主題的BBS網(wǎng)站可以檢索。
保存在索引表存儲(chǔ)裝置42的索引表利用從HTML文件提取的HTML標(biāo)記和關(guān)鍵字的還原密鑰檢索(圖3所示的步驟S16)。還原密鑰找到(應(yīng)用)的檢索結(jié)果保存在檢索結(jié)果存儲(chǔ)裝置中。檢索結(jié)果是否找到(應(yīng)用于)還原密鑰由還原密鑰是不是索引表中的索引確定。
例如,當(dāng)′公告牌′、新產(chǎn)品名稱′、′通信公司名稱′、′制造商名稱′、′價(jià)格′、′價(jià)值′、′功能′、′令牌環(huán)′、′液晶′、′郵件′等等從′用于討論移動(dòng)電話機(jī)′的HTML文件中提取為還原密鑰,它校驗(yàn)該還原密鑰是否已經(jīng)記錄為索引表中的索引。
如果當(dāng)參照檢索結(jié)果存儲(chǔ)裝置32時(shí)沒有檢索結(jié)果(圖3所示的步驟S17),然后′沒有相似網(wǎng)站′顯示在網(wǎng)絡(luò)瀏覽器10上(圖3所示的步驟S19)。
如果檢索結(jié)果存儲(chǔ)裝置32中有一個(gè)以上的檢索結(jié)果(圖3所示的步驟S17),則檢索結(jié)果顯示裝置33向網(wǎng)絡(luò)瀏覽器10傳送檢索結(jié)果,該檢索結(jié)果顯示在上面(圖3所示的步驟S18)。
如果存在多個(gè)檢索結(jié)果,根據(jù)任何參考執(zhí)行計(jì)分,檢索結(jié)果可以從最高分依次顯示。例如,計(jì)算可以這樣執(zhí)行,即包含越多標(biāo)記和關(guān)鍵字作為還原密鑰的檢索結(jié)果(相似網(wǎng)站)分?jǐn)?shù)越高,此結(jié)果可以在檢索結(jié)果顯示裝置33顯示的越高。但是,根據(jù)本實(shí)施方式,不規(guī)定計(jì)分方法。
在上述的操作中,相似網(wǎng)站檢索可以在根據(jù)本實(shí)施方式的網(wǎng)站檢索系統(tǒng)中執(zhí)行。
因此,因?yàn)橛脩艨梢詸z索到與用戶正在瀏覽的網(wǎng)站內(nèi)容相似的網(wǎng)站(相似網(wǎng)站),所以可以輕易檢索到最喜愛的相似網(wǎng)站。
此外,因?yàn)橄嗨凭W(wǎng)站檢索可以不必輸入任何關(guān)鍵字執(zhí)行,所以當(dāng)用戶請(qǐng)求檢索相似網(wǎng)站時(shí)用戶可以立即執(zhí)行相似網(wǎng)站檢索。
另外,因?yàn)殛P(guān)鍵字由檢索服務(wù)器2自動(dòng)提取,可以省略輸入關(guān)鍵字的麻煩操作,根據(jù)網(wǎng)站內(nèi)容可以提取多個(gè)關(guān)鍵字。
另外,不僅自動(dòng)提取關(guān)鍵字,而且考慮到用于網(wǎng)站的標(biāo)記信息。可以檢索到更多的相似網(wǎng)站。
在上述本發(fā)明的實(shí)施方式中,標(biāo)記信息提取為控制信息,但控制信息不局限于標(biāo)記信息。例如可以提取表示字符位置或特征的控制信息。
圖6表示根據(jù)本發(fā)明第二實(shí)施方式的網(wǎng)站檢索系統(tǒng)中顯示屏的例子。在本發(fā)明的第一實(shí)施方式中,檢索到與正在顯示的網(wǎng)站內(nèi)容相似的網(wǎng)站。但是,根據(jù)第二實(shí)施方式,如圖6所示,識(shí)別出錨點(diǎn)顯示(anchor-displayed)鏈接,根據(jù)鏈接目標(biāo)的URL執(zhí)行相似網(wǎng)站檢索。
圖7是根據(jù)本發(fā)明第二實(shí)施方式的網(wǎng)站檢索系統(tǒng)的操作流程圖。圖8表示根據(jù)本發(fā)明第二實(shí)施方式的網(wǎng)站檢索系統(tǒng)中顯示屏的另一個(gè)例子。參見圖6到8,描述了根據(jù)本發(fā)明第二實(shí)施方式的網(wǎng)站檢索系統(tǒng)的操作。根據(jù)本發(fā)明第二實(shí)施方式的網(wǎng)站檢索系統(tǒng)在結(jié)構(gòu)上與圖1所示的網(wǎng)站檢索系統(tǒng)相同。
根據(jù)第二實(shí)施方式,假設(shè)附圖中未示出的鼠標(biāo)被用作規(guī)定鏈接的指示設(shè)備,同時(shí)用戶利用網(wǎng)絡(luò)瀏覽器10觀看網(wǎng)站。當(dāng)用戶利用網(wǎng)絡(luò)瀏覽器10瀏覽網(wǎng)站時(shí),顯示在網(wǎng)絡(luò)瀏覽器10上的鼠標(biāo)指針利用鼠標(biāo)在網(wǎng)絡(luò)瀏覽器10上移動(dòng)(圖7所示的步驟S21)。
此時(shí),當(dāng)不單擊鼠標(biāo)右鍵時(shí)(圖7所示的步驟S22),鼠標(biāo)指針繼續(xù)在網(wǎng)絡(luò)瀏覽器上移動(dòng)直到按下鼠標(biāo)右鍵。當(dāng)單擊鼠標(biāo)右鍵時(shí)(圖7所示的步驟S22),確定鼠標(biāo)指針是否指向錨點(diǎn)顯示鏈接(圖7所示的步驟S23)。
如果鼠標(biāo)指針指向錨點(diǎn)顯示鏈接,則圖6所示的′利用鏈接目標(biāo)的URL執(zhí)行相似網(wǎng)站檢索′通過按右鍵顯示在菜單上(圖7所示的步驟S27)。
當(dāng)用戶選擇和確定′利用鏈接目標(biāo)的URL執(zhí)行相似網(wǎng)站檢索′時(shí)(圖7所示的步驟S28),相似網(wǎng)站檢索利用鏈接目標(biāo)的URL執(zhí)行(圖7所示的步驟S29)。
如果鼠標(biāo)指針沒有指向錨點(diǎn)顯示鏈接,那就是說,如果它指向除錨點(diǎn)顯示鏈接之外的區(qū)域,則圖8所示的′執(zhí)行相似網(wǎng)站檢索′通過按右鍵顯示在菜單上(圖7所示的步驟S24)。
當(dāng)用戶選擇和確定′執(zhí)行相似網(wǎng)站檢索′時(shí)(圖7所示的步驟S25),利用正在顯示的網(wǎng)站URL執(zhí)行相似網(wǎng)站檢索(圖7所示的步驟S26)。
相似網(wǎng)站檢索方法與根據(jù)本發(fā)明第一實(shí)施方式的網(wǎng)站檢索系統(tǒng)方法相同。如果響應(yīng)來自于檢索服務(wù)器2,則檢索結(jié)果顯示在網(wǎng)絡(luò)瀏覽器10上(圖7所示的步驟S30)。
圖9表示根據(jù)本發(fā)明第三實(shí)施方式的網(wǎng)站檢索系統(tǒng)中顯示屏的例子。在根據(jù)本發(fā)明第三實(shí)施方式的網(wǎng)站檢索系統(tǒng)的檢索方法中,當(dāng)執(zhí)行檢索時(shí)規(guī)定URL。因此,如果URL可以規(guī)定,則相似網(wǎng)站檢索可以立即執(zhí)行。
因此,如圖9所示,當(dāng)用戶選擇記錄在網(wǎng)絡(luò)瀏覽器10的書簽上的URL時(shí),相似網(wǎng)站檢索能力可以通過按鼠標(biāo)右鍵執(zhí)行。相似網(wǎng)站檢索方法與根據(jù)本發(fā)明第一實(shí)施方式的網(wǎng)站檢索系統(tǒng)方法相同。
如上所述,本發(fā)明可以得到輕易發(fā)現(xiàn)類似于最喜愛網(wǎng)站的效果,而與每個(gè)用戶或在獲得信息的步驟中獲得的檢索結(jié)果沒有差別,即利用在網(wǎng)站檢索系統(tǒng)中從外部規(guī)定網(wǎng)站的HTML文件提取的關(guān)鍵字檢索網(wǎng)站,該網(wǎng)站檢索系統(tǒng)用于檢索公開了HTML文件所表示內(nèi)容的網(wǎng)站。
權(quán)利要求
1.一種檢索由超文本文件所表示內(nèi)容的記錄網(wǎng)站的信息檢索系統(tǒng),包括提取裝置,用于從外部規(guī)定的超文本文件提取關(guān)鍵字;和檢索裝置,用于利用所述提取裝置提取的所述關(guān)鍵字檢索內(nèi)容的記錄網(wǎng)站。
2.根據(jù)權(quán)利要求1的信息檢索系統(tǒng),其中所述提取裝置從由包含在所述外部規(guī)定的超文本文件中的預(yù)定控制信息規(guī)定的字符串提取所述關(guān)鍵字。
3.根據(jù)權(quán)利要求1的信息檢索系統(tǒng),進(jìn)一步包括計(jì)算裝置,用于計(jì)算表示由所述提取裝置提取的所述關(guān)鍵字優(yōu)先級(jí)的分?jǐn)?shù)。
4.根據(jù)權(quán)利要求3的信息檢索系統(tǒng),其中所述計(jì)算裝置從通過分配所述分?jǐn)?shù)和分配預(yù)定權(quán)值到預(yù)定控制信息的所述提取關(guān)鍵字以及從控制信息規(guī)定的字符串提取的所述關(guān)鍵字選擇用作還原密鑰的關(guān)鍵字。
5.根據(jù)權(quán)利要求4的信息檢索系統(tǒng),進(jìn)一步包括存儲(chǔ)裝置,用于在組合所述關(guān)鍵字與被提取所述關(guān)鍵字的超文本文件之后存儲(chǔ)控制信息和由所述計(jì)算裝置計(jì)算所述分?jǐn)?shù)的所述關(guān)鍵字,其中所述檢索裝置通過搜索所述存儲(chǔ)裝置檢索內(nèi)容的記錄網(wǎng)站。
6.根據(jù)權(quán)利要求2的信息檢索系統(tǒng),其中所述提取裝置提取包含在所述超文本文件的標(biāo)記信息作為所述控制信息,和從標(biāo)記信息規(guī)定的字符串提取所述關(guān)鍵字。
7.一種檢索由超文本文件所表示內(nèi)容的記錄網(wǎng)站的信息檢索方法,包括步驟從外部規(guī)定的超文本文件中提取關(guān)鍵字;和利用所述提取的關(guān)鍵字檢索內(nèi)容的記錄網(wǎng)站。
8.根據(jù)權(quán)利要求7的信息檢索方法,進(jìn)一步包括計(jì)算表示所述提取關(guān)鍵字和包含在所述外部規(guī)定超文本文件的標(biāo)記信息優(yōu)先級(jí)分?jǐn)?shù)的計(jì)算步驟。
9.根據(jù)權(quán)利要求8的信息檢索方法,其中所述計(jì)算步驟向更重要的HTML(超文本標(biāo)記語言)標(biāo)記和關(guān)鍵字分配更高分,較不重要的HTML標(biāo)記和關(guān)鍵字分配較低的分?jǐn)?shù),因此還原密鑰可以選擇為重要的索引。
10.根據(jù)權(quán)利要求9的信息檢索方法,其中搜索存儲(chǔ)裝置,該存儲(chǔ)裝置存儲(chǔ)組合所述關(guān)鍵字與從中被提取的所說關(guān)鍵字已被檢索的HTML文件之后分配所述分?jǐn)?shù)的所述HTML標(biāo)記和所述關(guān)鍵字,因此可以檢索到內(nèi)容的記錄網(wǎng)站。
全文摘要
為了提供能夠輕易地發(fā)現(xiàn)類似于用戶最喜愛網(wǎng)站的信息檢索系統(tǒng),而與每個(gè)用戶和在獲得信息步驟獲得的檢索結(jié)果沒有差別。HTML文件獲得裝置從互聯(lián)網(wǎng)網(wǎng)站獲得HTML文件。還原密鑰提取裝置分析用戶指定URL所示HTML文件的內(nèi)容和提取關(guān)鍵字作為還原密鑰。檢索結(jié)果存儲(chǔ)裝置根據(jù)提取的還原密鑰檢索索引表和存儲(chǔ)檢索結(jié)果。檢索結(jié)果顯示裝置改造檢索結(jié)果用于用戶看到和輸出結(jié)果。計(jì)分裝置計(jì)算HTML標(biāo)記和關(guān)鍵字的分?jǐn)?shù)。索引表存儲(chǔ)裝置存儲(chǔ)提取的索引。
文檔編號(hào)G06F17/30GK1417709SQ02149848
公開日2003年5月14日 申請(qǐng)日期2002年11月7日 優(yōu)先權(quán)日2001年11月7日
發(fā)明者寺西俊裕 申請(qǐng)人:日本電氣株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1