專利名稱:一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分布式技術(shù)在互聯(lián)網(wǎng)方向上的應(yīng)用。其中涉及的細節(jié)包括分布式路由 技術(shù)、分布式集群技術(shù)、互聯(lián)網(wǎng)基本應(yīng)用技術(shù)和互聯(lián)網(wǎng)社會網(wǎng)絡(luò)系統(tǒng)等。
背景技術(shù):
在分布式系統(tǒng)1當中,搜索技術(shù)本質(zhì)上是一種路由技術(shù)2。所謂路由技術(shù)在分 布式系統(tǒng)當中有著特殊的定義,即在多個計算設(shè)備構(gòu)成的計算環(huán)境中,在物理位置不同的 前提下,尋找符合要求的計算資源,從而滿足某種計算活動對資源的需求。在大規(guī)模非中心 互聯(lián)網(wǎng)中,對計算資源的定義更加寬泛,即計算資源不局限于計算設(shè)備本身所具有的資源, 如CPU、存貯空間、輸入輸出和帶寬等,還包括控制這些資源的智力資源;或者把兩者分開, 稱為計算資源和智力資源。這樣的劃分意圖在于對于大規(guī)模非中心互聯(lián)網(wǎng)來說,由于其中 主要計算資源都在獨立的智力資源控制下,單純考慮計算資源的有效利用是無法真正達到 系統(tǒng)高性能的目的;同時,即使是所謂大規(guī)模系統(tǒng)中,資源也永遠是稀缺的。在配置稀缺資 源的過程中,必須結(jié)合考慮智力資源對計算資源表現(xiàn)出的態(tài)勢,否則與此相悖的任何資源 分配方式都不會起作用。搜索技術(shù)是多種技術(shù)綜合使用的結(jié)果。一個高質(zhì)量的搜索技術(shù)首先要考慮的是面 臨的具體計算環(huán)境。這里的計算環(huán)境按分布式模型可分為本地搜索、中心式搜索2以及 非中心式搜索2。這個分類體現(xiàn)了參與搜索的計算資源以及被搜索資源之間物理位置上 的差別。計算環(huán)境按搜索對象分類可分為文本、圖片、音頻以及視頻。由于當前計算技術(shù)的 限制,搜索對象雖然有多種差別,但實際搜索本質(zhì)上還是基于文本來進行的。另外,從搜索 范圍來看,搜索技術(shù)又可以分為水平搜索和垂直搜索。所謂水平搜索指的是全領(lǐng)域搜索,即 搜索范圍不局限于一個具體領(lǐng)域。與此相對的是垂直搜索,即針對具體領(lǐng)域的搜索;這是由 于搜索技術(shù)如果能夠和具體領(lǐng)域的知識特征結(jié)合,會大大提高搜索效率。按照搜索手段來 進行分類,主要包括關(guān)鍵字搜索和自然語言理解搜索3。當前計算技術(shù)的限制,基于關(guān)鍵 字的搜索仍然是主流。還有一種分類是機器理解的方式進行搜索;由于涉及計算機智能等 一些難以解決的問題,這些方式還停留的研究階段。當前互聯(lián)網(wǎng)搜索技術(shù)主要的特征首先是受限于有限資源的搜索服務(wù)。既然當前互 聯(lián)網(wǎng)基本結(jié)構(gòu)上的弊端導(dǎo)致整個互聯(lián)網(wǎng)應(yīng)用在計算資源相對有限的條件下運行,這勢必導(dǎo) 致建立在其上的搜索技術(shù)也是面對資源缺乏的情況下工作的。計算資源是計算系統(tǒng)提供功 能、性能乃至智能的前提保證;在沒有足夠資源的保證之下,搜索技術(shù)也嚴重受制于資源瓶 頸。為了解決這個問題,提供搜索服務(wù)的提供者除了運用多種復(fù)雜分布式技術(shù)有效利用有 限資源外,必須采取投入高成本的手段來彌補資源上的不足。但即使如此,在面對海量互聯(lián) 網(wǎng)數(shù)據(jù)以及眾多搜索用戶來說,資源仍然是嚴重瓶頸。當前互聯(lián)網(wǎng)搜索技術(shù)是非即時搜索?;ヂ?lián)網(wǎng)搜索既然定位于為用戶提供整個互聯(lián) 網(wǎng)數(shù)據(jù)查找服務(wù),那么不得不考慮被搜索數(shù)據(jù)不斷變化的特征。這種變化是天經(jīng)地義的。當 前互聯(lián)網(wǎng)搜索服務(wù)提供者采取的辦法是首先從互聯(lián)網(wǎng)上的各個網(wǎng)站上獲得所有可能數(shù)據(jù),并在自己建立的服務(wù)器上對獲取的數(shù)據(jù)進行索引和排序。當收到用戶基于關(guān)鍵字的請求 后,根據(jù)這個關(guān)鍵字在已經(jīng)建立好的索引庫中進行匹配;同時把匹配結(jié)果按照事先的排序 順序返回給用戶。在這樣的搜索機制當中,為了確保數(shù)據(jù)為最近更新的,搜索提供者必須保 持周期性獲取數(shù)據(jù)的可能性,即不斷地從互聯(lián)網(wǎng)上取得最新數(shù)據(jù)。然而,由于互聯(lián)網(wǎng)規(guī)模龐 大,這個獲取數(shù)據(jù)的過程無法保證即時性。為了避免這樣的機制對用戶造成損失,搜索服務(wù) 的提供者只能在搜索服務(wù)器的分布式布置上做到規(guī)模盡可能大,從而有更多更強大的計算 資源以最小延遲獲得最新數(shù)據(jù)。但這種努力對于更新相對緩慢的數(shù)據(jù)來說是有效的;對于 更新頻繁以及不斷涌現(xiàn)的新數(shù)據(jù),要保持即時性的難度大。當前互聯(lián)網(wǎng)搜索技術(shù)是智能有限搜索。搜索技術(shù)對所謂智能計算4要求高。這樣 的要求主要體現(xiàn)在對搜索請求的理解、對搜索用戶歷史記錄的分析、被搜索數(shù)據(jù)的理解和 整理、搜索請求和被搜索數(shù)據(jù)中的匹配規(guī)則以及搜索結(jié)果的排序等方面。這些問題的解決 涉及計算機科學本身的瓶頸,即機器智能問題。試圖通過機器算法產(chǎn)生智能可能是不能實 現(xiàn)的。面對這樣的困難,一些搜索技術(shù)嘗試利用智能資源來解決機器不能解決的問題4。 所謂智能資源指的是在計算系統(tǒng)中存在的用戶行為和狀態(tài)。這些信息來自于用戶或者說來 自于操縱或使用計算系統(tǒng)的人;任何人都是在智力支配之下工作的,并且這種行為針對不 同的數(shù)據(jù)或者系統(tǒng)狀態(tài)時產(chǎn)生的反應(yīng)是不一樣的。通過對人類這些行為和反應(yīng)的考察,會 對相應(yīng)的數(shù)據(jù)或者系統(tǒng)狀態(tài)有所認識。將這種認識應(yīng)用于搜索當中,會對搜索當中大量需 要智能幫助的算法產(chǎn)生有益影響。這些原則在當前搜索中得到了利用,如PageRank5等。 但由于當前系統(tǒng)有限資源的限制,對搜集、控制、管理和利用這些智力資源造成了障礙。服 務(wù)器疲于響應(yīng)用戶的請求,沒有剩余的資源保證對上述智力資源的處理。這從根本上限制 了搜索的智能特征。當前互聯(lián)網(wǎng)搜索技術(shù)是低性價比搜索。嚴格來說,當前互聯(lián)網(wǎng)搜索是低性價比搜 索,即當前提供搜索服務(wù)的前提是除了恰當?shù)慕鉀Q方案外,還必須具備足夠多的計算資源 以及使用這些計算資源的方式。在從互聯(lián)網(wǎng)上獲取數(shù)據(jù)過程中,足夠多的計算資源是相對 迅速地獲得海量互聯(lián)網(wǎng)數(shù)據(jù)的保證;在響應(yīng)搜索請求時,足夠多的計算資源是使得用戶免 于長時間等待的前提。但即使如此,建立在高投入上的高性能也只是針對輕量級數(shù)據(jù)來進 行的;一旦數(shù)據(jù)特征發(fā)生變化,其資源緊缺的問題又會凸顯。當前互聯(lián)網(wǎng)搜索技術(shù)是輕量級搜索。當前互聯(lián)網(wǎng)搜索技術(shù)的輕量級特征表現(xiàn)在搜 索結(jié)果上。一個互聯(lián)網(wǎng)數(shù)據(jù)和服務(wù)搜索的提供者,首先是一個互聯(lián)網(wǎng)數(shù)據(jù)和服務(wù)的搜集者。 互聯(lián)網(wǎng)數(shù)據(jù)和服務(wù)雖然龐大,但具體每一個超鏈接對應(yīng)的數(shù)據(jù)從數(shù)據(jù)量上卻是微小的。其 本質(zhì)原因是計算資源有限造成的。基于同樣結(jié)構(gòu)上的互聯(lián)網(wǎng)搜索服務(wù)器產(chǎn)生的搜索結(jié)果也 不能變成大數(shù)據(jù)量的,即使搜索服務(wù)器得到眾多的搜索結(jié)果也不會把它們組合起來形成一 個更大的數(shù)據(jù)集。其實,當前搜索服務(wù)器甚至不提供真正的數(shù)據(jù),而只是指向數(shù)據(jù)的地址, 即把獲取數(shù)據(jù)的負擔轉(zhuǎn)交給該地址指向的原始服務(wù)器。這樣做的結(jié)果是,搜索服務(wù)器負擔 大大降低。有些搜索服務(wù)器會提供緩存服務(wù),從而避免原始服務(wù)器無法訪問而使用戶得不 到搜索結(jié)果。而這樣的緩存也是僅僅對網(wǎng)址對應(yīng)的數(shù)據(jù)為單位來進行的,不會對搜索到的 數(shù)據(jù)進行任何導(dǎo)致數(shù)據(jù)量增加的組合。當前互聯(lián)網(wǎng)搜索技術(shù)是小粒度搜索。當前互聯(lián)網(wǎng)上的數(shù)據(jù)首先是輕量級為特征。 當多個輕量級數(shù)據(jù)之間組合在一起時就會產(chǎn)生粒度的概念。粒度指的是數(shù)據(jù)含義覆蓋面的度量單位。當前互聯(lián)網(wǎng)的小粒度特征和輕量級特征是緊密相關(guān)的,只是從不同的角度去認 識同樣的問題。當前互聯(lián)網(wǎng)數(shù)據(jù)通常按照數(shù)據(jù)間固有的關(guān)系被組合成特定層次結(jié)構(gòu)。當用 戶訪問這樣的數(shù)據(jù)時,為了減小對服務(wù)器的壓力,用戶只能獲得這個層次結(jié)構(gòu)上一個節(jié)點 的數(shù)據(jù),即一個小粒度數(shù)據(jù)。基于這樣的互聯(lián)網(wǎng)系統(tǒng),搜索服務(wù)并沒有對此做任何改善。作 為搜索服務(wù)器,并不對搜索到的小粒度數(shù)據(jù)之間的固有關(guān)系進行任何組合,從而形成粒度 更大的數(shù)據(jù),而是維持其小粒度的狀態(tài)。這樣的做法并不利于搜索結(jié)果的完整表達。此外, 小粒度搜索甚至會對當前搜索服務(wù)帶來嚴重后果。一方面,搜索服務(wù)必須不斷地復(fù)制互聯(lián) 網(wǎng)數(shù)據(jù),這是作為互聯(lián)網(wǎng)搜索服務(wù)提供者必須完成的工作;另一方面,又因為數(shù)據(jù)規(guī)模不斷 增加,導(dǎo)致用戶只能在高匹配小粒度搜索請求時才能獲得滿意結(jié)果。這意味著當前互聯(lián)網(wǎng) 搜索服務(wù)進入了一個惡性循環(huán)必須不斷復(fù)制數(shù)據(jù),而數(shù)據(jù)量的增加會致使搜索結(jié)果過度 膨脹,眾多有價值小粒度數(shù)據(jù)被淹沒其中;最終的結(jié)果是搜索服務(wù)退化成了簡單的匹配服 務(wù);用來衡量數(shù)據(jù)質(zhì)量的PageRank技術(shù)在面對龐大數(shù)據(jù)源時作用越來越小。當前互聯(lián)網(wǎng)搜索技術(shù)是無狀態(tài)搜索。無狀態(tài)也是當前互聯(lián)網(wǎng)的特征,這同樣是為 了保證有限資源提供給更多潛在用戶而采取的策略。搜索中的狀態(tài)保持有利于利用搜索用 戶所擁有的智力資源。用戶在搜索時可能的狀態(tài)包括當前搜索的關(guān)鍵字、多次搜索之間有 無聯(lián)系以及與其他搜索用戶之間有無交互等。搜索服務(wù)的提供者可以在后續(xù)服務(wù)過程中利 用這些狀態(tài)數(shù)據(jù),提高搜索服務(wù)質(zhì)量。當前搜索技術(shù)沒有對搜索者的狀態(tài)做任何維護,或者 沒有在搜索中利用這些狀態(tài)數(shù)據(jù)為搜索做貢獻。當前互聯(lián)網(wǎng)搜索技術(shù)是機器算法為主導(dǎo)的搜索。搜索是互聯(lián)網(wǎng)上最需要體現(xiàn)智能 特征的應(yīng)用領(lǐng)域。但當前互聯(lián)網(wǎng)搜索技術(shù)在智能問題上存在兩個不足,即或者追求機器算 法產(chǎn)生智能4或者沒有充分利用系統(tǒng)中的智力資源6。前者的問題實際是計算機科學 觀念上的誤區(qū),而后者則是由于計算資源不能被大多數(shù)用戶分享而造成的。當前互聯(lián)網(wǎng)系 統(tǒng)是一種高度集中的分布式計算模型。這種模型的特征之一就是機器主導(dǎo)主要計算資源, 用戶或者說人處于輔助位置。機器算法嚴格限制用戶對計算資源的占用,盡量通過調(diào)度、減 小數(shù)據(jù)粒度、無狀態(tài)等多種手段控制有限計算資源,從而得以應(yīng)付潛在的用戶訪問。這種以 機器算法為主導(dǎo)的計算模型來源于計算資源匱乏狀態(tài)下產(chǎn)生的保守算法。這種算法雖然最 大限度地保護了計算資源不被一個用戶過多占用,但其代價也是明顯的,即用戶行為所代 表的智力資源只能有限地貢獻于系統(tǒng)。當前互聯(lián)網(wǎng)算法從這個意義上體現(xiàn)出重計算資源而 忽視智力資源的思想。當智力資源單純表現(xiàn)為用戶對計算資源的占用時,這種算法是有效 的;當前互聯(lián)網(wǎng)計算就是基于這樣的理念建立起來的。而當智力資源除了占用計算資源,還 扮演著計算資源提供者的角色時,以往以忽視智力資源為特征的算法就不成立了。這種新 思維的算法運用于搜索當中時,機器算法為主導(dǎo)的搜索或者說忽視智力資源的算法就必須 得到改變。當前互聯(lián)網(wǎng)搜索技術(shù)是低覆蓋率搜索。對于互聯(lián)網(wǎng)搜索服務(wù)來說,搜索覆蓋率指 的是搜索服務(wù)器所涵蓋的數(shù)據(jù)和服務(wù)占全部互聯(lián)網(wǎng)數(shù)據(jù)和服務(wù)的比例。這個比例的計算 可以通過搜索服務(wù)器所擁有的存貯量與全球互聯(lián)網(wǎng)服務(wù)器上的存貯量相比得出一個粗略 結(jié)果。之所以是粗略結(jié)果,因為無論是搜索服務(wù)器上還是互聯(lián)網(wǎng)服務(wù)器上都存在大量復(fù)制 數(shù)據(jù),并且互聯(lián)網(wǎng)數(shù)據(jù)時刻都在增長。但可以認為這個比例是小的。當然,一般搜索服務(wù) 器不會保存完整的互聯(lián)網(wǎng)數(shù)據(jù),而只是索引。但即使這樣,這個比例也不會太高。一般估計Google7可以達到10%8。Google正在試圖復(fù)制整個互聯(lián)網(wǎng)服務(wù)器上的數(shù)據(jù),以期 提供更完善的搜索服務(wù)。這種做法可以認為是對機器算法的極端迷信所造成的,或者說是 對人類智力資源的極端挑戰(zhàn)。從純粹物理存貯角度看,這個目標也許是可以實現(xiàn)的;姑且 不論這種重復(fù)投資是否有必要,如果Google在商業(yè)上如此成功,不如讓它為全世界提供互 聯(lián)網(wǎng)服務(wù)器。但數(shù)據(jù)和服務(wù)不是單純的文字、圖片、音頻和視頻,它還包括產(chǎn)生、獲取、使用、 改變、創(chuàng)新、復(fù)制甚至刪除數(shù)據(jù)和服務(wù)的人的狀態(tài)、思想、靈感和情緒,這些東西是無法復(fù)制 的。當這些因素能夠成為計算資源多寡的主導(dǎo)時,暫時的資源劣勢會由于這些因素的介入 而使得對計算資源盲目迷信而對智力資源忽視的做法遭到慘敗。當前互聯(lián)網(wǎng)搜索技術(shù)是無時間搜索?;ヂ?lián)網(wǎng)上的數(shù)據(jù)和服務(wù)很多是具備時間特征 的,即數(shù)據(jù)和服務(wù)隨著時間的變化會不斷改變。其次,即使數(shù)據(jù)和服務(wù)本身不因時間變化, 隨著同類新數(shù)據(jù)和服務(wù)的出現(xiàn),老的數(shù)據(jù)和服務(wù)會逐步過時并被淘汰,但同時會存在一些 數(shù)據(jù)和服務(wù)長期保持高質(zhì)量而不失去價值。再次,有些數(shù)據(jù)和服務(wù)還具有時段價值性,即在 某一個時段內(nèi)具有特殊價值,而超過這個時段價值或者下降或者保持甚至提升。最后,互聯(lián) 網(wǎng)是一個不斷變化的系統(tǒng),數(shù)據(jù)和服務(wù)的產(chǎn)生具有即時性。一個搜索系統(tǒng)能否獲得這樣的 即時數(shù)據(jù)和服務(wù)并將其呈現(xiàn)給用戶也是搜索技術(shù)需要考慮的問題。當前搜索系統(tǒng)在數(shù)據(jù)和 服務(wù)時間性的解決方案上是面向長期有價值數(shù)據(jù)的。由于缺乏即時獲得數(shù)據(jù)的能力,實際 上當前搜索服務(wù)在數(shù)據(jù)排序或者管理時是不考慮時間因素的。而鑒于時間因素的重要性, 對于和時間相關(guān)數(shù)據(jù)一般采取了人為干涉的特殊處理方法,即對主要但有限數(shù)量的網(wǎng)站予 以單獨監(jiān)測,以期獲得最新的更新數(shù)據(jù);并且當這些數(shù)據(jù)和用戶搜索請求出現(xiàn)匹配時,搜索 系統(tǒng)會在排序上賦予優(yōu)先權(quán)。這種方法實際上是對其主要排序和數(shù)據(jù)管理方法的簡單修 正,以彌補系統(tǒng)在時間性上的不足。但總的來說,當前搜索算法不是基于時間的搜索。當前互聯(lián)網(wǎng)搜索技術(shù)是非個性化搜索。個性化搜索也是搜索系統(tǒng)當中難以處理的 問題。由于難于獲得用戶的真正需求,無法對用戶的請求做出不同的處理。這同樣是因為 計算資源不足造成的,即無法對用戶行為進行跟蹤或者即使進行了跟蹤也不能在有限的時 間內(nèi)根據(jù)這種跟蹤結(jié)果做出反應(yīng)。另外,由于當前搜索系統(tǒng)無狀態(tài)的特征,也使得對用戶需 求的了解變得不足。最后,個性化是一個復(fù)雜的概念。它既是用戶個體的獨特需求,也是相 關(guān)用戶群共同特征;任何個性如果沒有共性,也不存在任何意義,即沒有可以滿足其需求的 數(shù)據(jù)和服務(wù)存在?;趩为氂脩魻顟B(tài)的分析,計算量大,也沒有足夠可靠的算法。與其將有 限計算資源用于每個用戶的判斷,不如通過適當?shù)姆椒ㄍㄟ^共性的把握來滿足個性。這既 減小了計算的壓力,也能夠更準確地確定個性需求。實際上,當前互聯(lián)網(wǎng)搜索技術(shù)還可以稱 作無分類搜索,即從互聯(lián)網(wǎng)上復(fù)制到自身系統(tǒng)的數(shù)據(jù)無法對其進行有效分類。這也是導(dǎo)致 當前互聯(lián)網(wǎng)沒有個性化的又一原因。當前搜索系統(tǒng)正在走向復(fù)制整個互聯(lián)網(wǎng)的兩難困境, 在獲得大量數(shù)據(jù)后,由于不能對數(shù)據(jù)進行有效分類,所有用戶只能從一個統(tǒng)一而極度簡化 視角(如著名的Google簡化界面)觀察龐大復(fù)雜的數(shù)據(jù)。超高粒度的搜索視角與小粒度 的數(shù)據(jù)訪問模式事實上造成用戶對大量數(shù)據(jù)是無法獲得。如果說原本覆蓋率就低的搜索服 務(wù),又因為上述原因使用戶只能看到有限數(shù)據(jù),其搜索質(zhì)量之差就可以想見了。事實上,在 使用當前搜索系統(tǒng)的時候,只有搜索請求粒度足夠小的關(guān)鍵字才會獲得相對滿意結(jié)果;而 搜索請求粒度過大時,搜索結(jié)果質(zhì)量會嚴重下降。這意味著當前搜索的個性化決定于搜索 者的搜索請求是否個性化,而不是搜索技術(shù)是否提供個性化功能。
7
當前互聯(lián)網(wǎng)搜索技術(shù)是內(nèi)容單一的搜索。所謂內(nèi)容單一指的是搜索結(jié)果過分同質(zhì) 化,即數(shù)據(jù)格式中以文本為主,而相關(guān)的圖片、音頻和視頻數(shù)據(jù)要少很多。這一方面是由于 當前搜索還是基于文本來進行的,針對其他格式數(shù)據(jù)的搜索算法不成熟;另一方面,當前互 聯(lián)網(wǎng)輕量級數(shù)據(jù)為主的特征,也導(dǎo)致除文本外,其他格式數(shù)據(jù)有限。最后,在把不同格式的 數(shù)據(jù)進行聚合后,系統(tǒng)也很難承受重量級數(shù)據(jù)對服務(wù)器造成的壓力。當前互聯(lián)網(wǎng)搜索技術(shù)是面向數(shù)據(jù)的搜索。與面向數(shù)據(jù)的搜索相對應(yīng)的搜索方式是 面向人或者智力資源的搜索。任何數(shù)據(jù)和服務(wù)都是由人來創(chuàng)造并且提供的。在獲得搜索數(shù) 據(jù)和服務(wù)時,如果能同時獲得相關(guān)人的數(shù)據(jù),那么會更符合用戶需求。對人的搜索實際上是 對數(shù)據(jù)和服務(wù)的本源做搜索。當前互聯(lián)網(wǎng)中任何一個數(shù)據(jù)或服務(wù)的提供者都沒有專門的計 算設(shè)備用以提供數(shù)據(jù)和服務(wù),一個人可以在多個服務(wù)器上進行發(fā)布,而一個服務(wù)器又可以 承受多個人發(fā)布的數(shù)據(jù)和服務(wù),這樣就為在整個互聯(lián)網(wǎng)上進行人的管理造成困難,很難在 人和數(shù)據(jù)之間建立簡單的對應(yīng)關(guān)系。這為搜索從面向數(shù)據(jù)向面向人的過渡造成障礙。當前互聯(lián)網(wǎng)搜索技術(shù)是無交互搜索。面向數(shù)據(jù)的搜索技術(shù)帶來的一個后果就是搜 索過程中的無交互特征。這里的交互指的是用戶之間的交互,而不是用戶和搜索服務(wù)器之 間的交互。在搜索算法本身還存在缺陷的情況下,如果搜索系統(tǒng)能輔助人的搜索,并且搜索 者和數(shù)據(jù)原創(chuàng)者之間能建立聯(lián)系,即互相直接溝通,那么這樣的搜索模式會更有效。本節(jié)對當前互聯(lián)網(wǎng)搜索技術(shù)作了總結(jié),著重討論了當前互聯(lián)網(wǎng)搜索技術(shù)的不足之 處。而這些不足之處的原因歸納起來就是計算資源的缺乏導(dǎo)致對智力資源利用有限?;?這樣的認識,在改善上述不足時應(yīng)該集中解決計算資源有限的問題。這個問題的解決又不 能單純通過增加計算資源的簡單辦法來解決,一方面這樣的方式投入過大,另一方面這種 簡單的方式并不能形成與智力資源的融合。合理的解決方案是在增加計算資源的同時為智 力資源順暢地進入系統(tǒng)提供方便,從而使搜索服務(wù)能夠在智力資源所控制的計算資源這個 基礎(chǔ)上進行。只有兼具上述兩個特點的方法才能夠從根本上克服當前搜索技術(shù)存在的問 題。圖1是當前互聯(lián)網(wǎng)搜索機制的簡單表示。
發(fā)明內(nèi)容
本發(fā)明的創(chuàng)作目的在于通過改善互聯(lián)網(wǎng)應(yīng)用層基本結(jié)構(gòu),從而達到增加互聯(lián)網(wǎng)計 算資源,同時使得智力資源能夠有效地根據(jù)自身意愿控制這些計算資源,最終在這樣的基 礎(chǔ)上建立全新的互聯(lián)網(wǎng)搜索服務(wù)。圖2表示了全息搜索的運行機制。本發(fā)明是通過以下技術(shù)手段實現(xiàn)發(fā)明目的的第一步,建立低成本搜索服務(wù)機制。提供搜索服務(wù),尤其是所謂平行搜索,對計算 資源的要求很高。其原因來自于其潛在的用戶訪問量大,并且需要覆蓋的數(shù)據(jù)量大。這樣 的要求對任何一個搜索提供者來說都需要高投入。本發(fā)明提供的搜索解決方案改變了資源 的來源,使得系統(tǒng)資源在無需額外投入的情況下獲得更多計算資源來支持搜索,這是形成 低成本搜索服務(wù)的主要原因。形成低成本搜索的另外一個原因是對智力資源的有效利用。 機器算法在進行所謂智能模擬的時候需要付出大量計算資源,并且效果不佳。搜索服務(wù)對 智能計算的要求高,而如果系統(tǒng)中有足夠的智力資源可供利用,那么模擬智力資源的計算 資源就會被節(jié)省出來,從而進一步降低搜索服務(wù)的成本。第二步,建立即時搜索機制。所謂即時搜索指的是搜索過程中對變化頻率高的數(shù)
8據(jù)即時反應(yīng)的能力。這里包含兩部分問題,分別包括大規(guī)模非中心互聯(lián)網(wǎng)中的數(shù)據(jù)及服務(wù) 資源和現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)及服務(wù)資源。由于兩者處于不同的環(huán)境當中,處理方式是不同的。對 于前者,由于被訪問者在大規(guī)模非中心互聯(lián)網(wǎng)中每個節(jié)點都是以主動擴張的方式工作,當 被搜索者的相關(guān)數(shù)據(jù)發(fā)生變化或者有新數(shù)據(jù)或服務(wù)出現(xiàn)的時候,變更或者新數(shù)據(jù)會以主動 擴散的方式傳送到集群中所有節(jié)點上。即時搜索在大規(guī)模非中心互聯(lián)網(wǎng)中容易完成。對于 傳統(tǒng)互聯(lián)網(wǎng)上的大量數(shù)據(jù)和服務(wù)要做到這點,首先要考慮的是對傳統(tǒng)互聯(lián)網(wǎng)服務(wù)器進行改 造,即通過付出計算資源來達到傳統(tǒng)互聯(lián)網(wǎng)服務(wù)器在行為上的轉(zhuǎn)化。這個付出的計算資源 主要用于周期性訪問傳統(tǒng)互聯(lián)網(wǎng)服務(wù)器以獲得其新的或者變化的數(shù)據(jù)及服務(wù)。同時,為降 低這部分資源的壓力,還可以通過利用大規(guī)模非中心互聯(lián)網(wǎng)中節(jié)點的訪問能力來降低周期 性訪問對資源的需求。通過上述方式,同樣也可以達到即時搜索的目的。第三步,建立強智能特征搜索機制。在大規(guī)模非中心互聯(lián)網(wǎng)當中,智能體現(xiàn)在對系 統(tǒng)智力資源的積累和利用上,而不是利用機器算法獲得類似于人類的智能。大規(guī)模非中心 互聯(lián)網(wǎng)和傳統(tǒng)互聯(lián)網(wǎng)系統(tǒng)的核心差別其實就在于前者的功能、性能和智能主要決定于系統(tǒng) 當中用戶的行為,而后者的功能、性能和智能主要決定于機器算法和計算資源。由于用戶行 為決定了計算資源的組合、質(zhì)量、生命周期等等,對這些狀態(tài)的監(jiān)測反過來就會對計算資源 本身在用戶智力頭腦中的地位做出判斷。計算資源在進行這樣的監(jiān)測時表現(xiàn)出來的能力是 人所不具備的。最終,由此產(chǎn)生的智能又會作用于用戶,使用戶產(chǎn)生系統(tǒng)具備智能特征的認 識。這種相互作用必須是在平等機會的前提下進行,即處于系統(tǒng)中任何用戶都有相同的機 會展示其智力資源?;谏鲜龆喾N認識,全息搜索技術(shù)提供了強智能特征的搜索,主要表現(xiàn) 在排序結(jié)果的合理性、相關(guān)數(shù)據(jù)和服務(wù)的提供以及相關(guān)計算資源的搜索上。第四步,建立高性能搜索機制。搜索的性能也是搜索服務(wù)重要指標之一。本發(fā)明 的搜索技術(shù)在保證相對低的計算資源投入前提下,仍然能夠保持搜索的高性能。一般搜索 用戶在互聯(lián)網(wǎng)上進行搜索時,可忍受等待時間都會很短。如果不能保證搜索服務(wù)的性能,那 么其他特征也不會被用戶接受。另外,高性能除了體現(xiàn)在迅速對用戶搜索請求做出反應(yīng)外, 還體現(xiàn)在對重量級數(shù)據(jù)的處理能力上。傳統(tǒng)互聯(lián)網(wǎng)搜索機制通常不負責對數(shù)據(jù)的傳輸,用 戶需要通過超鏈接直接訪問數(shù)據(jù)。當前,一些搜索服務(wù)對互聯(lián)網(wǎng)數(shù)據(jù)進行緩存,并為用戶提 供數(shù)據(jù)傳輸服務(wù)。但在面臨重量級數(shù)據(jù)時,性能仍然不足。本發(fā)明的搜索能夠有效處理重 量級數(shù)據(jù)的傳輸。第五步,建立面向數(shù)據(jù)的重量級搜索機制。當前互聯(lián)網(wǎng)搜索服務(wù)不是面向數(shù)據(jù)的 搜索,或者叫作面向超鏈接的搜索服務(wù)。用戶的搜索請求獲得的不是實際數(shù)據(jù)而是超鏈接, 即間接的結(jié)果。這種形式的搜索結(jié)果對于輕量級數(shù)據(jù)來說影響不大;超鏈接結(jié)果類似于對 數(shù)據(jù)的索引。對于重量級數(shù)據(jù)來說,用戶不得不通過超鏈接去獲得相關(guān)數(shù)據(jù),而此過程中由 于傳統(tǒng)互聯(lián)網(wǎng)處理重量級數(shù)據(jù)的能力有限,用戶等待時間過長。在全息搜索技術(shù)當中,由于 是面向數(shù)據(jù),用戶的搜索結(jié)果直接以最終數(shù)據(jù)的形式展示給用戶;在高性能系統(tǒng)的支持下, 重量級數(shù)據(jù)也會持續(xù)傳輸給用戶。第六步,建立大粒度搜索機制。粒度反映了知識結(jié)構(gòu)當中的一個邏輯節(jié)點。大粒 度表示更完整的知識結(jié)構(gòu)。傳統(tǒng)互聯(lián)網(wǎng)搜索服務(wù)在搜索粒度上表現(xiàn)出不足,即搜索結(jié)果的 粒度小。本發(fā)明的搜索提供大粒度搜索以滿足用戶對完整搜索結(jié)果的需求。無論是面對大 規(guī)模非中心互聯(lián)網(wǎng)中的數(shù)據(jù)和服務(wù),還是面對傳統(tǒng)互聯(lián)網(wǎng)的數(shù)據(jù)和服務(wù),全息搜索都解決了當前互聯(lián)網(wǎng)搜索小粒度的問題。第七步,建立有狀態(tài)搜索機制。在搜索過程中記錄用戶的狀態(tài)對提高搜索服務(wù)的 智能特征有巨大幫助。當前互聯(lián)網(wǎng)搜索是繼承了傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用無狀態(tài)特征,即搜索提供 者不關(guān)心當前用戶在互聯(lián)網(wǎng)上所處的狀態(tài)以及以往的交互記錄,只根據(jù)用戶提供的關(guān)鍵字 在統(tǒng)一的數(shù)據(jù)范圍內(nèi)進行搜索。這樣的結(jié)果就是同樣的關(guān)鍵字對所有用戶的結(jié)果都是一樣 的。這不符合搜索用戶多樣化的需求。用戶在搜索中一般包括如下狀態(tài)以往訪問和搜索 記錄、當前搜索請求、當前所處頻道、相關(guān)頻道、當前與其他用戶交互情況以及以往與其他 用戶交互記錄等等。搜索服務(wù)可以根據(jù)這些狀態(tài)對當前搜索請求進行智能搜索服務(wù)。根據(jù) 以往訪問和搜索記錄中相關(guān)用戶,可以為用戶提供潛在的相關(guān)數(shù)據(jù)源;對于當前搜索請求 應(yīng)該持續(xù)保存,這樣當相關(guān)數(shù)據(jù)及用戶發(fā)生變化時,能即時和搜索用戶溝通;根據(jù)用戶當前 所處頻道,可以將頻道中有關(guān)數(shù)據(jù)和服務(wù)提供給用戶;在全息搜索中,搜索出的數(shù)據(jù)是和頻 道相關(guān)的,通常會得到多個頻道的數(shù)據(jù)以及頻道本身,這些狀態(tài)為系統(tǒng)持續(xù)提供相關(guān)數(shù)據(jù) 作了保證;由于本發(fā)明所處的計算系統(tǒng)交互強,而這種交互也會對用戶的搜索起作用,因此 交互狀態(tài)也被用來輔助搜索。這些狀態(tài)在搜索中的作用也和傳統(tǒng)系統(tǒng)中不同,即不是通過 這些狀態(tài)來為所謂機器智能系統(tǒng)服務(wù),而是通過這些狀態(tài)找到更多相關(guān)而可利用的智力資 源來服務(wù)于搜索和搜索者。為了達到上述目的,系統(tǒng)需要提供強大的狀態(tài)管理手段以及相 應(yīng)的計算資源。第八步,建立高覆蓋率搜索機制。為了使更多互聯(lián)網(wǎng)上的數(shù)據(jù)能夠被搜索服務(wù)系 統(tǒng)所覆蓋,從而為用戶提供更完整的搜索結(jié)果,提高搜索覆蓋率成為搜索系統(tǒng)關(guān)鍵問題之 一。在大規(guī)模非中心互聯(lián)網(wǎng)中,搜索的覆蓋率可通過低于傳統(tǒng)方式的代價而獲得高得多的 數(shù)據(jù)覆蓋率。第九步,建立具備時間特征的搜索。任何數(shù)據(jù)都會和時間有聯(lián)系。這種聯(lián)系可以粗 略地表示為長期時間有效特征、間斷時間有效特征以及即時時間有效特征。所謂有效特征 指的是在滿足時間條件的前提下,數(shù)據(jù)才會具備意義或者才能作為搜索結(jié)果呈現(xiàn)給用戶。 本發(fā)明的搜索機制能夠根據(jù)用戶的統(tǒng)一搜索請求,為用戶提供不同時間屬性的搜索結(jié)果, 從而使搜索結(jié)果在時間特征上更完備。第十步,建立個性化搜索機制。個性化搜索在本發(fā)明的搜索機制當中也得到了充 分體現(xiàn)。在大規(guī)模非中心互聯(lián)網(wǎng)中,個性化可以更廣義地定義為全局個性化、群落個性化以 及個體個性化。所謂全局個性化指的是全體搜索者都可能對某一搜索請求具備的搜索需 求。當前搜索服務(wù)實際上屬于這樣的類型。本發(fā)明的搜索技術(shù)也可以完成這樣的任務(wù)。所 謂群落個性化是對只在某個局部反應(yīng)出來的對某一個搜索請求的真實需求。這也反映了搜 索當中的一種普遍要求。但當前互聯(lián)網(wǎng)搜索服務(wù)在計算資源以及對智力資源認識上的不 足,導(dǎo)致沒有也難以對搜索人群做任何識別、劃分以及處理,無法做到群落個性化。作為全 息搜索技術(shù),在計算資源可靠保證的前提下,通過智力資源主導(dǎo)群落,達到群落個性化搜索 的滿足。個體個性化是一種更為極端的個性化。嚴格來說,任何個人個性化都是和某一群 落甚至和全局個性化相關(guān);只有在極特殊的情況下,才會存在一個絕對的個性化。但在一個 智力資源為主導(dǎo)的系統(tǒng)中,通常會出現(xiàn)少數(shù)人的個性在主導(dǎo)大多數(shù)人;而多數(shù)被影響的個 性又略有差別。全息搜索系統(tǒng)試圖通過在豐富計算資源支持下,達到個體個性化搜索的目 的。這個目標對當前搜索服務(wù)更是無能為力。
10
第十一步,建立多格式數(shù)據(jù)搜索機制。對同一事物或意義的表示有多種方式,從文 字、圖片到音頻視頻。對于這種情況,搜索服務(wù)應(yīng)把這些數(shù)據(jù)組合后以搜索結(jié)果的方式回饋 給用戶。本發(fā)明的搜索機制根據(jù)用戶發(fā)布數(shù)據(jù)格式的規(guī)范以及用戶的交互,實現(xiàn)了多格式 的搜索服務(wù)。第十二步,建立面向人的搜索機制。全息搜索的主要特征之一就是搜索結(jié)果不僅 僅包括數(shù)據(jù),還包括數(shù)據(jù)和服務(wù)的創(chuàng)作者以及其他相關(guān)人群。全息搜索認為對人的搜索才 是搜索的最終目的在獲得產(chǎn)生數(shù)據(jù)和服務(wù)的源頭(即人)后,才會有更進一步的個性化交 互直至新數(shù)據(jù)和新創(chuàng)作者的出現(xiàn)。第十三步,建立交互式搜索機制。在搜索中獲得人的前提下,通過大規(guī)模非中心互 聯(lián)網(wǎng)中的交互技術(shù),可以輔助用戶在搜索過程中和原始數(shù)據(jù)的提供者、正在進行相似搜索 的其他搜索者以及跟此搜索數(shù)據(jù)相關(guān)的讀者和其他創(chuàng)作者進行基于各種成員規(guī)模、各種數(shù) 據(jù)規(guī)模的交互。這種交互應(yīng)該是用戶在搜索中獲得有價值數(shù)據(jù)的有力輔助措施。第十四步,建立全息搜索機制。本發(fā)明所涉及的搜索技術(shù)之所以稱作“全息搜索”, 其意圖首先是指搜索數(shù)據(jù)的完整程度,如本搜索服務(wù)提供除了匹配數(shù)據(jù)之外其他可能的相 關(guān)數(shù)據(jù),在數(shù)據(jù)覆蓋程度上也要高;其次,全息搜索還表示搜索數(shù)據(jù)本身性質(zhì)上也更豐富, 如對搜索結(jié)果包含多種格式、具備時間性和即時性,還能把握變化特征等等;再次,全息搜 索還關(guān)注搜索者以及其他和搜索相關(guān)的人,希望在搜索過程中對相關(guān)人進行搜索從而促進 獲得最終完善數(shù)據(jù);最后,全息搜索的最大特征是對人在搜索中重要價值的推崇,前面三個 特征的實現(xiàn)都是利用對人所代表的智力資源所帶來的。本發(fā)明的積極效果為本發(fā)明提出的全息搜索機制建立在新的理念和技術(shù)基礎(chǔ)上,完全不同于當前互 聯(lián)網(wǎng)搜索系統(tǒng),克服了當前互聯(lián)網(wǎng)搜索系統(tǒng)中在計算資源、即時性、智能、性價比、數(shù)據(jù)量、 粒度、狀態(tài)管理、智力資源、覆蓋率、時間性、個性化、表現(xiàn)形式、人以及交互性等多方面的不 足,為建立一個全新的搜索系統(tǒng)提供了有力技術(shù)保證。
圖1、當前互聯(lián)網(wǎng)搜索機制;圖2、全息搜索的運行機制。
具體實施例方式第一步,利用智力系統(tǒng)服務(wù)于互聯(lián)網(wǎng)應(yīng)用系統(tǒng)。計算系統(tǒng)的本質(zhì)在不同的應(yīng)用當 中差別巨大。如果以智力資源參與的多寡來衡量,那么計算系統(tǒng)可以分為兩大類,即智力資 源控制下的計算系統(tǒng)和機器算法控制下的計算系統(tǒng)。這里的智力資源指的是在人類有意識 的情況下,根據(jù)自身需求以及當前計算環(huán)境的狀態(tài)做出的智能判斷以及依據(jù)此判斷產(chǎn)生的 相關(guān)行為。與智力資源相對應(yīng)的就是機器算法。通常認為,機器算法無法產(chǎn)生智能并且只 能根據(jù)指定的命令在有限狀態(tài)下完成固定的任務(wù)。而“一個計算系統(tǒng)在智力資源控制之下” 指的是計算系統(tǒng)中計算資源的使用、分配、管理以及獲得都決定于智力資源的動態(tài)變化,而 非事先制定的機器算法。這恰好和以完全依賴機器算法運行的系統(tǒng)產(chǎn)生鮮明對照。這兩類 系統(tǒng)的不同之處可以歸納如下。首先,對智力資源的認識不同。在智力資源控制下的計算系統(tǒng)中,智力資源被當作系統(tǒng)資源的重要組成部分。它決定著計算系統(tǒng)除了功能外的重要 指標,即性能和智能。對智力資源的忽視,會導(dǎo)致計算系統(tǒng)提供的功能在計算資源高度投入 的情況下才能保證滿足用戶需求。在機器算法控制下的計算系統(tǒng),不對智力資源在系統(tǒng)中 的作用作任何考慮,其潛在的意識當中認為用戶和計算系統(tǒng)的交互是對計算資源的消耗, 是機器算法所需要盡量減少的和排斥的;在這樣的系統(tǒng)中,只有通過事先的算法設(shè)計才可 以充分利用計算資源、減小計算資源過度需求對系統(tǒng)造成的壓力。其次,應(yīng)用環(huán)境的不同。 并不是所有的應(yīng)用環(huán)境都適合在智力資源控制下運行。在智力資源控制下的系統(tǒng)要求擁有 足夠多的智力資源,并且這些智力資源具有控制計算資源的能力。在一些應(yīng)用環(huán)境中,如果 智力資源過少或者智力資源不能對計算資源的變動產(chǎn)生影響,那么這樣的環(huán)境就不適合在 智力資源控制下運行。一個成熟的機器算法對這樣的系統(tǒng)更適合。但如果一個適合智力 資源控制的系統(tǒng)使用了機器算法主導(dǎo)的方式,那么會導(dǎo)致計算資源的浪費或者不足以及功 能、性能和智能上的損失。最后,對智力資源的利用不同。在機器算法控制的計算系統(tǒng)中, 嚴格來說計算資源也是在人類智力資源控制之下。算法其實是人類智力資源在計算系統(tǒng)中 的體現(xiàn)。然而,這種算法一旦形成就不再發(fā)生變化,計算系統(tǒng)將永遠按照事先固定的模式來 運行。在這樣的系統(tǒng)中計算資源是通過事先制定的算法來互相溝通進行協(xié)作,從而滿足基 本功能能夠在高性能的環(huán)境中完成。智力資源控制下的計算系統(tǒng)事先無法預(yù)知某個計算可 能擁有的計算資源。在這樣的系統(tǒng)中,計算資源的多寡決定于智力資源或者說用戶的判斷; 而且這種判斷是在系統(tǒng)運行后動態(tài)進行的。在設(shè)計機器算法控制的計算系統(tǒng)時,設(shè)計者有 一個前提認識,即所有系統(tǒng)的計算資源都在即將制定的算法控制之下,計算資源總量不會 在整個運行過程中發(fā)生變化;即使有變化,也是在精確定義的環(huán)境中按照事先約定的模式 對計算資源進行調(diào)整。通常這種調(diào)整引起的計算資源變化是微小的,一般都是在靜態(tài)環(huán)境 下人工參與完成的。智力資源控制的系統(tǒng)在設(shè)計時除了考慮充分有效利用計算資源外,還 要考慮由于用戶和計算系統(tǒng)的交互而引起計算資源的變化。通常這樣的變化就是計算資源 的增加和減少。無論什么樣的變化,系統(tǒng)設(shè)計時的原則不是逆這樣的變化而動,而是在盡量 保證公平性的同時順應(yīng)這樣的變化?!绊槕?yīng)”指的是在智力資源的指導(dǎo)下,輔助系統(tǒng)建立這 樣的開放環(huán)境。在算法設(shè)計中,應(yīng)該對智力資源引發(fā)的計算資源的變動進行監(jiān)測;當發(fā)現(xiàn)這 樣的變化時,系統(tǒng)的運行方式必須容納并且為這種變動提供便利條件。第二步,用智力資源控制互聯(lián)網(wǎng)應(yīng)用系統(tǒng)?;ヂ?lián)網(wǎng)應(yīng)用系統(tǒng)是具備眾多用戶的系 統(tǒng)。隨著計算設(shè)備技術(shù)和通信技術(shù)的提高,用戶所具有的計算資源越來越豐富,即這些增 加的計算資源完全在用戶的控制之下,用戶可以決定這些計算資源參與或離開某個具體應(yīng) 用。對一個成功的互聯(lián)網(wǎng)應(yīng)用來說,其規(guī)模是沒有上限的。這種規(guī)模通常是以用戶量來衡 量的。這是智力資源控制計算系統(tǒng)的典型。正如前面討論,一個適合于智力資源主導(dǎo)的應(yīng) 用環(huán)境如果使用機器算法主導(dǎo)計算,將不得不付出更多的計算資源,同時無法保證功能、性 能和智能的高質(zhì)量。其原因討論如下。1)對智力資源的忽視會導(dǎo)致計算資源的不合理使用。當以機器算法為主導(dǎo)來應(yīng)付 互聯(lián)網(wǎng)應(yīng)用時,由于這種系統(tǒng)和智力資源控制的系統(tǒng)存在根本區(qū)別,致使用戶控制的計算 資源不但不會給正在運行的系統(tǒng)帶來幫助,反而會遭致來自于用戶的資源請求壓力。規(guī)模 越大,則資源壓力也越大。計算資源的壓力必然導(dǎo)致應(yīng)用系統(tǒng)功能、性能和智能的損失。這 是問題的一個方面。另外一個方面是當忽視智力資源時,還可能導(dǎo)致計算資源的浪費?;跈C器算法的計算系統(tǒng)是以自身提供計算資源為主導(dǎo)的系統(tǒng),無論這樣的計算資源是否足 夠,系統(tǒng)都只能在這樣的環(huán)境下工作。為了滿足潛在的大量用戶需求,通常會預(yù)先準備大量 計算資源。在大多數(shù)時候由于用戶訪問量不足而機器算法又無法對這樣的智力資源表現(xiàn)出 來的狀態(tài)做出反應(yīng),會造成計算資源的浪費。在計算資源浪費或者有富余的前提下,功能、 性能和智能才會有基本保證。但這樣的保證是建立在高成本的基礎(chǔ)上。2)對智力資源的忽視導(dǎo)致算法設(shè)計的復(fù)雜。智力資源不單純是用戶的行為,這 種行為還導(dǎo)致計算資源在一個應(yīng)用中的多寡。如果忽視智力資源及其相關(guān)的計算資源,必 然導(dǎo)致機器算法的復(fù)雜化。在當前互聯(lián)網(wǎng)應(yīng)用中,總得來說以機器算法控制的計算系統(tǒng)擁 有的計算資源是處于相對稀缺的狀態(tài)這是大量潛在用戶訪問以及網(wǎng)絡(luò)能力相對滯后造成 的。即使用戶規(guī)模在某一時刻相對小,但網(wǎng)絡(luò)瓶頸在所有時刻都是存在的。在計算資源相 對稀缺的條件下,對智力資源的利用就是迫切甚至是必須的。否則,只能在計算資源有限條 件下強化機器算法,使得計算資源的利用更有效。這會導(dǎo)致算法過于復(fù)雜,系統(tǒng)設(shè)計的代價 過高。3)對智力資源的忽視最終總是導(dǎo)致簡陋的功能、性能和智能。在智力資源豐富的 系統(tǒng)中使用機器算法主導(dǎo)的計算系統(tǒng),最終必然導(dǎo)致功能、性能和智能在一個簡陋的基礎(chǔ) 上完成。這指的是即使在系統(tǒng)正常(即計算資源足夠)條件下,也只能提供有限的功能、性 能和智能。這些能力和真正完善的功能、性能和智能之間有很大差別。當前互聯(lián)網(wǎng)系統(tǒng)就 是一個突出例子。這樣的系統(tǒng)沒有恰當利用智力資源,最終導(dǎo)致諸如內(nèi)斂、非即時、非流、無 狀態(tài)、小規(guī)模、小粒度、低性能、輕量級、低智能和高成本等諸多問題。第三步,建立智力資源控制下的分布式計算環(huán)境即大規(guī)模非中心互聯(lián)網(wǎng)。既然互 聯(lián)網(wǎng)系統(tǒng)是適合智力資源控制的計算系統(tǒng),那么如何建立這樣的系統(tǒng)呢?在互聯(lián)網(wǎng)這樣一 個特殊的計算環(huán)境中實現(xiàn)這個目標,具體步驟如下。1)賦予用戶計算設(shè)備參與計算的可能性。所謂 與計算指的是對整個計算活動能 夠貢獻計算資源,而不是只以消耗計算資源的方式出現(xiàn)在計算系統(tǒng)中。根據(jù)這個定義,作為 被智力資源所控制的計算設(shè)備在當前互聯(lián)網(wǎng)中實際上是沒有參與計算的。造成這個問題的 原因是當前互聯(lián)網(wǎng)系統(tǒng)是基于完全瘦客戶服務(wù)器模式下1的中心分布式結(jié)構(gòu)1。完全 瘦客戶服務(wù)器模式杜絕了客戶端參與計算的可能性,即客戶端只能發(fā)出計算請求而等待服 務(wù)器端給予回應(yīng)。改變這樣模式首先就是使完全瘦客戶端變成可以分擔服務(wù)器任務(wù)的客戶 端;這個改動根據(jù)具體應(yīng)用甚至可以變成分擔大部分服務(wù)器任務(wù)的客戶端。這個過程可以 成為由瘦客戶端向富客戶端的轉(zhuǎn)換。其次,還應(yīng)該考慮到利用客戶端之間協(xié)作能力。一個 完全瘦客戶端在轉(zhuǎn)變成了富客戶端后,如果能夠和其他客戶端也形成協(xié)作的模型,那么可 以使互聯(lián)網(wǎng)計算設(shè)備之間相互參與計算的可能性達到最高。這時候最大的變動應(yīng)該是使得 一個客戶端除了具備發(fā)出請求的能力外,還具備接受請求并處理請求的能力。這是在客戶 端之間形成協(xié)作的前提。當一個客戶端具備請求、被請求、處理請求并做出回應(yīng)的能力后, 就由一個客戶端轉(zhuǎn)變成了對等客戶端。當然,這樣簡單的轉(zhuǎn)變賦予計算設(shè)備的只是參與計 算的可能性,離完善的對等客戶端還有差距。最后,一個更具備普遍意義的做法是把服務(wù)器 變成對等服務(wù)器。這個變化能夠使所有計算資源在計算模式上都具備參與一個計算的可能 性。2)賦予用戶計算活動的決定權(quán)。當計算設(shè)備具備參與計算的可能性后,并不意味著它們在機器算法的控制下就可以達到功能、性能和智能上的最佳狀態(tài)。究其原因是因 為機器算法不具備真正的智能,不能即時甚至是超時情況下替用戶在復(fù)雜多樣的計算環(huán)境 中做出滿足用戶需求的判斷。正因為機器算法的不足,必須把用戶的智力資源融入計算當 中。讓用戶獲得這樣的決定權(quán)并不困難,至少比機器算法產(chǎn)生智能這樣的目標要簡單得多。 通??梢酝ㄟ^簡潔的界面就可以達到這個目的,讓用戶清晰地了解系統(tǒng)當中正在進行的計 算、相關(guān)狀態(tài)、用戶可能的選擇以及用戶做出選擇后可能的結(jié)果。當這些信息呈現(xiàn)在界面上 時,用戶就可以憑借自身的智力做出其認為適合的選擇,或者任憑當前計算繼續(xù)進行,或者 選擇更感興趣的計算,或者中斷所有計算。計算活動選擇權(quán)為互聯(lián)網(wǎng)應(yīng)用當中融入智力資 源并最終獲得智能服務(wù)建立了前提。3)利用機器算法彌補智力資源的不足。智力資源在具備了對計算的選擇權(quán)后,并 不意味著機器算法在系統(tǒng)中無能為力。事實上,優(yōu)秀的機器算法應(yīng)該和恰當使用智力資源 相結(jié)合才能彌補彼此不足而獲得最優(yōu)的計算系統(tǒng)。智力資源雖然在智能判斷上具備機器算 法所沒有的絕對優(yōu)勢,但由于用戶完全是根據(jù)自身的喜好做出判斷,這并不一定在任何時 候?qū)θ质亲钣欣模踔劣行Q策對用戶本身也是有害的;同時,智力資源與機器相比較 也有不足之處,如純粹數(shù)值計算能力差、不具備全局狀態(tài)的統(tǒng)計能力等等。這時候需要計算 系統(tǒng)通過恰當?shù)姆绞綄τ脩艚o予幫助。4)建立智力資源驅(qū)動的基本網(wǎng)絡(luò)拓撲結(jié)構(gòu)。在傳統(tǒng)客戶端和服務(wù)器轉(zhuǎn)變成了對等 客戶端和對等服務(wù)器之后,實際上也使當前互聯(lián)網(wǎng)由中心結(jié)構(gòu)轉(zhuǎn)變?yōu)橹橇Y源驅(qū)動的基本 拓撲結(jié)構(gòu)。這也是實現(xiàn)智力資源有效融入的關(guān)鍵手段。這個拓撲結(jié)構(gòu)完全建立于用戶自身 對計算系統(tǒng)的認識上,即用戶可以隨意通過自己的判斷加入互聯(lián)網(wǎng)當前正在進行的計算, 并且在其控制的計算設(shè)備和計算系統(tǒng)的交互過程中,構(gòu)成新的互聯(lián)網(wǎng)基本拓撲結(jié)構(gòu)。這個 基本拓撲結(jié)構(gòu)是建立在用戶自身判斷的基礎(chǔ)上,其本身就是凝結(jié)了智力資源的網(wǎng)絡(luò)結(jié)構(gòu)。 這個結(jié)構(gòu)是在整個互聯(lián)網(wǎng)系統(tǒng)中提供具備高性能高智能新功能的基礎(chǔ)。當然,正如前面提 到的一樣,用戶的自由判斷因為自身原因并不是總是正確的。這時候,計算系統(tǒng)可以提供可 能的選擇(如強節(jié)點、強應(yīng)用以及主要活動等選項)輔助用戶進入系統(tǒng),使得新的網(wǎng)絡(luò)拓撲 結(jié)構(gòu)對智力資源的把握更準確。這種拓撲結(jié)構(gòu)本身與中心結(jié)構(gòu)比較似乎沒有規(guī)律,實際上 的研究發(fā)現(xiàn)由于上述方式的采用,最終大量用戶控制的計算設(shè)備會形成具備獨特規(guī)律的網(wǎng) 絡(luò)模型,即社會網(wǎng)絡(luò)6,又叫作復(fù)雜網(wǎng)絡(luò)9?;谶@個網(wǎng)絡(luò),計算資源的獲取以及協(xié)作會 在智力資源的指引下變得更加合理。5)賦予系統(tǒng)適合的路由算法。在分布式系統(tǒng)中,路由算法是系統(tǒng)的核心算法。路 由算法的本質(zhì)是獲取計算資源的方法。在當前互聯(lián)網(wǎng)系統(tǒng)中,由于計算高度控制在機器算 法之下,其獲取資源的方式也是由機器算法來完成的。一般的觀念都是把計算資源絕對規(guī) 則化從而適合機器算法的快速處理,比如中心注冊法1或者規(guī)則結(jié)構(gòu)法10。前者適合 以中心結(jié)構(gòu)為主的分布式計算系統(tǒng)。當前互聯(lián)網(wǎng)就是基于這樣的結(jié)構(gòu)來尋找計算資源的。 后者適合非中心結(jié)構(gòu)的大規(guī)模分布式計算系統(tǒng)。這個計算環(huán)境本質(zhì)上也是一個社會網(wǎng)絡(luò)或 者復(fù)雜網(wǎng)絡(luò)系統(tǒng)。但是,這種基于規(guī)則結(jié)構(gòu)的路由方式由于沒有利用社會網(wǎng)絡(luò)本身具備的 智力資源,純粹以機器算法的方式規(guī)劃互聯(lián)網(wǎng)資源,最終維護這個虛擬規(guī)則拓撲結(jié)構(gòu)的負 擔甚至超過了搜索資源中得到的回報。一個適合社會網(wǎng)絡(luò)特征的路由算法必須同時考慮復(fù) 雜網(wǎng)絡(luò)的特征和建立在這個網(wǎng)絡(luò)拓撲結(jié)構(gòu)上具體應(yīng)用的特點。
14
6)賦予系統(tǒng)適合的集群算法。為了建立智力資源為主導(dǎo)的分布式系統(tǒng),另外一個 需要考慮的問題就是在通過路由算法獲得可能的計算資源后把這些資源組織起來的方法。 互聯(lián)網(wǎng)的網(wǎng)絡(luò)基礎(chǔ)是一個動態(tài)變化的系統(tǒng),而作為這個系統(tǒng)之上由用戶控制的計算設(shè)備或 者由智力資源直接控制的計算資源也處于變動當中。這主要是源于計算設(shè)備所擁有的計算 資源相對有限,尤其是受到網(wǎng)絡(luò)不穩(wěn)定的影響特別嚴重。除此之外,用戶在計算過程中的選 擇也會影響計算的穩(wěn)定性。所以在組織這樣的計算資源的時候要具備兩個先決條件第一, 計算本身要具備用戶能夠感受到的意義;第二,計算資源的規(guī)模要足夠大。這兩個條件之間 是有聯(lián)系的。只有用戶在計算過程中感受到計算的意義,那么才有可能使得規(guī)模擴大;而規(guī) 模的擴大又為有意義的計算吸引更多用戶控制的計算資源。在這兩個先決條件滿足后,這 些計算資源要依照互惠原則組織成協(xié)同工作集群。當上述兩個條件不具備的時候,大規(guī)模 非中心互聯(lián)網(wǎng)會提供最基本的性能保證。這時候的性能會下降嚴重,除非大規(guī)模非中心互 聯(lián)網(wǎng)提供者擁有足夠多的計算資源來防止小規(guī)模集群資源匱乏。第四步,重用非智力資源控制下的當前互聯(lián)網(wǎng)資源。在建立了大規(guī)模非中心互聯(lián) 網(wǎng)后,并不是建立了和當前互聯(lián)網(wǎng)對立的系統(tǒng)。二者雖然工作機制不同,但新系統(tǒng)可以融合 現(xiàn)有系統(tǒng)。當前互聯(lián)網(wǎng)中擁有大量用戶、數(shù)據(jù)以及服務(wù)資源。采取適當手段把這些資源融 入新的互聯(lián)網(wǎng)環(huán)境中,會為這個新體系帶來智力資源和計算資源的有力支持?;痉椒ㄊ?通過周期性訪問現(xiàn)有網(wǎng)站以獲取其數(shù)據(jù)或服務(wù),并在智力資源控制的拓撲結(jié)構(gòu)中多播。通 過利用這些資源,可以逐步推進大規(guī)模非中心互聯(lián)網(wǎng)的發(fā)展,最終實現(xiàn)所有的互聯(lián)網(wǎng)計算 設(shè)備都以新的方式來運行,實現(xiàn)更完善的互聯(lián)網(wǎng)系統(tǒng)。第五步,通過所有計算資源參與保證足夠的搜索服務(wù)計算資源。全息搜索建立在 大規(guī)模非中心互聯(lián)網(wǎng)上,之所以能夠具備“全息”的特征,就是因為有相對充足的計算資源 保證。對于搜索來說,首先是數(shù)據(jù)資源。由于所有加入大規(guī)模非中心互聯(lián)網(wǎng)系統(tǒng)的計算設(shè) 備都具有參與計算的可能性,所以其愿意共享的數(shù)據(jù)就會成為整個系統(tǒng)的一部分。這樣的 數(shù)據(jù)資源無需通過“爬蟲”的辦法在互聯(lián)網(wǎng)上做集中式移動,節(jié)省了額外的計算資源并擴大 了數(shù)據(jù)覆蓋范圍。其次,CPU資源在這個平臺上也可以得到保證。由于采取了高動態(tài)集群 技術(shù),搜索的壓力實際上不會集中于復(fù)雜網(wǎng)絡(luò)上的少數(shù)超級節(jié)點;搜索請求通過動態(tài)負載 平衡的方法被整個動態(tài)集群來響應(yīng)。再次,存貯資源也是支持搜索的重要計算資源。存貯 資源可以分為持久存貯資源和瞬時存儲資源。前者由于系統(tǒng)允許任何設(shè)備進入并且參與計 算,眾多設(shè)備本身的持久存貯資源就成為系統(tǒng)的一部分。這大大豐富了存貯資源的總量。后 者一般用來保存搜索過程中動態(tài)變化信息,如計算設(shè)備當前狀態(tài)。這樣的存貯資源同樣可 以來自于動態(tài)集群,其原理也相對簡單,即這些用戶控制的計算設(shè)備在某一時段內(nèi)形成的 集群具有相似的需求,因而其狀態(tài)也有相似性。這大大減少了狀態(tài)保存需要付出的瞬時空 間消耗。需要強調(diào)的是,這兩種存貯資源在存貯介質(zhì)上并不作嚴格限定,即持久存貯設(shè)備也 可以用作瞬時狀態(tài)保存,但反過來是不行的。最后,帶寬資源對搜索請求頻繁并且提供重量 級的搜索服務(wù)來說也是重要的。同樣基于高動態(tài)集群的使用,傳輸中對搜索數(shù)據(jù)源的帶寬 壓力也轉(zhuǎn)嫁給了集群中的計算設(shè)備所擁有的帶寬。第六步,在智力資源引導(dǎo)下進行搜索。這個問題的解決包括具體步驟。1)在智力資源請求的控制下分布被搜索數(shù)據(jù)。與當前互聯(lián)網(wǎng)主動把互聯(lián)網(wǎng)數(shù)據(jù)復(fù) 制到自身控制的計算資源不同,在大規(guī)模非中心互聯(lián)網(wǎng)系統(tǒng)中的數(shù)據(jù)無需這樣的復(fù)制,因為其中的數(shù)據(jù)具有自身獨特的分布特征9。這種分布特征體現(xiàn)在物理位置、地理位置、備 份個數(shù)、機器能力甚至人群背景等方面?;ヂ?lián)網(wǎng)上的物理位置是減小網(wǎng)絡(luò)瓶頸對系統(tǒng)效率 影響的關(guān)鍵因素。在訪問互聯(lián)網(wǎng)數(shù)據(jù)時,通常受制于網(wǎng)絡(luò)上的物理位置,被訪問數(shù)據(jù)的備份 也會呈現(xiàn)出物理位置與數(shù)據(jù)源近的計算設(shè)備擁有的數(shù)據(jù)多;而物理位置與數(shù)據(jù)源遠的計算 設(shè)備擁有的數(shù)據(jù)少?;ヂ?lián)網(wǎng)上,計算設(shè)備所處的地理位置和計算設(shè)備的物理位置有可能重 合,也可能相差很遠。一般來說數(shù)據(jù)都具備區(qū)域性,所以數(shù)據(jù)在不同地理位置上的分布也有 其規(guī)律。備份個數(shù)在大規(guī)模非中心互聯(lián)網(wǎng)中的差異明顯。滿足用戶需要的數(shù)據(jù)其備份程度 高;反之,則低。由于用戶可以控制計算系統(tǒng),那么不能滿足用戶需要的數(shù)據(jù)即使有備份也 會在用戶維護過程中被刪去。通常,在大規(guī)模非中心互聯(lián)網(wǎng)中保留的數(shù)據(jù)都是總體來說被 用戶接受的數(shù)據(jù),并且備份數(shù)與數(shù)據(jù)受歡迎程度是成正比的。此外,數(shù)據(jù)分布也會因為機器 能力的差別而表現(xiàn)出差異。對于計算資源豐富的機器來說,其擁有的數(shù)據(jù)以及數(shù)據(jù)性質(zhì)都 會和計算能力差的機器以及數(shù)據(jù)性質(zhì)有差別。比如,計算能力強的機器可能會有更多的數(shù) 據(jù),而數(shù)據(jù)中可能包含更多的重量級數(shù)據(jù)等。最后,不同的人群背景也會對數(shù)據(jù)分布造成影 響。相同人群背景的計算設(shè)備會具有的數(shù)據(jù)同質(zhì)程度高,而不同背景人群的計算設(shè)備具有 的數(shù)據(jù)同質(zhì)化程度低。需要著重指出的是這些特征都可以在大規(guī)模非中心互聯(lián)網(wǎng)所基于的 復(fù)雜網(wǎng)絡(luò)上體現(xiàn)出來,所以依賴于復(fù)雜網(wǎng)絡(luò)進行搜索能夠體現(xiàn)出智力資源控制下搜索系統(tǒng) 與當前互聯(lián)網(wǎng)系統(tǒng)搜索系統(tǒng)明顯的不同。然而,這種不同的體現(xiàn)需要機器算法的輔助以及 對用戶動態(tài)交互的把握,單純依賴復(fù)雜網(wǎng)絡(luò)還是有限制的。2)在復(fù)雜網(wǎng)絡(luò)上擴散搜索請求,使之在符合智力資源分布規(guī)律的系統(tǒng)中被處理。 要在復(fù)雜網(wǎng)絡(luò)上進行搜索,首先要解決的就是搜索請求擴散的問題。與當前互聯(lián)網(wǎng)搜索機 制不同,搜索請求發(fā)送的目標在復(fù)雜網(wǎng)絡(luò)是不確定的如果存在一個中心搜索對等服務(wù)器, 那么就可以和當前系統(tǒng)一樣發(fā)送至這個服務(wù)器;如果不存在,則需要在與該節(jié)點或設(shè)備有 鄰居關(guān)系的節(jié)點中進行尋找和確定。鄰居的選擇對復(fù)雜網(wǎng)絡(luò)中的搜索效率很重要。在大規(guī) 模非中心互聯(lián)網(wǎng)中,應(yīng)該根據(jù)具體應(yīng)用的交互特征來確定鄰居。鄰居可以理解為進入大規(guī) 模非中心互聯(lián)網(wǎng)具體應(yīng)用的入口。這個入口選擇正確,會為用戶在整個參與這個應(yīng)用或計 算帶來重要支持。一個鄰居的確定是用戶智力資源在具體計算或者應(yīng)用中的積累帶來的。 在鄰居確定后,才可以對鄰居進行選擇從而對搜索請求進行擴散進而對其處理。這個選擇 過程是按照和鄰居以往的交互記錄來進行的。通過這個記錄可以判定最有可能的數(shù)據(jù)來 源,然后將請求發(fā)給這個或相關(guān)的多個鄰居節(jié)點。這些節(jié)點在獲得請求后,會在自身控制的 設(shè)備上查找,如果找到,則可以返回;如果沒有結(jié)果則會根據(jù)類似的原則把搜索請求發(fā)至和 其相鄰的節(jié)點。從上面的過程可以看出,搜索請求不是盲目在大規(guī)模非中心互聯(lián)網(wǎng)中擴散, 最終這樣的擴散是在符合智力資源分布規(guī)律的前提下進行的并以很短的速率11接近數(shù) 據(jù)源。3)在恰當智力資源控制下的計算資源中處理搜索請求。由于大規(guī)模非中心互聯(lián)網(wǎng) 搜索中搜索請求的擴散最終會導(dǎo)致搜索請求以高速率到達數(shù)據(jù)源,所以搜索請求可以被恰 當?shù)挠嬎阗Y源來處理。這個計算資源可能是單個計算設(shè)備,而在更多的情況下是一個高動 態(tài)的集群。這個集群由于智力資源的輔助,一般會具備前面所述數(shù)據(jù)分布的一種或多種特 征。4)根據(jù)和智力資源交互作用建立搜索結(jié)果的關(guān)系。通常如果搜索請求都是以關(guān)是在人類需求表達和機器算法特征之間的妥協(xié)結(jié) 果。人類需求表達異常豐富,如文字、語音、表情以及手勢等等。但這些需求的表達只有極少 部分可以被機器處理,當然遠遠談不上理解。關(guān)鍵字就是其中一種。由于表達方式以及機 器算法的限制,本來應(yīng)該是高度智能化的搜索過程退化成了關(guān)鍵字匹配的過程。這樣的過 程無法導(dǎo)致正確結(jié)果的產(chǎn)生,通常會有眾多匹配結(jié)果出現(xiàn);而且僅僅是包含關(guān)鍵字的結(jié)果 出現(xiàn),而與關(guān)鍵字相關(guān)但不包含關(guān)鍵字的結(jié)果是不會出現(xiàn)的。面對這樣的問題,當前搜索系 統(tǒng)不得不對搜索結(jié)果進行排序。至少當前互聯(lián)網(wǎng)搜索服務(wù)的排序思路和全息搜索的思想有 相通之處,即都利用人類智力資源來進行,如PageRank技術(shù)。但由于當前互聯(lián)網(wǎng)中可利用 的智力資源有限并且計算資源也受限,所以導(dǎo)致搜索過程中僅有排序考慮了智力資源。在 全息搜索中,可利用的智力資源豐富,并且都凝結(jié)在動態(tài)變化的復(fù)雜網(wǎng)絡(luò)上,這為搜索中對 搜索結(jié)果進行進一步分辨建立了基礎(chǔ)。由于,大規(guī)模非中心互聯(lián)網(wǎng)中存在一個特殊的“觀 看”功能以及交互強的特征,可以幫助搜索系統(tǒng)在分析出搜索結(jié)果間的關(guān)系后,仍然可以在 和用戶的交互過程中進行即時動態(tài)調(diào)整。第七步,實現(xiàn)全息搜索的主要特征。前面對全息搜索的技術(shù)基礎(chǔ)做了討論。本節(jié) 將對全息搜索基本特征的實現(xiàn)方案進行討論,其相關(guān)具體步驟如下。1)利用全體互聯(lián)網(wǎng)資源降低搜索成本。提供搜索服務(wù),尤其是平行的搜索服務(wù),需 要巨大的成本投入以應(yīng)付大量數(shù)據(jù)處理、存貯和訪問帶來的計算壓力。這個投入需求已經(jīng) 到了復(fù)制整個互聯(lián)網(wǎng)的程度,幾乎是除了極少數(shù)企業(yè)外無人可承受的地步。全息搜索系統(tǒng) 所依賴的基礎(chǔ)結(jié)構(gòu)發(fā)生了徹底改變,主要計算資源來自于參與計算用戶所控制的計算資源 以及對當前互聯(lián)網(wǎng)系統(tǒng)資源的重用,所以計算資源的投入要小得多。同時,全息搜索的提供 者還可以提供適量計算資源來輔助系統(tǒng)中資源不足的節(jié)點。由于互聯(lián)網(wǎng)計算具有Zipf Law12的特征以及社會屬性6,導(dǎo)致大部分計算資源會被投入到少數(shù)關(guān)鍵計算當中去。當 這些資源由用戶控制的計算資源來提供后,會在用戶主導(dǎo)的資源之間構(gòu)成集群,這個集群 會取代搜索提供者的計算資源,成為主要提供搜索的資源。這樣,搜索提供者的資源成為了 搜索服務(wù)中的輔助資源搜索服務(wù)的成本大大降低。2)通過強伸縮集群實現(xiàn)搜索系統(tǒng)的即時性。當前互聯(lián)網(wǎng)系統(tǒng)由于必須把處于互 聯(lián)網(wǎng)服務(wù)器上的數(shù)據(jù)復(fù)制到本地,而面對龐大的互聯(lián)網(wǎng)系統(tǒng),這個計算量巨大,無法保證即 時獲得互聯(lián)網(wǎng)服務(wù)器上的數(shù)據(jù)變化。為了解決這個問題,當前搜索系統(tǒng)采取監(jiān)測少數(shù)主要 網(wǎng)站的方式來彌補。但這種方式?jīng)]有從根本上改變當前互聯(lián)網(wǎng)搜索系統(tǒng)在即時問題上結(jié)構(gòu) 缺陷。在全息搜索技術(shù)中,任何一個計算節(jié)點都和其余節(jié)點之間形成了強伸縮性的集群。 其中一個節(jié)點數(shù)據(jù)的變化,可以在這個集群中得以有效擴散而不至于造成系統(tǒng)壓力或者阻 塞。當然達到這個目的的前提是在復(fù)雜網(wǎng)絡(luò)構(gòu)成的社會環(huán)境中任一個時刻創(chuàng)作數(shù)據(jù)節(jié)點是 少數(shù);一個集群作為構(gòu)建復(fù)雜網(wǎng)絡(luò)的主要模塊中也有類似的情況。現(xiàn)實也是如此。否則,當 一個網(wǎng)絡(luò)系統(tǒng)中所有的或者大量節(jié)點都有數(shù)據(jù)變化并且在整個集群甚至整個復(fù)雜網(wǎng)絡(luò)散 播時,系統(tǒng)的強伸縮性也會遭到破壞。為了在搜索中實現(xiàn)即時性,本質(zhì)上就是將搜索請求者 和數(shù)據(jù)源之間形成高動態(tài)集群。集群中的任何變化可以在集群中所有節(jié)點中得以體現(xiàn),這 樣即時性就保證了。3)利用系統(tǒng)本身所包含的智能資源實現(xiàn)強智能。對于搜索中智能結(jié)果的產(chǎn)生,前 面已經(jīng)討論很多;可參見“第一步”和“第二步”的論述。其基本原則可以簡單歸納為利用
17智力資源,同時結(jié)合具體應(yīng)用,來充分把數(shù)據(jù)和以往、當前的智力資源結(jié)合在一起,從而將 存在的智力資源通過計算系統(tǒng)表現(xiàn)給用戶。4)通過利用全部計算資源以及投入有限資源實現(xiàn)搜索高性能。這里提到的高性能 嚴格來說是高性價比,即全息搜索擁有的新特征,不是以更大量的計算資源投入為前提的。 原因是大規(guī)模非中心互聯(lián)網(wǎng)環(huán)境的建立導(dǎo)致所有的計算設(shè)備都可以參與相關(guān)計算;而這些 計算設(shè)備的加入大大減輕了搜索服務(wù)提供者的成本。在成本減小的同時,計算資源的反而 會大大增加并且資源的組合也更加合理。這些優(yōu)點都使得基于這個平臺的搜索服務(wù)在性能 上的優(yōu)勢更大。當然,在搜索服務(wù)中有一個特別的要求,即響應(yīng)要迅速。即使搜索結(jié)果質(zhì)量 高,但如果在用戶發(fā)出搜索請求后不能在有限時間內(nèi)做出回應(yīng),也會妨礙搜索系統(tǒng)被接受。 在所有計算設(shè)備都參與搜索計算后,也會存在搜索請求必須在系統(tǒng)中散播而導(dǎo)致響應(yīng)慢的 問題。為解決這個問題,可以在系統(tǒng)適當增加計算資源。通常這計算資源可以按照地理位 置進行布置,保存該地理范圍內(nèi)的所有數(shù)據(jù)索引,并與該區(qū)域內(nèi)所有計算設(shè)備形成搜索服 務(wù)集群,以提高搜索響應(yīng)效率。5)通過集群支持的多播實現(xiàn)面向重量級數(shù)據(jù)的搜索。在獲得搜索結(jié)果之后,系統(tǒng) 會在以互惠為原則的多播協(xié)議支持下,調(diào)動可能的計算資源以流的形式把數(shù)據(jù)直接傳輸給 搜索請求者。即使這樣的數(shù)據(jù)中包含重量級數(shù)據(jù)(如視頻等),全息搜索服務(wù)也能夠處理。6)利用智力資源組織搜索結(jié)果形成大粒度。保證搜索的大粒度實際上是保證搜索 結(jié)果的邏輯完整性。在搜索過程中,搜索服務(wù)可以根據(jù)智力資源對搜索結(jié)果間的關(guān)系(比 如排序)進行確定。這種關(guān)系可以是線性的,也可以層次型的。在搜索數(shù)據(jù)形成關(guān)系后,就 會有相應(yīng)基于搜索結(jié)果節(jié)點的粒度問題。在全息搜索中,在重量級傳輸協(xié)議的保證下,各個 節(jié)點的數(shù)據(jù)可以按照其關(guān)系的先后來進行傳輸。7)利用搜索請求者控制的設(shè)備實現(xiàn)有狀態(tài)搜索。狀態(tài)保持實際上對資源的消耗很 大。在這一點上大規(guī)模非中心互聯(lián)網(wǎng)有具有優(yōu)勢。但需要指出的是實現(xiàn)有狀態(tài)搜索的前提 是在復(fù)雜網(wǎng)絡(luò)中大多數(shù)節(jié)點狀態(tài)趨同,而少數(shù)節(jié)點具備產(chǎn)生原始數(shù)據(jù)的能力。正是這些少 數(shù)節(jié)點造成系統(tǒng)中出現(xiàn)各種不同的需求對應(yīng)下的狀態(tài)。從整個復(fù)雜網(wǎng)絡(luò)的全局看,各種狀 態(tài)所占用的資源同整個系統(tǒng)規(guī)模相比是很小的。同時,各種狀態(tài)圍繞著少數(shù)超級節(jié)點而形 成了動態(tài)集群,即在一個集群內(nèi)部狀態(tài)是趨同的。這樣就解決了狀態(tài)保持對資源的消耗問 題。在一個集群內(nèi)部存在著數(shù)量不等的節(jié)點,這些節(jié)點共同從超級節(jié)點上獲取數(shù)據(jù)或者服 務(wù),并在它們之間彼此協(xié)作、承擔狀態(tài)壓力和提高性能。8)允許所有設(shè)備加入搜索實現(xiàn)高覆蓋率。由于在基于大規(guī)模非中心互聯(lián)網(wǎng)的搜索 服務(wù)中,任何計算設(shè)備都可以成為搜索計算的一員,實際上就最大程度地保證了搜索對數(shù) 據(jù)的覆蓋率。這避免了當前搜索系統(tǒng)中投入設(shè)備、復(fù)制并且不斷更新被復(fù)制的互聯(lián)網(wǎng)數(shù)據(jù) 造成覆蓋率低的問題??梢哉f,這種高覆蓋率的獲得是尊重互聯(lián)網(wǎng)原始思想的結(jié)果,即任何 計算設(shè)備都應(yīng)該成為互聯(lián)網(wǎng)上同等地位的節(jié)點,具有參與互聯(lián)網(wǎng)計算的權(quán)利,而不是少數(shù) 節(jié)點才能參與互聯(lián)網(wǎng)計算。9)在即時性的支持下實現(xiàn)具備時間特征的搜索。時間特征是與即時性緊密結(jié)合 的。如果一個搜索服務(wù)系統(tǒng)不能即時獲得數(shù)據(jù),也不可能對數(shù)據(jù)的時間特征進行統(tǒng)一的界 定。完全通過數(shù)據(jù)本身時間的描述是在喪失即時獲得數(shù)據(jù)能力后的補償措施。但由于不能 對把握被搜索資源的即時狀態(tài),導(dǎo)致靜態(tài)的時間描述實際上和數(shù)據(jù)在某一時段內(nèi)的質(zhì)量評
18估脫離。在當前以超鏈接復(fù)用個數(shù)評價數(shù)據(jù)質(zhì)量標準的搜索系統(tǒng)中,即使能夠獲得發(fā)布者 對數(shù)據(jù)的時間描述,但很難獲得這個數(shù)據(jù)對應(yīng)超鏈接被復(fù)用的時間描述。這樣的搜索系統(tǒng) 實際上無法對數(shù)據(jù)進行時間上的衡量?;蛘哒f只有對長期數(shù)據(jù)具有評估能力。所謂長期數(shù) 據(jù)指的是已經(jīng)在互聯(lián)網(wǎng)上發(fā)布了足夠長時間,該數(shù)據(jù)對應(yīng)的超鏈接被復(fù)用次數(shù)足以成為衡 量其質(zhì)量的標準。時間是體現(xiàn)數(shù)據(jù)價值的標準之一。當前這種單一時間形式的數(shù)據(jù)評估不 能滿足用戶對數(shù)據(jù)時效上的要求。當用戶發(fā)出請求后,必須要求搜索服務(wù)提供恰好滿足需 求的數(shù)據(jù)。因為在獲得互聯(lián)網(wǎng)數(shù)據(jù)的過程中,除了超鏈接復(fù)用外,沒有有效方法來衡量數(shù)據(jù) 的價值,導(dǎo)致只能把長期評估(超鏈接最大復(fù)用對應(yīng)的數(shù)據(jù))后的數(shù)據(jù)最先呈現(xiàn)給用戶; 另一方面,通常關(guān)鍵字匹配結(jié)果眾多,用戶沒有耐心從大量返回結(jié)果中進行分辨,而只會從 排在前面的數(shù)據(jù)取得可能結(jié)果。這導(dǎo)致了不能有效利用和用戶的交互來評判數(shù)據(jù)質(zhì)量的后 果。這樣,超鏈接復(fù)用這種時間不敏感的方式就成了當前搜索技術(shù)衡量數(shù)據(jù)質(zhì)量的唯一有 效標準。這種情況下,搜索系統(tǒng)保存的數(shù)據(jù)越多,淹沒用戶需求的數(shù)據(jù)可能性就越大。這是 當前互聯(lián)網(wǎng)不具備即時評估數(shù)據(jù)能力帶來的問題之一。由于全息搜索系統(tǒng)具備即時獲取數(shù) 據(jù)及其變化的能力,同時又具有多種通過利用智力資源評估數(shù)據(jù)的策略,因此這樣的搜索 具備時間性。10)利用基于智力資源非機器算法實現(xiàn)個性化搜索。通過機器算法實現(xiàn)個性化在 互聯(lián)網(wǎng)搜索領(lǐng)域無論在質(zhì)量上和效率上都被證明是不成功的。全息搜索技術(shù)實現(xiàn)個性化的 方法基本原則還是利用系統(tǒng)中的智力資源。實現(xiàn)個性化的智力資源集中體現(xiàn)在大規(guī)模非中 心互聯(lián)網(wǎng)中多個高動態(tài)集群以及每個具體的計算設(shè)備上。正是這些在用戶智力資源控制之 下的計算資源真實反映了控制其用戶的個性。當一個用戶發(fā)出搜索請求后,實際上與當前 搜索服務(wù)不同,其搜索可以在全局展開,也可以在一個集群中展開,最終實際是在一個計算 設(shè)備上進行。由于計算設(shè)備表現(xiàn)出了控制其用戶的個性,從而導(dǎo)致同樣的搜索請求在不同 搜索范圍內(nèi)可以獲得不同的結(jié)果。搜索范圍可以由搜索者來指定,也可以根據(jù)用戶的狀態(tài) 來判定。由于全息搜索是一種有狀態(tài)搜索,這為個性化搜索建立了前提。11)基于重量級處理能力和多格式數(shù)據(jù)組合實現(xiàn)多格式數(shù)據(jù)搜索。多格式數(shù)據(jù)搜索 是建立在具備重量級數(shù)據(jù)處理能力的大規(guī)模非中心互聯(lián)網(wǎng)之上。當一個平臺具備處理重量級 數(shù)據(jù)的能力后,其中的用戶就被賦予了發(fā)布各種格式數(shù)據(jù)的自由。通常這些多種格式會被有 效組合來更清晰地表達用戶的意圖,如文字、圖片、音頻或視頻的組合。當這種組合的數(shù)據(jù)出 現(xiàn)在系統(tǒng)中時,針對這樣數(shù)據(jù)的搜索也就成立了。本系統(tǒng)中還有一個問題是,對當前互聯(lián)網(wǎng)資 源進行轉(zhuǎn)化時,由于當前互聯(lián)網(wǎng)能力的欠缺,這些轉(zhuǎn)化的數(shù)據(jù)在大規(guī)模非中心互聯(lián)網(wǎng)中仍然 呈現(xiàn)其原始面貌,本系統(tǒng)并不通過機器算法給予這些不同格式的數(shù)據(jù)進行組合。12)基于社會網(wǎng)絡(luò)實現(xiàn)面向人的搜索。互聯(lián)網(wǎng)最終的目的是建立人與人之間的交 流,而不是簡單的人與機器或人與數(shù)據(jù)的交流。全息搜索系統(tǒng)中,通過搜索結(jié)果中數(shù)據(jù)資源 可以直接和相關(guān)的智力資源對應(yīng)。由于一般搜索都是基于高動態(tài)集群,所以以這個高動態(tài) 集群為基礎(chǔ)的人群也可以被查找出來。實際上,還可以對這些相關(guān)個人、人群進行基于對系 統(tǒng)貢獻量的排序,以提高最終對人的搜索效果。13)利用多播系統(tǒng)實現(xiàn)交互搜索。再強大的計算系統(tǒng)也無法代替人所擁有的智能。 在搜索結(jié)果包括人以及人群后,用戶可以和這些人、人群以及相關(guān)的計算資源進行交互,從 而獲得更好的搜索結(jié)果,彌補搜索技術(shù)的不足。在大規(guī)模非中心互聯(lián)網(wǎng)中,交互的代價被所有參與計算的計算設(shè)備所承擔,使得搜索中的交互不僅可以基于輕量級數(shù)據(jù),也可以基于 重量級數(shù)據(jù);不僅可以基于一對一,也可以基于多人。但需要指出的是,當基于一對一或者 參與者少的交互時,由于計算資源有限,需要搜索提供者布置計算資源來輔助。這是大規(guī)模 非中心互聯(lián)網(wǎng)在交互上的弱點。但在輔以額外計算資源后,其效果不會低于當前互聯(lián)網(wǎng)交 互系統(tǒng)。14)綜合前面方法,最終形成全息搜索系統(tǒng)?!叭ⅰ笨梢杂袃煞矫娴睦斫?,一是搜 索中智能的體現(xiàn),二是指能夠獲得多種不同搜索結(jié)果。實現(xiàn)這些目標的基本原則就是對智 力資源以及智力資源所控制計算資源的合理利用。綜合前面所述各種特征及其實現(xiàn)方法, 就實現(xiàn)了高智能、高性能、低成本、全方位的搜索系統(tǒng),即全息搜索系統(tǒng)。參考文獻1Jean Dollimore, Tim Kindberg, George Coulouris ;Distributed Systems Concepts and Design ;Addison Wesley,4th Edition,2005,ISBN 0321263542 Hari Prasad Thadakamalla ;Decentralized Algorithms for Search and Routing in Large—Scale Networks, PhD Dissertation, Pennsylvania State University, December 2003Semantic Searching ;http://www. powerset. com4Luger,George ;Stubblefield,William ;Artificial Intelligence Structures and Strategies for Complex Problem Solving(5th ed.), The Benjamin/ Cummings Publishing Company, Inc.,ISBN 0-8053-4780-5Sergey Brin,Lawrence Page ;The Anatomy of a Large-Scale Hypertextual Web Search Engine,Proceedings of the Seventh International Conference on World Wide Web 7,Page (s) :107_116Yilei Shao ;Exploring Social Networks in Computer Systems, PhD Dissertation,Princeton University, June 2007Google ;http://www. google, com8Ying Yu ;Measuring and Modeling the Web, PhD Dissertation,Stanford University, July20089Newman M E J. ;The Structure and Function of Complex Networks, SIAM Review,2003,45,Page(s) :167_2510Rowstron A.,Druschel P. ;Pastry :Scalable,Decentralized Object Location and Routing for Large—Scale Peer—to—Peer Systems, in Proceedings of the 200IACM SIGCOMMConference on Applications, Technologies, Architectures, and Protocols for Computer Communication(SIGCOMM* 01), San Diego, CA, August 2001, page (s) 247-211 Hari Prasad Thadakamalla ;Decentralized Algorithms for Search and Routing in Large—Scale Networks, PhD Dissertation, Pennsylvania State University, December 20012George K. Zipf ;Human Behavior and the Principle of Least-Effort, Addison-Wesley,1949
權(quán)利要求
一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述全息搜索服務(wù)方法包括利用智力資源服務(wù)于互聯(lián)網(wǎng)應(yīng)用系統(tǒng);用智力資源控制互聯(lián)網(wǎng)應(yīng)用系統(tǒng);建立智力資源控制下的分布式計算環(huán)境即大規(guī)模非中心互聯(lián)網(wǎng);重用非智力資源控制下的當前互聯(lián)網(wǎng)資源;通過所有計算資源參與保證足夠的搜索服務(wù)計算資源;在智力資源引導(dǎo)下進行搜索;實現(xiàn)全息搜索的主要特征。
2.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述利用 智力資源服務(wù)于互聯(lián)網(wǎng)應(yīng)用系統(tǒng);具體實現(xiàn)步驟如下1)把智力資源當作系統(tǒng)資源的重要組成部分,由其決定計算系統(tǒng)除了功能外的重要指 標,即性能和智能;2)在智力資源豐富的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)中充分利用智力資源,以完善互聯(lián)網(wǎng)功能、性能 和智能;3)把算法運行后用戶與系統(tǒng)產(chǎn)生的變化作為考慮因素,來設(shè)計恰當方法利用智力資源。
3.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法和如權(quán)利要求2所述的在 智力資源豐富的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)中充分利用智力資源,其特征在于,所述用智力資源控制 互聯(lián)網(wǎng)應(yīng)用系統(tǒng);具體實現(xiàn)步驟如下1)注重使用智力資源保證計算資源的合理使用;2)利用智力資源簡化算法設(shè)計。
4.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述建立 智力資源控制下的分布式計算環(huán)境即大規(guī)模非中心互聯(lián)網(wǎng),以此作為全息搜索的計算基 礎(chǔ);其具體實現(xiàn)步驟如下1)賦予用戶計算設(shè)備參與計算的可能性;使完全瘦客戶端變成可以分擔服務(wù)器任務(wù) 的客戶端,利用客戶端之間協(xié)作能力,使之成為對等客戶端;并改造普通服務(wù)器為對等服務(wù) 器;2)賦予用戶計算活動的決定權(quán),用戶可以憑借自身的智力做出其任何適合的選擇;3)利用機器算法彌補智力資源的不足;4)建立智力資源驅(qū)動的基本網(wǎng)絡(luò)拓撲結(jié)構(gòu);用戶可以隨意通過自己的判斷加入互聯(lián) 網(wǎng)當前正在進行的計算;并在其控制的計算設(shè)備和計算系統(tǒng)的交互過程中,構(gòu)成新的互聯(lián) 網(wǎng)基本拓撲結(jié)構(gòu);5)賦予系統(tǒng)適合的路由算法,幫助系統(tǒng)獲取計算資源;6)賦予系統(tǒng)適合的集群算法,在通過路由算法獲得可能的計算資源后,把這些資源組 織起來。
5.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述重用 非智力資源控制下的當前互聯(lián)網(wǎng)資源;其具體實現(xiàn)步驟如下1)通過周期性訪問現(xiàn)有網(wǎng)站以獲取其數(shù)據(jù)和服務(wù);2)在智力資源控制的拓撲結(jié)構(gòu)中多播。
6.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述通過 所有計算資源參與保證足夠的搜索服務(wù)計算資源,從而為全息搜索提供充足的資源保證; 其具體實現(xiàn)步驟如下1)利用用戶愿意共享的數(shù)據(jù);2)采取高動態(tài)集群技術(shù)利用CPU資源;3)通過允許任何設(shè)備進入并參與計算,利用其存貯資源;4)基于高動態(tài)集群,轉(zhuǎn)嫁帶寬壓力。
7.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述在智 力資源引導(dǎo)下進行搜索;其具體實現(xiàn)步驟如下1)在智力資源請求的控制下分布被搜索數(shù)據(jù);利用數(shù)據(jù)自身獨特的分布特征,包括物 理位置、地理位置、備份個數(shù)、機器能力和人群背景等方面;使用機器算法輔助,并把握用戶 動態(tài)交互;2)在復(fù)雜網(wǎng)絡(luò)上擴散搜索請求,使之在符合智力資源分布規(guī)律的系統(tǒng)中被處理;根據(jù) 具體應(yīng)用的交互特征來確定鄰居;按照和鄰居以往的交互記錄對鄰居進行選擇,從而對搜 索請求進行擴散進而對其處理;鄰居節(jié)點在自身設(shè)備上查找;如果找到,則返回;否則,根 據(jù)類似原則把搜索請求發(fā)至和其相鄰的節(jié)點;3)在恰當智力資源控制下的計算資源中處理搜索請求;可以在單個計算設(shè)備上處理 搜索請求,也可以在高動態(tài)集群中處理搜索請求;4)根據(jù)和智力資源交互作用建立搜索結(jié)果的關(guān)系;以關(guān)鍵字為主發(fā)出搜索請求;通過 關(guān)鍵字匹配產(chǎn)生結(jié)果,并利用智力資源進行排序;通過動態(tài)變化的復(fù)雜網(wǎng)絡(luò)對搜索結(jié)果進 行進一步分辨。
8.如權(quán)利要求1所述的一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,其特征在于,所述實現(xiàn) 全息搜索的主要特征;其具體實現(xiàn)步驟如下1)利用全體互聯(lián)網(wǎng)資源降低搜索成本;2)通過強伸縮集群實現(xiàn)搜索系統(tǒng)的即時性;3)利用系統(tǒng)本身所包含的智能資源實現(xiàn)強智能;4)通過利用全部計算資源以及投入有限資源實現(xiàn)搜索高性能;5)通過集群支持的多播實現(xiàn)面向重量級數(shù)據(jù)的搜索;6)利用智力資源組織搜索結(jié)果形成大粒度;7)利用搜索請求者控制的設(shè)備實現(xiàn)有狀態(tài)搜索;8)允許所有設(shè)備加入搜索實現(xiàn)高覆蓋率;9)在即時性的支持下實現(xiàn)具備時間特征的搜索;10)利用基于智力資源非機器算法實現(xiàn)個性化搜索;11)基于重量級處理能力和多格式數(shù)據(jù)組合實現(xiàn)多格式數(shù)據(jù)搜索;12)基于社會網(wǎng)絡(luò)實現(xiàn)面向人的搜索;13)利用多播系統(tǒng)實現(xiàn)交互搜索;14)綜合前面的方法,最終實現(xiàn)全息搜索系統(tǒng)。
全文摘要
本發(fā)明為一種建立互聯(lián)網(wǎng)全息搜索服務(wù)的方法,屬于分布式領(lǐng)域,特別是多種大規(guī)模分布式技術(shù)在改進互聯(lián)網(wǎng)上的應(yīng)用;本發(fā)明通過利用智力資源服務(wù)于互聯(lián)網(wǎng)應(yīng)用系統(tǒng);用智力資源控制互聯(lián)網(wǎng)應(yīng)用系統(tǒng);建立智力資源控制下的分布式計算環(huán)境即大規(guī)模非中心互聯(lián)網(wǎng);重用非智力資源控制下的當前互聯(lián)網(wǎng)資源;通過所有計算資源參與保證足夠的搜索服務(wù)計算資源;在智力資源引導(dǎo)下進行搜索;實現(xiàn)全息搜索的主要特征。基于上述方法,本發(fā)明實現(xiàn)了豐富計算資源支持、即時、高智能、高性價比、大數(shù)據(jù)量、大粒度、有狀態(tài)、智力資源主導(dǎo)、大覆蓋率、具有時間特征、強個性化、多格式、面向人及交互強的全息搜索系統(tǒng)。
文檔編號G06F17/30GK101930441SQ20091014860
公開日2010年12月29日 申請日期2009年6月25日 優(yōu)先權(quán)日2009年6月25日
發(fā)明者李冰, 郭長銳 申請人:李冰