亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于通信和合作的系統(tǒng)的制作方法

文檔序號(hào):6569790閱讀:186來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于通信和合作的系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于通信和合作(collaboration)的方法,這種方法擴(kuò)展了 搜索的概念,以允許基于現(xiàn)有的信息檢索排名(Information Retrieval ranking)技術(shù)來(lái)對(duì)項(xiàng)目(item)和用戶(hù)兩者進(jìn)行搜索和排名。這被用來(lái)提 供基于語(yǔ)境(context)的通信機(jī)制。
背景技術(shù)
萬(wàn)維網(wǎng)的出現(xiàn)和計(jì)算機(jī)的幾乎無(wú)處不在已經(jīng)顯著地改變了人們查找和 使用信息的方式。然而,隨著我們進(jìn)入21世紀(jì),我們卻面臨著獨(dú)特的困 境。信息和知識(shí)比以前更加重要,并且正越來(lái)越大量地被產(chǎn)生出來(lái),但是 要找到有用和相關(guān)的信息卻越來(lái)越困難了。
Web搜索技術(shù)代表了這個(gè)領(lǐng)域的一個(gè)重大突破。早期的搜索引擎創(chuàng)建 web爬蟲(chóng)或蜘蛛,這些web爬蟲(chóng)或蜘蛛是遍歷web上的頁(yè)面圖形并將它們 下載到中央服務(wù)器的軟件程序。然后這些頁(yè)面圖形放到反向索引中,并且 基于信息檢索(IR)方法被搜索。 一個(gè)人可以搜索包含一個(gè)單詞或一組單 詞的所有文檔。雖然這對(duì)較小的頁(yè)面集合是有用的,但卻無(wú)法縮放。所返 回的大量與查詢(xún)無(wú)關(guān)的文檔損害了搜索的有用性。因此,無(wú)法找到重要的 文檔,因?yàn)橐獟呙杷薪Y(jié)果以找出有關(guān)的那些是不實(shí)際的。
這種"豐溢(abundance)"問(wèn)題在Kleingerg、 Page和Brin的早期開(kāi)
創(chuàng)性論文中得到了解決。他們使用了文檔之間的超鏈接來(lái)作為相關(guān)性判斷 的代理。已經(jīng)知道,許多其他頁(yè)面鏈接到的頁(yè)面的相關(guān)性似乎高于平均水 平。Page和Brin利用以下直覺(jué)精煉了這個(gè)概念重要的不僅在于有多少頁(yè) 面指向某個(gè)頁(yè)面,而且在于這些頁(yè)面的質(zhì)量如何。它們提出了 PageRank (頁(yè)面排名)方法,這種方法被用于Google搜索引擎中。這是一種獨(dú)立于 查詢(xún)的對(duì)頁(yè)面的排名,這種排名基于鏈接到該頁(yè)面的頁(yè)面。Kldnberg提出了一種更為精煉的關(guān)于網(wǎng)頁(yè)質(zhì)量的概念。他指出好頁(yè)面 不一定指向其他好頁(yè)面(他稱(chēng)之為權(quán)威(authority))。取而代之,存在 特殊的被稱(chēng)為軸心(hub)的節(jié)點(diǎn),這些節(jié)點(diǎn)包含去往好權(quán)威的鏈接的集 合。HITS算法利用以下直覺(jué)基于軸心和權(quán)威兩者來(lái)評(píng)估質(zhì)量好的軸心 是鏈接到許多好的權(quán)威的軸心,好的權(quán)威是許多好的軸心鏈接到的權(quán)威。 這是以一種依賴(lài)于查詢(xún)的方式來(lái)計(jì)算的。
這些方法允許了獲得網(wǎng)絡(luò)上的聚合性智能,以幫助將相關(guān)的、有用的 頁(yè)面顯示在搜索結(jié)果的頂部。從Google的成功可以清楚看到這種鏈接分析 和排名(LAR)算法的成功。這引起了在此領(lǐng)域的大量研究,從而有了上 述算法的許多變體,比如Hilltop、 SALSA、隨機(jī)化HITS、子空間HITS等 等。最近,已經(jīng)提出了像TOPHITS這樣的三級(jí)算法,其利用三個(gè)變量的 張量分解(tensor decomposition)以提高結(jié)果的質(zhì)量。HITS受到主題漂移 的困擾,其中用于計(jì)算軸心和權(quán)威的初始頁(yè)面可能不與查詢(xún)的主題完全有 關(guān)。TOPHITS通過(guò)將軸心和權(quán)威的相關(guān)性分配給査詢(xún)的主題,來(lái)使用鏈接 文本(超鏈接中的文本)改善HITS。
然而,即使在web搜索技術(shù)進(jìn)步之后,仍然存在許多大問(wèn)題。 一個(gè)普 通的查詢(xún)會(huì)返回?cái)?shù)百萬(wàn)的結(jié)果。如果在最頂部的10個(gè)或20個(gè)結(jié)果中沒(méi)有 找到所需的頁(yè)面,搜索就是無(wú)效果的。這個(gè)問(wèn)題由于以下事實(shí)而更加復(fù) 雜對(duì)于相同的査詢(xún),所有用戶(hù)都獲得相同的結(jié)果,即使他們可能具有各 種各樣的信息需求。另一方面,web上平均每個(gè)查詢(xún)是2.3個(gè)單詞。這使 得搜索引擎非常難以迎合所有用戶(hù)的信息需求。主要的從業(yè)者用來(lái)減輕此 問(wèn)題的一種方法是個(gè)性化搜索。CubeSVD是最近的一種個(gè)性化搜索的張量 分解方法,其通過(guò)利用用戶(hù)的點(diǎn)擊流(用戶(hù)點(diǎn)擊的查詢(xún)結(jié)果)來(lái)為用戶(hù)確 定相關(guān)性。但是,取決于個(gè)性化的實(shí)現(xiàn)方式,仍然有重大的隱私問(wèn)題,并 且仍然需要觀察這些方法是否有效。
諸如搜索公司內(nèi)聯(lián)網(wǎng)網(wǎng)頁(yè)或文件共享之類(lèi)的企業(yè)搜索和桌面搜索的情 形更加糟糕。 一些研究估計(jì)所有公司數(shù)據(jù)中有80%那么多是無(wú)組織的(不 在數(shù)據(jù)庫(kù)或應(yīng)用中),例如文件、電子郵件等等。由于文檔之間不存在超 鏈接連通,因此無(wú)法應(yīng)用web的LAR算法的進(jìn)步。這些系統(tǒng)中的排名仍然局限于全文搜索的TFIDF風(fēng)格算法,從而導(dǎo)致更低的質(zhì)量。即使最近的 豐富索引方法,例如在即將發(fā)布的Microsoft Windows Vista操作系統(tǒng)中使 用基于關(guān)鍵字的類(lèi)別,仍然受到與先前的IR系統(tǒng)相同的問(wèn)題的困擾-據(jù) 估計(jì),基于關(guān)鍵字來(lái)搜索文檔的人只有20%的時(shí)間可能使用與文檔上的關(guān) 鍵字相同的關(guān)鍵字。這導(dǎo)致了這樣的荒謬情形,即在因特網(wǎng)上找到文檔比 在某人自己的硬盤(pán)上找到文檔還要容易。
最近,通過(guò)一種被稱(chēng)為公眾分類(lèi)法(Folksonomy)的共享方法,在分 類(lèi)領(lǐng)域進(jìn)行了有趣的工作。不同于早先Yahoo!和ODP以集中方式對(duì)web 進(jìn)行手工分類(lèi)的嘗試,他們嘗試使用合作式標(biāo)記方法來(lái)共享書(shū)簽、圖片和 網(wǎng)頁(yè)。這方面的主要?jiǎng)?chuàng)新者包括Flickr、 dd.icio.us和Technorati。雖然每 種標(biāo)記方法是不同的,但它們都嘗試使用關(guān)鍵字來(lái)作為為用戶(hù)創(chuàng)建共享空 間的基礎(chǔ)。然而,總的來(lái)說(shuō)只有少量的用戶(hù)實(shí)際使用公眾分類(lèi)法。這一部 分是因?yàn)樗鼈冇闷饋?lái)比搜索更困難這一事實(shí),而且也因?yàn)楣姺诸?lèi)法中的 頁(yè)面的覆蓋范圍只是可用頁(yè)面的一小部分。與能夠自動(dòng)爬行于web或磁盤(pán) 以索引所有文檔的搜索不同,不存在相當(dāng)?shù)臋C(jī)制來(lái)將頁(yè)面高效地帶到公眾 分類(lèi)法中。
一般來(lái)說(shuō),博客(blog)和消息傳遞系統(tǒng)存在一組類(lèi)似的問(wèn)題。博客 是一種創(chuàng)建"讀-寫(xiě)"web的嘗試,其中用戶(hù)不僅是信息的消耗者,而且也 可以在線(xiàn)張貼內(nèi)容??赡苤挥性谀橙税l(fā)表的博客貼子能夠以高效的方式觸 及可能感興趣的讀者時(shí),博客的真實(shí)前景才會(huì)得到實(shí)現(xiàn)。所要求的正是搜 索的反面不是人搜索相關(guān)的博客張貼,而是博客張貼需要搜索相關(guān)的 人。目前沒(méi)有辦法實(shí)現(xiàn)這一點(diǎn)。在諸如電子郵件之類(lèi)的其他消息傳遞系統(tǒng) 中情形更加糟糕。雖然電子郵件和IM是一對(duì)一交互的高效機(jī)制,但它們 卻不能高效地處理對(duì)某一主題發(fā)送電子郵件的概念。分發(fā)列表是最接近按 主題郵寄的代理,但卻無(wú)法動(dòng)態(tài)地創(chuàng)建這種列表并將人們分配到這些列 表。將文檔的存在傳達(dá)給他人的唯一方式常常是電子郵件。這導(dǎo)致了對(duì)這 種分發(fā)列表的濫用,收件箱中充斥著與用戶(hù)不那么相關(guān)的郵件,并且導(dǎo)致 信息過(guò)載和丟失。
一般來(lái)說(shuō),組織,不論是公司組織、政府組織、非政府組織、軍隊(duì)組織還是宗教組織,都變得更大更復(fù)雜了。隨著這種組織的規(guī)模增大,人們 越來(lái)越難以得知彼此并且組織常被劃分成獨(dú)立部分,其中"左側(cè)的"不知 道"右側(cè)的"在做什么。當(dāng)組織面臨迅速變化的環(huán)境,必須動(dòng)態(tài)地使組織 的不同部分一起工作以利用機(jī)會(huì)或面對(duì)威脅時(shí),這就是一個(gè)重大的問(wèn)題。 具有諸如電話(huà)或電子郵件之類(lèi)的點(diǎn)對(duì)點(diǎn)通信的、諸如等級(jí)體系和部門(mén)之類(lèi) 的傳統(tǒng)組織結(jié)構(gòu)不允許靈活地進(jìn)行有效響應(yīng)?;谡Z(yǔ)境的通信和合作機(jī)制 可以扮演重要的角色。允許人們基于特定的語(yǔ)境(例如新的機(jī)會(huì)/威脅)而 聚集起來(lái)并在其結(jié)束時(shí)散開(kāi)的范例將使得能夠?yàn)榻M織創(chuàng)建一種更有機(jī)的方
法,這種方法更能夠?qū)ψ兓鞒鲰憫?yīng)。web搜索的基本手法,即網(wǎng)頁(yè)創(chuàng)建
者和最終用戶(hù)不需要知道彼此才能夠"合作",可以被擴(kuò)展到通信和合 作,從而使組織可以駕馭復(fù)雜的情況。
本發(fā)明背后的基本概念
本發(fā)明嘗試通過(guò)按通信和合作來(lái)定義問(wèn)題來(lái)提供一種解決方案。它專(zhuān) 注于創(chuàng)建這樣的系統(tǒng)和方法,其允許i)創(chuàng)建一種通用的基于注釋
(arniotatkm)的合作系統(tǒng),使得可以應(yīng)用信息檢索的進(jìn)步,ii)用于對(duì)用 戶(hù)和項(xiàng)目進(jìn)行聚類(lèi)的方法,以及iii)允許人們基于語(yǔ)境上來(lái)發(fā)表和預(yù)訂消 息的通信方法。在這些機(jī)制中可能有多個(gè)在本領(lǐng)域中是新穎的特征。這些 方法可以與彼此或與其他系統(tǒng)結(jié)合使用,或者單獨(dú)使用。
利用IR的通用的基于注釋的合作系統(tǒng)
有許多形式的本領(lǐng)域已知的基于注釋的共享系統(tǒng)。所有的公眾分類(lèi)法 都是這種系統(tǒng)的示例。但是,注釋系統(tǒng)就其共享和合作的有效性來(lái)說(shuō)是不 同的。Microsoft Windows NTFS文件系統(tǒng)始終具有向任何文件添加關(guān)鍵字 的能力,但是這在實(shí)際中并沒(méi)有被使用,主要是因?yàn)檫@種關(guān)鍵字不能用來(lái) 高效地查找文件。Technorati標(biāo)簽是一種允許博客發(fā)布者標(biāo)記其貼子以便 人們可以發(fā)現(xiàn)它的技術(shù),這種技術(shù)不那么有效,因?yàn)橹挥凶髡呖梢詷?biāo)記項(xiàng) 目。Flickr是一個(gè)照片共享站點(diǎn),它允許用戶(hù)與他人共享其照片。但是, 一旦用戶(hù)已經(jīng)看過(guò)了他人的照片,他們對(duì)他人照片的使用就是有限的,因此Flickr的動(dòng)力更多的是關(guān)于共享,而不是合作的。
但是,dd.icio.us是關(guān)于書(shū)簽的成功合作系統(tǒng)的一個(gè)示例。由于一個(gè)人 的書(shū)簽有可能對(duì)其他人具有獨(dú)立的價(jià)值,因此共享該書(shū)簽的動(dòng)作所扮演的 角色就比比如Flickr要更加重要。由于不同的人可能面臨類(lèi)似的問(wèn)題,因 此對(duì)幫助解決該問(wèn)題的相關(guān)信息的共享就獲得了一個(gè)合作的維度。除書(shū)簽 的固有價(jià)值之外,dd.icio.us的機(jī)制也不同于其他公眾分類(lèi)法。它允許多個(gè) 用戶(hù)標(biāo)記同一個(gè)項(xiàng)目,并且多個(gè)用戶(hù)確實(shí)會(huì)標(biāo)記同一個(gè)項(xiàng)目,因?yàn)樗麄儠?huì) 通過(guò)這樣做而獨(dú)立地獲益。
在本領(lǐng)域已經(jīng)知道,Web的許多方面都表現(xiàn)出冪律(power law)。冪 律是這樣一種分布,當(dāng)其被繪于如圖2那樣的對(duì)數(shù)-對(duì)數(shù)圖中時(shí),它形成直 線(xiàn)。這被認(rèn)為是不規(guī)則碎片的基本指標(biāo),并且考慮到了規(guī)模不變(該分布 在任何規(guī)模下看起來(lái)都是相似的)。在網(wǎng)頁(yè)的內(nèi)容、關(guān)鍵字之間的超鏈 接、搜索查詢(xún)、web服務(wù)器上的文件大小、流量模式甚至是構(gòu)成因特網(wǎng)的 物理線(xiàn)路中都注意到了冪律。頁(yè)面之間的超鏈接中的冪律允許了諸如 PageRank和HITS之類(lèi)的LAR算法有效地收斂到一種解決方案,因此成為 實(shí)際的方法。文檔的內(nèi)容中使用的單詞來(lái)遵循冪律,也稱(chēng)為Zipf定律。這 一點(diǎn)被諸如TF-IDF (詞條頻率-逆文檔頻率)等等之類(lèi)的IR排名方法隱 性地利用,以按相關(guān)性對(duì)搜索結(jié)果進(jìn)行排序。dd.icio.us也表現(xiàn)出如圖l所 示的冪律。 一個(gè)項(xiàng)目中的關(guān)鍵字頻率、項(xiàng)目對(duì)關(guān)鍵字的數(shù)目、項(xiàng)目對(duì)用戶(hù) 的數(shù)目以及用戶(hù)對(duì)項(xiàng)目的數(shù)目等等都遵循冪律分布。本發(fā)明注意到 dd.icio.us中的關(guān)鍵字對(duì)項(xiàng)目分布與web搜索引擎中的關(guān)鍵字對(duì)查詢(xún)分布 類(lèi)似(web中的鏈接文本確實(shí)如此)。每項(xiàng)目用戶(hù)分布與萬(wàn)維網(wǎng)上的進(jìn)入 鏈接(進(jìn)入網(wǎng)頁(yè)的超鏈接)的分布類(lèi)似。實(shí)際上,雖然Web上的超鏈接通 常被認(rèn)為是頁(yè)面導(dǎo)航的一種形式,但是本發(fā)明注意到它們也可被認(rèn)為是注 釋的一種形式。
本發(fā)明假定這些冪律屬性是語(yǔ)言本身的屬性以及我們感知周?chē)捻?xiàng)目 的有用性的方式的屬性。這是通信和合作的兩個(gè)相互強(qiáng)化的過(guò)程的必然結(jié) 果。因此,能夠適當(dāng)?shù)乩冒l(fā)生在這些過(guò)程中的自然出現(xiàn)的自組織的任何 注釋系統(tǒng)將會(huì)表現(xiàn)出類(lèi)似的冪律特性,這種特性可被現(xiàn)有的IR和LAR研究團(tuán)體有利地利用。
利用這種基本觀點(diǎn),本發(fā)明以至少兩種重要的方式推廣了注釋系統(tǒng)的 概念。注釋不僅被認(rèn)為是用戶(hù)利用關(guān)鍵字來(lái)標(biāo)記項(xiàng)目的動(dòng)作,而且被認(rèn)為 是要求用戶(hù)以簡(jiǎn)潔的方式描述一個(gè)項(xiàng)目的任何動(dòng)作。搜索中的點(diǎn)擊流至少 是另一種等同的注釋方法。它也生成注釋?zhuān)瑥亩樵?xún)的關(guān)鍵字與給定用戶(hù)
點(diǎn)擊的URL關(guān)聯(lián)起來(lái)。web上的超鏈接中的鏈接文本也是這種注釋的另一
種機(jī)制,但它不那么有表現(xiàn)力。將文件置于文件系統(tǒng)等級(jí)體系中是注釋的 一種形式,但它更加迅速和有限,并且類(lèi)似于將該文件上的等級(jí)體系樹(shù)中 的目錄的所有名稱(chēng)與它關(guān)聯(lián)起來(lái)。雖然鏈接文本和文件名不像標(biāo)記或點(diǎn)擊 流那么高效,但當(dāng)數(shù)量足夠大時(shí),它們就接近本發(fā)明的這種形式的注釋的 效果了。
其次,注釋可以被應(yīng)用到某個(gè)群組的通信和合作活動(dòng)內(nèi)可以標(biāo)識(shí)的任
何項(xiàng)目。這不僅限于webURL,而且可以包涵任何能夠被概念化的事物。 這可以包括但不限于企業(yè)LAN中的文件、工程管理系統(tǒng)中的任務(wù)和事 項(xiàng)、集體討論會(huì)話(huà)中的想法、紙質(zhì)文檔、電子數(shù)據(jù)表上的表格、RDB中的 數(shù)據(jù)、web服務(wù)、RSS饋送等等。假設(shè)存在一種機(jī)制(離線(xiàn)或在線(xiàn)、數(shù)字 或其他)來(lái)允許用戶(hù)檢索并使用項(xiàng)目,那么項(xiàng)目可以是任何能夠用唯一 id (比如URI、社會(huì)安全號(hào)或條碼)來(lái)表示的事物。
本發(fā)明的通用的基于注釋的合作系統(tǒng)被定義為包含多個(gè)項(xiàng)目的任何注 釋系統(tǒng),其中0系統(tǒng)允許項(xiàng)目被多個(gè)用戶(hù)彼此獨(dú)立地識(shí)別和共享(例如 它可被檢索、評(píng)估、查看或使用);ii)其中每個(gè)這種用戶(hù)可利用它們認(rèn) 為對(duì)描述項(xiàng)目有用的關(guān)鍵字來(lái)獨(dú)立地注釋項(xiàng)目,并且每個(gè)這種項(xiàng)目可能被 多個(gè)這種用戶(hù)所注釋(即每個(gè)項(xiàng)目可能對(duì)不同用戶(hù)有獨(dú)立的價(jià)值);iii) 其中每個(gè)用戶(hù)可以基于這種關(guān)鍵字獨(dú)立地查找項(xiàng)目,從而所有具有(對(duì)于 每個(gè)項(xiàng)目跨多個(gè)用戶(hù)聚集的)相應(yīng)關(guān)鍵字的項(xiàng)目都被檢索;對(duì)于足夠相異 的用戶(hù)和項(xiàng)目群體將會(huì)表現(xiàn)出近似冪律分布的自組織屬性。這里的關(guān)鍵概 念是獨(dú)立性,它意味著用戶(hù)無(wú)需知道彼此的活動(dòng)和/或存在就可以進(jìn)行操 作。這意味著用戶(hù)之間的項(xiàng)目組織的唯一機(jī)制是在不同用戶(hù)之間共享的關(guān) 鍵字含義。更具體而言,每當(dāng)具有唯一標(biāo)識(shí)符[User ID]的用戶(hù)利用描述具有唯一 標(biāo)識(shí)符[Item ID]的項(xiàng)目的關(guān)鍵字[Keyword 1, Keyword 2 ... Keyword N]來(lái)描 述該項(xiàng)目時(shí),可以通用產(chǎn)生以下形式的事件的任何機(jī)制來(lái)生成注釋- [User ID] [Keyword 1, Keyword 2,.... Keyword N]
本發(fā)明注意到,如果這種基于注釋的系統(tǒng)在以下方面表現(xiàn)出近似的冪律分 布-
-項(xiàng)目對(duì)關(guān)鍵字的數(shù)目
-項(xiàng)目?jī)?nèi)的關(guān)鍵字頻率
-用戶(hù)對(duì)項(xiàng)目的數(shù)目
-項(xiàng)目對(duì)用戶(hù)的數(shù)目 然后這種機(jī)制顯示出以下屬性-
-在按相關(guān)性對(duì)搜索結(jié)果進(jìn)行排序時(shí)可以使用TFIDF風(fēng)格排名。每 個(gè)項(xiàng)目可由一個(gè)關(guān)鍵字向量來(lái)表示,該關(guān)鍵字向量類(lèi)似于IR中的 平凡文檔。另外,與web上的鏈接文本類(lèi)似,每個(gè)注釋表示不同 的人對(duì)項(xiàng)目的內(nèi)容的判斷,并且在被聚集在一起時(shí)甚至能夠比項(xiàng) 目的作者/創(chuàng)建者更好地描述內(nèi)容。因此,與標(biāo)準(zhǔn)的全文搜索相 比,基于聚集的關(guān)鍵字的排名常常產(chǎn)生優(yōu)良的質(zhì)量。
-可以將每個(gè)事件看作從用戶(hù)到項(xiàng)目的"合成"超鏈接。通過(guò)將用 戶(hù)看作軸心并將項(xiàng)目看作權(quán)威,可以在確定結(jié)果集合并對(duì)搜索結(jié) 果進(jìn)行排名時(shí)結(jié)合IR算法,比如LAR方法(如Borodin等人所 述),如HITS、 Hilltop、 SALSA、 PHITS、隨機(jī)化HITS、子空 間HITS、 TOPHITS、 CubeSVD等等。這種方法提供的結(jié)果質(zhì)量 可以等于并且有時(shí)好于它們當(dāng)前基于web中的超鏈接的性能。由 于用戶(hù)到項(xiàng)目和項(xiàng)目到用戶(hù)都顯示出冪律,因此這些算法將會(huì)像 web那樣迅速收斂。這可以允許被注釋的項(xiàng)目在當(dāng)前不可能的情 形(例如企業(yè)中的文件)中受益于LAR風(fēng)格的方法。
-當(dāng)用戶(hù)利用一組關(guān)鍵字來(lái)對(duì)項(xiàng)目進(jìn)行注釋時(shí),在描述項(xiàng)目的大量 方式中,普通的用戶(hù)自然會(huì)選擇它們認(rèn)為對(duì)描述項(xiàng)目有用的關(guān)鍵 字。在這樣做時(shí),用戶(hù)不僅描述了項(xiàng)目,而且同時(shí)也描述了它們認(rèn)為什么重要。這使得可以類(lèi)似于文檔那樣利用關(guān)鍵字來(lái)査詢(xún)用 戶(hù)。針對(duì)一個(gè)查詢(xún)對(duì)用戶(hù)排名的操作可利用上述IR方法中的任何
一種來(lái)完成,其中包括將用戶(hù)看作軸心的LAR算法。
-比起任何個(gè)人來(lái),團(tuán)體可以更有效地對(duì)用戶(hù)可能用來(lái)搜索項(xiàng)目/用 戶(hù)的不同關(guān)鍵字進(jìn)行注釋。但是,也可以通過(guò)以類(lèi)似于單詞-文檔
矩陣的方式使用關(guān)鍵字-項(xiàng)目或關(guān)鍵字-用戶(hù)矩陣來(lái)使用LSI或 PLSA,從而允許利用關(guān)鍵字查詢(xún)項(xiàng)目或用戶(hù),即使沒(méi)有注釋具體 地將它們與關(guān)鍵字關(guān)聯(lián)起來(lái)。這些利用了更高階的同現(xiàn)(cooccurrence) 數(shù)據(jù)來(lái)發(fā)現(xiàn)這種單詞。通過(guò)對(duì)事件數(shù)據(jù)使用三級(jí)方 法,例如PHITS+PLSA、 HOSVD、 CubeSVD禾卩TOPHITS,可以 進(jìn)一步增強(qiáng)這一點(diǎn)。 對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)很明顯的是,基于以上內(nèi)容,在這種注釋 系統(tǒng)中可以對(duì)項(xiàng)目以及用戶(hù)實(shí)現(xiàn)基于IR的許多搜索方法。在特定的實(shí)施 例中它們是被有選擇地使用還是彼此結(jié)合使用并不會(huì)脫離本發(fā)明的精神。 另外,總是可以為項(xiàng)目/用戶(hù)、關(guān)鍵字-項(xiàng)目和關(guān)鍵字-用戶(hù)矩陣構(gòu)造注釋關(guān) 鍵字向量,并且將注釋看作合成超鏈接,而不管注釋系統(tǒng)是否表現(xiàn)出冪 律。上述所有方法都可應(yīng)用在任何這種情況下,但效力可能較低。
項(xiàng)目和用戶(hù)的聚類(lèi)(clustering)
過(guò)去己經(jīng)嘗試過(guò)創(chuàng)建用于對(duì)文檔進(jìn)行聚類(lèi)的方法。分類(lèi)學(xué)和受控詞匯 表己經(jīng)被嘗試過(guò)但卻失敗了,因?yàn)閯?chuàng)建一個(gè)超結(jié)構(gòu)使得所有項(xiàng)目可被有效 地放到其中,是不現(xiàn)實(shí)的。已經(jīng)嘗試過(guò)基于文本相似性對(duì)結(jié)果數(shù)據(jù)使用聚 類(lèi),但是這種注釋方法生成的子類(lèi)別經(jīng)常使用戶(hù)難以理解。
本發(fā)明將聚類(lèi)的概念一般地?cái)U(kuò)展到項(xiàng)目,具體地?cái)U(kuò)展到搜索。以不斷 變窄的語(yǔ)境在搜索結(jié)果中向下鉆取的能力是平均查詢(xún)長(zhǎng)度為2.3個(gè)關(guān)鍵字 的web搜索中的問(wèn)題的一種可能的解決方案?,F(xiàn)代用戶(hù)習(xí)慣于在文件系統(tǒng) 中的文件夾中向下鉆取以查找它們所尋找的文件。因此,如果搜索結(jié)果被 按關(guān)鍵字聚類(lèi)成子類(lèi)別(例如圖10),則用戶(hù)可表現(xiàn)出于文件系統(tǒng)類(lèi)似的 瀏覽行為。這將等同于利用與這種子類(lèi)別相對(duì)應(yīng)原關(guān)鍵字來(lái)加強(qiáng)原始查詢(xún)。這將會(huì)更加用戶(hù)友好,并且可能比諸如Google Suggest之類(lèi)的查詢(xún)精 煉方法更加優(yōu)良。這種方法不限于web搜索,而是可以應(yīng)用到任何形式的 搜索,包括但不限于桌面搜索和企業(yè)搜索。
除了對(duì)項(xiàng)目進(jìn)行聚類(lèi)之外,可能存在對(duì)用戶(hù)進(jìn)行聚類(lèi)的潛在用途。這 可能是創(chuàng)建特殊興趣群組的動(dòng)態(tài)形成或者基于興趣而不是基于熟悉度來(lái)創(chuàng) 建社交網(wǎng)絡(luò),等等。本發(fā)明的通用注釋機(jī)制允許就關(guān)鍵字而言以與項(xiàng)目相 類(lèi)似的方式來(lái)看待用戶(hù)。在本領(lǐng)域中已知許多聚類(lèi)算法,這些算法可用來(lái) 對(duì)項(xiàng)目以及用戶(hù)進(jìn)行聚類(lèi)。這些算法包括投影方法,比如主成分分析和多 維縮放,或者其他方法,比如自組織圖、K-means聚類(lèi)等等。項(xiàng)目可以基 于其注釋中使用的關(guān)鍵字或?qū)ζ溥M(jìn)行注釋的用戶(hù)或者兩者而被聚類(lèi)。類(lèi)似 地,用戶(hù)可以基于其關(guān)鍵字或項(xiàng)目或兩者被聚類(lèi)。
所有的聚類(lèi)方法都需要解決的關(guān)鍵問(wèn)題之一是降低復(fù)雜度。例如,有 相當(dāng)大的復(fù)雜度與項(xiàng)目以及用戶(hù)的關(guān)鍵字相關(guān)聯(lián)。在實(shí)際中,唯一的注釋 語(yǔ)境的數(shù)目可能與項(xiàng)目數(shù)目一樣多。因此,聚類(lèi)問(wèn)題變成選擇用來(lái)使類(lèi)似 項(xiàng)目和用戶(hù)集中到一起的相關(guān)關(guān)鍵字的子集。這是一個(gè)困難的問(wèn)題,因?yàn)?可能的組合的數(shù)量極為巨大,并且確定關(guān)鍵字對(duì)項(xiàng)目以及用戶(hù)的相關(guān)性很 困難,等等。另外,與項(xiàng)目不同的是,用戶(hù)具有隨時(shí)間變化的許多方法, 并且能夠共享許多關(guān)鍵字。
諸如LSI之類(lèi)的模式識(shí)別方法使用維度減少來(lái)作為對(duì)付這種復(fù)雜性的 一種方法,但它們執(zhí)行起來(lái)代價(jià)較高并且不斷被更新,并且很難理解它們 實(shí)際在做什么。
本發(fā)明注意到,當(dāng)用戶(hù)和項(xiàng)目?jī)烧弑煌瑫r(shí)聚類(lèi)時(shí),會(huì)發(fā)生最相關(guān)的聚 類(lèi)。本發(fā)明披露了一種方法,它實(shí)現(xiàn)了顯著的復(fù)雜度降低,并且對(duì)用戶(hù)和 項(xiàng)目?jī)烧叨继峁┝酥庇X(jué)的、有效的聚類(lèi)結(jié)果。它基于語(yǔ)境的概念。語(yǔ)境在 這里被定義為關(guān)鍵字的集合(set of keywords)。在搜索的情況下,語(yǔ)境將 對(duì)應(yīng)于基于關(guān)鍵字的邏輯AND的搜索。如果項(xiàng)目或用戶(hù)匹配了某個(gè)語(yǔ)境 中的所有關(guān)鍵字,則該項(xiàng)目或用戶(hù)將被認(rèn)為屬于該語(yǔ)境。語(yǔ)境的子語(yǔ)境具 有該語(yǔ)境的所有關(guān)鍵字以及至少一個(gè)其他關(guān)鍵字。因此,存在于子語(yǔ)境中 的所有用戶(hù)和項(xiàng)目也都存在于語(yǔ)境中。注釋事件中的關(guān)鍵字集合是語(yǔ)境(如果將關(guān)鍵字的定義擴(kuò)展到包括UserID和ItemID的話(huà),注釋事件本身 可被認(rèn)為是語(yǔ)境,在這種情況下,注釋事件是由該關(guān)鍵字集合形成語(yǔ)境的 子語(yǔ)境。另外,用戶(hù)可被認(rèn)為是項(xiàng)目)。
項(xiàng)目和用戶(hù)的聚類(lèi)則可被定義為確定用來(lái)將用戶(hù)和項(xiàng)目集中到一起的 最相關(guān)的語(yǔ)境的集合。當(dāng)這種語(yǔ)境集合的大小遠(yuǎn)小于系統(tǒng)中的所有語(yǔ)境的 集合時(shí),就可以實(shí)現(xiàn)復(fù)雜度降低。本發(fā)明使用了以下直覺(jué)相關(guān)的/有用的 語(yǔ)境是被使用的語(yǔ)境。因此,這樣的語(yǔ)境集合可以從用戶(hù)在描述項(xiàng)目時(shí)使 用的注釋事件中的實(shí)際關(guān)鍵字來(lái)確定,并通過(guò)查找至少包含某個(gè)最小數(shù)目 的項(xiàng)目和用戶(hù)的語(yǔ)境來(lái)確定。在實(shí)際中,對(duì)于具有足夠相異的用戶(hù)/項(xiàng)目群 體的注釋系統(tǒng),即使較小的最小數(shù)目也可以帶來(lái)顯著的維度減少,以及根 據(jù)基于興趣的類(lèi)別的用戶(hù)/項(xiàng)目聚類(lèi)。這克服了實(shí)現(xiàn)論壇的主要問(wèn)題之一 -很難判定哪些主題對(duì)于用戶(hù)有意義以使其能夠有效地溝通。本發(fā)明的自然 出現(xiàn)的語(yǔ)境或主題帶來(lái)了對(duì)用戶(hù)和項(xiàng)目的動(dòng)態(tài)、相關(guān)的聚類(lèi),其提供了對(duì) 此問(wèn)題的解決方案。
在包括web搜索在內(nèi)的搜索的情況下,可以基于對(duì)搜索結(jié)果的點(diǎn)擊流 從査詢(xún)?nèi)罩精@取注釋(它們也可以與鏈接文本有利地組合,其中這種鏈接 來(lái)自不同的web主機(jī)或博客或獨(dú)立的注釋者和其他注釋源的其他代理)。 上面定義的語(yǔ)境集合可被計(jì)算并被稱(chēng)為類(lèi)別語(yǔ)境。對(duì)于搜索中的任何給定 語(yǔ)境,類(lèi)別語(yǔ)境中的作為搜索查詢(xún)的子語(yǔ)境的語(yǔ)境集合可以被計(jì)算,并且 所得到的集合中的每個(gè)關(guān)鍵字(在取出搜索語(yǔ)境的關(guān)鍵字之后)可被提供 作為如上所述的向下鉆取子類(lèi)別。向下鉆取給定的子類(lèi)別等同于改變查詢(xún) 的語(yǔ)境以使它包括與向下鉆取子類(lèi)別相對(duì)應(yīng)的關(guān)鍵字。因此,每個(gè)向下鉆 取關(guān)鍵字對(duì)應(yīng)于查詢(xún)的語(yǔ)境的一個(gè)子語(yǔ)境。這并不限于單個(gè)單詞關(guān)鍵字, 而是包涵了可被當(dāng)作為向下鉆取關(guān)鍵字的基于協(xié)同定位和n-gram的單詞序 列。這些向下鉆取關(guān)鍵字可在基于特定排名順序被排序的情況下被呈現(xiàn)。 這種排名順序可針對(duì)這種子語(yǔ)境,根據(jù)事件的數(shù)目來(lái)計(jì)算(或者根據(jù)用戶(hù) 或項(xiàng)目的數(shù)目來(lái)計(jì)算;并且可以基于諸如"今天"之類(lèi)的時(shí)間范圍以及累 積總數(shù)來(lái)計(jì)算數(shù)目)。另外,對(duì)類(lèi)別語(yǔ)境本身的計(jì)算可以以時(shí)間界限的方 式來(lái)完成,其中給定時(shí)間窗口中的所有事件都被用于計(jì)算類(lèi)別語(yǔ)境。向下鉆取期間的實(shí)際搜索過(guò)程可以獨(dú)立于在計(jì)算這種向下鉆取時(shí)使用 的注釋?zhuān)⑶铱梢允撬阉饕嬗脕?lái)執(zhí)行包括全文搜索等在內(nèi)的搜索的任何 方法。子類(lèi)別的角色僅在于向用戶(hù)呈現(xiàn)相關(guān)關(guān)鍵字,然后其被用于加強(qiáng)搜 索查詢(xún)。
基于語(yǔ)境的通信方法
通信是所有合作活動(dòng)的支柱。然而當(dāng)今的大多數(shù)通信技術(shù)都限于一對(duì)
一范例(比如電話(huà)、電子郵件、SMS/IM等等)或者一對(duì)多范例(比如 TV、無(wú)線(xiàn)電、Web等)。有一類(lèi)在現(xiàn)有技術(shù)中未被兼顧的重要通信多 對(duì)多通信。多對(duì)多并不意味著會(huì)議呼叫情況下的多個(gè)人或者電子郵件的多 個(gè)接收者。更確切地說(shuō),與一對(duì)多情況一樣,接收者在通信之前并不知道 消息發(fā)送者。例如,將文件放置在企業(yè)文件系統(tǒng)中的某人需要將其存在傳 達(dá)給需要它的可能未知的人。博客允許了任何人在Web上張貼內(nèi)容,但是 不存在有效的機(jī)制來(lái)允許目標(biāo)web用戶(hù)發(fā)現(xiàn)博客的張貼。
該問(wèn)題可以被表達(dá)為"對(duì)于每個(gè)項(xiàng)目其用戶(hù);對(duì)于每個(gè)用戶(hù)其項(xiàng) 目"。搜索允許了人們找到相關(guān)的項(xiàng)目,但是從通信和合作的角度來(lái)看可 能更重要的是項(xiàng)目找到相關(guān)的人的能力。以上描述的方法可被有利地用于 解決此問(wèn)題。
多對(duì)多通信系統(tǒng)可被實(shí)現(xiàn)為兩個(gè)單獨(dú)的部分需要搜索認(rèn)為項(xiàng)目相關(guān)
的用戶(hù)的項(xiàng)目發(fā)表者以及搜索所有項(xiàng)目以找出與其相關(guān)的項(xiàng)目的用戶(hù)。對(duì) 于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)很明顯的是,任何這種機(jī)制都必須平衡對(duì)包羅 性、相關(guān)性和隱私性的需求,以創(chuàng)建實(shí)際的實(shí)現(xiàn)方式。
本發(fā)明將通信過(guò)程劃分成三個(gè)階段發(fā)表(publish)、語(yǔ)境化
(contextualize)和預(yù)訂(subscribe)。它使用一種基于語(yǔ)境的方法來(lái)進(jìn)行 發(fā)表,其中發(fā)表者需要為所關(guān)注的項(xiàng)目選擇最相關(guān)的語(yǔ)境以便觸及所需的 預(yù)訂者。此語(yǔ)境優(yōu)選地限于如上所述的注釋系統(tǒng)的類(lèi)別語(yǔ)境。發(fā)表者可將 公眾可獲得的一種形式的身份與項(xiàng)目一起公開(kāi)。這可以通過(guò)使用發(fā)表者所 特有的發(fā)表者ID (可能同于也可能不同于發(fā)表者的用戶(hù)ID)并利用該id 注釋項(xiàng)目來(lái)完成。可以使發(fā)表動(dòng)作成為一種明確的動(dòng)作,該明確動(dòng)作生成被稱(chēng)為發(fā)表注釋事件的特殊類(lèi)型的注釋事件,或者可以是將發(fā)表者ID附 加到項(xiàng)目的普通注釋事件。
預(yù)訂者基于來(lái)自用戶(hù)過(guò)去已經(jīng)指示出或顯示出興趣的類(lèi)別語(yǔ)境的集合 的語(yǔ)境來(lái)周期性地獲得(拉出)項(xiàng)目。這種預(yù)訂者項(xiàng)目可基于項(xiàng)目的關(guān)鍵 字與用戶(hù)過(guò)去用在對(duì)語(yǔ)境的注釋中的關(guān)鍵字之間的匹配被"個(gè)性化"或重 排名。這可以通過(guò)計(jì)算文檔的發(fā)表者ID與用戶(hù)過(guò)去認(rèn)為有用(或注釋
過(guò))的項(xiàng)目的發(fā)表者ID之間的匹配來(lái)有利地加強(qiáng)。發(fā)表者ID充當(dāng)發(fā)表者
的分布形式的聲譽(yù)。過(guò)去對(duì)來(lái)自發(fā)表者的項(xiàng)目進(jìn)行了注釋(例如進(jìn)行了選 擇或添加了書(shū)簽)的預(yù)訂者在個(gè)性化時(shí)的重排名后可以使今后來(lái)自同一發(fā) 表者的項(xiàng)目排名較高。相應(yīng)地,如果發(fā)表者在過(guò)去收到的來(lái)自某個(gè)用戶(hù)的 注釋相對(duì)較少,則今后來(lái)自該發(fā)表者的項(xiàng)目的排名將會(huì)較低。為了完成反 饋環(huán),注釋事件的實(shí)現(xiàn)方式可以不同于普通的搜索,其中注釋了項(xiàng)目的用
戶(hù)可以使他們承認(rèn)的發(fā)表者ID被自動(dòng)包括在他們的注釋中。這些注釋事
件可被聚集,并且允許了在語(yǔ)境中對(duì)發(fā)表者進(jìn)行排名,就像對(duì)項(xiàng)目進(jìn)行排 名那樣。
語(yǔ)境化是這樣一個(gè)過(guò)程,其中在特定語(yǔ)境中首次被發(fā)表的項(xiàng)目被向下 推送到該語(yǔ)境中的用戶(hù)子集中。該用戶(hù)子集充當(dāng)項(xiàng)目的引導(dǎo)群組,并且如 果他們覺(jué)得適當(dāng)則可利用關(guān)鍵字對(duì)其進(jìn)行注釋。這些注釋事件被聚集,并 且被注釋的項(xiàng)目隨后被提供給所有的語(yǔ)境預(yù)訂者。語(yǔ)境化階段可限于預(yù)定 的時(shí)間窗口,最低限于項(xiàng)目獲取注釋的速率,或者任何其他適當(dāng)?shù)亩攘俊?此過(guò)程加速了某些情形下接納項(xiàng)目的過(guò)程。這允許了項(xiàng)目收到某個(gè)最低級(jí) 別的注釋?zhuān)詫?duì)其進(jìn)行充分的分類(lèi)以便將來(lái)搜索或預(yù)訂。這可被有利地用 于將新項(xiàng)目介紹給某個(gè)語(yǔ)境的有影響力的發(fā)表者(這些發(fā)表者能夠推廣該 項(xiàng)目),并且有助于其迅速被接受,如果他們覺(jué)得該項(xiàng)目相關(guān)且適當(dāng)?shù)?話(huà)。語(yǔ)境化是一個(gè)可選的步驟,如果具體實(shí)現(xiàn)方式能通過(guò)這樣做得到價(jià)值 的話(huà)則可以實(shí)現(xiàn)該步驟。
根據(jù)上述這些概念來(lái)模擬系統(tǒng)的原因有多個(gè)。 一個(gè)主要的原因是末端 用戶(hù)隱私。在一些情況下(例如企業(yè)工作組),按關(guān)鍵字搜索用戶(hù)是可接 受或者甚至正是想要的(例如"査找專(zhuān)家")。在這種情況下,某個(gè)人可以通過(guò)電話(huà)或電子郵件直接聯(lián)系被搜索的人。但是在許多情形中,用戶(hù)可 能不希望其聯(lián)系信息或個(gè)人細(xì)節(jié)被公開(kāi)。在這些情形下,可以通過(guò)以下方 式來(lái)實(shí)現(xiàn)類(lèi)似的目的發(fā)送者公開(kāi)其身份但向某個(gè)語(yǔ)境中的用戶(hù)盲目地發(fā) 送消息,這種用戶(hù)可以基于它們個(gè)體的判斷來(lái)回復(fù)。通過(guò)將發(fā)送者限于單 個(gè)(或者可能少量語(yǔ)境),使得發(fā)送者專(zhuān)注于選擇正確的人群組來(lái)發(fā)送消 息。這是人類(lèi)判斷的一個(gè)重要方面,而在信息過(guò)濾以及其中被注釋的過(guò)程 收集項(xiàng)目的搜索中則沒(méi)有這種判斷。
通過(guò)公幵身份,項(xiàng)目也可以基于發(fā)表者ID來(lái)針對(duì)搜索以及預(yù)訂被排 名。這使得作者能夠基于末端用戶(hù)在其貼子中感知到的價(jià)值而在預(yù)訂者中 建立聲譽(yù)。這也是發(fā)表者負(fù)責(zé)的一種機(jī)制。廣受尊敬的作者會(huì)有一種既定 的興趣,以通過(guò)只發(fā)表高質(zhì)量項(xiàng)目來(lái)保護(hù)其聲譽(yù)。如果它們無(wú)意間或有意 地沒(méi)有做到這一點(diǎn),則它們就會(huì)不再被廣受尊敬。由于聲譽(yù)是要花時(shí)間來(lái) 建立的,因此廣受尊敬的作者如果推廣低質(zhì)量的項(xiàng)目則會(huì)獲得很少而失去 很多。這是一種很難兜售的分布式聲譽(yù),并且與從基于注釋的分析的合成 超鏈接或鏈接分析中可以辨別出的相比,這樣的作者可向信息檢索算法添 加一個(gè)重要的新維度。實(shí)質(zhì)上,它將專(zhuān)家判斷元素包括到了排名過(guò)程中。 因此,具體實(shí)現(xiàn)方式可以選擇在計(jì)算語(yǔ)境內(nèi)的項(xiàng)目的總體排名時(shí)結(jié)合每個(gè) 項(xiàng)目的注釋信息以及發(fā)表者ID信息。
語(yǔ)境化階段對(duì)于項(xiàng)目被迅速地注釋以正確的關(guān)鍵字集合是很重要的。 如前所述,團(tuán)體對(duì)項(xiàng)目進(jìn)行語(yǔ)境化的能力超過(guò)了任何個(gè)體的。在像 dd.icio.us這樣的團(tuán)體中,可以看出項(xiàng)目中的關(guān)鍵字的分布遵循冪律。被多 于預(yù)定百分比的用戶(hù)注釋的關(guān)鍵字的數(shù)目通常是相對(duì)穩(wěn)定的,并且在超過(guò) 某個(gè)閾值之后相對(duì)于事件數(shù)目就表現(xiàn)出規(guī)模不變性。這些頂部關(guān)鍵字被稱(chēng) 為項(xiàng)目的限定特性/關(guān)鍵字,并且如果項(xiàng)目以語(yǔ)境敏感方式(例如語(yǔ)境化) 被暴露給用戶(hù),則這些頂部關(guān)鍵字可以相對(duì)迅速地被捕捉。限定特性合理 地代表了團(tuán)體對(duì)項(xiàng)目的語(yǔ)境的判斷,并且使預(yù)訂可以更加相關(guān)和準(zhǔn)確。
語(yǔ)境化對(duì)于新項(xiàng)目迅速被承認(rèn)也是很重要的。來(lái)自不那么為人所知的 發(fā)表者的項(xiàng)目可以以針對(duì)性的方式被發(fā)送到該語(yǔ)境的廣受尊敬的發(fā)表者, 如果他們?cè)谠擁?xiàng)目中發(fā)現(xiàn)了價(jià)值,他們就可以用他們的身份來(lái)發(fā)表它(實(shí)
21質(zhì)上是將其身份與原始作者一起附加到項(xiàng)目)。這將允許新項(xiàng)目在整個(gè)群 體內(nèi)迅速被接納。這還將允許有前景的新才干迅速暴露出來(lái)。
團(tuán)體處理語(yǔ)境中的項(xiàng)目的能力可以基于語(yǔ)境中的用戶(hù)的數(shù)目而增大。 每個(gè)人不需要處理每個(gè)項(xiàng)目。項(xiàng)目可在團(tuán)體的子集間被劃分,并且可以以 并行方式被語(yǔ)境化。類(lèi)別語(yǔ)境代表了發(fā)生這種合作的有意義地點(diǎn)。例如,
在Google中索引了超過(guò)50億個(gè)頁(yè)面,并且每天有多于1000億封電子郵件 (不幸的是其中包括垃圾郵件)。這種通信機(jī)制的適當(dāng)實(shí)現(xiàn)方式可以在一 段合理的時(shí)間內(nèi)對(duì)像整個(gè)Web那么大的域進(jìn)行語(yǔ)境化。對(duì)于通用的注釋機(jī) 制,此通信方法代表了對(duì)web搜索中的蜘蛛的角色的實(shí)用替代。此外,一 般的語(yǔ)境級(jí)統(tǒng)計(jì)信息可被提供給發(fā)送者,以允許他們找到適當(dāng)?shù)恼Z(yǔ)境。這 種統(tǒng)計(jì)信息可包括但不限于語(yǔ)境中的用戶(hù)和項(xiàng)目的數(shù)目。如果用戶(hù)對(duì)項(xiàng)目 的比率高于平均,那么這可以是熱點(diǎn)主題的良好指標(biāo)。如果比率遠(yuǎn)低于平 均,那么發(fā)送者可以判定該語(yǔ)境對(duì)于其消息來(lái)說(shuō)競(jìng)爭(zhēng)性太大了。這給出了 一種重要的反饋環(huán),該反饋環(huán)可以影響Web上的內(nèi)容生成,或者更一般地 說(shuō),可以影響任何合作式組織希望如何將資源分配到任務(wù)。
即使在初始的語(yǔ)境化過(guò)程之后注釋仍會(huì)繼續(xù),并且隨著時(shí)間過(guò)去,項(xiàng) 目繼續(xù)被不同的人用不同的關(guān)鍵字來(lái)描述。語(yǔ)境化階段可以有助于項(xiàng)目的 初始篩選,以使得相關(guān)的或有前景的項(xiàng)目被放到前面。進(jìn)一步的注釋允許 了通過(guò)更相關(guān)的限定關(guān)鍵字集合來(lái)對(duì)項(xiàng)目進(jìn)行進(jìn)一步的表征。由于團(tuán)體隨 著時(shí)間的過(guò)去而以不同的方式表征項(xiàng)目的有用性,項(xiàng)目的限定特性中的關(guān) 鍵字可隨著時(shí)間而變化(表現(xiàn)出攪動(dòng)行為)。注釋的整個(gè)過(guò)程可以被比作 通過(guò)小世界網(wǎng)絡(luò)發(fā)送項(xiàng)目,其中用戶(hù)不知道目的地,并且每個(gè)用戶(hù)基于其 對(duì)項(xiàng)目與語(yǔ)境的相關(guān)性的判斷通過(guò)新的語(yǔ)境來(lái)將其傳遞給其他用戶(hù)。實(shí)際 上,語(yǔ)境關(guān)聯(lián)的語(yǔ)義網(wǎng)絡(luò)既是由基于這種語(yǔ)境的交互的社交網(wǎng)絡(luò)所創(chuàng)建 的,并且也反映了該網(wǎng)絡(luò)。類(lèi)別語(yǔ)境代表了這種網(wǎng)絡(luò)中的連接緊密的軸 心,這些軸心允許了在用戶(hù)之間高效地傳輸項(xiàng)目。
預(yù)訂過(guò)程允許了在語(yǔ)境級(jí)聚集的項(xiàng)目基于用戶(hù)興趣被周期性地檢索。 用戶(hù)對(duì)某個(gè)語(yǔ)境的興趣可由用戶(hù)明確指定,或者基于在預(yù)訂過(guò)程內(nèi)項(xiàng)目的 使用模式、點(diǎn)擊流或用戶(hù)注釋來(lái)隱性地得出。用戶(hù)興趣的明確指定等同于持續(xù)對(duì)某個(gè)語(yǔ)境的查詢(xún)并且在后臺(tái)針對(duì)它不斷地檢索項(xiàng)目。但是,與搜索 過(guò)程不同的是,預(yù)訂中對(duì)用戶(hù)興趣的明確指定不太可能是實(shí)用的方法。在 任何給定時(shí)刻,可能有許多語(yǔ)境中的許多項(xiàng)目與用戶(hù)相關(guān),而用戶(hù)可能對(duì) 其并不知曉。這種預(yù)訂系統(tǒng)的隱性目標(biāo)是幫助發(fā)現(xiàn)這種項(xiàng)目。本發(fā)明使用 了一種形式的個(gè)性化,其基于注釋事件來(lái)描繪用戶(hù)概況以推斷興趣。
本領(lǐng)域中己經(jīng)知道許多個(gè)性化方法。本發(fā)明介紹了對(duì)于實(shí)現(xiàn)充分的個(gè)
性化很重要的三個(gè)方面-類(lèi)別語(yǔ)境、發(fā)表者ID和針對(duì)重排名的TFIDF的 基于時(shí)間的變體。大多數(shù)用于個(gè)性化的基于用戶(hù)概況描繪的方法嘗試基于 用戶(hù)過(guò)去認(rèn)為有用的關(guān)鍵字來(lái)對(duì)項(xiàng)目進(jìn)行排名。但是,這種方法遺漏了重 要的新的興趣領(lǐng)域,而不斷強(qiáng)化有限的關(guān)鍵字集合,從而損害了用戶(hù)體 驗(yàn)。通過(guò)利用類(lèi)別語(yǔ)境,可以基于團(tuán)體認(rèn)為有用的東西來(lái)引入偶然發(fā)現(xiàn)元 素。這種偶然發(fā)現(xiàn)的項(xiàng)目通常將用戶(hù)引導(dǎo)到未曾預(yù)期到的新領(lǐng)域,并且?guī)?助針對(duì)用戶(hù)概況(profile)來(lái)發(fā)現(xiàn)感興趣的相關(guān)的新領(lǐng)域。這可以在這種 新項(xiàng)目的注釋事件(例如點(diǎn)擊)中被隱性地捕捉,或者可以通過(guò)用戶(hù)因?yàn)?閱讀/使用項(xiàng)目而在這種新語(yǔ)境中執(zhí)行搜索來(lái)明確捕捉。
預(yù)訂過(guò)程認(rèn)為每個(gè)類(lèi)別語(yǔ)境是其從中進(jìn)行預(yù)訂的獨(dú)立項(xiàng)目源。預(yù)訂從 用戶(hù)概況中的所有類(lèi)別語(yǔ)境中檢索項(xiàng)目。這可以通過(guò)基于興趣分布來(lái)分布 這種檢索來(lái)完成。例如,如果我們假設(shè)用戶(hù)具有有限的注意力跨度(例如 每天中某個(gè)最大數(shù)目的項(xiàng)目),那么從某個(gè)語(yǔ)境檢索出的項(xiàng)目的數(shù)目與檢 索出的項(xiàng)目總數(shù)的比率可能與用戶(hù)在那個(gè)特定語(yǔ)境中花費(fèi)的注意力的量 (比如閱讀/檢索的項(xiàng)目的數(shù)目,等等)與總量的比率相同。對(duì)此分布的計(jì) 算也可限于某個(gè)給定時(shí)間窗口,在該時(shí)間窗口期間用戶(hù)的概況被描繪。
采取跨不同類(lèi)別語(yǔ)境的興趣分布的形式的用戶(hù)概況可根據(jù)需要被呈現(xiàn) 給用戶(hù)以便他們審查。用戶(hù)可以以多種手法來(lái)刪除或更新這種比率以允許 細(xì)調(diào)其偏好。但是,由于用戶(hù)可能不容易明顯看出對(duì)某個(gè)比率的改變將意 味著什么, 一個(gè)實(shí)施例可以只允許用戶(hù)指定或解除指定這樣的類(lèi)別語(yǔ)境 這種類(lèi)別語(yǔ)境將不斷被下載,而不論實(shí)際用戶(hù)使用如何。它也可以允許用 戶(hù)從概況中去除/刪除任何類(lèi)別語(yǔ)境。
在這種合作式排名與用戶(hù)認(rèn)為相關(guān)的東西之間需要有一個(gè)平衡。本發(fā)明介紹了一種用于基于用戶(hù)概況的重排名的TF-IDF方法的基于時(shí)間的變 體,以為特定用戶(hù)確定相關(guān)性。對(duì)于特定語(yǔ)境中的特定用戶(hù),關(guān)鍵字及其 實(shí)際使用頻率是從該語(yǔ)境的注釋事件得出的。為了計(jì)算時(shí)間使用頻率
(temporal usage frequency),測(cè)量了關(guān)鍵字的使用次數(shù)和從用戶(hù)首次使用 該語(yǔ)境中的該關(guān)鍵字的時(shí)間起的時(shí)間間隔。此頻率被外推到預(yù)定時(shí)間段的 頻率,以給出本發(fā)明所說(shuō)的時(shí)間使用頻率。例如,對(duì)于給定的關(guān)鍵字,在 其首次被使用起的兩天之內(nèi),用戶(hù)使用了它兩次。這將給出每年365次的 時(shí)間使用頻率。像TF-IDF風(fēng)格的方法中常見(jiàn)的那樣,通過(guò)使用頻率的對(duì) 數(shù)值來(lái)衰減該時(shí)間使用頻率,并且該時(shí)間使用頻率被用作該語(yǔ)境中用戶(hù)感 興趣的關(guān)鍵字向量的權(quán)重。項(xiàng)目中的關(guān)鍵字向量的權(quán)重可以以傳統(tǒng)的TF-IDF 方式來(lái)完成, 并且對(duì)于此用戶(hù),項(xiàng)目對(duì)語(yǔ)境的排名(匹配)可以以?xún)?個(gè)向量的點(diǎn)積的普通方式來(lái)計(jì)算?;谶@種計(jì)算出的排名在語(yǔ)境內(nèi)對(duì)項(xiàng)目 進(jìn)行重排名。
如上所述的用戶(hù)興趣概況包含敏感的個(gè)人數(shù)據(jù)。因此,可能用戶(hù)更喜 歡在其PC上進(jìn)行客戶(hù)端側(cè)實(shí)現(xiàn)并且能夠擁有完全的訪(fǎng)問(wèn)權(quán)限以了解存儲(chǔ) 了什么并對(duì)其進(jìn)行更改,而不那么喜歡在中央服務(wù)器上管理這種信息。但 是,這意味著對(duì)于給定的語(yǔ)境,如果不將大量數(shù)據(jù)下載到客戶(hù)端側(cè)就無(wú)法 在與語(yǔ)境相對(duì)應(yīng)的整個(gè)項(xiàng)目集合上執(zhí)行重排名?;蛘?,即使在中央服務(wù)器 上,對(duì)這種個(gè)性化的重排名的計(jì)算也可能代價(jià)高到無(wú)法執(zhí)行,或者可能因 為語(yǔ)境團(tuán)體的合作式排名可能丟失而被需要。這些目標(biāo)之間的平衡是通過(guò) 將重排名限制到語(yǔ)境中的頂部的合作排名結(jié)果的子集來(lái)獲得的。這可以通 過(guò)僅從語(yǔ)境中拉出來(lái)自該語(yǔ)境的某個(gè)數(shù)目的項(xiàng)目,并且基于用戶(hù)概況對(duì)這 些結(jié)果進(jìn)行重排名來(lái)實(shí)現(xiàn)。該數(shù)目使得可以控制合作式排名和個(gè)性化之間 的混合。
基于速率的計(jì)算(比如TF-IDF的基于時(shí)間變體)可以有利地結(jié)合發(fā) 表者ID實(shí)現(xiàn),以高效地檢索令人感興趣的作者。與可能具有大量項(xiàng)目的 恒定流的普通關(guān)鍵字不同的是,大多數(shù)作者產(chǎn)生相對(duì)少量的項(xiàng)目。如果發(fā) 表者ID被當(dāng)作項(xiàng)目的關(guān)鍵字向量中的關(guān)鍵字,那么即使是普通的TF-IDF 式的方法也會(huì)給發(fā)表者ID賦予比其他關(guān)鍵字更高的權(quán)重。這可以通過(guò)為發(fā)表者ID使用用戶(hù)的時(shí)間使用頻率來(lái)進(jìn)一步加強(qiáng)。例如,讓我們假定發(fā) 表者A總共發(fā)表了 2篇博客貼子,并且在從用戶(hù)遇到該發(fā)表者ID開(kāi)始的
過(guò)去2天內(nèi)用戶(hù)已經(jīng)閱讀了該發(fā)表者的兩篇貼子。讓我們假定另一發(fā)表者 B擁有20篇博客貼子,用戶(hù)在過(guò)去一年中己經(jīng)閱讀了所有這20篇。對(duì)于 新的項(xiàng)目,發(fā)表者A的排名將高于發(fā)表者B。但是,如果用戶(hù)沒(méi)有閱讀發(fā) 表者的后續(xù)項(xiàng)目,或者發(fā)表者A不產(chǎn)生后續(xù)項(xiàng)目,則排名將會(huì)隨著時(shí)間而 降低。此方法確保了最近被證明有用的發(fā)表者ID最初將會(huì)排名較高,但 是允許了其他的一貫產(chǎn)生有用項(xiàng)目的發(fā)表者追趕上不這么做的發(fā)表者。
類(lèi)似的基于時(shí)間的TF-IDF方法可用于對(duì)系統(tǒng)的向下鉆取類(lèi)別中的類(lèi) 別語(yǔ)境進(jìn)行排名。實(shí)質(zhì)上,用戶(hù)對(duì)語(yǔ)境的實(shí)際使用及其新近度可被適當(dāng)?shù)?結(jié)合到排名過(guò)程中,而不只是語(yǔ)境中的累積事件數(shù)目或給定時(shí)間窗口的累 積數(shù)目。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的寬廣概念,本發(fā)明提供了一種用于合作的方法,該方法 包括識(shí)別可在多個(gè)具有唯一標(biāo)識(shí)符的用戶(hù)之間共享的多個(gè)具有唯一標(biāo)識(shí) 符的項(xiàng)目;使每個(gè)用戶(hù)獨(dú)立于其他用戶(hù)地利用至少一種自然語(yǔ)言的至少一 個(gè)關(guān)鍵字來(lái)注釋多個(gè)這種項(xiàng)目,每個(gè)這種項(xiàng)目被至少一個(gè)用戶(hù)注釋?zhuān)總€(gè) 這種注釋由一個(gè)注釋事件表示,該注釋事件包含進(jìn)行注釋的用戶(hù)的標(biāo)識(shí) 符、被注釋的項(xiàng)目的標(biāo)識(shí)符以及進(jìn)行注釋的用戶(hù)選擇來(lái)描述被注釋的項(xiàng)目 的至少一個(gè)關(guān)鍵字,每個(gè)這種注釋事件是從至少一種類(lèi)型的多個(gè)事件源生 成的;聚集來(lái)自事件源的這種注釋事件,以便從特定項(xiàng)目的注釋事件聚集 與該項(xiàng)目相關(guān)聯(lián)的關(guān)鍵字,并且從特定用戶(hù)的注釋事件聚集與該用戶(hù)相關(guān)
聯(lián)的關(guān)鍵字;以及使至少一個(gè)這種用戶(hù)按關(guān)鍵字搜索項(xiàng)目或用戶(hù),以使得 在其聚集關(guān)鍵字中具有被搜索的關(guān)鍵字的相應(yīng)項(xiàng)目或用戶(hù)分別作為結(jié)果被返回。
本發(fā)明的實(shí)施例提供了系統(tǒng)和方法,從而允許用戶(hù)獨(dú)立于彼此地注釋 多個(gè)項(xiàng)目,以使得每個(gè)項(xiàng)目可能被多個(gè)用戶(hù)注釋?zhuān)⑶颐總€(gè)用戶(hù)可以基于 跨項(xiàng)目的多個(gè)注釋聚集的項(xiàng)目關(guān)鍵字來(lái)搜索項(xiàng)目。這里使用的術(shù)語(yǔ)"注釋" 一般是指對(duì)項(xiàng)目的任何簡(jiǎn)潔描述,以便關(guān)鍵字被從用戶(hù)收集,然后被 與該用戶(hù)的標(biāo)識(shí)符相關(guān)聯(lián)地存儲(chǔ)。項(xiàng)目可對(duì)應(yīng)于可以用唯一標(biāo)識(shí)符來(lái)標(biāo)識(shí) 的任何項(xiàng)目(包括文件系統(tǒng)中的文件、紙質(zhì)文檔、過(guò)程管理系統(tǒng)中的任務(wù) 和事項(xiàng)、倉(cāng)庫(kù)中存儲(chǔ)的想法,等等)。在本發(fā)明的實(shí)施例中,注釋可以以 多種方法來(lái)收集,包括發(fā)表、標(biāo)記、點(diǎn)擊搜索結(jié)果集合中的結(jié)果、來(lái)自文 件系統(tǒng)路徑的目錄和文件名,超鏈接文本,等等。
本發(fā)明還可包括分別針對(duì)每個(gè)事件源類(lèi)型基于與査詢(xún)的相關(guān)性來(lái)對(duì) 搜索結(jié)果進(jìn)行排名;聚集這種排名以計(jì)算每個(gè)結(jié)果的最終排名;并且跨所 有事件源類(lèi)型聚集結(jié)果以按相關(guān)性順序呈現(xiàn)最終結(jié)果。
在一個(gè)實(shí)施例中,搜索的結(jié)果集合是利用比如TF-IDF這樣的信息檢
索算法來(lái)排名的。在本發(fā)明的另一方面中,每個(gè)注釋被認(rèn)為等同于超鏈接 以及基于鏈接分析排名算法確定結(jié)果集合并對(duì)結(jié)果集合排名。在另一方面 中,對(duì)于每個(gè)注釋?zhuān)總€(gè)用戶(hù)被認(rèn)為是軸心,每個(gè)項(xiàng)目被認(rèn)為是權(quán)威,并
且結(jié)果和排名通過(guò)諸如HITS等之類(lèi)的鏈接分析方法來(lái)確定。例如,通過(guò)
這種方法,除網(wǎng)頁(yè)之外的項(xiàng)目,例如企業(yè)文件共享中的文件等,可以受益
于通常與web搜索相關(guān)聯(lián)的更高準(zhǔn)確性。
在本發(fā)明的另一實(shí)施例中,注釋被處理以便能夠?qū)τ脩?hù)和項(xiàng)目進(jìn)行基 于語(yǔ)境的聚類(lèi)。注釋根據(jù)基于關(guān)鍵字的語(yǔ)境被歸類(lèi),以使得具有多于某個(gè) 預(yù)定數(shù)目的用戶(hù)和預(yù)定數(shù)目的項(xiàng)目的語(yǔ)境同時(shí)代表用戶(hù)和項(xiàng)目的聚類(lèi)。通 過(guò)為搜索結(jié)果提供向下鉆取類(lèi)別,這被用于加強(qiáng)搜索過(guò)程。例如,web搜 索引擎可從其點(diǎn)擊流日志收集注釋?zhuān)⑹褂靡韵戮垲?lèi)方法來(lái)對(duì)結(jié)果分類(lèi)并 提供允許用戶(hù)以有意義的方式進(jìn)一步縮窄結(jié)果的可能的查詢(xún)修改。
在本發(fā)明的另一實(shí)施例中,可以基于關(guān)鍵字搜索用戶(hù)。這可以通過(guò)使 用用戶(hù)的注釋的聚集關(guān)鍵字或者通過(guò)使用如上所述的諸如HITS、 BFS或 INDEGREE之類(lèi)的鏈接分析排名來(lái)完成。對(duì)查詢(xún)的用戶(hù)排名可以類(lèi)似于如 前所述的項(xiàng)目的方式來(lái)實(shí)現(xiàn)。
在本發(fā)明的另一實(shí)施例中,用戶(hù)可以通過(guò)發(fā)表和預(yù)訂以基于語(yǔ)境的方 式與其他用戶(hù)通信。在發(fā)表時(shí),用戶(hù)通過(guò)利用語(yǔ)境和發(fā)表者標(biāo)識(shí)符對(duì)新項(xiàng) 目進(jìn)行注釋來(lái)將該新項(xiàng)目引入系統(tǒng)中。其他用戶(hù)可通過(guò)搜索或通過(guò)預(yù)訂來(lái)找到這種項(xiàng)目。預(yù)訂是指基于用戶(hù)過(guò)去認(rèn)為有用的語(yǔ)境自動(dòng)搜索和檢索頂 部結(jié)果并以個(gè)性化方式來(lái)呈現(xiàn)它們。這種語(yǔ)境可由用戶(hù)明確指定或基于用 戶(hù)的注釋而被監(jiān)視。在本發(fā)明的一個(gè)方面中,個(gè)性化是通過(guò)利用TF-IDF 的基于時(shí)間的替換方式對(duì)排名較高的被預(yù)訂項(xiàng)目的子集進(jìn)行重排名來(lái)實(shí)現(xiàn) 的。在此實(shí)施例的另一方面中,預(yù)定可限于指定時(shí)間窗口內(nèi)的項(xiàng)目。在此 實(shí)施例的另一方面中,發(fā)表和預(yù)訂都可限于代表用戶(hù)和項(xiàng)目的聚類(lèi)的語(yǔ) 境。
在另一實(shí)施例中,使發(fā)表成為明確的動(dòng)作,并且發(fā)表者標(biāo)識(shí)符被用作 在每個(gè)預(yù)訂處以個(gè)性化方式對(duì)項(xiàng)目排名的基礎(chǔ)。這允許了發(fā)表者基于用戶(hù) 群體上的接納而獲取分布式聲譽(yù),并且排名較高的發(fā)表者具有發(fā)表高質(zhì)量 項(xiàng)目的既定興趣。這創(chuàng)建了一種形式的可用于項(xiàng)目排名的專(zhuān)家判斷。
根據(jù)本發(fā)明的另一方面,該方面還包括按語(yǔ)境同時(shí)對(duì)項(xiàng)目和用戶(hù)進(jìn)行 聚類(lèi);按語(yǔ)境來(lái)聚集注釋事件;確定在其聚集注釋事件中具有預(yù)定最小數(shù) 目的唯一用戶(hù)標(biāo)識(shí)符和預(yù)定最小數(shù)目的唯一項(xiàng)目標(biāo)識(shí)符的語(yǔ)境;以及基于 這種語(yǔ)境對(duì)項(xiàng)目和用戶(hù)進(jìn)行聚類(lèi)。該方法還包括基于使用聚類(lèi)算法來(lái)對(duì)項(xiàng) 目或用戶(hù)的結(jié)果集合進(jìn)行聚類(lèi)并且將聚類(lèi)作為搜索結(jié)果的子類(lèi)別呈現(xiàn)。聚 類(lèi)可以基于來(lái)自由以下各項(xiàng)構(gòu)成的群組的一種方法來(lái)實(shí)現(xiàn)LSA、 K-means、自組織圖、外圍組件分析、多維縮放和投影方法。聚類(lèi)可以基于 來(lái)自由以下各項(xiàng)構(gòu)成的群組的至少一種數(shù)據(jù)類(lèi)型執(zhí)行關(guān)鍵字、項(xiàng)目標(biāo)識(shí) 符和用戶(hù)標(biāo)識(shí)符。
根據(jù)本發(fā)明的另一方面,項(xiàng)目的限定關(guān)鍵字是根據(jù)項(xiàng)目的聚集關(guān)鍵字 計(jì)算的,從而它們對(duì)應(yīng)于被多于某個(gè)百分比的注釋群體使用的關(guān)鍵字的集 合。限定關(guān)鍵字的這些集合被用作確定含義、概念及其語(yǔ)義關(guān)系的機(jī)器表 示的基礎(chǔ)。語(yǔ)義關(guān)系可利用來(lái)自由模式識(shí)別方法和相關(guān)分析方法(例如 LSA)構(gòu)成的群組中的至少一種方法來(lái)計(jì)算,并且本體可表示成知識(shí)表示 格式。本體可以表示成作為以下各項(xiàng)構(gòu)成的群組之一的格式RDF、 OWL、實(shí)體-關(guān)系圖、關(guān)系數(shù)據(jù)庫(kù)方案、面向?qū)ο蟮念?lèi)、XML和表。該方 法還包括過(guò)濾方法,其中特定的關(guān)鍵字存在于來(lái)自結(jié)果集合的項(xiàng)目中的 話(huà),則這些項(xiàng)目可被去除。


現(xiàn)在,下面參考附圖描述本發(fā)明,附圖中
圖1是示出典型的語(yǔ)境分布的示圖2示出了顯示冪律分布的圖3是示出根據(jù)本發(fā)明的基本系統(tǒng)設(shè)計(jì)的示圖4是示例性的計(jì)算環(huán)境;
圖5是基于瀏覽器的注釋事件生成器的用戶(hù)界面的視圖6是基于文件系統(tǒng)的注釋事件生成器的用戶(hù)界面的視圖7是基于電子郵件軟件的注釋事件生成器的用戶(hù)界面的視圖8是示例性的記憶對(duì)話(huà);
圖9是示例性的發(fā)表對(duì)話(huà);
圖IO是注釋瀏覽器的用戶(hù)界面的視圖11是示出注釋聚集的過(guò)程的流程圖12是示出搜索和個(gè)性化的過(guò)程的流程圖13是示出發(fā)表和預(yù)訂的過(guò)程的流程圖14是示例性的記憶注釋事件;
圖15是預(yù)訂點(diǎn)擊流注釋事件;以及
圖16是示例性的發(fā)表事件。
具體實(shí)施方式
計(jì)算環(huán)境
圖3示出了通用注釋系統(tǒng)的一般概覽。這種系統(tǒng)包括客戶(hù)端系統(tǒng) 110,該客戶(hù)端系統(tǒng)110可連接到諸如內(nèi)聯(lián)網(wǎng)LAN/WAN 140之類(lèi)的網(wǎng)絡(luò), 并且可能直接地或通過(guò)LAN連接到因特網(wǎng)150。這種客戶(hù)端系統(tǒng)110可用 于對(duì)來(lái)自因特網(wǎng)150的諸如網(wǎng)頁(yè)之類(lèi)的內(nèi)容以及來(lái)自L(fǎng)AN MO的諸如文件 和電子郵件之類(lèi)的內(nèi)聯(lián)網(wǎng)內(nèi)容進(jìn)行訪(fǎng)問(wèn)。接收、檢索和顯示。內(nèi)容服務(wù)器 180可以是web上可用的服務(wù)器,例如可以向客戶(hù)端系統(tǒng)UO提供內(nèi)容的 web服務(wù)器或應(yīng)用服務(wù)器。在因聯(lián)網(wǎng)LAN中有許多類(lèi)型的可向客戶(hù)端系統(tǒng)110提供內(nèi)容的服務(wù)器可用,例如郵件服務(wù)器184、文件服務(wù)器183、數(shù)據(jù) 庫(kù)服務(wù)器182,以及在服務(wù)器181中容宿的許多定制和打包軟件應(yīng)用。客 戶(hù)端系統(tǒng)110還可能通過(guò)諸如外聯(lián)網(wǎng)、虛擬專(zhuān)用網(wǎng)(VPN)、非基于 TCP/IP的網(wǎng)絡(luò)之類(lèi)的其他種網(wǎng)絡(luò)連接到內(nèi)容服務(wù)器。
客戶(hù)端系統(tǒng)110可以以傳統(tǒng)的個(gè)人計(jì)算機(jī)201的形式實(shí)現(xiàn)在如圖4的 通用計(jì)算設(shè)備中,該個(gè)人計(jì)算機(jī)201包括處理單元202、系統(tǒng)存儲(chǔ)器203 以及將系統(tǒng)存儲(chǔ)器和其他系統(tǒng)組件耦合到處理單元202的系統(tǒng)總線(xiàn)204。 系統(tǒng)總線(xiàn)204可以若干類(lèi)型中的任何一種,包括存儲(chǔ)器總線(xiàn)或存儲(chǔ)器控制 器、外圍總線(xiàn)和局部總線(xiàn),并且可以使用多種總線(xiàn)結(jié)構(gòu)中的任何一種。系 統(tǒng)存儲(chǔ)器203包括只讀存儲(chǔ)器(ROM) 205和隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)器(RAM) 206。存儲(chǔ)在ROM 205中的基本輸入/輸出系統(tǒng)(BIOS) 207包含在個(gè)人計(jì) 算機(jī)201的組件之間傳送信息的基本例程。BIOS 205還包含系統(tǒng)的啟動(dòng)例 程。個(gè)人計(jì)算機(jī)201還包括用于對(duì)硬盤(pán)(未示出)進(jìn)行讀和寫(xiě)的硬盤(pán)驅(qū)動(dòng) 器208、用于對(duì)可移動(dòng)磁盤(pán)210進(jìn)行讀和寫(xiě)的磁盤(pán)驅(qū)動(dòng)器209以及用于對(duì) 可移動(dòng)光盤(pán)212 (例如CD-ROM或其他光介質(zhì))進(jìn)行讀和寫(xiě)的光盤(pán)驅(qū)動(dòng)器 211。硬盤(pán)驅(qū)動(dòng)器208、磁盤(pán)驅(qū)動(dòng)器209和光盤(pán)驅(qū)動(dòng)器211分別通過(guò)硬盤(pán)驅(qū) 動(dòng)器接口 213、磁盤(pán)驅(qū)動(dòng)器接口 214和光驅(qū)接口 215連接到系統(tǒng)總線(xiàn) 204。驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)提供對(duì)個(gè)人計(jì)算機(jī)201的計(jì)算 機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的非易失性存儲(chǔ)。存儲(chǔ)計(jì)算 機(jī)可訪(fǎng)問(wèn)的數(shù)據(jù)的其他類(lèi)型的計(jì)算機(jī)可讀介質(zhì)也可被用在操作環(huán)境中。
程序模塊可被存儲(chǔ)在硬盤(pán)、磁盤(pán)210、光盤(pán)212、 ROM 205和RAM 206上。程序模塊可包括操作系統(tǒng)216、 一個(gè)或多個(gè)應(yīng)用程序217、其他程 序模塊218和程序數(shù)據(jù)219。用戶(hù)可以通過(guò)諸如鍵盤(pán)222和點(diǎn)選設(shè)備221 之類(lèi)的輸入設(shè)備將命令和信息輸入到個(gè)人計(jì)算機(jī)201中。其他輸入設(shè)備 (未示出)可包括麥克風(fēng)、操縱桿、游戲臺(tái)、圓盤(pán)式衛(wèi)星天線(xiàn)、掃描儀等 等。這些和其他輸入設(shè)備經(jīng)常通過(guò)與系統(tǒng)總線(xiàn)204相耦合的串行端口接口 220連接到處理單元202;但它們也可以通過(guò)諸如并行端口、游戲端口或 通用串行總線(xiàn)(USB)之類(lèi)的其他接口連接。監(jiān)視器228或其他顯示設(shè)備 也經(jīng)由諸如視頻適配器223之類(lèi)的接口連接到系統(tǒng)總線(xiàn)204。視頻相機(jī)或其他視頻源耦合到視頻適配器223,用來(lái)提供用于視頻會(huì)議和其他應(yīng)用的 視頻圖像,這些視頻圖像可被個(gè)人計(jì)算機(jī)201處理并進(jìn)一步傳送。在其他 實(shí)施例中,可以提供單獨(dú)的視頻卡,用來(lái)接受來(lái)自多個(gè)設(shè)備的信號(hào),包括 衛(wèi)星廣播編碼圖像。除了監(jiān)視器外,個(gè)人計(jì)算機(jī)通常包括其他外圍輸出設(shè) 備(未示出),例如揚(yáng)聲器和打印機(jī)。
個(gè)人計(jì)算機(jī)201可利用與諸如遠(yuǎn)程計(jì)算機(jī)229之類(lèi)的一個(gè)或多個(gè)遠(yuǎn)程 計(jì)算機(jī)的邏輯連接來(lái)工作在聯(lián)網(wǎng)環(huán)境中。遠(yuǎn)程計(jì)算機(jī)229可以是另一個(gè)個(gè) 人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其他常見(jiàn)的網(wǎng)絡(luò)節(jié) 點(diǎn)。它通常包括以上結(jié)合個(gè)人計(jì)算機(jī)201描述的組件中的許多或全部。圖 4所示的邏輯連接包括局域網(wǎng)(LAN) 227和廣域網(wǎng)(WAN) 226。
當(dāng)被置于LAN聯(lián)網(wǎng)環(huán)境中時(shí),PC 201通過(guò)網(wǎng)絡(luò)接口或適配器224連 接到本地網(wǎng)絡(luò)227。當(dāng)被用于諸如因特網(wǎng)之類(lèi)的WAN聯(lián)網(wǎng)環(huán)境中吋,PC 201通常包括調(diào)制解調(diào)器225或用于在網(wǎng)絡(luò)226上建立通信的其他裝置。 調(diào)制解調(diào)器225可以PC 201的內(nèi)部或外部,并且經(jīng)由串行端口接口 220連 接到系統(tǒng)總線(xiàn)204。在聯(lián)網(wǎng)環(huán)境中,在遠(yuǎn)程存儲(chǔ)設(shè)備230中可存儲(chǔ)程序模 塊,例如被示為駐留在201或其一些部分內(nèi)的包括Microsoft Word在內(nèi)的 那些程序模塊。
客戶(hù)端系統(tǒng)110也可包括桌面?zhèn)€人計(jì)算機(jī)、工作站、膝上型筆記本電 腦、個(gè)人數(shù)字助理(PDA)、蜂窩電或任何具備WAP能力的設(shè)備或任何 其他能夠直接或連接地與因特網(wǎng)接口的計(jì)算設(shè)備。客戶(hù)端系統(tǒng)110可在瀏 覽程序內(nèi)運(yùn)行,所述瀏覽程序例如是Microsoft的Internet Explorer 瀏覽 器、Netscape Navigator 瀏覽器、Mozilla 瀏覽器、Opera 瀏覽器或者 在蜂窩電話(huà)、PDA或其他無(wú)線(xiàn)設(shè)備的情況下的具備WAP能力的瀏覽器, 等等。
服務(wù)器系統(tǒng)120對(duì)應(yīng)于內(nèi)聯(lián)網(wǎng)環(huán)境內(nèi)的注釋服務(wù)器,服務(wù)器系統(tǒng)130 對(duì)應(yīng)于可為來(lái)自web各處的客戶(hù)端服務(wù)的因特網(wǎng)150上的注釋服務(wù)器。服 務(wù)器系統(tǒng)120通過(guò)接收注釋事件、聚集事件并處理來(lái)自客戶(hù)端的搜索和預(yù) 訂請(qǐng)求來(lái)為客戶(hù)端系統(tǒng)服務(wù)。這可以實(shí)現(xiàn)在如上所述的PC設(shè)備上,或者 實(shí)現(xiàn)在服務(wù)器配置上,例如來(lái)自Sun Microsystems的UNIX服務(wù)器、基于Linux和基于Windows的Intel服務(wù)器,等等。
可以利用許多不同的方法,包括C、 C++、 Java、 C#、 Visua舊asic、 諸如PERL或TCL之類(lèi)的腳本語(yǔ)言,來(lái)設(shè)計(jì)軟件??梢葬槍?duì)基于瀏覽器的 遞送,例如HTML、 XML、 Java、 JavaScript、 ActiveX等代碼或任何其他 適當(dāng)?shù)哪_本語(yǔ)言(例如VBScript),來(lái)開(kāi)發(fā)客戶(hù)端系統(tǒng)的一些方面。在一 些實(shí)施例中,代碼不被下載到客戶(hù)端系統(tǒng)110,并且所需的代碼被服務(wù)器 執(zhí)行,或者已經(jīng)存在于客戶(hù)端系統(tǒng)IIO處的代碼被執(zhí)行。
本發(fā)明可利用其他計(jì)算機(jī)系統(tǒng)配置來(lái)實(shí)現(xiàn),包括手持設(shè)備、多處理器 系統(tǒng)、基于微計(jì)算機(jī)的可編程消費(fèi)者電子設(shè)備、網(wǎng)絡(luò)PC、袖珍計(jì)算機(jī)、 工程工作站、大型機(jī)計(jì)算機(jī)等等。本發(fā)明可實(shí)現(xiàn)為數(shù)字電子電路,或者實(shí) 現(xiàn)為計(jì)算機(jī)硬件、固件、軟件或它們的組合。適當(dāng)?shù)奶幚砥骼绨ㄍㄓ?和專(zhuān)用微處理器兩者。前述任何一種都可被專(zhuān)門(mén)設(shè)計(jì)的ASIC (專(zhuān)用集成 電路)所補(bǔ)充或者被結(jié)合在專(zhuān)門(mén)設(shè)計(jì)的ASIC中。
注釋
如上所述,注釋是指用戶(hù)對(duì)項(xiàng)目的任何簡(jiǎn)潔描述,它使得可以得出根 據(jù)用戶(hù)判斷來(lái)描述項(xiàng)目的關(guān)鍵字。這是以針對(duì)這種注釋的每次發(fā)生的事件 的形式來(lái)發(fā)出的。事件中包含的數(shù)據(jù)元素的樣本在圖14中以XML形式示 出??梢詮亩鄠€(gè)事件源和事件源類(lèi)型以多種方式生成這種事件。優(yōu)選實(shí)施 例利用事件生成器112的概念來(lái)實(shí)現(xiàn)這一點(diǎn)。這些事件生成器可采取工具 條、插件、共享庫(kù)、OS級(jí)支持等等形式。每個(gè)事件源類(lèi)型具有其自己的 事件生成器。對(duì)于每個(gè)事件源類(lèi)型也可能有多個(gè)事件生成器。雖然優(yōu)選實(shí) 施例直接從用戶(hù)交互獲取關(guān)鍵字,但是它們也可利用針對(duì)用戶(hù)的文檔和電 子郵件的全文的自動(dòng)過(guò)程來(lái)獲得。另外,對(duì)郵件消息或文檔的關(guān)鍵字的指 定可由用戶(hù)以與指定要被突出的文本的方式相類(lèi)似的方式以文本來(lái)完成。 本領(lǐng)域的技術(shù)人員將會(huì)意識(shí)到存在許多種從用戶(hù)獲得這樣的關(guān)鍵字的方 式。
例如,基于瀏覽器的注釋事件可以如圖5從瀏覽器的工作條插件生 成。基于文件系統(tǒng)的事件可以如圖6從Explorer插件生成。每個(gè)事件生成器112可通過(guò)它能夠置于注釋事件中的EventSourceID和EventSourceLabd
元素來(lái)描述它自身??梢岳门c公司LAN的基于文件系統(tǒng)的注釋事件不 同的事件源來(lái)指定瀏覽器中的網(wǎng)頁(yè)的注釋事件?;谑录善?12,這 種事件可被傳輸?shù)街T如LAN之類(lèi)的私有網(wǎng)絡(luò)上的一個(gè)或多個(gè)注釋服務(wù) 器,或者可被傳輸?shù)揭蛱鼐W(wǎng)上的一個(gè)或多個(gè)注釋服務(wù)器。
注釋事件包括被注釋的項(xiàng)目的項(xiàng)目ID和進(jìn)行注釋的用戶(hù)的用戶(hù)ID。 為了使準(zhǔn)確度最高,對(duì)于來(lái)自所有事件源的事件, 一個(gè)唯一的項(xiàng)目應(yīng)當(dāng)對(duì) 應(yīng)于同一個(gè)唯一的項(xiàng)目ID,并且一個(gè)唯一的用戶(hù)應(yīng)當(dāng)對(duì)應(yīng)于同一個(gè)唯一的 用戶(hù)ID。但是,優(yōu)選實(shí)施例留給具體實(shí)現(xiàn)方式來(lái)根據(jù)具體實(shí)現(xiàn)方式的要求 確定實(shí)現(xiàn)此目標(biāo)的最佳方式。這么做是因?yàn)榭梢詮呐c相異的事件生成器的 集成獲得好處,即使用戶(hù)ID和項(xiàng)目ID并不準(zhǔn)確地符合上述要求。在存在 適當(dāng)相異的項(xiàng)目和用戶(hù)群體的許多情況下,聚集值的重要性可超過(guò)準(zhǔn)確 度。例如,Web上的同一個(gè)頁(yè)面可具有多個(gè)URL (實(shí)質(zhì)上是多個(gè)項(xiàng)目 ID)。但在許多情況下找到其中一個(gè)就足夠了。像Google這表搜索引擎 為了用戶(hù)的便利嘗試聚集這種URL,但是Web的基本結(jié)構(gòu)并不要求這種 聚集或唯一性。
在優(yōu)選實(shí)施例中,項(xiàng)目可以是任何能夠被URI給出的唯一項(xiàng)目ID所 標(biāo)識(shí)的事物。這自然可以包括使用URL的web內(nèi)容,就像公眾分類(lèi)法中 常見(jiàn)的那樣。這也可以包括文件系統(tǒng)中的文件和文件夾、郵件服務(wù)器處的 電子郵件消息,以及包括諸如具有條碼的紙質(zhì)文檔之類(lèi)的物理對(duì)象、工程 管理系統(tǒng)中的具有唯一 id的任務(wù)/事項(xiàng)、以文本形式存儲(chǔ)在具有URI的應(yīng) 用中的集體討論會(huì)話(huà)中的想法,等等。本領(lǐng)域中已知有許多方法來(lái)生成這 種唯一項(xiàng)目ID,并且它們可以根據(jù)具體實(shí)現(xiàn)方式的要求被利用。優(yōu)選實(shí)施 例允許了用戶(hù)可選地指定注釋事件中包括的項(xiàng)目的標(biāo)題和描述,其方式類(lèi) 似于電子郵件允許主題和主體的方式。這與項(xiàng)目ID—起被存儲(chǔ),如圖14 所示。優(yōu)選實(shí)施例允許用戶(hù)在為用戶(hù)本地存儲(chǔ)的"記憶"對(duì)話(huà)注釋事件期 間指定標(biāo)題和描述。這可以用來(lái)在如圖10所示的注釋瀏覽器窗口的"My items (我的項(xiàng)目)"中顯示項(xiàng)目,并且允許用戶(hù)對(duì)項(xiàng)目的描述進(jìn)行定制。 如果項(xiàng)目對(duì)于系統(tǒng)來(lái)說(shuō)是新的,則發(fā)表者必須指定項(xiàng)目的標(biāo)題和描述;否
32則如圖9所示的"發(fā)表"對(duì)話(huà)根據(jù)存儲(chǔ)在服務(wù)器處的項(xiàng)目信息預(yù)先填充此 信息。點(diǎn)擊流注釋事件不指定標(biāo)題和描述信息。其他實(shí)施例可以多種不同 的方式來(lái)處理這一點(diǎn),例如利用最近的標(biāo)題和描述信息來(lái)更新服務(wù)器中的 項(xiàng)目信息等等。如果需要, 一些實(shí)施例可以基于用戶(hù)利用鍵來(lái)對(duì)注釋事件 進(jìn)行數(shù)字簽名以允許認(rèn)證和認(rèn)可。
例如,圖5、 6和7示出了以工具條形式集成事件生成器U2的方法。 工具條是充當(dāng)諸如web瀏覽器、文件系統(tǒng)資源管理器(explorer)和電子 郵件應(yīng)用之類(lèi)的現(xiàn)有應(yīng)用的插件的程序。這是本領(lǐng)域中已知的,并且目前 有許多示例,例如來(lái)自MSN、 Yahoo!和Google的插件。工具條具有
"Remember (記憶)"按鈕和"Publish (發(fā)表)"按鈕。"Remember" 按鈕通過(guò)啟動(dòng)如圖8所示的記憶對(duì)話(huà)窗口來(lái)允許用戶(hù)注釋項(xiàng)目,
"Publish"按鈕通過(guò)啟動(dòng)如圖9所示的發(fā)表對(duì)話(huà)窗口來(lái)允許用戶(hù)發(fā)表項(xiàng) 目。圖5示出web瀏覽器中的工具條可允許用戶(hù)通過(guò)"Remember"按鈕 來(lái)對(duì)當(dāng)前顯示的URL進(jìn)行注釋?zhuān)蛘呃?Publish"按鈕將項(xiàng)目發(fā)表到 系統(tǒng)。這種工具條還可允許用戶(hù)對(duì)顯示的頁(yè)面中的任何超鏈接進(jìn)行右鍵點(diǎn) 擊,并選擇啟動(dòng)記憶或發(fā)表對(duì)話(huà)窗口的菜單項(xiàng)。另外,如果用戶(hù)利用工具 條中的搜索來(lái)搜索頁(yè)面并且點(diǎn)擊在結(jié)果中返回的URL之一,則工具條可 監(jiān)視這種用戶(hù)活動(dòng)并利用搜索中針對(duì)項(xiàng)目使用的關(guān)鍵字來(lái)生成事件,如圖 15所示。在確定所生成的事件之前,利用進(jìn)一步的用戶(hù)監(jiān)視,例如評(píng)估用 戶(hù)是否閱讀了點(diǎn)擊的頁(yè)面或者甚至用戶(hù)閱讀該頁(yè)面到什么程度,可以進(jìn)一 步加強(qiáng)這一點(diǎn)。因此,需要向進(jìn)行注釋的用戶(hù)分配用戶(hù)ID。對(duì)于基于因特 網(wǎng)的注釋服務(wù)器,這可以通過(guò)向用戶(hù)動(dòng)態(tài)分配作為cookie存儲(chǔ)的唯一 ID 或者使用戶(hù)在注釋之前登錄到服務(wù)器來(lái)完成?;跒g覽器的事件生成器可 將其所有注釋事件發(fā)送到這種內(nèi)聯(lián)網(wǎng)服務(wù)器,但也可以選擇將在公共web 的頁(yè)面上生成的事件發(fā)送到基于因特網(wǎng)的注釋服務(wù)器。用戶(hù)ID被表示成 URI的形式。
在圖6中,類(lèi)似的一組手法可用在文件系統(tǒng)的情況下。就像瀏覽器情 況一樣,可利用"Remember"或"Publish"按鈕來(lái)注釋任何文件或文件 夾。右鍵點(diǎn)擊項(xiàng)目可給出語(yǔ)境菜單項(xiàng)目,以訪(fǎng)問(wèn)與按鈕相同的功能。在文件系統(tǒng)項(xiàng)目上執(zhí)行的搜索可如上所述在后臺(tái)被注釋。在一些情形下,例如用戶(hù)登錄到因聯(lián)網(wǎng)LAN中時(shí),可以從操作系統(tǒng)有利地獲取UserID信息。 出于諸如安全性和隱私性之類(lèi)的原因,這種事件可以?xún)H被發(fā)送到基于內(nèi)聯(lián) 網(wǎng)的注釋服務(wù)器。圖7示出了同樣的概念被應(yīng)用到電子郵件軟件,例如Microsoft Outlook。如上所述,可以利用關(guān)鍵字來(lái)注釋任何電子郵件。類(lèi)似地,利用 以關(guān)鍵字來(lái)注釋或發(fā)表文件和基于關(guān)鍵字搜索文件的能力可以加強(qiáng)保存文 件和打開(kāi)文件對(duì)話(huà)框。本領(lǐng)域的技術(shù)人員將會(huì)意識(shí)到,在任何給定的應(yīng)用 內(nèi)可以有許多實(shí)現(xiàn)這種功能的方式。例如,工具條或OS可提供允許定制 應(yīng)用為任何項(xiàng)目啟動(dòng)記憶對(duì)話(huà)窗口的API。這種定制應(yīng)用可具有其自己的 事件源標(biāo)識(shí),并且可以根據(jù)其自己的要求來(lái)預(yù)先填充項(xiàng)目ID。因此,出于描述目的,假定所有注釋事件都是通過(guò)比如上述工具條那 樣的事件生成器112 (圖3中)來(lái)創(chuàng)建的。這些事件生成器112可具有由 生成器添加到事件的唯一事件源標(biāo)識(shí)符。例如,工具條注釋電子郵件可添 加事件源ID http:〃www.abc.tld/Email和標(biāo)簽"ABC Company Email"。為 了防止事件源ID中的名稱(chēng)空間沖突,優(yōu)選實(shí)施例使用基于URI的語(yǔ)法。 但是,確保唯一性的責(zé)任被留給了具體實(shí)現(xiàn)方式。用戶(hù)的用戶(hù)ID可由事件生成器112根據(jù)具體實(shí)現(xiàn)方式的要求以多種 方式來(lái)確定。這可以通過(guò)使用戶(hù)利用userid (例如電子郵件id)和口令登 錄到服務(wù)器以允許注釋服務(wù)器生成唯一的用戶(hù)ID來(lái)獲取,或者它可以使 用操作系統(tǒng)的登錄信息、聯(lián)合身份解決方案、單次簽約數(shù)據(jù)或者它可自動(dòng) 生成唯一 ID并將其保存為瀏覽器中的cookie。在一些實(shí)施例中,可以具有其他形式的爬蟲(chóng)形式的注釋事件生成器。 web爬蟲(chóng)170是本領(lǐng)域中公知的,并且被搜索引擎用來(lái)獲得web上的頁(yè)面 以便進(jìn)行索引。這種爬蟲(chóng)可用于查找網(wǎng)頁(yè)之間的超鏈接并生成注釋事件。 鏈接文本可取代關(guān)鍵字被使用并且web主機(jī)或博客信息可取代userid被使 用。這樣生成的事件的質(zhì)量與前述記憶對(duì)話(huà)或點(diǎn)擊流相比可能較低,因?yàn)?鏈接文本通常用來(lái)確定較少的相關(guān)關(guān)鍵字,而要識(shí)別獨(dú)立的判斷源(創(chuàng)建 超鏈接的實(shí)際用戶(hù))是不容易的。Technorati的reK,tag"風(fēng)格標(biāo)簽可用于為頁(yè)面生成注釋事件。但這也是受限制的,因?yàn)橹挥许?yè)面的作者能夠分配 這種標(biāo)簽。在其他實(shí)施例中,還可以創(chuàng)建基于內(nèi)聯(lián)網(wǎng)的爬蟲(chóng)160,其中文件系統(tǒng) 中的所有文件、郵件服務(wù)器中的郵件或其他數(shù)據(jù)類(lèi)型都可被自動(dòng)注釋。例 如,文件系統(tǒng)爬蟲(chóng)可掃描包括個(gè)人和共享驅(qū)動(dòng)器在內(nèi)的整個(gè)文件系統(tǒng)。這 種爬蟲(chóng)是本領(lǐng)域已知的,并且類(lèi)似于桌面搜索軟件中對(duì)文件進(jìn)行索引的程 序。這種程序可被修改,以使用目錄路徑中的目錄和文件標(biāo)簽來(lái)作為文件 的關(guān)鍵字。這可以基于文件的內(nèi)容來(lái)計(jì)算唯一的散列(例如密碼散列)并且查找不同用戶(hù)的個(gè)人文件夾中的相同文件并且利用不同的userid和不同 的關(guān)鍵字集合來(lái)為相同的文件生成不同的事件。但是,與用戶(hù)直接注釋文 件的注釋機(jī)制相比,這種方法有局限。這些局限可包括文件具有像 "Stuff"這樣的易于誤導(dǎo)的名稱(chēng)、電子郵件和其他形式的數(shù)據(jù)具有很少或 沒(méi)有相關(guān)信息,等等。因此,這種爬蟲(chóng)也可使用基于項(xiàng)目的內(nèi)容生成關(guān)鍵 字的自動(dòng)注釋方法。將項(xiàng)目結(jié)合到注釋服務(wù)器中的優(yōu)選方法是使用下文詳 細(xì)描述的發(fā)表和預(yù)訂范例。聚集注釋事件被聚集以提供本發(fā)明的功能。這與信息檢索中對(duì)文檔的索引 有些類(lèi)似。在文檔索引中,單詞的反向索引被創(chuàng)建,其中每個(gè)單詞被映射 到它在其中出現(xiàn)的文檔。在本發(fā)明中,事件被聚集成三個(gè)單獨(dú)的映射 - 將 每個(gè)用戶(hù)ID映射到其事件,將每個(gè)項(xiàng)目ID映射到其事件,以及將每個(gè)語(yǔ) 境映射到其事件。這里的事件指的是由至少一個(gè)關(guān)鍵字構(gòu)成的關(guān)鍵字集 合。本領(lǐng)域中已知許多索引或散列方法,這些方法可被用來(lái)實(shí)現(xiàn)這種映 射,而沒(méi)有必要對(duì)這種過(guò)程進(jìn)行詳細(xì)描述。作為參考,在Google有限公司 的Dean等人的論文"MapReduce: Simplified Data Processing on Large Clusters"中可以找到一種這樣的方法。首先,針對(duì)用戶(hù)映射所有事件。這意味著在同一數(shù)據(jù)結(jié)構(gòu)上可獲得具 有相同用戶(hù)ID的所有事件。這么做是為了事件規(guī)范化和用戶(hù)概況描繪。 取決于具體實(shí)現(xiàn)方式的要求,基于用戶(hù)的映射可在客戶(hù)端系統(tǒng)no中或在服務(wù)器系統(tǒng)120處完成。優(yōu)選實(shí)施例在客戶(hù)端系統(tǒng)IIO處使用基于用戶(hù)的 映射,因?yàn)榫碗[私性、安全性和網(wǎng)絡(luò)邊緣處計(jì)算力的使用來(lái)說(shuō)它可能更合 乎需要。這可以利用駐留在客戶(hù)端系統(tǒng)110上的軟件來(lái)實(shí)現(xiàn),該軟件從所有事件生成器112接收事件(步驟300)并將它們存儲(chǔ)在本地的持續(xù)性存儲(chǔ)設(shè)備(比如111)上。許多公眾分類(lèi)法和其他注釋方法假定用戶(hù)只注釋項(xiàng)目一次。但是,在 如本發(fā)明的通用注釋機(jī)制中,用戶(hù)可以多次注釋同一項(xiàng)目。這可能是由于 在不同語(yǔ)境中注釋/使用項(xiàng)目或在不同事件生成器中使用項(xiàng)目。對(duì)于給定項(xiàng) 目的所有注釋事件在基于用戶(hù)的映射處都被聚集,并且表示每個(gè)事件生成 器的唯一語(yǔ)境的事件集合被計(jì)算并被稱(chēng)為原始事件。然后這個(gè)原始事件的集合被規(guī)范化(圖11中的步驟310或405)。規(guī)范化是指針對(duì)每個(gè)用戶(hù), 對(duì)于某一項(xiàng)目積累所有關(guān)鍵字及其使用計(jì)數(shù),并且除以該用戶(hù)的該項(xiàng)目的 總關(guān)鍵字使用。例如,如果用戶(hù)對(duì)于某一項(xiàng)目使用2個(gè)關(guān)鍵字-比如 Keywordl和Keyword2。用戶(hù)為該項(xiàng)目使用Keywordl的總次數(shù)為3,使用 Keyword2的總次數(shù)為7。那么在規(guī)范化之后,Keywordl的計(jì)數(shù)將會(huì)是 3/(3+7) = 0.3,類(lèi)似地,Keyword2的計(jì)數(shù)將會(huì)是0.7。在規(guī)范化結(jié)束時(shí),針 對(duì)特定的用戶(hù),對(duì)于給定項(xiàng)目產(chǎn)生規(guī)范化的事件。根據(jù)具體實(shí)現(xiàn)方式的要 求,規(guī)范化可以針對(duì)每個(gè)事件源執(zhí)行,或者針對(duì)每個(gè)項(xiàng)目跨所有事件執(zhí) 行??赡苡性S多種規(guī)范化事件的方式,但是優(yōu)選實(shí)施例跨所有事件源進(jìn)行 規(guī)范化,并且確保在針對(duì)每個(gè)項(xiàng)目聚集關(guān)鍵字時(shí)每個(gè)用戶(hù)對(duì)于每個(gè)項(xiàng)目實(shí) 際上獲得一個(gè)關(guān)鍵字"選票"。這種規(guī)范化后的事件及其相應(yīng)的原始事件被發(fā)送(步驟320)到相關(guān) 的注釋服務(wù)器,例如基于內(nèi)聯(lián)網(wǎng)的搜索(比如120)或者基于因特網(wǎng)的搜 索(比如130)。這是以遞增方式完成的,并且僅在有狀態(tài)變化時(shí)才進(jìn) 行。關(guān)于向哪些服務(wù)器發(fā)送規(guī)范化后的事件的選擇是基于項(xiàng)目的。如果項(xiàng) 目是像因特網(wǎng)網(wǎng)頁(yè)這樣的公共資源,則事件可被傳輸?shù)交谝蛱鼐W(wǎng)的和基 于內(nèi)聯(lián)網(wǎng)的注釋服務(wù)器兩者。也可能存在客戶(hù)端系統(tǒng)iio可向其傳輸事件 的多個(gè)因特網(wǎng)或內(nèi)聯(lián)網(wǎng)服務(wù)器。此信息可被保存為客戶(hù)端系統(tǒng)110中的配 置概況然后通過(guò)聚集器模塊122或132在注釋服務(wù)器(例如120或130)處 接收事件。規(guī)范化后的事件首先基于項(xiàng)目被映射(步驟406)。這意味著 對(duì)應(yīng)于特定項(xiàng)目ID的所有事件都被聚集到同一數(shù)據(jù)結(jié)構(gòu)。由于這些是規(guī) 范化后的事件,因此每個(gè)項(xiàng)目將最多具有來(lái)自特定用戶(hù)ID的一個(gè)事件。 關(guān)鍵字計(jì)數(shù)按照來(lái)自所有已注釋項(xiàng)目的用戶(hù)的關(guān)鍵字被聚集??傟P(guān)鍵字計(jì) 數(shù)將等于用戶(hù)的數(shù)目或者實(shí)際上等于注釋了項(xiàng)目的獨(dú)立判斷源的數(shù)目。如 前所述,關(guān)鍵字分布大致近似于冪律分布。在注釋了項(xiàng)目的用戶(hù)中,被多 于某個(gè)比例的用戶(hù)使用的關(guān)鍵字的數(shù)目將會(huì)近似恒定,并且就注釋事件的 數(shù)目而言是規(guī)模不變的。例如,如果被項(xiàng)目的注釋群體中多于5%使用的 關(guān)鍵字的數(shù)目將會(huì)大致恒定,而不論項(xiàng)目是收到了 50個(gè)注釋還是500 個(gè)。取決于具體實(shí)現(xiàn)方式的需求,適當(dāng)百分比(例如5%或10%)的用戶(hù) 使用的關(guān)鍵字,可被認(rèn)為是項(xiàng)目的限定特性或關(guān)鍵字。限定關(guān)鍵字是來(lái)自 注釋聚集的群組描述,并且是對(duì)將項(xiàng)目分配到這些關(guān)鍵字的隱性主題的可 靠指導(dǎo)。項(xiàng)目的限定關(guān)鍵字如上所述基于事件被更新(步驟407)。應(yīng)當(dāng) 注意,限定集合中的關(guān)鍵字確實(shí)表現(xiàn)出攪動(dòng)行為,即不同的單詞可能隨著 時(shí)間而進(jìn)入和離開(kāi)限定集合。聚集器模塊隨后基于語(yǔ)境來(lái)映射原始事件。語(yǔ)境可以是單個(gè)關(guān)鍵字或 兩個(gè)或更多個(gè)關(guān)鍵字的集合。其中具有語(yǔ)境的所有關(guān)鍵字的事件被認(rèn)為是 語(yǔ)境的一部分。因此,將事件映射到語(yǔ)境的步驟408允許了將作為語(yǔ)境的 一部分的所有事件聚集在單個(gè)數(shù)據(jù)結(jié)構(gòu)中。在實(shí)際中,很容易有與項(xiàng)目同 樣多或更多的唯一語(yǔ)境。如前所述,本發(fā)明使用了類(lèi)別語(yǔ)境的概念來(lái)降低 語(yǔ)境空間的復(fù)雜度并允許對(duì)用戶(hù)和項(xiàng)目?jī)烧咄瑫r(shí)進(jìn)行聚類(lèi)。在優(yōu)選實(shí)施例 中,類(lèi)別語(yǔ)境是根據(jù)原始的(未規(guī)范化的)注釋事件計(jì)算的,并且對(duì)應(yīng)于 具有某個(gè)最小數(shù)目的唯一項(xiàng)目和用戶(hù)的語(yǔ)境。 一些實(shí)施例還可將類(lèi)別語(yǔ)境 的定義限制到這樣的語(yǔ)境具有某個(gè)最小數(shù)目的項(xiàng)目,這些項(xiàng)目都被某個(gè) 最小數(shù)目的用戶(hù)所注釋。 一些實(shí)施例可優(yōu)選使用規(guī)范化后的事件來(lái)計(jì)算類(lèi) 別語(yǔ)境。其他實(shí)施例可使用原始事件,但限制發(fā)送到服務(wù)器的原始事件, 使得對(duì)于項(xiàng)目和用戶(hù)的每個(gè)唯一語(yǔ)境只發(fā)送一個(gè)事件。類(lèi)別語(yǔ)境可在事件被接收到時(shí)被生成性地計(jì)算(步驟408)。可以通過(guò)基于唯一關(guān)鍵字聚集事件來(lái)開(kāi)始。隨著在某個(gè)關(guān)鍵字中積累事件,可以 通過(guò)去除原始關(guān)鍵字并獲得唯一關(guān)鍵字的第二集合來(lái)再次對(duì)它們進(jìn)行散 列,所述唯一關(guān)鍵字的第二集合中的每個(gè)關(guān)鍵字代表其自己和原始關(guān)鍵字 的語(yǔ)境。這可以遞歸地繼續(xù)下去,以在每個(gè)語(yǔ)境達(dá)到類(lèi)別語(yǔ)境的預(yù)定標(biāo)準(zhǔn) 時(shí)生成類(lèi)別語(yǔ)境。在優(yōu)選實(shí)施例中,通過(guò)額外的兩個(gè)限制來(lái)防止主題漂移 從而進(jìn)一步加強(qiáng)了此方法。只有對(duì)應(yīng)于項(xiàng)目的限定關(guān)鍵字的關(guān)鍵字被用于 確定事件是否是語(yǔ)境的一部分。并且使具有低于某個(gè)級(jí)別的事件率的類(lèi)別 語(yǔ)境不再是類(lèi)別語(yǔ)境(或者可以使用只保存最近使用的緩存機(jī)制)。上述 限制是相當(dāng)嚴(yán)格的要求,它們?cè)诖笠?guī)模實(shí)現(xiàn)方式中可能有意義。對(duì)于不能 從這種限制得到價(jià)值的實(shí)現(xiàn)方式,至少可以以以下方式來(lái)放松這些限制 -所有接收到的事件都被用于計(jì)算-包含語(yǔ)境的關(guān)鍵字的事件,即使這些關(guān)鍵字不對(duì)應(yīng)于項(xiàng)目的限定 關(guān)鍵字-包含語(yǔ)境的關(guān)鍵字的事件,其中至少一個(gè)這種關(guān)鍵字對(duì)應(yīng)于項(xiàng)目 的限定關(guān)鍵字,-通過(guò)分別基于其聚集關(guān)鍵字而不是使用事件來(lái)確定與語(yǔ)境相對(duì)應(yīng) 的用戶(hù)和項(xiàng)目-通過(guò)基于語(yǔ)境的關(guān)鍵字確定項(xiàng)目并確定注釋了這種項(xiàng)目的用戶(hù) -通過(guò)基于語(yǔ)境的關(guān)鍵字確定用戶(hù)并確定他們注釋的項(xiàng)目 另外,優(yōu)選實(shí)施例創(chuàng)建"合成"類(lèi)別語(yǔ)境??梢哉J(rèn)為語(yǔ)境形成了定向非循環(huán)圖(或 DAG )。 例如,Keywordl AND Keyword2 (Keywordl+Keyword2 )的語(yǔ)境代表這樣的項(xiàng)目這種項(xiàng)目是與 Keywordl相對(duì)應(yīng)的項(xiàng)目以及與Keyword2相對(duì)應(yīng)的項(xiàng)目的子集??梢哉J(rèn)為 Keywordl禾Q Keyword2各自是Keywordl+Keyword2的語(yǔ)境的父親。如果 Keywordl+Keyword2是類(lèi)別語(yǔ)境,則優(yōu)選實(shí)施例會(huì)也"合成"其父語(yǔ)境來(lái) 作為類(lèi)別語(yǔ)境(即使根據(jù)基于預(yù)定標(biāo)準(zhǔn)聚集其事件它們可能沒(méi)有這樣的資 格)。優(yōu)選實(shí)施例基于類(lèi)別語(yǔ)境來(lái)聚集事件。這被生成性地完成,以使得當(dāng) 語(yǔ)境變成類(lèi)別語(yǔ)境時(shí),事件數(shù)據(jù)與其父語(yǔ)境被分開(kāi)管理。這允許了為每個(gè)類(lèi)別語(yǔ)境單獨(dú)計(jì)算用戶(hù)和項(xiàng)目排名,以及將每一個(gè)看作發(fā)表和預(yù)訂的單獨(dú) 目的地。這可以以一種懶惰的方式來(lái)完成,可以只在需要時(shí)為類(lèi)別語(yǔ)境聚 集事件(例如為其接收到搜索查詢(xún)或發(fā)表/預(yù)訂請(qǐng)求時(shí))。
本領(lǐng)域的技術(shù)人員將會(huì)理解,對(duì)于跨注釋聚集的不同元素的插入、更 新和刪除注釋事件的實(shí)現(xiàn)方式將會(huì)取決于每種實(shí)現(xiàn)方式的要求,但是相對(duì) 直觀的是將其實(shí)現(xiàn)為遵守如上所述的基本聚集要求。聚集的注釋數(shù)據(jù)可以
以多種不同的方法來(lái)存儲(chǔ),例如存儲(chǔ)在搜索引擎索引(比如Lucene)中或 者關(guān)系數(shù)據(jù)庫(kù)中。事件可以實(shí)時(shí)被聚集,或者可以以分批模式被聚集,所 述分批模式以預(yù)定的間隔執(zhí)行或者響應(yīng)于來(lái)自用戶(hù)的動(dòng)作(例如搜索查 詢(xún))而執(zhí)行。確切的方法可以基于特定實(shí)現(xiàn)方式的要求來(lái)確定,并且對(duì)其 的選擇并不更改本發(fā)明的基本意圖。某些事件源類(lèi)型在一些情形下可能比 其他的產(chǎn)生更好的排名結(jié)果。例如,取決于實(shí)現(xiàn)方式,來(lái)自"記憶"對(duì)話(huà) 的事件與其他的相比可產(chǎn)生對(duì)用戶(hù)興趣的更好指示。因此,如果需要,一 個(gè)實(shí)施例可以具有允許分開(kāi)排名和其他計(jì)算的聚集數(shù)據(jù)結(jié)構(gòu)。最終的排名 可以基于對(duì)來(lái)自不同事件源類(lèi)型的排名的聚集來(lái)計(jì)算。
搜索
用戶(hù)可通過(guò)將關(guān)鍵字發(fā)送(步驟500)到客戶(hù)端系統(tǒng)110中的搜索模 塊114來(lái)發(fā)起搜索。這可以以多種方式來(lái)完成。例如,圖5、 6和7的工具 條中的搜索字段。用戶(hù)可以啟動(dòng)如圖10所示的專(zhuān)用注釋瀏覽器窗口,并 且鍵入到搜索字段中??赡苡性S多實(shí)現(xiàn)這一點(diǎn)的方式,只要它們將查詢(xún)串 傳輸?shù)剿阉髂K114。搜索通常是關(guān)鍵字形式的,并且遵循與web上的搜 索引擎中常見(jiàn)的搜索相同的格式。查詢(xún)實(shí)際上代表語(yǔ)境,如上所述。
服務(wù)器處的搜索響應(yīng)模塊123或133負(fù)責(zé)確定匹配的項(xiàng)目或用戶(hù)(命 中)并且確定這種命中的相關(guān)性(排名)。本發(fā)明中的一個(gè)核心創(chuàng)新在于 認(rèn)識(shí)到了在基于注釋對(duì)命中進(jìn)行排名時(shí)使用信息檢索技術(shù)的能力。這包括 傳統(tǒng)的TF-IDF風(fēng)格方法(如Amit Singhal的"Modern Information Retrieval: A brief overview"中所述)以及LAR風(fēng)格方法(如Borodin等人 的"Link Analysis Ranking Algorithms, Theory, and Experiments ,,中所述)。如果查詢(xún)語(yǔ)境對(duì)應(yīng)于類(lèi)別語(yǔ)境,則LAR風(fēng)格方法是排名的優(yōu)選形 式。如前所述,可以通過(guò)將每個(gè)注釋用作用戶(hù)和項(xiàng)目之間的合成鏈接來(lái)結(jié)
合LAR風(fēng)格方法。 一般地,用戶(hù)和項(xiàng)目都可被認(rèn)為是具有從用戶(hù)到項(xiàng)目
的定向鏈接的圖中的節(jié)點(diǎn)。更具體而言,這允許了在鏈接分析算法中用戶(hù) 被看作軸心并且項(xiàng)目被看作權(quán)威。
優(yōu)選實(shí)施例由于隱私考慮而不允許查詢(xún)用戶(hù)基于關(guān)鍵字搜索用戶(hù),并 且創(chuàng)建了一種發(fā)表/預(yù)訂方法來(lái)替代它。實(shí)質(zhì)上,它不允許返回用戶(hù)信息作 為搜索結(jié)果,而允許某人向相關(guān)的人(由服務(wù)器處完成的基于用戶(hù)的搜索 確定)發(fā)送消息,而人們不需要泄漏其隱私信息,并且它向這種人提供了 是否回復(fù)發(fā)送者的選項(xiàng)。這限于類(lèi)別語(yǔ)境。
在優(yōu)選實(shí)施例中,基于HITS算法對(duì)類(lèi)別語(yǔ)境進(jìn)行排名(504)??梢?使用任何LAR算法,例如所描述的那些。這個(gè)領(lǐng)域已經(jīng)被廣泛地研究, 并且存在針對(duì)各種缺陷的許多變體。優(yōu)選實(shí)施例使用類(lèi)別語(yǔ)境的事件部分 來(lái)作為初始集合。如前所述,這些事件的選擇使得語(yǔ)境的所有關(guān)鍵字都存 在并且它們對(duì)應(yīng)于項(xiàng)目的限定關(guān)鍵字。這么做是為了解決通常與HITS算 法相關(guān)聯(lián)的主題漂移問(wèn)題。這些事件被用于生成用戶(hù)和項(xiàng)目之間的合成鏈 接并且HITS算法被應(yīng)用到它。這以軸心排名的形式為用戶(hù)給出的排名, 并且以權(quán)威排名的形式為項(xiàng)目給出了排名??稍谏蓵r(shí)為類(lèi)別語(yǔ)境計(jì)算這 些排名(步驟408),并且在事件被聚集時(shí)保持更新這些排名(步驟 409)?;趯?duì)類(lèi)別語(yǔ)境的查詢(xún)的對(duì)用戶(hù)和項(xiàng)目的排名可利用這些排名來(lái) 有利地完成。用戶(hù)排名可以利用與項(xiàng)目排名不同的算法來(lái)完成。例如,項(xiàng) 目可以利用HITS算法來(lái)排名,而用戶(hù)可以利用Borodin等人描述的BFS 算法來(lái)排名。
對(duì)于不同類(lèi)別語(yǔ)境的語(yǔ)境,優(yōu)選實(shí)施例基于在事件的基于項(xiàng)目的映射 中的規(guī)范化后的事件來(lái)利用簡(jiǎn)單的基于TF-IDF的排名(步驟502)。允許
用戶(hù)搜索的其他實(shí)施例可以基于每個(gè)用戶(hù)的聚集關(guān)鍵字來(lái)生成命中。如果 在聚集關(guān)鍵字中存在語(yǔ)境關(guān)鍵字,則用戶(hù)可被返回作為命中(步驟 505)。這種機(jī)制可使用TF-IDF風(fēng)格的機(jī)制來(lái)進(jìn)行排名(步驟506)或者 任何其他可從IR應(yīng)用的方法。為了促進(jìn)迅速的査詢(xún)響應(yīng),用戶(hù)和項(xiàng)目的這種命中和排名信息可在傳
統(tǒng)的搜索引擎(例如Lucene)中以反向索引存儲(chǔ),或者可存儲(chǔ)在關(guān)系數(shù)據(jù) 庫(kù)(例如Oracle)內(nèi)。
在其他實(shí)施例中,也可以以與項(xiàng)目類(lèi)似的方式在類(lèi)別語(yǔ)境中對(duì)發(fā)表者 ID排名。每個(gè)項(xiàng)目可能具有多個(gè)發(fā)表者ID。這些ID中的每一個(gè)可以按與 項(xiàng)目類(lèi)似的方式利用合成鏈接與用戶(hù)相關(guān)聯(lián)。給定的發(fā)表者ID的關(guān)聯(lián)用 戶(hù)是跨所有項(xiàng)目聚集的。用戶(hù)被模擬為軸心,發(fā)表者ID被模擬為權(quán)威。 用于對(duì)項(xiàng)目排名的相同方法可用來(lái)對(duì)發(fā)表者ID排名。這些排名指示出在 語(yǔ)境內(nèi)的用戶(hù)間發(fā)表者具有的權(quán)威級(jí)別。在不是類(lèi)別語(yǔ)境的語(yǔ)境中也可進(jìn) 行排名,但是數(shù)據(jù)的稀少可能使得TF-IDF風(fēng)格方法、張量分解方法(例 如CubeSVD、 LSI或PLSA和PHITS)等成為更優(yōu)良的替代。項(xiàng)目的排名 也可部分基于其發(fā)表者ID的排名,并且在為查詢(xún)計(jì)算項(xiàng)目的最終排名時(shí) 可聚集這種排名。
就排名而言,用戶(hù)和項(xiàng)目之間有基本差別。項(xiàng)目通常表現(xiàn)出冪律行 為,這種行為允許了確定項(xiàng)目的限定特性。這使得TF-IDF風(fēng)格方法能有 效地辨別相關(guān)性,因?yàn)樗梢岳镁奂?guī)范化后的事件中的關(guān)鍵字計(jì)數(shù)。 另一方面,用戶(hù)往往具有比項(xiàng)目多得多的方面,并且這些方面隨時(shí)間變 化。LAR風(fēng)格方法或張量分解方法(例如CubeSVD)在給定的實(shí)現(xiàn)方式 中可以成為比TF-IDF更優(yōu)良的替代。本領(lǐng)域的技術(shù)人員將會(huì)注意到,在 IR技術(shù)的應(yīng)用中可能有許多變化。不同的實(shí)施例可根據(jù)其要求選擇實(shí)現(xiàn)不 同的IR技術(shù)來(lái)進(jìn)行排名。這不會(huì)脫離此機(jī)制的基本意圖。
搜索的結(jié)果還返回進(jìn)一步的向下鉆取類(lèi)別(步驟502、 504和506)。 這些實(shí)際上是對(duì)相關(guān)關(guān)鍵字的建議,用于進(jìn)一步加強(qiáng)查詢(xún)。優(yōu)選實(shí)施例根 據(jù)類(lèi)別語(yǔ)境計(jì)算向下鉆取類(lèi)別。具體而言,這意味著對(duì)于所有作為查詢(xún)語(yǔ) 境的孩子的類(lèi)別語(yǔ)境,去除查詢(xún)語(yǔ)境的關(guān)鍵字,生成下一級(jí)別的唯一關(guān)鍵 字,按它們的累積事件計(jì)數(shù)對(duì)它們進(jìn)行排序并返回頂部(例如20個(gè))關(guān) 鍵字。某些實(shí)施例可從與語(yǔ)境相對(duì)應(yīng)的項(xiàng)目的關(guān)鍵字來(lái)計(jì)算這些。其他實(shí) 施例可使用搜索的點(diǎn)擊流來(lái)作為計(jì)算的基礎(chǔ)。 一些實(shí)施例可優(yōu)選使用"最 近"的事件計(jì)數(shù),這些"最近"的事件計(jì)數(shù)對(duì)應(yīng)于給定時(shí)間間隔中這些計(jì)數(shù)的累積數(shù)字。如前所述, 一些實(shí)施例也可以基于用戶(hù)對(duì)類(lèi)別語(yǔ)境的時(shí)間 使用頻率來(lái)使用基于時(shí)間的TF-IDF方法,以獲得更好的一組個(gè)性化的向 下鉆取類(lèi)別。
許多其他排名方法可與上述方法結(jié)合使用。例如,對(duì)于文本內(nèi)容,全 文索引用來(lái)加強(qiáng)基于注釋的排名。對(duì)于網(wǎng)頁(yè),超鏈接連通性可被傳統(tǒng)的
LAR方法所利用。所有這些對(duì)項(xiàng)目或用戶(hù)的不同排名源都可以利用本領(lǐng)域 已知的多種排名聚集算法被有利地聚集,所述算法可以基于具體實(shí)現(xiàn)方式 的要求來(lái)選擇。
結(jié)果和類(lèi)別隨后被從搜索響應(yīng)模塊133返回到客戶(hù)端系統(tǒng)110,并且 被利用顯示模塊113顯示給用戶(hù)。這些結(jié)果可被顯示在專(zhuān)用窗口中,例如 圖10的注釋瀏覽器。在搜索結(jié)果中可以加強(qiáng)其他數(shù)據(jù),例如被查詢(xún)的語(yǔ) 境中的用戶(hù)和項(xiàng)目的總數(shù)。 一些實(shí)施例可以提供也可用于查詢(xún)指定的對(duì)應(yīng) 于命中的事件源或事件源類(lèi)型的列表(實(shí)質(zhì)上把它們看作類(lèi)別語(yǔ)境)。
個(gè)性化、預(yù)訂和發(fā)表
基于所有事件來(lái)搜索和返回搜索結(jié)果的一個(gè)不合需要的結(jié)果是冪律表 現(xiàn)出"富者更富"現(xiàn)象,其中語(yǔ)境的排名較高的命中開(kāi)始被少數(shù)項(xiàng)目等等 所充滿(mǎn),并且新來(lái)者越來(lái)越難以可見(jiàn)。這對(duì)于整個(gè)系統(tǒng)的有用性是有害 的,并且實(shí)質(zhì)上使得交互生態(tài)系統(tǒng)聚合到僅僅少數(shù)參與者。通過(guò)使用基于 時(shí)間的方法可對(duì)此略有改善。例如,可以針對(duì)與上述整個(gè)聚集相分開(kāi)的時(shí) 間窗口 (例如過(guò)去一小時(shí)或今天或本周,等等)來(lái)聚集事件。這允許了最 近的事件的獲得更好的暴露。
圖10示出了在"Latest (最近)"附簽中顯示這種基于時(shí)間的結(jié)果的 注釋瀏覽器。從顯示的角度來(lái)看,需要使客戶(hù)端系統(tǒng)110能夠處理結(jié)果的 這種基于時(shí)間的變化。諸如電子郵件之類(lèi)的許多當(dāng)前的基于時(shí)間的系統(tǒng)按 接收時(shí)間來(lái)對(duì)消息進(jìn)行排序。如果像在此系統(tǒng)中一樣存在大量這樣的消 息,則這就可能是不可行的。因此,"Latest"附簽需要基于相關(guān)性來(lái)顯 示項(xiàng)目。這要求基本用戶(hù)界面手法的變化,因?yàn)橛脩?hù)將不再能夠保持跳躍 他們己經(jīng)看到的并高效地找到它們尚未看過(guò)的(例如像電子郵件中那樣順序地向下查看列表)。這可以通過(guò)實(shí)現(xiàn)以下手法來(lái)完成用戶(hù)已經(jīng)看見(jiàn)過(guò)
的項(xiàng)目可被保存在一個(gè)被稱(chēng)為"My items"的單獨(dú)列表中。通過(guò)在 "Latest"附簽中時(shí)選擇組合框中的"My Items"菜單項(xiàng)可以訪(fǎng)問(wèn)該列表。 這將顯示出在"Latest"給出的時(shí)間窗口中用戶(hù)已經(jīng)看見(jiàn)、注釋、發(fā)表等 等的所有項(xiàng)目。"My Items"在選擇"All (全部)"附簽時(shí)也將具有類(lèi)似 的含義,但將包括所有項(xiàng)目而不考慮時(shí)間窗口。
這種功能需要區(qū)分真正的新項(xiàng)目和現(xiàn)有項(xiàng)目上的新事件。流行的項(xiàng)目 將在新用戶(hù)找到它們時(shí)不斷被注釋。聚集器模塊132可通過(guò)評(píng)估項(xiàng)目對(duì)于 系統(tǒng)來(lái)說(shuō)是否是新的或者項(xiàng)目對(duì)于語(yǔ)境來(lái)說(shuō)是否是新的(在這種情況下它 被添加,否則它不被添加)來(lái)檢測(cè)事件是否應(yīng)當(dāng)被置于這種基于時(shí)間的存 儲(chǔ)中(步驟402)?;蛘撸?一些實(shí)施例可將項(xiàng)目上的事件示意為新的,如 果在給定的時(shí)間窗口中它沒(méi)有接收到事件,或者項(xiàng)目的事件率已降低到了 預(yù)定事件率之下。
這將允許默認(rèn)的"Latest"附簽窗口總是專(zhuān)注于呈現(xiàn)最近的、最相關(guān) 的項(xiàng)目。可以隨時(shí)、不斷地按相關(guān)性對(duì)其進(jìn)行排序??赏ㄟ^(guò)其他范例來(lái)加 強(qiáng)這種顯示手法,所述其他范例例如是桌面上的新項(xiàng)目的自動(dòng)收?qǐng)?bào)機(jī)紙條 (ticker-tape)或者在接收到具有高相關(guān)性的項(xiàng)目時(shí)系統(tǒng)托盤(pán)上的警告消 息,等等。
利用發(fā)表和預(yù)訂機(jī)制有利地加強(qiáng)了這種基于時(shí)間的方法,所述機(jī)制允 許了以增強(qiáng)新的、相關(guān)的內(nèi)容的可發(fā)現(xiàn)性為目的的有針對(duì)性的內(nèi)容遞送。 這是通過(guò)利用以下機(jī)制來(lái)實(shí)現(xiàn)的
-使用類(lèi)別語(yǔ)境以允許發(fā)表者和預(yù)訂者聚集起來(lái)
-通過(guò)允許發(fā)表者為項(xiàng)目選擇最相關(guān)的語(yǔ)境
-通過(guò)使發(fā)表成為負(fù)有責(zé)任的明確動(dòng)作
-通過(guò)具有允許團(tuán)體以分布方式迅速進(jìn)行處理的語(yǔ)境化階段
-通過(guò)具有允許發(fā)表者的分布形式的聲譽(yù)的個(gè)性化預(yù)訂過(guò)程 項(xiàng)目可通過(guò)發(fā)表被引入系統(tǒng)中。在發(fā)表時(shí),發(fā)表者將項(xiàng)目分配到類(lèi)別 語(yǔ)境,如圖9所示,然后將它發(fā)表到系統(tǒng)?;旧?,發(fā)表是注釋的一種形 式。在優(yōu)選實(shí)施例中,使發(fā)表成為與注釋分開(kāi)的明確動(dòng)作。這可以通過(guò)按下圖5、 6、 7中的"Publish"按鈕來(lái)完成。發(fā)表者需要利用userid和口令 向系統(tǒng)認(rèn)證(步驟600)。在被核實(shí)時(shí),系統(tǒng)向發(fā)表者分配唯一的發(fā)表者 ID,該發(fā)表者ID被用于發(fā)表者發(fā)表的所有項(xiàng)目。取決于實(shí)現(xiàn)方式的要 求,這可以與發(fā)表者的用戶(hù)ID相同也可以與它不同。發(fā)表者隨后將項(xiàng)目 分配到他們認(rèn)為與該項(xiàng)目最相關(guān)的唯一類(lèi)別語(yǔ)境(步驟601)。這是通過(guò) 發(fā)表者的判斷來(lái)確定的,但可以受助于以下事實(shí)發(fā)表者可以看到期望的 類(lèi)別語(yǔ)境的項(xiàng)目以及用戶(hù)和項(xiàng)目總數(shù)。如果期望的類(lèi)別語(yǔ)境的用戶(hù)數(shù)目相 對(duì)于項(xiàng)目數(shù)目要多得多,則可表明這是一個(gè)其中對(duì)項(xiàng)目的興趣相當(dāng)大的語(yǔ) 境,并且如果項(xiàng)目是相關(guān)的,則它將有更大的機(jī)會(huì)獲得接受。如果語(yǔ)境具 有的項(xiàng)目的數(shù)目與用戶(hù)相比相對(duì)較大,則有可能項(xiàng)目需要與其他項(xiàng)目競(jìng)爭(zhēng) 以獲得該語(yǔ)境中的用戶(hù)的注意,那么發(fā)表者可以根據(jù)其對(duì)項(xiàng)目與其他項(xiàng)目 相比的相對(duì)實(shí)用性來(lái)決定是使用它還是另一語(yǔ)境。
一旦發(fā)表者發(fā)表了項(xiàng)目(例如通過(guò)按下圖9中的發(fā)表按鈕),則項(xiàng)目 就以發(fā)表事件的形式被發(fā)送到服務(wù)器系統(tǒng)(120或130)。這種發(fā)表事件 的樣本在圖16中以XML格式示出。發(fā)表事件類(lèi)似于注釋事件,只不過(guò)它 必然包括事件的發(fā)表者的唯一發(fā)表者ID?,F(xiàn)有的項(xiàng)目可被任何發(fā)表者發(fā) 表,而不只是首先將項(xiàng)目引入系統(tǒng)中的原始發(fā)表者。這僅僅等同于將新的 發(fā)表者ID添加到項(xiàng)目。就規(guī)范化以及項(xiàng)目和語(yǔ)境映射而言,每個(gè)這種發(fā) 表事件被處理的方式類(lèi)似于其他注釋事件(步驟602)。發(fā)表者ID不被用 在關(guān)鍵字的規(guī)范化計(jì)算中,因?yàn)檫@會(huì)偏移關(guān)鍵字的描述。但是,發(fā)表者ID 是項(xiàng)目的元數(shù)據(jù),并且可以跨所有這種注釋在項(xiàng)目級(jí)被聚集。這些ID在 確定項(xiàng)目的限定關(guān)鍵字時(shí)未被包括,但可被包括在來(lái)自搜索的結(jié)果中(步 驟502、 504和506),以允許用戶(hù)基于他們與發(fā)表者的熟悉度來(lái)對(duì)項(xiàng)目重 新排名。發(fā)表者ID允許了發(fā)表者與其預(yù)訂者的分布形式的聲譽(yù)(或者責(zé) 任)。
如果項(xiàng)目對(duì)于語(yǔ)境來(lái)說(shuō)是新的或者對(duì)于服務(wù)器系統(tǒng)(120或130)來(lái) 說(shuō)是新的,則優(yōu)選實(shí)施例嘗試對(duì)項(xiàng)目進(jìn)行語(yǔ)境化(步驟603)。這是這樣 一個(gè)過(guò)程,在該過(guò)程中項(xiàng)目被推送到用戶(hù)的集合,該集合可能是類(lèi)別語(yǔ)境 中的用戶(hù)的子集。這種用戶(hù)可由服務(wù)器系統(tǒng)利用排名方法確定語(yǔ)境的頂部用戶(hù)來(lái)確定,或者可以包括語(yǔ)境的有影響力的發(fā)表者,或者可以是語(yǔ)境的 用戶(hù)的隨機(jī)子集,或者是取決于具體實(shí)現(xiàn)方式的要求的其他方式,包括將 項(xiàng)目發(fā)送到語(yǔ)境中的所有用戶(hù)。這種針對(duì)特定用戶(hù)的推送機(jī)制可由服務(wù)器 通過(guò)預(yù)訂過(guò)程來(lái)實(shí)現(xiàn)。實(shí)質(zhì)上,預(yù)訂者不時(shí)地從服務(wù)器拉出項(xiàng)目。服務(wù)器 使用預(yù)訂者的用戶(hù)ID來(lái)確定是否將用于語(yǔ)境化的項(xiàng)目添加到針對(duì)用戶(hù)的 結(jié)果。在項(xiàng)目被語(yǔ)境化之前,用戶(hù)不能作為普通預(yù)訂過(guò)程的一部分進(jìn)行下 載。語(yǔ)境化的主要目的是允許較小的但有代表性的用戶(hù)群組以迅速的方式
利用"Remember"按鈕注釋或利用"Publish"按鈕發(fā)表他們認(rèn)為相關(guān)的項(xiàng) 目,以便它能夠更快地被語(yǔ)境的團(tuán)體所接納(對(duì)于搜索和預(yù)訂有更高排 名),以及允許項(xiàng)目確定其限定關(guān)鍵字以及可被他人用來(lái)搜索項(xiàng)目的其他 這種關(guān)鍵字。如果有影響力的發(fā)表者被包括在語(yǔ)境的用戶(hù)的子集中則可加 速此過(guò)程。本領(lǐng)域的技術(shù)人員將會(huì)注意到,語(yǔ)境化過(guò)程只是要加速接受并 且在具有高流量的語(yǔ)境中有用,但不是必要條件。如果語(yǔ)境具有較低的流 量級(jí)別或者在此過(guò)程的開(kāi)銷(xiāo)不能提供相當(dāng)?shù)膬r(jià)值的其他情形下可以省略該 步驟。
搜索的一個(gè)問(wèn)題是用戶(hù)需要指定他們感興趣的語(yǔ)境以檢索結(jié)果。這不 是一種使用戶(hù)能在相關(guān)項(xiàng)目變得可用時(shí)發(fā)現(xiàn)它們的高效方式。優(yōu)選實(shí)施例 使用預(yù)訂過(guò)程114來(lái)以自動(dòng)方式檢索被顯示(113)到圖10中的"Latest" 附簽并基于相關(guān)性降序呈現(xiàn)的相關(guān)項(xiàng)目,以及作為向下鉆取類(lèi)別的類(lèi)別語(yǔ) 境(如前所述)。這種語(yǔ)境可包括全局有用的語(yǔ)境,例如"Most Read (最 多閱讀)"、"Most Recent (最近)"等等,以及基于用戶(hù)的興趣概況的 那些。預(yù)訂過(guò)程基于類(lèi)別語(yǔ)境創(chuàng)建用戶(hù)概況。這可以明確地完成,也可以 隱性地完成。用戶(hù)可以以持續(xù)查詢(xún)的形式明確地指定他們感興趣的類(lèi)別語(yǔ) 境,以侃得來(lái)自它們的項(xiàng)目在后臺(tái)被不斷下載。這也是通過(guò)觀察用戶(hù)對(duì)每 個(gè)類(lèi)別語(yǔ)境的相對(duì)注釋事件頻率(通過(guò)點(diǎn)擊等)并以該比例檢索項(xiàng)目來(lái)隱 性地完成的。優(yōu)選實(shí)施例使用來(lái)自所有事件源類(lèi)型的注釋事件來(lái)計(jì)算這些 比率。在其他實(shí)施例中,來(lái)自不同事件源類(lèi)型的注釋事件可根據(jù)實(shí)現(xiàn)方式 的要求被不同地加權(quán)。例如,可以認(rèn)為來(lái)自"記憶"對(duì)話(huà)的注釋事件比來(lái) 自點(diǎn)擊流的注釋事件更表明了用戶(hù)的興趣,因此為其賦予更高的權(quán)重。
45為了保護(hù)用戶(hù)的隱私,優(yōu)選實(shí)施例將此概況存儲(chǔ)在客戶(hù)端系統(tǒng)110 中,以使得用戶(hù)保有對(duì)其概況的完全控制并且可根據(jù)其意愿査看或編輯 它。客戶(hù)端系統(tǒng)110可以匿名地基于類(lèi)別語(yǔ)境來(lái)檢索項(xiàng)目,但是為了使語(yǔ)境化過(guò)程能工作,預(yù)訂過(guò)程114要求用戶(hù)基于登錄過(guò)程利用userid/口令來(lái) 向系統(tǒng)認(rèn)證(步驟610),以便用戶(hù)的概況被檢索。 一些實(shí)施例可將這種形式的推送過(guò)程用于除語(yǔ)境化外的其他目的,例如針對(duì)性廣告的遞送。與在"All"附簽中的項(xiàng)目的整個(gè)集合上的普通搜索不同的是,對(duì) "Latest"附簽中的向下鉆取類(lèi)別的處理被對(duì)照以下兩者進(jìn)行了調(diào)節(jié)用 于事件的時(shí)間窗口 ,以及基于用戶(hù)對(duì)類(lèi)別語(yǔ)境的時(shí)間使用頻率的基于時(shí)間 的TF-IDF。實(shí)質(zhì)上,這種向下鉆取類(lèi)別的排名反映了時(shí)間窗口的累積事件 計(jì)數(shù)以及用戶(hù)的使用和使用的新近度。這允許了用戶(hù)很容易地發(fā)現(xiàn)最近的 "熱門(mén)"相關(guān)主題。為了提高呈現(xiàn)給用戶(hù)的項(xiàng)目的相關(guān)性,預(yù)訂過(guò)程114在顯示(113) 給用戶(hù)之前對(duì)項(xiàng)目進(jìn)行個(gè)性化。在本領(lǐng)域中已知許多種個(gè)性化方法,但仍 不是很清楚這種方法的有效性。優(yōu)選實(shí)施例采取以下方法在服務(wù)器系統(tǒng) (120或130)處對(duì)語(yǔ)境檢索排名較高的項(xiàng)目然后在客戶(hù)端系統(tǒng)110處基 于用戶(hù)概況對(duì)項(xiàng)目進(jìn)行重排名。此方法具有多個(gè)被有利地利用的特性,例 如增強(qiáng)了隱私性和安全性、利用了合作式和基于內(nèi)容的排名(分別基于服 務(wù)器和客戶(hù)端的排名)以及使用了網(wǎng)絡(luò)邊緣上的計(jì)算力。項(xiàng)目基于用戶(hù)的 概況被下載(步驟611)到客戶(hù)端。這可以通過(guò)以下方式來(lái)完成對(duì)用戶(hù) 在給定時(shí)間段(例如一天)中通常閱讀/使用項(xiàng)目的數(shù)目,然后取該數(shù)目的 適當(dāng)倍數(shù)并將其分布在用戶(hù)概況的語(yǔ)境上。例如,用戶(hù)每天閱讀150個(gè)項(xiàng) 目,并且所有這種閱讀中有10%是在語(yǔ)境"Ajax"中的。預(yù)訂系統(tǒng)可在這 一天期間下載以下兩者中較少的那個(gè)15000個(gè)項(xiàng)目以使10%的項(xiàng)目對(duì)應(yīng) 于關(guān)鍵字"Ajax",或者盡可能多的項(xiàng)目。這些比率可在用戶(hù)與系統(tǒng)交互 時(shí)被實(shí)時(shí)更新,或者可在預(yù)定間隔之后(例如每天一次)以分批方式更 新。倍數(shù)允許了基于服務(wù)器處的排名(它是團(tuán)體對(duì)項(xiàng)目的相關(guān)性的意見(jiàn)的 代理)和客戶(hù)端處的排名(它是基于用戶(hù)的興趣來(lái)確定的)的順序之間的 混合。適當(dāng)?shù)谋稊?shù)可針對(duì)每個(gè)用戶(hù)或每個(gè)語(yǔ)境被計(jì)算,或者甚至可由用戶(hù)通過(guò)可視手法(例如滑動(dòng)條控件)以交互方式設(shè)置。
為每個(gè)這種語(yǔ)境從服務(wù)器下載的項(xiàng)目基于用戶(hù)的概況被重排名(步驟 612)。這是通過(guò)將該語(yǔ)境的用戶(hù)概況的關(guān)鍵字向量與每個(gè)項(xiàng)目的關(guān)鍵字 向量相比較來(lái)實(shí)現(xiàn)的。優(yōu)選實(shí)施例以嚴(yán)格方式確定來(lái)自用戶(hù)概況的語(yǔ)境的 關(guān)鍵字向量和每個(gè)項(xiàng)目的關(guān)鍵字向量。只有下述關(guān)鍵字被用于計(jì)算關(guān)鍵字 向量(這種事件包括概況中的所有事件并且不基于要被重排名的項(xiàng)目) 這些關(guān)鍵字是作為用戶(hù)的語(yǔ)境的一部分的注釋事件中的項(xiàng)目的限定關(guān)鍵字
的一部分。在計(jì)算中排除了與"My Items"附簽的點(diǎn)擊流相對(duì)應(yīng)的注釋事 件。此向量的權(quán)重是以如前所述的基于時(shí)間的TF-IDF方式來(lái)計(jì)算的,其 中在該語(yǔ)境中用戶(hù)對(duì)關(guān)鍵字的時(shí)間使用頻率被用作向量中的關(guān)鍵字的權(quán) 重。通過(guò)將語(yǔ)境的用戶(hù)概況的關(guān)鍵字向量與每個(gè)項(xiàng)目的關(guān)鍵字向量相比較 來(lái)完成重排名。項(xiàng)目的關(guān)鍵字頻率是從項(xiàng)目的經(jīng)聚集的規(guī)范化后的事件來(lái) 確定的。然后,像傳統(tǒng)的TF-IDF方法那樣,這被乘以逆文檔頻率,并且 帶有基于對(duì)數(shù)的衰減1og(N/d),其N(xiāo)對(duì)應(yīng)于項(xiàng)目的總數(shù),d對(duì)應(yīng)于其中有 該關(guān)鍵字的項(xiàng)目的數(shù)目。基于項(xiàng)目的關(guān)鍵字向量與該語(yǔ)境中的用戶(hù)的關(guān)鍵 字向量的點(diǎn)積來(lái)為每個(gè)項(xiàng)目計(jì)算排名。
以類(lèi)似于關(guān)鍵字的方式,利用發(fā)表者ID來(lái)加強(qiáng)以上計(jì)算。每個(gè)這種 發(fā)表者ID可被包括在關(guān)鍵字向量中,并且可影響點(diǎn)積產(chǎn)生的最終排名。 由于發(fā)表者ID與關(guān)鍵字相比出現(xiàn)得相對(duì)不那么頻繁,因此它們將對(duì)最終 加權(quán)有重大的影響。重要的是要注意,發(fā)表者ID的加權(quán)效果限于用戶(hù)認(rèn) 為發(fā)表者有用的語(yǔ)境,在一個(gè)語(yǔ)境中排名很高的發(fā)表者并不影響另一個(gè)中 的項(xiàng)目排名。重排名等同于基于這些計(jì)算出的排名的降低值來(lái)對(duì)項(xiàng)目進(jìn)行 排序。本領(lǐng)域的技術(shù)人員將會(huì)注意到,所有上述條件都是嚴(yán)格限制,并且
可以根據(jù)實(shí)現(xiàn)方式的要求而以許多不同方式被放松。具體實(shí)現(xiàn)方式可放松 針對(duì)作為項(xiàng)目的限定關(guān)鍵字的一部分事件的關(guān)鍵字的條件。具體實(shí)現(xiàn)方式 可使用項(xiàng)目的所有限定關(guān)鍵字,而不論用戶(hù)是否將它們用于他們的注釋 中。具體實(shí)現(xiàn)方式可適當(dāng)?shù)馗鶕?jù)其需要衰減發(fā)表者ID對(duì)排名的影響,或 者根本不將發(fā)表者ID用在排名中。存在許多種可以使用的類(lèi)似TF-IDF的 排名的變體。項(xiàng)目的產(chǎn)生和消耗率可用作計(jì)算的基礎(chǔ)。然后如前所述這些被顯示(613)在圖10中的"Latest"附簽上。對(duì)于 注釋瀏覽器,"Latest"附簽中的搜索只基于時(shí)間窗口搜索項(xiàng)目,而不是 搜索系統(tǒng)中的所有項(xiàng)目。這不同于覆蓋了系統(tǒng)已知的所有項(xiàng)目的"All"附 簽中的搜索。
預(yù)訂顯示也被用于識(shí)別發(fā)表者ID并將它們傳輸回服務(wù)器。優(yōu)選實(shí)施 例將對(duì)每個(gè)項(xiàng)目允許的發(fā)表者ID的數(shù)目限制到預(yù)定的數(shù)目,比如10,并 且按發(fā)表順序?qū)D與項(xiàng)目一起存儲(chǔ),直到該預(yù)定數(shù)目為止。預(yù)訂在檢索 項(xiàng)目時(shí)為每個(gè)項(xiàng)目下載所有已知的發(fā)表者ID。預(yù)訂過(guò)程存儲(chǔ)所有這種發(fā)表 者ID (實(shí)質(zhì)上在用戶(hù)概況中更新每個(gè)這種發(fā)表者ID的使用)并且將其用 在基于發(fā)表者ID的重排名的計(jì)算中。這些不僅像上面所述那樣被用于重 排名,而且項(xiàng)目的原始發(fā)表者ID和具有最大匹配的發(fā)表者ID還被添加到 來(lái)自用戶(hù)的對(duì)該項(xiàng)目的注釋事件。然后這通過(guò)前述注釋聚集方法被傳輸回 (步驟614)服務(wù)器。這也更新了語(yǔ)境的用戶(hù)概況(步驟615)。這閉合 了就發(fā)表者ID而言的反饋環(huán),并且允許它們?cè)诜?wù)器側(cè)被排名以用于將 來(lái)的語(yǔ)境化和其他目的。最佳匹配發(fā)表者ID給出用戶(hù)熟悉的發(fā)表者,從 而為注釋獲得信譽(yù)。原始發(fā)表者ID被包括,以便將信譽(yù)給予將項(xiàng)目引入 到系統(tǒng)的發(fā)表者。本領(lǐng)域的技術(shù)人員將會(huì)注意到,存在許多種不同的實(shí)現(xiàn) 這種反饋環(huán)的方法,并且將給出可以根據(jù)給定實(shí)現(xiàn)方式的要求被有利使用 的不同系統(tǒng)特性。但是,這不會(huì)脫離為返回中央服務(wù)器的發(fā)表者ID提供 反饋環(huán)的基本意圖。某些實(shí)施例可允許用戶(hù)搜索排名較高的發(fā)表者。其他 實(shí)施例可通過(guò)將項(xiàng)目的發(fā)表者排名包括在對(duì)搜索命中的評(píng)估中來(lái)加強(qiáng)對(duì)項(xiàng) 目的排名。某些實(shí)施例可以與上述發(fā)表者ID相類(lèi)似的方式為給定項(xiàng)目使 用用戶(hù)ID。某些實(shí)現(xiàn)方式可以以與上述預(yù)訂相類(lèi)似的方式來(lái)為搜索結(jié)果 507使用重排名。搜索結(jié)果的向下鉆取類(lèi)別也可根據(jù)時(shí)間窗口基礎(chǔ)或用戶(hù) 時(shí)間使用頻率基礎(chǔ)被排名。優(yōu)選實(shí)施例純粹基于服務(wù)器處的全體積累事件 來(lái)保持搜索結(jié)果,并且對(duì)于使用它的所有用戶(hù)都是相同的。只有預(yù)訂項(xiàng)目 被重排名。完全這一點(diǎn)以便用戶(hù)除了其個(gè)體視圖外還能看到數(shù)據(jù)的純粹群 組視圖。這允許了在所有用戶(hù)間共享的項(xiàng)目的至少一個(gè)視圖。
對(duì)于任何給定的類(lèi)別語(yǔ)境,注釋系統(tǒng)可接收大量項(xiàng)目?;陬?lèi)別語(yǔ)境將項(xiàng)目檢索到客戶(hù)端的預(yù)訂過(guò)程不會(huì)隨著這種流程而縮放。優(yōu)選實(shí)施例周 期性地檢索語(yǔ)境的預(yù)定數(shù)目的最相關(guān)項(xiàng)目。這意味著在客戶(hù)端處可能有許 多項(xiàng)目不可用于重排名。但是,在任何給定時(shí)刻,客戶(hù)端很可能具有最相 關(guān)的項(xiàng)目。其他實(shí)施例可采用方法的變體,其中所項(xiàng)目甚至所有事件都被 檢索,并且某個(gè)時(shí)間窗口的項(xiàng)目的客戶(hù)端鏡像與服務(wù)器鏡像保持同步,等 等。重排名中使用的發(fā)表者ID和關(guān)鍵字的關(guān)鍵統(tǒng)計(jì)信息被從服務(wù)器提供 到客戶(hù)端。這是在預(yù)訂時(shí)完成的,并且以周期方式保持最新。類(lèi)似的方法 被用于在項(xiàng)目變化時(shí)獲得它的限定關(guān)鍵字。所有這種數(shù)據(jù)都可以以捎帶在 用戶(hù)對(duì)信息的實(shí)際請(qǐng)求(例如搜索)上的方式來(lái)檢索,或者可以按固定的 間隔被維護(hù)。所有的用戶(hù)概況數(shù)據(jù)也可以按固定的間隔被備份到服務(wù)器和/ 或從其于網(wǎng)絡(luò)的存儲(chǔ)中獲得。這可以由相對(duì)于管理注釋服務(wù)器的那個(gè)獨(dú)立 的實(shí)體來(lái)存儲(chǔ)。本領(lǐng)域的技術(shù)人員將會(huì)注意到,上述發(fā)明可以按許多系統(tǒng) 配置來(lái)實(shí)現(xiàn),而不會(huì)改變上述的基本功能。說(shuō)明書(shū)隱性地假定注釋服務(wù)器 在客戶(hù)端-服務(wù)器體系結(jié)構(gòu)中與客戶(hù)端通信。但是,注釋服務(wù)器處理可以以
多種傳統(tǒng)的方式被分布,例如負(fù)載平衡、3層體系結(jié)構(gòu)、基于RPC/Web服
務(wù)的方法、對(duì)等方法等等。由于處理是基于項(xiàng)目和語(yǔ)境來(lái)完成的,因此計(jì) 算可以基于散列被分布。在項(xiàng)目的情況下,每個(gè)服務(wù)器可以只處理基于散 列函數(shù)確定的項(xiàng)目子集。在基于語(yǔ)境的服務(wù)器的情況下,處理可以基于語(yǔ)
境被分配到服務(wù)器。可以利用類(lèi)似REST的方法,以便可以實(shí)現(xiàn)本地緩存 服務(wù)器以加快性能。處理也可以以至少一種針對(duì)基于語(yǔ)境的服務(wù)器的新穎 方式被分布。可以使用類(lèi)似DNS的方法,其中基于語(yǔ)境跨多個(gè)服務(wù)器以 等級(jí)體系的方式來(lái)聯(lián)合處理。例如,對(duì)關(guān)于語(yǔ)境"Programming"的事件 的所有處理都可被傳遞到專(zhuān)攻"Programming"的服務(wù)器,并且基于語(yǔ)境 "Javascript Programming"從那里被發(fā)送到另外的服務(wù)器。
優(yōu)選實(shí)施例只是使用本發(fā)明的基本概念的示例性系統(tǒng),存在許多可能 的變體,并且它們不會(huì)脫離本發(fā)明的基本意圖。優(yōu)選實(shí)施例可被擴(kuò)展到為 搜索語(yǔ)境使用布爾邏輯表達(dá)式,例如AND、 OR禾tlNOT,就像搜索引擎中 常見(jiàn)的那樣??梢酝ㄟ^(guò)實(shí)現(xiàn)諸如"Spam"或"Adult"等專(zhuān)用關(guān)鍵字來(lái)創(chuàng) 建合作式垃圾郵件或不當(dāng)內(nèi)容過(guò)濾。這可以以按鈕形式或其他適當(dāng)形式被呈現(xiàn)給用戶(hù)。在客戶(hù)端系統(tǒng)處可通過(guò)允許用戶(hù)為這種關(guān)鍵字的關(guān)鍵字計(jì)數(shù) 設(shè)置值來(lái)控制過(guò)濾,并且預(yù)訂檢索過(guò)程以及重排名過(guò)程都可過(guò)濾掉任何對(duì) 于這些關(guān)鍵字具有大于用戶(hù)指定量的關(guān)鍵字計(jì)數(shù)的項(xiàng)目。關(guān)于這一主題的 可能的變體是如果這種關(guān)鍵字是項(xiàng)目的限定關(guān)鍵字則過(guò)濾掉項(xiàng)目。 一個(gè)實(shí) 施例可將發(fā)表看作特殊的項(xiàng)目類(lèi)型而不是現(xiàn)有項(xiàng)目上的注釋事件,從而允 許每個(gè)這種注釋具有單獨(dú)的項(xiàng)目ID。這允許了注釋在其元數(shù)據(jù)中引用另一 注釋?zhuān)⑶以试S了創(chuàng)建這種注釋的鏈。這將允許類(lèi)似論壇的功能,這種功 能允許創(chuàng)建會(huì)話(huà)線(xiàn)程并且允許這些消息被存儲(chǔ)在注釋服務(wù)器本身之內(nèi),而 不是所描述的優(yōu)選實(shí)施例中的格式,其中項(xiàng)目被與注釋服務(wù)器分開(kāi)地存 儲(chǔ),并且發(fā)表事件只充分用于宣告其存在的方法。
本發(fā)明的一些實(shí)施例通過(guò)略作調(diào)整即可用在現(xiàn)有的軟件應(yīng)用內(nèi),以提 供重大的新功能。在一個(gè)這種實(shí)施例中,類(lèi)別語(yǔ)境的概念可被有利地結(jié)合 在當(dāng)前的web搜索引擎中,其方式是通過(guò)在這種搜索引擎處從點(diǎn)擊流來(lái)得 出它們。這可以很容易被添加到任何搜索引擎,并且可以在生成具有更大 平均數(shù)目的關(guān)鍵字的查詢(xún)方面扮演重要角色。比起當(dāng)前的個(gè)性化方法來(lái), 這可能是更有效的實(shí)現(xiàn)相關(guān)結(jié)果的方式。
在另一實(shí)施例中,利用專(zhuān)門(mén)設(shè)計(jì)的接受作為郵件地址的關(guān)鍵字的郵件
服務(wù)器,可利用類(lèi)似關(guān)鍵字的語(yǔ)境來(lái)注釋電子郵件。例如,關(guān)鍵字Keyl 可被輸入為Keyl@specialServer.tld ?,F(xiàn)有電子郵件客戶(hù)端(比如 Outlook)的插件模塊可被修改,以創(chuàng)建允許通過(guò)自動(dòng)完成郵件地址來(lái)無(wú)縫
地輸入這種關(guān)鍵字的交互范例。此電子郵件可通過(guò)利用收件人、抄送 和暗送被發(fā)送到這種地址。這將允許對(duì)電子郵件進(jìn)行分類(lèi),而不必改變 下層的協(xié)議。每當(dāng)郵件被轉(zhuǎn)發(fā)或答復(fù)時(shí),這種注釋就被進(jìn)行,并且發(fā)送者 的電子郵件id被用作此系統(tǒng)的用戶(hù)ID,等等,并且所有這種注釋都可在 服務(wù)器處被聚集。前端的插件模塊隨后可提供優(yōu)選實(shí)施例的其他功能,例 如將電子郵件分類(lèi)到類(lèi)別語(yǔ)境中,以及搜索,等等。另一個(gè)可能的方法是 使用主題行的文本來(lái)得出關(guān)鍵字,從而停止單詞被剝出,并且電子郵件現(xiàn) 在可以以類(lèi)似于本發(fā)明的消息的方式被處理。
基于發(fā)表者ID上的TF-IDF的基于時(shí)間的變體來(lái)對(duì)項(xiàng)目重排名的概念甚至在現(xiàn)今也可有利地實(shí)現(xiàn)在電子郵件客戶(hù)端軟件中。發(fā)表者ID將會(huì)是 收件箱中接收到的電子郵件的發(fā)送者電子郵件id。郵件軟件可監(jiān)視用戶(hù), 以查明來(lái)自哪些發(fā)送者的哪些電子郵件被用戶(hù)閱讀,以計(jì)算每個(gè)發(fā)送者的 時(shí)間使用頻率。從特定發(fā)送者接收到的電子郵件的數(shù)目可充當(dāng)與發(fā)送者id 相關(guān)聯(lián)的項(xiàng)目的數(shù)目的代理。重排名功能可被有利地實(shí)現(xiàn),以基于相關(guān)性 對(duì)用戶(hù)的收件箱進(jìn)行排序。類(lèi)似的方法也可有利地被用來(lái)利用適當(dāng)開(kāi)發(fā)的軟件為一般用戶(hù)群體進(jìn) 行博客張貼、播客和任何可以以語(yǔ)境敏感的方式發(fā)現(xiàn)的基于RSS饋送的項(xiàng) 目。所有這種張貼都可作為發(fā)表事件被發(fā)送到適當(dāng)?shù)淖⑨尫?wù)器,并且RSS讀取器軟件可被適當(dāng)?shù)匦薷?,以允許本發(fā)明所描述的預(yù)訂和注釋。發(fā) 表者ID可從RSS uri合成,或者可由注釋服務(wù)器處的特殊登錄過(guò)程分配。本領(lǐng)域的技術(shù)人員將會(huì)注意到,本發(fā)明和所描述的實(shí)施例可以以各種 形式應(yīng)用到企業(yè)或桌面、web上的博客以及本發(fā)明的其他適當(dāng)用途。即時(shí) 消息傳遞軟件以及聊天軟件可使用本發(fā)明來(lái)實(shí)現(xiàn)基于語(yǔ)境的實(shí)時(shí)消息傳 遞。本發(fā)明還具有與針對(duì)性廣告遞送的特定相關(guān)性。對(duì)用戶(hù)的搜索允許了 廣告以有針對(duì)性的方式被推送給用戶(hù)。這可以被Web搜索引擎提供商利用 來(lái)提供新形式的、基于推送的廣告,而不是當(dāng)前的基于拉出的、基于關(guān)鍵 字的廣告模型。由于與當(dāng)前的web搜索相比預(yù)訂增大了用戶(hù)被暴露到的語(yǔ) 境的數(shù)目,因此它創(chuàng)建了相應(yīng)的大量具有高相關(guān)性的廣告機(jī)會(huì)。用于用戶(hù) 概況可被保存在客戶(hù)端中,因此這可被利用在新穎形式的廣告遞送中,例 如向TV或電影/視頻提供以個(gè)性化方式流式傳輸?shù)接脩?hù)的商業(yè)廣告,其可 以允許像電視那樣免費(fèi)提供內(nèi)容的新內(nèi)容遞送模型,等等。這種通信形式 可以理想地適合于遞送分類(lèi)廣告,其中多對(duì)多通信范例允許了以更低的成 本和更高的效率來(lái)對(duì)這種廣告進(jìn)行有針對(duì)性的遞送。例如,二手相機(jī)的賣(mài) 主可通過(guò)使用相應(yīng)的類(lèi)別語(yǔ)境來(lái)與二手相機(jī)的可能買(mǎi)主通信。本發(fā)明的實(shí)施例可以有利地利用同一發(fā)明人的兩個(gè)專(zhuān)利申請(qǐng)中提供的 語(yǔ)義機(jī)制- "System for semantically disambiguating text information"(美 國(guó)專(zhuān)利申i青No. USlO/954,964和PCT/SG2005/000321 )以及"A method and system for organizing items" (PCT/SG2005/000320)。這些在先申請(qǐng)的內(nèi)容通過(guò)引用被結(jié)合到本申請(qǐng)中。申請(qǐng)No. US 10/054,064公開(kāi)了一種用 戶(hù)界面方法,其允許文本被轉(zhuǎn)換成含義的唯一機(jī)器表示。因此,像blog、 blogs、 weblog等關(guān)鍵字可被映射到代表含義"weblog"的單個(gè)id。這使本 發(fā)明的注釋、搜索、預(yù)訂和其他機(jī)制可以更加準(zhǔn)確。不是按上述使它們更 難被找到的關(guān)鍵字將項(xiàng)目劃分到三個(gè)分開(kāi)的語(yǔ)境中,而是將它們歸類(lèi)到一 個(gè)語(yǔ)境中,以便易于取回和比較。由于本發(fā)明的機(jī)制可允許來(lái)自任何語(yǔ)言 的關(guān)鍵字,因此含義的這種機(jī)器表示也可以以交叉語(yǔ)言方式來(lái)實(shí)現(xiàn),并且 實(shí)現(xiàn)相同的歧義消除。申請(qǐng)No. PCT/SG2005/000320公開(kāi)了一種知識(shí)表示 方法,其允許這種語(yǔ)義元數(shù)據(jù)通過(guò)"rdated-To (與...相關(guān))"關(guān)系以有限 等級(jí)體系的形式來(lái)組織。這可被有利地利用來(lái)消除語(yǔ)境的歧義,就好像申 請(qǐng)No. US 10/054,064消除文本歧義那樣。例如,以下的語(yǔ)境實(shí)際上引用相 同的項(xiàng)目集合-{"Javascript", "Programming"}和{"Javascript"}。實(shí)質(zhì)上, 由于Javascript是編程語(yǔ)言,所以與Javascript相關(guān)的大多數(shù)項(xiàng)目也與編程 相關(guān)。從而關(guān)鍵字"Programming"沒(méi)有向項(xiàng)目集合添加新的信息或辨別 能力。通過(guò)具有兩個(gè)分開(kāi)的語(yǔ)境,語(yǔ)境空間被割裂了。通過(guò)該專(zhuān)利申請(qǐng)中 所述的從"Javascript"至lj "Programming"的"related-To"關(guān)系,可以補(bǔ) 救這一點(diǎn)。這意味著對(duì)于"Javascript"是關(guān)鍵字的任何項(xiàng)目,可以假定 "Programming"關(guān)鍵字存在。通過(guò)預(yù)先布置這種語(yǔ)義關(guān)系,可以消除兩 個(gè)語(yǔ)境的歧義以建立同一個(gè)語(yǔ)境。該專(zhuān)利申請(qǐng)還描述了被稱(chēng)為"瀏覽路徑 行為"的機(jī)制,該機(jī)制可有利地用于針對(duì)向下鉆取關(guān)鍵字的類(lèi)別語(yǔ)境,以 獲得更直覺(jué)性的用戶(hù)體驗(yàn)。在兩個(gè)專(zhuān)利申請(qǐng)中公開(kāi)了這些發(fā)明的許多其他 能力,這些能力可以與本發(fā)明的機(jī)制有利地組合。本發(fā)明也可充當(dāng)用于生成語(yǔ)義元數(shù)據(jù)或概念及其關(guān)系的重要方法。本 發(fā)明中的項(xiàng)目的限定關(guān)鍵字可用來(lái)生成候選概念。例如,通過(guò)查看每個(gè)項(xiàng) 目的限定關(guān)鍵字中的類(lèi)似單詞來(lái)以(自動(dòng)地或手工地)生成可被分配到同 一含義的關(guān)鍵字。具有相同詞干形式的不同關(guān)鍵字可被自動(dòng)映射到共同的 含義(例如同一項(xiàng)目中使用的"blog"和"blogs"可能指的是同一事 物)。通過(guò)一點(diǎn)手工干預(yù),可以將"weblog"關(guān)聯(lián)到同一含義,如果它在 任何給定項(xiàng)目的限定關(guān)鍵字中經(jīng)常與"blog"或"blogs" —起使用的話(huà)。類(lèi)似地,跨不同自然語(yǔ)言的關(guān)鍵字可與同一含義相關(guān)聯(lián)。作為一種更一般 性的方法,可以取得限定關(guān)鍵字及其相應(yīng)項(xiàng)目的矩陣,并執(zhí)行諸如LSI之 類(lèi)的相關(guān)分析,這種分析將允許我們調(diào)查包括同現(xiàn)以及二階、三階或更高階同現(xiàn)的單詞形式之間的相關(guān)以生成"related-To"關(guān)系以及限定概念和分 配它們的關(guān)鍵字。這與IR中的其他這種嘗試很不相同。本發(fā)明的機(jī)制所 產(chǎn)生的限定關(guān)鍵字是相對(duì)于現(xiàn)實(shí)世界的項(xiàng)目的團(tuán)體對(duì)單詞含義的解釋?zhuān)?且指示了實(shí)際使用中的含義。這給出了高質(zhì)量的數(shù)據(jù)集合,根據(jù)該集合, 諸如LSI之類(lèi)的模式識(shí)別方法和其他相關(guān)方法可用來(lái)得出語(yǔ)義元數(shù)據(jù)及其 關(guān)系。類(lèi)別語(yǔ)境也代表了可用于這種分析以得出語(yǔ)義元數(shù)據(jù)的類(lèi)似高質(zhì)量 數(shù)據(jù)集合。這種元數(shù)據(jù)可被轉(zhuǎn)換成2個(gè)專(zhuān)利申請(qǐng)為了其功能而要求的形 式,并且這種功能隨后可用來(lái)提高本發(fā)明的準(zhǔn)確度。與以上類(lèi)似,這可以被擴(kuò)展到生成語(yǔ)義Web所定義的更豐富的本體, 其方式是允許注釋者以諸如"band-Beatles"的關(guān)鍵字的形式指定關(guān)系并 使用與確定限定關(guān)鍵字類(lèi)似的方法來(lái)允許發(fā)現(xiàn)給定項(xiàng)目/概念的屬性名稱(chēng), 并且使用它來(lái)以自動(dòng)或半自動(dòng)方式生成本體。本發(fā)明的適當(dāng)實(shí)施例可用作加強(qiáng)組織內(nèi)的處理功能的新方法。例如, 希望在組織內(nèi)移動(dòng)其桌子的人可以?xún)H僅向諸如"Move Request"之類(lèi)的語(yǔ) 境發(fā)表消息,并且移動(dòng)請(qǐng)求的處理所涉及的所有當(dāng)事人可預(yù)訂此主題并且 同時(shí)被通知。這些當(dāng)事人可包括請(qǐng)求的授權(quán)者、施設(shè)、技術(shù)等等。這些當(dāng) 事人中的每一個(gè)可利用原始項(xiàng)目ID作為其關(guān)鍵字之一來(lái)發(fā)表項(xiàng)目,以允 許將這種消息鏈接到原始請(qǐng)求的語(yǔ)境。這些發(fā)表的項(xiàng)目可對(duì)應(yīng)于處理請(qǐng)求 的組織工作流中的步驟的完成。例如,這種步驟可包括請(qǐng)求的授權(quán)、將請(qǐng) 求通知給其他語(yǔ)境、請(qǐng)求的終止、將請(qǐng)求分配到另一語(yǔ)境,等等。這可以 通過(guò)以下方式來(lái)加強(qiáng)利用語(yǔ)義元數(shù)據(jù)來(lái)有力地確定發(fā)表的項(xiàng)目的類(lèi)型, 例如定義"Move Request"語(yǔ)義元數(shù)據(jù),并將其分配到該項(xiàng)目的類(lèi)型。為 了促進(jìn)更寬的處理功能,此機(jī)制可與現(xiàn)有的BPMS系統(tǒng)相接口。像本發(fā)明 這樣的多對(duì)多通信范例可幫助對(duì)這種交互創(chuàng)建更有機(jī)、適應(yīng)性更強(qiáng)的結(jié) 構(gòu)。本領(lǐng)域的技術(shù)人員將會(huì)理解,可對(duì)特定實(shí)施例中示出的本發(fā)明進(jìn)行各種變化和/或修改,而不脫離廣泛描述的本發(fā)明的范圍或精神。因此,當(dāng)前 的實(shí)施例在所有意義上都將被認(rèn)為是示例性的而不是限制性的。
權(quán)利要求
1.一種用于合作的方法,該方法包括識(shí)別可在多個(gè)具有唯一標(biāo)識(shí)符的用戶(hù)之間共享的多個(gè)具有唯一標(biāo)識(shí)符的項(xiàng)目;使每個(gè)用戶(hù)獨(dú)立于其他用戶(hù)地利用至少一種自然語(yǔ)言中的至少一個(gè)關(guān)鍵字來(lái)注釋多個(gè)這種項(xiàng)目,每個(gè)這種項(xiàng)目被至少一個(gè)用戶(hù)注釋?zhuān)總€(gè)這種注釋由一個(gè)注釋事件表示,該注釋事件包含進(jìn)行注釋的用戶(hù)的標(biāo)識(shí)符、被注釋的項(xiàng)目的標(biāo)識(shí)符以及進(jìn)行注釋的用戶(hù)選擇用于描述被注釋的項(xiàng)目的至少一個(gè)關(guān)鍵字,每個(gè)這種注釋事件是從至少一種類(lèi)型的多個(gè)事件源生成的;聚集來(lái)自所述事件源的這種注釋事件,以便從特定項(xiàng)目的注釋事件聚集與該項(xiàng)目相關(guān)聯(lián)的關(guān)鍵字,并且從特定用戶(hù)的注釋事件聚集與該用戶(hù)相關(guān)聯(lián)的關(guān)鍵字;以及使至少一個(gè)這種用戶(hù)按關(guān)鍵字搜索項(xiàng)目或用戶(hù),以使得在其聚集關(guān)鍵字中具有被搜索的關(guān)鍵字的相應(yīng)項(xiàng)目或用戶(hù)分別作為結(jié)果被返回。
2. 如權(quán)利要求1所述的方法,其中所述事件源類(lèi)型是由以下各項(xiàng)構(gòu)成 的群組中的至少一種記憶對(duì)話(huà)、發(fā)表項(xiàng)目、標(biāo)記項(xiàng)目、搜索的點(diǎn)擊流、 突出項(xiàng)目中的單詞并使這些單詞充當(dāng)該項(xiàng)目的關(guān)鍵字、將文件保存到文件 系統(tǒng)、鏈接文本分析、操作系統(tǒng)和軟件模塊。
3. 如權(quán)利要求1所述的方法,其中所述項(xiàng)目是由以下各項(xiàng)構(gòu)成的群組 中的任何一種數(shù)字資源、物理資源、人、有生命實(shí)體、文本廣告、視頻 廣告、事件、位置、狀態(tài)、過(guò)程、動(dòng)作、群組、概念、文件、電子郵件、 即時(shí)消息、博客張貼、播客、網(wǎng)頁(yè)、網(wǎng)站、web服務(wù)、數(shù)據(jù)結(jié)構(gòu)、軟件模 塊、軟件對(duì)象、應(yīng)用、操作系統(tǒng)、關(guān)系數(shù)據(jù)庫(kù)的表中的行、XML數(shù)據(jù)和 以RDF表示的資源。
4. 如權(quán)利要求1所述的方法,其中所述唯一標(biāo)識(shí)符是由以下各項(xiàng)構(gòu)成 的群組中的任何一種散列值、URL、 URI、 URN、 UNC、條碼、RFID、 基準(zhǔn)符號(hào)、電子郵件地址、社會(huì)安全號(hào)、車(chē)輛注冊(cè)號(hào)和電話(huà)號(hào)碼。
5. 如權(quán)利要求1所述的方法,其中每個(gè)項(xiàng)目最多具有一個(gè)唯一標(biāo)識(shí)符。
6. 如權(quán)利要求1所述的方法,其中每個(gè)用戶(hù)最多具有一個(gè)唯一標(biāo)識(shí)符。
7. 如權(quán)利要求1所述的方法,其中所述標(biāo)識(shí)符是全局唯一的。
8. 如權(quán)利要求1所述的方法,還通過(guò)使用戶(hù)利用用戶(hù)id和口令進(jìn)行認(rèn) 證來(lái)分配唯一 的用戶(hù)標(biāo)識(shí)符。
9. 如權(quán)利要求l所述的方法,其中所述項(xiàng)目還被至少一個(gè)標(biāo)題字段和/ 或描述字段所描述。
10. 如權(quán)利要求1所述的方法,其中所述項(xiàng)目標(biāo)識(shí)符是用戶(hù)標(biāo)識(shí)符。
11. 如權(quán)利要求1所述的方法,其中至少一個(gè)關(guān)鍵字是項(xiàng)目標(biāo)識(shí)符。
12. 如權(quán)利要求1所述的方法,其中至少一個(gè)關(guān)鍵字是用戶(hù)標(biāo)識(shí)符。
13. 如權(quán)利要求1所述的方法,其中所述注釋事件被用戶(hù)數(shù)字簽名。
14. 如權(quán)利要求1所述的方法,其中所述注釋事件經(jīng)由網(wǎng)絡(luò)被發(fā)送到 至少一個(gè)服務(wù)器以便聚集。
15. 如權(quán)利要求1所述的方法,其中所述網(wǎng)絡(luò)是因特網(wǎng)。
16. 如權(quán)利要求1所述的方法,其中針對(duì)每個(gè)用戶(hù)的注釋事件聚集是 在客戶(hù)端處完成的。
17. 如權(quán)利要求1所述的方法,其中針對(duì)每個(gè)用戶(hù)的注釋事件在它們 針對(duì)每個(gè)項(xiàng)目被聚集之前被規(guī)范化。
18. 如權(quán)利要求1所述的方法,還利用信息檢索排名算法基于與査詢(xún) 的相關(guān)性來(lái)對(duì)搜索結(jié)果進(jìn)行排名。
19. 如權(quán)利要求18所述的方法,使所述搜索結(jié)果基于多個(gè)這種算法被 排名,然后聚集這種排名以確定相關(guān)性。
20. 如權(quán)利要求18所述的方法,還為査詢(xún)構(gòu)造關(guān)鍵字向量,并且構(gòu)造 聚集關(guān)鍵字的向量及其它們針對(duì)每個(gè)結(jié)果的出現(xiàn)頻率;利用來(lái)自由以下各項(xiàng)構(gòu)成的群組的排名算法基于這種向量計(jì)算排名 TF-IDF、 TF-IDF變體、OKAPI和回轉(zhuǎn)式規(guī)范化。
21. 如權(quán)利要求20所述的方法,其中所述項(xiàng)目的聚集關(guān)鍵字限于所述項(xiàng)目的限定關(guān)鍵字。
22. 如權(quán)利要求18所述的方法,還計(jì)算項(xiàng)目的結(jié)果集合; 將對(duì)這些項(xiàng)目進(jìn)行了注釋的所有用戶(hù)包括在所述結(jié)果集合中;以及 出于鏈接分析排名算法的目的,將用戶(hù)看作軸心并將項(xiàng)目看作權(quán)威, 創(chuàng)建從每個(gè)這種用戶(hù)到該用戶(hù)注釋過(guò)的所有項(xiàng)目的合成超鏈接; 以及 利用至少一種鏈接分析排名算法來(lái)計(jì)算項(xiàng)目的排名,并且利用至少一種鏈接分析排名算法來(lái)計(jì)算所述結(jié)果集合的用戶(hù)的排名。
23. 如權(quán)利要求22所述的方法,其中所述鏈接分析排名算法是由以下 各項(xiàng)構(gòu)成的群組中的一種Indegree、 HITS 、隨機(jī)化HITS 、子空間 HITS 、 SALSA 、 HUBAVG 、算法的權(quán)威閾值族、MAX 、 BFS 、 BAYESIAN 、簡(jiǎn)化BAYESIAN 、 PageRank 、 個(gè)性化PageRank 、 TrafficRank、 TOPHITS、 CubeSVD、 PHITS禾Q PLSA+PHITS 。
24. 如權(quán)利要求22所述的方法,其中所述結(jié)果集合中的用戶(hù)和項(xiàng)目的 聚集關(guān)鍵字包含所述搜索的關(guān)鍵字。
25. 如權(quán)利要求22所述的方法,其中用來(lái)計(jì)算所述結(jié)果集合的每個(gè)注 釋事件包含所述査詢(xún)的所有關(guān)鍵字。
26. 如權(quán)利要求22所述的方法,其中用來(lái)計(jì)算所述結(jié)果集合的每個(gè)注 釋事件包含所述查詢(xún)的所有關(guān)鍵字,并且至少一個(gè)這種關(guān)鍵字是所述注釋 事件的項(xiàng)目的限定關(guān)鍵字。
27. 如權(quán)利要求1所述的方法,其中至少一個(gè)關(guān)鍵字是含義的機(jī)器表
28. 如權(quán)利要求1所述的方法,其中至少一個(gè)關(guān)鍵字是語(yǔ)義元數(shù)據(jù)。
29. 如權(quán)利要求28所述的方法,還利用至少一個(gè)詞典描述所述語(yǔ)義元 數(shù)據(jù)并且基于所述詞典消除查詢(xún)的關(guān)鍵字以及項(xiàng)目和用戶(hù)的聚集關(guān)鍵字的 歧義。
30. 權(quán)利要求1所述的方法,還將項(xiàng)目的限定關(guān)鍵字或類(lèi)別語(yǔ)境的關(guān)鍵字看作集合并基于所有這種集合中的關(guān)鍵字的同現(xiàn)來(lái)生成本體。
31. 如權(quán)利要求30所述的方法,其中詞典中的概念之間的語(yǔ)義關(guān)系是從所述同現(xiàn)數(shù)據(jù)生成的。
32. 如權(quán)利要求1所述的方法,還按語(yǔ)境同時(shí)對(duì)項(xiàng)目和用戶(hù)進(jìn)行聚類(lèi)。
33. 如權(quán)利要求32所述的方法,還按語(yǔ)境來(lái)聚集注釋事件; 確定在其聚集注釋事件中具有預(yù)定最小數(shù)目的唯-一用戶(hù)標(biāo)識(shí)符和預(yù)定最小數(shù)目的唯一項(xiàng)目標(biāo)識(shí)符的語(yǔ)境;以及基于這種語(yǔ)境對(duì)項(xiàng)目和用戶(hù)進(jìn)行聚類(lèi)。
34. 如權(quán)利要求33所述的方法,還將所述注釋事件限制到預(yù)定的時(shí)間 窗口。
35. 如權(quán)利要求33所述的方法,還確定作為所述查詢(xún)的子語(yǔ)境的所有 這種語(yǔ)境;從所確定的語(yǔ)境計(jì)算唯一關(guān)鍵字集合,其中存在于所確定的語(yǔ)境中的 所有關(guān)鍵字都存在,除了作為所述搜索査詢(xún)的一部分的這種關(guān)鍵字之外;通過(guò)將每個(gè)這種唯一關(guān)鍵字附加到原始查詢(xún)并重新發(fā)出查詢(xún),使得所 述關(guān)鍵字作為用戶(hù)可向下鉆取到的子類(lèi)別來(lái)呈現(xiàn)。
36. 如權(quán)利要求1所述的方法,還在用戶(hù)利用關(guān)鍵字集合注釋項(xiàng)目時(shí) 發(fā)表項(xiàng)目。
37. 如權(quán)利要求36所述的方法,還利用與所述用戶(hù)相對(duì)應(yīng)的唯一發(fā)表 者標(biāo)識(shí)符來(lái)注釋所發(fā)表的項(xiàng)目。
38. 如權(quán)利要求37所述的方法,還通過(guò)使進(jìn)行發(fā)表的用戶(hù)利用用戶(hù)id 和口令進(jìn)行認(rèn)證來(lái)分配唯一的發(fā)表者標(biāo)識(shí)符。
39. 如權(quán)利要求36所述的方法,其中所述注釋事件是發(fā)表注釋事件。
40. 如權(quán)利要求39所述的方法,其中所述發(fā)表注釋事件是具有唯一項(xiàng) 目標(biāo)識(shí)符的項(xiàng)目。
41. 如權(quán)利要求36所述的方法,其中所述注釋事件的關(guān)鍵字的集合是 類(lèi)別語(yǔ)境。
42. 如權(quán)利要求36所述的方法,其中所發(fā)表的項(xiàng)目在針對(duì)所述語(yǔ)境的 用戶(hù)子集的己發(fā)表語(yǔ)境中排名較高,直到滿(mǎn)足預(yù)定的條件為止。
43. 如權(quán)利要求37所述的方法,其中搜索結(jié)果被基于所述發(fā)表者標(biāo)識(shí)符排名。
44. 如權(quán)利要求37所述的方法,其中發(fā)表項(xiàng)目的動(dòng)作對(duì)應(yīng)于工作流過(guò) 程中的步驟的完成。
45. 如權(quán)利要求44所述的方法,其中所述步驟是包括授權(quán)、請(qǐng)求、分 配、終止和通知的群組之一。
46. 如權(quán)利要求37所述的方法,還基于用戶(hù)概況自動(dòng)地以周期方式進(jìn) 行搜索;利用信息檢索排名算法,基于與查詢(xún)的相關(guān)性來(lái)對(duì)搜索結(jié)果進(jìn)行排名;針對(duì)每個(gè)用戶(hù),檢索和存儲(chǔ)排名較高的結(jié)果的子集;以及 根據(jù)用戶(hù)的請(qǐng)求將所述結(jié)果呈現(xiàn)給用戶(hù)。
47. 如權(quán)利要求46所述的方法,還按發(fā)表者標(biāo)識(shí)符針對(duì)每個(gè)語(yǔ)境對(duì)存 儲(chǔ)的結(jié)果進(jìn)行重排名。
48. 如權(quán)利要求46所述的方法,其中所發(fā)表的項(xiàng)目在針對(duì)所述語(yǔ)境的 用戶(hù)子集的已發(fā)表語(yǔ)境中排名較高,直到滿(mǎn)足預(yù)定的條件為止。
49. 如權(quán)利要求48所述的方法,其中所述用戶(hù)子集是從由以下各項(xiàng)構(gòu) 成的群組中的任何一種的用戶(hù)中選出的排名較高的發(fā)表者、排名較高的 用戶(hù)和隨機(jī)選擇的用戶(hù)。
50. 如權(quán)利要求46所述的方法,還在用戶(hù)對(duì)呈現(xiàn)的項(xiàng)目進(jìn)行注釋時(shí)生 成注釋事件,以使得在對(duì)該項(xiàng)目的事件之時(shí)存在的發(fā)表者標(biāo)識(shí)符被包括在 所述注釋事件中。
51. 如權(quán)利要求50所述的方法,其中所述發(fā)表者限于用戶(hù)和/或原始發(fā) 表者最承認(rèn)的發(fā)表者。
52. 如權(quán)利要求1所述的方法,還基于用戶(hù)概況自動(dòng)地以周期方式搜 索語(yǔ)境的集合;利用信息檢索排名算法,基于與査詢(xún)的相關(guān)性來(lái)對(duì)搜索結(jié)果進(jìn)行排名;針對(duì)每個(gè)語(yǔ)境,檢索和存儲(chǔ)排名較高的結(jié)果的子集;以及 根據(jù)用戶(hù)的請(qǐng)求將所述結(jié)果呈現(xiàn)給用戶(hù)。
53. 如權(quán)利要求52所述的方法,還將所述搜索限于在預(yù)定的時(shí)間段內(nèi)已被添加到所述語(yǔ)境的事件。
54. 如權(quán)利要求52所述的方法,其中所述語(yǔ)境限于類(lèi)別語(yǔ)境。
55. 如權(quán)利要求52所述的方法,其中所述語(yǔ)境是由用戶(hù)明確指定的。
56. 如權(quán)利要求52所述的方法,還基于來(lái)自關(guān)鍵字和用戶(hù)標(biāo)識(shí)符構(gòu)成 的群組的至少一個(gè)參數(shù),利用TFIDF的基于時(shí)間的變體來(lái)針對(duì)每個(gè)語(yǔ)境對(duì) 存儲(chǔ)的結(jié)果進(jìn)行重排名。
57. 如權(quán)利要求1所述的方法,其中通過(guò)搜索相關(guān)用戶(hù)并將至少一個(gè) 廣告顯示給至少一個(gè)用戶(hù),來(lái)將所述廣告推送到所述用戶(hù)。
58. 如權(quán)利要求57所述的方法,其中這種廣告基于用戶(hù)概況被重排名。
59. 如權(quán)利要求57所述的方法,其中所述廣告由來(lái)自文本、音頻和視 頻的群組中的至少一種以及分類(lèi)廣告構(gòu)成。
60. 如權(quán)利要求1所述的方法,其中所述搜索基于語(yǔ)境跨多個(gè)注釋聚 集服務(wù)器被聯(lián)合。
61. 如權(quán)利要求1所述的方法,還從所述結(jié)果中去除項(xiàng)目集合,其中 這種項(xiàng)目是利用預(yù)定關(guān)鍵字的集合中的至少一個(gè)來(lái)注釋的。
62. 如權(quán)利要求61所述的方法,其中只有當(dāng)所述關(guān)鍵字的注釋頻率高 于預(yù)定級(jí)別時(shí)項(xiàng)目才被去除。
63. 如權(quán)利要求1所述的方法,其中所述搜索是在搜索引擎處執(zhí)行 的;并且注釋事件是從所述搜索弓I擎的搜索日志的點(diǎn)擊流生成的。
64. —種用于合作的系統(tǒng),包括用于識(shí)別可在多個(gè)具有唯一標(biāo)識(shí)符的用戶(hù)之間共享的多個(gè)具有唯一標(biāo) 識(shí)符的項(xiàng)目的裝置-,用于使每個(gè)用戶(hù)獨(dú)立于其他用戶(hù)地利用至少一種自然語(yǔ)言中的至少一 個(gè)關(guān)鍵字來(lái)注釋多個(gè)這種項(xiàng)目的裝置,每個(gè)這種項(xiàng)目被至少一個(gè)用戶(hù)注 釋?zhuān)總€(gè)這種注釋由一個(gè)注釋事件表示,該注釋事件包含進(jìn)行注釋的用戶(hù) 的標(biāo)識(shí)符、被注釋的項(xiàng)目的標(biāo)識(shí)符以及進(jìn)行注釋的用戶(hù)選擇用于描述被注 釋的項(xiàng)目的至少一個(gè)關(guān)鍵字,每個(gè)這種注釋事件是從至少一種類(lèi)型的多個(gè) 事件源生成的;用于聚集來(lái)自所述事件源的這種注釋事件以便從特定項(xiàng)目的注釋事件 聚集與該項(xiàng)目相關(guān)聯(lián)的關(guān)鍵字并且從特定用戶(hù)的注釋事件聚集與該用戶(hù)相 關(guān)聯(lián)的關(guān)鍵字的裝置;以及用于使至少一個(gè)這種用戶(hù)按關(guān)鍵字搜索項(xiàng)目或用戶(hù)以使得在其聚集關(guān) 鍵字中具有被搜索的關(guān)鍵字的相應(yīng)項(xiàng)目或用戶(hù)分別作為結(jié)果被返回的裝置。
65.如權(quán)利要求33所述的方法,還將所述語(yǔ)境限于其中有預(yù)定數(shù)目的 下述項(xiàng)目的那些語(yǔ)境所有這些項(xiàng)目都被預(yù)定數(shù)目的用戶(hù)注釋。
全文摘要
一種用于通信和合作的系統(tǒng)和方法,其使用了通用的基于注釋的機(jī)制,從而可在用戶(hù)之間共享項(xiàng)目并且可以基于現(xiàn)有的信息檢索排名技術(shù)來(lái)對(duì)項(xiàng)目和用戶(hù)進(jìn)行搜索和排名。介紹了一種新的方法,用于基于類(lèi)別語(yǔ)境同時(shí)對(duì)用戶(hù)和項(xiàng)目進(jìn)行聚類(lèi)。這些機(jī)制被用來(lái)創(chuàng)建允許基于語(yǔ)境發(fā)表和預(yù)訂項(xiàng)目的機(jī)制。
文檔編號(hào)G06F17/30GK101317173SQ200680044287
公開(kāi)日2008年12月3日 申請(qǐng)日期2006年9月26日 優(yōu)先權(quán)日2004年9月29日
發(fā)明者德瓦喬提·薩卡爾 申請(qǐng)人:薩卡爾公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1