專利名稱:標(biāo)識(shí)用于放置關(guān)鍵詞目標(biāo)廣告的關(guān)鍵詞的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
所述技術(shù)一般涉及與商品相關(guān)的詞,尤其涉及用于放置商品廣告的捜索詞。
背景技術(shù):
諸如Google和Overture的許多搜索引擎服務(wù),提供對(duì)經(jīng)由因特網(wǎng)可訪問(wèn)的信息的捜索。這些搜索引擎服務(wù)使用戶能搜索用戶感興趣的網(wǎng)頁(yè)和其它因特網(wǎng)可訪問(wèn)的資源。、在用戶提交包括搜索詞的搜索請(qǐng)求之后,搜索引擎服務(wù)標(biāo)識(shí)可能與那些搜索詞相關(guān)的網(wǎng)頁(yè)。為了快速標(biāo)識(shí)相關(guān)網(wǎng)頁(yè),搜索引擎服務(wù)可保持關(guān)鍵詞與網(wǎng)頁(yè)的映射。該映射可通過(guò)“爬尋” web (即萬(wàn)維網(wǎng))來(lái)生成,以標(biāo)識(shí)各網(wǎng)頁(yè)的關(guān)鍵詞。為了爬尋web,搜索引擎服務(wù)可使用根網(wǎng)頁(yè)列表來(lái)標(biāo)識(shí)可通過(guò)那些根網(wǎng)頁(yè)訪問(wèn)的所有網(wǎng)頁(yè)。任何特定網(wǎng)頁(yè)的關(guān)鍵詞可使用各種公知信息檢索技術(shù)來(lái)標(biāo)識(shí),諸如標(biāo)識(shí)標(biāo)題行的詞、在網(wǎng)頁(yè)的元數(shù)據(jù)中提供的詞、高亮的詞等等。ー些搜索引擎服務(wù)甚至可捜索不可經(jīng)由因特網(wǎng)訪問(wèn)的信息源。例如,圖書出版者可將其圖書的內(nèi)容提供給搜索引擎服務(wù)。該搜索引擎可生成關(guān)鍵詞和圖書之間的映射。當(dāng)搜索引擎服務(wù)接收到包括一個(gè)或多個(gè)搜索詞的搜索請(qǐng)求時(shí),它使用其映射來(lái)標(biāo)識(shí)其關(guān)鍵詞與捜索詞最接近匹配的那些信息源(例如網(wǎng)頁(yè)或圖書)。與捜索詞最接近匹配的信息源的集合被稱為“搜索結(jié)果”。然后該搜索引擎服務(wù)基于各匹配的接近性、網(wǎng)頁(yè)的流行性(例如Google的頁(yè)面排序)等來(lái)排列捜索結(jié)果的信息源。然后搜索引擎服務(wù)按基于其排序的順序向用戶顯示與那些信息源的鏈接。ー些搜索引擎服務(wù)不為了在捜索結(jié)果中包含與其網(wǎng)頁(yè)的鏈接而向網(wǎng)頁(yè)的提供者收費(fèi)。相反,搜索引擎服務(wù)通過(guò)將廣告和搜索結(jié)果放置在一起來(lái)獲得收入。為廣告付款的那些通常稱為“廣告鏈接”、“廣告匹配”、或“付款搜索結(jié)果”。想要將商品廣告與某些搜索結(jié)果放置在一起的廣告商向搜索引擎服務(wù)提供廣告和捜索詞。當(dāng)接收到搜索請(qǐng)求時(shí),捜索引擎服務(wù)標(biāo)識(shí)其搜索詞與搜索請(qǐng)求的捜索詞最接近地相匹配的廣告。該搜索引擎服務(wù)可對(duì)將廣告與捜索結(jié)果放置在一起收費(fèi)(即按印象收費(fèi)),或者僅在用戶實(shí)際選擇與廣告相關(guān)聯(lián)的鏈接時(shí)收費(fèi)(即按點(diǎn)擊收費(fèi))。廣告商想要使用干支付與捜索結(jié)果放置在一起的廣告的廣告費(fèi)的效用最大。那些廣告商嘗試標(biāo)識(shí)導(dǎo)致廣告商最高利益(例如最高利潤(rùn))的廣告商品的捜索詞。需要具有通過(guò)標(biāo)識(shí)更針對(duì)或相關(guān)于廣告商品的搜索詞而使廣告商將其廣告費(fèi)的效用最大化的技木。
圖I是示出ー實(shí)施例中廣告系統(tǒng)的各個(gè)部分的框圖。圖2是示出一實(shí)施例中創(chuàng)建廣告集部分的處理的流程圖。圖3是示出一實(shí)施例中單詞打分部分的處理的流程圖。
圖4是示出一實(shí)施例中標(biāo)識(shí)最佳短語(yǔ)部分的處理的流程圖。圖5是示出ー實(shí)施例中尋找短語(yǔ)部分的處理的流程圖。圖6是示出一實(shí)施例中通用短語(yǔ)打分部分的處理的流程圖。
具體實(shí)施例方式提供了用于標(biāo)識(shí)將廣告與捜索結(jié)果放置在一起的搜索詞的ー種方法和系統(tǒng)。在一實(shí)施例中,廣告系統(tǒng)選擇要廣告商品的描述。例如,如果商品是一本書,則描述可以是該書的標(biāo)題;或者如果商品是ー電器,則描述可以是該電器的概述。然后廣告系統(tǒng)檢索與從信息源全集中選出的描述相匹配(例如,最接近地相關(guān)于其主題)的文檔或其它信息源。例如,廣告系統(tǒng)可將選定的描述提交給搜索引擎服務(wù),其中搜索結(jié)果的網(wǎng)頁(yè)為檢索文檔。然后該廣告系統(tǒng)對(duì)檢索文檔的姆個(gè)詞打分,指不該詞與要廣告商品的相關(guān)性。在一實(shí)施例中,廣告系統(tǒng)可對(duì)在檢索文檔中比在信息源全集中頻繁得多地使用的詞打高分。例如,如果商品 是哈利波特叢書,則諸如 “Hogwarts”、“Fluffy”、“three-headed”、“dog”、“Hermione” 和“Granger”的單詞會(huì)有相對(duì)較高的得分,因?yàn)檫@些單詞在哈利波特的描述中比無(wú)關(guān)描述出現(xiàn)得更為頻繁。在對(duì)詞打分后,廣告系統(tǒng)標(biāo)識(shí)文檔內(nèi)可能與商品相關(guān)的詞的短語(yǔ)。例如,廣告系統(tǒng)可標(biāo)識(shí)短語(yǔ)“Fluffy the three-headed dog”和“Hermione Granger”可能與該書相關(guān)。然后廣告系統(tǒng)根據(jù)所標(biāo)識(shí)短語(yǔ)來(lái)生成要廣告商品的捜索詞。該廣告系統(tǒng)向搜索引擎服務(wù)提交搜索詞和廣告,用于放置該商品的付款廣告。例如,廣告系統(tǒng)可將哈利波特叢書的廣告與搜索詞“Hermione Granger”放置在一起。當(dāng)某人將“Hermione Granger”的搜索請(qǐng)求提交給搜索引擎服務(wù)時(shí),它使該廣告與捜索結(jié)果一起顯示。這樣,廣告系統(tǒng)可基于信息源中使用的已知相關(guān)于要廣告商品的短語(yǔ)來(lái)標(biāo)識(shí)搜索詞。在一實(shí)施例中,廣告系統(tǒng)標(biāo)識(shí)可能與要廣告商品相關(guān)的短語(yǔ)。因?yàn)楫?dāng)n是文檔內(nèi)單詞的數(shù)量時(shí)文檔內(nèi)短語(yǔ)的數(shù)量為0(n2),并且文檔集中可能短語(yǔ)的數(shù)量為k1,其中k為不同單詞的數(shù)量而I是短語(yǔ)的長(zhǎng)度,所以計(jì)算和跟蹤所有可能的短語(yǔ)在計(jì)算上極為昂貴。為了減少所估算短語(yǔ)的數(shù)量,廣告系統(tǒng)對(duì)彼此接近的詞的組合打高分。廣告系統(tǒng)開始時(shí)對(duì)文檔內(nèi)與商品相關(guān)的詞打分。該分?jǐn)?shù)指示該詞與商品相關(guān)的可能性。廣告系統(tǒng)然后可標(biāo)識(shí)高度相關(guān)詞和相關(guān)詞。聞度相關(guān)詞具有諸如最聞10%的分?jǐn)?shù)的極聞分,并且相關(guān)詞具有諸如最高25%的分?jǐn)?shù)的高分。廣告系統(tǒng)在文檔中搜索高度相關(guān)詞。文檔內(nèi)的每個(gè)高度相關(guān)詞被視為短語(yǔ)的“錨詞”。廣告系統(tǒng)嘗試擴(kuò)展短語(yǔ)使其包括附近的相關(guān)詞。在一實(shí)施例中,廣告系統(tǒng)可通過(guò)跟在錨詞后面的任何相鄰相關(guān)詞來(lái)擴(kuò)展該短語(yǔ)。例如,如果“Hermoine”是高度相關(guān)詞,而“Granger”是相關(guān)詞,則短語(yǔ)“Hermione Granger”在“Hermoine”于文檔中跟在“Granger”后面時(shí)將被標(biāo)識(shí)為一短語(yǔ)?;蛘撸瑥V告系統(tǒng)可將短語(yǔ)擴(kuò)展成還包括錨詞之前的詞。例如,如果“Granger”是高度相關(guān)詞而“Hermoine”僅僅是相關(guān)詞,則仍將標(biāo)識(shí)出短語(yǔ)“Hermione Granger”。廣告系統(tǒng)可計(jì)算短語(yǔ)得分,并且只要經(jīng)擴(kuò)展短語(yǔ)的得分變高就繼續(xù)擴(kuò)展短語(yǔ),而不管該短語(yǔ)的所有詞是否是相關(guān)詞。本領(lǐng)域技術(shù)人員將理解,用于標(biāo)識(shí)這些短語(yǔ)的技術(shù)可用于除生成廣告的搜索詞之外的環(huán)境中。例如,搜索引擎服務(wù)可將在搜索結(jié)果中標(biāo)識(shí)的短語(yǔ)用作搜索請(qǐng)求,用于定位要提供給用戶的附加相關(guān)信息源?;蛘?,廣告系統(tǒng)可從附加相關(guān)信息源中標(biāo)識(shí)更多短語(yǔ)。更一般地,給定一信息源集,用于標(biāo)識(shí)短語(yǔ)的技術(shù)可用來(lái)標(biāo)識(shí)信息源的主題。例如,如果信息源是聊天討論,則所標(biāo)識(shí)的短語(yǔ)可代表聊天討論的最流行話題。圖I是示出ー實(shí)施例中廣告系統(tǒng)的各個(gè)部分的框圖。廣告系統(tǒng)110經(jīng)由通信鏈接103與搜索引擎服務(wù)計(jì)算機(jī)系統(tǒng)101和web服務(wù)器計(jì)算機(jī)系統(tǒng)102相連。廣告系統(tǒng)將商品的描述提交給搜索引擎服務(wù)計(jì)算機(jī)系統(tǒng),并接收由web服務(wù)器計(jì)算機(jī)系統(tǒng)提供的匹配網(wǎng)頁(yè)鏈接。然后廣告系統(tǒng)從web服務(wù)器計(jì)算機(jī)系統(tǒng)中檢索匹配網(wǎng)頁(yè)。廣告系統(tǒng)從那些匹配網(wǎng)頁(yè)中標(biāo)識(shí)短語(yǔ),并從所標(biāo)識(shí)短語(yǔ)中得到捜索詞。然后廣告系統(tǒng)向搜索引擎服務(wù)提交搜索詞以及商品的廣告。搜索引擎服務(wù)對(duì)匹配捜索詞的搜索查詢顯示廣告以及捜索結(jié)果。廣告系統(tǒng)包括創(chuàng)建廣告集部分111、單詞打分部分112、標(biāo)識(shí)最佳短語(yǔ)部分113、尋找短語(yǔ)部分114、通用短語(yǔ)打分部分115、商品數(shù)據(jù)存儲(chǔ)器116、搜索結(jié)果存儲(chǔ)器117和得分存儲(chǔ)器118。商品數(shù)據(jù)存儲(chǔ)器包含每個(gè)要廣告商品的標(biāo)識(shí)符(例如SKU)以及商品的描述。例如,商品數(shù)據(jù)存儲(chǔ)器可以是要廣告圖書的電子目錄。各目錄條目可包括商品標(biāo)識(shí)符、標(biāo)題、作者名字、概述等等。搜索結(jié)果存儲(chǔ)器包含搜索詞所標(biāo)識(shí)的商品的匹配網(wǎng)頁(yè)。得分存儲(chǔ) 器包含搜索結(jié)果存儲(chǔ)器的單詞和短語(yǔ)的得分。創(chuàng)建廣告集部分擁有商品標(biāo)識(shí)符,并標(biāo)識(shí)在廣告該商品時(shí)要使用的搜索詞(例如關(guān)鍵詞)。創(chuàng)建廣告集部分請(qǐng)求搜索引擎服務(wù)提供搜索結(jié)果,檢索那些搜索結(jié)果的網(wǎng)頁(yè),調(diào)用單詞打分部分和標(biāo)識(shí)最佳短語(yǔ)部分,然后生成廣告集。單詞打分部分對(duì)搜索結(jié)果的每個(gè)詞打分,指示該詞與該商品相關(guān)的可能性。標(biāo)識(shí)最佳短語(yǔ)部分調(diào)用尋找短語(yǔ)部分和通用短語(yǔ)打分部分,以標(biāo)識(shí)可能與該商品相關(guān)的短語(yǔ)。廣告系統(tǒng)可在包括中央處理單元、存儲(chǔ)器、輸入設(shè)備(例如鍵盤和定位設(shè)備)、輸出設(shè)備(例如顯示設(shè)備)和存儲(chǔ)設(shè)備(例如盤驅(qū)動(dòng)器)的計(jì)算機(jī)系統(tǒng)和服務(wù)器上實(shí)現(xiàn)。存儲(chǔ)器和存儲(chǔ)設(shè)備是可包含實(shí)現(xiàn)廣告系統(tǒng)的指令的計(jì)算機(jī)可讀介質(zhì)。此外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可經(jīng)由數(shù)據(jù)傳輸介質(zhì),諸如通信鏈接上的信號(hào)存儲(chǔ)或傳送??墒褂酶鞣N通信鏈接,諸如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)、或點(diǎn)對(duì)點(diǎn)撥號(hào)連接。圖2是示出在一實(shí)施例中創(chuàng)建廣告集部分的處理的流程圖。該部分得到所傳遞的商品標(biāo)識(shí)符,并返回帶有從可能與商品相關(guān)的短語(yǔ)中導(dǎo)出的搜索詞的廣告集。在框201,商品檢索該商品的描述。例如,描述可以是書名或組合有制造商名稱的商品名(例如索尼DVD播放器)。在框202,該部分請(qǐng)求搜索引擎服務(wù)將檢索到的描述用作搜索請(qǐng)求來(lái)執(zhí)行搜索。該部分接收搜索結(jié)果。如果搜索結(jié)果是諸如網(wǎng)頁(yè)的URL的鏈接,則該部分檢索所鏈接的網(wǎng)頁(yè)并將它們存儲(chǔ)在搜索結(jié)果存儲(chǔ)器中。該部分可僅存儲(chǔ)和使用搜索結(jié)果的最佳匹配網(wǎng)頁(yè)(例如,最前面的15個(gè))。在框203,該部分調(diào)用單詞打分部分來(lái)對(duì)搜索結(jié)果中的每個(gè)詞打分。被調(diào)用的部分將得分存儲(chǔ)在得分存儲(chǔ)器中。在框204,該部分調(diào)用標(biāo)識(shí)最佳短語(yǔ)部分來(lái)標(biāo)識(shí)與商品最為高度相關(guān)的短語(yǔ)。被調(diào)用的部分將短語(yǔ)得分存儲(chǔ)在得分存儲(chǔ)器中。在框205,該部分使用最佳短語(yǔ)生成該商品的廣告集。然后該部分完成。然后這些廣告集可被提交給ー個(gè)或多個(gè)搜索引擎服務(wù)。圖3是示出一實(shí)施例中單詞打分部分的處理的流程圖。單詞打分部分對(duì)存儲(chǔ)在搜索結(jié)果存儲(chǔ)器的網(wǎng)頁(yè)中的每個(gè)詞打分。該部分將得分存儲(chǔ)在得分存儲(chǔ)器中。在框301-308,該部分循環(huán)選擇搜索結(jié)果中的每個(gè)詞,并計(jì)算其得分。在框301,該部分選擇搜索結(jié)果中的下一個(gè)詞。在判定框302,如果已選擇了搜索結(jié)果中的所有詞,則該部分返回,否則該部分在框303繼續(xù)。本領(lǐng)域技術(shù)人員將理解,該部分將跳過(guò)噪聲字(例如“ of”、“a”、“the”等等)。在框303,組件計(jì)算在搜索結(jié)果的文檔(例如網(wǎng)頁(yè))內(nèi)選定詞的平均頻率。詞的“頻率”是文檔(例如網(wǎng)頁(yè))內(nèi)該詞的出現(xiàn)次數(shù)除以各詞在該文檔出現(xiàn)的總次數(shù)。例如,如果ー個(gè)詞在包含200個(gè)詞的文檔內(nèi)出現(xiàn)了 10次,則其頻率為0. 05 (即10/200),這表示它占文檔中詞的5%。搜索結(jié)果內(nèi)詞的“平均頻率”是該詞對(duì)每個(gè)文檔的頻率的平均值。例如,如果在具有4個(gè)文檔的搜索結(jié)果中ー詞的頻率為0. 05,0. 04,0. 02和0. 01,則該詞的平均頻率為0. 03(例如(0. 05+0. 04+0. 02+0. 01)/4)。平均頻率由以下方程來(lái)表示f/
_9] -
}~ n⑴其中フ:是詞的平均頻率,も是該詞在文檔i中的頻率,并且n是文檔的數(shù)量。在框304,該部分檢索該詞的“普通頻率”。普通頻率表示該詞在諸如全部網(wǎng)頁(yè)的極大文檔集中的平均頻率。在框305,該部分計(jì)算選定詞的“頻率得分”。如果選定詞的平均頻率比選定詞的普通頻率高得多,則該詞可與商品高度相關(guān)。頻率得分提供平均頻率相對(duì)普通頻率的得分。頻率得分可由以下方程來(lái)表示
(J=T
r na tan --10* fC2;
5, =0.5 + ——^——^
n其中Sf是該詞的頻率得分,/是該詞的普通頻率,而atan是反正切函數(shù)。本領(lǐng)域技術(shù)人員將理解該方程僅僅是可用來(lái)生成頻率得分的許多方程之一。所使用的特定方程可基于給予詞的平均頻率和普通頻率之差的權(quán)重來(lái)選擇。在框306,該部分計(jì)算包含選定詞的捜索結(jié)果的文檔的數(shù)量。在框307,該部分計(jì)算表示捜索結(jié)果的文檔中包含選定詞的比例的“包含得分”。該包含得分可由以下方程來(lái)表達(dá)Sc= —
n(3)其中S。是包含得分,并且n’是搜索結(jié)果的包含選定字的文檔的數(shù)量。在框308,該部分計(jì)算選定字的得分。在一實(shí)施例中,單詞得分是頻率得分和包含得分的線性組合。頻率得分和包含得分的權(quán)重可被設(shè)置成反映是頻率得分、還是包含得分被視為該詞與商品相關(guān)的可能性的更準(zhǔn)確表示。單詞得分可由以下方程表示S=a *Sf+(l- )*SC (4)其中S是單詞得分而夂從0到I地變化,并表示給予頻率得分的權(quán)重。該部分然后回到框301,以選擇捜索結(jié)果中的下一個(gè)詞。圖4是示出一實(shí)施例中標(biāo)識(shí)最佳短語(yǔ)部分的處理的流程圖。在框401,該部分選擇搜索結(jié)果的聞度相關(guān)詞。這些聞度相關(guān)詞可以是其得分為最聞15%的那些詞。最聞相關(guān)詞被用作該短語(yǔ)的錨詞。在框402,該部分選擇搜索結(jié)果的相關(guān)詞。相關(guān)詞可以是其得分為最高40%的那些詞。相關(guān)詞包括高度相關(guān)詞。短語(yǔ)可被擴(kuò)展成包括靠近錨詞的相關(guān)詞。本領(lǐng)域技術(shù)人員將理解可使用各種標(biāo)準(zhǔn)來(lái)選擇高度相關(guān)詞和相關(guān)詞。例如,高度相關(guān)詞可以是具有最高得分的10個(gè)詞,而相關(guān)詞可以是具有最高得分的50個(gè)詞。此外,高度相關(guān)詞和相關(guān)詞可以是相同的詞集(例如具有最高得分的20個(gè)詞)。在框403-405,該部分循環(huán)選擇搜索結(jié)果中的文檔,并在那些文檔內(nèi)尋找短語(yǔ)。在框403,該部分選擇搜索結(jié)果中的下一個(gè)文檔。在判定框404中,如果已選擇了搜索結(jié)果中的所有文檔,則該部分在框406繼續(xù),否則該部分在框405繼續(xù)。在框405,該部分調(diào)用尋找短語(yǔ)部分來(lái)在選定文檔中尋找短語(yǔ)。然后該部分循環(huán)至框403以選擇下一文檔。在框406,當(dāng)已在所有文檔中找到短語(yǔ)之后,該部分選擇通用短語(yǔ),即在文檔內(nèi)頻繁出現(xiàn)的短語(yǔ)。例如,通用短語(yǔ)可以是在文檔內(nèi)出現(xiàn)5次以上、或在文檔中以一定百分比出現(xiàn)的短語(yǔ)。在框407,該部分調(diào)用普通短語(yǔ)打分部分來(lái)對(duì)每個(gè)通用短語(yǔ)生成短語(yǔ)得分。然后該部分返回。廣告系統(tǒng)從通用短語(yǔ)中得到捜索詞。圖5是示出ー實(shí)施例中尋找短語(yǔ)部分的處理的流程圖。該部分得到所傳遞的ー個(gè)文檔,并在該文檔中標(biāo)識(shí)短語(yǔ)。在框501-509,該部分循環(huán)標(biāo)識(shí)文檔內(nèi)具有作為錨詞的高度相關(guān)詞的短語(yǔ)。在框501,該部分在文檔內(nèi)選擇高度相關(guān)詞。在判定框502,如果已經(jīng)選擇了文檔的全部相關(guān)詞,則該部分完成,否則該部分在框503繼續(xù)。在框503,該部分將具有高度相關(guān)詞的短語(yǔ)初始化為錨詞。在框504-509,該部分循環(huán)擴(kuò)展短語(yǔ)以使其包括附近的相關(guān)詞。在框504,該部分選擇該文檔內(nèi)的下一個(gè)詞。在判定框505,如果選定詞是ー相關(guān)詞,則該部分在框506繼續(xù),否則該部分終止短語(yǔ)的擴(kuò)展,并循環(huán)至框501以標(biāo)識(shí)該文檔內(nèi)的下一短語(yǔ)。在判定框506,如果選定詞與已在短語(yǔ)中的詞相似,則該部分終止短語(yǔ)的擴(kuò)展,并循環(huán)至框501以標(biāo)識(shí)下ー短語(yǔ),否則該部分在框507繼續(xù)。在判定框507,如果選定詞將提高短 語(yǔ)得分,則該部分在框509繼續(xù),否則該部分在框508繼續(xù)。在判定框508,如果選定詞和選定詞之后的下ー個(gè)詞將提高短語(yǔ)得分,則該部分在框509繼續(xù),否則該部分終止短語(yǔ)的擴(kuò)展,并循環(huán)至框501以標(biāo)識(shí)下一短語(yǔ)。在框509,該部分將選定詞添加到短語(yǔ)中,并循環(huán)至框504以選擇用于擴(kuò)展該短語(yǔ)的下ー詞。圖6是示出在一實(shí)施例中普通短語(yǔ)打分部分的處理的流程圖。該部分計(jì)算通用短語(yǔ)的短語(yǔ)得分?;蛘?,當(dāng)標(biāo)識(shí)每個(gè)普通短語(yǔ)時(shí),可計(jì)算該短語(yǔ)得分。在框601,該部分選擇下一普通短語(yǔ)。在判定框602,如果已經(jīng)選擇了全部普通短語(yǔ),則該部分返回,否則該部分在框603繼續(xù)。在框603,該部分初始化選定普通短語(yǔ)的短語(yǔ)得分。在框604-607,該部分循環(huán)將普通短語(yǔ)的詞的單詞得分合成(factor in)為短語(yǔ)得分。在框604,該部分選擇選定普通短語(yǔ)的下一個(gè)詞。在判定框605,如果已經(jīng)選擇了選定普通短語(yǔ)的所有詞,則該部分在框607繼續(xù),否則該部分在框606繼續(xù)。在框606,該部分將選定詞的單詞得分加到短語(yǔ)得分中,然后循環(huán)至框604以選擇選定普通短語(yǔ)的下一個(gè)詞。本領(lǐng)域技術(shù)人員將理解可使用許多不同技術(shù)來(lái)計(jì)算短語(yǔ)得分。例如,高度相關(guān)詞的單詞得分的兩倍可被添加到短語(yǔ)得分以強(qiáng)調(diào)高度相關(guān)字的重要性,可使用單詞得分的非線性組合,等等。在框607,該部分將短語(yǔ)得分乘以選定普通短語(yǔ)在搜索結(jié)果內(nèi)的出現(xiàn)次數(shù),然后該部分循環(huán)至框601以選擇下一普通短語(yǔ)。本領(lǐng)域技術(shù)人員將理解盡管為了作出說(shuō)明已在本文中描述了廣告系統(tǒng)的具體實(shí)施例,但可作各種更改而不背離本發(fā)明的精神和范圍。術(shù)語(yǔ)“商品”可包括任何可廣告的產(chǎn)品、服務(wù)、或觀念。例如,政黨可放置有關(guān)特定候選人或目標(biāo)的廣告。此外,廣告集可能沒(méi)有與之相關(guān)聯(lián)的鏈接。廣告商可能僅僅想要向使用某搜索詞提交請(qǐng)求的用戶顯示廣告的信息。例如,候選人可能想要在用戶提交其對(duì)手的名字為搜索詞的搜索請(qǐng)求時(shí)顯示廣告。本領(lǐng)域技術(shù)人員將理解可使用用于計(jì)算得分的各種方程和技術(shù)。此外,如果搜索結(jié)果包含復(fù)制品(或極為相似)的文檔,則廣告系統(tǒng)可忽略復(fù)制文檔。廣告系統(tǒng)可維持不應(yīng)添加到短語(yǔ)中的單詞列表,諸如所有網(wǎng)頁(yè)上非常常見的詞(例如,“下一頁(yè)”、“保密策略”)。因此,除了所附權(quán)利要求之外,本發(fā)明不受到其它限制。
權(quán)利要求
1.一種在計(jì)算機(jī)系統(tǒng)中用于從與商品相關(guān)的文檔中標(biāo)識(shí)與所述商品相關(guān)的短語(yǔ)的方法,所述方法包括 對(duì)所述文檔的詞產(chǎn)生得分,所述得分表示所述詞與所述商品的相關(guān)性,該對(duì)所述文檔的詞產(chǎn)生得分的步驟包括 計(jì)算在所述文檔內(nèi)所述詞的平均頻率,所述平均頻率表示該詞對(duì)每個(gè)所述文檔的頻率的平均值; 檢索所述詞的普通頻率,所述普通頻率表示該詞在所述文檔的文檔集中的平均頻率;根據(jù)所述詞的頻率得分和包含得分的線性組合產(chǎn)生所述詞的得分,其中所述頻率得分提供所述平均頻率相對(duì)所述普通頻率的得分,所述包含得分表示搜索結(jié)果的文檔中包含選定詞的比例; 選擇具有最高得分的詞; 定位所述文檔內(nèi)的每個(gè)選定詞,作為短語(yǔ)的錨詞; 對(duì)表示所述短語(yǔ)與所述商品的相關(guān)性的每個(gè)短語(yǔ)產(chǎn)生得分;以及當(dāng)擴(kuò)展后的短語(yǔ)的得分高于擴(kuò)展前的短語(yǔ)的得分時(shí),將每個(gè)短語(yǔ)擴(kuò)展到包含接近所述短語(yǔ)的詞。
2.如權(quán)利要求I所述的方法,其特征在于還包括在對(duì)所述文檔的詞產(chǎn)生得分之前 選擇所述商品的描述;以及 選擇與所述商品的選定描述相匹配的、相關(guān)于所述商品的文檔。
3.如權(quán)利要求2所述的方法,其特征在于,選擇與所述商品相關(guān)的文檔包括向搜索引擎服務(wù)提交所述商品的選定描述,并且其中所選擇的文檔基于由所述搜索引擎服務(wù)提供的搜索結(jié)果來(lái)檢索。
4.如權(quán)利要求2所述的方法,其特征在于,選擇所述商品的描述包括從商品目錄檢索所述描述。
5.如權(quán)利要求4所述的方法,其特征在于,所述商品的描述是存儲(chǔ)在所述商品目錄中的商品的名稱。
6.如權(quán)利要求I所述的方法,其特征在于,短語(yǔ)僅擴(kuò)展到具有表示與所述商品的相關(guān)性的得分的詞。
7.如權(quán)利要求I所述的方法,其特征在于,對(duì)表示所述短語(yǔ)與所述商品的相關(guān)性的每個(gè)短語(yǔ)產(chǎn)生得分的步驟包括確定所述短語(yǔ)在所述文檔內(nèi)出現(xiàn)的次數(shù)。
8.如權(quán)利要求I所述的方法,其特征在于,與短語(yǔ)中的另一個(gè)詞相似的詞不被添加到所述短語(yǔ)中。
9.如權(quán)利要求I所述的方法,其特征在于,當(dāng)遇到與已在短語(yǔ)中的詞相似的詞時(shí),終止對(duì)所述短語(yǔ)的擴(kuò)展。
10.如權(quán)利要求I所述的方法,其特征在于,忽略噪聲字。
11.如權(quán)利要求I所述的方法,其特征在于,忽略通常在一般文檔集中得分高的詞。
12.如權(quán)利要求I所述的方法,其特征在于在對(duì)所述文檔的詞產(chǎn)生得分之前,忽略與其它檢索到的文檔相似的文檔。
13.如權(quán)利要求3所述的方法,其特征在于還包括在向搜索引擎服務(wù)提交所述商品的選定描述之前,放置至少一個(gè)搜索詞與經(jīng)擴(kuò)展短語(yǔ)相同的所述商品的廣告。
14.如權(quán)利要求I所述的方法,還包括向已提交了包含所述經(jīng)擴(kuò)展短語(yǔ)中的一個(gè)短語(yǔ)的查詢的用戶顯示所述商品的廣告消息。
15.一種用于從與商品相關(guān)的信息源中標(biāo)識(shí)與所述商品相關(guān)的短語(yǔ)的計(jì)算系統(tǒng),包括 第一打分子系統(tǒng),它對(duì)所述信息源的詞產(chǎn)生得分,每個(gè)得分表示所述詞與所述商品的相關(guān)性,該對(duì)所述信息源的詞產(chǎn)生得分包括 計(jì)算在所述信息源內(nèi)所述詞的平均頻率,所述平均頻率表示該詞對(duì)每個(gè)所述信息源的頻率的平均值; 檢索所述詞的普通頻率,所述普通頻率表示該詞在所述信息源的信息源集中的平均頻率; 根據(jù)所述詞的頻率得分和包含得分的線性組合產(chǎn)生所述詞的得分,其中所述頻率得分提供所述平均頻率相對(duì)所述普通頻率的得分,所述包含得分表示搜索結(jié)果的信息源中包含選定詞的比例; 定位子系統(tǒng),它定位所述信息源內(nèi)得分最高的詞,作為短語(yǔ)的錨詞; 第二打分子系統(tǒng),它對(duì)表示所述短語(yǔ)與所述商品的相關(guān)性的每個(gè)短語(yǔ)產(chǎn)生得分;以及短語(yǔ)擴(kuò)展子系統(tǒng),當(dāng)擴(kuò)展后的短語(yǔ)的得分高于擴(kuò)展前的短語(yǔ)的得分時(shí),將每個(gè)短語(yǔ)擴(kuò)展到包含接近所述短語(yǔ)的詞。
全文摘要
提供了標(biāo)識(shí)用于放置關(guān)鍵詞目標(biāo)廣告的關(guān)鍵詞的方法和系統(tǒng)。廣告系統(tǒng)選擇要廣告商品的描述。廣告系統(tǒng)然后檢索與該選定描述相匹配的文檔。廣告系統(tǒng)對(duì)所檢索到的文檔的每個(gè)詞打分,表示該詞與要廣告商品的相關(guān)性。在對(duì)詞打分之后,廣告系統(tǒng)標(biāo)識(shí)文檔內(nèi)與商品相關(guān)的詞。廣告系統(tǒng)然后根據(jù)所標(biāo)識(shí)短語(yǔ)生成該要廣告商品的搜索詞。廣告系統(tǒng)向搜索引擎服務(wù)提交搜索詞和廣告,用于放置該商品的付費(fèi)廣告。
文檔編號(hào)G06Q30/02GK102708115SQ201210031669
公開日2012年10月3日 申請(qǐng)日期2005年8月8日 優(yōu)先權(quán)日2004年8月9日
發(fā)明者A·W·德紐, N·B·肖爾 申請(qǐng)人:亞馬遜技術(shù)股份有限公司