專利名稱:計(jì)算機(jī)執(zhí)行的方法和使用查詢執(zhí)行搜索的系統(tǒng)及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)整體涉及信息搜索和檢索。更具體地,披露了一種用于使用以字符集或與該字符集不同的語言或被搜索的文檔的至少一些的語言寫成的查詢執(zhí)行搜索的系統(tǒng)和方法。
背景技術(shù):
大多數(shù)搜索引擎在終端用戶使用類似于傳統(tǒng)鍵盤的東西(其中字母數(shù)字串的輸入不難)輸入搜索查詢的設(shè)想下工作。然而,隨著小型裝置變得越來越普及,這種設(shè)想并不總是有效的。例如,用戶可使用支持WAP(無線應(yīng)用協(xié)議)標(biāo)準(zhǔn)的無線電話查詢搜索引擎。 例如無線電話等裝置通常具有數(shù)據(jù)輸入界面,其中用戶的特定動(dòng)作(例如,按鍵)可對(duì)應(yīng)于多于一個(gè)的字母數(shù)字字符。WAP架構(gòu)的詳細(xì)描述可在http://WWWl. wapforum. org/tech/ documents/SPEC-WAPArch-19980439. pdf ( “WAP 100 無線應(yīng)用協(xié)議架構(gòu)規(guī)范”)處得到。在通常的情形下,WAP用戶導(dǎo)航到搜索查詢頁面,并且呈現(xiàn)給他們輸入其搜索查詢的形式。利用傳統(tǒng)方法,可要求用戶按多個(gè)鍵來選擇特定字母。在標(biāo)準(zhǔn)電話鍵盤上,例如, 用戶可通過按“2”鍵兩次選擇字母“b”,或通過按“7”鍵四次選擇字母“S”。因此,為了輸入對(duì)“ben smith”的查詢,用戶通常需要輸入以下按鍵串223366077776444844,它們映射到如下字母22 — b33 — e66 — η0 —空格7777 — s6 —m444 — i8 —t44 —h在用戶輸入其搜索請(qǐng)求后,搜索引擎收到來自用戶的詞,并且以與它們收到來自桌面瀏覽器(其中用戶使用傳統(tǒng)鍵盤)的請(qǐng)求幾乎相同的方式繼續(xù)。如可從上述實(shí)例看到的,這種數(shù)據(jù)輸入形式效率不高,因?yàn)?,它要求十八次擊鍵來輸入對(duì)應(yīng)于“ben smith”的九個(gè)字母數(shù)字字符(包括空格)。類似的困難可發(fā)生在使用非目標(biāo)語言鍵盤敲出查詢時(shí)。例如,可使用包括 hiragana, katakana、和kanji的多個(gè)不同的字符集表示日文文本,但均不容易使用基于羅馬字母表的典型的ASCII鍵盤輸入這些字符集。在這樣的情形下,用戶常常使用例如由日本德島市CTokushima City)的JustSystemg公司生產(chǎn)的Ichitaro等字處理器,這種字處理器能將以romaji(日文的表示語音的羅馬字母表表示)寫成的文本轉(zhuǎn)換成katakana、 hiragana、和kanji。使用該字處理器,用戶能以romaji鍵入查詢,接著將翻譯的文本從字處理器的屏幕剪切粘貼進(jìn)瀏覽器上的搜索框中。這種方法的缺點(diǎn)在于,其相對(duì)較慢且冗長, 并且要求用戶訪問字處理器的副本,但由于成本和/或存儲(chǔ)器限制,這可能不是可行的。因此,仍需要提供響應(yīng)于模糊的搜索查詢的相關(guān)搜索結(jié)果的方法和設(shè)備。
發(fā)明內(nèi)容
如本文中體現(xiàn)和廣泛描述的,根據(jù)本發(fā)明的方法和設(shè)備提供響應(yīng)于模糊的搜索查詢的相關(guān)搜索結(jié)果。根據(jù)本發(fā)明,這樣的方法包括接收來自用戶的模糊信息構(gòu)件序列。該方法獲得將模糊信息構(gòu)件映射到較不模糊的信息構(gòu)件的映射信息。這種映射信息用于將模糊信息構(gòu)件序列映射成一個(gè)或多個(gè)相應(yīng)的較不模糊的信息構(gòu)件序列。這些較不模糊的信息構(gòu)件序列的一個(gè)或多個(gè)作為輸入提供給搜索引擎。從搜索引擎獲得搜索結(jié)果,并且將該結(jié)果呈現(xiàn)給用戶。另外,本發(fā)明披露了用于使用查詢執(zhí)行搜索的系統(tǒng)和方法,其中所述查詢以不同于將被搜索的文檔的至少一些的字符集或語言的語言或字符集表示。本發(fā)明的實(shí)施例允許用戶使用標(biāo)準(zhǔn)輸入裝置(例如,ASCII鍵盤)敲出查詢,使得查詢?cè)诜?wù)器處被翻譯成相關(guān)形式(例如將以romaji寫成的查詢翻譯成katakana、hiragana、和/或kanji),并且接收基于轉(zhuǎn)換形式的搜索結(jié)果。應(yīng)理解,本發(fā)明可以多種方式實(shí)現(xiàn),包括程序、設(shè)備、系統(tǒng)、裝置、方法、或例如計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)等計(jì)算機(jī)可讀介質(zhì)、載波、或其中程序指令通過光或電子通信線路發(fā)送的計(jì)算機(jī)網(wǎng)絡(luò)。下面描述幾個(gè)本發(fā)明的實(shí)施例。在一個(gè)實(shí)施例中,描述了將查詢項(xiàng)自動(dòng)從一種語言和/或字符集翻譯到另一語言和/或字符集的方法。將包含給定查詢項(xiàng)的第一組錨文本識(shí)別為錨文本指向的一組文檔 (例如網(wǎng)頁)。接著識(shí)別以第二格式寫成并且指向同組文檔的第二組錨文本。接著分析第二組錨文本,以獲得給定查詢項(xiàng)以第一格式呈現(xiàn)對(duì)應(yīng)于給定查詢項(xiàng)以第二格式呈現(xiàn)的概率。在另一實(shí)施例中,創(chuàng)建將以第一格式(例如,語言和/或字符集)寫成的項(xiàng)映射到第二格式(例如,另一語言和/或字符集)的概率詞典。該概率詞典用于將以第一格式寫成的查詢翻譯成第二格式。接著將所翻譯的查詢用于執(zhí)行搜索,所搜索的結(jié)果被返回用戶。 在一些實(shí)施例中,用戶與搜索結(jié)果的交互可被監(jiān)控,并且用于更新概率詞典中的概率。并且,在一些實(shí)施例中,查詢自身在搜索之前可被擴(kuò)展,以包括可選語言和/或字符集映射。在又一實(shí)施例中,描述了創(chuàng)建概率詞典的方法。該概率詞典可用于將具有第一格式的項(xiàng)翻譯成第二格式。優(yōu)選通過識(shí)別包含該項(xiàng)的錨文本或其它數(shù)據(jù),逐項(xiàng)創(chuàng)建該詞典。接著,分析與該錨文本或其它數(shù)據(jù)對(duì)齊的數(shù)據(jù),以確定具有第一格式的給定項(xiàng)映射到具有第二格式的一個(gè)或多個(gè)項(xiàng)上的概率。在又一實(shí)施例中,通過將包含查詢項(xiàng)的一個(gè)或多個(gè)且以第一語言或字符集寫成的錨文本與對(duì)應(yīng)于第一錨文本且以第二語言或字符集寫成的錨文本進(jìn)行比較,將以第一語言或字符集提供的查詢翻譯成第二語言或字符集。在另一實(shí)施例中,提供用于將以第一格式寫成的項(xiàng)翻譯成第二格式的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品用于使計(jì)算機(jī)系統(tǒng)識(shí)別對(duì)齊的錨文本和確定給定項(xiàng)以第一格式呈現(xiàn)對(duì)應(yīng)于一個(gè)或多個(gè)項(xiàng)以第二格式呈現(xiàn)的概率。在另一實(shí)施例中,提供了使用潛在模糊的查詢執(zhí)行搜索的方法。當(dāng)用戶輸入具有第一格式的查詢時(shí),該查詢被翻譯成一組以第二格式寫成的一個(gè)或多個(gè)變異體。接著使用被翻譯的變異體執(zhí)行搜索,并且將響應(yīng)信息返回用戶。例如,第一格式可包括使用電話鍵盤輸入的數(shù)字序列,且第二格式可包括字母數(shù)字文本(例如,英語、romaji、romaja、拼音等)。在一些實(shí)施例中,通過丟棄不出現(xiàn)在預(yù)定索引詞表中的被翻譯的變異體和/或包含預(yù)定低概率字符組合的被翻譯的變異體,選擇該組一個(gè)或多個(gè)變異體。在一些實(shí)施例中,概率詞典用于在執(zhí)行搜索之前將該組一個(gè)或多個(gè)變異體進(jìn)一步翻譯成第三格式。例如,該概率詞典可用于將該組一個(gè)或多個(gè)變異體從romaji、romaja、或拼音翻譯成kanji、katakana, hiragana, hangul、hanja、或傳統(tǒng)漢字,接著使用被翻譯的變異體執(zhí)行搜索。本發(fā)明的這些和其它特性和優(yōu)點(diǎn)將更詳細(xì)地呈現(xiàn)在以下的詳細(xì)描述和附圖中,其中所述附圖借助于實(shí)例圖示本發(fā)明的原理。
附圖整合進(jìn)說明書并且構(gòu)成說明書的部分,圖示本發(fā)明的實(shí)施例,并且與描述一起用以說明本發(fā)明的優(yōu)點(diǎn)和原理。在附圖中圖1示出其中實(shí)現(xiàn)根據(jù)本發(fā)明的方法和設(shè)備的系統(tǒng)的框圖;圖2示出根據(jù)本發(fā)明的客戶機(jī)裝置的框圖;圖3示出描述三個(gè)文檔的圖示;圖如示出傳統(tǒng)字母數(shù)字索引表;圖4b示出提供響應(yīng)傳統(tǒng)的字母數(shù)字搜索查詢的搜索結(jié)果的流程圖;圖fe示出根據(jù)本發(fā)明的用于提供響應(yīng)模糊搜索查詢的搜索結(jié)果的流程圖;圖恥示出用于將字母數(shù)字信息映射到數(shù)字信息的圖示; 圖5c示出一實(shí)例數(shù)字索引;以及圖6示出根據(jù)本發(fā)明的用于提供響應(yīng)模糊搜索查詢的搜索結(jié)果的另一流程圖。圖7示出用于根據(jù)本發(fā)明的實(shí)施例執(zhí)行搜索的方法。圖8示出字符集翻譯的概率詞典。圖9示出使用平行錨文本構(gòu)造概率詞典的圖示。圖10示出使用錨文本鏈接的文檔集合。圖IlA和IlB示出基于圖10中所示的錨文本計(jì)算可能的翻譯的圖示。圖12示出與所示出的詞翻譯有關(guān)的概率分布。
具體實(shí)施例方式現(xiàn)在將詳細(xì)參看如附圖中示出的本發(fā)明的實(shí)施例。在附圖中始終使用相同參考標(biāo)號(hào),并且以下描述是指相同或相似部分。以下描述的呈現(xiàn)使得本領(lǐng)域中的任何技術(shù)人員都能制造和使用發(fā)明的工作主體。對(duì)具體實(shí)施例和應(yīng)用的描述僅作為實(shí)例而提供,且各種修改對(duì)本領(lǐng)域的技術(shù)人員來說是顯然的。例如,盡管以互聯(lián)網(wǎng)網(wǎng)頁為背景描述了多個(gè)實(shí)例, 但應(yīng)理解,本發(fā)明的實(shí)施例可用于搜索其它類型的文檔和/或信息,例如書、報(bào)紙、雜志等。類似地,盡管為了例示目的,許多實(shí)例描述了日文文本從romaji到katakana、hiragana, 和/或kanji的翻譯,但本領(lǐng)域的技術(shù)人員將理解,本發(fā)明的系統(tǒng)和方法可應(yīng)用于任何適合的翻譯。例如,非限制性地,本發(fā)明的實(shí)施例可用于基于以某一其它格式(例如,拼音或 romaja)接收的查詢搜索以例如傳統(tǒng)漢字或韓文hangul或hanja字符寫成的文本。本文中描述的一般性原理可應(yīng)用于其它實(shí)施例和應(yīng)用,而不偏離本發(fā)明的精神和范圍。因此, 本發(fā)明被給與最寬的范圍,涵蓋眾多與這里披露的原理和特性一致的可選物、修改、和等同物。為了簡潔起見,沒有描述與本發(fā)明相關(guān)的本領(lǐng)域中已知的技術(shù)材料的細(xì)節(jié),以免不必要地模糊本發(fā)明。A.概述根據(jù)本發(fā)明的方法和設(shè)備允許用戶提交模糊搜索查詢和接收潛在消除歧義的搜索結(jié)果。在一個(gè)實(shí)施例中,將從具有標(biāo)準(zhǔn)電話鍵盤的用戶接收的數(shù)字序列翻譯成一組潛在對(duì)應(yīng)的字母數(shù)字序列。使用布爾“或(OR)”表達(dá)式,將這些潛在對(duì)應(yīng)的字母數(shù)字序列作為輸入提供給傳統(tǒng)搜索引擎。這樣,該搜索引擎用于幫助限定用戶可能感興趣的搜索結(jié)果。B.架構(gòu)圖1示出其中可實(shí)現(xiàn)根據(jù)本發(fā)明的方法和設(shè)備的系統(tǒng)100。系統(tǒng)100可包括經(jīng)由網(wǎng)絡(luò)140連接至多個(gè)服務(wù)器120和130的多個(gè)客戶機(jī)裝置110。網(wǎng)絡(luò)140可包括局域網(wǎng) (LAN)、廣域網(wǎng)(WAN)、例如公共開關(guān)電話網(wǎng)絡(luò)(PSTN)等電話網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)、互聯(lián)網(wǎng)、或這些網(wǎng)絡(luò)的組合。為了簡潔起見,示出連接至網(wǎng)絡(luò)140的兩個(gè)客戶機(jī)裝置110和三個(gè)服務(wù)器120 和130。實(shí)際上,可以有更多或更少的客戶機(jī)裝置和服務(wù)器。并且,在一些情況下,客戶機(jī)裝置可執(zhí)行服務(wù)器的功能,且服務(wù)器可執(zhí)行客戶機(jī)裝置的功能??蛻魴C(jī)裝置110可包括例如大型機(jī)、小型計(jì)算機(jī)、個(gè)人計(jì)算機(jī)、膝上型電腦、個(gè)人數(shù)字助理等能連接至網(wǎng)絡(luò)140的裝置??蛻魴C(jī)裝置110可通過網(wǎng)絡(luò)140傳輸數(shù)據(jù),或經(jīng)由有線、無線、或光連接接收來自網(wǎng)絡(luò)140的數(shù)據(jù)。圖2示出根據(jù)本發(fā)明的示范性客戶機(jī)裝置110。客戶機(jī)裝置110可包括總線210、 處理器220、主存儲(chǔ)器230、只讀存儲(chǔ)器(ROM) M0、存儲(chǔ)裝置250、輸入裝置沈0、輸出裝置 270、和通信接口沘0??偩€210可包括一個(gè)或多個(gè)允許在客戶機(jī)裝置110的構(gòu)件之間通信的傳統(tǒng)總線。 處理器220可包括任何類型的用于理解并執(zhí)行指令的傳統(tǒng)處理器或微處理器。主存儲(chǔ)器 230可包括用于儲(chǔ)存由處理器220執(zhí)行的信息和指令的隨機(jī)存取存儲(chǔ)器(RAM)或另一類型的動(dòng)態(tài)存儲(chǔ)裝置。ROM 240可包括儲(chǔ)存處理器220使用的靜態(tài)信息和指令的傳統(tǒng)ROM裝置或另一類型的靜態(tài)存儲(chǔ)裝置。存儲(chǔ)裝置250可包括磁和/或光記錄介質(zhì)及其相應(yīng)驅(qū)動(dòng)器。輸入裝置260可包括允許用戶輸入信息給客戶機(jī)裝置110的一個(gè)或多個(gè)傳統(tǒng)機(jī)構(gòu),例如鍵盤、鼠標(biāo)、筆、語音識(shí)別和/或生物測(cè)定機(jī)構(gòu)等。輸入裝置270可包括輸出信息給用戶的一個(gè)或多個(gè)傳統(tǒng)機(jī)構(gòu),包括顯示器、打印機(jī)、揚(yáng)聲器等。通信接口 280可包括使得客戶機(jī)裝置110能與其它裝置和/或系統(tǒng)通信的任何收發(fā)器類型的機(jī)構(gòu)。例如,通信接口 280 可包括用于經(jīng)由網(wǎng)絡(luò)(例如,網(wǎng)絡(luò)140)與另一裝置或系統(tǒng)通信的機(jī)構(gòu)。如將在下面詳細(xì)描述的,根據(jù)本發(fā)明的客戶機(jī)裝置110執(zhí)行某些(certain)與搜索相關(guān)的操作??蛻魴C(jī)裝置110可響應(yīng)于處理器220執(zhí)行包含在計(jì)算機(jī)可讀介質(zhì)(例如存儲(chǔ)器230等)中的軟件指令執(zhí)行這些操作。計(jì)算機(jī)可讀介質(zhì)可被限定為一個(gè)或多個(gè)存儲(chǔ)器裝置和/或載波??蓮牧硪挥?jì)算機(jī)可讀介質(zhì)(例如,數(shù)據(jù)存儲(chǔ)裝置250等)或從經(jīng)由通信接口 280的另一裝置將軟件指令讀進(jìn)存儲(chǔ)器230。包含在存儲(chǔ)器230中的軟件指令使得處理器220能執(zhí)行下述與搜索相關(guān)的活動(dòng)。可選地,硬連線電路可用于代替軟件指令或與軟件指令結(jié)合使用,以執(zhí)行根據(jù)本發(fā)明的進(jìn)程。因此,本發(fā)明不限于硬連線電路和軟件的任何特定組合。服務(wù)器120和130可包括能連接至網(wǎng)絡(luò)140使得服務(wù)器120和130與客戶機(jī)裝置 110通信的一種或多種類型的計(jì)算機(jī)系統(tǒng),例如大型機(jī)、小型計(jì)算機(jī)或個(gè)人計(jì)算機(jī)等。在可選實(shí)施方式中,服務(wù)器120和130可包括用于直接連接至一個(gè)或多個(gè)客戶機(jī)裝置110的機(jī)構(gòu)。服務(wù)器120和130可通過網(wǎng)絡(luò)140傳輸數(shù)據(jù),或經(jīng)由有線、無線、或光連接接收來自網(wǎng)絡(luò)140的數(shù)據(jù)??梢灶愃朴谏厦鎱⒖磮D2對(duì)于客戶機(jī)裝置110描述的方式配置服務(wù)器。在根據(jù)本發(fā)明的實(shí)施方式中,服務(wù)器120可包括可由客戶機(jī)裝置110使用的搜索引擎125。服務(wù)器 130可儲(chǔ)存可由客戶機(jī)裝置110訪問的文檔(或網(wǎng)頁)。C.架構(gòu)操作圖3示出描述三個(gè)文檔的圖示,這三個(gè)文檔舉例來說可被儲(chǔ)存在服務(wù)器130的其中之一上。第一文檔(文檔1)包括兩個(gè)條目-“car repair (汽車維修)”和“car rental (汽車出租)”一,并且在其底部標(biāo)以號(hào)碼“3”。第二文檔(文檔2)包括條目“video rental (視頻出租)”。第三文檔(文檔3)包括三個(gè)條目-"wine (酒)”、“champagne (香檳)”、和“bar item(酒吧項(xiàng)目),,一,并且包括至文檔2的鏈接(或引用)。為了圖示簡潔起見,圖3中所示的文檔僅包含信息的字母數(shù)字串(例如,“car”、 "repair'\"wine^ )。然而,本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,在其它情形下,文檔可包括其它類型的信息,例如語音、或視聽信息等。圖如示出基于圖3中所示的文檔的傳統(tǒng)的字母數(shù)字索引表。該索引表的第一列包括一列字母數(shù)字項(xiàng),且第二列包括一列對(duì)應(yīng)于這些項(xiàng)的文檔。例如字母數(shù)字項(xiàng)“3”等一些項(xiàng)僅對(duì)應(yīng)于一個(gè)文檔(例如出現(xiàn)在一個(gè)文檔中),在此情形下,是文檔1。例如“rental” 等其它項(xiàng)對(duì)應(yīng)于多個(gè)文檔,在此情形下,是文檔1和2。圖4b示出例如搜索引擎125等傳統(tǒng)搜索引擎如何使用圖如中所示的索引表提供響應(yīng)于字母數(shù)字搜索查詢的搜索結(jié)果??墒褂萌魏蝹鹘y(tǒng)技術(shù)產(chǎn)生該字母數(shù)字查詢。為了例示目的,圖4b描述了兩個(gè)字母數(shù)字查詢“car”和“wine”。在傳統(tǒng)方法下,搜索引擎125 收到例如“car”等字母數(shù)字查詢(步驟410),并且使用該字母數(shù)字索引表確定哪些文檔對(duì)應(yīng)于該查詢(步驟420)。在該實(shí)例中,傳統(tǒng)搜索引擎125使用圖如中所示的索引表確定 “car”對(duì)應(yīng)于文檔1,并且將文檔1(或?qū)ξ臋n1的引用)作為搜索結(jié)果返回用戶。類似地, 傳統(tǒng)搜索引擎確定“wine”對(duì)應(yīng)于文檔3,并且將文檔3 (或?qū)ξ臋n3的引用)作為搜索結(jié)果返回用戶(步驟430)。圖如示出根據(jù)本發(fā)明的用于基于分別在圖3和如中示出的文檔和索引表提供響應(yīng)于數(shù)字搜索查詢的搜索結(jié)果的優(yōu)選技術(shù)的流程圖。為了使得圖示容易,圖如描述了用于基于標(biāo)準(zhǔn)電話手機(jī)(tel印hone handset)的映射處理數(shù)字查詢的特定技術(shù);但是本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,也可使用根據(jù)本發(fā)明的其它技術(shù)。
在步驟510,收到來自用戶的序列“227”(包括數(shù)字構(gòu)件“2”、“2”、和“7”)。在步驟520,獲得有關(guān)數(shù)字構(gòu)件如何映射到字母的信息。假定用戶從標(biāo)準(zhǔn)電話鍵盤輸入信息,在圖恥中示出該映射信息。如圖恥中所示,字母“a”、“b”、和“C”的每個(gè)都映射到數(shù)字“1”, 字母“P”、“q”、“r ”、和“ s”的每個(gè)都映射到數(shù)字“7”等。在步驟530,使用該映射信息,將序列“227”翻譯成其潛在的字母數(shù)字等同物。根據(jù)圖恥中所示的信息,存在36個(gè)對(duì)應(yīng)于序列“227”的可能的字母組合,包括下述aap、 bap、cap、abp、bbp、…、bar…car…ccs。如果數(shù)字包含在可能的組合中(例如,“aa7”), 則存在80個(gè)可能的組合。不是生成所有可能的字母數(shù)字等同物,可希望根據(jù)一些索引詞表限定所生成的等同物。例如,可希望僅產(chǎn)生出現(xiàn)在詞典、先前的搜索查詢的搜索引擎日志中的那些字母數(shù)字等同物;或通過使用已知統(tǒng)計(jì)技術(shù)(例如一起出現(xiàn)的某些詞的概率)以其它方式限定字母數(shù)字等同物。在步驟M0,使用邏輯“OR”操作,將這些字母數(shù)字等同物作為輸入提供給傳統(tǒng)搜索引擎(例如參看圖如和4b描述的)。例如,提供給搜索引擎的搜索查詢可以是“app OR bap OR cap OR abp-OR bar…OR car”。盡管可將所有可能的字母數(shù)字等同物提供給搜索引擎,但代之以,通過使用傳統(tǒng)技術(shù)消除不可能想要的等同物,使用子集。例如,通過使用 (drawupon)利用有關(guān)字母或詞的使用的概率信息的技術(shù),可產(chǎn)生可能組合的較窄列表可忽略從“qt”開始的組合,但包括(和喜歡)從“qu”開始的組合。在步驟550,從搜索引擎獲得搜索結(jié)果。由于例如“aap”和“abp”等項(xiàng)不出現(xiàn)在搜索引擎的索引表中,所以它們被有效地忽略。實(shí)際上,包含在圖4b中所示的索引表中的項(xiàng)僅為“car”和“bar”,從而所返回的唯一的搜索結(jié)果是引用文檔1和3的搜索結(jié)果。在步驟 560,將這些搜索結(jié)果呈現(xiàn)給用戶。可以以搜索引擎提供的相同順序呈現(xiàn)搜索結(jié)果,或可根據(jù)例如用戶語言等考慮對(duì)搜索結(jié)果重新排序。假定用戶僅對(duì)包含項(xiàng)“bar”的文檔感興趣, 則除了想要的結(jié)果(文檔1)外,用戶還接收不想要的結(jié)果(文檔3)。然而,為了用戶僅需按三個(gè)鍵來形成搜索查詢打算,這是可接受的付費(fèi)價(jià)格。圖6示出根據(jù)本發(fā)明的用于基于分別在圖3和如中示出的文檔和索引表提供響應(yīng)于數(shù)字搜索查詢的搜索結(jié)果的優(yōu)選技術(shù)的另一流程圖。該流程圖示出如何增加所接收的序列尺寸可有助于限定搜索結(jié)果到用戶想要的搜索結(jié)果。為了圖示容易起見,圖6再次描述了基于標(biāo)準(zhǔn)電話手機(jī)的映射處理數(shù)字查詢的特定技術(shù);但是本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,也可使用根據(jù)本發(fā)明的其它技術(shù)。在步驟610,收到來自用戶的序列“22748367,,(包括數(shù)字構(gòu)件“2,,、“2,,、“7,,、“4,,、 “8”、“3”、“6”、“7”)。為了說明目的,將序列“227”稱為“數(shù)字詞”,將整個(gè)序列“22748367”
稱為“數(shù)字短語”。將數(shù)字詞的可能的字母數(shù)字等同物稱為“字母詞”,將數(shù)字短語的可能的字母數(shù)字等同物稱為“字母短語”。在步驟620,獲得有關(guān)數(shù)字構(gòu)件如何映射到字母的信息。假定如圖恥中所示使用相同的映射信息,則在步驟630,將數(shù)字短語“22748367”翻譯成潛在對(duì)應(yīng)的字母短語。根據(jù)圖恥中所示的信息,存在11664個(gè)對(duì)應(yīng)于序列“22748367”的字母短語。在步驟640,使用邏輯“0R”操作,將這些字母短語作為輸入提供給傳統(tǒng)搜索引擎(例如參看圖如和仙描述的)。例如,提供給搜索引擎的搜索查詢可以是“’ ‘a(chǎn)ap gtdmp'OR ‘a(chǎn)ap htdmp,…0R,bar item,...OR ‘car item,”。盡管可將所有可能的字母短語提供給搜索引擎,但代之以,通過使用傳統(tǒng)技術(shù)消除不可能想要的字母短語,使用子集。在步驟650,從搜索引擎獲得搜索結(jié)果。由于許多搜索引擎被設(shè)計(jì)為使那些搜索的包含精確短語的文檔級(jí)別很高(rank highly),所以文檔3可能是級(jí)別最高的搜索結(jié)果 (即,由于它包含精確短語“bar items”)。該實(shí)例中沒有其它文檔包含在步驟620生成的其它字母短語的任何一個(gè)。并且,許多搜索引擎使包含短語的單獨(dú)部分但不包含整個(gè)短語的搜索結(jié)果權(quán)重下降或消除。例如,使得文檔1權(quán)重下降或消除,因?yàn)樗瑢?duì)應(yīng)于字母短語的第一部分的字母詞“car”,但不包含對(duì)應(yīng)于字母短語的第二部分的任何字母詞。最終, 例如“aap htdmp”等字母短語被有效忽略,因?yàn)樗鼈儾话霈F(xiàn)在搜索引擎索引表中的字母詞。在步驟660,將搜索結(jié)果呈現(xiàn)給用戶。在所示的實(shí)例中,顯示給用戶的第一結(jié)果是可能與用戶查詢最相關(guān)的文檔3。文檔1可被完全消除,因?yàn)樗话赡艿淖帜付陶Z的任何一個(gè)。這樣,將最相關(guān)的搜索結(jié)果提供給用戶。盡管參考收到數(shù)字信息并將其映射到字母數(shù)字信息做出上面參看圖5和6的描述,但本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,根據(jù)本發(fā)明其它實(shí)施方式也是可能的。例如,代替收到對(duì)應(yīng)于用戶按的鍵的數(shù)字序列,所收到的序列可包括對(duì)應(yīng)于用戶按的鍵的第一字母。換言之,代替接收“227”,所收到的序列可以是“aap”。根據(jù)本發(fā)明,在步驟530或630中產(chǎn)生的等同字母序列可以是對(duì)應(yīng)于“aap”的其它字母序列(例如,“bar”)。實(shí)際上,收到的序列可以包含語音、視聽、或任何其它類型的信息構(gòu)件。無論接收序列的形式如何,都通常優(yōu)選的是,收到的序列被翻譯成對(duì)應(yīng)于信息儲(chǔ)存在搜索引擎的索引表中的格式的序列。例如,如果搜索引擎的索引表被以字母數(shù)字格式儲(chǔ)存,則應(yīng)將收到的序列翻譯成字母數(shù)字序列。并且,通常優(yōu)選的是,用于翻譯收到的信息序列的映射技術(shù)可以是與在用戶裝置處采用的用于將用戶輸入映射到裝置產(chǎn)生的信息的技術(shù)相同的技術(shù)。然而,也存在優(yōu)選使用與用于用戶輸入的映射技術(shù)不同的映射技術(shù)的實(shí)例。本發(fā)明的實(shí)施例也可使得用戶能執(zhí)行使用非目標(biāo)語言鍵盤輸入的搜索。例如,包含日文文本的網(wǎng)頁可以kanji寫成,同時(shí)試圖搜索該網(wǎng)頁的用戶可僅訪問基于羅馬字母表的ASCII鍵盤(或手機(jī))。圖7示出用于執(zhí)行這樣的搜索的方法。如圖7中所示,用戶使用標(biāo)準(zhǔn)輸入裝置(例如,ASCII鍵盤、電話手機(jī)等)敲出查詢,并且發(fā)送該查詢給搜索引擎。該查詢可被以與寫成響應(yīng)文檔的一些的字符集(例如,kanji)不同的字符集(例如,romaji)寫成。搜索引擎收到該查詢(框70 ,將其翻譯成相關(guān)形式(框704),并且使用例如傳統(tǒng)搜索技術(shù)對(duì)響應(yīng)于翻譯的查詢的文檔執(zhí)行搜索(框706)。接著該搜索引擎返回一列響應(yīng)文檔(和/或文檔自身的副本)給用戶(框708)。例如,以類似于上面結(jié)合圖6描述的方式將結(jié)果返回給用戶。如圖7中所示,優(yōu)選在與客戶機(jī)相對(duì)的搜索引擎的服務(wù)器處翻譯用戶查詢,從而使得用戶不再需要獲得專用目的軟件來執(zhí)行該翻譯。然而,將理解,在其它實(shí)施例中,翻譯的全部或一些可在客戶機(jī)處執(zhí)行。另外,在一些實(shí)施例中,可使用例如電話鍵盤等裝置輸入查詢。在這樣的實(shí)施例中,使用上面結(jié)合圖5和6描述的映射技術(shù)(例如,包括索引詞表和 /概率技術(shù)的應(yīng)用)丟棄低概率映射(例如,包括不以romaji出現(xiàn)的字母組合的映射),可首先將最初的數(shù)字查詢轉(zhuǎn)換成字母數(shù)字形式(例如romaji)。一旦已經(jīng)獲得查詢的字母數(shù)字翻譯,則可執(zhí)行圖 中所示的步驟的剩余部分(即,704、706、和708)??梢远喾N方式執(zhí)行查詢從一種字符集或語言到另一字符集或語言的翻譯(即, 圖7中的框704)。一項(xiàng)技術(shù)是使用具有詞義或翻譯的傳統(tǒng)靜態(tài)詞典將查詢中的每個(gè)項(xiàng)映射到目標(biāo)語言或字符集中的對(duì)應(yīng)項(xiàng)。然而,該方法的問題是,它將常常產(chǎn)生不精確的結(jié)果, 因?yàn)樵~常常是模糊的,并且查詢過短,從而不能提供充分多的上下文線索來解決此模糊問題。例如,詞 “bank,,可以才旨river bank、financial institution、或 a maneuver by an airplane,從而使得難以理論上精確地翻譯。另外,如果該詞典相對(duì)不大,和/或沒有被頻繁更新,則它可能不包含用于搜索引擎可能遇到的所有項(xiàng)的條目,例如很少使用的詞、俚語、成語、固有名稱等。本發(fā)明的實(shí)施例可用于通過使用概率詞典將查詢項(xiàng)從一種語言或字符集(例如, ASCII)翻譯到另一語言或字符集(例如,kanji)克服或改善這些問題的一些或全部。在優(yōu)選實(shí)施例中,概率詞典將一組項(xiàng)映射到另一組項(xiàng),并且使概率與每個(gè)映射相關(guān)。為了方便起見,“項(xiàng)”或“語言符號(hào)(token)”是指詞、短語、和/或(更一般地)可包括空格的一個(gè)或多個(gè)字符序列。圖8示出例如上述等概率詞典800的實(shí)例。圖8中所示的實(shí)例概率詞典800將以 romaji (日文的羅馬字母表表示)寫成的詞映射到以kanji (非羅馬的基于表意文字的日文字符集)寫成的詞。為了便于解釋,圖8將羅馬項(xiàng)描述為〈項(xiàng)>r0maji,將kanji項(xiàng)描述為 <項(xiàng)>kanji0將理解,在實(shí)際的romaji到kanji詞典中,使用實(shí)際的romaji和kanji項(xiàng), 而不是圖8中所示的英文翻譯。因此,將理解,圖8用于方便本發(fā)明的實(shí)施例的說明,而不是圖示日文文本的實(shí)際特征和意思。詞典800包括用于多個(gè)romaji項(xiàng)802的條目808、810、812、814。該詞典也包括以 kanji寫成的這些項(xiàng)的每個(gè)的潛在呈現(xiàn)(r印resentation,表示)804以及每個(gè)這樣的呈現(xiàn)正確的對(duì)應(yīng)概率806。例如,romaji項(xiàng)“bank”可以概率0. 3映射到kanji項(xiàng)意思“steep slope”,以概率0. 4映射到項(xiàng)意思“financial institution”,以概率0. 2映射到項(xiàng)意思 "airplane maneuver”。該項(xiàng)可以概率0. 1映射到“其它”,這僅是允許每個(gè)項(xiàng)映射到可能不在詞典中的項(xiàng)的一般方式。再者,將理解,圖8中所示的實(shí)例已經(jīng)被構(gòu)造為例示以第一字符集或語言寫成的給定項(xiàng)(例如,詞“bank”)可映射到以另一字符集或語言寫成的多于一個(gè)的項(xiàng)。然而,本領(lǐng)域的技術(shù)人員將理解,為了簡潔起見,圖8中的具體實(shí)例使用英文詞和意思例示該原理,例如,詞“bank”的實(shí)際的romaji呈現(xiàn)可能不比其英文等同物模糊(例如,在用于financial institution的詞和用于airplane maneuver的詞之間romaji不存在模糊)。也應(yīng)理解, 為了便于解釋,圖8中所示的詞典也已經(jīng)在其它方面得以簡化。例如,實(shí)際的概率詞典可包含用于每個(gè)項(xiàng)的多得多的潛在映射,或可僅包含超過預(yù)定概率閾值的映射。本發(fā)明的優(yōu)選實(shí)施例使用這樣的概率詞典將以一種語言和/或字符集寫成的查詢翻譯成另一語言和/或字符集,從而使得用戶能找到以與其原始查詢不同的字符集和/ 或語言寫成的文檔。例如,如果用戶輸入以romaji寫成的對(duì)“cars”的查詢,則該概率詞典可被用于將用于“cars”的romaji項(xiàng)映射到例如用于“cars”的kanji項(xiàng)。這樣,用戶可找到與其查詢有關(guān)的文檔,即使該查詢的字符集(例如,romaji)和匹配文檔的字符集(例如,kanji)不同。注意,在本具體實(shí)例中,查詢的實(shí)際語言沒有改變(romaji和kanji均被用于表示日文),僅字符編碼改變。作為另一實(shí)例,以ASCII英文寫成的項(xiàng)“tired”可使用拉丁 1字符編碼映射到項(xiàng) “milde”,因?yàn)樵撟址冊(cè)魎在ASCII中不存在。注意,在本實(shí)例中,該詞典提供了翻譯成另一語言(英文到德文)和翻譯成另一字符編碼(ASCII到拉丁 1)兩種方式。在優(yōu)選實(shí)施例中,使用可在網(wǎng)絡(luò)上得到的信息以及統(tǒng)計(jì)技術(shù),以自動(dòng)方式構(gòu)造上述映射詞典。優(yōu)選實(shí)施例使用平行對(duì)齊的雙語語料庫(例如以不同語言和/或字符集寫成的錨文本)達(dá)到精確翻譯。使用這種數(shù)據(jù),優(yōu)選實(shí)施例可構(gòu)造潛在詞映射詞典。這舉例來說可通過簡單地對(duì)以語言Si (源語言)寫成的語言符號(hào)與在對(duì)齊的文本對(duì)(例如,錨、句子等)中的語言符號(hào)Tj(目標(biāo)語言)同時(shí)出現(xiàn)的次數(shù)計(jì)數(shù)完成。然而,將理解,可使用任何適合的技術(shù)。在缺少充分大并且正確對(duì)齊的數(shù)據(jù)集時(shí),該方法可產(chǎn)生較模糊的多對(duì)多的映射。 因此,例如,可僅確定Sl以某些頻率映射到T2、T3、T7、和T8。然而,這是可接受的,并且, 如下面更詳細(xì)地描述的,在一些實(shí)施例中,可做出另外的改進(jìn),以提高每個(gè)映射的相應(yīng)可能性,例如,通過檢查先前的用戶查詢、用戶對(duì)結(jié)果網(wǎng)頁上的項(xiàng)目的選擇等實(shí)現(xiàn)。圖9示出將平行錨文本用于構(gòu)造概率詞典。錨文本包括與網(wǎng)頁(或給定網(wǎng)頁內(nèi)的地址)之間的超鏈接相關(guān)的文本。例如,在超文本標(biāo)識(shí)語言(HTML)中,命令“<A href =“http://www.abc.com" >Banks and Savings and Loans</A>""Banks and Savings and Loans”作為指向在http://www. abc. com發(fā)現(xiàn)的網(wǎng)頁的超鏈接顯示。該文本 "Banks and Savings and Loans”被稱為“錨文本”,通常提供了對(duì)其指向的網(wǎng)頁(例如, www. abc. com)的簡短描述。實(shí)際上,錨文本將常常對(duì)網(wǎng)頁提供比網(wǎng)頁自身更精確的描述,因此在確定它指向的網(wǎng)頁的性質(zhì)中是特別有用的。另外,錨文本中的詞使用量(用法,usage) 和分布常常在精神和長度上與在用戶查詢中發(fā)現(xiàn)的接近。也有這樣的情形,指向給定頁的許多錨將包含相同或高度相似的文本。例如,指向誦.google, com的錨將常常簡稱為 “Google”,或?qū)⒅辽倥c其它文本一起使用該項(xiàng)。因此,通過檢查全部指向mm. google, com 的錨,例如,katakana,僅通過查找以最高頻率出現(xiàn)的項(xiàng)(可能在丟棄某些預(yù)定低信息-內(nèi)容錨,例如簡稱為“click here”的信息-內(nèi)容錨),可以較高的信任度推斷出用于“Google” 的katakana翻譯。本發(fā)明的優(yōu)選實(shí)施例利用錨文本的這些特征提供精確翻譯。參看圖9,在收到包含以第一字符集(例如,ASCII)寫成的項(xiàng)的查詢時(shí)(框902), 服務(wù)器識(shí)別其中該項(xiàng)出現(xiàn)的一組錨文本(框904)。例如,該服務(wù)器可檢查所有已知錨的索引表,以識(shí)別包含該項(xiàng)的那些錨。接著,那些錨點(diǎn)指向的網(wǎng)頁被識(shí)別(框906),之后識(shí)別指向這些網(wǎng)頁的以目標(biāo)語言或目標(biāo)字符集(例如,hiragana, katakana,和/或kanji)寫成的任何錨(框908)?,F(xiàn)在該系統(tǒng)將具有兩組文檔(其中錨文本被認(rèn)為是文檔形式)。接著將一個(gè)文檔集(例如,包含原始ASCII查詢的錨)中的查詢項(xiàng)的分布用于識(shí)別另一文檔集(例如,平行錨)中的翻譯的短語的最可能的候選對(duì)象。可對(duì)錨文本項(xiàng)出現(xiàn)的頻率計(jì)算出統(tǒng)計(jì)數(shù)字,并且將這些統(tǒng)計(jì)數(shù)字用于確定在為原始查詢的正確翻譯的錨文本中發(fā)現(xiàn)的項(xiàng)的相對(duì)頻率或概率(框910)。對(duì)于具有多個(gè)詞的查詢,可對(duì)每個(gè)詞重復(fù)上述過程,或僅將整個(gè)查詢認(rèn)為是單個(gè)項(xiàng),或使用詞的一些其它適合的分組。例如,如果查詢是“big houses", 則可通過找到包含該短語(或短語中的至少一個(gè)詞)的對(duì)齊的錨文本構(gòu)造可能翻譯詞典。類似地,如果該查詢包含多于兩個(gè)的項(xiàng),則通過拾取該查詢項(xiàng)的適當(dāng)子集并且產(chǎn)生那些項(xiàng)的結(jié)果,可建立確定合適映射的實(shí)驗(yàn)。以圖9中所示的方式執(zhí)行翻譯的一個(gè)優(yōu)點(diǎn)是,該翻譯系統(tǒng)不需要具有在以一種語言或字符集寫成的項(xiàng)和以目標(biāo)集寫成的項(xiàng)之間映射的現(xiàn)有知識(shí)。相反,可基于可用于執(zhí)行統(tǒng)計(jì)分析的數(shù)據(jù)體動(dòng)態(tài)確定映射。因此,例如,可能發(fā)現(xiàn)對(duì)于俚語項(xiàng)、成語、固有名稱等的精確翻譯,而不需要維護(hù)傳統(tǒng)的靜態(tài)詞典的努力或代價(jià)(例如,雙語分析和搜索)?,F(xiàn)在將結(jié)合圖10至圖12描述前述翻譯技術(shù)的例示性實(shí)施例。在本實(shí)例中,將假定用戶已輸入查詢項(xiàng)“house”,并且希望獲得以西班牙語寫成的搜索結(jié)果(或僅為查詢項(xiàng)的翻譯)。服務(wù)器將嘗試將英文項(xiàng)“house”翻譯成其西班牙語等同物。參看圖10,多個(gè)網(wǎng)頁959、961、963、965經(jīng)由錨文本960、962、964、966鏈接到網(wǎng)頁 972和974。網(wǎng)頁中的一些及其相關(guān)錨文本以英文寫成(即,網(wǎng)頁959a-e和963a-t),一些以西班牙語寫成(即,網(wǎng)頁961a_e和。服務(wù)器首先定位使用項(xiàng)“house”的所有錨。舉例來說可通過搜索儲(chǔ)存在服務(wù)器處的錨文本的索引表定位這些錨。使用這樣的索引表,服務(wù)器可首先找到每個(gè)都使用短語“big house”并且指向網(wǎng)頁972的五個(gè)錨960。該服務(wù)器接著確定也存在五個(gè)指向網(wǎng)頁972的目標(biāo)語言(即,西班牙語)錨962。在圖10中所示的實(shí)例中,這些錨包含文本“casa grander指向相同網(wǎng)頁(例如錨960和錨96 的錨或承載與之的預(yù)定關(guān)系的網(wǎng)頁的錨被稱為是“對(duì)齊的”,其中,就更一般的意義而言,對(duì)齊通常是指被對(duì)齊的項(xiàng)的等同物(或可能的等同物)。圖IlA示出每個(gè)目標(biāo)語言項(xiàng)出現(xiàn)在目標(biāo)語言錨962中的頻率。如圖IlA中所示,項(xiàng) “casa”和“grande”的每個(gè)都出現(xiàn)五次(即,每個(gè)錨962中一次)。因此,在出現(xiàn)在目標(biāo)錨 962中的十個(gè)總項(xiàng)中(即,在五個(gè)錨的每個(gè)中,每個(gè)錨兩個(gè)項(xiàng)),“CaSa”占一半,“grande”占一半。因此,如圖IlA中所示,此時(shí),項(xiàng)“house”以相等的概率映射到“casa”或“grande”, 因?yàn)檫@兩個(gè)項(xiàng)以相等的頻率出現(xiàn)。然而,如圖10中所示,該系統(tǒng)也找到二十個(gè)包含項(xiàng)“house”并且指向網(wǎng)頁974的英文錨964和十個(gè)包含項(xiàng)“casa”并且也指向網(wǎng)頁974的西班牙語錨966。如圖IlB中所示, 項(xiàng)“house”現(xiàn)在將以概率0. 75 ( BP, 15/20)映射到“casa”,以概率0. 25 (即,5Λ0)映射到 “grande”。僅通過用目標(biāo)語言錨(即,二十個(gè)項(xiàng)包含在錨962中的十個(gè),包含在錨964中的十個(gè))中項(xiàng)的總數(shù)(包括重復(fù)的項(xiàng))除目標(biāo)語言錨中每個(gè)項(xiàng)的出現(xiàn)總數(shù)(即,在“casa” 的情形下,為十五個(gè)),計(jì)算這些概率??蛇x地,或另外,也可將其它技術(shù)用于計(jì)算和/或改進(jìn)給定翻譯或映射的概率。例如,本領(lǐng)域中的技術(shù)人員將理解,多種已知技術(shù)中的任何一種 (例如,貝葉斯方法、直方圖平滑、核平滑、收縮估算量、和/或其它估計(jì)技術(shù))都可用于減少概率估計(jì)的方差誤差(variance error)。如果更多的錨文本可得到,則甚至可進(jìn)一步改進(jìn)概率。例如,最終的概率分布可類似于圖12中所示的概率分布,在圖12中,“house”以較高概率映射到“casa”及其小形式(diminutive form) “casita”,以稍小的概率映射得到類似于“casino”和 "mansion" (mansion的西班牙語詞)等項(xiàng),以可忽略的概率映射到類似于“grande”等項(xiàng)。 因此,無需正在被翻譯的語言和/或字符集的知識(shí),就可獲得正確翻譯以及類似同義詞的識(shí)別。已經(jīng)翻譯了查詢項(xiàng),現(xiàn)在服務(wù)器可使用該翻譯進(jìn)行搜索。例如,如果用戶將輸入對(duì)“hotels in Kyoto”的romaji查詢,則上述技術(shù)可用于使該服務(wù)器能推斷該查詢的 katakana, hiragana、和kanji形式,使用那些查詢執(zhí)行搜索,接著在適當(dāng)?shù)挠脩艚缑鎯?nèi)將那些查詢的每個(gè)的組合結(jié)果呈現(xiàn)給用戶。應(yīng)理解,結(jié)合圖10-12描述的實(shí)例僅為例示目的而提供,而非限制,并且可對(duì)這里描述的方法做出許多改變。例如,可將不同的統(tǒng)計(jì)技術(shù)用于得到概率,和/或可對(duì)上述的基本技術(shù)做出修改。類似地,應(yīng)理解,上述翻譯技術(shù)可僅用于執(zhí)行對(duì)用戶輸入的詞或短語的翻譯,而不需要用于執(zhí)行相關(guān)的互聯(lián)網(wǎng)搜索或創(chuàng)建概率詞典。另外,盡管前述實(shí)例描述了在收到用戶查詢后進(jìn)行的翻譯過程,但應(yīng)理解,在其它實(shí)施例中,可在收到用戶查詢之前執(zhí)行映射過程。這樣的預(yù)計(jì)算的映射可被儲(chǔ)存在例如圖8中描述的詞典中,接著可將該詞典應(yīng)用于在收到用戶查詢后翻譯用戶查詢。最終,應(yīng)理解,與對(duì)齊的錨文本不同的文本可用于執(zhí)行該翻譯。例如,可以類似方式使用對(duì)齊的句子或其它數(shù)據(jù)。在許多國家中,存在多于一種的官方或正式語言,且報(bào)紙和期刊常常包含以這些語言的每種寫成的相同文章。這些平行翻譯可以類似于前述錨文本的方式被使用,以準(zhǔn)備詞翻譯的概率詞典。因此,優(yōu)選實(shí)施例有利地使用戶能以傳統(tǒng)方式(例如,使用ASCII鍵盤)輸入搜索查詢和/或翻譯請(qǐng)求,并且提供精確和自動(dòng)的翻譯和搜索。在一些實(shí)施例中,可對(duì)上述基本模型做出另外的改進(jìn)。例如,在一些實(shí)施例中,可將優(yōu)先級(jí)(權(quán)重)給與包含類似于原始查詢和/或其它對(duì)齊的錨中的多個(gè)項(xiàng)的多個(gè)項(xiàng)的錨。例如,在圖10中所示的系統(tǒng)中,可將優(yōu)先級(jí)給與指向網(wǎng)頁974的錨,因?yàn)椋愃朴谠疾樵?,它們的每個(gè)都包含單個(gè)項(xiàng)。類似地,如果包含文本“l(fā)a casa grande”的錨也指向網(wǎng)頁972,則其權(quán)重將被減少適當(dāng)因子,因?yàn)樗绕鋵?duì)齊的其它錨多的項(xiàng)(即,3)。通過用適當(dāng)因子乘與這些錨的項(xiàng)相關(guān)的頻率,這樣的權(quán)重方案可反映在圖IlB中所示的概率計(jì)算中。上述翻譯過程也可用于提高搜索自身的有效性。例如,該概率詞典可用于在空中 (on the fly)擴(kuò)展查詢,以包括例如原始查詢項(xiàng)的各種翻譯和同義詞。通過在文檔檢索之前擴(kuò)展用戶查詢,可對(duì)相同“概念”同時(shí)執(zhí)行檢索,從而提高搜索結(jié)果包含用戶查找的項(xiàng)的可能性。可選地,或另外,通過提供文檔項(xiàng)的擴(kuò)展,該概率詞典可用于補(bǔ)充正常的文檔索引過程。例如,可利用來自該概率詞典的翻譯在文檔索引表中補(bǔ)充在文檔中找到的項(xiàng),從而提高文檔甚至通過不精確使用在原始文檔中找到的相同項(xiàng)的搜索定位的概率。在使用上述翻譯技術(shù)時(shí)產(chǎn)生的一個(gè)問題是,由于數(shù)據(jù)稀疏(例如,沒有充分多的錨來最后確定“casa”映射到“house” )或缺少多樣性(例如,所有錨說的是相同事情),則該系統(tǒng)不能獲得充分精確的概率映射。因此,在一些實(shí)施例中,通過檢查用戶行為,可進(jìn)一步提高概率映射。下面描述了幾個(gè)例示性技術(shù)。例如,再次假定服務(wù)器希望獲得對(duì)“house”的翻譯。然而,假定可僅找到一個(gè)錨文本包含短語“big house”或短語“casa grande”。由于在該錨文本中缺少多樣性,所以該概率詞典可得到以下映射 house — casa,具有 0. 5 的概率house — grande,具有 0. 5 的概率big — casa,具有 0. 5 的概率big — grande,具有 0. 5 的概率grande — house,具有 0. 5 的概率
grande — big,具有 0. 5 的概率casa — house,具有 0. 5 的概率casa — big,具有 0. 5 的概率想象用戶現(xiàn)在用項(xiàng)“casa”查詢?cè)撍阉饕?。同時(shí),該搜索引擎返回包含項(xiàng)“casa” 的網(wǎng)頁,并且也混合在僅包含項(xiàng)“house”的N個(gè)結(jié)果和僅包含項(xiàng)“big”的M個(gè)結(jié)果中。實(shí)際上,N和M可被調(diào)整,以考慮進(jìn)映射的基礎(chǔ)概率,從而,較不可能的映射將導(dǎo)致較少結(jié)果被顯示。如果發(fā)現(xiàn)用戶點(diǎn)擊僅包含項(xiàng)“house”的結(jié)果多于他們點(diǎn)擊僅包含項(xiàng)“big”的結(jié)果十次,則舉例來說可將映射概率調(diào)整如下house — casa,具有 0. 9 的概率house — grande,具有 0. 1 的概率big—casa,具有 0. 1 的概率big—grande,具有 0.9 的概率grande — house,具有 0. 1 的概率grande —big,具有 0.9 的概率casa — house,具有 0. 9 的概率casa —big,具有 0. 1 的概率注意,實(shí)際數(shù)目取決于多個(gè)其它因子,例如點(diǎn)擊被考慮進(jìn)來的用戶數(shù)量、點(diǎn)擊包含這兩項(xiàng)的網(wǎng)頁數(shù)量、包含正在討論的項(xiàng)的結(jié)果在結(jié)果集中的放置等。也應(yīng)理解,在該實(shí)例中給出的調(diào)整的概率(即,0. 1和0. 9)僅為例示性目的。本領(lǐng)域的技術(shù)人員將理解,可以任何適當(dāng)?shù)姆绞綀?zhí)行例如上述等給與用戶反饋的實(shí)際權(quán)重。也應(yīng)注意到,為了便于對(duì)用戶反饋使用的說明,簡化了前述實(shí)例。例如,在一些系統(tǒng)中,將可能使用從其它翻譯獲得的信息幫助執(zhí)行給定翻譯。例如,在剛呈現(xiàn)的實(shí)例中, 即使項(xiàng)“house”僅出現(xiàn)在稱為“big house”的錨文本中,仍可能確定與“house”映射到 “grande”相比,“house”更恰當(dāng)?shù)赜成涞健癱asa”。例如,如果已經(jīng)確定在充分大的數(shù)據(jù)集中(如果假定錨文本幾乎不包含一列同義詞),則“big”以非常大的概率映射到“grande”, 接著house到casa映射仍比house到grande映射優(yōu)先,即使包含“house”或“casa”的錨文本是不確定的也是如此。通過檢查用戶查詢會(huì)話歷史,也可提高翻譯精度和/或搜索結(jié)果的有用性。例如,在許多情形下,該系統(tǒng)將知道(例如,通過儲(chǔ)存在服務(wù)器處的用戶帳戶中的cookie或信息知道)用戶已輸入的先前的查詢。該歷史數(shù)據(jù)可用于對(duì)來自該用戶的查詢的可能感覺(sense)分級(jí),從而從與飛行相關(guān)的查詢潛在消除用于與捕魚有關(guān)的查詢的“bank”。因此,該過程可用于縮小可能的翻譯集合。在一些實(shí)施例中,通過在用戶界面中結(jié)合例如“Did you mean to search for X”(這里“X”是指預(yù)算的翻譯優(yōu)先級(jí))顯示它們,該系統(tǒng)可建議這些,同時(shí)也在結(jié)果的第一網(wǎng)頁中潛在顯示來自每個(gè)可能的再闡述(reformulation)的少量結(jié)果。當(dāng)用戶選擇由“Did you mean”顯示建議的可選對(duì)象或呈現(xiàn)在結(jié)果網(wǎng)頁上的結(jié)果的其中之一時(shí),該系統(tǒng)將獲得有關(guān)查詢?cè)~的可能翻譯以及用戶的可能搜索偏愛的另外的證據(jù)(evidence)。接著這兩種信號(hào)都可被系統(tǒng)使用來更新項(xiàng)映射(例如,在該概率詞典中) 的可能分?jǐn)?shù),二者均在一般的情形下以及用戶專用的情形下。D.結(jié)論
16
如上面詳細(xì)描述的,根據(jù)本發(fā)明的方法和系統(tǒng)可用于提供響應(yīng)于模糊搜索查詢的搜索結(jié)果和/或?qū)㈨?xiàng)翻譯成其它字符集合/或語言。已經(jīng)描述了多種翻譯和搜索技術(shù)。然而,將理解,為了例示目的呈現(xiàn)前面的描述,且根據(jù)上面的描述或通過實(shí)施本發(fā)明,多種修改和改變都是可能的。例如,盡管上面的描述基于客戶機(jī)-服務(wù)器架構(gòu),但本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,根據(jù)本發(fā)明也可使用對(duì)等式架構(gòu)。此外,盡管所描述的實(shí)施方式包括軟件,但本發(fā)明可作為硬件和軟件的組合或硬件自身實(shí)現(xiàn)。另外,盡管以儲(chǔ)存在存儲(chǔ)器中為例描述了本發(fā)明的各方面,但本領(lǐng)域的技術(shù)人員將理解,這些方面也可儲(chǔ)存在其它類型的計(jì)算機(jī)可讀介質(zhì)上,例如像硬盤、軟盤、或CD-ROM等輔助存儲(chǔ)裝置;來自互聯(lián)網(wǎng)的載波;或其它RAM 或ROM形式。因此,本發(fā)明的范圍由權(quán)利要求書及其等同物限定。
權(quán)利要求
1.一種計(jì)算機(jī)執(zhí)行的方法,包括接收以第一格式表示的第一搜索查詢,其中,所述第一搜索查詢包含以所述第一格式寫成的第一項(xiàng);從已知網(wǎng)頁的集合中識(shí)別包含數(shù)個(gè)第一錨文本串的第一集合和包含數(shù)個(gè)第二錨文本串的第二集合,其中,所述數(shù)個(gè)第一錨文本串中的每一個(gè)包含所述第一項(xiàng),所述數(shù)個(gè)第二錨文本串中的每一個(gè)包含以不同于所述第一格式的第二格式寫成的一個(gè)或多個(gè)第二項(xiàng),并且所述數(shù)個(gè)第一錨文本串中的每一個(gè)和所述數(shù)個(gè)第二錨文本串中的每一個(gè)是一個(gè)各自的第一超鏈接的被顯示部分,其中,所有的所述各自的第一超鏈接指向第一文檔;至少部分基于一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè)在所述數(shù)個(gè)第二錨文本串中出現(xiàn)的頻率, 得出所述第一項(xiàng)的以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯;以及響應(yīng)于以所述第一格式表示的所述搜索查詢,提供搜索結(jié)果,其中,所述搜索結(jié)果是由搜索引擎使用第二搜索查詢識(shí)別的,該第二搜索查詢包含以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯中的至少一個(gè)。
2.根據(jù)權(quán)利要求1所述的方法,其中,得出所述一個(gè)或多個(gè)候選翻譯進(jìn)一步包括 對(duì)于所述包含數(shù)個(gè)第二錨文本串的第二集合中的一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè), 確定所述包含數(shù)個(gè)第二錨文本串的第二集合中所述唯一項(xiàng)的各自計(jì)數(shù);以及相對(duì)于所有唯一項(xiàng)在所述包含數(shù)個(gè)第二錨文本串的第二集合中出現(xiàn)的總數(shù),基于所述唯一項(xiàng)的各自計(jì)數(shù),計(jì)算所述唯一項(xiàng)是所述第一項(xiàng)的準(zhǔn)確翻譯的各自概率;以及基于為所述一個(gè)或多個(gè)唯一項(xiàng)計(jì)算的各自概率,識(shí)別所述一個(gè)或多個(gè)候選翻譯。
3.根據(jù)權(quán)利要求1所述的方法,其中所述方法進(jìn)一步包括從所述已知網(wǎng)頁的集合中識(shí)別包含數(shù)個(gè)第三錨文本串的第三集合和包含數(shù)個(gè)第四錨文本串的第四集合,其中,所述數(shù)個(gè)第三錨文本串中的每一個(gè)包含所述第一項(xiàng),所述數(shù)個(gè)第四錨文本串中的每一個(gè)包含以所述第二格式寫成的一個(gè)或多個(gè)第四項(xiàng),所述數(shù)個(gè)第三錨文本串中的每一個(gè)和所述數(shù)個(gè)第四錨文本串中的每一個(gè)是一個(gè)各自的第二超鏈接的被顯示部分,其中,所有各自第二超鏈接指向不同于所述第一文檔的第二文檔;以及基于一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè)在包括所述第二和所述第四集合的組合集合中的所有錨文本串中出現(xiàn)的各自頻率,得出所述第一項(xiàng)的以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯。
4.根據(jù)權(quán)利要求3所述的方法,其中,得出所述一個(gè)或多個(gè)候選翻譯進(jìn)一步包括 對(duì)于所述錨文本串的組合集合中的一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè),確定所述錨文本串的組合集合中的所述唯一項(xiàng)的各自計(jì)數(shù);以及相對(duì)于所有唯一項(xiàng)在所述錨文本串的組合集合中出現(xiàn)的總數(shù),基于所述唯一項(xiàng)的所述各自計(jì)數(shù),計(jì)算所述唯一項(xiàng)是所述第一項(xiàng)的以所述第二格式寫成的準(zhǔn)確翻譯的各自概率; 以及基于為所述錨文本串的所述組合集合中的所述一個(gè)或多個(gè)唯一項(xiàng)計(jì)算的各自概率,識(shí)別所述一個(gè)或多個(gè)候選翻譯。
5.一種使用查詢執(zhí)行搜索的系統(tǒng),包括 一個(gè)或多個(gè)處理器;以及存儲(chǔ)器,其上存儲(chǔ)有指令,當(dāng)所述一個(gè)或多個(gè)處理器執(zhí)行所述指令時(shí),使得所述處理器執(zhí)行以下操作接收以第一格式表示的第一搜索查詢,其中,所述第一搜索查詢包含以所述第一格式寫成的第一項(xiàng);從已知網(wǎng)頁的集合中識(shí)別包含數(shù)個(gè)第一錨文本串的第一集合和包含數(shù)個(gè)第二錨文本串的第二集合,其中,所述數(shù)個(gè)第一錨文本串中的每一個(gè)包含所述第一項(xiàng),所述數(shù)個(gè)第二錨文本串中的每一個(gè)包含以不同于所述第一格式的第二格式寫成的一個(gè)或多個(gè)第二項(xiàng),并且所述數(shù)個(gè)第一錨文本串中的每一個(gè)和所述數(shù)個(gè)第二錨文本串中的每一個(gè)是一個(gè)各自的第一超鏈接的被顯示部分,其中,所有的所述各自的第一超鏈接指向第一文檔;至少部分基于一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè)在所述數(shù)個(gè)第二錨文本串中出現(xiàn)的頻率, 得出所述第一項(xiàng)的以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯;以及響應(yīng)于以所述第一格式表示的所述搜索查詢,提供搜索結(jié)果,其中,所述搜索結(jié)果是由搜索引擎使用第二搜索查詢識(shí)別的,該第二搜索查詢包含以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯中的至少一個(gè)。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,得出所述一個(gè)或多個(gè)候選翻譯進(jìn)一步包括 對(duì)于所述包含數(shù)個(gè)第二錨文本串的第二集合中的一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè), 確定所述包含數(shù)個(gè)第二錨文本串的第二集合中所述唯一項(xiàng)的各自計(jì)數(shù);以及相對(duì)于所有唯一項(xiàng)在所述包含數(shù)個(gè)第二錨文本串的第二集合中出現(xiàn)的總數(shù),基于所述唯一項(xiàng)的各自計(jì)數(shù),計(jì)算所述唯一項(xiàng)是所述第一項(xiàng)的準(zhǔn)確翻譯的各自概率;以及基于為所述一個(gè)或多個(gè)唯一項(xiàng)計(jì)算的各自概率,識(shí)別所述一個(gè)或多個(gè)候選翻譯。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述操作進(jìn)一步包括從所述已知網(wǎng)頁的集合中識(shí)別包含數(shù)個(gè)第三錨文本串的第三集合和包含數(shù)個(gè)第四錨文本串的第四集合,其中,所述數(shù)個(gè)第三錨文本串中的每一個(gè)包含所述第一項(xiàng),所述數(shù)個(gè)第四錨文本串中的每一個(gè)包含以所述第二格式寫成的一個(gè)或多個(gè)第四項(xiàng),所述數(shù)個(gè)第三錨文本串中的每一個(gè)和所述數(shù)個(gè)第四錨文本串中的每一個(gè)是一個(gè)各自的第二超鏈接的被顯示部分,其中,所有各自第二超鏈接指向不同于所述第一文檔的第二文檔;以及基于一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè)在包括所述第二和所述第四集合的組合集合中的所有錨文本串中出現(xiàn)的各自頻率,得出所述第一項(xiàng)的以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,得出所述一個(gè)或多個(gè)候選翻譯進(jìn)一步包括 對(duì)于所述錨文本串的組合集合中的一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè),確定所述錨文本串的組合集合中的所述唯一項(xiàng)的各自計(jì)數(shù);以及相對(duì)于所有唯一項(xiàng)在所述錨文本串的組合集合中出現(xiàn)的總數(shù),基于所述唯一項(xiàng)的所述各自計(jì)數(shù),計(jì)算所述唯一項(xiàng)是所述第一項(xiàng)的以所述第二格式寫成的準(zhǔn)確翻譯的各自概率; 以及基于為所述錨文本串的所述組合集合中的所述一個(gè)或多個(gè)唯一項(xiàng)計(jì)算的各自概率,識(shí)別所述一個(gè)或多個(gè)候選翻譯。
9.一種用于執(zhí)行搜索查詢的設(shè)備,包括輸入裝置,用于接收以第一格式表示的第一搜索查詢,并將所述第一搜索查詢提供給處理器,其中,所述第一搜索查詢包含以所述第一格式寫成的第一項(xiàng);所述處理器,用于從已知網(wǎng)頁的集合中識(shí)別包含數(shù)個(gè)第一錨文本串的第一集合和包含數(shù)個(gè)第二錨文本串的第二集合,其中,所述數(shù)個(gè)第一錨文本串中的每一個(gè)包含所述第一項(xiàng), 所述數(shù)個(gè)第二錨文本串中的每一個(gè)包含以不同于所述第一格式的第二格式寫成的一個(gè)或多個(gè)第二項(xiàng),并且所述數(shù)個(gè)第一錨文本串中的每一個(gè)和所述數(shù)個(gè)第二錨文本串中的每一個(gè)是一個(gè)各自的第一超鏈接的被顯示部分,其中,所有的所述各自的第一超鏈接指向第一文檔;以及至少部分基于一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè)在所述數(shù)個(gè)第二錨文本串中出現(xiàn)的頻率,得出所述第一項(xiàng)的以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯;以及輸出裝置,用于響應(yīng)于以所述第一格式表示的所述搜索查詢,提供搜索結(jié)果,其中,所述搜索結(jié)果是由搜索引擎使用第二搜索查詢識(shí)別的,該第二搜索查詢包含以所述第二格式寫成的一個(gè)或多個(gè)候選翻譯中的至少一個(gè)。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中,得出所述一個(gè)或多個(gè)候選翻譯進(jìn)一步包括 對(duì)于所述包含數(shù)個(gè)第二錨文本串的第二集合中的一個(gè)或多個(gè)唯一項(xiàng)中的每一個(gè), 確定所述包含數(shù)個(gè)第二錨文本串的第二集合中所述唯一項(xiàng)的各自計(jì)數(shù);以及相對(duì)于所有唯一項(xiàng)在所述包含數(shù)個(gè)第二錨文本串的第二集合中出現(xiàn)的總數(shù),基于所述唯一項(xiàng)的各自計(jì)數(shù),計(jì)算所述唯一項(xiàng)是所述第一項(xiàng)的準(zhǔn)確翻譯的各自概率;以及基于為所述一個(gè)或多個(gè)唯一項(xiàng)計(jì)算的各自概率,識(shí)別所述一個(gè)或多個(gè)候選翻譯。
全文摘要
本發(fā)明提供了計(jì)算機(jī)執(zhí)行的方法和使用查詢執(zhí)行搜索的系統(tǒng)及設(shè)備,該方法包括接收第一格式的第一搜索查詢,第一搜索查詢包含第一格式的第一項(xiàng);從已知網(wǎng)頁的集合中識(shí)別分別包含第一、第二錨文本串的第一、第二集合,每個(gè)第一錨文本串包含第一項(xiàng),每個(gè)第二錨文本串包含第二格式的第二項(xiàng),每個(gè)第一、第二錨文本串分別是一個(gè)各自的第一超鏈接的被顯示部分,所有各自第一超鏈接指向第一文檔;至少部分基于唯一項(xiàng)中的每一個(gè)在數(shù)個(gè)第二錨文本串中出現(xiàn)的頻率,得出第一項(xiàng)以第二格式寫成的候選翻譯;響應(yīng)于第一格式的搜索查詢,提供搜索結(jié)果,搜索結(jié)果是由搜索引擎使用第二搜索查詢識(shí)別的,該第二搜索查詢包含第二格式的一個(gè)或多個(gè)候選翻譯中的至少一個(gè)。
文檔編號(hào)G06F17/22GK102236702SQ20111013314
公開日2011年11月9日 申請(qǐng)日期2004年9月13日 優(yōu)先權(quán)日2003年9月30日
發(fā)明者桑賈伊·格馬瓦特, 熱·M·蓬特, 約翰·A·鮑爾, 維巴休·米塔爾, 邁赫蘭·薩哈米 申請(qǐng)人:Google公司