亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

具有基于概念的搜索和分級的信息檢索系統(tǒng)、方法和軟件的制作方法

文檔序號:6457136閱讀:199來源:國知局
專利名稱:具有基于概念的搜索和分級的信息檢索系統(tǒng)、方法和軟件的制作方法
技術(shù)領(lǐng)域
本發(fā)明的各種實施例涉及信息檢索系統(tǒng)和相關(guān)的查詢處理單 元以及方法。
背景技術(shù)
互聯(lián)網(wǎng)及其它計算機網(wǎng)絡(luò)的日益普及不僅推動利用率的增 加,而且推動了計算機用戶間對于數(shù)字信息的需求的增加。用戶 通常采用訪問裝置(例如計算機)與聯(lián)機信息檢索系統(tǒng)通信,以 試圖訪問這樣的信息。信息檢索系統(tǒng)通常包括圖形用戶界面,用 于輸入對信息的請求(被稱為查詢)并將其送至遠程搜索引擎。 搜索引擎識別通常以電子文件的形式存在的相關(guān)信息并向用戶的 訪問裝置返回結(jié)果列表。本發(fā)明人認識到的 一 個問題涉及典型搜索引擎的操作,這些 搜索引擎要求查詢和文檔以包含匹配單詞?;谥辽偃齻€理由, 這是有問題的。首先,搜索結(jié)果可能包括這樣的文件,它們包含 該查詢項但卻是不相關(guān)的,因為用戶對于該查詢項有不同的含義 (或者意思),而項匹配(term matching )無法對此作出辨別。這 最終使得用戶在搜索最相關(guān)文件時人工過濾不相關(guān)的結(jié)果。第二,依賴于查詢項到文件項的匹配還可能因為概念上相關(guān) 的文件未包含用戶輸入的精確的查詢項而導(dǎo)致搜索結(jié)果遺漏這些 文件。采用傳統(tǒng)搜索引擎檢索這些相關(guān)文件要求用戶理解所給出 概念的詞選項是變化的并構(gòu)造出更好的查詢?;蛘?,用戶可以簡 單地進行檢索而遺漏這些有價值的文件。第三,傳統(tǒng)的關(guān)鍵字搜索引擎基于那些文件中查詢項的出現(xiàn) 情況來對文件的相關(guān)性進行評分和分級。這意味著, 一些具有匹 配的查詢項和雖然概念上相關(guān)但不匹配的項的文件可能低于期望 的分級,雖然它們實際上與給定的查詢在概念上是相關(guān)的。這些錯誤的降等分級(lower ranking )可能迫使用戶在搜索到更相關(guān)的 文件之前在相關(guān)性較弱的文件上花費力氣,或者迫使其完全忽略 這些文件的其中一些。因此發(fā)明人已經(jīng)認識到需要進一步改進信息檢索系統(tǒng)處理用 戶查詢的方式。發(fā)明內(nèi)容為滿足這種和/或其它的需要,本發(fā)明人特別設(shè)計了這樣的系 統(tǒng)、方法和軟件,它們使用單詞的并發(fā)概率,從而不僅識別概念 上與用戶查詢相關(guān)的文件,而且還對搜索結(jié)果進行評分和分級。 一個示例系統(tǒng)將反向文件頻率(in verse-document-frequency )搜索與基于單詞的并發(fā)概率的概念搜索結(jié)合以助于查找到使用給定的 查詢的方式查找不到的文件。該示例系統(tǒng)還允許基于關(guān)鍵字匹配 和概念出現(xiàn)情況兩者對搜索結(jié)果分級,促使搜索結(jié)果的組織和評 論更有效率。


圖1是對應(yīng)于本發(fā)明一個或多個實施例的示例信息檢索系統(tǒng) 100的框圖。圖2是對應(yīng)于本發(fā)明一個或多個實施例的操作系統(tǒng)100的示 例方法的流程圖。
具體實施方式
本文件描述發(fā)明的一個或多個具體的實施例。這些提供的實施例并非用來限定本發(fā)明而只是給出本發(fā)明的示例和教導(dǎo),它們 以足夠詳細的方式加以展示和描述以使得本領(lǐng)域的技術(shù)人員能夠 實現(xiàn)或者實踐本發(fā)明。因此,如果不影響本發(fā)明的清楚性,則描 述可以省略某些為本領(lǐng)域技術(shù)人員所知的信息。概迷本示例系統(tǒng)使用 一對單詞之間的"翻譯"概率作為識別概念 上與用戶查詢相關(guān)的文件的基礎(chǔ)。"翻譯"概率是一個單詞可以被 譯成另一個的概率。這是容易理解的,當從一種語言翻譯到另一 種時一例如,法語中的" pomme (蘋果)" 一皮譯成英語中的 "apple (蘋果)"是高概率的;而"pomme (蘋杲)"被譯成"sock (短襪)" 的概率接近于零。在該示例實施例中,"翻譯"概率是單語的,并且可以獲取單 詞之間的同義及其它語義的關(guān)系。兩個單詞在它們的含義上越相 關(guān),它們的翻譯概率就越高。例如,"律師(lawyer)"和"法律代 理人(attorney)"是可互換的同義詞,所以它們有高的翻譯概率。 如另一個例子,考慮諸如"足球"、"美國國家足球聯(lián)盟"、"四分 衛(wèi)"、"教練"等等這些單詞之間的相關(guān)性。這些不是同義詞,但 是它們語義上相關(guān)并且因此具有一定的可度量的翻譯概率。在該示例實施例中,翻譯概率得自于單詞并發(fā)數(shù)據(jù)。并發(fā)單 詞對的信息被用于在統(tǒng)計上獲取語義的(概念上的)關(guān)系。在該 示例實施例中,表示特定單詞(單詞X)的"概念"被處理為等 價于所有在該并發(fā)數(shù)據(jù)中與單詞X并發(fā)的單詞。當與單詞X組對 的單詞在一個文件中出現(xiàn)越多時,就越能證明在該文件中討論單詞X的概念的想法。當單詞X是查詢項時,這種證據(jù)轉(zhuǎn)而導(dǎo)致了 較高的文件評分(不管單詞X是否出現(xiàn)在該文件中)。采用由并發(fā)數(shù)椐得來的翻譯概率允許檢索算法返回包含語義 上與用戶的查詢項相關(guān)(例如,高翻譯概率)的單詞的文件。由 于這樣,不要求實際的查詢單詞出現(xiàn)于作為相關(guān)結(jié)果返回的文件 中。例如,在搜索"律師"時,可以檢索到不包含單詞"律師" 但包含"法律代理人"、"審判"、"費用"和/或"法官"的文件作 為相關(guān)的文件。在另一個例子中,基于關(guān)鍵字的搜索中,查詢"熱咖啡"沒能找到包括項"熱"但省略項"咖啡"的以下文件。但是,本示 例實施例對該查詢在概念上作了拓展以有效地包含所有在 一 個窗 口內(nèi)統(tǒng)計上并發(fā)的單詞,該窗口位于各個查詢項的周圍。這使得 能夠基于示出的其它項的出現(xiàn)而檢索到文件,這些項在統(tǒng)計意義 上與"熱的"(加下劃線)、"咖啡"(粗體)或"咖啡"和"熱" 兩者(粗體和加下劃線)相關(guān)。查詢項"熱的"以雙下劃線示出。 原告請求精神痛苦的賠償費,聲稱她現(xiàn)在看到人們喝魚飲料時就會受到焦慮的侵襲。原告主張$1,785的醫(yī)療賠償和作為從事 面部按摩的美容師的$14,000的誤工費。作為證據(jù),被告提交了一 盤顯示原告正在喝j^飲料的監(jiān)控錄像帶。侵害原告經(jīng)過麥當勞的免下車店時要了兩杯^^。原告聲 稱保拉.愛德華遞給她托盤,或者"熱"和"咖啡"兩者(無修飾 或者粗體和加下劃線)原告被潑上兩杯魚茶的左臂遭受了二級燒傷,她丟掉了托盤 并將魚茶灑到阿萊密T^^的手臂上。盡管沒有在審判時出示證據(jù), 但是S"告聲稱麥當勞餐廳在雇傭和培訓(xùn)方面是有過失的.被告認 為原告是將^茶灑到了她自己身上。有人可能會考慮讓領(lǐng)域內(nèi)的專家以人工方式構(gòu)造概念,而不 是從并發(fā)數(shù)據(jù)得到概念。以人工方式構(gòu)造概念是困難的、耗時的 并且是帶有主觀傾向的過程。另外,針對一個領(lǐng)域的精心剪裁的 概念并不一定能擴展到另外一個領(lǐng)域。通過以統(tǒng)計方式,依靠并 發(fā)來獲取概念,可以自動獲取該領(lǐng)域,將主觀性排除在過程之外。這種新形式的概念搜索的應(yīng)用有很多。在法律領(lǐng)域,概念搜 索是電子信息取證(e-discovery )中的有用的工具,在那里找到所 有與案件相關(guān)的文件是重要的。通常,在用戶可能不是她所搜索 的領(lǐng)域的專家的情況下,以及在用戶不知道某些事物的技術(shù)的或 特定的術(shù)語的情況下,概念搜索是有用的。示例信息檢索系統(tǒng) 圖1示出示例性的聯(lián)機信息檢索系統(tǒng)100。系統(tǒng)100包括一個 或多個數(shù)據(jù)庫110、 一個或多個服務(wù)器120和一個或多個訪問裝置 130。示例數(shù)據(jù)庫數(shù)據(jù)庫110包括一個或多個數(shù)據(jù)庫的集合。示例的法律數(shù)據(jù) 庫包括判例法數(shù)據(jù)庫和法條數(shù)據(jù)庫,其分別包括來自 一個或多個 本地的、州的、聯(lián)邦的和/或國際司法管轄的法律意見和法條。示 例的法律數(shù)據(jù)庫還包括法律分類數(shù)據(jù)庫和法律評論。其它示例的數(shù)據(jù)庫提供法律代理人、法官、律師事務(wù)所、產(chǎn)品(product)和 法人(corporate )簡介。在 一些實施例中,判例法文件通過數(shù)據(jù)結(jié) 構(gòu)與其它數(shù)據(jù)庫中的文件或簡介在邏輯上相關(guān)聯(lián)。其它實施例可 以包括非法律數(shù)據(jù)庫,這些數(shù)據(jù)庫包括金融、科學(xué)或保健信息。 另外其它的實施例提供公共或私用數(shù)據(jù)庫(諸如那些通過 INFOTRAC可用的)。 一些實施例允許互聯(lián)網(wǎng)搜索,并且因此包 含網(wǎng)站和網(wǎng)頁,以及其它實施例允許用戶依照電子信息取證 (electronic discovery )來定義其自己的數(shù)據(jù)庫(例如文件的數(shù)據(jù)庫, 文件例如是電子郵件文件)。數(shù)據(jù)庫110采取一個或多個電子、磁或光學(xué)的數(shù)據(jù)存儲裝置 的示例形式,包含或者關(guān)聯(lián)于相應(yīng)的索引(未示出)。每一個索 引包括關(guān)聯(lián)于對應(yīng)的文件地址、標識符和其它常規(guī)信息的項和詞 組。數(shù)據(jù)庫110耦合到服務(wù)器120,或者通過無線或有線通信網(wǎng)絡(luò) (例如,局域網(wǎng)絡(luò)、廣域網(wǎng)絡(luò)、私有網(wǎng)絡(luò)和虛擬私有網(wǎng)絡(luò))可耦合 到服務(wù)器120。示例服務(wù)器服務(wù)器120,通常典型的是一個或多個用于提供(serving)網(wǎng) 頁或其它標記語言形式的數(shù)據(jù)的服務(wù)器,其配備相關(guān)的小應(yīng)用程 序(applet) 、 Active X控件、遠程調(diào)用對象或其它相關(guān)的軟件和 數(shù)據(jù)結(jié)構(gòu),從而為各種"厚度"的客戶端提供服務(wù)。更具體地, 服務(wù)器120包括處理器模塊121、存儲器模塊122、訂戶數(shù)據(jù)庫123、 初級搜索模塊124、概念搜索模塊125和用戶界面模塊126。處理器模塊12]包括一個或多個本地或分布式的處理器、控 制器或虛擬機。在該示例實施例中,處理器模塊121采取任何方 便或理想的形式。存儲器模塊122采用一個或多個電子、磁或光學(xué)的數(shù)據(jù)存儲 裝置的示例形式,存儲了訂戶數(shù)據(jù)庫123、初級搜索模塊124、概念搜索模塊125和用戶界面模塊126。訂戶數(shù)據(jù)庫123包括與訂戶相關(guān)的數(shù)據(jù),用于控制、執(zhí)行和 管理對數(shù)據(jù)庫110的付費通行(pay-as-you-go )或基于訂閱的訪問。 在該示例實施例中,訂戶數(shù)據(jù)庫123包括一個或多個偏好數(shù)據(jù)結(jié) 構(gòu),其中的數(shù)據(jù)結(jié)構(gòu)1231是典型的例子。數(shù)椐結(jié)構(gòu)1211包含客 戶或用戶標識符部分1231A,其邏輯地關(guān)聯(lián)于一個或多個概念搜 索或表示開j式偏好(presentation preferences ), 例如偏好1231B、 1231C和1231D。偏好1231B包括決定(governing)概念搜索是 否可以進行的默認值。偏好1231C包括決定搜索結(jié)果的表示形式 的默認值,例如,只被概念搜索檢索出來的文件是否作標記或提 供在單獨的標簽(tab)或文件夾中。偏好1231D包括決定是否允 許或者在多大程度上允許概念搜索對搜索結(jié)果的相關(guān)計算產(chǎn)生影 響的默認值。(當臨時用戶無控制權(quán)限(override)(例如在特定 的查詢或會話期間的控制權(quán)限)時,概念搜索的默認值起作用。)初級搜索模塊124包括一個或多個搜索引擎和相關(guān)的用戶界 面部分,用于用于接收和處理用戶對一個或多個數(shù)據(jù)庫110的查 詢。在該示例實施例中, 一個或多個關(guān)聯(lián)于搜索模塊124的搜索 引擎提供布爾(Boolean) 、 tf-idf、自然語言搜索能力。概念搜索模塊125包括一個或多個概念搜索引擎,用于使用 這里描述的概念搜索技術(shù)接收和處理對一個或多個數(shù)據(jù)庫110的 查詢。 一些實施例對通過概念搜索進行的搜索和/或訪問文件進行 單獨或額外的收費。具體地,概念搜索模塊125包括概念搜索數(shù) 據(jù)1251和概念搜索引擎1252。概念搜索數(shù)椐1251包括一個或多個關(guān)于文件中的并發(fā)單詞對 的統(tǒng)計數(shù)據(jù)組,以隱含地獲取語義(概念上的)關(guān)系。關(guān)于并發(fā) 對的統(tǒng)計數(shù)據(jù)被直接用于示例的信息檢索算法,因而在該示例實 施例中無需將現(xiàn)有的、單獨的概念與現(xiàn)有的搜索機制相結(jié)合。更具體地,概念搜索數(shù)據(jù)1251包括來自文件的文集("全體") 的單詞對的并發(fā)概率1251A和目標文件集合(數(shù)據(jù)庫110 )的并 發(fā)概率1251A的索引。在該示例實施例中,并發(fā)概率1251A根據(jù)單獨的源而不是目 標文件集合決定,以提高概念的穩(wěn)定性,該穩(wěn)定性不依賴于目標 文件集合。例如,在法律領(lǐng)域,該全體包括2000萬件有判詞提要的(headnoted)文件。盡管在示例性實施例中,由人類編輯者為 判例法文件人工定義判詞提要,但是 一 些實施例可以使用機器生 成的文件摘要(machine documents summaries )、百科全書的引用 等等方式。對于示例的新領(lǐng)域,單個總體或文集包括900,000個文 件。(通常,目前認為用作并發(fā)數(shù)據(jù)基礎(chǔ)的文集在文件數(shù)量上應(yīng) 當比目標數(shù)椐庫大。但是據(jù)推測,數(shù)量較少但是信息量更大的文 件集合(例如基于罕見單詞的頻度)也可以用。)單詞對按照以下方式從文集中構(gòu)造停用單詞(stop word) 被去除,并且然后將每個單詞與其兩邊的距離為5個單詞的所有 其它單詞(包括它自己)組對,每個單詞生成11個單詞對。在該 示例實施例中,單詞對是無序的(即,X_Y=Y_X)。(但是一些 實施例可以使用有序單詞對。)另外,該示例實施例將單詞對中 的單詞在8個字符處進行截取,為單詞對數(shù)據(jù)提供了一定的平滑 (smoothing )。每一單詞對關(guān)聯(lián)于一個或多個頻率計數(shù)。因為每個單詞也與 自己組對,所以計數(shù)也為單個的項保留。使用文集中的單詞對的 這些頻率計數(shù),該示例實施例確定了并發(fā)概率。具體地,這需要 進行以下最大似然估計(MLE)的計算Pmie(wl|w2)=單詞對wl—w2的頻率/w2_w2的頻率等式(l)這些是(未平滑(unsmoothed))的概率估計,被用于語言模型 的概念搜索部分,在等式中以P(qid)示出。這些概率允許我們量化 q和d并發(fā)的可能性。對于所有D中的d (deD)求和得到在特定 文件中的項和q之間的所有的并發(fā),其提供了在那個文件中包含q 的概念(以q表示)和與q的概念建立有并發(fā)關(guān)系的所有單詞的 證據(jù)。盡管相關(guān)項(即,單詞對)不一定是專家人工定義概念時 選取的單詞,但是這些單詞對(更廣義的詞是N元文法(n-grams)) 通過統(tǒng)計并發(fā)來隱含地獲取"概念"。索引1251B基于為文集而確定的并發(fā)概率。目標文件集合(例 如,數(shù)據(jù)庫110的一個或多個部分)根據(jù)P ( w|D)概率為建立索 引。為避免稀疏,使用Jelinek-Mercer平滑對整個集合平滑這些概 率,該平滑由下式?jīng)Q定P(w|D) = 1 Pmie(wpocument) + (1 - X) Pmie(wlCollection) 等式(2)為每個集合,按照經(jīng)驗設(shè)定用于平滑的希臘字母X的值,該值受 諸如集合中文件的長度和集合的大小等因素的影響。概念搜索引擎1252基于與用戶查詢項的概念上的關(guān)系從數(shù)椐 庫110中識別文件。在該示例實施例中,這需要組合關(guān)鍵字搜索 和概念搜索數(shù)據(jù)1241中的并發(fā)概率和使用語言建模技術(shù),該建模 技術(shù)用于信息檢索并且根據(jù)統(tǒng)計機器翻譯。在實現(xiàn)信息檢索的基 于關(guān)鍵字的語言建模方式中,每個文件基于查詢單詞(q)在那個 文件(D)中出現(xiàn)的概率(P)進行評分P(qp)-q出現(xiàn)在D中 的次數(shù)除以D的長度。在該關(guān)鍵字模型中,根據(jù)以下等式對文件 進行評分文件分數(shù)=P(q,P) x P(q2|D) x ... x P(qn|D) -EIiP(qilD)對于Q中的所有q等式(3)其中Q表示整個查詢。搜索的結(jié)果通常以得分最高排在首位的順 序返回給用戶。另一方面,在統(tǒng)計機器翻譯的語言建模技術(shù)中, 評分基于"翻譯"概率P(q|D):或文件中的單詞可以被解釋成該 查詢單詞的概率。但是,代之以逐字"翻譯,,文件中的單詞,該 示例實施例使用單詞對并發(fā)概率作為概念上的接近程度的量度, 以作目標更廣的翻譯。將這兩種方式組合為新的混合模型,該示例實施例根據(jù)下式 為文件評分文件分數(shù)-ITi[^ P(q"D) + X2&P(q掩)P(dk|D)
等式(4) 其中P(q|D)=ni P(qilD)表示信息檢索的基于關(guān)鍵字的語言模型P(QP) = IIi Sk P(qi|dk) P(4|D) 等式(5)表示Berger & Lafferty的(1999)翻譯語言才莫型;并且^和人2表示兩個搜索部分 的權(quán)重因子。該示例實施例賦予關(guān)鍵字和概念搜索部分同樣的權(quán)重0.5。但是通過改變、和X2的值(在^+X2=1的約束條件下),任一部分可以被給予更大的權(quán)重。總的來說,該示例概念搜索將關(guān)鍵字搜索和并發(fā)概率組合, 將與用戶的查詢既是關(guān)鍵字相關(guān)又是概念相關(guān)的文件檢索考慮進來。在該方式中,可以理解的是并發(fā)對的使用擴大了檢索結(jié)果范圍(recall),使得所有相關(guān) 文件中有更多的相關(guān)文件被檢索到;基于關(guān)鍵字的語言建模的使用具有高精確度;并且該模型具有靈活性,這是因為它允許以不同的方式對其各個 部分"賦予權(quán)重",從而最大化檢索結(jié)果范圍和精確度。一些實施例加大了查詢的依賴性,認識到查詢本身表示用戶 正在搜索的概念。具體地,該方式的一個實施例使用單詞對建立 查詢單詞之間依賴性的^f莫型,從而獲取概念的信息。因此,代之 以將查詢分成單個查詢項,該示例實施例將該查詢表示成包含在 其內(nèi)的所有可能的單詞對。例如,查詢"大的紅色氣球"產(chǎn)生以 下查詢單詞對大的—大的、紅色一紅色、氣球一氣球、大的—紅色、 大的—氣球、紅色—氣球。對于這些單詞對,文;分數(shù)由下式定義文件分數(shù)=11 [M P(ql—q2|D) + U [[P(ql |d) + P(q2|d)] P(d|D)]]等式(6)其中P(ql|d) + P(q2ld)只有在P(ql ld)和P(q2ld)都不為零的情況下才估 算。因為該示例實施例缺少給定文件項下的雙項對(bitermpair) 的概率P(wl—w2|d),因此它通過下列方式粗略地(on the fly)地取 這些概率的近似值使評分等式的概念搜索部分依賴于雙項中的 兩個單詞相對于該文件項的并發(fā)相無率。對于查詢單詞雙項ql一q2,該示例實施例將P(qlld)和P(q2ld)的并發(fā)概率相加,然后乘以每個文 件項在P(ql ld)和P(q2ld)都存在時的P(d|D)。如果P(ql ld)或P(q2ld)不 存在,那么P(qlld) + P(q2id)被設(shè)置為i于零。對于 一元(unigram ) 概念搜索語言模型,X!和、兩者被設(shè)置成0.5,因此該關(guān)鍵字和概 念搜索部分被賦予相等的權(quán)重。一些實施例使用等式(4)或(6)的修正形式,這些修正形式使用另一種類型的相關(guān)性指示器來代替或補充概念部分。例如, 一個這樣的實施例加入了相關(guān)性因子,其基于文件的使用習(xí)慣的 統(tǒng)計數(shù)據(jù)。該統(tǒng)計數(shù)據(jù)可基于該文件的打印、電子郵件或點擊率,以用于類似的查詢;用戶對該文件的評述或分級日期(rating date); 和/或該文件的引用情況的統(tǒng)計數(shù)據(jù)。這些因子可以由X因子賦予權(quán) 重,其約束條件是這些入因子的總和為1。用戶界面模塊126包括機器可讀和/或可執(zhí)行指令集,用于在 一個或多個訪問裝置(例如訪問裝置130)上完全或部分地定義位 于無線或有線通信網(wǎng)絡(luò)之上的基于網(wǎng)絡(luò)(web-based)的用戶界面, 例如搜索界面1261和結(jié)果界面1262。示例的訪問裝置訪問裝置130通常典型的是一個或多個訪問裝置。在該示例 實施例中,訪問裝置130采用的形式有個人計算機、工作站、個 人數(shù)字助理、移動電話或能夠向服務(wù)器或數(shù)據(jù)庫提供有效的用戶 界面的任何其它裝置。具體地,訪問裝置130包括處理器模塊131 (一個或多個處理器(或處理電路)131)、存儲器132、顯示器 133、鍵盤134和圖形指針或選擇器135。處理器模塊131包括一個或多個處理器、處理電路或控制器。 在該示例實施例中,處理器模塊131取任何方便或期望的形式。 存儲器132耦合到處理器模塊131。存儲器132存儲操作系統(tǒng)136、瀏覽器137和圖形用戶界面 (GUI) 138的代碼(機器可讀或可執(zhí)行指令)。在該示例實施例 中,操作系統(tǒng)136采用Microsoft Windows操作系統(tǒng)版本的形式, 并且瀏覽器137采用Microsoft Internet Exploer版本的形式。操作 系統(tǒng)136和瀏覽器137不僅從鍵盤134和選擇器135接收輸入, 而且還支持在顯示器133上提供GUI 138。在提供之后,GUI 138 示出與一個或多個交互控制特征(或用戶界面元素)關(guān)聯(lián)的數(shù)據(jù)。 (該示例實施例使用來自服務(wù)器120的小應(yīng)用程序(applets)或其 它編程對象(programmatic object)或結(jié)構(gòu)來定義界面138的一個 或多個部分,以實現(xiàn)上面示出的或在本說明其它地方描述的界面)在該示例實施例中,這些控制特征的每一個采用超鏈接或其 它瀏覽器可兼容的命令輸入的形式,并且提供對查詢區(qū)域1381和搜索結(jié)果區(qū)域1382的接入和對查詢區(qū)域1381和搜索結(jié)果區(qū)域 1382的控制。區(qū)域1382中的控制特征用戶選擇(尤其是文本查詢 到輸入?yún)^(qū)域1381A的輸入和通過提交按鈕1381B的驅(qū)動到服務(wù)器 120的查詢的提交),使得在結(jié)果區(qū)域1382顯示搜索結(jié)果列表 1382A。從列表1382A選擇列出的文件,致使了界面138區(qū)域中 的對應(yīng)文件的至少一部分的檢索和顯示(該圖中未示出)。盡管 圖1同時地示出了區(qū)域1381和1382,但是一些實施例在單獨的時 間示出它們。以下描迷界面的其他功能的方面。示例操作方法圖2示出操作例如系統(tǒng)100的系統(tǒng)的一個或多個示例方法的 流程圖200。流程圖200包括塊210-240,其在該示例實施例中的 一系列執(zhí)行序列中被安排和描述。但是,其他實施例使用多處理 器或類處理器裝置或組織成兩個或多個虛擬機或子處理器的但處 理器并行執(zhí)行兩個或多個塊。其他實施例也改變處理序列或提供 不同的功能劃分以達到類似的結(jié)果。例如, 一些實施例可以改變 客戶端-服務(wù)器功能的分配,使得在服務(wù)器端示出和描述的功能在 客戶端全部或部分地被實現(xiàn),反之亦然。另外,還有其他實施例 將塊實現(xiàn)為兩個或多個互連的硬件模塊,使相關(guān)的控制和數(shù)據(jù)信 號在這些模塊之間和通過這些;^莫塊進行通信。因此,該示例處理 流程應(yīng)用于軟件、硬件和固件的實現(xiàn)。在塊210中,該方法以接收來自用戶的查詢開始。在該示例 實施例中,這需要用戶使用接入裝置130中的瀏覽器能力以接入 在線信息檢索系統(tǒng)100,具體地,使用常規(guī)登錄過程接入服務(wù)器 120。 一旦登錄,例如界面138的用戶界面被顯示,使能用戶定義 和提交查詢到服務(wù)器120。執(zhí)行進行到塊220。塊220需要使用在常規(guī)關(guān)鍵字或自然語言搜索引擎中的接收 的查詢定義來自文件集的一個或多個文件的分級的結(jié)果集。在該 實施例中,這需要搜索數(shù)據(jù)庫IIO,例如法律、科學(xué)或者專利數(shù)據(jù) 庫,使用tf-idf-type搜索引擎基于與接收的查詢的關(guān)系來識別和分 級文件集。然后執(zhí)行進行到塊230。塊230需要基于與接收的查詢的概念或語義的關(guān)系修改該結(jié) 果集。在第一實施例中,這需要單獨地基于接收的查詢的所有或一個或多個部分的概念上的關(guān)系識別文件集。這需要將該查詢解析成所有可能的n元的集合,例如單元(one-grams )或雙元(bigrams (biterms))并且使用這些n元來識別具有充分高的概率包括與查 詢中的項并發(fā)的項的文件集。在該實施例中,雙項中的每個項扭二 截至8個字符。然后這些識別的文件與分級的結(jié)果集結(jié)合到一起 以定義修改的結(jié)果集。然后該修改的結(jié)果集根據(jù)是否使用單個查 詢項或查詢項雙項按照等式(4)或等式(6)進行打分和重新分 級,在第二實施例中,沒有進行基于概念或語義關(guān)系的進一步搜 索并且結(jié)果集筒單地根據(jù)等式(4)或等式(6)進行打分和重新 分級。 一些實施例可以從第三方簡單地接收查詢和結(jié)果集并且使 用等式(2)和/或(5)重新將它們分級。然后執(zhí)行進行到塊240。在塊240中,修改的搜索結(jié)果被呈現(xiàn)給用戶。在該示例實施 例中,這需要在關(guān)聯(lián)于用戶的顯示器(例如,系統(tǒng)100中的接入 裝置130的顯示器)上定義和顯示超鏈接的列表。在一些實施例 中,文件僅僅基于概念搜索被識別,即,缺乏任何該查詢項的文 件通過字體差異和/或鄰近符號被標記以突出概念搜索在改進相關(guān) 文件的取回上的價值。其他實施例還可以為包括匹配關(guān)健字和概 念兩者的文件提供標記或者指示相關(guān)性作為提升改進的取回的方 法。還有其他實施例可以呈現(xiàn)帶有控制特性的列表,其允許將基 于匹配關(guān)鍵字所找到的文件與僅僅基于關(guān)鍵字搜索所找到的文件 分離,例如通過提供分割文件夾或標簽。另一實施例允許用戶選 擇性地調(diào)用阻擋或標記潛在的不相關(guān)的文件的控制特性,即,具 有低概率在字面上與該查詢概念上相關(guān)的文件,即使它們字面上 滿足了查詢的項。這些文件被識別的基礎(chǔ)是缺少項以足夠高的概 率與査詢項統(tǒng)計上并發(fā)。結(jié)論以上描述的所述僅僅用于闡釋和教導(dǎo)一種或多種實踐或?qū)崿F(xiàn) 本發(fā)明的方法,而不是限制它的寬度和范圍。本發(fā)明的包括了該 發(fā)明的教導(dǎo)的實踐或?qū)崿F(xiàn)的所有的方法的實際范圍僅由所發(fā)布的 權(quán)利要求及它們的等同物定義。
權(quán)利要求
1、一種系統(tǒng),包括目標文件集;以及裝置,用于基于用戶的查詢來搜索目標文件集的一個或多個文件并將所述一個或多個文件識別為結(jié)果文件,所述用于搜索和識別的裝置包括用于基于單詞并發(fā)概率的集合來識別一個或多個第一文件的裝置,其中所述單詞并發(fā)概率的集合從不同于所述目標文件集的文件集得到。
2、 如權(quán)利要求l所述的系統(tǒng),其中所述用于搜索和識別目標 丈件集的一個或多個文件的裝置包括用于將基于反向文件頻率 信息的一個或多個第二文件識別為結(jié)果文件的裝置和用于基于所 述反向文件頻率信息和所述單詞并發(fā)概率的集合來分級結(jié)果文件 的裝置。
3、 如權(quán)利要求l所述的系統(tǒng),其中所述目標文件集包括判例 法文件。
4、 如權(quán)利要求l所述的系統(tǒng),其中所述目標文件集包括公司 電子郵件。
5、 一種處理查詢的方法,包括使用反向文件頻率類型的第一搜索引擎,基于所述查詢來識 別和分級第一文件集;基于從不同于所述笫一集的第二文件集得到的單詞并發(fā)概 率,對包括所述第一文件集的文件的結(jié)果集的相關(guān)性進行分級; 以及以相關(guān)性的分級順序顯示文件的結(jié)果集的至少 一 部分的列表。
6、 如權(quán)利要求5所述的方法,其中文件的結(jié)果集包括基于單 詞并發(fā)概率識別的文件。
7、 一種方法,包括響應(yīng)于查詢,提供由搜索引擎識別的經(jīng)過分級的搜索結(jié)果文 件的集合;基于單詞并發(fā)概率來調(diào)整經(jīng)過分級的搜索結(jié)果文件的集合中 的一個或多個文件的分級;以及調(diào)整后的經(jīng)過分級的搜索結(jié)果文件的集合。
8、如權(quán)利要求7所述的方法,其中所述搜索引擎是反向文件 頻率類型搜索引擎。
全文摘要
為改進傳統(tǒng)的基于關(guān)鍵字的搜索引擎,本發(fā)明人特別設(shè)計了系統(tǒng)、方法和軟件,它們使用單詞的并發(fā)概率,不僅識別概念上與用戶查詢相關(guān)的文件而且還對搜索結(jié)果進行評分和分級。一個示例系統(tǒng)將反向文件頻率(inverse-document-frequency)搜索與基于單詞的并發(fā)概率的概念搜索結(jié)合以促進文件的查找,這些文件使用給定的查詢時不會被找到的。該示例系統(tǒng)還允許基于關(guān)鍵字匹配和概念的出現(xiàn)兩者對搜索結(jié)果進行分級,促進了對搜索結(jié)果的更有效率的組織和評論。
文檔編號G06F17/30GK101622618SQ200780051927
公開日2010年1月6日 申請日期2007年12月27日 優(yōu)先權(quán)日2006年12月29日
發(fā)明者K·阿爾-科法希, T·庫斯蒂斯 申請人:湯姆森路透社全球資源公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1