具有基于概念的搜索和分級的信息檢索系統(tǒng)、方法和軟件的制作方法

文檔序號：6457136閱讀：199來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：具有基于概念的搜索和分級的信息檢索系統(tǒng)、方法和軟件的制作方法
技術(shù)領(lǐng)域：
本發(fā)明的各種實施例涉及信息檢索系統(tǒng)和相關(guān)的查詢處理單元以及方法。
背景技術(shù)：
互聯(lián)網(wǎng)及其它計算機網(wǎng)絡(luò)的日益普及不僅推動利用率的增加，而且推動了計算機用戶間對于數(shù)字信息的需求的增加。用戶通常采用訪問裝置(例如計算機)與聯(lián)機信息檢索系統(tǒng)通信，以試圖訪問這樣的信息。信息檢索系統(tǒng)通常包括圖形用戶界面，用于輸入對信息的請求(被稱為查詢)并將其送至遠程搜索引擎。搜索引擎識別通常以電子文件的形式存在的相關(guān)信息并向用戶的訪問裝置返回結(jié)果列表。本發(fā)明人認識到的一個問題涉及典型搜索引擎的操作，這些搜索引擎要求查詢和文檔以包含匹配單詞?；谥辽偃齻€理由，這是有問題的。首先，搜索結(jié)果可能包括這樣的文件，它們包含該查詢項但卻是不相關(guān)的，因為用戶對于該查詢項有不同的含義 (或者意思)，而項匹配(term matching )無法對此作出辨別。這最終使得用戶在搜索最相關(guān)文件時人工過濾不相關(guān)的結(jié)果。第二，依賴于查詢項到文件項的匹配還可能因為概念上相關(guān) 的文件未包含用戶輸入的精確的查詢項而導(dǎo)致搜索結(jié)果遺漏這些文件。采用傳統(tǒng)搜索引擎檢索這些相關(guān)文件要求用戶理解所給出概念的詞選項是變化的并構(gòu)造出更好的查詢?；蛘?，用戶可以簡單地進行檢索而遺漏這些有價值的文件。第三，傳統(tǒng)的關(guān)鍵字搜索引擎基于那些文件中查詢項的出現(xiàn) 情況來對文件的相關(guān)性進行評分和分級。這意味著，一些具有匹配的查詢項和雖然概念上相關(guān)但不匹配的項的文件可能低于期望的分級，雖然它們實際上與給定的查詢在概念上是相關(guān)的。這些錯誤的降等分級(lower ranking )可能迫使用戶在搜索到更相關(guān)的文件之前在相關(guān)性較弱的文件上花費力氣，或者迫使其完全忽略這些文件的其中一些。因此發(fā)明人已經(jīng)認識到需要進一步改進信息檢索系統(tǒng)處理用戶查詢的方式。發(fā)明內(nèi)容為滿足這種和/或其它的需要，本發(fā)明人特別設(shè)計了這樣的系統(tǒng)、方法和軟件，它們使用單詞的并發(fā)概率，從而不僅識別概念上與用戶查詢相關(guān)的文件，而且還對搜索結(jié)果進行評分和分級。一個示例系統(tǒng)將反向文件頻率(in verse-document-frequency )搜索與基于單詞的并發(fā)概率的概念搜索結(jié)合以助于查找到使用給定的查詢的方式查找不到的文件。該示例系統(tǒng)還允許基于關(guān)鍵字匹配和概念出現(xiàn)情況兩者對搜索結(jié)果分級，促使搜索結(jié)果的組織和評論更有效率。

圖1是對應(yīng)于本發(fā)明一個或多個實施例的示例信息檢索系統(tǒng) 100的框圖。圖2是對應(yīng)于本發(fā)明一個或多個實施例的操作系統(tǒng)100的示例方法的流程圖。
具體實施方式
本文件描述發(fā)明的一個或多個具體的實施例。這些提供的實施例并非用來限定本發(fā)明而只是給出本發(fā)明的示例和教導(dǎo)，它們以足夠詳細的方式加以展示和描述以使得本領(lǐng)域的技術(shù)人員能夠實現(xiàn)或者實踐本發(fā)明。因此，如果不影響本發(fā)明的清楚性，則描述可以省略某些為本領(lǐng)域技術(shù)人員所知的信息。概迷本示例系統(tǒng)使用一對單詞之間的"翻譯"概率作為識別概念上與用戶查詢相關(guān)的文件的基礎(chǔ)。"翻譯"概率是一個單詞可以被譯成另一個的概率。這是容易理解的，當從一種語言翻譯到另一種時一例如，法語中的" pomme (蘋果)" 一皮譯成英語中的 "apple (蘋果)"是高概率的；而"pomme (蘋杲)"被譯成"sock (短襪)" 的概率接近于零。在該示例實施例中，"翻譯"概率是單語的，并且可以獲取單詞之間的同義及其它語義的關(guān)系。兩個單詞在它們的含義上越相關(guān)，它們的翻譯概率就越高。例如，"律師(lawyer)"和"法律代理人(attorney)"是可互換的同義詞，所以它們有高的翻譯概率。如另一個例子，考慮諸如"足球"、"美國國家足球聯(lián)盟"、"四分衛(wèi)"、"教練"等等這些單詞之間的相關(guān)性。這些不是同義詞，但是它們語義上相關(guān)并且因此具有一定的可度量的翻譯概率。在該示例實施例中，翻譯概率得自于單詞并發(fā)數(shù)據(jù)。并發(fā)單詞對的信息被用于在統(tǒng)計上獲取語義的(概念上的)關(guān)系。在該示例實施例中，表示特定單詞(單詞X)的"概念"被處理為等價于所有在該并發(fā)數(shù)據(jù)中與單詞X并發(fā)的單詞。當與單詞X組對的單詞在一個文件中出現(xiàn)越多時，就越能證明在該文件中討論單詞X的概念的想法。當單詞X是查詢項時，這種證據(jù)轉(zhuǎn)而導(dǎo)致了較高的文件評分(不管單詞X是否出現(xiàn)在該文件中)。采用由并發(fā)數(shù)椐得來的翻譯概率允許檢索算法返回包含語義上與用戶的查詢項相關(guān)(例如，高翻譯概率)的單詞的文件。由于這樣，不要求實際的查詢單詞出現(xiàn)于作為相關(guān)結(jié)果返回的文件中。例如，在搜索"律師"時，可以檢索到不包含單詞"律師" 但包含"法律代理人"、"審判"、"費用"和/或"法官"的文件作為相關(guān)的文件。在另一個例子中，基于關(guān)鍵字的搜索中，查詢"熱咖啡"沒能找到包括項"熱"但省略項"咖啡"的以下文件。但是，本示例實施例對該查詢在概念上作了拓展以有效地包含所有在一個窗口內(nèi)統(tǒng)計上并發(fā)的單詞，該窗口位于各個查詢項的周圍。這使得能夠基于示出的其它項的出現(xiàn)而檢索到文件，這些項在統(tǒng)計意義上與"熱的"(加下劃線)、"咖啡"(粗體)或"咖啡"和"熱" 兩者(粗體和加下劃線)相關(guān)。查詢項"熱的"以雙下劃線示出。原告請求精神痛苦的賠償費，聲稱她現(xiàn)在看到人們喝魚飲料時就會受到焦慮的侵襲。原告主張$1，785的醫(yī)療賠償和作為從事面部按摩的美容師的$14,000的誤工費。作為證據(jù)，被告提交了一盤顯示原告正在喝j^飲料的監(jiān)控錄像帶。侵害原告經(jīng)過麥當勞的免下車店時要了兩杯^^。原告聲稱保拉.愛德華遞給她托盤，或者"熱"和"咖啡"兩者(無修飾或者粗體和加下劃線)原告被潑上兩杯魚茶的左臂遭受了二級燒傷,她丟掉了托盤并將魚茶灑到阿萊密T^^的手臂上。盡管沒有在審判時出示證據(jù)，但是S"告聲稱麥當勞餐廳在雇傭和培訓(xùn)方面是有過失的.被告認為原告是將^茶灑到了她自己身上。有人可能會考慮讓領(lǐng)域內(nèi)的專家以人工方式構(gòu)造概念，而不是從并發(fā)數(shù)據(jù)得到概念。以人工方式構(gòu)造概念是困難的、耗時的并且是帶有主觀傾向的過程。另外，針對一個領(lǐng)域的精心剪裁的概念并不一定能擴展到另外一個領(lǐng)域。通過以統(tǒng)計方式，依靠并發(fā)來獲取概念，可以自動獲取該領(lǐng)域，將主觀性排除在過程之外。這種新形式的概念搜索的應(yīng)用有很多。在法律領(lǐng)域，概念搜索是電子信息取證(e-discovery )中的有用的工具，在那里找到所有與案件相關(guān)的文件是重要的。通常，在用戶可能不是她所搜索的領(lǐng)域的專家的情況下，以及在用戶不知道某些事物的技術(shù)的或特定的術(shù)語的情況下，概念搜索是有用的。示例信息檢索系統(tǒng) 圖1示出示例性的聯(lián)機信息檢索系統(tǒng)100。系統(tǒng)100包括一個或多個數(shù)據(jù)庫110、一個或多個服務(wù)器120和一個或多個訪問裝置 130。示例數(shù)據(jù)庫數(shù)據(jù)庫110包括一個或多個數(shù)據(jù)庫的集合。示例的法律數(shù)據(jù) 庫包括判例法數(shù)據(jù)庫和法條數(shù)據(jù)庫，其分別包括來自一個或多個本地的、州的、聯(lián)邦的和/或國際司法管轄的法律意見和法條。示例的法律數(shù)據(jù)庫還包括法律分類數(shù)據(jù)庫和法律評論。其它示例的數(shù)據(jù)庫提供法律代理人、法官、律師事務(wù)所、產(chǎn)品(product)和法人(corporate )簡介。在一些實施例中，判例法文件通過數(shù)據(jù)結(jié) 構(gòu)與其它數(shù)據(jù)庫中的文件或簡介在邏輯上相關(guān)聯(lián)。其它實施例可以包括非法律數(shù)據(jù)庫，這些數(shù)據(jù)庫包括金融、科學(xué)或保健信息。另外其它的實施例提供公共或私用數(shù)據(jù)庫(諸如那些通過 INFOTRAC可用的)。一些實施例允許互聯(lián)網(wǎng)搜索，并且因此包含網(wǎng)站和網(wǎng)頁，以及其它實施例允許用戶依照電子信息取證 (electronic discovery )來定義其自己的數(shù)據(jù)庫(例如文件的數(shù)據(jù)庫，文件例如是電子郵件文件)。數(shù)據(jù)庫110采取一個或多個電子、磁或光學(xué)的數(shù)據(jù)存儲裝置的示例形式，包含或者關(guān)聯(lián)于相應(yīng)的索引(未示出)。每一個索引包括關(guān)聯(lián)于對應(yīng)的文件地址、標識符和其它常規(guī)信息的項和詞組。數(shù)據(jù)庫110耦合到服務(wù)器120,或者通過無線或有線通信網(wǎng)絡(luò) (例如，局域網(wǎng)絡(luò)、廣域網(wǎng)絡(luò)、私有網(wǎng)絡(luò)和虛擬私有網(wǎng)絡(luò))可耦合到服務(wù)器120。示例服務(wù)器服務(wù)器120,通常典型的是一個或多個用于提供(serving)網(wǎng) 頁或其它標記語言形式的數(shù)據(jù)的服務(wù)器，其配備相關(guān)的小應(yīng)用程序(applet) 、 Active X控件、遠程調(diào)用對象或其它相關(guān)的軟件和數(shù)據(jù)結(jié)構(gòu)，從而為各種"厚度"的客戶端提供服務(wù)。更具體地，服務(wù)器120包括處理器模塊121、存儲器模塊122、訂戶數(shù)據(jù)庫123、初級搜索模塊124、概念搜索模塊125和用戶界面模塊126。處理器模塊12]包括一個或多個本地或分布式的處理器、控制器或虛擬機。在該示例實施例中，處理器模塊121采取任何方便或理想的形式。存儲器模塊122采用一個或多個電子、磁或光學(xué)的數(shù)據(jù)存儲裝置的示例形式，存儲了訂戶數(shù)據(jù)庫123、初級搜索模塊124、概念搜索模塊125和用戶界面模塊126。訂戶數(shù)據(jù)庫123包括與訂戶相關(guān)的數(shù)據(jù)，用于控制、執(zhí)行和管理對數(shù)據(jù)庫110的付費通行(pay-as-you-go )或基于訂閱的訪問。在該示例實施例中，訂戶數(shù)據(jù)庫123包括一個或多個偏好數(shù)據(jù)結(jié) 構(gòu)，其中的數(shù)據(jù)結(jié)構(gòu)1231是典型的例子。數(shù)椐結(jié)構(gòu)1211包含客戶或用戶標識符部分1231A，其邏輯地關(guān)聯(lián)于一個或多個概念搜索或表示開j式偏好(presentation preferences )，例如偏好1231B、 1231C和1231D。偏好1231B包括決定(governing)概念搜索是否可以進行的默認值。偏好1231C包括決定搜索結(jié)果的表示形式的默認值，例如，只被概念搜索檢索出來的文件是否作標記或提供在單獨的標簽(tab)或文件夾中。偏好1231D包括決定是否允許或者在多大程度上允許概念搜索對搜索結(jié)果的相關(guān)計算產(chǎn)生影響的默認值。(當臨時用戶無控制權(quán)限(override)(例如在特定的查詢或會話期間的控制權(quán)限)時，概念搜索的默認值起作用。)初級搜索模塊124包括一個或多個搜索引擎和相關(guān)的用戶界面部分，用于用于接收和處理用戶對一個或多個數(shù)據(jù)庫110的查詢。在該示例實施例中，一個或多個關(guān)聯(lián)于搜索模塊124的搜索引擎提供布爾(Boolean) 、 tf-idf、自然語言搜索能力。概念搜索模塊125包括一個或多個概念搜索引擎，用于使用這里描述的概念搜索技術(shù)接收和處理對一個或多個數(shù)據(jù)庫110的查詢。一些實施例對通過概念搜索進行的搜索和/或訪問文件進行單獨或額外的收費。具體地，概念搜索模塊125包括概念搜索數(shù) 據(jù)1251和概念搜索引擎1252。概念搜索數(shù)椐1251包括一個或多個關(guān)于文件中的并發(fā)單詞對的統(tǒng)計數(shù)據(jù)組，以隱含地獲取語義(概念上的)關(guān)系。關(guān)于并發(fā) 對的統(tǒng)計數(shù)據(jù)被直接用于示例的信息檢索算法，因而在該示例實施例中無需將現(xiàn)有的、單獨的概念與現(xiàn)有的搜索機制相結(jié)合。更具體地，概念搜索數(shù)據(jù)1251包括來自文件的文集("全體") 的單詞對的并發(fā)概率1251A和目標文件集合(數(shù)據(jù)庫110 )的并發(fā)概率1251A的索引。在該示例實施例中，并發(fā)概率1251A根據(jù)單獨的源而不是目標文件集合決定，以提高概念的穩(wěn)定性，該穩(wěn)定性不依賴于目標文件集合。例如，在法律領(lǐng)域，該全體包括2000萬件有判詞提要的(headnoted)文件。盡管在示例性實施例中，由人類編輯者為判例法文件人工定義判詞提要，但是一些實施例可以使用機器生成的文件摘要(machine documents summaries )、百科全書的引用等等方式。對于示例的新領(lǐng)域，單個總體或文集包括900,000個文件。(通常，目前認為用作并發(fā)數(shù)據(jù)基礎(chǔ)的文集在文件數(shù)量上應(yīng) 當比目標數(shù)椐庫大。但是據(jù)推測，數(shù)量較少但是信息量更大的文件集合(例如基于罕見單詞的頻度)也可以用。)單詞對按照以下方式從文集中構(gòu)造停用單詞(stop word) 被去除，并且然后將每個單詞與其兩邊的距離為5個單詞的所有其它單詞(包括它自己)組對，每個單詞生成11個單詞對。在該示例實施例中，單詞對是無序的(即，X_Y=Y_X)。(但是一些實施例可以使用有序單詞對。)另外，該示例實施例將單詞對中的單詞在8個字符處進行截取，為單詞對數(shù)據(jù)提供了一定的平滑 (smoothing )。每一單詞對關(guān)聯(lián)于一個或多個頻率計數(shù)。因為每個單詞也與自己組對，所以計數(shù)也為單個的項保留。使用文集中的單詞對的這些頻率計數(shù)，該示例實施例確定了并發(fā)概率。具體地，這需要進行以下最大似然估計(MLE)的計算Pmie(wl|w2)=單詞對wl—w2的頻率/w2_w2的頻率等式(l)這些是(未平滑(unsmoothed))的概率估計，被用于語言模型的概念搜索部分，在等式中以P(qid)示出。這些概率允許我們量化 q和d并發(fā)的可能性。對于所有D中的d (deD)求和得到在特定文件中的項和q之間的所有的并發(fā)，其提供了在那個文件中包含q 的概念(以q表示)和與q的概念建立有并發(fā)關(guān)系的所有單詞的證據(jù)。盡管相關(guān)項(即，單詞對)不一定是專家人工定義概念時選取的單詞，但是這些單詞對(更廣義的詞是N元文法(n-grams)) 通過統(tǒng)計并發(fā)來隱含地獲取"概念"。索引1251B基于為文集而確定的并發(fā)概率。目標文件集合(例如，數(shù)據(jù)庫110的一個或多個部分)根據(jù)P ( w|D)概率為建立索引。為避免稀疏，使用Jelinek-Mercer平滑對整個集合平滑這些概率，該平滑由下式?jīng)Q定P(w|D) = 1 Pmie(wpocument) + (1 - X) Pmie(wlCollection) 等式(2)為每個集合，按照經(jīng)驗設(shè)定用于平滑的希臘字母X的值，該值受諸如集合中文件的長度和集合的大小等因素的影響。概念搜索引擎1252基于與用戶查詢項的概念上的關(guān)系從數(shù)椐庫110中識別文件。在該示例實施例中，這需要組合關(guān)鍵字搜索和概念搜索數(shù)據(jù)1241中的并發(fā)概率和使用語言建模技術(shù)，該建模技術(shù)用于信息檢索并且根據(jù)統(tǒng)計機器翻譯。在實現(xiàn)信息檢索的基于關(guān)鍵字的語言建模方式中，每個文件基于查詢單詞(q)在那個文件(D)中出現(xiàn)的概率(P)進行評分P(qp)-q出現(xiàn)在D中的次數(shù)除以D的長度。在該關(guān)鍵字模型中，根據(jù)以下等式對文件進行評分文件分數(shù)=P(q，P) x P(q2|D) x ... x P(qn|D) -EIiP(qilD)對于Q中的所有q等式(3)其中Q表示整個查詢。搜索的結(jié)果通常以得分最高排在首位的順序返回給用戶。另一方面，在統(tǒng)計機器翻譯的語言建模技術(shù)中，評分基于"翻譯"概率P(q|D):或文件中的單詞可以被解釋成該查詢單詞的概率。但是，代之以逐字"翻譯，，文件中的單詞，該示例實施例使用單詞對并發(fā)概率作為概念上的接近程度的量度，以作目標更廣的翻譯。將這兩種方式組合為新的混合模型，該示例實施例根據(jù)下式為文件評分文件分數(shù)-ITi[^ P(q"D) + X2&P(q掩)P(dk|D)
等式(4) 其中P(q|D)=ni P(qilD)表示信息檢索的基于關(guān)鍵字的語言模型P(QP) = IIi Sk P(qi|dk) P(4|D) 等式(5)表示Berger & Lafferty的(1999)翻譯語言才莫型；并且^和人2表示兩個搜索部分的權(quán)重因子。該示例實施例賦予關(guān)鍵字和概念搜索部分同樣的權(quán)重0.5。但是通過改變、和X2的值(在^+X2=1的約束條件下)，任一部分可以被給予更大的權(quán)重。總的來說，該示例概念搜索將關(guān)鍵字搜索和并發(fā)概率組合，將與用戶的查詢既是關(guān)鍵字相關(guān)又是概念相關(guān)的文件檢索考慮進來。在該方式中，可以理解的是并發(fā)對的使用擴大了檢索結(jié)果范圍(recall),使得所有相關(guān) 文件中有更多的相關(guān)文件被檢索到；基于關(guān)鍵字的語言建模的使用具有高精確度；并且該模型具有靈活性，這是因為它允許以不同的方式對其各個部分"賦予權(quán)重"，從而最大化檢索結(jié)果范圍和精確度。一些實施例加大了查詢的依賴性，認識到查詢本身表示用戶正在搜索的概念。具體地，該方式的一個實施例使用單詞對建立查詢單詞之間依賴性的^f莫型，從而獲取概念的信息。因此，代之以將查詢分成單個查詢項，該示例實施例將該查詢表示成包含在其內(nèi)的所有可能的單詞對。例如，查詢"大的紅色氣球"產(chǎn)生以下查詢單詞對大的—大的、紅色一紅色、氣球一氣球、大的—紅色、大的—氣球、紅色—氣球。對于這些單詞對，文;分數(shù)由下式定義文件分數(shù)=11 [M P(ql—q2|D) + U [[P(ql |d) + P(q2|d)] P(d|D)]]等式(6)其中P(ql|d) + P(q2ld)只有在P(ql ld)和P(q2ld)都不為零的情況下才估算。因為該示例實施例缺少給定文件項下的雙項對(bitermpair) 的概率P(wl—w2|d),因此它通過下列方式粗略地(on the fly)地取這些概率的近似值使評分等式的概念搜索部分依賴于雙項中的兩個單詞相對于該文件項的并發(fā)相無率。對于查詢單詞雙項ql一q2，該示例實施例將P(qlld)和P(q2ld)的并發(fā)概率相加，然后乘以每個文件項在P(ql ld)和P(q2ld)都存在時的P(d|D)。如果P(ql ld)或P(q2ld)不存在，那么P(qlld) + P(q2id)被設(shè)置為i于零。對于一元(unigram ) 概念搜索語言模型，X!和、兩者被設(shè)置成0.5，因此該關(guān)鍵字和概念搜索部分被賦予相等的權(quán)重。一些實施例使用等式(4)或(6)的修正形式，這些修正形式使用另一種類型的相關(guān)性指示器來代替或補充概念部分。例如，一個這樣的實施例加入了相關(guān)性因子，其基于文件的使用習(xí)慣的統(tǒng)計數(shù)據(jù)。該統(tǒng)計數(shù)據(jù)可基于該文件的打印、電子郵件或點擊率，以用于類似的查詢；用戶對該文件的評述或分級日期(rating date); 和/或該文件的引用情況的統(tǒng)計數(shù)據(jù)。這些因子可以由X因子賦予權(quán) 重，其約束條件是這些入因子的總和為1。用戶界面模塊126包括機器可讀和/或可執(zhí)行指令集，用于在一個或多個訪問裝置(例如訪問裝置130)上完全或部分地定義位于無線或有線通信網(wǎng)絡(luò)之上的基于網(wǎng)絡(luò)(web-based)的用戶界面，例如搜索界面1261和結(jié)果界面1262。示例的訪問裝置訪問裝置130通常典型的是一個或多個訪問裝置。在該示例實施例中，訪問裝置130采用的形式有個人計算機、工作站、個人數(shù)字助理、移動電話或能夠向服務(wù)器或數(shù)據(jù)庫提供有效的用戶界面的任何其它裝置。具體地，訪問裝置130包括處理器模塊131 (一個或多個處理器(或處理電路)131)、存儲器132、顯示器 133、鍵盤134和圖形指針或選擇器135。處理器模塊131包括一個或多個處理器、處理電路或控制器。在該示例實施例中，處理器模塊131取任何方便或期望的形式。存儲器132耦合到處理器模塊131。存儲器132存儲操作系統(tǒng)136、瀏覽器137和圖形用戶界面 (GUI) 138的代碼(機器可讀或可執(zhí)行指令)。在該示例實施例中，操作系統(tǒng)136采用Microsoft Windows操作系統(tǒng)版本的形式，并且瀏覽器137采用Microsoft Internet Exploer版本的形式。操作系統(tǒng)136和瀏覽器137不僅從鍵盤134和選擇器135接收輸入，而且還支持在顯示器133上提供GUI 138。在提供之后，GUI 138 示出與一個或多個交互控制特征(或用戶界面元素)關(guān)聯(lián)的數(shù)據(jù)。 (該示例實施例使用來自服務(wù)器120的小應(yīng)用程序(applets)或其它編程對象(programmatic object)或結(jié)構(gòu)來定義界面138的一個或多個部分，以實現(xiàn)上面示出的或在本說明其它地方描述的界面)在該示例實施例中，這些控制特征的每一個采用超鏈接或其它瀏覽器可兼容的命令輸入的形式，并且提供對查詢區(qū)域1381和搜索結(jié)果區(qū)域1382的接入和對查詢區(qū)域1381和搜索結(jié)果區(qū)域 1382的控制。區(qū)域1382中的控制特征用戶選擇(尤其是文本查詢到輸入?yún)^(qū)域1381A的輸入和通過提交按鈕1381B的驅(qū)動到服務(wù)器 120的查詢的提交)，使得在結(jié)果區(qū)域1382顯示搜索結(jié)果列表 1382A。從列表1382A選擇列出的文件，致使了界面138區(qū)域中的對應(yīng)文件的至少一部分的檢索和顯示(該圖中未示出)。盡管圖1同時地示出了區(qū)域1381和1382，但是一些實施例在單獨的時間示出它們。以下描迷界面的其他功能的方面。示例操作方法圖2示出操作例如系統(tǒng)100的系統(tǒng)的一個或多個示例方法的流程圖200。流程圖200包括塊210-240，其在該示例實施例中的一系列執(zhí)行序列中被安排和描述。但是，其他實施例使用多處理器或類處理器裝置或組織成兩個或多個虛擬機或子處理器的但處理器并行執(zhí)行兩個或多個塊。其他實施例也改變處理序列或提供不同的功能劃分以達到類似的結(jié)果。例如，一些實施例可以改變客戶端-服務(wù)器功能的分配，使得在服務(wù)器端示出和描述的功能在客戶端全部或部分地被實現(xiàn)，反之亦然。另外，還有其他實施例將塊實現(xiàn)為兩個或多個互連的硬件模塊，使相關(guān)的控制和數(shù)據(jù)信號在這些模塊之間和通過這些;^莫塊進行通信。因此，該示例處理流程應(yīng)用于軟件、硬件和固件的實現(xiàn)。在塊210中，該方法以接收來自用戶的查詢開始。在該示例實施例中，這需要用戶使用接入裝置130中的瀏覽器能力以接入在線信息檢索系統(tǒng)100,具體地，使用常規(guī)登錄過程接入服務(wù)器 120。一旦登錄，例如界面138的用戶界面被顯示，使能用戶定義和提交查詢到服務(wù)器120。執(zhí)行進行到塊220。塊220需要使用在常規(guī)關(guān)鍵字或自然語言搜索引擎中的接收的查詢定義來自文件集的一個或多個文件的分級的結(jié)果集。在該實施例中，這需要搜索數(shù)據(jù)庫IIO,例如法律、科學(xué)或者專利數(shù)據(jù) 庫，使用tf-idf-type搜索引擎基于與接收的查詢的關(guān)系來識別和分級文件集。然后執(zhí)行進行到塊230。塊230需要基于與接收的查詢的概念或語義的關(guān)系修改該結(jié) 果集。在第一實施例中，這需要單獨地基于接收的查詢的所有或一個或多個部分的概念上的關(guān)系識別文件集。這需要將該查詢解析成所有可能的n元的集合，例如單元(one-grams )或雙元(bigrams (biterms))并且使用這些n元來識別具有充分高的概率包括與查詢中的項并發(fā)的項的文件集。在該實施例中，雙項中的每個項扭二截至8個字符。然后這些識別的文件與分級的結(jié)果集結(jié)合到一起以定義修改的結(jié)果集。然后該修改的結(jié)果集根據(jù)是否使用單個查詢項或查詢項雙項按照等式(4)或等式(6)進行打分和重新分級，在第二實施例中，沒有進行基于概念或語義關(guān)系的進一步搜索并且結(jié)果集筒單地根據(jù)等式(4)或等式(6)進行打分和重新分級。一些實施例可以從第三方簡單地接收查詢和結(jié)果集并且使用等式(2)和/或(5)重新將它們分級。然后執(zhí)行進行到塊240。在塊240中，修改的搜索結(jié)果被呈現(xiàn)給用戶。在該示例實施例中，這需要在關(guān)聯(lián)于用戶的顯示器(例如，系統(tǒng)100中的接入裝置130的顯示器)上定義和顯示超鏈接的列表。在一些實施例中，文件僅僅基于概念搜索被識別，即，缺乏任何該查詢項的文件通過字體差異和/或鄰近符號被標記以突出概念搜索在改進相關(guān) 文件的取回上的價值。其他實施例還可以為包括匹配關(guān)健字和概念兩者的文件提供標記或者指示相關(guān)性作為提升改進的取回的方法。還有其他實施例可以呈現(xiàn)帶有控制特性的列表，其允許將基于匹配關(guān)鍵字所找到的文件與僅僅基于關(guān)鍵字搜索所找到的文件分離，例如通過提供分割文件夾或標簽。另一實施例允許用戶選擇性地調(diào)用阻擋或標記潛在的不相關(guān)的文件的控制特性，即，具有低概率在字面上與該查詢概念上相關(guān)的文件，即使它們字面上滿足了查詢的項。這些文件被識別的基礎(chǔ)是缺少項以足夠高的概率與査詢項統(tǒng)計上并發(fā)。結(jié)論以上描述的所述僅僅用于闡釋和教導(dǎo)一種或多種實踐或?qū)崿F(xiàn) 本發(fā)明的方法，而不是限制它的寬度和范圍。本發(fā)明的包括了該發(fā)明的教導(dǎo)的實踐或?qū)崿F(xiàn)的所有的方法的實際范圍僅由所發(fā)布的權(quán)利要求及它們的等同物定義。
權(quán)利要求
1、一種系統(tǒng)，包括目標文件集；以及裝置，用于基于用戶的查詢來搜索目標文件集的一個或多個文件并將所述一個或多個文件識別為結(jié)果文件，所述用于搜索和識別的裝置包括用于基于單詞并發(fā)概率的集合來識別一個或多個第一文件的裝置，其中所述單詞并發(fā)概率的集合從不同于所述目標文件集的文件集得到。
2、如權(quán)利要求l所述的系統(tǒng)，其中所述用于搜索和識別目標丈件集的一個或多個文件的裝置包括用于將基于反向文件頻率信息的一個或多個第二文件識別為結(jié)果文件的裝置和用于基于所述反向文件頻率信息和所述單詞并發(fā)概率的集合來分級結(jié)果文件的裝置。
3、如權(quán)利要求l所述的系統(tǒng)，其中所述目標文件集包括判例法文件。
4、如權(quán)利要求l所述的系統(tǒng)，其中所述目標文件集包括公司電子郵件。
5、一種處理查詢的方法，包括使用反向文件頻率類型的第一搜索引擎，基于所述查詢來識別和分級第一文件集；基于從不同于所述笫一集的第二文件集得到的單詞并發(fā)概率，對包括所述第一文件集的文件的結(jié)果集的相關(guān)性進行分級；以及以相關(guān)性的分級順序顯示文件的結(jié)果集的至少一部分的列表。
6、如權(quán)利要求5所述的方法，其中文件的結(jié)果集包括基于單詞并發(fā)概率識別的文件。
7、一種方法，包括響應(yīng)于查詢，提供由搜索引擎識別的經(jīng)過分級的搜索結(jié)果文件的集合；基于單詞并發(fā)概率來調(diào)整經(jīng)過分級的搜索結(jié)果文件的集合中的一個或多個文件的分級；以及調(diào)整后的經(jīng)過分級的搜索結(jié)果文件的集合。
8、如權(quán)利要求7所述的方法，其中所述搜索引擎是反向文件頻率類型搜索引擎。
全文摘要
為改進傳統(tǒng)的基于關(guān)鍵字的搜索引擎，本發(fā)明人特別設(shè)計了系統(tǒng)、方法和軟件，它們使用單詞的并發(fā)概率，不僅識別概念上與用戶查詢相關(guān)的文件而且還對搜索結(jié)果進行評分和分級。一個示例系統(tǒng)將反向文件頻率(inverse-document-frequency)搜索與基于單詞的并發(fā)概率的概念搜索結(jié)合以促進文件的查找，這些文件使用給定的查詢時不會被找到的。該示例系統(tǒng)還允許基于關(guān)鍵字匹配和概念的出現(xiàn)兩者對搜索結(jié)果進行分級，促進了對搜索結(jié)果的更有效率的組織和評論。
文檔編號G06F17/30GK101622618SQ200780051927
公開日2010年1月6日申請日期2007年12月27日優(yōu)先權(quán)日2006年12月29日
發(fā)明者K·阿爾-科法希, T·庫斯蒂斯申請人:湯姆森路透社全球資源公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：T.庫斯蒂斯;K.阿爾-科法希
技術(shù)所有人：湯姆森路透社全球資源公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

具有基于概念的搜索和分級的信息檢索系統(tǒng)、方法和軟件的制作方法

具有基于概念的搜索和分級的信息檢索系統(tǒng)、方法和軟件的制作方法