本發(fā)明的實施方案總體涉及搜索內(nèi)容。更特別地,本發(fā)明的實施方案涉及訓練和創(chuàng)建分類模型并使用其對用戶進行分類以進行醫(yī)療信息檢索。
背景技術:
大多數(shù)搜索引擎通常在其操作期間執(zhí)行從運行于客戶端裝置上的瀏覽器來搜索網(wǎng)頁。搜索引擎接收由用戶輸入的搜索詞,并檢索與所述搜索詞相關聯(lián)的網(wǎng)頁搜索結(jié)果列表。搜索引擎基于某些準則將搜索結(jié)果顯示為搜索列表的一系列子集。在搜索操作期間使用的一般準則是搜索詞是完整地還是部分地出現(xiàn)在給定網(wǎng)頁上、搜索字串出現(xiàn)在搜索結(jié)果中的次數(shù)、字母次序等。此外,用戶可以通過點擊鼠標按鈕來決定打開鏈接以打開并瀏覽。可由搜索引擎來監(jiān)控和收集用戶與搜索結(jié)果的一些互動和/或用戶信息,以隨后提供更好的搜索。
通常,響應于搜索查詢,執(zhí)行搜索以識別和檢索內(nèi)容項目列表。接著將內(nèi)容項目傳回到搜索請求方。根據(jù)搜索引擎的質(zhì)量,轉(zhuǎn)向用戶的內(nèi)容項目可能是或可能不是用戶實際想要的內(nèi)容項目。為了向用戶提供更好的內(nèi)容服務,重要的是要知道或預測出用戶想要什么,特別是在搜索醫(yī)療信息的領域中。對醫(yī)學搜索查詢的語義理解對于下面的檢索系統(tǒng)來說是重要的。常規(guī)的搜索檢索系統(tǒng)僅使用令牌化查詢來匹配關鍵字,這未反映出搜索查詢的真實意圖。用戶的醫(yī)療查詢可反映出用戶在醫(yī)療階段的不同方面對獲得答復的興趣。缺乏用于確定用戶的查詢意圖的有效方式。
技術實現(xiàn)要素:
本申請的目的在于提供一種生成用于搜索內(nèi)容的分類模型的計算機實施方法、裝置和數(shù)據(jù)處理系統(tǒng),以及一種用于搜索內(nèi)容的計算機實施方法。
根據(jù)一個方面,一種生成用于搜索內(nèi)容的分類模型的計算機實施方法可包括:接收一組預定查詢,所述預定查詢中的每一個與預定類別相關聯(lián);對于所述預定查詢中的每一個:使用與所述預定類別對應的注釋詞典來注釋所述預定查詢,以及基于所述預定查詢的注釋,從所述預定查詢提取一個或多個特征;以及基于所述預定查詢以及與所述預定查詢相關聯(lián)的特征來訓練和生成與所述預定類別對應的分類模型,其中利用所述分類模型對用戶進行分類以進行信息檢索。
根據(jù)另一個方面,一種生成用于搜索內(nèi)容的分類模型的裝置可包括:接收裝置,接收一組預定查詢,所述預定查詢中的每一個與預定類別相關聯(lián);注釋裝置,使用與所述預定類別對應的注釋詞典來注釋所述預定查詢中的每一個;提取裝置,基于所述預定查詢中每一個的注釋從所述預定查詢中的每一個提取一個或多個特征;以及訓練和生成裝置,基于所述預定查詢以及與所述預定查詢相關聯(lián)的特征來訓練和生成與所述預定類別對應的分類模型,其中利用所述分類模型對用戶進行分類以進行信息檢索。
根據(jù)又一個方面,一種數(shù)據(jù)處理系統(tǒng)可包括根據(jù)本申請實施方案的生成用于搜索內(nèi)容的分類模型的裝置。
根據(jù)再一個方面,一種用于搜索內(nèi)容的計算機實施方法可包括:從用戶的客戶端裝置接收第一搜索查詢,所述第一搜索查詢具有一個或多個關鍵字;響應于所述第一搜索查詢,使用多個注釋詞典來注釋所述第一搜索查詢的關鍵字,每個注釋詞典與多個類別中的一個對應;從所述第一搜索查詢的經(jīng)注釋的關鍵字提取特征;由對所提取的特征應用多個分類模型來對所述用戶進行分類;基于所述用戶的分類在內(nèi)容數(shù)據(jù)庫中執(zhí)行搜索以檢索包含一個或多個內(nèi)容項目的列表;以及將所述包含一個或多個內(nèi)容項目的列表傳送到所述客戶端裝置。
附圖說明
本發(fā)明的實施方案在附圖的各圖中以舉例而非限制的方式示出,附圖中的相同參考數(shù)字指示類似元件。
圖1a和圖1b是示出根據(jù)本發(fā)明一些實施方案的用于搜索圖像的系統(tǒng)配置的示例的框圖。
圖2是示出根據(jù)本發(fā)明一個實施方案的用戶分類模型訓練系統(tǒng)的示例的框圖。
圖3是示出根據(jù)本發(fā)明一個實施方案的訓練分類模型的處理流程的圖。
圖4是示出根據(jù)本發(fā)明一個實施方案的用于注釋和特征提取的過程的圖。
圖5是示出根據(jù)本發(fā)明一個實施方案的內(nèi)容搜索系統(tǒng)的框圖。
圖6是示出根據(jù)本發(fā)明一個實施方案的使用分類模型搜索內(nèi)容的處理流程的圖。
圖7是示出根據(jù)本發(fā)明一個實施方案的訓練分類模型的過程的流程圖。
圖8是示出根據(jù)本發(fā)明一個實施方案的使用分類模型對用戶進行分類的過程的流程圖。
圖9是示出根據(jù)一個實施方案的數(shù)據(jù)處理系統(tǒng)的框圖。
具體實施方式
以下將參考所討論的細節(jié)來描述本發(fā)明的各種實施方案和方面,附圖將示出所述各種實施方案。以下描述和附圖是對本發(fā)明的說明,而不應當解釋為限制本發(fā)明。描述了許多特定細節(jié)以便提供對本發(fā)明各種實施方案的全面理解。然而,在某些示例中,并未描述眾所周知的或常規(guī)的細節(jié)以便提供對本發(fā)明實施方案的簡潔討論。
本說明書中對“一個實施方案”或“一實施方案”的提及意味著結(jié)合該實施方案所描述的特定特征、結(jié)構(gòu)或特性可包括在本發(fā)明的至少一個實施方案中。短語“在一個實施方案中”在本說明書中各個地方的出現(xiàn)不必全部是指同一實施方案。
根據(jù)一些實施方案,提供了一種用戶分類系統(tǒng)(例如,醫(yī)療查詢意圖分類)以將醫(yī)療搜索查詢分類成用戶類別,其可用于導出用戶意圖。用戶類別或意圖可以用作醫(yī)療實踐階段的細粒度類別,其中查詢答復映射到所述細粒度類別。分類系統(tǒng)利用離線的已知數(shù)據(jù)集來訓練分類模型以將查詢分類成預定類別(例如,意圖類別)集。為預定類別,例如醫(yī)療信息檢索領域、治療、疾病、癥狀等構(gòu)建注釋詞典集?;趶呐c預定類別相關聯(lián)的網(wǎng)站爬獲的數(shù)據(jù)構(gòu)建注釋詞典。在訓練期間,根據(jù)已知的搜索查詢確定特征,其表示某些特征的存在。用于查詢的特征至少包括字的n元語法、預定類別(例如,醫(yī)療類別)和相對令牌位置信息。因此,將每個查詢轉(zhuǎn)換成用于訓練的特征集。
根據(jù)本發(fā)明的一個方面,收集預定查詢集,其中預定查詢中的每一個均與預定類別(例如,網(wǎng)站的特定醫(yī)療類別或特定類型)相關聯(lián)。對于預定查詢中的每一個而言,使用與預定類別相應的注釋詞典注釋預定查詢?;陬A定查詢的注釋從預定查詢提取一個或多個特征?;陬A定查詢以及與預定查詢相關聯(lián)的特征訓練和生成與預定類別相應的分類模型。利用分類模型對用戶進行分類以進行信息檢索。
根據(jù)本發(fā)明的另一個方面,從用戶的客戶端裝置接收第一搜索查詢,所述第一搜索查詢具有一個或多個關鍵字。響應于第一搜索查詢,使用預定注釋詞典集注釋搜索查詢的關鍵字。每個注釋詞典與預定類別中的一個相對應。從第一搜索查詢的所述注釋的關鍵字提取特征。由對所述提取的特征應用一個或多個分類模型來對用戶進行分類?;谟脩舻姆诸愒趦?nèi)容數(shù)據(jù)庫中執(zhí)行搜索以檢索一個或多個內(nèi)容項目列表。將所述一個或多個內(nèi)容項目列表傳送到客戶端裝置。
圖1a和圖1b是示出根據(jù)本發(fā)明一些實施方案的用于搜索圖像的系統(tǒng)配置的示例的框圖。參考圖1a,系統(tǒng)100包括但不限于通過網(wǎng)絡103通信地聯(lián)接到服務器104的一個或多個客戶端裝置101-102??蛻舳搜b置101-102可以是任何類型的客戶端裝置,諸如,個人計算機(例如,臺式計算機、膝上型計算機和平板計算機)、“薄”客戶端、個人數(shù)字助理(pda)、支持網(wǎng)絡的器具、智能手表或移動電話(例如,智能手機)等。網(wǎng)絡103可以是任何類型的網(wǎng)絡,諸如有線或無線的局域網(wǎng)(lan)、諸如互聯(lián)網(wǎng)的廣域網(wǎng)(wan)或其組合。
服務器104可以是任何類型的服務器或服務器集群,諸如網(wǎng)絡或云服務器、應用服務器、后端服務器或其組合。在一個實施方案中,服務器104包括但不限于搜索引擎120、用戶分類模塊或系統(tǒng)110和用戶分類模型115。服務器104還包括允許客戶端(諸如,客戶端裝置101-102)存取由服務器104提供的資源或服務的接口(未示出)。所述接口可包括網(wǎng)絡接口、應用編程接口(api)和/或命令行接口(cli)。
例如,客戶端(在這個示例中為客戶端裝置101的用戶應用(例如,網(wǎng)絡瀏覽器、移動應用))可向服務器104發(fā)送搜索查詢,且由搜索引擎120通過網(wǎng)絡103經(jīng)由接口來接收所述搜索查詢。響應于搜索查詢,搜索引擎120從搜索查詢提取一個或多個關鍵字(也稱為搜索詞)。搜索引擎120在內(nèi)容數(shù)據(jù)庫133中執(zhí)行搜索以識別與關鍵字有關的內(nèi)容項目列表,所述內(nèi)容數(shù)據(jù)庫可包括主要內(nèi)容數(shù)據(jù)庫130和/或輔助內(nèi)容數(shù)據(jù)庫131。主要內(nèi)容數(shù)據(jù)庫130(也稱為主內(nèi)容數(shù)據(jù)庫)可以是一般內(nèi)容數(shù)據(jù)庫,而輔助內(nèi)容數(shù)據(jù)庫131(也稱為二級內(nèi)容數(shù)據(jù)庫)可以是特殊內(nèi)容數(shù)據(jù)庫。搜索引擎120向客戶端裝置101傳回具有列表中的至少一些內(nèi)容項目的搜索結(jié)果頁面,以在其中呈現(xiàn)。搜索引擎120可以是獲自百度公司的
搜索引擎(諸如,網(wǎng)絡搜索引擎)是被設計成在萬維網(wǎng)上搜索信息的軟件系統(tǒng)。搜索結(jié)果通常被呈現(xiàn)在一系列結(jié)果(常稱為搜索引擎結(jié)果頁面)中。信息可以是網(wǎng)頁、圖像和其他類型的文件的混合。一些搜索引擎還挖掘數(shù)據(jù)庫或開放式目錄中可用的數(shù)據(jù)。不同于僅通過人工編輯器來維持的網(wǎng)絡目錄,搜索引擎還通過在網(wǎng)絡爬蟲上運行算法來維持實時信息。
網(wǎng)絡搜索引擎通過存儲關于許多網(wǎng)頁的信息來運行,它們從頁面的超文本標記語言(html)標記來檢索所述網(wǎng)頁。通過網(wǎng)絡爬蟲來檢索這些頁面,所述網(wǎng)絡爬蟲是遵循網(wǎng)站上的每個鏈接的自動化網(wǎng)絡爬蟲。搜索引擎接著分析每個頁面的內(nèi)容以確定其應如何被索引(例如,可以從標題、頁面內(nèi)容、標頭或稱為元標簽的特殊字段來提取字)。將關于網(wǎng)頁的數(shù)據(jù)存儲在索引數(shù)據(jù)庫中,以供在稍后的查詢中使用。索引幫助盡可能快地找到與查詢有關的信息。
當用戶將查詢輸入到搜索引擎中時(通常是通過使用關鍵字),引擎檢查其索引并根據(jù)其標準提供最匹配網(wǎng)頁的列表,通常具有包含文檔標題及有時部分文本的簡短概述。索引是由與數(shù)據(jù)一起存儲的信息及信息的索引方法建構(gòu)而成。搜索引擎查找與輸入時完全一致的字或短語。一些搜索引擎提供先進的特征(稱為接近搜索),其允許用戶定義關鍵字之間的距離。還存在基于概念的搜索,其中所述搜索涉及在包含你所搜索的字或短語的頁面上使用統(tǒng)計分析。又,自然語言查詢允許用戶以與將向人詢問問題的形式相同的形式來鍵入問題。
返回參考圖1a,根據(jù)一個實施方案,響應于在服務器104處從客戶端裝置(在這個示例中為客戶端裝置101)接收的搜索查詢,搜索引擎120在內(nèi)容數(shù)據(jù)庫133(諸如,主要內(nèi)容數(shù)據(jù)庫130和/或輔助內(nèi)容數(shù)據(jù)庫131)中執(zhí)行搜索,以生成內(nèi)容項目列表。可經(jīng)由統(tǒng)一資源鏈接(url)和/或統(tǒng)一資源標識符(uri)使每一個內(nèi)容項目與特定內(nèi)容提供者的特定網(wǎng)站的特定網(wǎng)頁相關聯(lián)。在一個實施方案中,主要內(nèi)容數(shù)據(jù)庫130存儲已由網(wǎng)絡爬蟲收集的一般內(nèi)容項目(例如,非贊助內(nèi)容)。輔助內(nèi)容數(shù)據(jù)庫135存儲與特定、已知或預定的內(nèi)容提供者相關聯(lián)的特定或特殊內(nèi)容項目(例如,贊助內(nèi)容)??商娲?,在不區(qū)分主要內(nèi)容數(shù)據(jù)庫130與輔助內(nèi)容數(shù)據(jù)庫131的情況下,可將內(nèi)容數(shù)據(jù)庫133實施為單個數(shù)據(jù)庫。
網(wǎng)絡爬蟲是自動遍歷網(wǎng)絡的超文本結(jié)構(gòu)的程序。在實踐中,網(wǎng)絡爬蟲可運行于獨立的計算機或服務器上,所述計算機或服務器中的每一個被配置成執(zhí)行從url下載文檔的一個或多個進程或線程。網(wǎng)絡爬蟲接收所指派的url,并在那些url處下載文檔。網(wǎng)絡爬蟲還可檢索被已檢索的文檔引用的文檔,以供由內(nèi)容處理系統(tǒng)(未示出)和/或搜索引擎120處理。網(wǎng)絡爬蟲可以使用各種協(xié)議來下載與url相關聯(lián)的頁面,諸如超文本傳輸協(xié)議(http)和文件傳送協(xié)議(ftp)。
參考圖1a,服務器104還包括用戶分類模塊或系統(tǒng)110以使用一個或多個用戶分類模型115來對發(fā)起搜索查詢的用戶進行分類以確定用戶的類型或類別??墒褂糜脩舻念悇e或類型來確定用戶可能做什么或用戶想要接收什么信息(例如,用戶意圖)。基于用戶分類,隨后可在內(nèi)容數(shù)據(jù)庫133中執(zhí)行搜索,例如,用于與所述用戶分類(例如,用戶的類型或類別)相關聯(lián)的特定類型的內(nèi)容。其結(jié)果是,可向用戶提供更好的搜索結(jié)果(例如,專門配置用于用戶或用戶意圖的某些類型的特殊內(nèi)容或贊助內(nèi)容)且可改進用戶的滿意度。
由用戶分類模型訓練系統(tǒng)150(也簡稱為訓練系統(tǒng))來訓練和生成用戶分類模型115(也簡稱為模型),其可實施為網(wǎng)絡上的單獨服務器或可替代地與服務器104整合在一起。模型115可由訓練系統(tǒng)150離線地訓練和生成、加載到服務器104中并定期地從訓練系統(tǒng)150進行更新。模型115中的每一個與若干預定類別、用戶種類或信息類型(例如,醫(yī)療信息)中的一個相對應。模型115中的每一個可表示用戶響應于搜索查詢而可能感興趣的或想要接收的信息的預定類別中的一個。
在信息檢索領域中,重要的是要知道或預測用戶真正想要接收什么。在網(wǎng)絡上最流行的搜索之一是醫(yī)療信息搜索。出于說明的目的,貫穿本申請所描述的技術是針對醫(yī)療信息檢索進行描述的。然而,所述技術可同樣適用于其它類型的信息檢索。在一個實施方案中,已對模型115中的每一個進行訓練以響應于用戶發(fā)起的搜索查詢對用戶進行分類并映射到預定類別中的一個,即,醫(yī)療類別。在一個實施方案中,信息的預定類別包括:1)醫(yī)療,2)醫(yī)療死亡,3)醫(yī)療癥狀,4)醫(yī)學,5)醫(yī)療部門或設施,6)醫(yī)療實驗室,7)價格和8)未知的(例如,一攬子類別)。
對于預定類別中的每一個而言,基于與預定類別對應的已知搜索查詢集合來訓練和生成模型??蓮呐c特定預定類別相關聯(lián)的已知網(wǎng)站集合來收集已知搜索查詢集合。在一個實施方案中,可利用在搜索查詢中的某些關鍵字以及這些關鍵字如何出現(xiàn)在搜索查詢內(nèi)而訓練模型以導出用戶意圖。這些過程稱為用于創(chuàng)建模型115的離線過程。隨后,將模型115加載到服務器104中以實時地處理搜索查詢,在這里稱為在線過程。
響應于源于用戶的客戶端裝置,如客戶端裝置101的搜索查詢,將搜索查詢饋送到模型115中的每一個。模型115中的每一個提供了指示符,其指示用戶與對應于所述特定模型的預定類別相關聯(lián)的可能性。換句話說,模型115中的每一個基于搜索查詢預測用戶是否對與所述特定模型相關聯(lián)的特定類別的信息感興趣。在一個實施方案中,模型115中的每一個提供用戶對接受相應類別信息感興趣的可能性?;谀P?15所提供的可能性,例如,基于具有最高可能性的類別確定用戶分類或用戶意圖。此后,可基于用戶分類或用戶意圖(例如,目標內(nèi)容)識別某些類型的內(nèi)容并將其返回到用戶,這可以反映出用戶真正想要接收什么。在一個實施方案中,如果由模型預測的可能性在預定的閾值(例如,70%)以上,則將相應的搜索查詢當作已知的查詢且可將其添加到與用于后續(xù)訓練目的的模型相關聯(lián)的已知查詢集合。
例如,根據(jù)一個實施方案,響應于搜索查詢,搜索引擎120在主要內(nèi)容數(shù)據(jù)庫130中執(zhí)行搜索以識別和檢索一般內(nèi)容項目列表。另外,用戶分類系統(tǒng)100基于搜索查詢對用戶進行分類,所述搜索查詢使用一個或多個分類模型115確定用戶的類別或種類或用戶尋求的信息類別或種類,其可表示用戶的用戶意圖?;谟脩舴诸悾稍谳o助內(nèi)容數(shù)據(jù)庫131中執(zhí)行搜索以識別和檢索特殊內(nèi)容項目列表(例如,贊助內(nèi)容)。之后,將具有一般和特殊內(nèi)容項目的搜索結(jié)果返回到用戶。在這里,特殊內(nèi)容項目為基于用戶意圖而以用戶為目的的特定內(nèi)容,其可能更準確或更接近于用戶真正想要的內(nèi)容。
應注意,已僅出于示出的目的描述了服務器104的配置。服務器104可以是向多種最終用戶裝置提供前端搜索服務的網(wǎng)絡服務器??商娲兀掌?04可為應用服務器或后端服務器,其向前端服務器(例如,網(wǎng)絡服務器或一般內(nèi)容服務器)提供特定或特殊的內(nèi)容搜索服務。其他架構(gòu)或配置也可能是可適用的。例如,如圖1b中所示,內(nèi)容數(shù)據(jù)庫133可通過網(wǎng)絡被維護和托管在作為內(nèi)容服務器的獨立服務器中。服務器133可以是網(wǎng)絡服務器、應用服務器或后端服務器??捎膳c服務器104相同的實體或組織來組織和提供內(nèi)容服務器133。可替代地,可由獨立的實體或組織(例如,第三方內(nèi)容提供者)來維護或托管內(nèi)容服務器133,所述實體或組織負責收集內(nèi)容數(shù)據(jù)庫130-131中的內(nèi)容及其元數(shù)據(jù)。還應注意,內(nèi)容數(shù)據(jù)庫/服務器133可包括主要內(nèi)容數(shù)據(jù)庫130和輔助內(nèi)容數(shù)據(jù)庫131。主要內(nèi)容數(shù)據(jù)庫130也可實施或維護在獨立的內(nèi)容服務器(稱為主要內(nèi)容服務器)中。類似地,輔助內(nèi)容數(shù)據(jù)庫131可實施或維護在獨立的內(nèi)容服務器(稱為輔助內(nèi)容服務器)中。
圖2是示出根據(jù)本發(fā)明一個實施方案的用戶分類模型訓練系統(tǒng)的示例的框圖。系統(tǒng)200可實施為圖1a-1b的模型訓練系統(tǒng)或服務器150的一部分。參考圖2,根據(jù)一個實施方案,系統(tǒng)200包括用戶分類模型訓練系統(tǒng)/模塊201,其可在軟件、硬件或其組合中實施。例如,用戶分類模型訓練系統(tǒng)201可在加載在存儲器中且由處理器(未示出)執(zhí)行的軟件中實施,其可通信地聯(lián)接到存儲一組已知查詢230、注釋詞典240和用戶分類模型250的永久存儲裝置202。
在一個實施方案中,用戶分類模型訓練系統(tǒng)201包括注釋詞典構(gòu)建器211、查詢注釋模塊212、特征提取模塊214和模型訓練引擎213。注釋詞典構(gòu)建器211構(gòu)建存儲與相應的預定類別相關聯(lián)的字或短語的一組注釋詞典240。查詢注釋模塊212使用注釋詞典240對已知查詢230的集合進行注釋。特征提取模塊214從注釋查詢提取預定特征集。在一個實施方案中,要提取的特征包括位置特征、字的n元語法特征和注釋特征,其可分別由位置特征提取器221、字的n元語法特征提取器222和注釋特征提取器223來提取。
隨后,模型訓練引擎213基于具有所提取特征的已注釋的查詢來訓練和生成用戶分類模型250。模型訓練引擎213可以是支持向量機(svm)兼容的訓練引擎或任何其他機器學習系統(tǒng)。模型250可以是svm兼容模型。在機器學習中,svm(也稱為支持向量網(wǎng)絡)為具有分析用于分類和回歸分析的數(shù)據(jù)的相關學習算法的監(jiān)督學習模型。給定一個訓練示例集合,將每一個標記成屬于兩個類別中的一個,svm訓練算法構(gòu)建將新的示例分配到一個類別或另一個類別中的模型,這使其成為非概率二元線性分類器。svm模型為對示例按空間中的點進行的表示,對其進行映射以由盡可能寬的明顯間隙分隔單獨類別的示例。隨后,將新的示例映射到相同的空間中并基于其落在間隙的哪一側(cè)而預測其屬于一個類別。
除了執(zhí)行線性分類外,svm可使用所謂的核戲法有效地執(zhí)行非線性分類,將其輸入隱式地映射到高維特征空間中。當未標記數(shù)據(jù)時,監(jiān)督學習是不可能的,且需要無監(jiān)督學習,這會發(fā)現(xiàn)數(shù)據(jù)到組的自然聚類以及將新數(shù)據(jù)映射到這些形成的組。對支持向量機提供改進的聚類算法稱為支持向量聚類且通常用于未標記數(shù)據(jù)時或僅將一些數(shù)據(jù)標記為用于分類通過的預處理時的應用中。
在一個實施方案中,現(xiàn)在參考圖2和3,注釋詞典構(gòu)建器211基于與預定類別中每一個對應的已知字和/或短語集合來構(gòu)建對應于預定類別(例如,醫(yī)療、醫(yī)療死亡、醫(yī)療癥狀、醫(yī)學、醫(yī)療部門或設施、醫(yī)療實驗室、價格和/或未知的)的一組注釋詞典240。注釋詞典中的每一個存儲已在與對應類別相關的領域中頻繁使用的特定字和/或短語??捎删W(wǎng)絡爬蟲301從屬于所述類別的許多內(nèi)容網(wǎng)站列表302來收集與特定類別相關聯(lián)的字和短語。
一旦創(chuàng)建了注釋詞典240,查詢注釋模塊212則使用注釋詞典240對一組已知查詢230進行注釋。在一個實施方案中,從已知查詢230中的每一個提取一個或多個關鍵字。對于關鍵字中的每一個而言,查詢注釋模塊212確定關鍵字是否包括在注釋詞典中的任意一個或多個中。如果關鍵字出現(xiàn)在注釋詞典中,查詢注釋模塊212則注釋或標記所述關鍵字與對應于所述特定注釋詞典的類別相關聯(lián)。應注意,關鍵字可與一個以上類別相關聯(lián)。因而生成一組經(jīng)注釋的查詢303。
由特征提取模塊214從經(jīng)注釋的查詢303提取一個或多個特征的集合。在一個實施方案中,位置特征提取器221提取在搜索查詢中的一個或多個關鍵字的位置特征。位置特征指示關鍵字在搜索查詢內(nèi)的位置,其可以是從搜索查詢的起點或終點開始計算(例如,所偏移的)字的數(shù)目。另外,字的n元語法特征提取器222從搜索查詢提取字的n元語法特征。在計算語言學和概率的領域中,n元語法是源于給定序列的文本或語音的連續(xù)序列的n個項目。根據(jù)應用,項目可以是音素、音節(jié)、字母、字或基對。此外,注釋特征提取器223從經(jīng)注釋的搜索查詢中提取注釋特征。注釋特征指示搜索查詢包括屬于特定注釋詞典的關鍵字。因此生成一組具有所提取的特征的經(jīng)注釋的查詢304。隨后,將具有特征的經(jīng)注釋的查詢304饋送到模型訓練引擎213中以訓練一組分類模型250。
圖4是示出根據(jù)本發(fā)明一個實施方案的用于注釋和特征提取的過程的圖??衫盟镜倪^程以離線創(chuàng)建分類模型或在線使用分類模型(以下將進一步地進行詳細描述)進行搜索。參考圖4,在線接收以用于搜索或離線接收的以用于建模的搜索查詢401包括“whattodowithbaystomachache?(要對嬰兒胃痛做些什么)”的聲明。隨后,使用一組預定注釋詞典對查詢401進行注釋以生成經(jīng)注釋的查詢402。在這個示例中,注釋詞典包括用于人/患者、治療、死亡、癥狀、醫(yī)學、部門、實驗室、價格和未知的詞典。其結(jié)果是,用類別“人”或“患者”注釋術語“baby(嬰兒)”。用類別“癥狀”注釋術語“stomachache(胃痛)”。用類別“治療”注釋術語“whattodowith(要做些什么)”。
隨后,提取經(jīng)注釋的查詢402的特征,包括位置特征列表403、n元語法特征列表404(在這個示例中為2元語法)以及注釋特征列表405。位置特征列表403指示每個字或短語在查詢中的位置。在這個示例中,術語“whattodowith(要做些什么)”位于第一位置上;術語“baby(嬰兒)”位于第二位置上;且術語“stomachache(胃痛)”位于第三或最后的位置上。注釋特征指示與注釋詞典相關聯(lián)的類別中的哪些包括查詢的至少一個字或術語,在這個示例中,注釋特征是:人、癥狀和治療。隨后,使用經(jīng)注釋的查詢402和特征403-405來訓練模型或使用模型進行在線搜索。
圖5是示出根據(jù)本發(fā)明一個實施方案的內(nèi)容搜索系統(tǒng)的框圖??苫谑褂靡粋€或多個分類模型確定的用戶意圖把系統(tǒng)500看作在線搜索系統(tǒng),其中所述分類模型是使用如上所述的模型訓練系統(tǒng)而創(chuàng)建的。參考圖5,根據(jù)一個實施方案,用戶分類模塊或系統(tǒng)110包括用戶分類引擎513、查詢注釋模塊512和特征提取模塊514。用戶分類引擎513可以是svm兼容引擎,其可與圖2的模型訓練引擎213相同或相類似。查詢注釋模塊512可與圖2的查詢注釋模塊212相同或相類似。特征提取模塊514可與圖2的特征提取模塊214相同或相類似,其包括位置特征提取器221、字的n元語法特征提取器222和注釋特征提取器223。
在一個實施方案中,現(xiàn)在參考圖5和6,響應于搜索查詢501,搜索引擎120調(diào)用用戶分類系統(tǒng)110來使用一個或多個分類模型250對發(fā)起搜索查詢501(例如,用戶意圖)的用戶進行分類。在一個實施方案中,查詢注釋模塊512使用注釋詞典240對搜索查詢501(例如,圖4的查詢401)進行注釋以生成經(jīng)注釋的查詢602(例如,圖4的經(jīng)注釋的查詢402)。特征提取模塊514從經(jīng)注釋的查詢602提取特征,包括如上所述的位置特征(例如,圖4的特征403)、n元語法特征(例如,特征404)以及注釋特征(例如,圖4的特征405),其生成具有特征的經(jīng)注釋的查詢603。用戶分類引擎513基于具有特征的經(jīng)注釋的查詢603,使用分類模型250對用戶進行分類以生成用戶分類或類別604?;谟脩舴诸?04,搜索引擎120在內(nèi)容數(shù)據(jù)庫133中執(zhí)行搜索以識別和檢索內(nèi)容項目列表以生成搜索結(jié)果502。隨后,將搜索結(jié)果返回到用戶。在一個實施方案中,如果由模型預測的可能性在預定的閾值(例如,70%)以上,則將相應的搜索查詢當作已知的查詢且可將其添加到與用于后續(xù)訓練目的的模型相關聯(lián)的已知查詢集合。
應注意,注釋過程和特征提取過程與上面針對圖2-4所述的過程相同或相類似。在一個實施方案中,將單個svm引擎用作分類引擎513和模型訓練引擎213。在離線訓練過程期間,將已知查詢集合饋送到svm引擎中以生成模型集。在在線搜索過程期間,svm引擎加載模型中的每一個的二進制數(shù)并處理在線接收的搜索查詢以輸出表示用戶與相應的類別相關聯(lián)的可能性(如概率)的指示符。其結(jié)果是,svm生成與類別集合對應的概率集合。將選擇具有最高概率的一個類別以進行搜索目的。在如圖4中所示的示例中,用戶最可能尋求對嬰兒胃痛的治療。因此,將執(zhí)行對用于嬰兒胃痛的醫(yī)療的搜索,這是因為用戶最可能對接收醫(yī)療信息的類別感興趣。
圖7是示出根據(jù)本發(fā)明一個實施方案的訓練分類模型的過程的流程圖。過程700可以由處理邏輯來執(zhí)行,所述處理邏輯包括硬件(例如,電路、專用邏輯等)、軟件(例如,體現(xiàn)在非暫時性計算機可讀介質(zhì)上)或其組合。例如,過程700可以由圖2的系統(tǒng)200執(zhí)行。參考圖7,在框701處,處理邏輯接收一組預定查詢(例如,已知查詢),每個查詢均與一個或多個已知類別相關聯(lián)。在框702處,對于每個類別的每個查詢,處理邏輯使用與所述類別對應的注釋詞典來注釋查詢的一個或多個關鍵字。在框703處,處理邏輯從經(jīng)注釋的查詢提取一個或多個特征(例如,位置、n元語法和注釋特征)。在框704處,處理邏輯使用訓練引擎(例如,svm)基于具有所提取特征的經(jīng)注釋的查詢來訓練與所述類別對應的分類模型。在框705處,處理邏輯基于對預定查詢的訓練生成一個或多個分類模型。每個模型與預定類別中的一個相對應。
圖8是示出根據(jù)本發(fā)明一個實施方案的使用分類模型對用戶進行分類的過程的流程圖。過程800可以由處理邏輯來執(zhí)行,所述處理邏輯包括硬件(例如,電路、專用邏輯等)、軟件(例如,體現(xiàn)在非暫時性計算機可讀介質(zhì)上)或其組合。例如,過程800可以由圖5的系統(tǒng)500執(zhí)行。參考圖8,在框801處,處理邏輯從用戶接收用于搜索內(nèi)容的具有一個或多個關鍵字的搜索查詢。在框802處,處理邏輯使用一個或多個注釋詞典來注釋搜索查詢的關鍵字。每個注釋詞典存儲與預定類別對應的術語或字。在框803處,處理邏輯從經(jīng)注釋的搜索查詢提取一個或多個特征(例如,位置、n元語法和注釋特征)。在框804處,處理邏輯對經(jīng)注釋的查詢和特征應用一組分類模型以確定用戶屬于由分類模型所表示的類別的可能性(例如,概率)。在框805處,將具有最高可能性的類別選為與用戶相關聯(lián)。在框806處,依據(jù)用戶的所選類別在內(nèi)容數(shù)據(jù)庫中執(zhí)行搜索。
圖9是示出可以與本發(fā)明一個實施方案一起使用的數(shù)據(jù)處理系統(tǒng)的示例的框圖。例如,系統(tǒng)1500可以表示以上所描述的執(zhí)行上述過程或方法中的任一個的任一數(shù)據(jù)處理系統(tǒng)(例如,上述客戶端裝置或服務器,例如以上所述服務器104、內(nèi)容服務器133、分類模型訓練系統(tǒng)150)。
系統(tǒng)1500可包括許多不同的組件。這些組件可以實現(xiàn)為集成電路(ic)、集成電路的部分、離散電子裝置或適配于電路板的其他模塊(諸如計算機系統(tǒng)的主板或插入卡),或者實現(xiàn)為以其他方式并入計算機系統(tǒng)的底盤內(nèi)的組件。
還應注意,系統(tǒng)1500旨在示出計算機系統(tǒng)的許多組件的高級視圖。然而,應當理解的是,某些實現(xiàn)方式中可出現(xiàn)附加的組件,此外,其他實現(xiàn)方式中可出現(xiàn)所示組件的不同的布置。系統(tǒng)1500可以表示臺式計算機、膝上型計算機、平板計算機、服務器、移動電話、媒體播放器、個人數(shù)字助理(pda)、智能手表、個人通信器、游戲裝置、網(wǎng)絡路由器或集線器、無線接入點(ap)或中繼器、機頂盒或其組合。此外,雖然僅示出了單個機器或系統(tǒng),但是術語“機器”或“系統(tǒng)”還應當被理解為包括單獨地或共同地執(zhí)行一個(或多個)指令集以執(zhí)行本文所討論的任何一種或多種方法的機器或系統(tǒng)的任何集合。
在一個實施方案中,系統(tǒng)1500包括通過總線或互連件1510連接的處理器1501、存儲器1503以及裝置1505至1508。處理器1501可表示其中包括單個處理器內(nèi)核或多個處理器內(nèi)核的單個處理器或多個處理器。處理器1501可表示一個或多個通用處理器,諸如微處理器、中央處理單元(cpu)等。更具體地,處理器1501可以是復雜指令集計算(cisc)微處理器、精簡指令集計算(risc)微處理器、超長指令字(vliw)微處理器、或?qū)崿F(xiàn)其他指令集的處理器、或?qū)崿F(xiàn)指令集組合的處理器。處理器1501還可以是一個或多個專用處理器,諸如專用集成電路(asic)、蜂窩或基帶處理器、現(xiàn)場可編程門陣列(fpga)、數(shù)字信號處理器(dsp)、網(wǎng)絡處理器、圖形處理器、通信處理器、加密處理器、協(xié)同處理器、嵌入式處理器或能夠處理指令的任何其他類型的邏輯。
處理器1501(其可以是低功率多核處理器插座,諸如超低電壓處理器)可充當用于與所述系統(tǒng)的各種組件通信的主處理單元和中央集線器。這種處理器可以實現(xiàn)為片上系統(tǒng)(soc)。處理器1501被配置成執(zhí)行指令以執(zhí)行本文所討論的操作和步驟。系統(tǒng)1500還可包括與可選的圖形子系統(tǒng)(顯示控制器和/或顯示裝置)1504通信的圖形接口,圖形子系統(tǒng)(顯示控制器和/或顯示裝置)1504可包括顯示控制器、圖形處理器和/或顯示裝置。
處理器1501可以與存儲器1503通信,存儲器1503在一個實施方案中可以通過多個存儲器裝置來實現(xiàn)以提供給定量的系統(tǒng)存儲器。存儲器1503可包括一個或多個易失性存儲(或存儲器)裝置,諸如隨機存取存儲器(ram)、動態(tài)ram(dram)、同步dram(sdram)、靜態(tài)ram(sram)或其他類型的存儲裝置。存儲器1503可以存儲包括由處理器1501或任何其他裝置執(zhí)行的指令序列的信息。例如,多種操作系統(tǒng)、裝置驅(qū)動程序、固件(例如,輸入輸出基本系統(tǒng)或bios)和/或應用的可執(zhí)行代碼和/或數(shù)據(jù)可以加載到存儲器1503中并由處理器1501執(zhí)行。操作系統(tǒng)可以是任何種類的操作系統(tǒng),例如像來自
系統(tǒng)1500還可包括i/o裝置,諸如裝置1505至1508,包括網(wǎng)絡接口裝置1505、可選的輸入裝置1506以及其他可選的i/o裝置1507。網(wǎng)絡接口裝置1505可包括無線收發(fā)器和/或網(wǎng)絡接口卡(nic)。無線收發(fā)器可以是wifi收發(fā)器、紅外收發(fā)器、藍牙收發(fā)器、wimax收發(fā)器、無線蜂窩電話收發(fā)器、衛(wèi)星收發(fā)器(例如,全球定位系統(tǒng)(gps)收發(fā)器)或其他射頻(rf)收發(fā)器或其組合。nic可以是以太網(wǎng)卡。
輸入裝置1506可包括鼠標、觸摸板、觸敏屏幕(其可以與顯示裝置1504集成在一起)、指示裝置(諸如指示筆)和/或鍵盤(例如,物理鍵盤或作為觸敏屏幕的一部分顯示的虛擬鍵盤)。例如,輸入裝置1506可包括聯(lián)接到觸摸屏的觸摸屏控制器。觸摸屏和觸摸屏控制器例如可以使用多種觸摸靈敏度技術(包括但不限于電容、電阻、紅外和表面聲波技術)中的任一種來探測接觸點和移動或其間斷,以及可以使用用于確定與觸摸屏發(fā)生的一個或多個接觸點的其他接近傳感器陣列或其他元件來探測接觸點和移動或其間斷。
i/o裝置1507可包括音頻裝置。音頻裝置可包括揚聲器和/或麥克風,以促進支持語音的功能,諸如語音識別、語音復制、數(shù)字記錄和/或電話功能。其他i/o裝置1507還可包括通用串行總線(usb)端口、并行端口、串行端口、打印機、網(wǎng)絡接口、總線橋(例如,pci-pci橋)、傳感器(例如,運動傳感器,諸如加速度計、陀螺儀、磁強計、光傳感器、羅盤、接近傳感器等)或其組合。裝置1507還可包括成像處理子系統(tǒng)(例如,攝像機),所述成像處理子系統(tǒng)可包括用來促進攝像機功能(諸如錄下照片和視頻片段)的光學傳感器,諸如電荷耦合裝置(ccd)或互補金屬氧化物半導體(cmos)光學傳感器。某些傳感器可以通過傳感器集線器(未示出)聯(lián)接到互連件1510,而其他裝置諸如鍵盤或熱傳感器可以由嵌入式控制器(未示出)來控制,這取決于系統(tǒng)1500的具體配置或設計。
為了提供對信息(諸如數(shù)據(jù)、應用、一個或多個操作系統(tǒng)等)的永久性存儲,大容量存儲裝置(未示出)也可聯(lián)接到處理器1501。在各種實施方案中,為了實現(xiàn)更薄且更輕的系統(tǒng)設計并且為了改進系統(tǒng)響應能力,這種大容量存儲裝置可以通過固態(tài)裝置(ssd)實現(xiàn)。然而,在其他實施方案中,大容量存儲裝置可以主要使用硬盤驅(qū)動器(hdd)來實現(xiàn),其中較小量的ssd存儲裝置充當ssd高速緩存以在斷電事件期間實現(xiàn)對上下文狀態(tài)以及其他此類信息的非易失性存儲,從而使得在系統(tǒng)活動重新啟動時能夠?qū)崿F(xiàn)快速上電。另外,閃存裝置可以例如通過串行外圍接口(spi)聯(lián)接到處理器1501。這種閃存裝置可以提供對系統(tǒng)軟件的非易失性存儲,所述系統(tǒng)軟件包括所述系統(tǒng)的基本輸入/輸出軟件(bios)以及其他固件。
存儲裝置1508可包括計算機可訪問的存儲介質(zhì)1509(也被稱為機器可讀存儲介質(zhì)或計算機可讀介質(zhì)),其上存儲有體現(xiàn)任何一種或多種本文所描述的方法或功能的一個或多個指令集或軟件(例如,模塊、單元和/或邏輯1528)。模塊/單元/邏輯1528可以表示任一上述組件,例如像如上所描述的搜索引擎、編碼器、交互日志模塊。模塊/單元/邏輯1528還可以在數(shù)據(jù)處理系統(tǒng)1500對其進行執(zhí)行期間完全地或至少部分地駐留在存儲器1503內(nèi)和/或處理器1501內(nèi),存儲器1503和處理器1501同樣構(gòu)成機器可訪問的存儲介質(zhì)。模塊/單元/邏輯1528還可以經(jīng)由網(wǎng)絡接口裝置1505通過網(wǎng)絡被發(fā)送或接收。
計算機可讀存儲介質(zhì)1509也可以用來永久性地存儲以上描述的一些軟件功能。雖然計算機可讀存儲介質(zhì)1509在示例性實施方案中被示為單個介質(zhì),但是術語“計算機可讀存儲介質(zhì)”應當被認為包括存儲一個或多個指令集的單個介質(zhì)或多個介質(zhì)(例如,集中式或分布式數(shù)據(jù)庫和/或相關聯(lián)的高速緩存和服務器)。術語“計算機可讀存儲介質(zhì)”還應當被認為包括能夠存儲或編碼指令集的任何介質(zhì),所述指令集用于由機器執(zhí)行并且引起所述機器執(zhí)行本發(fā)明的任何一種或多種方法。因此,術語“計算機可讀存儲介質(zhì)”應當被認為包括但不限于固態(tài)存儲器以及光學介質(zhì)和磁性介質(zhì)或者任何其他非暫時性機器可讀介質(zhì)。
本文所描述的模塊/單元/邏輯1528、組件以及其他特征可以實現(xiàn)為離散硬件組件或集成在硬件組件(諸如asics、fpga、dsp或類似裝置)的功能中。另外,模塊/單元/邏輯1528可以實現(xiàn)為硬件裝置內(nèi)的固件或功能電路。此外,模塊/單元/邏輯1528可以以硬件裝置和軟件組件的任何組合實現(xiàn)。
應注意,雖然系統(tǒng)1500被示出為具有數(shù)據(jù)處理系統(tǒng)的各種組件,但是其不欲表示任何具體的架構(gòu)或互連組件的方式;因為此類細節(jié)和本發(fā)明的實施方案沒有密切關系。還應當認識到,具有更少組件或可能具有更多組件的網(wǎng)絡計算機、手持計算機、移動電話、服務器和/或其他數(shù)據(jù)處理系統(tǒng)也可與本發(fā)明的實施方案一起使用。
前述詳細描述中的一些部分已經(jīng)依據(jù)在計算機存儲器內(nèi)對數(shù)據(jù)位進行的運算的算法和符號表示而呈現(xiàn)。這些算法描述和表示是數(shù)據(jù)處理領域中的技術人員所使用以便最有效地將他們的工作實質(zhì)傳達給本領域其他技術人員的方法。這里,算法通常被認為是產(chǎn)生所期望結(jié)果的有條理的操作序列。這些操作是指需要對物理量進行物理操控的操作。
然而,應當牢記,所有這些和類似的術語均意圖與適當?shù)奈锢砹筷P聯(lián),并且僅僅是應用于這些量的便利的標記。除非在以上討論中另外明確地說明清楚,否則應當了解,貫穿本說明書利用術語(諸如隨附權利要求書中所闡述的術語)進行的討論是指計算機系統(tǒng)或類似的電子計算裝置的動作和處理,所述計算機系統(tǒng)或類似的電子計算裝置操控數(shù)據(jù)(所述數(shù)據(jù)在計算機系統(tǒng)的寄存器和存儲器內(nèi)表示為物理(電子)量),并將所述數(shù)據(jù)變換成其它數(shù)據(jù)(所述其它數(shù)據(jù)在計算機系統(tǒng)存儲器或寄存器或其他此類信息存儲裝置、傳輸或顯示裝置內(nèi)同樣表示為物理量)。
各圖中所示的技術可以使用存儲和執(zhí)行于一個或多個電子裝置上的代碼及數(shù)據(jù)來實施。此類電子裝置使用計算機可讀介質(zhì)來存儲和傳達(在內(nèi)部和/或通過網(wǎng)絡與其他電子裝置)代碼及數(shù)據(jù),所述計算機可讀介質(zhì)是諸如非暫時性計算機可讀存儲介質(zhì)(例如,磁盤、光盤、隨機存取存儲器;只讀存儲器、閃存存儲器裝置、相變存儲器)和暫時性計算機可讀傳輸介質(zhì)(例如,電子、光學、聲學或其他形式的傳播信號—諸如載波、紅外信號、數(shù)字信號)。
前述附圖中所描繪的過程或方法可以由處理邏輯來執(zhí)行,所述處理邏輯包括硬件(例如,電路、專用邏輯等)、固件、軟件(例如,包含在非暫時性計算機可讀介質(zhì)上)或兩者的組合。盡管所述過程或方法在上文是依據(jù)一些有順序操作來描述的,但是應當了解,所描述的操作中的一些可以按不同的次序執(zhí)行。此外,一些操作可以并行地而不是順序地執(zhí)行。
在以上的說明書中,已經(jīng)參考本發(fā)明的具體示例性實施方案對本發(fā)明的實施方案進行了描述。將顯而易見的是:在不脫離如隨附權利要求書中闡述的本發(fā)明的較寬泛的精神和范圍的情況下,可以對其做出各種修改。因此,應當在說明性意義而不是限制性意義上來理解本說明書和附圖。