命名實體的識別方法、裝置及分類模型的創(chuàng)建方法、裝置制造方法
【專利摘要】本發(fā)明提出一種命名實體的識別方法和裝置及分類模型的創(chuàng)建方法和裝置,其中所述命名實體的識別方法包括:獲取待識別的命名實體;將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息;以及將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的至少一個分類類別。本發(fā)明實施例的方法,可在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提高命名實體識別的準確度,提高了識別效率。
【專利說明】命名實體的識別方法、裝置及分類模型的創(chuàng)建方法、裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網【技術領域】,尤其涉及一種命名實體的識別方法和裝置及分類模型的創(chuàng)建方法和裝置。
【背景技術】
[0002]隨著互聯(lián)網技術的快速發(fā)展,信息服務變得越來越普及。其中,命名實體的識別是信息提取、問答系統(tǒng)、句法分析、機器翻譯、面向互聯(lián)網的元數據標注等信息服務應用領域的重要基礎工作。其中,命名實體可以為人名、機構名、地名以及其他以名稱為標識的實體等,更廣泛地命名實體還可為數字、日期、貨幣、地址等。
[0003]通常,命名實體識別就是識別出待處理文本中三大類(實體類、時間類和數字類)命名實體,以及七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體。目前,主要通過對待處理文本中的上下文進行判斷來實現命名實體的識別。如果沒有上下文,且需要單純判斷某個詞是哪一類的命名實體時,則需要獲取用戶的點擊行為記錄,并根據用戶的點擊行為記錄判斷命名實體。因此可以看出現有技術存在以下問題:如果沒有用戶的點擊行為記錄,則無法對命名實體進行識別。
【發(fā)明內容】
[0004]本發(fā)明旨在至少解決上述技術問題之一。
[0005]為此,本發(fā)明的第一個目的在于提出一種命名實體的識別方法。該方法在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,此外,還可提高命名實體識別的準確度,提高了識別效率。
[0006]本發(fā)明的第二個目的在于提出一種分類模型的創(chuàng)建方法。
[0007]本發(fā)明的第三個目的在于提出一種命名實體的識別裝置。
[0008]本發(fā)明的第四個目的在于提出一種分類模型的創(chuàng)建裝置。
[0009]為了實現上述目的,本發(fā)明第一方面實施例的命名實體的識別方法,包括以下步驟:獲取待識別的命名實體;將所述待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取所述搜索結果的特征信息;以及將所述待識別的命名實體、所述特征信息發(fā)送至預設的分類模型,以根據所述預設的分類模型獲取所述待識別的命名實體的至少一個分類類別。
[0010]本發(fā)明實施例的命名實體的識別方法,可將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息,以及將待識別的命名實體、特性信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的分類類別,由此,可以在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提高命名實體識別的準確度,提高了識別效率。
[0011]為了實現上述目的,本發(fā)明第二方面實施例的分類模型的創(chuàng)建方法,包括以下步驟:獲取已標注類別的樣本命名實體;將所述已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取所述搜索引擎根據所述已標注類別的樣本命名實體反饋的搜索結果;從所述反饋的搜索結果中抽取特征信息;以及根據所述已標注類別的命名實體、對應的所述標注類另IJ、對應的所述特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
[0012]本發(fā)明實施例的分類模型的創(chuàng)建方法,可將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果,從反饋的搜索結果中抽取特征信息,并根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型,通過監(jiān)督學習搜索引擎的方法為命名實體的識別方法創(chuàng)建分類模型,從而通過分類模型獲取命名實體的分類類別,提高了識別效率。
[0013]為了實現上述目的,本發(fā)明第三方面實施例的命名實體的識別裝置,包括:命名實體獲取模塊,用于獲取待識別的命名實體;抽取模塊,用于將所述待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取所述搜索結果的特征信息;以及分類類別獲取模塊,用于將所述待識別的命名實體、所述特征信息發(fā)送至預設的分類模型,以根據所述預設的分類模型獲取所述待識別的命名實體的至少一個分類類別。
[0014]本發(fā)明實施例的命名實體的識別裝置,通過抽取模塊將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息,分類類別獲取模塊將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的分類類別,由此,可以在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提聞命名實體識別的準確度,提聞了識別效率。
[0015]為了實現上述目的,本發(fā)明第四方面實施例的分類模型的創(chuàng)建裝置,包括:樣本命名實體獲取模塊,用于獲取已標注類別的樣本命名實體;搜索結果獲取模塊,用于將所述已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取所述搜索引擎根據所述已標注類別的樣本命名實體反饋的搜索結果;抽取模塊,用于從所述反饋的搜索結果中抽取特征信息;以及創(chuàng)建模塊,用于根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
[0016]本發(fā)明實施例的分類模型的創(chuàng)建裝置,通過搜索結果獲取模塊將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果,抽取模塊從反饋的搜索結果中抽取特征信息,創(chuàng)建模塊根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型,通過監(jiān)督學習搜索引擎的方法為命名實體的識別方法創(chuàng)建分類模型,從而通過分類模型獲取命名實體的分類類別,提高了識別效率。
[0017]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0018]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中,
[0019]圖1是根據本發(fā)明一個實施例的命名實體的識別方法的流程圖;[0020]圖2是根據本發(fā)明一個具體實施例的命名實體的識別方法的流程圖;
[0021]圖3是根據本發(fā)明一個實施例的分類模型的創(chuàng)建方法的流程圖;
[0022]圖4是根據本發(fā)明一個具體實施例的分類模型的創(chuàng)建方法的流程圖;
[0023]圖5是根據本發(fā)明另一個具體實施例的分類模型的創(chuàng)建方法的流程圖;
[0024]圖6是根據本發(fā)明一個實施例的命名實體的識別裝置的結構示意圖;
[0025]圖7是根據本發(fā)明一個具體實施例的命名實體的識別裝置的結構示意圖;
[0026]圖8是根據本發(fā)明一個實施例的分類模型的創(chuàng)建裝置的結構示意圖;
[0027]圖9是根據本發(fā)明一個具體實施例的分類模型的創(chuàng)建裝置的結構示意圖;
[0028]圖10是根據本發(fā)明另一個具體實施例的分類模型的創(chuàng)建裝置的結構示意圖。
【具體實施方式】
[0029]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0030]在本發(fā)明的描述中,需要理解的是,術語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術語“相連”、“連接”應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對于本領域的普通技術人員而言,可以具體情況理解上述術語在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0031]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現,其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬【技術領域】的技術人員所理解。
[0032]為了解決當缺乏上下文及用戶的點擊行為記錄時,無法對命名實體進行識別的問題,本發(fā)明提出一種命名實體的識別方法和裝置及分類模型的創(chuàng)建方法和裝置,下面參考附圖描述根據本發(fā)明實施例的命名實體的識別方法和裝置及分類模型的創(chuàng)建方法和裝置。
[0033]一種命名實體的識別方法,包括以下步驟:獲取待識別的命名實體;將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息;以及將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的至少一個分類類別。
[0034]圖1是根據本發(fā)明一個實施例的命名實體的識別方法的流程圖。
[0035]如圖1所示,命名實體的識別方法包括以下步驟:
[0036]S101,獲取待識別的命名實體。
[0037]其中,命名實體可以為人名、機構名、地名以及其他以名稱為標識的實體等,更廣泛地命名實體還可以為數字、日期、貨幣、地址等。其他以名稱為標識的命名實體例如為影視、書、游戲、歌曲等。
[0038]此處的命名實體應做廣義理解,并不僅限于【背景技術】中提到的幾種類型,本發(fā)明實施例的命名實體可涉及多種領域。
[0039]S102,將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息。
[0040]具體地,可將獲取到的待識別的命名實體作為搜索詞發(fā)送至搜索引擎,搜索引擎根據該搜索詞獲取搜索結果,并從搜索引擎的搜索結果中抽取待識別的命名實體對應的特征信息。
[0041]例如,首先,從搜索結果中抽取URL (Uniform Resource Locator,統(tǒng)一資源定位符)、title (網頁標題)、abstract (摘要)等。之后,從URL、title、abstract等中抽取uni gram作為特征,其中,unigram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從URL、title、abstract等中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從URL、title、abstract等中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0042]S103,將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的至少一個分類類別。
[0043]例如,命名實體《love》,可以根據其特征信息和預設的分類模型,獲取對應的類型為書名、電影名和歌曲中的一個或多個分類類別。
[0044]其中,預設的分類模型為預先訓練好的模型,將在后續(xù)實施例中詳細敘述。
[0045]本發(fā)明實施例的命名實體的識別方法,可將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息,以及將待識別的命名實體、特性信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的分類類別,由此,可以在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提高命名實體識別的準確度,提高了識別效率。
[0046]圖2是根據本發(fā)明一個具體實施例的命名實體的識別方法的流程圖。
[0047]在本發(fā)明的實施例中,如果通過預設的分類模型獲取多個分類類別,則每個分類類別對應一個置信度,則可根據置信度對多個分類類別進行排序,并提供排序結果。具體地,如圖2所示,命名實體的識別方法包括以下步驟:
[0048]S201,獲取待識別的命名實體。
[0049]其中,命名實體可以為人名、機構名、地名以及其他以名稱為標識的實體等,更廣泛地命名實體還可以為數字、日期、貨幣、地址等。其他以名稱為標識的命名實體例如影視、書、游戲、歌曲等。
[0050]此處的命名實體應做廣義理解,并不僅限于【背景技術】中提到的幾種類型,本發(fā)明實施例的命名實體可涉及多種領域。
[0051]S202,將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息。[0052]具體地,可將獲取到的待識別的命名實體作為搜索詞發(fā)送至搜索引擎,搜索引擎根據該搜索詞獲取搜索結果,并從搜索引擎的搜索結果中抽取待識別的命名實體對應的特征信息。
[0053]例如,首先,從搜索結果中抽取url、title、abstract等。之后,從URL、title、abstract等中抽取unigram作為特征,其中,uni gram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從URL、title、abstract等中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從URL、title、abstract等中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0054]S203,將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的至少一個分類類別。
[0055]例如,命名實體《love》,可以根據其特征信息和預設的分類模型,獲取對應的類型為書名、電影名和歌曲中的一個或多個分類類別。
[0056]其中,預設的分類模型為預先訓練好的模型,將在后續(xù)實施例中詳細敘述。
[0057]應當理解,在本發(fā)明的實施例中,命名實體可能具有一個或多個分類類別,例如,命名實體“倩女幽魂”可具有多個分類類別,“倩女幽魂”可以是一款游戲,也可以是一部電影,還可以是一部電視劇等,又如,“讓子彈飛”具有一個分類類別,“讓子彈飛”可以是一部電影。
[0058]S204,根據分類類別對應的置信度對多個分類類別進行排序,并提供排序結果。
[0059]其中,置信度也可理解為可靠度,即根據預設的分類模型獲取的待識別的命名實體的分類類別的可靠程度、準確程度,可通過對分類識別結果進行加權以獲取分類類別對應的置信度。
[0060]具體地,當待識別的命名實體具有多個分類類別時,可根據每個分類類別對應的置信度對多個分類類型進行排序,例如,置信度越高,可將對應的分類類別的排序順序越靠前,并提供排序結果,從而可根據排序結果獲知命名實體對應的哪個分類類別的需求更強。
[0061]本發(fā)明實施例的命名實體的識別方法,當通過預設的分類模型獲取多個分類類別時,每個分類類別對應一個置信度,可根據分類類別對應的置信度對多個分類類別進行排序,并提供排序結果,從而可根據排序結果獲知命名實體對應的哪個分類類別的需求更強,提聞了可罪性。
[0062]其中,預設的分類模型可具有多個分類模型,可以是預設的第一分類模型、或預設的第二分類模型、或預設的第三分類模型、或預設的第四分類模型,可以分別根據不同的特征參數按照已有算法進行訓練以創(chuàng)建不同的預設的分類模型。
[0063]在本發(fā)明的一個實施例中,可通過搜索引擎抓取的搜索結果,按照已有算法進行訓練以創(chuàng)建預設的分類模型。具體地,當預設的分類模型為預設的第一分類模型時,預設的第一分類模型按照以下步驟創(chuàng)建:
[0064]S101’,獲取已標注類別的樣本命名實體。
[0065]例如,可預先標注一些命名實體,該命名實體已被標注分類類別,從而將這些命名實體作為已標注類別的樣本命名實體。同時,為了增加分類模型的準確性,該已標注類別的樣本命名實體對應的標注類別唯一。
[0066]S102’,將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0067]S103’,從反饋的搜索結果中抽取特征信息。
[0068]例如,首先,從搜索結果中抽取url、title、abstract等。之后,從URL、title、abstract等中抽取unigram作為特征,其中,uni gram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從URL、title、abstract等中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從URL、title、abstract等中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0069]S104’,根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建預設的第一分類模型。
[0070]其中,已有算法可以是線性SVM (Support Vector Machine,支持向量機)算法,還可以是其他多種現有算法,例如,決策樹歸納算法、KNN (Κ-Nearest Neighbor,K最近鄰法)算法等,應當理解,由于線性SVM算法有較好的適應能力和較高的分準率,因此可優(yōu)先選擇使用線性SVM算法。
[0071]由此,通過監(jiān)督學習搜索引擎的方法為命名實體的識別方法創(chuàng)建預設的第一分類模型,從而根據預設的第一分類模型獲取命名實體的分類類別,提高了識別效率。
[0072]在本發(fā)明的一個實施例中,如果命名實體在網頁的標題中作為主干出現,則網頁的分類類別很可能會成為命名實體的分類類別,因此,可需獲取已標注類別的樣本命名實體的網頁,并對該網頁進行提取以獲取已標注類別的樣本命名實體在網頁中的文本特征信息,從而按照已有算法進行訓練以創(chuàng)建預設的分類模型,具體地,當預設的分類模型為預設的第二分類模型時,預設的第二分類模型按照以下步驟創(chuàng)建:
[0073]S201’,獲取已標注類別的樣本命名實體。
[0074]S202’,將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0075]S203’,從反饋的搜索結果中抽取特征信息。
[0076]S204 ’,獲取已標注類別的樣本命名實體的網頁。
[0077]具體地,可從反饋的搜索結果中獲取已標注類別的樣本命名實體所在的網頁,該網頁包含該樣本命名實體,還可包括標題、文本內容等。
[0078]S205 ’,獲取已標注類別的樣本命名實體在網頁中的文本特征信息。
[0079]例如,從搜索結果中獲取到樣本命名實體所在的網頁文本,之后從網頁文本中抽取unigram作為特征,其中,unigram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從該網頁文本中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從該網頁文本中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。[0080]S206’,根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息按照已有算法進行訓練以創(chuàng)建預設的第二分類模型。
[0081]由此,通過創(chuàng)建預設的第二分類模型,實現了可以更多地為“長尾”命名實體進行識別分類,提高了命名實體的識別功能。
[0082]在本發(fā)明的一個實施例中,可獲取已標注類別的樣本命名實體的用戶點擊行為日志,之后根據用戶點擊行為日志獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,進行按照已有算法進行訓練以創(chuàng)建預設的分類模型,具體地,當預設的分類模型為預設的第三分類模型時,預設的第三分類模型按照以下步驟創(chuàng)建:
[0083]S301’,獲取已標注類別的樣本命名實體。
[0084]S302’,將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0085]S303’,從反饋的搜索結果中抽取特征信息。
[0086]S304’,獲取已標注類別的樣本命名實體的用戶點擊行為日志。
[0087]其中,用戶點擊行為日志可包括樣本命名實體、樣本命名實體所在的網頁信息(如URL、title 等)等。
[0088]S305’,獲取用戶針對已標注類別的樣本命名實體的點擊特征信息。
[0089]具體地,可從用戶點擊行為日志中獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,具體的獲取方法可參照上述樣本命名實體的特征信息的具體的獲取方法。
[0090]S306’,根據已標注類別的命名實體、對應的標注類別、對應的特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建預設的第三分類模型。
[0091]由此,通過創(chuàng)建預設的第三分類模型,實現了能夠結合用戶的點擊行為識別命名實體的分類,相對于單純應用搜索結果中的特征信息進行分類識別具有更高的準確率。
[0092]在本發(fā)明的一個實施例中,可將已標注類別的樣本命名實體的各種特征信息作為一個整體特征參數,從而根據該特征參數按照已有算法進行訓練以創(chuàng)建預設的分類模型,具體地,當預設的分類模型為預設的第四分類模型時,預設的第四分類模型按照以下步驟創(chuàng)建:根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建預設的第四分類模型。由此,可使得預設的分類模型更加完善,從而使得獲取待識別的命名實體的分類類別更加準確。
[0093]由上述四個實施例可知,可根據不同的特征參數按照已有算法進行訓練以創(chuàng)建不同的預設的分類模型,從而可根據不同的預設分類模型對待識別的命名實體進行識別,提高了識別結果的準確度。
[0094]為了使得本發(fā)明效果更加明顯,下面舉例說明上述實施例的實現過程。例如,當互聯(lián)網或生活中出現新的命名實體,或者命名實體具有新的分類類別時,需對該命名實體進行識別以獲取該命名實體的分類類別,首先,可從互聯(lián)網或生活中獲取該待識別的命名實體,如單詞“l(fā)ove”,之后將“l(fā)ove”作為搜索詞發(fā)送至搜索引擎,通過搜索引擎根據“l(fā)ove”獲取到以“l(fā)ove-高清在線觀看和迅雷下載-電影-迅雷看看”為標題的網頁、以“I LoveYou歌手:王若琳專輯:Start From Here收藏”為內容描述的網頁等多個對應的搜索結果,并從搜索結果中抽取對應的unigram、bigram、trigram特征,最后,將“l(fā)ove”、對應的unigram、bigram、trigram特征發(fā)送至預設的分類模型,根據預設的分類模型可獲取“l(fā)ove”這個詞即是一首歌,也是一部電影,從而可獲知“l(fā)ove”即屬于音樂類類別,也屬于影視類類別。
[0095]分類模型在命名實體進行識別的過程中起到非常重要的作用,一旦當分類模型被創(chuàng)建之后,可通過分類模型將待識別的命名實體進行模擬識別,從而可獲得帶識別的命名實體的分類類別。因此,為了實現上述實施例,本發(fā)明還提出一種分類模型的創(chuàng)建方法。
[0096]一種分類模型的創(chuàng)建方法,包括以下步驟:獲取已標注類別的樣本命名實體;將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果;從反饋的搜索結果中抽取特征信息;以及根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
[0097]圖3是根據本發(fā)明一個實施例的分類模型的創(chuàng)建方法的流程圖。
[0098]如圖3所示,分類模型的創(chuàng)建方法包括以下步驟:
[0099]S301,獲取已標注類別的樣本命名實體。
[0100]例如,可預先標注一些命名實體,該命名實體已被標注分類類別,從而將這些命名實體作為已標注類別的樣本命名實體。同時,為了增加分類模型的準確性,該已標注類別的樣本命名實體對應的標注類別唯一。
[0101]S302,將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0102]S303,從反饋的搜索結果中抽取特征信息。
[0103]例如,首先,從搜索結果中抽取url、title、abstract等。之后,從URL、title、abstract等中抽取unigram作為特征,其中,uni gram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從URL、title、abstract等中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從URL、title、abstract等中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0104]S304,根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
[0105]其中,已有算法可以是線性SVM算法,還可以是其他多種現有算法,例如,決策樹歸納算法、KNN算法等,應當理解,由于線性SVM算法有較好的適應能力和較高的分準率,因此可優(yōu)先選擇使用線性SVM算法。
[0106]本發(fā)明實施例的分類模型的創(chuàng)建方法,可將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果,從反饋的搜索結果中抽取特征信息,并根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型,通過監(jiān)督學習搜索引擎的方法為命名實體的識別方法創(chuàng)建分類模型,從而通過分類模型獲取命名實體的分類類別,提高了識別效率。
[0107]圖4是根據本發(fā)明一個具體實施例的分類模型的創(chuàng)建方法的流程圖。
[0108]如果命名實體在網頁的標題中作為主干出現,則網頁的分類類別很可能會成為命名實體的分類類別,因此,可需獲取已標注類別的樣本命名實體的網頁,并對該網頁進行提取以獲取已標注類別的樣本命名實體在網頁中的文本特征信息,從而按照已有算法進行訓練以創(chuàng)建第二分類模型,具體地,如圖4所示,分類模型的創(chuàng)建方法包括以下步驟:
[0109]S401,獲取已標注類別的樣本命名實體。
[0110]S402,將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0111]S403,從反饋的搜索結果中抽取特征信息。
[0112]S404,獲取已標注類別的樣本命名實體的網頁。
[0113]具體地,可從反饋的搜索結果中獲取已標注類別的樣本命名實體所在的網頁,該網頁包含該樣本命名實體,還可包括標題、文本內容等。
[0114]S405,獲取已標注類別的樣本命名實體在網頁中的文本特征信息。
[0115]例如,從搜索結果中獲取到樣本命名實體所在的網頁文本,之后從網頁文本中抽取unigram作為特征,其中,unigram即單個詞,如劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從該網頁文本中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從該網頁文本中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0116]S406,根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息按照已有算法進行訓練以創(chuàng)建第二分類模型。
[0117]本發(fā)明實施例的分類模型的創(chuàng)建方法,獲取已標注類別的樣本命名實體的網頁,并獲取已標注類別的樣本命名實體在網頁中的文本特征信息,并根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息按照已有算法進行訓練以創(chuàng)建第二分類模型,實現了可以更多地為“長尾”命名實體進行識別分類,提高了命名實體的識別功能。
[0118]圖5是根據本發(fā)明另一個具體實施例的分類模型的創(chuàng)建方法的流程圖。
[0119]為了提高命名實體的識別結果的準確率,可先獲取已標注類別的樣本命名實體的用戶點擊行為日志,之后根據用戶點擊行為日志獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,進行按照已有算法進行訓練以創(chuàng)建預設的分類模型,具體地,如圖5所示,分類模型的創(chuàng)建方法包括以下步驟:
[0120]S501,獲取已標注類別的樣本命名實體。
[0121 ] S502,將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0122]S503,從反饋的搜索結果中抽取特征信息。
[0123]S504,獲取已標注類別的樣本命名實體的用戶點擊行為日志。
[0124]其中,用戶點擊行為日志可包括樣本命名實體、樣本命名實體所在的網頁信息(如URL、title 等)等。
[0125]S505,獲取用戶針對已標注類別的樣本命名實體的點擊特征信息。
[0126]具體地,可根據用戶點擊行為日志從中獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,具體的獲取方法可參照上述樣本命名實體的特征信息的具體的獲取方法。
[0127]S506,根據已標注類別的命名實體、對應的標注類別、對應的特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建第三分類模型。
[0128]本發(fā)明實施例的分類模型的創(chuàng)建方法,獲取已標注類別的樣本命名實體的用戶點擊行為日志,并獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,并根據已標注類別的命名實體、對應的標注類別、對應的特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建第三分類模型,實現了能夠結合用戶的點擊行為識別命名實體的分類,相對于單純應用搜索結果中的特征信息進行分類識別具有更高的準確率。
[0129]在本發(fā)明的一個實施例中,可將已標注類別的樣本命名實體的各種特征信息作為一個整體特征參數,從而根據該特征參數按照已有算法進行訓練以創(chuàng)建預設的分類模型,具體地,分類模型的創(chuàng)建方法還包括:根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建第四分類模型。由此,可使得預設的分類模型更加完善,從而使得獲取待識別的命名實體的分類類別更加準確。
[0130]為了實現上述實施例,本發(fā)明還提出一種命名實體的識別裝置。
[0131]一種命名實體的識別裝置,包括:命名實體獲取模塊,用于獲取待識別的命名實體;抽取模塊,用于將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息;以及分類類別獲取模塊,用于將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的至少一個分類類別。
[0132]圖6是根據本發(fā)明一個實施例的命名實體的識別裝置的結構示意圖。
[0133]如圖6所示,命名實體的識別裝置包括:命名實體獲取模塊110、抽取模塊120和分類類別獲取模塊130。
[0134]具體地,命名實體獲取模塊110用于獲取待識別的命名實體。其中,命名實體可以為人名、機構名、地名以及其他以名稱為標識的實體等,更廣泛地命名實體還可以為數字、日期、貨幣、地址等。其他以名稱為標識的命名實體例如為影視、書、游戲、歌曲等。此處的命名實體應做廣義理解,并不僅限于【背景技術】中提到的幾種類型,本發(fā)明實施例的命名實體可涉及多種領域。
[0135]抽取模塊120用于將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息。更具體地,抽取模塊120可將獲取到的待識別的命名實體作為搜索詞發(fā)送至搜索引擎,搜索引擎根據該搜索詞獲取搜索結果,并從搜索引擎的搜索結果中抽取待識別的命名實體對應的特征信息。
[0136]例如,首先,從搜索結果中抽取url、title、abstract等。之后,從URL、title、abstract等中抽取unigram作為特征,其中,uni gram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從URL、title、abstract等中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從URL、title、abstract等中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0137]分類類別獲取模塊130用于將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的至少一個分類類別。例如,命名實體《love》,可以根據其特征信息和預設的分類模型,獲取對應的類型為書名、電影名和歌曲中的一個或多個分類類別。其中,預設的分類模型為預先訓練好的模型,將在后續(xù)實施例中詳細敘述。
[0138]應當理解,在本發(fā)明的實施例中,命名實體可能具有一個或多個分類類別,例如,命名實體“倩女幽魂”可具有多個分類類別,“倩女幽魂”可以是一款游戲,也可以是一部電影,還可以是一部電視劇等,又如,“讓子彈飛”具有一個分類類別,“讓子彈飛”可以是一部電影。
[0139]在本發(fā)明的一個實施例中,如果通過預設的分類模型獲取多個分類類別,則每個分類類別對應一個置信度。其中,置信度也可理解為可靠度,即根據預設的分類模型獲取的待識別的命名實體的分類類別的可靠程度、準確程度,可通過對分類識別結果進行加權以獲取分類類別對應的置信度。
[0140]本發(fā)明實施例的命名實體的識別裝置,通過抽取模塊將待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息,分類類別獲取模塊將待識別的命名實體、特征信息發(fā)送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的分類類別,由此,可以在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提聞命名實體識別的準確度,提聞了識別效率。
[0141]圖7是根據本發(fā)明一個具體實施例的命名實體的識別裝置的結構示意圖。
[0142]如圖7所示,命名實體的識別裝置包括:命名實體獲取模塊110、抽取模塊120、分類類別獲取模塊130和排序模塊140。
[0143]具體地,排序模塊140用于根據分類類別對應的置信度對多個分類類別進行排序,并提供排序結果。更具體地,當待識別的命名實體具有多個分類類別時,排序模塊140可根據每個分類類別對應的置信度對多個分類類型進行排序,例如,置信度越高,可將對應的分類類別的排序順序越靠前,并提供排序結果,從而可根據排序結果獲知命名實體對應的哪個分類類別的需求更強。
[0144]本發(fā)明實施例的命名實體的識別裝置,通過排序模塊根據分類類別對應的置信度對多個分類類別進行排序,并提供排序結果,從而可根據排序結果獲知命名實體對應的哪個分類類別的需求更強,提高了可靠性。
[0145]為了實現上述實施例,本發(fā)明又提出一種分類模型的創(chuàng)建裝置。
[0146]一種分類模型的創(chuàng)建裝置,包括:樣本命名實體獲取模塊,用于獲取已標注類別的樣本命名實體;搜索結果獲取模塊,用于將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果;抽取模塊,用于從反饋的搜索結果中抽取特征信息;以及創(chuàng)建模塊,用于根據已標注類別的命名實體、對應的標注類另IJ、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
[0147]圖8是根據本發(fā)明一個實施例的分類模型的創(chuàng)建裝置的結構示意圖。
[0148]如圖8所示,分類模型的創(chuàng)建裝置包括:樣本命名實體獲取模塊210、搜索結果獲取模塊220、抽取模塊230和創(chuàng)建模塊240。
[0149]具體地,樣本命名實體獲取模塊210用于獲取已標注類別的樣本命名實體。例如,可預先標注一些命名實體,該命名實體已被標注分類類別,從而將這些命名實體作為已標注類別的樣本命名實體。同時,為了增加分類模型的準確性,該已標注類別的樣本命名實體對應的標注類別唯一。
[0150]搜索結果獲取模塊220用于將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果。
[0151]抽取模塊230用于從反饋的搜索結果中抽取特征信息。例如,首先,從搜索結果中抽取 url、title、abstract 等。之后,從 URL、title、abstract 等中抽取 unigram 作為特征,其中,unigram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從URL、title、abstract等中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從URL、title、abstract等中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0152]創(chuàng)建模塊240用于根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。其中,已有算法可以是線性SVM算法,還可以是其他多種現有算法,例如,決策樹歸納算法、KNN算法等,應當理解,由于線性SVM算法有較好的適應能力和較高的分準率,因此可優(yōu)先選擇使用線性SVM算法。
[0153]本發(fā)明實施例的分類模型的創(chuàng)建裝置,通過搜索結果獲取模塊將已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果,抽取模塊從反饋的搜索結果中抽取特征信息,創(chuàng)建模塊根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型,通過監(jiān)督學習搜索引擎的方法為命名實體的識別方法創(chuàng)建分類模型,從而通過分類模型獲取命名實體的分類類別,提高了識別效率。
[0154]圖9是根據本發(fā)明一個具體實施例的分類模型的創(chuàng)建裝置的結構示意圖。
[0155]如圖9所示,分類模型的創(chuàng)建裝置包括:樣本命名實體獲取模塊210、搜索結果獲取模塊220、抽取模塊230、創(chuàng)建模塊240、網頁獲取模塊250和文本特征信息獲取模塊260。
[0156]具體地,網頁獲取模塊250用于獲取所述已標注類別的樣本命名實體的網頁。更具體地,網頁獲取模塊250可從反饋的搜索結果中獲取已標注類別的樣本命名實體所在的網頁,該網頁包含該樣本命名實體,還可包括標題、文本內容等。
[0157]文本特征信息獲取模塊260用于獲取所述已標注類別的樣本命名實體在所述網頁中的文本特征信息。例如,文本特征信息獲取模塊260可從搜索結果中獲取到樣本命名實體所在的網頁文本,之后從網頁文本中抽取unigram作為特征,其中,unigram即單個詞,如,“劉德華老婆朱麗倩照片”的unigram形式為:劉德華/老婆/朱麗倩/照片。還可以從該網頁文本中抽取bigram作為特征,其中,bigram即兩個詞,如,“劉德華老婆朱麗倩照片”的bigram形式為:劉德華老婆/老婆朱麗倩/朱麗倩照片。另外,還可以從該網頁文本中抽取trigram作為特征,其中,trigram即為三個詞,如,“劉德華老婆朱麗倩照片”的trigram形式為:劉德華老婆朱麗倩/老婆朱麗倩照片。
[0158]在本發(fā)明的一個實施例中,創(chuàng)建模塊240還用于根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息按照已有算法進行訓練以創(chuàng)建第二分類模型。
[0159]本發(fā)明實施例的分類模型的創(chuàng)建裝置,通過網頁獲取模塊獲取所述已標注類別的樣本命名實體的網頁,文本特征信息獲取模塊獲取已標注類別的樣本命名實體在網頁中的文本特征信息,創(chuàng)建模塊根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息按照已有算法進行訓練以創(chuàng)建第二分類模型,實現了可以更多地為“長尾”命名實體進行識別分類,提高了命名實體的識別功能。
[0160]圖10是根據本發(fā)明另一個具體實施例的分類模型的創(chuàng)建裝置的結構示意圖。
[0161]如圖10所示,分類模型的創(chuàng)建裝置包括:樣本命名實體獲取模塊210、搜索結果獲取模塊220、抽取模塊230、創(chuàng)建模塊240、網頁獲取模塊250、文本特征信息獲取模塊260、行為日志獲取模塊270和點擊特征信息獲取模塊280。
[0162]具體地,行為日志獲取模塊270用于獲取已標注類別的樣本命名實體的用戶點擊行為日志。其中,用戶點擊行為日志可包括樣本命名實體、樣本命名實體所在的網頁信息(如 URL、title 等)等。
[0163]點擊特征信息獲取模塊280用于獲取用戶針對已標注類別的樣本命名實體的點擊特征信息。更具體地,點擊特征信息獲取模塊280可從用戶點擊行為日志中獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,具體的獲取方法可參照上述樣本命名實體的特征信息的具體的獲取方法。
[0164]在本發(fā)明的一個實施例中,創(chuàng)建模塊240還用于根據已標注類別的命名實體、對應的標注類別、對應的特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建第三分類模型。
[0165]本發(fā)明實施例的分類模型的創(chuàng)建裝置,通過行為日志獲取模塊獲取已標注類別的樣本命名實體的用戶點擊行為日志,點擊特征信息獲取模塊獲取用戶針對已標注類別的樣本命名實體的點擊特征信息,創(chuàng)建模塊根據已標注類別的命名實體、對應的標注類別、對應的特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建第三分類模型,實現了能夠結合用戶的點擊行為識別命名實體的分類,相對于單純應用搜索結果中的特征信息進行分類識別具有更高的準確率。
[0166]在本發(fā)明的一個實施例中,可將已標注類別的樣本命名實體的各種特征信息作為一個整體特征參數,從而根據該特征參數按照已有算法進行訓練以創(chuàng)建預設的分類模型,具體地,創(chuàng)建模塊240還用于根據已標注類別的命名實體、對應的標注類別、對應的特征信息、文本特征信息、點擊特征信息按照已有算法進行訓練以創(chuàng)建第四分類模型。由此,可使得預設的分類模型更加完善,從而使得獲取待識別的命名實體的分類類別更加準確。
[0167]應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現。例如,如果用硬件來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用于對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場可編程門陣列(FPGA)等。
[0168]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0169]盡管已經示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權利要求及其等同物限定。
【權利要求】
1.一種命名實體的識別方法,其特征在于,包括以下步驟: 獲取待識別的命名實體; 將所述待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取所述搜索結果的特征信息;以及 將所述待識別的命名實體、所述特征信息發(fā)送至預設的分類模型,以根據所述預設的分類模型獲取所述待識別的命名實體的至少一個分類類別。
2.根據權利要求1所述的方法,其特征在于,如果通過所述預設的分類模型獲取多個所述分類類別,則每個分類類別對應一個置信度。
3.根據權利要求2所述的方法,其特征在于,還包括: 根據所述分類類別對應的置信度對所述多個分類類別進行排序,并提供排序結果。
4.根據權利要求1至3中任一項所述的方法,其特征在于,所述預設的分類模型為預設的第一分類模型,所述預設的第一分類模型按照以下步驟創(chuàng)建: 獲取已標注類別的樣本命名實體; 將所述已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取所述搜索引擎根據所述已標注類別的樣本命名實體反饋的搜索結果; 從所述反饋的搜索結果中抽取特征信息;以及 根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息按照已有算法進行訓練以創(chuàng)建所述預設的第一分類模型。
5.根據權利要求4所述的方法,其特征在于,所述預設的分類模型為預設的第二分類模型,所述預設的第二分類模型按照以下步驟創(chuàng)建: 獲取所述已標注類別的樣本命名實體的網頁; 獲取所述已標注類別的樣本命名實體在所述網頁中的文本特征信息;以及根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息按照已有算法進行訓練以創(chuàng)建所述預設的第二分類模型。
6.根據權利要求5所述的方法,其特征在于,所述預設的分類模型為預設的第三分類模型,所述預設的第三分類模型按照以下步驟創(chuàng)建: 獲取所述已標注類別的樣本命名實體的用戶點擊行為日志; 獲取用戶針對所述已標注類別的樣本命名實體的點擊特征信息; 根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述點擊特征信息按照已有算法進行訓練以創(chuàng)建所述預設的第三分類模型。
7.根據權利要求6所述的方法,其特征在于,所述預設的分類模型為預設的第四分類模型,所述預設的第四分類模型按照以下步驟創(chuàng)建: 根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息、所述點擊特征信息按照已有算法進行訓練以創(chuàng)建所述預設的第四分類模型。
8.一種分類模型的創(chuàng)建方法,其特征在于,包括以下步驟: 獲取已標注類別的樣本命名實體; 將所述已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取所述搜索引擎根據所述已標注類別的樣本命名實體反饋的搜索結果; 從所述反饋的搜索結果中抽取特征信息;以及根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
9.根據權利要求8所述的方法,其特征在于,還包括: 獲取所述已標注類別的樣本命名實體的網頁; 獲取所述已標注類別的樣本命名實體在所述網頁中的文本特征信息;以及根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息按照已有算法進行訓練以創(chuàng)建第二分類模型。
10.根據權利要求8所述的方法,其特征在于,還包括: 獲取所述已標注類別的樣本命名實體的用戶點擊行為日志; 獲取用戶針對所述已標注類別的樣本命名實體的點擊特征信息; 根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述點擊特征信息按照已有算法進行訓練以創(chuàng)建第三分類模型。
11.根據權利要求9或10所述的方法,其特征在于,還包括: 根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息、所述點擊特征信息按照已有算法進行訓練以創(chuàng)建第四分類模型。
12.—種命名實體的識別裝置,其特征在于,包括: 命名實體獲取模塊,用于獲取待識別的命名實體; 抽取模塊,用于將所述待識別的命名實體發(fā)送至搜索引擎以獲取搜索結果,并抽取所述搜索結果的特征信息;以及 分類類別獲取模塊,用于將所述待識別的命名實體、所述特征信息發(fā)送至預設的分類模型,以根據所述預設的分類模型獲取所述待識別的命名實體的至少一個分類類別。
13.根據權利要求12所述的裝置,其特征在于,如果通過所述預設的分類模型獲取多個所述分類類別,則每個分類類別對應一個置信度。
14.根據權利要求13所述的裝置,其特征在于,還包括: 排序模塊,用于根據所述分類類別對應的置信度對所述多個分類類別進行排序,并提供排序結果。
15.一種分類模型的創(chuàng)建裝置,其特征在于,包括: 樣本命名實體獲取模塊,用于獲取已標注類別的樣本命名實體; 搜索結果獲取模塊,用于將所述已標注類別的樣本命名實體發(fā)送至搜索引擎,并獲取所述搜索引擎根據所述已標注類別的樣本命名實體反饋的搜索結果; 抽取模塊,用于從所述反饋的搜索結果中抽取特征信息;以及創(chuàng)建模塊,用于根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息按照已有算法進行訓練以創(chuàng)建第一分類模型。
16.根據權利要求15所述的裝置,其特征在于,還包括: 網頁獲取模塊,用于獲取所述已標注類別的樣本命名實體的網頁; 文本特征信息獲取模塊,用于獲取所述已標注類別的樣本命名實體在所述網頁中的文本特征信息;其中, 所述創(chuàng)建模塊還用于根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息按照已有算法進行訓練以創(chuàng)建第二分類模型。
17.根據權利要求15所述的裝置,其特征在于,還包括: 行為日志獲取模塊,用于獲取所述已標注類別的樣本命名實體的用戶點擊行為日志;點擊特征信息獲取模塊,用于獲取用戶針對所述已標注類別的樣本命名實體的點擊特征信息;其中, 所述創(chuàng)建模塊還用于根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述點擊特征信息按照已有算法進行訓練以創(chuàng)建第三分類模型。
18.根據權利要求16或17所述的裝置,其特征在于,所述創(chuàng)建模塊還用于:根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息、所述文本特征信息、所述點擊特征信息按照已有算法進行訓練以創(chuàng)建第四分類模型。
【文檔編號】G06F17/30GK103617239SQ201310611971
【公開日】2014年3月5日 申請日期:2013年11月26日 優(yōu)先權日:2013年11月26日
【發(fā)明者】李超, 李興建 申請人:百度在線網絡技術(北京)有限公司