一種精確的語料類別標注方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種精確的語料類別標注方法及裝置,其中所述方法包括:A.將具有初始標注類別的全部語料分為n份,其中1份語料作為校驗語料,其余n-1份語料作為訓練語料,且n為大于1的正整數(shù);B.提取訓練語料的代表性特征;C.對訓練語料的代表性特征進行機器學習,以得到分類模型;D.采用所述分類模型對校驗語料進行分類,得到校驗語料的二次標注類別;E.對二次標注類別與初始標注類別之間存在差異的校驗語料的類別進行校正;F.從所述n份語料中選取1份未曾校正的語料作為校驗語料,其余n-1份語料作為訓練語料,返回所述步驟B。通過上述方式,本發(fā)明能夠降低語料標注中的錯誤,提高語料標注的準確性。
【專利說明】一種精確的語料類別標注方法及裝置 【【技術領域】】
[0001] 本發(fā)明涉及數(shù)據處理技術,特別涉及一種精確的語料類別標注方法及裝置。 【【背景技術】】
[0002] 語料標注類別的準確性是保證利用這些語料訓練得到的分類模型的準確性的關 鍵。現(xiàn)有技術中,主要是通過人工的方式進行語料標注的,而人工標注難以避免人的主觀 性,由于人受知識結構所限,對不熟悉領域的語料標注常出現(xiàn)錯誤。如"紫蘇提取物的特性 及應用",有的人可能會標注為化學類別,有的人可能會標注為生物類別。 【
【發(fā)明內容】
】
[0003] 本發(fā)明所要解決的技術問題是提供一種精確的語料類別標注方法及裝置,以提高 用于訓練分類模型的語料標注的準確性。
[0004] 本發(fā)明為解決技術問題而采用的技術方案是提供一種精確的語料類別標注方法, 包括:A.將具有初始標注類別的全部語料分為η份,其中1份語料作為校驗語料,其余n-1 份語料作為訓練語料,且η為大于1的正整數(shù);B.提取訓練語料的代表性特征;C.對訓練語 料的代表性特征進行機器學習,以得到分類模型;D.采用所述分類模型對校驗語料進行分 類,得到校驗語料的二次標注類別;Ε.對二次標注類別與初始標注類別之間存在差異的校 驗語料的類別進行校正;F.從所述η份語料中選取1份未曾校正的語料作為校驗語料,其 余n-1份語料作為訓練語料,返回所述步驟Β。
[0005] 根據本發(fā)明之一優(yōu)選實施例,所述方法在所述步驟F后進一步包括:將校正后的 類別作為語料的初始標注類別,并在滿足終止條件前重復執(zhí)行所述步驟Α至所述步驟F。
[0006] 根據本發(fā)明之一優(yōu)選實施例,所述終止條件至少包括以下一種:所述方法的執(zhí)行 時間達到預設值;或者所述步驟A至所述步驟F的重復執(zhí)行次數(shù)達到預設值;或者當次重 復執(zhí)行時,需要校正的語料在全部語料中所占比例低于預設值。
[0007] 根據本發(fā)明之一優(yōu)選實施例,所述語料為文本語料。
[0008] 根據本發(fā)明之一優(yōu)選實施例,所述步驟B包括:B1.采用特征選擇算法確定訓練語 料的代表性特征;B2.計算訓練語料的代表性特征對應的權重。
[0009] 本發(fā)明還提供了一種精確的語料類別標注裝置,包括:分割單元,用于將具有初始 標注類別的全部語料分為η份,其中1份語料作為校驗語料,其余n-1份語料作為訓練語 料,且η為大于1的正整數(shù);特征提取單元,用于提取訓練語料的代表性特征;訓練單元,用 于對訓練語料的代表性特征進行機器學習,以得到分類模型;分類單元,用于采用所述分類 模型對校驗語料進行分類,得到校驗語料的二次標注類別;校正單元,用于對二次標注類別 與初始標注類別之間存在差異的校驗語料的類別進行校正;語料選取單元,用于從所述η 份語料中選取1份未曾校正的語料作為校驗語料,其余n-1份語料作為訓練語料,并觸發(fā)所 述特征提取單元執(zhí)行。
[0010] 根據本發(fā)明之一優(yōu)選實施例,所述裝置進一步還包括:迭代單元,用于將校正后的 類別作為語料的初始標注類別,并在滿足終止條件前觸發(fā)所述分割單元至所述語料選取單 元重復執(zhí)行。
[0011] 根據本發(fā)明之一優(yōu)選實施例,所述終止條件至少包括以下一種:所述裝置的執(zhí)行 時間達到預設值;或者所述分割單元至所述語料選取單元的重復執(zhí)行次數(shù)達到預設值;或 者當次重復執(zhí)行時,需要校正的語料在全部語料中所占比例低于預設值。
[0012] 根據本發(fā)明之一優(yōu)選實施例,所述語料為文本語料。
[0013] 根據本發(fā)明之一優(yōu)選實施例,所述特征提取單元包括:特征選取單元,用于采用特 征選擇算法確定訓練語料的代表性特征;權重計算單元,用于計算訓練語料的代表性特征 對應的權重。
[0014] 由以上技術方案可以看出,本發(fā)明通過將具有初始標注的全部語料分為若干份, 每次選取其中一份作為校驗語料,其余作為訓練語料獲取分類模型,以對校驗語料進行校 正,能夠極大地降低語料標注中的錯誤,提高語料標注的準確性。 【【專利附圖】
【附圖說明】】
[0015] 圖1為本發(fā)明中精確的語料類別標注方法的實施例的流程示意圖;
[0016] 圖2為本發(fā)明中精確的語料類別標注裝置的實施例一的結構示意框圖;
[0017] 圖3為本發(fā)明中精確的語料類別標注裝置的實施例二的結構示意框圖。 【【具體實施方式】】
[0018] 為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖和具體實施例對 本發(fā)明進行詳細描述。
[0019] 請參考圖1,圖1為本發(fā)明中精確的語料類別標注方法的實施例的流程示意圖。如 圖1所示,該實施例包括:
[0020] 步驟S1 :將具有初始標注類別的全部語料分為η份,其中1份語料作為校驗語料, 其余η-1份語料作為訓練語料,且η為大于1的正整數(shù)。
[0021] 步驟S2 :提取訓練語料的代表性特征。
[0022] 步驟S3 :對訓練語料的代表性特征進行機器學習,以得到分類模型。
[0023] 步驟S4 :采用分類模型對校驗語料進行分類,得到校驗語料的二次標注類別。
[0024] 步驟S5 :對二次標注類別與初始標注類別之間存在差異的校驗語料的類別進行 校正。
[0025] 步驟S6 :從η份語料中選取1份未曾校正的語料作為校驗語料,其余η-1份語料 作為訓練語料,返回步驟S2。
[0026] 下面對上述步驟進行具體說明。
[0027] 在本發(fā)明中,語料可以是各種類型的語料,可以是文本類型的,如各種文章,或者 網頁,也可以是圖像類型的,如照片或繪畫等。
[0028] 在步驟S1中處理的全部語料預先已經被標注,具有初始標注類別。初始標注類別 可以是預先通過人工的方式標注的,也可以是由其他標注系統(tǒng)進行預標注的,本發(fā)明對此 不進行限制。假設文本語料可供標注的類別有:體育和財經,則語料中的每一個樣本所具有 的初始標注類別,就是這兩個類別中的一個。
[0029] 在步驟S1中,將全部語料任意分為η份,優(yōu)選的,可以分為η等份,其中η為大于 1的正整數(shù)。為了便于說明,在后面的描述中,假設η為10。步驟S1中將全部語料分為10 份,其中1份語料作為校驗語料,其余的9份作為訓練語料。訓練語料是后續(xù)用來獲取分類 模型時使用的語料,而校驗語料是使用訓練語料得到的分類模型進行分類時的輸入語料。
[0030] 具體地步驟S2包括:
[0031] 步驟S21 :采用特征選擇算法確定訓練語料的代表性特征。
[0032] 步驟S22 :計算訓練語料的代表性特征對應的權重。
[0033] 其中,訓練語料的代表性特征,指的是訓練語料類別區(qū)分度最顯著的那些特征。步 驟S21中,對訓練語料的每個樣本進行分詞處理后,所有的分詞都是這個樣本的候選特征, 如果利用所有候選特征構造特征向量,則特征向量的維度太大,因此需要采用特征選取算 法從所有候選特征中選取類別區(qū)分度最顯著的代表性特征。
[0034] 作為優(yōu)選的,本發(fā)明中可采用卡方檢驗或信息增益的算法從候選特征中選取代表 性特征。
[0035] 下面以卡方檢驗算法為例說明步驟S21中從候選特征中確定代表性特征的過程。 請參考下表:
[0036]
【權利要求】
1. 一種精確的語料類別標注方法,包括: A.將具有初始標注類別的全部語料分為η份,其中1份語料作為校驗語料,其余n-1份 語料作為訓練語料,且η為大于1的正整數(shù); Β.提取訓練語料的代表性特征; C. 對訓練語料的代表性特征進行機器學習,以得到分類模型; D. 采用所述分類模型對校驗語料進行分類,得到校驗語料的二次標注類別; Ε.對二次標注類別與初始標注類別之間存在差異的校驗語料的類別進行校正; F.從所述η份語料中選取1份未曾校正的語料作為校驗語料,其余n-1份語料作為訓 練語料,返回所述步驟B。
2. 根據權利要求1所述的方法,其特征在于,所述方法在所述步驟F后進一步包括: 將校正后的類別作為語料的初始標注類別,并在滿足終止條件前重復執(zhí)行所述步驟A 至所述步驟F。
3. 根據權利要求2所述的方法,其特征在于,所述終止條件至少包括以下一種: 所述方法的執(zhí)行時間達到預設值;或者所述步驟A至所述步驟F的重復執(zhí)行次數(shù)達到 預設值;或者當次重復執(zhí)行時,需要校正的語料在全部語料中所占比例低于預設值。
4. 根據權利要求1所述的方法,其特征在于,所述語料為文本語料。
5. 根據權利要求1所述的方法,其特征在于,所述步驟B包括: B1.采用特征選擇算法確定訓練語料的代表性特征; B2.計算訓練語料的代表性特征對應的權重。
6. -種精確的語料類別標注裝置,包括: 分割單元,用于將具有初始標注類別的全部語料分為η份,其中1份語料作為校驗語 料,其余n-1份語料作為訓練語料,且η為大于1的正整數(shù); 特征提取單元,用于提取訓練語料的代表性特征; 訓練單元,用于對訓練語料的代表性特征進行機器學習,以得到分類模型; 分類單元,用于采用所述分類模型對校驗語料進行分類,得到校驗語料的二次標注類 別; 校正單元,用于對二次標注類別與初始標注類別之間存在差異的校驗語料的類別進行 校正; 語料選取單元,用于從所述η份語料中選取1份未曾校正的語料作為校驗語料,其余 n-1份語料作為訓練語料,并觸發(fā)所述特征提取單元執(zhí)行。
7. 根據權利要求6所述的裝置,其特征在于,所述裝置進一步還包括: 迭代單元,用于將校正后的類別作為語料的初始標注類別,并在滿足終止條件前觸發(fā) 所述分割單元至所述語料選取單元重復執(zhí)行。
8. 根據權利要求7所述的裝置,其特征在于,所述終止條件至少包括以下一種: 所述裝置的執(zhí)行時間達到預設值;或者所述分割單元至所述語料選取單元的重復執(zhí)行 次數(shù)達到預設值;或者當次重復執(zhí)行時,需要校正的語料在全部語料中所占比例低于預設 值。
9. 根據權利要求6所述的裝置,其特征在于,所述語料為文本語料。
10. 根據權利要求6所述的裝置,其特征在于,所述特征提取單元包括: 特征選取單元,用于采用特征選擇算法確定訓練語料的代表性特征; 權重計算單元,用于計算訓練語料的代表性特征對應的權重。
【文檔編號】G06F17/27GK104142912SQ201310163422
【公開日】2014年11月12日 申請日期:2013年5月7日 優(yōu)先權日:2013年5月7日
【發(fā)明者】李成洲, 徐興軍 申請人:百度在線網絡技術(北京)有限公司