一種基于字的神經網絡的訓練方法和裝置的制造方法

文檔序號：9524584閱讀：684來源：國知局

一種基于字的神經網絡的訓練方法和裝置的制造方法
【技術領域】
[0001] 本申請涉及自然語言處理領域，特別是涉及一種基于字的神經網絡的訓練方法和裝置。
【背景技術】
[0002] 在自然語言處理和語音識別等領域，語言模型用于描述語言內部的詞語搭配關系。一個高質量的語言模型對連續(xù)語音識別和機器翻譯等都具有重要意義。
[0003]當前主流的語言模型是基于概率的統(tǒng)計語言模型（n-gram)，該統(tǒng)計語言模型顯著缺陷是：對于新詞或者低頻詞難W得到有效的概率統(tǒng)計。基于此人們發(fā)明了各種平滑算法，如discount,back-off,inte巧olation等。上述方法在一定程度上改善了n-gram在低頻詞上的性能，但是由于統(tǒng)計語言模型本身的缺陷，始終無法從根本上解決。
[0004] 為了解決統(tǒng)計語言模型中存在的問題，提出了基于詞的神經網絡語言模型統(tǒng)計低頻詞的概率。目前基于詞的神經網絡語言模型存在W下缺陷：
[0005] 1、現(xiàn)有的漢字可W組成數W萬計的詞表，基于詞的神經網絡模型需要對組成的數 W萬計的詞表進行訓練，導致神經網絡語言模型訓練時間長，訓練效率低。當詞表增大到超過10萬W上時，訓練時間變得難W接受。
[0006] 2、中文是動態(tài)語言，新詞不斷涌現(xiàn)。目前基于詞的神經網絡語言模型無法處理送些新詞，同時不斷增加的新詞使得神經網絡語言模型的訓練越來越復雜，即使要重新訓練神經網絡語言模型也極為困難。
[0007] 因此，基于詞的神經網絡語言模型中存在訓練時間長，進而導致訓練效率低的問題。

【發(fā)明內容】

[0008] 本申請?zhí)峁┮环N基于字的神經網絡的訓練方法和裝置，W解決基于詞的神經網絡語言模型中訓練效率低的問題。
[0009] 為了解決上述問題，本申請公開了一種基于字的神經網絡的訓練方法，包括：將每個訓練語句按字獲取每個字的字向量；
[0010] 將所述字向量作為第一神經網絡的參數輸入到所述第一神經網絡中進行預訓練，獲得預訓練結果，其中，所述結果包括字向量的上文特征向量和字向量下文的特征向量；
[0011] 將所述字向量的上文特征向量和字向量下文的特征向量作為第二神經網絡的參數輸入到所述第二神經網絡中，訓練所述第二神經網絡。
[0012] 優(yōu)選地，所述第一神經網絡包括輸入層、隱藏層和輸出層。
[0013] 優(yōu)選地，所述將所述字向量作為第一神經網絡的參數輸入到所述第一神經網絡中進行預訓練，獲得預訓練結果的步驟包括：
[0014] 為訓練語句中每個字隨機分配字向量；
[0015] 輸入層接收訓練語句中每個字隨機分配字向量，所述輸入層將接收的每個字的字向量投影到映射層，得到投影后的每個字向量；
[0016] 計算投影后的每個字向量在字的歷史子串中出現(xiàn)的概率，將所述概率作為輸出層的預訓練結果，所述結果包括字向量的上文特征向量和字向量下文的特征向量。
[0017] 優(yōu)選地，通過W下公式計算投影后的每個字向量在字的歷史子串中出現(xiàn)的概率：
[0018]
[0019] 其中，T為訓練語句的長度，C為上下文窗長，p(ewIet)為字向量在字的歷史子串中出現(xiàn)的概率，P(ewk)通過W下公式獲得：
[0020]
[0021] 其中，Ce為訓練語句的字向量。
[0022] 優(yōu)選地，所述第二神經網絡包括輸入層、映射層、隱藏層和輸出層；
[0023] 所述第二神經網絡的輸入層接收第一神經網絡的輸出層輸出的字向量的上文特征向量和字向量下文的特征向量；
[0024] 所述第二神經網絡的所述輸入層將接收的字向量的上文特征向量和字向量下文的特征向量進行線性變換投影，將投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接，將拼接后的結果作為所述第二神經網絡的映射層的輸入；
[0025] 將映射層的輸入進行線性變換和第一非線性激活函數處理后得到所述第二神經網絡的隱藏層的輸入；
[0026] 將所述第二神經網絡的隱藏層的輸入進行線性變換和第二非線性激活函數處理后得到所述第二神經網絡的輸出層的輸出結果，所述輸出結果包括字向量在字的歷史子串中的概率。
[0027] 為了解決上述問題，本申請還公開了一種基于字的神經網絡的訓練裝置，包括：獲取模塊，用于將每個訓練語句按字獲取每個字的字向量；
[0028] 預訓練模塊，用于將所述字向量作為第一神經網絡的參數輸入到所述第一神經網絡中進行預訓練，獲得預訓練結果，其中，所述結果包括字向量的上文特征向量和字向量下文的特征向量；
[0029] 訓練模塊，用于將所述字向量的上文特征向量和字向量下文的特征向量作為第二神經網絡的參數輸入到所述第二神經網絡中，訓練所述第二神經網絡。
[0030] 優(yōu)選地，所述第一神經網絡包括輸入層、隱藏層和輸出層。
[0031] 優(yōu)選地，所述預訓練模塊包括：
[0032] 分配模塊，用于為訓練語句中每個字隨機分配字向量；
[0033] 投影模塊，用于輸入層接收訓練語句中每個字隨機分配字向量，所述輸入層將接收的每個字的字向量投影到映射層，得到投影后的每個字向量；
[0034] 計算模塊，用于計算投影后的每個字向量在字的歷史子串中出現(xiàn)的概率，將所述概率作為輸出層的預訓練結果，所述結果包括字向量的上文特征向量和字向量下文的特征向量。
[0035] 優(yōu)選地，所述計算模塊通過W下公式計算投影后的每個字向量在字的歷史子串中出現(xiàn)的概率：
[0036]
[0037] 其中，T為訓練語句的長度，C為上下文窗長，p(ewk)為字向量在字的歷史子串中出現(xiàn)的概率，P(ewk)通過W下公式獲得：
[0038]
[0039] 其中，Ce為訓練語句的字向量。
[0040] 優(yōu)選地，所述第二神經網絡包括輸入層、映射層、隱藏層和輸出層；
[0041] 所述第二神經網絡的輸入層接收第一神經網絡的輸出層輸出的字向量的上文特征向量和字向量下文的特征向量；
[0042] 所述第二神經網絡的所述輸入層將接收的字向量的上文特征向量和字向量下文的特征向量進行線性變換投影，將投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接，將拼接后的結果作為所述第二神經網絡的映射層的輸入；
[0043] 將映射層的輸入進行線性變換和第一非線性激活函數處理后得到所述第二神經網絡的隱藏層的輸入；
[0044] 將所述第二神經網絡的隱藏層的輸入進行線性變換和第二非線性激活函數處理后得到所述第二神經網絡的輸出層的輸出結果，所述輸出結果包括字向量在字的歷史子串中的概率。
[0045] 與現(xiàn)有技術相比，本申請包括W下優(yōu)點：
[0046] 首先，本申請將每個訓練語句按字獲取每個字的字向量，將獲取的字向量通過第一神經網絡進行預訓練，獲得預訓練結果，其中，預訓練結果包括字向量的上文特征向量和字向量下文的特征向量。將所述字向量的上文特征向量和字向量下文的特征向量作為第二神經網絡的參數輸入，訓練第二神經網絡。由于漢語中漢字的數量是固定的，常用的漢字數量大約在6千左右，遠遠小于詞語的數量，因此可W降低神經網絡的復雜度，提高了語言模型的訓練效率。同時，對于不斷涌現(xiàn)的新詞，可W通過將新詞按字拆分成字串，因此無需對出現(xiàn)的新詞進行重新訓練語言模型，從而提高了語言模型的訓練效率。
[0047] 其次，本申請將獲取的每個字向量通過第一神經網絡進行預訓練，獲得了每個字向量在上下文中的特征向量，然后將獲得的特征向量在通過第二神經網絡進行訓練，由于獲取的字向量通過第一神經網絡和第二神經網絡的雙重處理，有效降低了漢字多義出現(xiàn)的概率，從而解決了漢字本身具有多義性的問題。
【附圖說明】
[004引圖1是本申請實施例一中的一種基于字的神經網絡的訓練方法的流程圖；
[0049] 圖2是本申請實施例二中的一種基于字的神經網絡的訓練方法的流程圖；
[0050] 圖3是本申請中的第一神經網絡的示意圖；
[0051] 圖4是本申請中的第二神經網絡的示意圖；
[0052] 圖5是本申請中的第一神經網絡和第二神經網絡結合的示意圖；
[0053] 圖6是本申請實施例Η中的一種基于字的神經網絡的訓練裝置的結構框圖。
【具體實施方式】
[0054] 為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
[0055] 參照圖1，示出了本申請實施例一中的一種基于字的神經網絡的訓練方法，包括：
[0056] 步驟101;將每個訓練語句按字獲取每個字的字向量。
[0057] 例如；訓練語句為"電腦手機"，將該訓練語句按字識別后的訓練語句為：電/腦/ 手/機/，然后獲取每個字的字向量。
[0058] 步驟102;將所述字向量作為第一神經網絡的參數輸入到所述第一神經網絡中進行預訓練，獲得預訓練結果，其中，所述結果包括字向量的上文特征向量和字向量下文的特征向量。
[0059] 對字向量進行預處理是為了獲得更具有區(qū)分性和表達性的

完整全部詳細技術資料下載

當前第1頁1 2 3