多音字標注模板生成方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及文語轉換技術領域,尤其涉及一種多音字標注模板生成方法和裝置。
【背景技術】
[0002]語音合成,又稱文語轉換技術,是一種能夠將文字信息轉化為語音并進行朗讀的技術。語音合成系統(tǒng)性能的主要評價指標主要包括可懂度和流暢度兩方面。其中,對多音字的轉換正確與否,極大地影響了用戶對合成的聲音語義的理解情況,即用戶是否能聽懂轉換后的語音。如果對多音字的轉換準確率高,則合成的語音更易于用戶理解,也更加自然流暢。
[0003]目前,對多音字進行標注主要包括兩種方法,一是通過人工總結并建立標注規(guī)則的方法,二是通過機器學習的方法對多音字進行標注。其中,基于人工的方法,需要具有一定語言專業(yè)知識的人,針對每個不同的多音字所蘊含的各類語言現(xiàn)象進行歸納總結,整理出規(guī)則,再將這些規(guī)則轉寫成計算機能夠理解的代碼,從而實現(xiàn)對多音字的標注。通過機器學習的方法,主要基于 TBL 算法(Transformat1n—Based Error-Driven Learning,錯誤驅動的規(guī)則學習算法)、ME (Maximum Entropy Models,最大熵模型)、決策樹等,通過獲取樣本數(shù)據(jù)和分詞的輸入特征,計算出全局最優(yōu)的統(tǒng)計模型,進而實現(xiàn)對多音字的標注。
[0004]但是,上述方法均需要耗費較多的人力和時間去總結規(guī)則、標注訓練語料,并且工作量大,更新周期長,建立的規(guī)則具有一定局限性和片面性,擴展性差。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發(fā)明的一個目的在于提出一種多音字標注模板生成方法,能夠減少人工標注的工作量,并提升多音字標注語料的抗噪性和容錯性,進而在對多音字的讀音進行預測時,提高準確性。
[0006]本發(fā)明的第二個目的在于提出一種多音字標注模板生成裝置。
[0007]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例提出了一種多音字標注模板生成方法,包括:獲取原始語料;對所述原始語料進行預處理,并生成包含多音字的語料數(shù)據(jù);切分所述語料數(shù)據(jù)以生成多個分詞,并對所述多個分詞進行詞性標注,以及進行近義詞歸一化處理;對歸一化后的所述多個分詞進行組合,并生成對應的句型;以及反向生成所述句型對應的多音字標注語料,并根據(jù)所述多音字標注語料生成多音字標注模板。
[0008]本發(fā)明實施例的多音字標注模板生成方法,通過獲取原始語料,對所述原始語料進行預處理,并生成包含多音字的語料數(shù)據(jù),以及切分所述語料數(shù)據(jù)以生成多個分詞,并對所述多個分詞進行詞性標注,以及進行近義詞歸一化處理,并對歸一化后的所述多個分詞進行組合,生成對應的句型;以及反向生成所述句型對應的多音字標注語料,并根據(jù)多音字標注語料生成多音字標注模板,減少了人工標注的工作量,并提升了多音字標注語料的抗噪性和容錯性,進而在對多音字的讀音進行預測時,提高了準確性。
[0009]本發(fā)明第二方面實施例提出了一種多音字標注模板生成裝置,包括:獲取模塊,用于獲取原始語料;第一生成模塊,用于對所述原始語料進行預處理,并生成包含多音字的語料數(shù)據(jù);處理模塊,用于切分所述語料數(shù)據(jù)以生成多個分詞,并對所述多個分詞進行詞性標注,以及進行近義詞歸一化處理;第二生成模塊,用于對歸一化后的所述多個分詞進行組合,并生成對應的句型;以及反向生成模塊,用于反向生成所述句型對應的多音字標注語料,并根據(jù)多音字標注語料生成多音字標注模板。
[0010]本發(fā)明實施例的多音字標注模板生成裝置,通過獲取原始語料,對所述原始語料進行預處理,并生成包含多音字的語料數(shù)據(jù),以及切分所述語料數(shù)據(jù)以生成多個分詞,并對所述多個分詞進行詞性標注,以及進行近義詞歸一化處理,并對歸一化后的所述多個分詞進行組合,生成對應的句型;以及反向生成所述句型對應的多音字標注語料,并根據(jù)多音字標注語料生成多音字標注模板,減少了人工標注的工作量,并提升了多音字標注語料的抗噪性和容錯性,進而在對多音字的讀音進行預測時,提高了準確性。
【附圖說明】
[0011]圖1是根據(jù)本發(fā)明一個實施例的多音字標注模板生成方法的流程圖。
[0012]圖2是根據(jù)本發(fā)明一個實施例的多音字標注模板生成裝置的結構示意圖一。
[0013]圖3是根據(jù)本發(fā)明一個實施例的多音字標注模板生成裝置的結構示意圖二。
【具體實施方式】
[0014]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0015]下面參考附圖描述本發(fā)明實施例的多音字標注模板生成方法和裝置。
[0016]圖1是根據(jù)本發(fā)明一個實施例的多音字標注模板生成方法的流程圖。
[0017]如圖1所示,多音字標注模板生成方法可包括:
[0018]S1、獲取原始語料。
[0019]其中,原始語料可為互聯(lián)網(wǎng)中的文本語料,可包括小說、新聞等文體。
[0020]S2、對原始語料進行預處理,并生成包含多音字的語料數(shù)據(jù)。
[0021]其中,預處理可包括但不僅限于斷句、符號過濾、去重排序等。舉例來說,可根據(jù)標點符號對原始語料進行斷句,然后將重復的部分刪除并重新排序,并將無實際語義的標點符號刪除,然后根據(jù)預先建立的多音字列表,選取出包含多音字的語料數(shù)據(jù)。由于數(shù)據(jù)量巨大,可通過MapReduce進行處理。其中,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)的并行運算。
[0022]S3、切分語料數(shù)據(jù)以生成多個分詞,并對多個分詞進行詞性標注,以及進行近義詞歸一化處理。
[0023]具體地,可對包含多音字的語料數(shù)據(jù)進行切分,從而生成多個分詞,然后對上述分詞進行詞性標注,例如:“我吃蘋果”,“我”和“蘋果”可標注為名詞,“吃”可標注為動詞。然后可將詞性為屬于虛詞的分詞刪除,即無實際語義的分詞,例如“的”、“也”、“又”、“不”等。之后,再對近義詞進行歸一化處理,即將語義相近的分詞進行聚類,可以避免語料數(shù)據(jù)稀疏的問題,又可以減少特征空間維數(shù),提升機器學習模型的穩(wěn)定性和泛化能力。
[0024]另外,還可過濾掉在詞典中已有的語料數(shù)據(jù),因為該語料數(shù)據(jù)的多音字標注已經(jīng)保存在詞典中,無需再次進行訓練。
[0025]S4、對歸一化后的多個分詞進行組合,并生成對應的句型。
[0026]具體地,可對歸一化后的多個分詞進行組合,并生成多個分詞組合。例如:“我們要有志氣變得勇敢”,可生成分詞組合“要有”、“要志氣”、“要有志氣”等。然后,可對多個分詞組合的詞頻進行統(tǒng)計,獲取詞頻大于頻率閾值的分詞組合,例如分詞組合“要有志氣”在語料數(shù)據(jù)中出現(xiàn)了 10次,大于預設頻率閾值5次,則可獲取該分詞組合。
[0027]在此之后,可過濾不滿足預設條件的分詞組合,以生成對應的句型。其中,預設條件可包括未登錄詞數(shù)量、單字數(shù)量以及分詞的近義詞數(shù)量。未登錄詞為詞典中未包含的分詞,如果未登錄詞數(shù)量過少,則說明該分詞組合中的分詞大部分都為詞典中已包含的詞,無需再次進行訓練。而近義詞數(shù)量過少,則會影響后續(xù)步驟中生成多音字標注語料的質量。最終,過濾后的分詞組合可作為對應的句型,例如“長得。。。好看”、“要。。。勇敢”等,并根據(jù)句型的權重進行排序,例如句型出現(xiàn)的次數(shù)作為權重,按照次數(shù)從大到小的順序進行排列,并獲取出現(xiàn)次數(shù)最多的N個句型。舉例來說,句型可表達為“多音字+關鍵字+近義詞”的形式,如??喝(多音字)+好喝的(近義詞)+飲料(關鍵字)。其中