亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于自動化文本校正的方法和系統(tǒng)的制作方法

文檔序號:6639900閱讀:153來源:國知局
用于自動化文本校正的方法和系統(tǒng)的制作方法
【專利摘要】本實(shí)施例演示用于自動化文本校正的系統(tǒng)和方法。在某些實(shí)施例中,該方法和系統(tǒng)可以通過根據(jù)單個文本校正模型的分析來實(shí)現(xiàn)。在特定的實(shí)施例中,可以通過分析學(xué)習(xí)文本的語料庫和非學(xué)習(xí)文本的語料庫二者來生成單個文本校正模型。
【專利說明】用于自動化文本校正的方法和系統(tǒng)
[0001] 針對如下案件的分案申請:
[0002] 申請日:2011-9-23
[0003] 申請?zhí)?011800459619
[0004] 發(fā)明名稱:用于自動化文本校正的方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0005] 本發(fā)明涉及用于自化化文本校正的方法和系統(tǒng)。

【背景技術(shù)】
[0006] 文本校正通常是困難和耗時的。另外,通常編輯文本是昂貴的,特別是涉及翻譯, 因?yàn)榫庉嬐ǔP枰褂糜屑夹g(shù)和受過訓(xùn)練的工作人員。例如,編輯翻譯可能需要由在兩種 或多種語言中具有高水平熟練度的工作人員來提供密集勞動。
[0007]自動化的翻譯系統(tǒng)(例如某些在線翻譯器)可以使翻譯的勞動密集型的某些方面 有所減輕,但是它們?nèi)圆荒芴娲斯しg員。特別地,自動化系統(tǒng)執(zhí)行相對好的單詞到單詞 翻譯的工作,但是由于語法和標(biāo)點(diǎn)的不精確性,句子的意義經(jīng)常無法理解。
[0008] 某些自動化文本編輯系統(tǒng)確實(shí)存在,但此類系統(tǒng)通常具有不精確性。另外,現(xiàn)有技 術(shù)的自動化文本編輯系統(tǒng)可能需要相對大量的處理資源。
[0009] -些自動化文本編輯系統(tǒng)可能需要訓(xùn)練或配置以精確地編輯文本。例如,某些現(xiàn) 有技術(shù)的系統(tǒng)可以使用學(xué)習(xí)文本(learnertext)的加注釋的語料庫(annotatedcorpus) 來被訓(xùn)練。替代地,一些現(xiàn)有技術(shù)的系統(tǒng)可以使用沒有加注釋的非學(xué)習(xí)文本的語料庫來被 訓(xùn)練。本領(lǐng)域普通技術(shù)人員可以認(rèn)識學(xué)習(xí)文本和非學(xué)習(xí)文本之間的差異。
[0010] 標(biāo)準(zhǔn)自動化語音識別(ASR)系統(tǒng)的輸出通常由話語(utterance)構(gòu)成,其中例如 真實(shí)情況、句子邊界和標(biāo)點(diǎn)符號的重要語言和結(jié)構(gòu)信息是不可獲得的。語言和結(jié)構(gòu)信息改 進(jìn)轉(zhuǎn)錄的語音文本的可讀性,并且輔助進(jìn)一步的下游處理,例如詞性(POS)標(biāo)注、語法分 析、信息抽取和機(jī)器翻譯。
[0011] 現(xiàn)有技術(shù)的標(biāo)點(diǎn)預(yù)測技術(shù)使用詞匯和韻律學(xué)線索。然而,例如基音和中斷持續(xù)時 間的韻律學(xué)特征在沒有原始未處理語音波形的情況下通常是不可獲得的。在其中對于轉(zhuǎn)錄 語音文本的自然語言處理(NLP)變成主要關(guān)注的一些場景中,語音韻律學(xué)信息可能無法輕 易獲得。在國際口語翻譯研討會(IWSLT)的評測活動中,僅提供人工轉(zhuǎn)錄或自動識別的語 音文本,而原始未處理語音波形是不可獲得的。
[0012] 按照慣例,在語音識別期間執(zhí)行標(biāo)點(diǎn)插入。在一個例子中,在決策樹框架內(nèi)使用連 同語言模型概率的韻律學(xué)特征。在另一個例子中,廣播新聞領(lǐng)域中的插入包括針對任務(wù)的 有限狀態(tài)和多層感知器方法,其中韻律學(xué)和詞匯信息被并入。在進(jìn)一步的例子中,實(shí)施基于 最大熵的標(biāo)注方法,其在自發(fā)的英語對話中進(jìn)行標(biāo)點(diǎn)插入,包括使用詞匯和韻律學(xué)特征。在 另一個例子中,通過使用條件隨機(jī)場(CRF)來執(zhí)行句子邊界檢測。邊界檢測顯示出對于基 于隱馬爾可夫模型(HMM)的在先方法的改進(jìn)。
[0013] 一些現(xiàn)有技術(shù)將句子邊界檢測和標(biāo)點(diǎn)插入任務(wù)考慮為隱事件檢測任務(wù)。例如,HMM 可以描述單詞和單詞間事件上的聯(lián)合分布,其中觀察值是單詞,并且單詞/事件對被編碼 為隱狀態(tài)。具體地,在該任務(wù)中,單詞邊界和標(biāo)點(diǎn)符號被編碼為單詞間事件。訓(xùn)練短語涉及 使用平滑技術(shù)來在所有觀察單詞和事件上訓(xùn)練n-gram語言模型。學(xué)習(xí)到的n-gram概率分 數(shù)接著被用作HMM狀態(tài)轉(zhuǎn)換分?jǐn)?shù)。在測試期間,在每個單詞處的事件的后驗(yàn)概率利用使用 前向-后向算法的動態(tài)編程來計(jì)算。最為可能的狀態(tài)的序列因此形成給出加標(biāo)點(diǎn)的句子的 輸出。此類的基于HMM的方法具有若干個缺陷。
[0014] 首先,n-gram語言模型僅能夠捕獲圍繞的上下文信息。然而,對于標(biāo)點(diǎn)插入可能 需要更長范圍相關(guān)性的建模。例如,該方法不能夠有效地捕獲強(qiáng)烈的指示疑問句的初始短 語"你想(wouldyou)"和結(jié)束問號之間的長范圍相關(guān)性。因此,在使用隱事件語言模型之 外可以使用特殊的技術(shù)以便克服長范圍相關(guān)性。
[0015] 現(xiàn)有技術(shù)的例子包括重新排放或復(fù)制標(biāo)點(diǎn)符號到句子的不同位置,使得它們顯得 更接近于指示的單詞(例如,"多少錢"指示疑問句)。一個此類的技術(shù)建議在訓(xùn)練語言 模型前將結(jié)尾的標(biāo)點(diǎn)符號復(fù)制到每個句子的開始處。從經(jīng)驗(yàn)上來說,該技術(shù)已經(jīng)演示了其 在英語中預(yù)測問號的有效性,因?yàn)橛糜谟⒄Z疑問句的大多數(shù)指示的單詞出現(xiàn)在問題的開始 處。然而,此類的技術(shù)是專門設(shè)計(jì)的并且可能不能廣泛地通常應(yīng)用或應(yīng)用于除英語以外的 語言。進(jìn)一步,在每次話語多個句子而沒有在話語內(nèi)清楚地加注釋的句子邊界的情況下,直 接應(yīng)用該方法可能會失敗。
[0016] 與此類方法關(guān)聯(lián)的另一個缺陷是該方法對將要插入的標(biāo)點(diǎn)符號和其圍繞的單詞 之間的強(qiáng)相關(guān)性假定進(jìn)行編碼。因此,其缺乏魯棒性來處理其中頻繁出現(xiàn)噪聲或詞匯表外 (OOV)單詞的情形,例如在由ASR系統(tǒng)自動識別的文本中。
[0017] 語法糾錯(GEC)已經(jīng)被認(rèn)為是自然語言處理(NLP)中有趣和商業(yè)上引人注意的問 題,特別是對于將英語作為外語或第二門語言(EFL/ESL)的學(xué)習(xí)者來說。
[0018] 盡管興趣在增長,由于缺乏可用于研究目的的學(xué)習(xí)文本的大量加注釋的語料庫, 研究已經(jīng)受到阻礙。結(jié)果是,對于GEC的標(biāo)準(zhǔn)方法是訓(xùn)練現(xiàn)成的分類器來重新預(yù)測非學(xué)習(xí) 文本中的單詞。直接從加注釋的初學(xué)者語料庫學(xué)習(xí)GEC模型不能被很好的實(shí)施,如同將學(xué) 習(xí)文本和非學(xué)習(xí)文本合并的方法。進(jìn)一步,GEC的評估已經(jīng)是個問題。先前的工作或?qū)θ?工測試實(shí)例進(jìn)行評估來作為對實(shí)際初學(xué)者錯誤的替代,或?qū)Σ豢捎糜谄渌芯空叩膶S脭?shù) 據(jù)進(jìn)行評估。結(jié)果,現(xiàn)有的方法并不能在相同的測試集上進(jìn)行比較,從而不清楚現(xiàn)有技術(shù)的 當(dāng)前狀態(tài)實(shí)際上在哪。
[0019] 對于GEC的業(yè)界標(biāo)準(zhǔn)方法是構(gòu)建統(tǒng)計(jì)模型,其能夠從可能校正選擇的混淆集來選 項(xiàng)最為可能的校正。定義混淆集的方式取決于錯誤的類型。上下文相關(guān)拼寫錯誤校正傳統(tǒng) 地關(guān)注于具有類似拼寫(例如,{dessert,desert"})或類似的發(fā)音(例如,{there,their}) 的混淆集。換句話說,混淆集中的單詞因?yàn)槠磳懟蛘Z音相似性而被認(rèn)為是可能被混淆的。 GEC中的其他工作基于句法相似性來定義混淆集,例如,所有的英語冠詞或最為頻繁的英語 介詞形成混淆集。


【發(fā)明內(nèi)容】

[0020] 本實(shí)施例演示了用于自動化文本校正的系統(tǒng)和方法。在某些實(shí)施例中,方法和系 統(tǒng)可以通過根據(jù)單個文本編輯模型的分析來實(shí)現(xiàn)。在特定的實(shí)施例中,單個文本編輯模型 可以通過學(xué)習(xí)文本的語料庫和非學(xué)習(xí)文本的語料庫的分析來生成。
[0021] 根據(jù)一個實(shí)施例,一種設(shè)備,包括至少一個處理器和耦合到該至少一個處理器的 存儲器裝置,其中所述至少一個處理器配置成識別輸入話語的單詞。所述至少一個處理器 也配置成將單詞放置在存儲在存儲器裝置中的多個第一節(jié)點(diǎn)中。所述至少一個處理器進(jìn)一 步配置成部分基于線性鏈的相鄰節(jié)點(diǎn)來向第一節(jié)點(diǎn)的每個分配單詞層標(biāo)簽。所述至少一個 處理器也配置成通過將來自于多個第一節(jié)點(diǎn)的單詞與部分在分配給每個第一節(jié)點(diǎn)的單詞 層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子。
[0022] 根據(jù)另一個實(shí)施例,一種計(jì)算機(jī)程序產(chǎn)品,包括具有用于識別輸入話語的單詞的 代碼的計(jì)算機(jī)可讀介質(zhì)。所述介質(zhì)也包括用于將單詞放置在存儲在存儲器裝置中的多個第 一節(jié)點(diǎn)中的代碼。所述介質(zhì)進(jìn)一步包括用于部分基于多個第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來向第一節(jié) 點(diǎn)的每個分配單詞層標(biāo)簽的代碼。所述介質(zhì)也包括用于通過將來自于多個第一節(jié)點(diǎn)的單詞 與部分在分配給每個第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子的代碼。
[0023] 根據(jù)另一個實(shí)施例,一種方法,包括識別輸入話語的單詞。所述方法還包括將單詞 放置在存儲在存儲器裝置中的多個第一節(jié)點(diǎn)中。所述方法進(jìn)一步包括部分基于所述多個第 一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來向多個第一節(jié)點(diǎn)中的每個第一節(jié)點(diǎn)分配單詞層標(biāo)簽。所述方法也包括 通過將來自于多個第一節(jié)點(diǎn)的單詞與部分在分配給每個第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的 標(biāo)點(diǎn)組合,生成輸出句子。
[0024] -種方法的附加實(shí)施例包括接收自然語言文本輸入,所述文本輸入包括語法錯 誤,其中輸入文本的一部分包括來自于一組類的類。該方法也可以包括從假設(shè)沒有語法錯 誤的非學(xué)習(xí)文本的語料庫生成多個選擇任務(wù),其中對于每個選擇任務(wù),分類器重新預(yù)測在 非學(xué)習(xí)文本中使用的類。進(jìn)一步,該方法可以包括從學(xué)習(xí)文本的語料庫生成多個校正任務(wù), 其中對于每個校正任務(wù),分類器建議在學(xué)習(xí)文本中使用的類。另外,所述方法可以包括使用 一組二進(jìn)制分類問題來訓(xùn)練語法校正模型,該一組二進(jìn)制分類問題包括多個選擇任務(wù)和多 個校正任務(wù)。該實(shí)施例也可以包括使用訓(xùn)練的語法校正模型來從一組可能的類預(yù)測文本輸 入的類。
[0025] 在另外的實(shí)施例中,該方法包括輸出建議以便如果預(yù)測的類不同于文本輸入中的 類,則將文本輸入的類改變成預(yù)測的類。在此類的實(shí)施例中,學(xué)習(xí)文本由老師以假定正確的 類來加注釋。類可以是與輸入文本中的名詞短語關(guān)聯(lián)的冠詞。該方法也可以包括從非學(xué)習(xí) 文本和學(xué)習(xí)文本中的名詞短語來抽取用于分類器的特征函數(shù)。
[0026] 在另一實(shí)施例中,類是與輸入文本中的介詞短語關(guān)聯(lián)的介詞。此類的方法可以包 括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語抽取用于分類器的特征函數(shù)。
[0027] 在一個實(shí)施例中,非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間,學(xué)習(xí)文本的特征 空間包括由作者使用的單詞。訓(xùn)練語法校正模型可以包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。 訓(xùn)練語法校正模型也可以包括通過分析非學(xué)習(xí)文本來識別多個線性分類器。線性分類器進(jìn) 一步包括權(quán)重因子,該權(quán)重因子包括在權(quán)重因子的矩陣中。
[0028] 在一個實(shí)施例中,訓(xùn)練語法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值 分解(SVD)。訓(xùn)練語法校正模型也可以包括識別組合權(quán)重值,該組合權(quán)重值代表通過分析非 學(xué)習(xí)文本所識別的第一權(quán)重值元素以及通過最小化經(jīng)驗(yàn)風(fēng)險函數(shù)來分析學(xué)習(xí)文本而識別 的第二權(quán)重值元素。
[0029] 也提供用于自動化文本校正的一種設(shè)備。該設(shè)備可以包括例如配置成執(zhí)行上述的 方法的步驟的處理器。
[0030] 提供一種方法的另一實(shí)施例。該方法可以包括校正語義搭配錯誤。此類方法的一 個實(shí)施例包括響應(yīng)于在處理裝置執(zhí)行的平行語言文本的語料庫分析,自動地識別一個或多 個譯文候選。另外,該方法可以包括使用處理裝置來確定與每個譯文候選關(guān)聯(lián)的特征。該 方法也可以包括從存儲在數(shù)據(jù)存儲裝置中的學(xué)習(xí)文本的語料庫生成一組一個或多個權(quán)重 值。該方法可以進(jìn)一步包括響應(yīng)于與每個譯文候選關(guān)聯(lián)的特征和所述一組一個或多個權(quán)重 值來使用處理裝置計(jì)算針對所述一個或多個譯文候選的分?jǐn)?shù)。
[0031] 在進(jìn)一步的實(shí)施例中,識別一個或多個譯文候選可以包括從平行文本的數(shù)據(jù)庫選 擇文本的平行語料庫,每個平行文本包括第一語言的文本和第二語言的相應(yīng)文本,使用處 理裝置來對第一語言的文本進(jìn)行劃分,使用所述處理裝置來標(biāo)記化第二語言的文本,使用 處理裝置來自動化地將第一文本中的單詞與第二文本中的單詞對準(zhǔn),使用處理裝置從第一 文本和第二文本中的對準(zhǔn)的單詞抽取短語,并且使用處理裝置來計(jì)算與第一文本中的一個 或多個短語以及第二文本中的一個或多個短語關(guān)聯(lián)的釋義匹配的概率。
[0032] 在特定的實(shí)施例中,與每個譯文候選關(guān)聯(lián)的特征是釋義匹配的概率??梢允褂脤?學(xué)習(xí)文本的語料庫的最小錯誤率訓(xùn)練(MERT)操作來計(jì)算一組一個或多個權(quán)重值。
[0033] 該方法也可以包括生成具有帶有從拼寫編輯距離導(dǎo)出的特征的搭配校正的短語 表。在另一個實(shí)施例中,該方法可以包括生成具有帶有從同音異義詞字典導(dǎo)出的特征的搭 配校正的短語表。在另一個實(shí)施例中,該方法可以包括生成帶有從同義詞導(dǎo)出的特征的搭 配校正的短語表。另外,該方法可以包括生成具有帶有從母語引入的釋義導(dǎo)出的特征的搭 配校正的短語表。
[0034] 在此類的實(shí)施例中,短語表包括用于在計(jì)算釋義匹配的概率使用的一個或多個懲 罰特征。
[0035] 也提供一種設(shè)備,包括至少一個處理器和耦合到至少一個處理器的存儲器裝置, 其中至少一個處理器配置成執(zhí)行如上所述的權(quán)利要求的方法的步驟。也提供一種有形計(jì)算 機(jī)可讀介質(zhì),其包括計(jì)算機(jī)可讀代碼,當(dāng)由計(jì)算機(jī)執(zhí)行時,使得計(jì)算機(jī)執(zhí)行如上所述的方法 中的操作。
[0036] 術(shù)語"耦合"被定義為連接,盡管不必為直接地連接,并且也不必是機(jī)械地連接。
[0037] 術(shù)語"一個"以及"一種"被定義為一個或多個,除非本公開明確另外要求。
[0038] 術(shù)語"基本上"以及其變形被定義為大體上但不必全部為由本領(lǐng)域技術(shù)人員理解 所規(guī)定的那樣,并且在一個非限制性的實(shí)施例中,"基本上"表示處于所規(guī)定的10%的范圍 內(nèi),優(yōu)選地為5 %的范圍內(nèi),更為優(yōu)選的是位于1 %內(nèi),并且最為優(yōu)選的是位于0. 5 %的范圍 內(nèi)。
[0039] 術(shù)語"包括(comprise) "(以及任意其他形式的包括,例如"comprises"和 "comprising")、"具有"、"包括(include)"(以及任意其他形式的包括,例如"includes" 和"including")和"包含(contain) "(以及任意其他形式的包含,例如"contains" 和"containing")是開放式的連接動詞。結(jié)果是,"包括(comprises) "、"具有"、"包括 (includes) "或"包含(contains) " 一個或多個步驟或單元的方法或裝置處理那些一個或 多個步驟或單元,但不限于僅處理那些步驟或單元。同樣地,"包括(comprises)",具有"、 "包括(includes) "或"包含(contains) "一個或多個特征的方法的步驟或裝置的單元處理 那些一個或多個特征,但不限于僅處理那些一個或多個特征。進(jìn)一步,以特定方式配置的裝 置或結(jié)構(gòu)至少以這種方式來配置,但其也可以以沒有列出的方式來配置。通過參考結(jié)合所 附附圖的下面特定實(shí)施例的詳細(xì)描述,其他的特征和關(guān)聯(lián)優(yōu)勢將變得明顯。

【專利附圖】

【附圖說明】
[0040] 下面的附圖形成本說明書的一部分并且被包括進(jìn)以進(jìn)一步演示本發(fā)明的某些方 面。通過參考這些附圖的一個或多個附圖、結(jié)合這里所提供的特定實(shí)施例的詳細(xì)描述,本發(fā) 明可以被更好的理解。
[0041] 圖1是示出根據(jù)本公開的一個實(shí)施例的用于分析話語的系統(tǒng)的框圖;
[0042] 圖2是示出根據(jù)本公開的一個實(shí)施例的配置成存儲句子的數(shù)據(jù)管理系統(tǒng)的框圖;
[0043] 圖3是示出根據(jù)本公開的一個實(shí)施例的用于分析話語的計(jì)算機(jī)系統(tǒng)的框圖;
[0044] 圖4是示出用于線性鏈CRF的圖形表示的框圖;
[0045] 圖5是用于線性鏈條件隨機(jī)域(CRF)的訓(xùn)練句子的示例標(biāo)記;
[0046] 圖6是示了二層階乘CRF的圖形表示的框圖;
[0047] 圖7是用于階乘條件隨機(jī)域(CRF)的訓(xùn)練句子的示例標(biāo)記;
[0048] 圖8是示出用于將標(biāo)點(diǎn)插入進(jìn)句子的方法的一個實(shí)施例的流程圖;
[0049] 圖9是示出用于自動的語法糾錯的方法的一個實(shí)施例的流程圖;
[0050] 圖IOA是示出用于校正冠詞錯誤的文本校正模型的一個實(shí)施例的精確性的示圖;
[0051] 圖IOB是示出用于校正介詞錯誤的文本校正模型的一個實(shí)施例的精確性的示圖;
[0052] 圖IlA是示出相比較于使用DeFelice特征集的常用方法,用于校正冠詞錯誤的方 法的Fl測量的示圖;
[0053] 圖IlB是示出相比較于使用Han特征集的常用方法,用于校正冠詞錯誤的方法的 Fl測量的示圖;
[0054] 圖IlC是示出相比較于使用Lee特征集的常用方法,用于校正冠詞錯誤的方法的 Fl測量的示圖;
[0055] 圖12A是示出相比較于使用DeFelice特征集的常用方法,用于校正介詞錯誤的方 法的Fl測量的示圖;
[0056] 圖12B是示出相比較于使用TetreaultChunk特征集的常用方法,用于校正介詞錯 誤的方法的Fl測量的示圖;
[0057] 圖12C是示出相比較于使用TetreaultParse特征集的常用方法,用于校正介詞錯 誤的方法的Fl測量的示圖;
[0058] 圖13是示出用于校正語義搭配錯誤的方法的一個實(shí)施例的流程圖。

【具體實(shí)施方式】
[0059] 參考在附圖中示出并且在下面的描述細(xì)化的非限制性實(shí)施例來更為全面地解釋 各種特征和優(yōu)勢。公知的原始材料、處理技術(shù)、組件和裝置的描述被省略以便不必要地混淆 本發(fā)明的細(xì)節(jié)。然而,應(yīng)該理解的是指示本發(fā)明的實(shí)施例的詳細(xì)描述和特定例子是僅通過 實(shí)例說明給出的,并且絕不是限制。根本的發(fā)明構(gòu)思內(nèi)的精神和/或范圍內(nèi)的各種替代、修 改、添加和/或重新安排將通過本公開而對本領(lǐng)域技術(shù)人員變得清楚。
[0060] 在本說明書中描述的某些單元已經(jīng)被標(biāo)記為模塊,以便更為特別地強(qiáng)調(diào)它們的實(shí) 現(xiàn)獨(dú)立性。模塊是"一種自包含硬件或軟件組件,其與更大的系統(tǒng)交互",艾倫弗里德曼, "TheComputerGlossary"268(1998年,第8版)。模塊包括機(jī)器或機(jī)器可執(zhí)行指令。例 如,模塊可以被實(shí)現(xiàn)為硬件電路,包括定制的VLSI電路或門陣列,現(xiàn)成的半導(dǎo)體例如邏輯 芯片、晶體管或其他分離組件。模塊也可以被實(shí)現(xiàn)在可編程硬件器件中,例如現(xiàn)場可編程門 陣列、可編程陣列邏輯、可編程邏輯器件或類似等。
[0061] 模塊也可以包括軟件定義的單元或指令,當(dāng)由處理機(jī)器或裝置執(zhí)行時,將存儲在 數(shù)據(jù)存儲裝置上的數(shù)據(jù)從第一狀態(tài)轉(zhuǎn)換到第二狀態(tài)。可執(zhí)行代碼的標(biāo)識模塊可以例如包括 計(jì)算機(jī)指令的一個或多個物理或邏輯塊,其可以被組織為對象、過程或功能。不管怎樣,標(biāo) 識模塊的可執(zhí)行文件不需要物理上在一起,而是可以包括存儲在不同位置中的分離指令, 其在邏輯上連接在一起時包括模塊,并且當(dāng)由處理器執(zhí)行時,實(shí)現(xiàn)聲明的數(shù)據(jù)轉(zhuǎn)換。
[0062] 事實(shí)上,可執(zhí)行代碼的模塊可以是單個的指令,或者是許多指令,并且可以在若干 個不同的代碼段、在不同的程序間或跨若干個存儲裝置來分布。類似地,操作數(shù)據(jù)這里可以 在模塊內(nèi)被識別和示出,并且可以以任意合適的形式來體現(xiàn),并且在任意合適類型的數(shù)據(jù) 結(jié)構(gòu)內(nèi)組織。操作數(shù)據(jù)可以被聚集為單個的數(shù)據(jù)集,或者可以在不同的位置上分布,包括在 不同的存儲裝置上分布。
[0063]在下面的描述中,提供許多特定的細(xì)節(jié),例如編制程序、軟件模塊、用戶選擇、網(wǎng)絡(luò) 事務(wù)、數(shù)據(jù)庫查詢、數(shù)據(jù)庫結(jié)構(gòu)、硬件模塊、硬件電路、硬件芯片等的例子,以提供對本實(shí)施 例的透徹理解。然而,相關(guān)領(lǐng)域的技術(shù)人員將認(rèn)識到本發(fā)明可以在沒有特定細(xì)節(jié)的一個或 多個的情況下實(shí)踐,或可以利用其他的方法、組件、材料等來實(shí)踐。在其他的實(shí)例中,公知的 結(jié)構(gòu)、材料、或操作沒有詳細(xì)的示出或描述以避免混淆本發(fā)明的多個方面。
[0064] 圖1示出用于自動化文本和語音編輯(speechediting)的系統(tǒng)100的一個實(shí)施 例。系統(tǒng)100可以包括服務(wù)器102、數(shù)據(jù)存儲裝置106、網(wǎng)絡(luò)108和用戶接口裝置110。在一 個特定的實(shí)施例中,系統(tǒng)100可以包括存儲器控制器104、或存儲器服務(wù)器,其配置成管理 數(shù)據(jù)存儲器裝置106和與網(wǎng)絡(luò)108通信的服務(wù)器102或其他組件之間的數(shù)據(jù)傳遞。在替代 的實(shí)施例中,存儲器控制器104可以耦合到網(wǎng)絡(luò)108。
[0065] 在一個實(shí)施例中,用戶接口裝置110可以被廣義地指代,并且旨在包含基于合適 的處理器的裝置,例如臺式計(jì)算機(jī)、膝上型計(jì)算機(jī)、個人數(shù)字助理(PDA)或平板計(jì)算機(jī)、接 入到網(wǎng)絡(luò)108的智能電話或其他移動通信裝置或管理器裝置。在進(jìn)一步的實(shí)施例中,用戶 接口裝置110可以接入到因特網(wǎng)或其他廣域網(wǎng)或局域網(wǎng),以訪問由服務(wù)器102主控的web 應(yīng)用或web服務(wù)并且提供用戶接口以便使得用戶能夠輸入或接收信息。例如,用戶可以通 過麥克風(fēng)(未示出)或鍵盤320來錄入輸入的話語或文本到系統(tǒng)100。
[0066] 網(wǎng)絡(luò)108可以促進(jìn)服務(wù)器102和用戶接口裝置110之間的數(shù)據(jù)傳遞。網(wǎng)絡(luò)108可以 包括任意類型的通信網(wǎng)絡(luò),包括但不限于直接PC到PC連接、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、 調(diào)制解調(diào)器到調(diào)制解調(diào)器連接、因特網(wǎng)、上述的組合,或現(xiàn)在已知或稍后開始的在組網(wǎng)領(lǐng)域 內(nèi)允許兩個或多個計(jì)算機(jī)來彼此通信的任意其他通信網(wǎng)絡(luò)。
[0067] 在一個實(shí)施例中,服務(wù)器102配置成存儲輸入的話語和/或輸入的文本。另外, 服務(wù)器可以經(jīng)由存儲區(qū)域網(wǎng)(SAN)、LAN、數(shù)據(jù)總線或類似等來訪問存儲在數(shù)據(jù)存儲器裝置 106中的數(shù)據(jù)。
[0068] 數(shù)據(jù)存儲器裝置106可以包括硬盤(包括在獨(dú)立磁盤冗余(RAID)陣列中布置的 硬盤)、包括磁帶數(shù)據(jù)存儲器裝置的帶存儲器驅(qū)動器、光存儲器裝置或類似等。在一個實(shí)施 例中,數(shù)據(jù)存儲器裝置106可以存儲英語或其他語言的句子。數(shù)據(jù)可以布置在數(shù)據(jù)庫中并 且可以通過結(jié)構(gòu)化查詢語言(SQL)查詢、或其他數(shù)據(jù)庫查詢語言或操作來訪問。
[0069]圖2示出配置成存儲輸入的話語和/或輸入文本的數(shù)據(jù)管理系統(tǒng)200的一個實(shí)施 例。在一個實(shí)施例中,數(shù)據(jù)管理系統(tǒng)200可以包括服務(wù)器102。服務(wù)器102可以耦合到數(shù) 據(jù)總線202。在一個實(shí)施例中,數(shù)據(jù)管理系統(tǒng)200也可以包括第一數(shù)據(jù)存儲器裝置204、第 二數(shù)據(jù)存儲器裝置206和/或第三數(shù)據(jù)存儲器裝置208。在另外的實(shí)施例中,數(shù)據(jù)管理系 統(tǒng)200可以包括另外的數(shù)據(jù)存儲器裝置(未示出)。在一個實(shí)施例中,例如學(xué)習(xí)者英語的 NUS語料庫(NUCLE)的學(xué)習(xí)文本的語料庫可以存儲在第一數(shù)據(jù)存儲器裝置204中。第二數(shù) 據(jù)存儲器裝置206可以存儲例如非學(xué)習(xí)文本的語料庫。非學(xué)習(xí)文本的例子可以包括平行語 料庫、新聞或期刊文本以及其他公共可獲得的文本。在某些實(shí)施例中,從被認(rèn)為包含相對少 的錯誤的源選擇非學(xué)習(xí)文本。第三數(shù)據(jù)存儲器裝置208可以包含計(jì)算的數(shù)據(jù)、輸入的文本 和或輸入的話語數(shù)據(jù)。在另外的實(shí)施例中,所述的數(shù)據(jù)可以被一起存儲進(jìn)合并的數(shù)據(jù)存儲 器裝置210。
[0070] 在一個實(shí)施例中,服務(wù)器102可以向選擇的數(shù)據(jù)存儲器裝置204、206提交查詢,以 檢索輸入的句子。服務(wù)器102可以將合并的數(shù)據(jù)集存儲在合并的數(shù)據(jù)存儲器裝置210中。 在此類的一個實(shí)施例中,服務(wù)器102可以返回查閱合并的數(shù)據(jù)存儲器裝置210以獲得與指 定的句子關(guān)聯(lián)的一組數(shù)據(jù)元素。替代地,服務(wù)器101可以獨(dú)立地查詢數(shù)據(jù)存儲器裝置204、 206、208中的每個或在分布式的查詢中查詢,以便獲得與輸入的句子關(guān)聯(lián)的一組數(shù)據(jù)元素。 在另一個替代實(shí)施例中,多個數(shù)據(jù)庫可以存儲在單個的合并的數(shù)據(jù)存儲器裝置210上。
[0071] 數(shù)據(jù)管理系統(tǒng)200也可以包括用于輸入和處理話語的文件。在各種實(shí)施例中,月艮 務(wù)器102可以通過數(shù)據(jù)總線202與數(shù)據(jù)存儲器裝置204、206、208通信。數(shù)據(jù)總線202可以 包括SAN、LAN或類似等。通信基礎(chǔ)結(jié)構(gòu)可以包括以太網(wǎng)、光纖通道仲裁環(huán)路(FC-AL)、小型 計(jì)算機(jī)系統(tǒng)接口(SCSI)、串行高級技術(shù)附件(SATA)、高級技術(shù)附加裝置(ATA)和/或其他 與數(shù)據(jù)存儲和通信關(guān)聯(lián)的類似數(shù)據(jù)通信策略。例如,服務(wù)器102可以間接與數(shù)據(jù)存儲器裝 置204、206、208、210通信;服務(wù)器102首先與存儲器服務(wù)器或存儲器控制器104通信。
[0072] 服務(wù)器102可以主控配置用于分析話語和/或輸入文本的軟件應(yīng)用。軟件應(yīng)用可 以進(jìn)一步包括用于與數(shù)據(jù)存儲器裝置204、206、208、210接口連接、與網(wǎng)絡(luò)108接口連接、通 過用戶接口裝置110與用戶接口連接以及類似等的模塊。在另外的實(shí)施例中,服務(wù)器102 可以主控引擎、應(yīng)用插件、或應(yīng)用編程接口(API)。
[0073] 圖3示出根據(jù)服務(wù)器102和/或用戶接口裝置110的某些實(shí)施例適配的計(jì)算機(jī)系 統(tǒng)300。中央處理單元("CPU")302耦合到系統(tǒng)總線304。CPU302可以是通用CPU或微 處理器、圖像處理單元("GPU")、微控制器或可以被專門地編程以執(zhí)行如下面的流程圖中 描述的方法的類似物。本實(shí)施例并不限于CPU302的架構(gòu),只要CPU302直接或間接地支 持如這里所述的模塊和操作。CPU302根據(jù)本實(shí)施例可以執(zhí)行各種邏輯指令。
[0074] 計(jì)算機(jī)系統(tǒng)300也可以包括隨機(jī)存取存儲器(RAM) 308、其可以是SRAM、DRAM、 SDRAM或類似等。計(jì)算機(jī)系統(tǒng)300可以使用RAM308來存儲由具有代碼的軟件應(yīng)用用于分 析話語的各種數(shù)據(jù)結(jié)構(gòu)。計(jì)算機(jī)系統(tǒng)300也可以包括只讀存儲器(ROM) 306,其可以是PROM、 EPROM、EEPR0M、光存儲器或類似等。ROM可以存儲用于啟動計(jì)算機(jī)系統(tǒng)300的配置信息。 RAM308和ROM306保持用戶和系統(tǒng)數(shù)據(jù)。
[0075] 計(jì)算機(jī)系統(tǒng)300也可以包括輸入/輸出(1/0)適配器310、通信適配器314、用戶接 口適配器316和顯示器適配器322。在某些實(shí)施例中,1/0適配器310和/或用戶接口適配 器316可以使得用戶來與計(jì)算機(jī)系統(tǒng)300交互,從而輸入話語或文本。在另外的實(shí)施例中, 顯示器適配器322可以顯示與用于生成具有插入的標(biāo)點(diǎn)符號、語法校正和其他相關(guān)文本和 語音編輯功能的基于軟件和web的應(yīng)用或移動應(yīng)用關(guān)聯(lián)的圖形用戶接口。
[0076] 1/0適配器310可以連接一個或多個存儲器裝置312到計(jì)算機(jī)系統(tǒng)300,該存儲器 裝置312例如為硬驅(qū)動器、計(jì)算機(jī)盤(CD)驅(qū)動器、軟盤驅(qū)動器和磁帶驅(qū)動器中的一個或多 個。通信適配器314可以適于將計(jì)算機(jī)系統(tǒng)300耦合到網(wǎng)絡(luò)108,該網(wǎng)絡(luò)108可以是LAN、 WAN和/或因特網(wǎng)中的一個或多個。用戶接口適配器316將例如鍵盤320和指向裝置318 的用戶輸入裝置耦合到計(jì)算機(jī)系統(tǒng)300。顯示器適配器322可以由CPU302驅(qū)動以控制在 顯示器裝置324上的顯示。
[0077]本公開的應(yīng)用并不限于計(jì)算機(jī)系統(tǒng)300的架構(gòu)。相反,將計(jì)算機(jī)系統(tǒng)300提供為 可以適于執(zhí)行服務(wù)器102和/或用戶接口裝置110的一種類型的計(jì)算裝置的例子。例如, 可以使用任意合適的基于處理器的裝置,包括但不限于個人數(shù)字助理(PDA)、臺式計(jì)算機(jī)、 智能電話、計(jì)算機(jī)游戲控制臺以及多處理器服務(wù)器。此外,本公開的系統(tǒng)和方法可以實(shí)現(xiàn)在 專用集成電路(ASIC)上,超大規(guī)模集成電路(VLSI)電路或其他電路。事實(shí)上,本領(lǐng)域技術(shù) 人員可以使用任意數(shù)目的合適結(jié)構(gòu),該結(jié)構(gòu)能夠根據(jù)所述的實(shí)施例執(zhí)行邏輯操作。
[0078] 下面的示意流程圖和相關(guān)描述總體上作為邏輯流程圖來闡述。這樣,所繪出的順 序和標(biāo)記的步驟指示所提供的方法的一個實(shí)施例。在功能、邏輯或效果上等同于所示出的 方法的一個或多個步驟、或其一部分的其他步驟和方法是可以想到的。另外,提供所使用的 格式和符號以解釋本方法的邏輯步驟并且被理解為不限制該方法的范圍。盡管在流程圖中 可以使用各種箭頭類型和連線類型,它們被理解為不限制相應(yīng)方法的范圍。事實(shí)上,一些箭 頭或其他連接符可以用于僅指示方法的邏輯流程。例如,箭頭可以指示在所繪出的方法的 列表步驟之間的未指定持續(xù)期間的等待或監(jiān)視周期。另外,特定方法發(fā)生的順序可以或可 以不嚴(yán)格遵守所示相應(yīng)步驟的順序。
[0079]標(biāo)點(diǎn)預(yù)測
[0080] 根據(jù)一個實(shí)施例,可以從標(biāo)準(zhǔn)文本處理角度來預(yù)測標(biāo)點(diǎn)符號,其中僅語音文本是 可獲得的,而不依賴于另外的韻律特征例如基音和中斷持續(xù)時間。例如,可以在轉(zhuǎn)錄對話語 音文本或話語上執(zhí)行標(biāo)點(diǎn)預(yù)測任務(wù)。不同于例如廣播新聞?wù)Z料庫的許多其他語料庫,對話 語音語料庫可以包括對話,其中非正式的和短的句子頻繁地出現(xiàn)。此外,由于對話的屬性, 相比較于其他的語料庫,其也可以包括更多的疑問句。
[0081] 一種放松由隱事件語言編碼的強(qiáng)相關(guān)性假設(shè)的自然方法是采用非定向圖形模型, 其中可以利用任意重疊的特征。條件隨機(jī)域(CRF)已經(jīng)廣泛地應(yīng)用于各種序列標(biāo)記和分段 任務(wù)中。在給定觀察項(xiàng)下,CRF可以是完整標(biāo)記序列的條件分布的判別模型。例如,采取第 一級馬爾可夫?qū)傩缘牡谝患壘€性鏈CRF可以通過下面的等式來定義:
[0082]

【權(quán)利要求】
1. 一種用于校正語法錯誤的方法,該方法包括: 接收自然語言文本輸入,所述文本輸入包括語法錯誤,其中輸入文本的一部分包括來 自于一組類的類; 從假設(shè)沒有語法錯誤的非學(xué)習(xí)文本的語料庫生成多個選擇任務(wù),其中對于每個選擇任 務(wù),分類器重新預(yù)測在非學(xué)習(xí)文本中使用的類; 從學(xué)習(xí)文本的語料庫生成多個校正任務(wù),其中對于每個校正任務(wù),分類器建議在學(xué)習(xí) 文本中使用的類; 使用一組二進(jìn)制分類問題來訓(xùn)練語法校正模型,該一組二進(jìn)制分類問題包括多個選擇 任務(wù)和多個校正任務(wù);以及 使用訓(xùn)練的語法校正模型來從一組可能的類預(yù)測文本輸入的類。
2. 根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括輸出建議,以便如果預(yù)測的類不同于文本 輸入中的類,則將文本輸入的類改變成預(yù)測的類。
3. 根據(jù)權(quán)利要求1所述的方法,其中所述學(xué)習(xí)文本由老師以假定正確的類來加注釋。
4. 根據(jù)權(quán)利要求1所述的方法,其中所述類是與輸入文本中的名詞短語關(guān)聯(lián)的冠詞。
5. 根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語來 抽取用于分類器的特征函數(shù)。
6. 根據(jù)權(quán)利要求1所述的方法,其中所述類是與輸入文本中的介詞短語關(guān)聯(lián)的介詞。
7. 根據(jù)權(quán)利要求6所述的方法,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語抽取 用于分類器的特征函數(shù)。
8. 根據(jù)權(quán)利要求1所述的方法,其中所述非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空 間,學(xué)習(xí)文本的特征空間包括由作者使用的單詞。
9. 根據(jù)權(quán)利要求1所述的方法,其中訓(xùn)練語法校正模型包括最小化訓(xùn)練數(shù)據(jù)上的損失 函數(shù)。
10. 根據(jù)權(quán)利要求1所述的方法,訓(xùn)練語法校正模型進(jìn)一步包括通過分析非學(xué)習(xí)文本 來識別多個線性分類器。
11. 根據(jù)權(quán)利要求10所述的方法,其中所述線性分類器進(jìn)一步包括權(quán)重因子,該權(quán)重 因子包括在權(quán)重因子的矩陣中。
12. 根據(jù)權(quán)利要求11所述的方法,其中訓(xùn)練所述語法校正模型進(jìn)一步包括在權(quán)重因子 的矩陣上執(zhí)行奇異值分解(SVD)。
13. 根據(jù)權(quán)利要求12所述的方法,其中訓(xùn)練語法校正模型也可以包括識別組合權(quán)重 值,該組合權(quán)重值代表通過分析非學(xué)習(xí)文本所識別的第一權(quán)重值元素以及通過最小化經(jīng)驗(yàn) 風(fēng)險函數(shù)來分析學(xué)習(xí)文本而識別的第二權(quán)重值元素。
14. 一種設(shè)備,包括: 至少一個處理器和耦合到該至少一個處理器的存儲器裝置,其中所述至少一個處理器 配置成: 接收自然語言文本輸入,所述文本輸入包括語法錯誤,其中輸入文本的一部分包括來 自于一組類的類; 從假設(shè)沒有語法錯誤的非學(xué)習(xí)文本的語料庫生成多個選擇任務(wù),其中對于每個選擇任 務(wù),分類器重新預(yù)測在非學(xué)習(xí)文本中使用的類; 從學(xué)習(xí)文本的語料庫生成多個校正任務(wù),其中對于每個校正任務(wù),分類器建議在學(xué)習(xí) 文本中使用的類; 使用一組二進(jìn)制分類問題來訓(xùn)練語法校正模型,該一組二進(jìn)制分類問題包括多個選擇 任務(wù)和多個校正任務(wù);以及 使用訓(xùn)練的語法校正模型來從一組可能的類預(yù)測文本輸入的類。
15. 根據(jù)權(quán)利要求14所述的設(shè)備,進(jìn)一步包括輸出建議,以便如果預(yù)測的類不同于文 本輸入中的類,則將文本輸入的類改變成預(yù)測的類。
16. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述學(xué)習(xí)文本由老師以假定正確的類來加注 釋。
17. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述類是與所述輸入文本中的名詞短語關(guān)聯(lián)的 冠詞。
18. 根據(jù)權(quán)利要求17所述的設(shè)備,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語 來抽取用于分類器的特征函數(shù)。
19. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述類是與輸入文本中的介詞短語關(guān)聯(lián)的介 〇
20. 根據(jù)權(quán)利要求19所述的設(shè)備,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語抽 取用于分類器的特征函數(shù)。
21. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空 間,學(xué)習(xí)文本的特征空間包括由作者使用的單詞。
22. 根據(jù)權(quán)利要求14所述的設(shè)備,其中訓(xùn)練語法校正模型包括最小化訓(xùn)練數(shù)據(jù)上的損 失函數(shù)。
23. 根據(jù)權(quán)利要求14所述的設(shè)備,其中訓(xùn)練所述語法校正模型進(jìn)一步包括通過分析非 學(xué)習(xí)文本來識別多個線性分類器。
24. 根據(jù)權(quán)利要求23所述的設(shè)備,其中所述線性分類器進(jìn)一步包括權(quán)重因子,該權(quán)重 因子包括在權(quán)重因子的矩陣中。
25. 根據(jù)權(quán)利要求24所述的設(shè)備,其中訓(xùn)練所述語法校正模型進(jìn)一步包括在權(quán)重因子 的矩陣上執(zhí)行奇異值分解(SVD)。
26. 根據(jù)權(quán)利要求25所述的設(shè)備,其中訓(xùn)練語法校正模型也可以包括識別組合權(quán)重 值,該組合權(quán)重值代表通過分析非學(xué)習(xí)文本所識別的第一權(quán)重值元素以及通過最小化經(jīng)驗(yàn) 風(fēng)險函數(shù)來分析學(xué)習(xí)文本而識別的第二權(quán)重值元素。
【文檔編號】G06F17/24GK104484319SQ201410815655
【公開日】2015年4月1日 申請日期:2011年9月23日 優(yōu)先權(quán)日:2010年9月24日
【發(fā)明者】丹尼爾·赫曼·理查德·戴梅爾, 陸巍, 黃偉道 申請人:新加坡國立大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1