用于自動化文本校正的方法和系統(tǒng)的制作方法

文檔序號：6639900閱讀：153來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

用于自動化文本校正的方法和系統(tǒng)的制作方法
【專利摘要】本實(shí)施例演示用于自動化文本校正的系統(tǒng)和方法。在某些實(shí)施例中，該方法和系統(tǒng)可以通過根據(jù)單個文本校正模型的分析來實(shí)現(xiàn)。在特定的實(shí)施例中，可以通過分析學(xué)習(xí)文本的語料庫和非學(xué)習(xí)文本的語料庫二者來生成單個文本校正模型。
【專利說明】用于自動化文本校正的方法和系統(tǒng)
[0001] 針對如下案件的分案申請：
[0002] 申請日：2011-9-23
[0003] 申請?zhí)?011800459619
[0004] 發(fā)明名稱：用于自動化文本校正的方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0005] 本發(fā)明涉及用于自化化文本校正的方法和系統(tǒng)。

【背景技術(shù)】
[0006] 文本校正通常是困難和耗時的。另外，通常編輯文本是昂貴的，特別是涉及翻譯，因?yàn)榫庉嬐ǔＰ枰褂糜屑夹g(shù)和受過訓(xùn)練的工作人員。例如，編輯翻譯可能需要由在兩種或多種語言中具有高水平熟練度的工作人員來提供密集勞動。
[0007]自動化的翻譯系統(tǒng)（例如某些在線翻譯器）可以使翻譯的勞動密集型的某些方面有所減輕，但是它們?nèi)圆荒芴娲斯しg員。特別地，自動化系統(tǒng)執(zhí)行相對好的單詞到單詞翻譯的工作，但是由于語法和標(biāo)點(diǎn)的不精確性，句子的意義經(jīng)常無法理解。
[0008] 某些自動化文本編輯系統(tǒng)確實(shí)存在，但此類系統(tǒng)通常具有不精確性。另外，現(xiàn)有技術(shù)的自動化文本編輯系統(tǒng)可能需要相對大量的處理資源。
[0009] -些自動化文本編輯系統(tǒng)可能需要訓(xùn)練或配置以精確地編輯文本。例如，某些現(xiàn) 有技術(shù)的系統(tǒng)可以使用學(xué)習(xí)文本（learnertext)的加注釋的語料庫（annotatedcorpus) 來被訓(xùn)練。替代地，一些現(xiàn)有技術(shù)的系統(tǒng)可以使用沒有加注釋的非學(xué)習(xí)文本的語料庫來被訓(xùn)練。本領(lǐng)域普通技術(shù)人員可以認(rèn)識學(xué)習(xí)文本和非學(xué)習(xí)文本之間的差異。
[0010] 標(biāo)準(zhǔn)自動化語音識別（ASR)系統(tǒng)的輸出通常由話語（utterance)構(gòu)成，其中例如真實(shí)情況、句子邊界和標(biāo)點(diǎn)符號的重要語言和結(jié)構(gòu)信息是不可獲得的。語言和結(jié)構(gòu)信息改進(jìn)轉(zhuǎn)錄的語音文本的可讀性，并且輔助進(jìn)一步的下游處理，例如詞性（POS)標(biāo)注、語法分析、信息抽取和機(jī)器翻譯。
[0011] 現(xiàn)有技術(shù)的標(biāo)點(diǎn)預(yù)測技術(shù)使用詞匯和韻律學(xué)線索。然而，例如基音和中斷持續(xù)時間的韻律學(xué)特征在沒有原始未處理語音波形的情況下通常是不可獲得的。在其中對于轉(zhuǎn)錄語音文本的自然語言處理（NLP)變成主要關(guān)注的一些場景中，語音韻律學(xué)信息可能無法輕易獲得。在國際口語翻譯研討會（IWSLT)的評測活動中，僅提供人工轉(zhuǎn)錄或自動識別的語音文本，而原始未處理語音波形是不可獲得的。
[0012] 按照慣例，在語音識別期間執(zhí)行標(biāo)點(diǎn)插入。在一個例子中，在決策樹框架內(nèi)使用連同語言模型概率的韻律學(xué)特征。在另一個例子中，廣播新聞領(lǐng)域中的插入包括針對任務(wù)的有限狀態(tài)和多層感知器方法，其中韻律學(xué)和詞匯信息被并入。在進(jìn)一步的例子中，實(shí)施基于最大熵的標(biāo)注方法，其在自發(fā)的英語對話中進(jìn)行標(biāo)點(diǎn)插入，包括使用詞匯和韻律學(xué)特征。在另一個例子中，通過使用條件隨機(jī)場（CRF)來執(zhí)行句子邊界檢測。邊界檢測顯示出對于基于隱馬爾可夫模型（HMM)的在先方法的改進(jìn)。
[0013] 一些現(xiàn)有技術(shù)將句子邊界檢測和標(biāo)點(diǎn)插入任務(wù)考慮為隱事件檢測任務(wù)。例如，HMM 可以描述單詞和單詞間事件上的聯(lián)合分布，其中觀察值是單詞，并且單詞/事件對被編碼為隱狀態(tài)。具體地，在該任務(wù)中，單詞邊界和標(biāo)點(diǎn)符號被編碼為單詞間事件。訓(xùn)練短語涉及使用平滑技術(shù)來在所有觀察單詞和事件上訓(xùn)練n-gram語言模型。學(xué)習(xí)到的n-gram概率分數(shù)接著被用作HMM狀態(tài)轉(zhuǎn)換分?jǐn)?shù)。在測試期間，在每個單詞處的事件的后驗(yàn)概率利用使用前向-后向算法的動態(tài)編程來計(jì)算。最為可能的狀態(tài)的序列因此形成給出加標(biāo)點(diǎn)的句子的輸出。此類的基于HMM的方法具有若干個缺陷。
[0014] 首先，n-gram語言模型僅能夠捕獲圍繞的上下文信息。然而，對于標(biāo)點(diǎn)插入可能需要更長范圍相關(guān)性的建模。例如，該方法不能夠有效地捕獲強(qiáng)烈的指示疑問句的初始短語"你想（wouldyou)"和結(jié)束問號之間的長范圍相關(guān)性。因此，在使用隱事件語言模型之外可以使用特殊的技術(shù)以便克服長范圍相關(guān)性。
[0015] 現(xiàn)有技術(shù)的例子包括重新排放或復(fù)制標(biāo)點(diǎn)符號到句子的不同位置，使得它們顯得更接近于指示的單詞（例如，"多少錢"指示疑問句）。一個此類的技術(shù)建議在訓(xùn)練語言模型前將結(jié)尾的標(biāo)點(diǎn)符號復(fù)制到每個句子的開始處。從經(jīng)驗(yàn)上來說，該技術(shù)已經(jīng)演示了其在英語中預(yù)測問號的有效性，因?yàn)橛糜谟⒄Z疑問句的大多數(shù)指示的單詞出現(xiàn)在問題的開始處。然而，此類的技術(shù)是專門設(shè)計(jì)的并且可能不能廣泛地通常應(yīng)用或應(yīng)用于除英語以外的語言。進(jìn)一步，在每次話語多個句子而沒有在話語內(nèi)清楚地加注釋的句子邊界的情況下，直接應(yīng)用該方法可能會失敗。
[0016] 與此類方法關(guān)聯(lián)的另一個缺陷是該方法對將要插入的標(biāo)點(diǎn)符號和其圍繞的單詞之間的強(qiáng)相關(guān)性假定進(jìn)行編碼。因此，其缺乏魯棒性來處理其中頻繁出現(xiàn)噪聲或詞匯表外 (OOV)單詞的情形，例如在由ASR系統(tǒng)自動識別的文本中。
[0017] 語法糾錯（GEC)已經(jīng)被認(rèn)為是自然語言處理（NLP)中有趣和商業(yè)上引人注意的問題，特別是對于將英語作為外語或第二門語言（EFL/ESL)的學(xué)習(xí)者來說。
[0018] 盡管興趣在增長，由于缺乏可用于研究目的的學(xué)習(xí)文本的大量加注釋的語料庫，研究已經(jīng)受到阻礙。結(jié)果是，對于GEC的標(biāo)準(zhǔn)方法是訓(xùn)練現(xiàn)成的分類器來重新預(yù)測非學(xué)習(xí) 文本中的單詞。直接從加注釋的初學(xué)者語料庫學(xué)習(xí)GEC模型不能被很好的實(shí)施，如同將學(xué) 習(xí)文本和非學(xué)習(xí)文本合并的方法。進(jìn)一步，GEC的評估已經(jīng)是個問題。先前的工作或?qū)θ?工測試實(shí)例進(jìn)行評估來作為對實(shí)際初學(xué)者錯誤的替代，或?qū)Σ豢捎糜谄渌芯空叩膶Ｓ脭?shù) 據(jù)進(jìn)行評估。結(jié)果，現(xiàn)有的方法并不能在相同的測試集上進(jìn)行比較，從而不清楚現(xiàn)有技術(shù)的當(dāng)前狀態(tài)實(shí)際上在哪。
[0019] 對于GEC的業(yè)界標(biāo)準(zhǔn)方法是構(gòu)建統(tǒng)計(jì)模型，其能夠從可能校正選擇的混淆集來選項(xiàng)最為可能的校正。定義混淆集的方式取決于錯誤的類型。上下文相關(guān)拼寫錯誤校正傳統(tǒng) 地關(guān)注于具有類似拼寫（例如，{dessert,desert"})或類似的發(fā)音（例如，{there,their}) 的混淆集。換句話說，混淆集中的單詞因?yàn)槠磳懟蛘Z音相似性而被認(rèn)為是可能被混淆的。 GEC中的其他工作基于句法相似性來定義混淆集，例如，所有的英語冠詞或最為頻繁的英語介詞形成混淆集。

【發(fā)明內(nèi)容】

[0020] 本實(shí)施例演示了用于自動化文本校正的系統(tǒng)和方法。在某些實(shí)施例中，方法和系統(tǒng)可以通過根據(jù)單個文本編輯模型的分析來實(shí)現(xiàn)。在特定的實(shí)施例中，單個文本編輯模型可以通過學(xué)習(xí)文本的語料庫和非學(xué)習(xí)文本的語料庫的分析來生成。
[0021] 根據(jù)一個實(shí)施例，一種設(shè)備，包括至少一個處理器和耦合到該至少一個處理器的存儲器裝置，其中所述至少一個處理器配置成識別輸入話語的單詞。所述至少一個處理器也配置成將單詞放置在存儲在存儲器裝置中的多個第一節(jié)點(diǎn)中。所述至少一個處理器進(jìn)一步配置成部分基于線性鏈的相鄰節(jié)點(diǎn)來向第一節(jié)點(diǎn)的每個分配單詞層標(biāo)簽。所述至少一個處理器也配置成通過將來自于多個第一節(jié)點(diǎn)的單詞與部分在分配給每個第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合，生成輸出句子。
[0022] 根據(jù)另一個實(shí)施例，一種計(jì)算機(jī)程序產(chǎn)品，包括具有用于識別輸入話語的單詞的代碼的計(jì)算機(jī)可讀介質(zhì)。所述介質(zhì)也包括用于將單詞放置在存儲在存儲器裝置中的多個第一節(jié)點(diǎn)中的代碼。所述介質(zhì)進(jìn)一步包括用于部分基于多個第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來向第一節(jié) 點(diǎn)的每個分配單詞層標(biāo)簽的代碼。所述介質(zhì)也包括用于通過將來自于多個第一節(jié)點(diǎn)的單詞與部分在分配給每個第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合，生成輸出句子的代碼。
[0023] 根據(jù)另一個實(shí)施例，一種方法，包括識別輸入話語的單詞。所述方法還包括將單詞放置在存儲在存儲器裝置中的多個第一節(jié)點(diǎn)中。所述方法進(jìn)一步包括部分基于所述多個第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來向多個第一節(jié)點(diǎn)中的每個第一節(jié)點(diǎn)分配單詞層標(biāo)簽。所述方法也包括通過將來自于多個第一節(jié)點(diǎn)的單詞與部分在分配給每個第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合，生成輸出句子。
[0024] -種方法的附加實(shí)施例包括接收自然語言文本輸入，所述文本輸入包括語法錯誤，其中輸入文本的一部分包括來自于一組類的類。該方法也可以包括從假設(shè)沒有語法錯誤的非學(xué)習(xí)文本的語料庫生成多個選擇任務(wù)，其中對于每個選擇任務(wù)，分類器重新預(yù)測在非學(xué)習(xí)文本中使用的類。進(jìn)一步，該方法可以包括從學(xué)習(xí)文本的語料庫生成多個校正任務(wù)，其中對于每個校正任務(wù)，分類器建議在學(xué)習(xí)文本中使用的類。另外，所述方法可以包括使用一組二進(jìn)制分類問題來訓(xùn)練語法校正模型，該一組二進(jìn)制分類問題包括多個選擇任務(wù)和多個校正任務(wù)。該實(shí)施例也可以包括使用訓(xùn)練的語法校正模型來從一組可能的類預(yù)測文本輸入的類。
[0025] 在另外的實(shí)施例中，該方法包括輸出建議以便如果預(yù)測的類不同于文本輸入中的類，則將文本輸入的類改變成預(yù)測的類。在此類的實(shí)施例中，學(xué)習(xí)文本由老師以假定正確的類來加注釋。類可以是與輸入文本中的名詞短語關(guān)聯(lián)的冠詞。該方法也可以包括從非學(xué)習(xí) 文本和學(xué)習(xí)文本中的名詞短語來抽取用于分類器的特征函數(shù)。
[0026] 在另一實(shí)施例中，類是與輸入文本中的介詞短語關(guān)聯(lián)的介詞。此類的方法可以包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語抽取用于分類器的特征函數(shù)。
[0027] 在一個實(shí)施例中，非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間，學(xué)習(xí)文本的特征空間包括由作者使用的單詞。訓(xùn)練語法校正模型可以包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。訓(xùn)練語法校正模型也可以包括通過分析非學(xué)習(xí)文本來識別多個線性分類器。線性分類器進(jìn) 一步包括權(quán)重因子，該權(quán)重因子包括在權(quán)重因子的矩陣中。
[0028] 在一個實(shí)施例中，訓(xùn)練語法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值分解（SVD)。訓(xùn)練語法校正模型也可以包括識別組合權(quán)重值，該組合權(quán)重值代表通過分析非學(xué)習(xí)文本所識別的第一權(quán)重值元素以及通過最小化經(jīng)驗(yàn)風(fēng)險函數(shù)來分析學(xué)習(xí)文本而識別的第二權(quán)重值元素。
[0029] 也提供用于自動化文本校正的一種設(shè)備。該設(shè)備可以包括例如配置成執(zhí)行上述的方法的步驟的處理器。
[0030] 提供一種方法的另一實(shí)施例。該方法可以包括校正語義搭配錯誤。此類方法的一個實(shí)施例包括響應(yīng)于在處理裝置執(zhí)行的平行語言文本的語料庫分析，自動地識別一個或多個譯文候選。另外，該方法可以包括使用處理裝置來確定與每個譯文候選關(guān)聯(lián)的特征。該方法也可以包括從存儲在數(shù)據(jù)存儲裝置中的學(xué)習(xí)文本的語料庫生成一組一個或多個權(quán)重值。該方法可以進(jìn)一步包括響應(yīng)于與每個譯文候選關(guān)聯(lián)的特征和所述一組一個或多個權(quán)重值來使用處理裝置計(jì)算針對所述一個或多個譯文候選的分?jǐn)?shù)。
[0031] 在進(jìn)一步的實(shí)施例中，識別一個或多個譯文候選可以包括從平行文本的數(shù)據(jù)庫選擇文本的平行語料庫，每個平行文本包括第一語言的文本和第二語言的相應(yīng)文本，使用處理裝置來對第一語言的文本進(jìn)行劃分，使用所述處理裝置來標(biāo)記化第二語言的文本，使用處理裝置來自動化地將第一文本中的單詞與第二文本中的單詞對準(zhǔn)，使用處理裝置從第一文本和第二文本中的對準(zhǔn)的單詞抽取短語，并且使用處理裝置來計(jì)算與第一文本中的一個或多個短語以及第二文本中的一個或多個短語關(guān)聯(lián)的釋義匹配的概率。
[0032] 在特定的實(shí)施例中，與每個譯文候選關(guān)聯(lián)的特征是釋義匹配的概率?？梢允褂脤?學(xué)習(xí)文本的語料庫的最小錯誤率訓(xùn)練（MERT)操作來計(jì)算一組一個或多個權(quán)重值。
[0033] 該方法也可以包括生成具有帶有從拼寫編輯距離導(dǎo)出的特征的搭配校正的短語表。在另一個實(shí)施例中，該方法可以包括生成具有帶有從同音異義詞字典導(dǎo)出的特征的搭配校正的短語表。在另一個實(shí)施例中，該方法可以包括生成帶有從同義詞導(dǎo)出的特征的搭配校正的短語表。另外，該方法可以包括生成具有帶有從母語引入的釋義導(dǎo)出的特征的搭配校正的短語表。
[0034] 在此類的實(shí)施例中，短語表包括用于在計(jì)算釋義匹配的概率使用的一個或多個懲罰特征。
[0035] 也提供一種設(shè)備，包括至少一個處理器和耦合到至少一個處理器的存儲器裝置，其中至少一個處理器配置成執(zhí)行如上所述的權(quán)利要求的方法的步驟。也提供一種有形計(jì)算機(jī)可讀介質(zhì)，其包括計(jì)算機(jī)可讀代碼，當(dāng)由計(jì)算機(jī)執(zhí)行時，使得計(jì)算機(jī)執(zhí)行如上所述的方法中的操作。
[0036] 術(shù)語"耦合"被定義為連接，盡管不必為直接地連接，并且也不必是機(jī)械地連接。
[0037] 術(shù)語"一個"以及"一種"被定義為一個或多個，除非本公開明確另外要求。
[0038] 術(shù)語"基本上"以及其變形被定義為大體上但不必全部為由本領(lǐng)域技術(shù)人員理解所規(guī)定的那樣，并且在一個非限制性的實(shí)施例中，"基本上"表示處于所規(guī)定的10%的范圍內(nèi)，優(yōu)選地為5 %的范圍內(nèi)，更為優(yōu)選的是位于1 %內(nèi)，并且最為優(yōu)選的是位于0. 5 %的范圍內(nèi)。
[0039] 術(shù)語"包括（comprise) "（以及任意其他形式的包括，例如"comprises"和 "comprising"）、"具有"、"包括（include)"（以及任意其他形式的包括，例如"includes" 和"including"）和"包含（contain) "（以及任意其他形式的包含，例如"contains" 和"containing"）是開放式的連接動詞。結(jié)果是，"包括（comprises) "、"具有"、"包括 (includes) "或"包含（contains) " 一個或多個步驟或單元的方法或裝置處理那些一個或多個步驟或單元，但不限于僅處理那些步驟或單元。同樣地，"包括（comprises)"，具有"、 "包括（includes) "或"包含（contains) "一個或多個特征的方法的步驟或裝置的單元處理那些一個或多個特征，但不限于僅處理那些一個或多個特征。進(jìn)一步，以特定方式配置的裝置或結(jié)構(gòu)至少以這種方式來配置，但其也可以以沒有列出的方式來配置。通過參考結(jié)合所附附圖的下面特定實(shí)施例的詳細(xì)描述，其他的特征和關(guān)聯(lián)優(yōu)勢將變得明顯。

【專利附圖】

【附圖說明】
[0040] 下面的附圖形成本說明書的一部分并且被包括進(jìn)以進(jìn)一步演示本發(fā)明的某些方面。通過參考這些附圖的一個或多個附圖、結(jié)合這里所提供的特定實(shí)施例的詳細(xì)描述，本發(fā) 明可以被更好的理解。
[0041] 圖1是示出根據(jù)本公開的一個實(shí)施例的用于分析話語的系統(tǒng)的框圖；
[0042] 圖2是示出根據(jù)本公開的一個實(shí)施例的配置成存儲句子的數(shù)據(jù)管理系統(tǒng)的框圖；
[0043] 圖3是示出根據(jù)本公開的一個實(shí)施例的用于分析話語的計(jì)算機(jī)系統(tǒng)的框圖；
[0044] 圖4是示出用于線性鏈CRF的圖形表示的框圖；
[0045] 圖5是用于線性鏈條件隨機(jī)域（CRF)的訓(xùn)練句子的示例標(biāo)記；
[0046] 圖6是示了二層階乘CRF的圖形表示的框圖；
[0047] 圖7是用于階乘條件隨機(jī)域（CRF)的訓(xùn)練句子的示例標(biāo)記；
[0048] 圖8是示出用于將標(biāo)點(diǎn)插入進(jìn)句子的方法的一個實(shí)施例的流程圖；
[0049] 圖9是示出用于自動的語法糾錯的方法的一個實(shí)施例的流程圖；
[0050] 圖IOA是示出用于校正冠詞錯誤的文本校正模型的一個實(shí)施例的精確性的示圖；
[0051] 圖IOB是示出用于校正介詞錯誤的文本校正模型的一個實(shí)施例的精確性的示圖；
[0052] 圖IlA是示出相比較于使用DeFelice特征集的常用方法，用于校正冠詞錯誤的方法的Fl測量的示圖；
[0053] 圖IlB是示出相比較于使用Han特征集的常用方法，用于校正冠詞錯誤的方法的 Fl測量的示圖；
[0054] 圖IlC是示出相比較于使用Lee特征集的常用方法，用于校正冠詞錯誤的方法的 Fl測量的示圖；
[0055] 圖12A是示出相比較于使用DeFelice特征集的常用方法，用于校正介詞錯誤的方法的Fl測量的示圖；
[0056] 圖12B是示出相比較于使用TetreaultChunk特征集的常用方法，用于校正介詞錯誤的方法的Fl測量的示圖；
[0057] 圖12C是示出相比較于使用TetreaultParse特征集的常用方法，用于校正介詞錯誤的方法的Fl測量的示圖；
[0058] 圖13是示出用于校正語義搭配錯誤的方法的一個實(shí)施例的流程圖。

【具體實(shí)施方式】
[0059] 參考在附圖中示出并且在下面的描述細(xì)化的非限制性實(shí)施例來更為全面地解釋各種特征和優(yōu)勢。公知的原始材料、處理技術(shù)、組件和裝置的描述被省略以便不必要地混淆本發(fā)明的細(xì)節(jié)。然而，應(yīng)該理解的是指示本發(fā)明的實(shí)施例的詳細(xì)描述和特定例子是僅通過實(shí)例說明給出的，并且絕不是限制。根本的發(fā)明構(gòu)思內(nèi)的精神和/或范圍內(nèi)的各種替代、修改、添加和/或重新安排將通過本公開而對本領(lǐng)域技術(shù)人員變得清楚。
[0060] 在本說明書中描述的某些單元已經(jīng)被標(biāo)記為模塊，以便更為特別地強(qiáng)調(diào)它們的實(shí) 現(xiàn)獨(dú)立性。模塊是"一種自包含硬件或軟件組件，其與更大的系統(tǒng)交互"，艾倫弗里德曼， "TheComputerGlossary"268(1998年，第8版）。模塊包括機(jī)器或機(jī)器可執(zhí)行指令。例如，模塊可以被實(shí)現(xiàn)為硬件電路，包括定制的VLSI電路或門陣列，現(xiàn)成的半導(dǎo)體例如邏輯芯片、晶體管或其他分離組件。模塊也可以被實(shí)現(xiàn)在可編程硬件器件中，例如現(xiàn)場可編程門陣列、可編程陣列邏輯、可編程邏輯器件或類似等。
[0061] 模塊也可以包括軟件定義的單元或指令，當(dāng)由處理機(jī)器或裝置執(zhí)行時，將存儲在數(shù)據(jù)存儲裝置上的數(shù)據(jù)從第一狀態(tài)轉(zhuǎn)換到第二狀態(tài)。可執(zhí)行代碼的標(biāo)識模塊可以例如包括計(jì)算機(jī)指令的一個或多個物理或邏輯塊，其可以被組織為對象、過程或功能。不管怎樣，標(biāo) 識模塊的可執(zhí)行文件不需要物理上在一起，而是可以包括存儲在不同位置中的分離指令，其在邏輯上連接在一起時包括模塊，并且當(dāng)由處理器執(zhí)行時，實(shí)現(xiàn)聲明的數(shù)據(jù)轉(zhuǎn)換。
[0062] 事實(shí)上，可執(zhí)行代碼的模塊可以是單個的指令，或者是許多指令，并且可以在若干個不同的代碼段、在不同的程序間或跨若干個存儲裝置來分布。類似地，操作數(shù)據(jù)這里可以在模塊內(nèi)被識別和示出，并且可以以任意合適的形式來體現(xiàn)，并且在任意合適類型的數(shù)據(jù) 結(jié)構(gòu)內(nèi)組織。操作數(shù)據(jù)可以被聚集為單個的數(shù)據(jù)集，或者可以在不同的位置上分布，包括在不同的存儲裝置上分布。
[0063]在下面的描述中，提供許多特定的細(xì)節(jié)，例如編制程序、軟件模塊、用戶選擇、網(wǎng)絡(luò) 事務(wù)、數(shù)據(jù)庫查詢、數(shù)據(jù)庫結(jié)構(gòu)、硬件模塊、硬件電路、硬件芯片等的例子，以提供對本實(shí)施例的透徹理解。然而，相關(guān)領(lǐng)域的技術(shù)人員將認(rèn)識到本發(fā)明可以在沒有特定細(xì)節(jié)的一個或多個的情況下實(shí)踐，或可以利用其他的方法、組件、材料等來實(shí)踐。在其他的實(shí)例中，公知的結(jié)構(gòu)、材料、或操作沒有詳細(xì)的示出或描述以避免混淆本發(fā)明的多個方面。
[0064] 圖1示出用于自動化文本和語音編輯（speechediting)的系統(tǒng)100的一個實(shí)施例。系統(tǒng)100可以包括服務(wù)器102、數(shù)據(jù)存儲裝置106、網(wǎng)絡(luò)108和用戶接口裝置110。在一個特定的實(shí)施例中，系統(tǒng)100可以包括存儲器控制器104、或存儲器服務(wù)器，其配置成管理數(shù)據(jù)存儲器裝置106和與網(wǎng)絡(luò)108通信的服務(wù)器102或其他組件之間的數(shù)據(jù)傳遞。在替代的實(shí)施例中，存儲器控制器104可以耦合到網(wǎng)絡(luò)108。
[0065] 在一個實(shí)施例中，用戶接口裝置110可以被廣義地指代，并且旨在包含基于合適的處理器的裝置，例如臺式計(jì)算機(jī)、膝上型計(jì)算機(jī)、個人數(shù)字助理（PDA)或平板計(jì)算機(jī)、接入到網(wǎng)絡(luò)108的智能電話或其他移動通信裝置或管理器裝置。在進(jìn)一步的實(shí)施例中，用戶接口裝置110可以接入到因特網(wǎng)或其他廣域網(wǎng)或局域網(wǎng)，以訪問由服務(wù)器102主控的web 應(yīng)用或web服務(wù)并且提供用戶接口以便使得用戶能夠輸入或接收信息。例如，用戶可以通過麥克風(fēng)（未示出）或鍵盤320來錄入輸入的話語或文本到系統(tǒng)100。
[0066] 網(wǎng)絡(luò)108可以促進(jìn)服務(wù)器102和用戶接口裝置110之間的數(shù)據(jù)傳遞。網(wǎng)絡(luò)108可以包括任意類型的通信網(wǎng)絡(luò)，包括但不限于直接PC到PC連接、局域網(wǎng)（LAN)、廣域網(wǎng)（WAN)、調(diào)制解調(diào)器到調(diào)制解調(diào)器連接、因特網(wǎng)、上述的組合，或現(xiàn)在已知或稍后開始的在組網(wǎng)領(lǐng)域內(nèi)允許兩個或多個計(jì)算機(jī)來彼此通信的任意其他通信網(wǎng)絡(luò)。
[0067] 在一個實(shí)施例中，服務(wù)器102配置成存儲輸入的話語和/或輸入的文本。另外，服務(wù)器可以經(jīng)由存儲區(qū)域網(wǎng)（SAN)、LAN、數(shù)據(jù)總線或類似等來訪問存儲在數(shù)據(jù)存儲器裝置 106中的數(shù)據(jù)。
[0068] 數(shù)據(jù)存儲器裝置106可以包括硬盤（包括在獨(dú)立磁盤冗余（RAID)陣列中布置的硬盤）、包括磁帶數(shù)據(jù)存儲器裝置的帶存儲器驅(qū)動器、光存儲器裝置或類似等。在一個實(shí)施例中，數(shù)據(jù)存儲器裝置106可以存儲英語或其他語言的句子。數(shù)據(jù)可以布置在數(shù)據(jù)庫中并且可以通過結(jié)構(gòu)化查詢語言（SQL)查詢、或其他數(shù)據(jù)庫查詢語言或操作來訪問。
[0069]圖2示出配置成存儲輸入的話語和/或輸入文本的數(shù)據(jù)管理系統(tǒng)200的一個實(shí)施例。在一個實(shí)施例中，數(shù)據(jù)管理系統(tǒng)200可以包括服務(wù)器102。服務(wù)器102可以耦合到數(shù) 據(jù)總線202。在一個實(shí)施例中，數(shù)據(jù)管理系統(tǒng)200也可以包括第一數(shù)據(jù)存儲器裝置204、第二數(shù)據(jù)存儲器裝置206和/或第三數(shù)據(jù)存儲器裝置208。在另外的實(shí)施例中，數(shù)據(jù)管理系統(tǒng)200可以包括另外的數(shù)據(jù)存儲器裝置（未示出）。在一個實(shí)施例中，例如學(xué)習(xí)者英語的 NUS語料庫（NUCLE)的學(xué)習(xí)文本的語料庫可以存儲在第一數(shù)據(jù)存儲器裝置204中。第二數(shù) 據(jù)存儲器裝置206可以存儲例如非學(xué)習(xí)文本的語料庫。非學(xué)習(xí)文本的例子可以包括平行語料庫、新聞或期刊文本以及其他公共可獲得的文本。在某些實(shí)施例中，從被認(rèn)為包含相對少的錯誤的源選擇非學(xué)習(xí)文本。第三數(shù)據(jù)存儲器裝置208可以包含計(jì)算的數(shù)據(jù)、輸入的文本和或輸入的話語數(shù)據(jù)。在另外的實(shí)施例中，所述的數(shù)據(jù)可以被一起存儲進(jìn)合并的數(shù)據(jù)存儲器裝置210。
[0070] 在一個實(shí)施例中，服務(wù)器102可以向選擇的數(shù)據(jù)存儲器裝置204、206提交查詢，以檢索輸入的句子。服務(wù)器102可以將合并的數(shù)據(jù)集存儲在合并的數(shù)據(jù)存儲器裝置210中。在此類的一個實(shí)施例中，服務(wù)器102可以返回查閱合并的數(shù)據(jù)存儲器裝置210以獲得與指定的句子關(guān)聯(lián)的一組數(shù)據(jù)元素。替代地，服務(wù)器101可以獨(dú)立地查詢數(shù)據(jù)存儲器裝置204、 206、208中的每個或在分布式的查詢中查詢，以便獲得與輸入的句子關(guān)聯(lián)的一組數(shù)據(jù)元素。在另一個替代實(shí)施例中，多個數(shù)據(jù)庫可以存儲在單個的合并的數(shù)據(jù)存儲器裝置210上。
[0071] 數(shù)據(jù)管理系統(tǒng)200也可以包括用于輸入和處理話語的文件。在各種實(shí)施例中，月艮務(wù)器102可以通過數(shù)據(jù)總線202與數(shù)據(jù)存儲器裝置204、206、208通信。數(shù)據(jù)總線202可以包括SAN、LAN或類似等。通信基礎(chǔ)結(jié)構(gòu)可以包括以太網(wǎng)、光纖通道仲裁環(huán)路（FC-AL)、小型計(jì)算機(jī)系統(tǒng)接口（SCSI)、串行高級技術(shù)附件（SATA)、高級技術(shù)附加裝置（ATA)和/或其他與數(shù)據(jù)存儲和通信關(guān)聯(lián)的類似數(shù)據(jù)通信策略。例如，服務(wù)器102可以間接與數(shù)據(jù)存儲器裝置204、206、208、210通信；服務(wù)器102首先與存儲器服務(wù)器或存儲器控制器104通信。
[0072] 服務(wù)器102可以主控配置用于分析話語和/或輸入文本的軟件應(yīng)用。軟件應(yīng)用可以進(jìn)一步包括用于與數(shù)據(jù)存儲器裝置204、206、208、210接口連接、與網(wǎng)絡(luò)108接口連接、通過用戶接口裝置110與用戶接口連接以及類似等的模塊。在另外的實(shí)施例中，服務(wù)器102 可以主控引擎、應(yīng)用插件、或應(yīng)用編程接口（API)。
[0073] 圖3示出根據(jù)服務(wù)器102和/或用戶接口裝置110的某些實(shí)施例適配的計(jì)算機(jī)系統(tǒng)300。中央處理單元（"CPU"）302耦合到系統(tǒng)總線304。CPU302可以是通用CPU或微處理器、圖像處理單元（"GPU"）、微控制器或可以被專門地編程以執(zhí)行如下面的流程圖中描述的方法的類似物。本實(shí)施例并不限于CPU302的架構(gòu)，只要CPU302直接或間接地支持如這里所述的模塊和操作。CPU302根據(jù)本實(shí)施例可以執(zhí)行各種邏輯指令。
[0074] 計(jì)算機(jī)系統(tǒng)300也可以包括隨機(jī)存取存儲器（RAM) 308、其可以是SRAM、DRAM、 SDRAM或類似等。計(jì)算機(jī)系統(tǒng)300可以使用RAM308來存儲由具有代碼的軟件應(yīng)用用于分析話語的各種數(shù)據(jù)結(jié)構(gòu)。計(jì)算機(jī)系統(tǒng)300也可以包括只讀存儲器（ROM) 306,其可以是PROM、 EPROM、EEPR0M、光存儲器或類似等。ROM可以存儲用于啟動計(jì)算機(jī)系統(tǒng)300的配置信息。 RAM308和ROM306保持用戶和系統(tǒng)數(shù)據(jù)。
[0075] 計(jì)算機(jī)系統(tǒng)300也可以包括輸入/輸出（1/0)適配器310、通信適配器314、用戶接口適配器316和顯示器適配器322。在某些實(shí)施例中，1/0適配器310和/或用戶接口適配器316可以使得用戶來與計(jì)算機(jī)系統(tǒng)300交互，從而輸入話語或文本。在另外的實(shí)施例中，顯示器適配器322可以顯示與用于生成具有插入的標(biāo)點(diǎn)符號、語法校正和其他相關(guān)文本和語音編輯功能的基于軟件和web的應(yīng)用或移動應(yīng)用關(guān)聯(lián)的圖形用戶接口。
[0076] 1/0適配器310可以連接一個或多個存儲器裝置312到計(jì)算機(jī)系統(tǒng)300,該存儲器裝置312例如為硬驅(qū)動器、計(jì)算機(jī)盤（CD)驅(qū)動器、軟盤驅(qū)動器和磁帶驅(qū)動器中的一個或多個。通信適配器314可以適于將計(jì)算機(jī)系統(tǒng)300耦合到網(wǎng)絡(luò)108,該網(wǎng)絡(luò)108可以是LAN、 WAN和/或因特網(wǎng)中的一個或多個。用戶接口適配器316將例如鍵盤320和指向裝置318 的用戶輸入裝置耦合到計(jì)算機(jī)系統(tǒng)300。顯示器適配器322可以由CPU302驅(qū)動以控制在顯示器裝置324上的顯示。
[0077]本公開的應(yīng)用并不限于計(jì)算機(jī)系統(tǒng)300的架構(gòu)。相反，將計(jì)算機(jī)系統(tǒng)300提供為可以適于執(zhí)行服務(wù)器102和/或用戶接口裝置110的一種類型的計(jì)算裝置的例子。例如，可以使用任意合適的基于處理器的裝置，包括但不限于個人數(shù)字助理（PDA)、臺式計(jì)算機(jī)、智能電話、計(jì)算機(jī)游戲控制臺以及多處理器服務(wù)器。此外，本公開的系統(tǒng)和方法可以實(shí)現(xiàn)在專用集成電路（ASIC)上，超大規(guī)模集成電路（VLSI)電路或其他電路。事實(shí)上，本領(lǐng)域技術(shù) 人員可以使用任意數(shù)目的合適結(jié)構(gòu)，該結(jié)構(gòu)能夠根據(jù)所述的實(shí)施例執(zhí)行邏輯操作。
[0078] 下面的示意流程圖和相關(guān)描述總體上作為邏輯流程圖來闡述。這樣，所繪出的順序和標(biāo)記的步驟指示所提供的方法的一個實(shí)施例。在功能、邏輯或效果上等同于所示出的方法的一個或多個步驟、或其一部分的其他步驟和方法是可以想到的。另外，提供所使用的格式和符號以解釋本方法的邏輯步驟并且被理解為不限制該方法的范圍。盡管在流程圖中可以使用各種箭頭類型和連線類型，它們被理解為不限制相應(yīng)方法的范圍。事實(shí)上，一些箭頭或其他連接符可以用于僅指示方法的邏輯流程。例如，箭頭可以指示在所繪出的方法的列表步驟之間的未指定持續(xù)期間的等待或監(jiān)視周期。另外，特定方法發(fā)生的順序可以或可以不嚴(yán)格遵守所示相應(yīng)步驟的順序。
[0079]標(biāo)點(diǎn)預(yù)測
[0080] 根據(jù)一個實(shí)施例，可以從標(biāo)準(zhǔn)文本處理角度來預(yù)測標(biāo)點(diǎn)符號，其中僅語音文本是可獲得的，而不依賴于另外的韻律特征例如基音和中斷持續(xù)時間。例如，可以在轉(zhuǎn)錄對話語音文本或話語上執(zhí)行標(biāo)點(diǎn)預(yù)測任務(wù)。不同于例如廣播新聞?wù)Z料庫的許多其他語料庫，對話語音語料庫可以包括對話，其中非正式的和短的句子頻繁地出現(xiàn)。此外，由于對話的屬性，相比較于其他的語料庫，其也可以包括更多的疑問句。
[0081] 一種放松由隱事件語言編碼的強(qiáng)相關(guān)性假設(shè)的自然方法是采用非定向圖形模型，其中可以利用任意重疊的特征。條件隨機(jī)域（CRF)已經(jīng)廣泛地應(yīng)用于各種序列標(biāo)記和分段任務(wù)中。在給定觀察項(xiàng)下，CRF可以是完整標(biāo)記序列的條件分布的判別模型。例如，采取第一級馬爾可夫?qū)傩缘牡谝患壘€性鏈CRF可以通過下面的等式來定義：
[0082]

【權(quán)利要求】
1. 一種用于校正語法錯誤的方法，該方法包括：接收自然語言文本輸入，所述文本輸入包括語法錯誤，其中輸入文本的一部分包括來自于一組類的類；從假設(shè)沒有語法錯誤的非學(xué)習(xí)文本的語料庫生成多個選擇任務(wù)，其中對于每個選擇任務(wù)，分類器重新預(yù)測在非學(xué)習(xí)文本中使用的類；從學(xué)習(xí)文本的語料庫生成多個校正任務(wù)，其中對于每個校正任務(wù)，分類器建議在學(xué)習(xí) 文本中使用的類；使用一組二進(jìn)制分類問題來訓(xùn)練語法校正模型，該一組二進(jìn)制分類問題包括多個選擇任務(wù)和多個校正任務(wù)；以及使用訓(xùn)練的語法校正模型來從一組可能的類預(yù)測文本輸入的類。
2. 根據(jù)權(quán)利要求1所述的方法，進(jìn)一步包括輸出建議，以便如果預(yù)測的類不同于文本輸入中的類，則將文本輸入的類改變成預(yù)測的類。
3. 根據(jù)權(quán)利要求1所述的方法，其中所述學(xué)習(xí)文本由老師以假定正確的類來加注釋。
4. 根據(jù)權(quán)利要求1所述的方法，其中所述類是與輸入文本中的名詞短語關(guān)聯(lián)的冠詞。
5. 根據(jù)權(quán)利要求4所述的方法，進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語來抽取用于分類器的特征函數(shù)。
6. 根據(jù)權(quán)利要求1所述的方法，其中所述類是與輸入文本中的介詞短語關(guān)聯(lián)的介詞。
7. 根據(jù)權(quán)利要求6所述的方法，進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語抽取用于分類器的特征函數(shù)。
8. 根據(jù)權(quán)利要求1所述的方法，其中所述非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間，學(xué)習(xí)文本的特征空間包括由作者使用的單詞。
9. 根據(jù)權(quán)利要求1所述的方法，其中訓(xùn)練語法校正模型包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。
10. 根據(jù)權(quán)利要求1所述的方法，訓(xùn)練語法校正模型進(jìn)一步包括通過分析非學(xué)習(xí)文本來識別多個線性分類器。
11. 根據(jù)權(quán)利要求10所述的方法，其中所述線性分類器進(jìn)一步包括權(quán)重因子，該權(quán)重因子包括在權(quán)重因子的矩陣中。
12. 根據(jù)權(quán)利要求11所述的方法，其中訓(xùn)練所述語法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值分解（SVD)。
13. 根據(jù)權(quán)利要求12所述的方法，其中訓(xùn)練語法校正模型也可以包括識別組合權(quán)重值，該組合權(quán)重值代表通過分析非學(xué)習(xí)文本所識別的第一權(quán)重值元素以及通過最小化經(jīng)驗(yàn) 風(fēng)險函數(shù)來分析學(xué)習(xí)文本而識別的第二權(quán)重值元素。
14. 一種設(shè)備，包括：至少一個處理器和耦合到該至少一個處理器的存儲器裝置，其中所述至少一個處理器配置成：接收自然語言文本輸入，所述文本輸入包括語法錯誤，其中輸入文本的一部分包括來自于一組類的類；從假設(shè)沒有語法錯誤的非學(xué)習(xí)文本的語料庫生成多個選擇任務(wù)，其中對于每個選擇任務(wù)，分類器重新預(yù)測在非學(xué)習(xí)文本中使用的類；從學(xué)習(xí)文本的語料庫生成多個校正任務(wù)，其中對于每個校正任務(wù)，分類器建議在學(xué)習(xí) 文本中使用的類；使用一組二進(jìn)制分類問題來訓(xùn)練語法校正模型，該一組二進(jìn)制分類問題包括多個選擇任務(wù)和多個校正任務(wù)；以及使用訓(xùn)練的語法校正模型來從一組可能的類預(yù)測文本輸入的類。
15. 根據(jù)權(quán)利要求14所述的設(shè)備，進(jìn)一步包括輸出建議，以便如果預(yù)測的類不同于文本輸入中的類，則將文本輸入的類改變成預(yù)測的類。
16. 根據(jù)權(quán)利要求14所述的設(shè)備，其中所述學(xué)習(xí)文本由老師以假定正確的類來加注釋。
17. 根據(jù)權(quán)利要求14所述的設(shè)備，其中所述類是與所述輸入文本中的名詞短語關(guān)聯(lián)的冠詞。
18. 根據(jù)權(quán)利要求17所述的設(shè)備，進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語來抽取用于分類器的特征函數(shù)。
19. 根據(jù)權(quán)利要求14所述的設(shè)備，其中所述類是與輸入文本中的介詞短語關(guān)聯(lián)的介〇
20. 根據(jù)權(quán)利要求19所述的設(shè)備，進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語抽取用于分類器的特征函數(shù)。
21. 根據(jù)權(quán)利要求14所述的設(shè)備，其中所述非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間，學(xué)習(xí)文本的特征空間包括由作者使用的單詞。
22. 根據(jù)權(quán)利要求14所述的設(shè)備，其中訓(xùn)練語法校正模型包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。
23. 根據(jù)權(quán)利要求14所述的設(shè)備，其中訓(xùn)練所述語法校正模型進(jìn)一步包括通過分析非學(xué)習(xí)文本來識別多個線性分類器。
24. 根據(jù)權(quán)利要求23所述的設(shè)備，其中所述線性分類器進(jìn)一步包括權(quán)重因子，該權(quán)重因子包括在權(quán)重因子的矩陣中。
25. 根據(jù)權(quán)利要求24所述的設(shè)備，其中訓(xùn)練所述語法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值分解（SVD)。
26. 根據(jù)權(quán)利要求25所述的設(shè)備，其中訓(xùn)練語法校正模型也可以包括識別組合權(quán)重值，該組合權(quán)重值代表通過分析非學(xué)習(xí)文本所識別的第一權(quán)重值元素以及通過最小化經(jīng)驗(yàn) 風(fēng)險函數(shù)來分析學(xué)習(xí)文本而識別的第二權(quán)重值元素。
【文檔編號】G06F17/24GK104484319SQ201410815655
【公開日】2015年4月1日申請日期:2011年9月23日優(yōu)先權(quán)日:2010年9月24日
【發(fā)明者】丹尼爾·赫曼·理查德·戴梅爾, 陸巍, 黃偉道申請人:新加坡國立大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：丹尼爾·赫曼·理查德·戴梅爾;陸巍;黃偉道;
技術(shù)所有人：新加坡國立大學(xué);
我是此專利的發(fā)明人

上一篇：觸控顯示基板、觸控顯示面板和觸控顯示裝置制造方法
上一篇：圖形標(biāo)志圖片檢測方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

控制系統(tǒng)的校正方法相關(guān)技術(shù)

系統(tǒng)時間校正工具相關(guān)技術(shù)

系統(tǒng)時間自動校正工具相關(guān)技術(shù)

系統(tǒng)時間校正相關(guān)技術(shù)

xp系統(tǒng)顯示器顏色校正相關(guān)技術(shù)

itcolor顏色校正系統(tǒng)相關(guān)技術(shù)

電腦系統(tǒng)時間校正相關(guān)技術(shù)

360系統(tǒng)時間校正工具相關(guān)技術(shù)

控制系統(tǒng)校正相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于自動化文本校正的方法和系統(tǒng)的制作方法