專利名稱:基于web的搭配錯誤證明的制作方法
基于web的搭配錯誤證明
些旦 冃眾
在各個單詞的意義進一步受使用上下文約束時,兩種不同語言之間的
翻譯通常涉及難點。在人們學(xué)習(xí)通常不是他們的母語的第二語言時,通常 有許多單詞選擇,它們看起來將翻譯正確但實際上不在特定分組或搭配中
使用,或不在說母語的人之間的典型使用中使用。這種搭配在抽象意義上 可能在句法或語法上是正確的,但超出正常使用范圍之外,并且在說母語 的人直覺上看來通常是奇怪的或拗口的。語言中的單詞組合通常遵循形成 單個詞條的固定模式,所以即使具有類似意義并以類似語法關(guān)系排序的單 詞組也可能不落入該語言的母語使用中的任何詞條,而不管該詞條是否被 說母語的人明確地預(yù)想為阻止該語言進行替換使用。
例如,學(xué)習(xí)英語作為第二語言的某人可能發(fā)現(xiàn)"strong"和"powerful" 是她母語中的單個單詞的兩個替換翻譯,并且"to make"和"to do"是一 不同單詞的兩個替換翻譯。在沒有英語使用的大量經(jīng)驗的情況下,學(xué)習(xí)者 可會b寫下"I had a cup of powerful tea"而非"I had a cup of strong tea",或 "I did apian"而非"I made apian"。類似的搭配錯誤對以任何語言為母 語的、正學(xué)習(xí)不是其母語的任何其它語言的人而言是典型的。這種錯誤的 單詞搭配通常只有在對該語言的長期的上下文經(jīng)驗和交互式實踐之后才能 避免,并通常不能使用字典或任何其它類型的快速且容易訪問的語言參考 來解決。
提供以上討論僅用作一般的背景信息,并不旨在幫助確定所要求保護 的主題的范圍。
概述
在包括方法、計算系統(tǒng)和編碼用于計算系統(tǒng)的可執(zhí)行指令的軟件的各 實施例中,搭配錯誤可以使用本地和諸如web等基于網(wǎng)絡(luò)的語料庫來自動 地證明。例如,根據(jù)一說明性實施例,來自文本樣本的一個或多個搭配可以與諸如web的內(nèi)容等語料庫進行比較。搭配被標(biāo)識為其在該語料庫中是
否是不被贊同的。經(jīng)由輸出設(shè)備來提供搭配在該語料庫中是否不被贊同的 指示。隨后可以采取諸如搜索并經(jīng)由用戶輸出提供可能適當(dāng)?shù)膯卧~搭配等 附加步驟。
提供本概述以便以簡化的形式介紹將在以下詳細(xì)描述中進一步描述的 一些概念。該概述不旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或必要特征, 也不旨在用于幫助確定所要求保護的主題的范圍。所要求保護的主題不限 于解決在背景中提及的任何或所有缺點的實現(xiàn)。
附圖簡述
圖1描繪啟用根據(jù)一說明性實施例的方法的計算系統(tǒng)的用戶界面。
圖2描繪根據(jù)一說明性實施例的方法的流程圖。
圖3描繪根據(jù)一說明性實施例的方法的流程圖。
圖4描繪啟用根據(jù)一說明性實施例的方法的計算系統(tǒng)的用戶界面。
圖5描繪可在其中實施一些實施例的計算環(huán)境的框圖。
圖6描繪可在其中實施一些實施例的另一計算環(huán)境的框圖。
詳細(xì)描述
圖1描繪啟用根據(jù)一說明性實施例的搭配錯誤證明的方法的計算系統(tǒng) 的搭配錯誤證明界面10。搭配錯誤證明界面IO可以是包括計算系統(tǒng)和被配 置成可由計算系統(tǒng)執(zhí)行的可執(zhí)行指令以及啟用各方法實施例的上下文在內(nèi) 的各實施例的圖示。以下討論提供各說明性實施例的進一步細(xì)節(jié)。盡管這 一附圖和后續(xù)附圖中包括特定說明性安排和標(biāo)記以及通過計算機實現(xiàn)的方 法所比較的各文本樣本,但它們旨在是作為此處的討論和權(quán)利要求書中所 提供的多樣性和更廣泛意義的圖示和指示。
搭配錯誤證明界面IO組成與軟件應(yīng)用程序相關(guān)聯(lián)的圖形顯示面板,其 是在圖1的說明性實施例中在諸如計算機監(jiān)視器等輸出設(shè)備上的圖形用戶 界面中同時打開的多個圖形顯示面板中的一個。根據(jù)針對證明將英語作為 第二語言(ESL)的學(xué)習(xí)者所輸入的文本樣本的一個說明性實施例,搭配錯誤證明界面10在標(biāo)題欄12中被標(biāo)記為"ESL證明"。ESL提供用于搭配 錯誤證明的一個說明性實施例的理想應(yīng)用程序,因為錯誤的搭配已經(jīng)被發(fā) 現(xiàn)組成將英語作為第二語言的中間學(xué)生所犯的錯誤中的很大一部分。
該ESL證明應(yīng)用程序的說明性實施例在以下討論中重復(fù)引用,雖然考 慮到其只是作為說明性示例,指示可以應(yīng)用于各種各樣其它實施例的更廣 泛的原理。例如,以下描述其它實施例,其可以在沒有圖1所示的搭配錯 誤證明界面10的情況下操作,而還有一些實施例則可以針對將任何其它語 言作為第二語言的學(xué)習(xí)者,且其它實施例更針對例如學(xué)習(xí)掌握其自己的母 語的孩子。
搭配錯誤證明界面10在其頂部包括對應(yīng)于兩個不同的任務(wù)模式的兩 個選項卡標(biāo)記為"裝入ESL句子"的選項卡11 (同樣,針對特定針對 ESL的實施例)和標(biāo)記為"運行査詢"的選項卡13。圖1在顯示器上描繪 選擇了 "裝入ESL句子"選項卡11的用戶界面10以及其相關(guān)聯(lián)的按鈕、 文字說明、文本框、和其它用戶界面元素(或"窗口小部件")。圖4在 顯示器上描繪選擇了 "運行査詢"選項卡13的搭配錯誤證明界面10以及 與該任務(wù)相關(guān)聯(lián)的用戶界面元素,其討論在更下面出現(xiàn)。
"裝入ESL句子"選項卡11下的用戶界面面板包括各種交互式輸入 和輸出用戶界面元素,它們進而如下描述。它們通常在具有標(biāo)題文字說明 "分析句子"的上部分和具有標(biāo)題文字說明"分析搭配"的下部分之間劃 分。
沿著"分析句子"部分的頂部出現(xiàn)一行界面元素"從已進行語法分 析的文件中裝入"按鈕15、"從原始文件中裝入"按鈕17、在該描繪中當(dāng) 前讀為"動詞-名詞搭配"(以下討論)的組合框19前面的讀為"搭配類 型"的文字說明、以及"提取搭配"按鈕21。這些窗口小部件下面是具有 左右和上下滾動條22、 24和讀為"原始句子"的標(biāo)題欄20的文本框23。 下面是具有文字說明"已進行語法分析的句子"的文本框25。 一般而言, 這些界面元素啟用用于從文本樣本中裝入句子并將其準(zhǔn)備與可在網(wǎng)絡(luò)上獲 得的內(nèi)容中的搭配進行比較以用于錯誤證明的用戶功能。
文本框23包括來自諸如ESL學(xué)習(xí)者所寫的文檔等文本樣本的多個樣本句子。如文本框23上的上下滾動條24的槽中的滾動塊26的經(jīng)壓縮的大 小所示,當(dāng)前顯示的句子是當(dāng)前裝入到該文本框中的句子的總列表的一小 部分,用戶可以通過移動滾動塊26來訪問該列表。文本框23中所顯示的 句子表示將英語作為第二語言的中間學(xué)生可能犯的典型錯誤"I did a plan" 、 "I have recognized this person for years"禾口 "I had a cup of powerful tea"。
在用戶通過選擇"從已進行語法分析的文件中裝入"按鈕15或"從原 始文件中裝入"按鈕17啟動該過程之后,這些句子可以從在另一應(yīng)用程序 中打開的文檔中手動地裝入,或它們可作為具有ESL類型的錯誤來自動地 選擇并從另一文檔或多個文檔中導(dǎo)入。在另一實施例中,諸如文字處理應(yīng) 用程序等不同的應(yīng)用程序可以具有默認(rèn)為活動的ESL證明觸發(fā)器,在文字 處理應(yīng)用程序中正在輸入的文本中檢測到ESL類型的錯誤時,其可以自動 地引出推薦使用搭配錯誤證明界面10的面板。
如按鈕15和17所示,文本樣本在被應(yīng)用程序著手處理時可能已進行 了語法分析或未進行語法分析。如果文本樣本尚未進行語法分析,則其可 以例如在裝入之后采取附加步驟之前進行語法分析。已進行語法分析的句 子在文本框25中描繪。具體地,這是文本框23中描繪的第二個句子的己 進行語法分析的版本,其周圍具有局部加亮以指示其被用戶選中,如通過 用鼠標(biāo)左鍵點擊或用光筆敲擊或通過其它用戶輸入機制來選中。
在自然語言處理和自然語言理解中,語法分析已成為活躍的開發(fā)區(qū)域。 語法分析可以包括諸如詞性標(biāo)注、分塊和語義標(biāo)記等任務(wù)。在圖1所示的 實施例中,文本框25中的句子已被標(biāo)注詞性并分塊。其它實施例可以包括 語法分析任務(wù)的其它組合,包括通常更針對一些非西方語言的一些任務(wù), 如詞分割。
在文本框25中的已進行語法分析的句子中,原始句子中的每一單詞其 后直接跟隨一個斜線號(即"正斜杠"),其將該單詞與分配給該單詞的 兩字母或三字母的詞性標(biāo)注分開。詞性標(biāo)注的一些說明性部分在以下列出。 句子末尾的句點也伴隨著其自己的將其與另一句點分開的斜線號,用作與 詞性標(biāo)注等效的標(biāo)注以指示標(biāo)點符號的功能。該句子的以一個或兩個(在其它示例中或更多)為一組的單詞由括號來包圍以對應(yīng)于塊邊界,每一括 起來的組的內(nèi)部的開頭處有一個兩字母的塊類型標(biāo)記。該句子中所表示的 詞性標(biāo)注包括人稱代詞"PRP";除第三人稱單數(shù)之外的現(xiàn)在時動詞"VBP";
動詞過去分詞"VBN";限定詞"DT";單數(shù)或可代替普通名詞"NN"; 介詞或從屬連詞"IN";以及復(fù)數(shù)普通名詞"NNS"。根據(jù)一示例性實施 例的詞性標(biāo)注的說明性列表在以下提供,而具有不同的定義和更多或更少 種類的詞性標(biāo)注的其它方案可以在其它實施例中使用。對于當(dāng)前示例性實 施例, 一些標(biāo)注以英語用示例示出。
表l:詞性標(biāo)注的說明性列表
1. CC-并列連詞(例如,"and"、 "but" 、 "nor"、 "or" 、 "yet"、 "plus" 、 "minus" 、 "times" 、 "over (除)")
2. CD -基數(shù)
3. DT-限定詞(包括冠詞和不定限定詞,例如"a"、 "an"、 "every"、 "no (作為冠詞)"、"the";以及例如"another" 、 "any" 、 "some"、 "each" 、 "either" 、 "neither" 、 "that" 、 "these" 、 "this" 、 "those"、 "all"的某些用法、"they")
4. EX -存在性"there"
5. FW-外來詞
6. IN-介詞或從屬連詞
7. JJ-形容詞
8. JJR-形容詞比較級
9. JJS-形容詞最高級
10. LS-列表項標(biāo)記
11. MD-情態(tài)動詞(例如,"can" 、 "could" 、 "may" 、 "might"、 "must" 、 "shall" 、 "should" 、 "will" 、 "would")
12. NN-名稱、普通、單數(shù)或可代替
13. NNS-名稱,普通,復(fù)數(shù)
14. NNP-專有名詞,單數(shù)
15. NNPS-專有名詞,復(fù)數(shù)16. PDT-前置限定詞
17. PDS-所有格字尾
18. PRP-人稱代詞
19. PRP$-所有格代詞(例如"4" "'")
20. RB-副詞
21. RBR-副詞比較級
22. RBS-副詞最高級
23. RP-虛詞
24. SYM-符號
25. TO- "To"
26. UH-驚嘆詞
27. VB-動詞,基礎(chǔ)形式
28. VBD-動詞,過去式
29. VBG-動詞,動名詞或現(xiàn)在分詞
30. VBD -動詞,過去分詞
31. VBP-動詞,現(xiàn)在時,第三人稱單數(shù)除外
32. VBZ-動詞,現(xiàn)在時,第三人稱單數(shù)
33. WDT —wh限定詞
34. WP - wh代詞
35. WP$ - wh代詞所有格("whose")
36. WRB —wh副詞
文本框25中的已進行語法分析的句子所表示的已進行語法分析的文 本樣本也被分塊,在該描繪中,其中括號對圍繞每一定義的塊,并且在每 一括起的組的內(nèi)容的開頭用標(biāo)記來指示塊類型。分塊是可以基于表面和局 部信息來執(zhí)行的相對易處理的語法分析任務(wù)。分塊涉及將句子劃分成不重 疊的片段,以使每一塊都包含一個主中心詞以及與其相關(guān)聯(lián)的各個單詞。 在該說明性實施例中,分塊因此可被認(rèn)為是將句子劃分成各個短語,但具 體地劃分成可以定義的最小短語單元,以防止短語重疊。分塊使文本的句 法結(jié)構(gòu)和短語之間的關(guān)系或依賴性能夠變得可標(biāo)識。例如, 一個名詞短語可以是動詞短語的主語,而第二名詞短語可以是該動詞短語的賓語。
圖1中的說明性塊提供了這樣的良好示例。第一塊被標(biāo)記為名詞短語 NP,并且基于單獨的主中心詞"I"(該句子的主語)。第二塊被標(biāo)記為動
詞短語VP,且包括"have"和"recognized";這兩個動詞合作來形成動 詞"to recognize"的過去分詞形式的集成概念。第三塊是另一NP或名詞短 語,包括中心詞"person"以及相關(guān)聯(lián)的輔助詞,以形成單個概念"this person" 作為句子的賓語。第四塊標(biāo)記為介詞短語PP,而第五塊標(biāo)記為另一名詞短 語NP,其每一個都包含單個單詞。句點(雖然被標(biāo)記為句點)被從塊中省略。
與搭配錯誤證明界面10相關(guān)聯(lián)的或其使用的語法分析系統(tǒng)可被訓(xùn)練 來以諸如自然語言處理領(lǐng)域的技術(shù)人員熟悉的方式自動地執(zhí)行詞性標(biāo)注并 精確可靠地分塊。
"裝入ESL句子"選項卡11下的用戶界面面板的具有標(biāo)題文字說明 "分析搭配"的下部分包括一組文本框27、 29、 31和33,每一個都用標(biāo)題 欄和至少一個滾動條來描繪。文本框27的標(biāo)題欄讀為"ESL搭配",且該 文本框被示為包括來自文本框25中的句子的兩個搭配的塊動詞短語"have recognized"和名詞短語"this person"(該句子的賓語)。如其所現(xiàn),使 用詞性標(biāo)注和分塊標(biāo)記以及括號,搭配的短語讀為"[VP have/VBP recognized/VBN] [NP this/DT person/NN]"。該搭配在文本框27中提供, 因為搭配類型組合框19被設(shè)置為"動詞-名詞搭配",其是指示具有彼此 鄰近定位的動詞短語和后續(xù)名詞短語的搭配的選項。對應(yīng)于該設(shè)置的搭配 從文本框25中的句子中提取出來。
文本框29包含搭配候選,如其標(biāo)題欄中所示。搭配候選具有與文本框 27中的搭配相同的名詞短語"this person",但在該名詞短語之前附隨各種 不同的過去分詞動詞。這些候選動詞是以過去分詞形式并在動詞短語中在 "have"之后作為動詞中心詞替換"recognized"的候選。它們包括"known"、 "admitted" 、 "thought"等。它們也不包括原始搭配,因為原始搭配與語 料庫的內(nèi)容的比較揭示其或是稀少的或不在語料庫的內(nèi)容中并且因此是不
被贊同的并可能是錯誤的。搭配錯誤證明界面10或與其相關(guān)聯(lián)的或與其一起使用的應(yīng)用程序因 此可以指示,原始搭配在語料庫的內(nèi)容中是不被贊同的并且因此可能是錯 誤的。該指示可以在例如如圖1所示的說明性實施例中的文本框33中提供
給用戶來査看。文本框33指示搭配狀態(tài),如其標(biāo)題欄所示。其指示該搭配
在語料庫的內(nèi)容中是不被贊同的,或可能是錯誤的,并在被發(fā)現(xiàn)是不被贊
同的搭配中的動詞中心詞下畫出波浪線32,該中心詞是用于替換的候選。 用戶可以如通過雙擊所需替換搭配來選擇文本框29中的搭配候選中的一 個,例如來替換被指示為不被贊同的搭配。該指示還可以例如在分開的文 字處理程序、網(wǎng)絡(luò)導(dǎo)航程序或其它應(yīng)用程序中提供,如通過向不適當(dāng)?shù)拇?配添加標(biāo)記。這種標(biāo)記可以是將不被贊同的或錯誤的搭配加亮或加下劃線, 如用明亮地著色的、波浪線等來吸引用戶的注意。
文本框29中的搭配候選是作為將文本框27中的搭配與大語料庫中可 獲得的內(nèi)容進行比較的結(jié)果來提供的。在該說明性實施例中,這可以包括 本地語料庫和/或包括主存在分布式資源上的并可經(jīng)由諸如萬維網(wǎng)等網(wǎng)絡(luò)訪 問的內(nèi)容的基于網(wǎng)絡(luò)的語料庫。在其它實施例中,語料庫可以包括諸如內(nèi) 聯(lián)網(wǎng)、廣域網(wǎng)、局域網(wǎng)或某一其它類型的網(wǎng)絡(luò)等其它可用網(wǎng)絡(luò)的內(nèi)容。使 用web作為語料庫而從web搜索中導(dǎo)出的內(nèi)容可以與對諸如Wall Street Journal (華爾街期刊)語料庫等常規(guī)語料庫的搜索一起使用。相對于搭配 在web內(nèi)容中的出現(xiàn),可以向該搭配在常規(guī)語料庫中的出現(xiàn)給予特定權(quán)重, 因為與可能包括更多樣化的源且包含物相對語料庫而言是更隨意地書寫的 web內(nèi)容相比,應(yīng)當(dāng)相對確信語料庫是一貫正確使用的。然而,web內(nèi)容 也以其相對語言使用的任何可獲得的常規(guī)語料庫而言的巨大數(shù)量而提供實 質(zhì)優(yōu)點。對應(yīng)于文本樣本中任何給定搭配的適當(dāng)?shù)拇钆淇赡茉诔R?guī)語料庫 中沒有出現(xiàn)。另一方面,已經(jīng)發(fā)現(xiàn)至少在英語中可以出現(xiàn)在適當(dāng)使用中的 幾乎任何單詞搭配都可以在web上找到,或至少可以找到可以通過基于該
搭配的不同査詢項的靈活搜索來揭示的結(jié)構(gòu)上等效的搭配,如以下所述。 已經(jīng)發(fā)現(xiàn),至少對于來自例如將英語作為第二語言的學(xué)習(xí)者的典型文本樣 本中找到的大多數(shù)錯誤的搭配,可以在web上找到適當(dāng)?shù)奶鎿Q搭配。如果 特定句子或搭配未出現(xiàn)在web搜索中,則這對該句子或搭配是錯誤的給出了更高的可信度。可以評估搜索結(jié)果來查看類似的替換是否以遠(yuǎn)大于主題
搭配的頻率出現(xiàn),以便搭配在web上的縱使是錯誤的可能出現(xiàn)也將被如此 揭不。
在撰寫本文之時,web上可獲得的大多數(shù)文本內(nèi)容是用英語寫的。許 多當(dāng)前的人類語言在web上只可獲得少量內(nèi)容,并且甚至某些普遍講的語 言在web內(nèi)容之中具有相對不多的表示。例如,印地語是當(dāng)前世界上講得 第三廣泛的語言,但至少在一個研究中發(fā)現(xiàn)由比冰島語還少的web內(nèi)容所 表示,而講冰島語的人少于講印地語的人的千分之一。搭配錯誤證明的效 力部分地取決于可用作要被證明的文本樣本中的搭配的比較的基礎(chǔ)的語料 庫的樣本大小。因此,可以對不同語言的基于web的搭配錯誤證明使用專 用方法,對于證明英語的文本樣本這些方法可能是不需要的。
這可以包括例如,對與文本樣本的語言相匹配的目標(biāo)語言的內(nèi)容的特 別定標(biāo)或篩選,或?qū)τ米鞅容^的基礎(chǔ)的語料庫使用除web或通過網(wǎng)絡(luò)訪問 的其它內(nèi)容之外的專用網(wǎng)絡(luò)、語料庫或數(shù)字化庫。這些方法還可以包括例 如使用被啟用來索引和搜索未用Unicode (統(tǒng)一編碼)進行編碼的內(nèi)容的搜 索實用程序,或使用專用字符編碼方案或轉(zhuǎn)換格式以能夠讀取、索引、和 搜索非標(biāo)準(zhǔn)編碼格式的內(nèi)容。存在使用并非羅馬字母表的寫作系統(tǒng)的語言 編寫的大量內(nèi)容,甚至對于某些語言是web上的絕大部分內(nèi)容,以非標(biāo)準(zhǔn) 編碼格式存在的指示,以使被啟用來索引和搜索這些非標(biāo)準(zhǔn)編碼格式的搜 索可以產(chǎn)生比其它方式更多的內(nèi)容。根據(jù)各實施例,諸如這些方法等各種 方法可有助于應(yīng)用于最大可能范圍的語言的基于web的搭配證明系統(tǒng)的能 力。
用于約束或偏向被搜索的web內(nèi)容的附加策略還可以包括將偏好應(yīng)用 于URL的類別或分類。 一些URL可被專門分類來用于優(yōu)先搜索,和/或用 于向在它們的內(nèi)容中找到的搭配應(yīng)用較高權(quán)重,如果知道它們的內(nèi)容包括 可靠的適當(dāng)語言使用的大庫或語料庫的話。這還可以包括基于頂級域 (TLD)來優(yōu)先偏向搜索或搜索結(jié)果加權(quán);例如,可以向具有TLD "edu" 或"gov"而非"com"或"org"的URL應(yīng)用附加搜索順序或結(jié)果加權(quán)。 對于關(guān)于并非英語的語言的搭配證明中所涉及的搜索,篩選對目標(biāo)語言的web內(nèi)容的搜索還可以包括,在分配給該目標(biāo)語言是官方語言或被大量使 用的國家的國家代碼TLD的基礎(chǔ)上,偏向或限制搜索或應(yīng)用于其結(jié)果的權(quán)
重。例如,針對證明法語文本樣本的搭配證明應(yīng)用程序可被偏向或限制到
對在具有TLD"fr"、 "be" 、 "ch"或"ca"(分別是法國、比利時、瑞 士和加拿大的國家代碼)或?qū)儆谄渌俜交蚧旧现v法語國家的其它國家 代碼TLD的網(wǎng)站上找到的web內(nèi)容的搜索。
文本框31示出在語料庫的內(nèi)容中找到的、形成在搭配中的"this person" 之前的動詞短語的中心詞的所有可用動詞的較大列表的一部分。如文本框 31的右側(cè)的上下滾動條中的、作為該滾動條的大小的一部分的滾動塊所示, 該列表遠(yuǎn)大于當(dāng)前在圖1的描繪中的文本框31中可視的這一小部分可用動 詞。文本框31中列出的大多數(shù)可用搭配不是如文本框29中的列表一樣作 為搭配候選來選擇的,因為它們在模糊匹配評分方案中得分不高,該方案 是基于關(guān)于與原始搭配相匹配并用以糾正的形式提供原始意義的搭配將其 替換的可能的適當(dāng)性的一組準(zhǔn)則的。
比較文本框27中的搭配、標(biāo)識其在語料庫的內(nèi)容中是否是不被贊同 的、以及提供它的建議替換的各說明性方法參考其余附圖詳細(xì)描述。
圖2描繪根據(jù)一說明性實施例的搭配證明方法50的流程圖,該方法的 某些方面與圖1所描繪的搭配錯誤證明界面10的方面相類似。方法50的 中心步驟以實線輪廓在圖2的流程圖中描繪。這些包括將來自文本樣本的 一個或多個搭配與語料庫進行比較的步驟51,如通過提交包含該搭配的內(nèi) 容作為web搜索的査詢項;標(biāo)識搭配在語料庫中是否不被贊同的步驟53; 以及經(jīng)由輸出設(shè)備提供搭配是否不被贊同的指示的步驟55。如遞歸流程圖 箭頭所示,步驟51和步驟53可以接連重復(fù)地執(zhí)行,以對來自文本樣本的 搭配與語料庫執(zhí)行不同種類的比較,并如不同種類的比較所示來標(biāo)識搭配 在語料庫中是否不被贊同。
步驟51、 53、 55還可以涉及附加步驟,或其之前或之后也可以有附加 步驟,如此處以虛線輪廓所描繪的那些步驟。這些步驟包括例如接收文本 中的單詞搭配的指示或標(biāo)識文本中的單詞搭配,如通過接收用戶輸入或選
擇或文本樣本的其它形式的指示,如步驟61所示。其還可以涉及文字處理應(yīng)用程序或涉及人類文本輸入的某一其它軟件應(yīng)用程序中的默認(rèn)特征,其 中該輸入被監(jiān)控并篩選出錯誤搭配或非母語使用的其它指示,并且如果找 到這種指示則觸發(fā)附加步驟,如步驟63所示。文本樣本還可以進行語法分 析,如步驟65以及相關(guān)圖1的說明性討論所示,雖然例如該方法的其它實 施例可被應(yīng)用于已進行了語法分析的文本樣本。
特定類型的搭配可被特別定標(biāo)來與語料庫進行比較,如步驟67所示。
該步驟包括選擇諸如動詞-名詞搭配、介詞-名詞搭配、形容詞-名詞搭配、 或動詞-副詞搭配等來與語料庫進行比較,并執(zhí)行附加搭配錯誤證明步驟。 這各個類別的搭配的任何一個可以在一些實施例中獨占地使用,而這些搭 配類型的任何或全部和/或附加搭配類型可以在其它實施例中使用。已經(jīng)發(fā)
現(xiàn),使用步驟67中列出的4種搭配類型覆蓋了典型的非母語用戶所犯的所 有搭配錯誤的很大部分。選擇這些特定搭配類型涉及首先在文本樣本中標(biāo) 識詞性,如通過預(yù)備語法分析步驟,如步驟65所示或相關(guān)圖l所討論的。 標(biāo)識搭配在語料庫中是否不被贊同的步驟53可以對基于不同格式的 搭配的各種單獨的査詢項重復(fù)執(zhí)行,并可以基于所使用的所有查詢項來采
取正在與語料庫進行比較的搭配在該語料庫的內(nèi)容中是否不被贊同的最終 判定的形式。
在圖3的流程圖中的類似步驟351和353中進一步描繪一個說明性實 施例。在該實施例中,如圖2的步驟51中的將來自文本樣本的搭配與語料 庫進行比較可以包括模糊匹配策略,該策略包括在語料庫中搜索包括含有 該搭配的完整句子、簡化句子、塊對、或單詞對的査詢項,分別如圖3的 步驟361、 363、 365和367所示。簡化句子是通過從包括該搭配的句子中 移除輔助詞來形成的,其中在一說明性實施例中,輔助詞是從該句子中選 擇的、預(yù)定義為保留該句子中的搭配所不需要的單詞。例如,基于錯誤搭 配句子"I have recognized this person for years"的簡化句子查詢模板可以是 "have recognized this person"。塊對和單詞對査詢項可以是針對直接彼此 接近或者在同一句子中在預(yù)選擇的接近度范圍之內(nèi)的包含該搭配的各特定 單詞或塊的查詢項,接近度范圍諸如隔開它們的其它單詞不超過一個或兩 個。模糊匹配搜索中的簡化句子搜索、塊對搜索和單詞對搜索還可以檢測具有不同但等效詞序的結(jié)果,或?qū)⒄嘉环糜谔囟üδ軉卧~和其它類型的
單詞,以便例如對于模糊匹配而言"recognize this person"和"recognize that person"可被認(rèn)為是等效的。
如果包括搭配的査詢項評分不在預(yù)選擇的指示査詢項在語料庫中的模 糊匹配的顯著存在的閾值匹配分?jǐn)?shù)之上,則該搭配可被評估成不被贊同的。 圖2的步驟53中的標(biāo)識搭配在語料庫中是否不被贊同可以包括對查詢項執(zhí) 行不同類型的搜索,包括搜索句子的或簡化句子的匹配,分別如步驟371 和373所示,或評估對塊對或單詞對所找到的匹配的閾值分?jǐn)?shù),分別如圖3 的步驟375和377所示。由于句子和簡化句子更詳細(xì),所以對于這些句子 的一個的單個匹配或少量匹配可被認(rèn)為足以指示搭配不是不被贊同的或錯
誤的。塊對或單詞對的匹配由于受約束較少且更一般,并由于語言的非專 家用戶所寫的web內(nèi)容的相對稀少殘留,所以可能對其在至少一些即使錯 誤的搜索結(jié)果中被找到有較高的預(yù)期。因此根據(jù)該實施例,可以對塊對和 單詞對匹配設(shè)置較高閾值,該閾值足以指示所指示的塊對或單詞對相對流 行,指示對應(yīng)于正常使用的單詞搭配,而非只是語料庫中的可能預(yù)期不被 贊同的單詞搭配的相對少量的表示。
匹配分?jǐn)?shù)可以包括例如向塊對或單詞對的匹配的每一出現(xiàn)分配特定累 積分?jǐn)?shù)的基本計數(shù),以及如果找到達(dá)到最小總分的足夠匹配則只指示搭配 是適當(dāng)?shù)亩遣槐毁澩?。還可以組合具有不同查詢的結(jié)果的分?jǐn)?shù),對更 具體的查詢項給出更多權(quán)重,如對塊對匹配的每次計數(shù)給出單詞匹配的每 次計數(shù)的10倍權(quán)重,如一個說明性示例所示。簡化句子或全句也可以包括 在匹配評分評估中,而非足以獨自確定搭配狀態(tài)。例如,對于包含來自文 本樣本的搭配對的簡化句子所找到的每一匹配例如可被分配是每一塊對的 匹配的的權(quán)重的20倍權(quán)重和每一匹配單詞對的權(quán)重的200的分?jǐn)?shù)。不管使 用什么方法來評估匹配或匹配分?jǐn)?shù),該過程都可以在提供搭配是不被贊同 的(如步驟381所示)或它們不是不被贊同(如步驟383所示)的指示的 步驟355中結(jié)束。
不同的査詢模板的加權(quán)和用來將一般使用搭配和不被贊同的搭配進行 區(qū)分的閾值匹配分?jǐn)?shù),可被搭配證明軟件開發(fā)者或最終用戶作為用戶選項
17來校準(zhǔn)或調(diào)節(jié)得更加敏感或更不敏感。用戶可能想要將閾值按比例縮放得 更低以獲得更快的過程,雖然一些可疑的或模棱兩可的不被贊同的搭配更 可能溜掉;或用戶可以選擇更徹底并將閾值設(shè)置得更高,并可能花費更多 時間審核所標(biāo)記的、結(jié)果仍然是對任何可能替換的相對可比較的使用的搭 配,但對從文本樣本中排除任何錯誤的搭配具有更大確信度。
因為圖3中的査詢項的順序是從更具體到更一般和更不受約束的,從 而收集來自每一連續(xù)步驟的搜索結(jié)果可能花費比前一步驟更長的時間。盡
管返回搜索結(jié)果的所有步驟可能只要求幾分之一秒,但仍然可以通過一找
到匹配的足夠指示就結(jié)束步驟351和353的處理而不審核其余的愈加耗時 的步驟,來使該系統(tǒng)的性能更高效并且降低總時間。如果對于給定的句子 或簡化句子找到許多匹配,則例如可以避免花費執(zhí)行塊對或單詞對搜索所 需要的、相對較多的幾分之一秒。使用不同的査詢項搜索同一搭配因此可 以順序地進行,直到任一個査詢項提供滿足用于匹配該搭配的預(yù)選擇的閾 值的搜索結(jié)果或包括該搭配的所有查詢項都己被使用而都不滿足該預(yù)選擇 的閾值為止。
返回圖2所描繪的進一步步驟,根據(jù)一說明性實施例,在提供了對特 定搭配是否不被贊同的指示之后,搭配錯誤證明應(yīng)用程序可以進一步搜索 并提供候選替換單詞來校正錯誤的搭配,如步驟71、 73、 75、 77所示。這 可以包括用通配符替換一個或多個不被贊同的搭配中的一個或多個單詞來 組成查詢項,如步驟71所示。通配符可以用作在被指示為可能錯誤的可疑 單詞的位置上插入到査詢項中的開放的占位符,其中該占位符可以對應(yīng)于 被搜索的語料庫中的、插入到該可疑單詞的位置的、査詢項的其余部分內(nèi) 的任何單詞。通配符可以通過用代替所懷疑的錯誤單詞的諸如星號等符號 替換一個單詞來用在搜索中。
可以在單詞搭配參考中搜索諸如具有通配符元素等提供可能的搭配候 選的查詢項,如步驟73所示。單詞搭配參考同樣可以是web或另一基于網(wǎng) 絡(luò)的或本地語料庫,并且還可以包括專用單詞搭配字典參考,如通過篩選 web搜索結(jié)果來移除單詞搭配字典中不包括的搭配。
對搭配參考的搜索隨后可以返回具有使用任何單詞或短語代替表示通配符占位符的符號的文本片段的結(jié)果。例如,再次參考圖1中的搭配候選
的文本框29,此處列出的若干搭配候選可能都是從短語"this person"前面 具有通配符的通配符搜索中返回的。搜索項然后可以是例如"* this person", 其中星號"*"形成通配符,并且搜索結(jié)果包括"known this person"、 "admitted this person" 、 "thought this person"等。搜索工具用來指示通 配符單詞的符號的選擇是任意的,并可以是&號、問號或任何其它符號。
通配符可以用于基于同一搭配的一系列查詢項的每一個中,從而基于 該搭配從較受約束到較不受約束的查詢模板來順序地審査該系列,類似于 最初評估主題搭配的適當(dāng)或不被贊同所做的事情。例如,對于錯誤的搭配 的句子"I have recognized this person for years", 一系列通配符查詢項可以 包括用通配符替換搭配中的動詞的一個完整句子,即"I have * this person for years";基于簡化句子格式的一個或多個査詢項,即"I have * this person" 、 "have * this person for years,, 、 "I have * this person"; 基于包 含該搭配的塊對的一個或多個查詢項,即"* this person for years" 、 "* this person";以及作為單詞對的一個或多個搭配,或者作為直接彼此相鄰或在 諸如由不超過一個直接單詞隔開的接近度內(nèi)來搜索,例如"*-person", 其中在一說明性實施例中代字號"~"是任意選擇的并被搜索工具解釋為接 近度占位符,該占位符可以表示在其位置上的將通配符和指定單詞隔開的0 個或1個或可能更多個單詞。在查詢項中使用通配符因此提供在各種級別 上將來自文本樣本的搭配與可在web或其它基于網(wǎng)絡(luò)的或本地語料庫上獲 得的內(nèi)容中的可能類似的搭配進行比較的一種高效方式的一個說明性示 例。
也可以使用被限制在優(yōu)先候選的有限集的專用通配符;或?qū)φ掌鋪砗Y 選結(jié)果的搭配參考可以包括優(yōu)選搭配候選的指示。例如,某些搭配候選可 以基于從文本樣本的作者的母語的反向翻譯過程而是優(yōu)選的。用戶可以具 有輸入她的母語語言的選項,或搭配證明軟件可以使用用于評估書寫的樣 本中的例如可以指示作者的可能的母語的線索的工具,軟件可以提示用戶 對該線索進行確認(rèn)。可以考慮其它線索,如安裝在該計算機上的其它軟件 中所使用的語言選項,或計算機的物理位置的指示。例如,如果軟件檢測到它在其上運行的計算機還在以中文版本來運行其操作系統(tǒng),或該軟件檢 測到該計算機通過一參考指示其物理上位于北京的服務(wù)器連接到因特網(wǎng), 而文本樣本是用英語寫的,則其可以向?qū)δ刚Z是中文的人而言是典型的搭
配候選分配優(yōu)先或優(yōu)先級處理。
如果作者的母語是已知的,則搭配證明軟件可以考慮錯誤的搭配是否 是基于作者的母語到書寫樣本的非母語的不適當(dāng)?shù)挠成洹_@可以包括例如 將母語語法規(guī)則應(yīng)用于非母語中的映射錯誤,錯誤使用假同源詞或假朋友
(false friend),在母語不區(qū)分復(fù)數(shù)形式時省略復(fù)數(shù)形式等。
例如,包括"I have recognized this person for years"的文本樣本的作者 可被指示為母語是中文的人。搭配證明軟件可以通過將該輸入翻譯成中 文并檢査反向到英語的候選譯文來對該指示作出響應(yīng)。"to recognize" 可被翻譯成國語中文單詞"rdnshi"(用漢語拼音來呈現(xiàn)),其是可被 翻譯成英語"to recognize"或"to know"的單詞。反向翻譯因此可以指 示"know"是"recognize"的可能的替換候選,來呈現(xiàn)"I have known this person for years"。在另一示例中,被指示為母語是法語的作者的英語 文本樣本可以包括句子"I commanded the faith and onions",其 "commanded"和"faith"都被標(biāo)記為不被贊同的單詞搭配。這可以作 為"J,ai command6 le foi et des oignons"來番羽譯成法語,"command6,, 被適當(dāng)?shù)胤聪蚍g為"ordered"而"lefoi"被重新拼寫為"lefoie"來 反向翻譯為"the liver",所以軟件從搜索結(jié)果所生成的任何其它搭配 候選中將這些搭配候選優(yōu)先化或增加其權(quán)重,并可以建議替換搭配候選 以將句子呈現(xiàn)為"I ordered the liver and onions"。 在任一種情況下,自母語的反向翻譯首先可被用來限制候選替換搜索, 或其可被用作搭配參考來評估或優(yōu)先化搜索所生成的可能的替換候選。
在該說明性實施例中,在單詞搭配參考中搜索査詢項之后,如步驟73 所示,可以執(zhí)行用于標(biāo)識具有替換通配符的相對高比例的候選單詞的搜索 結(jié)果的步驟75。在一說明性實施例中,這同樣可以對不同的匹配類型,在 提供對包含該搭配的整句、簡化句子、塊對、或單詞對的匹配的搜索結(jié)果 之間,使用不同的加權(quán)??偡?jǐn)?shù)可以是來自每一類型的查詢項的評分分量的加權(quán)和,例如其中每一評分分量是對于該査詢項所找到的搜索結(jié)果的數(shù) 量乘以分配給該查詢項的權(quán)重的乘積。在該說明性實施例中,使用諸如該 方法等方法的相對高的總分可被解釋為替換通配符、并用作校正錯誤搭配 的可能的潛力的相對高比例的候選單詞的有效度量。
通配符可以具體地針對查詢項中的特定詞性或塊類型。例如,在一組 基于動詞-名詞搭配的査詢項中,每一搭配中的動詞可由一組査詢項中的通 配符來替換,而每一搭配中的名詞可由另一組查詢項中的通配符來替換。 對于介詞-名詞搭配,該介詞特別地可以是為由通配符所替換而選擇的搭配 部分,因為名詞可能更容易與句子的預(yù)期意義相關(guān)聯(lián),并且因為要選擇的 特定介詞更普遍地受到語言的中間學(xué)習(xí)者的錯誤搭配使用?;诮樵~-名詞 搭配來定標(biāo)介詞以供査詢項中的通配符所替換可以因此支持降低產(chǎn)生所需 替換搭配所要求的時間的策略。類似地,通配符可以優(yōu)先作為形容詞-名詞 搭配中的形容詞以及動詞-副詞搭配中的動詞來選擇,同樣因為名詞和動詞 更可能錨定到預(yù)期意義,而形容詞和副詞可能比它們所修飾的名詞和動詞 更易于錯誤搭配。在其它實施例中,可以選擇其它特定詞性或塊類型以供 査詢項中的通配符優(yōu)先或?qū)S锰鎿Q。
在搜索結(jié)果中被發(fā)現(xiàn)具有比可疑單詞顯著更大的比例的可能的替換單 詞隨后可以被指示為搭配的明顯不被贊同的部分的建議替換。這還可以在 將搭配與可能的替換單詞進行交叉引用以包括在搭配參考中之后完成,所
述交叉引用諸如適當(dāng)?shù)膯卧~搭配的字典或與基于作者的母語的建議反向翻 譯的交叉引用,如上所述。
具有諸如被發(fā)現(xiàn)具有最高匹配分?jǐn)?shù)的一個或若干個可能的搭配候選單 詞的搜索結(jié)果可以經(jīng)由用戶輸出作為可能適當(dāng)?shù)膯卧~搭配來提供,如圖2
的步驟77所示。例如,這可類似于圖1的文本框29中顯示的搭配候選,
以使用戶能夠選擇這些搭配候選中的一個來替換被指示為錯誤的搭配。有 時,單個搭配將具有作為錯誤搭配的適當(dāng)替換的實質(zhì)上更好的可能性指示。
這是圖4的描繪中的情況。
圖4描繪啟用根據(jù)一說明性實施例的搭配證明方法的計算系統(tǒng)的用戶 界面410。用戶界面410在其頂部包括與圖1的搭配錯誤證明界面10相同的選項卡;具體地,標(biāo)記為"裝入ESL句子"的選項卡ll (同樣,說明性 地針對特定ESL實施例),和標(biāo)記為"運行查詢"的選項卡13。圖l描繪 選擇了 "裝入ESL句子"選項卡11的用戶界面10,而圖4在顯示器上描 繪選擇了選項卡13的用戶界面410以及其相關(guān)聯(lián)的按鈕、文字說明、文本 框和其它用戶界面元素。這些被劃分為標(biāo)記為"ESL已進行語法分析的句 子"的上部分和標(biāo)記為"査詢級別"的下部分。根據(jù)搭配錯誤證明的一說 明性實施例,用戶界面410針對進行特定類型的查詢并經(jīng)由對這些查詢所 執(zhí)行的搜索的用戶界面提供結(jié)果。
上部分"ESL己進行語法分析的句子"包括類似于圖1的文本框25的 文本框25,并且其在此包括相同的已進行語法分析的句子。該部分在已進 行語法分析的句子文本框25下面還包括按鈕行41。這些包括用于各種不同 的說明性査詢模板的按鈕以基于已進行語法分析的句子執(zhí)行搜索。具體地, 根據(jù)以上討論,在該說明性實施例中,它們是如下標(biāo)記的按鈕"創(chuàng)建査 詢";諸如用于完整句子或簡化句子的涉及不同的基于句子的査詢的"提 交句子?xùn)嗽僆"和"提交句子查詢II";用于不同類型的塊對查詢的"提交
塊査詢r和"提交塊査詢n";以及用于基于搭配的單獨單詞對的査詢的 "提交單詞查詢"。
作為可被調(diào)出來呈現(xiàn)替換搭配候選單詞的某些查詢結(jié)果文本框的說明
性示例,用戶界面410的下部分包括用于句子級查詢的文本框43、用于塊 第一級査詢的文本框45和用于塊第二級査詢的文本框47。文本框43、 45 和47的每一個還被描繪為具有該搭配候選的査詢搜索結(jié)果的命中計數(shù),并 且其右側(cè)的分開的文本框可以顯示來自對應(yīng)于每一査詢類型的語料庫的某 些査詢搜索結(jié)果。如圖所示,在該說明性示例中,在正被證明的搭配中, "known"在每一査詢模板級中都被強烈指示為"recognized"的適當(dāng)?shù)奶?換單詞。這示出査詢模板的分級策略在這種情況下提供超過足夠的冗余, 以呈現(xiàn)一個特定替換候選的令人信服的情況。用戶隨后可以視其需要來考 慮查詢模板的每一個的命中計數(shù),并尋找替換搭配候選中的一個來替換其 所對應(yīng)的不被贊同的單詞搭配。
盡管圖1和圖4描繪與專用應(yīng)用程序?qū)嵤├嚓P(guān)聯(lián)的圖形顯示面板,
22但另一說明性實施例可以結(jié)合另一應(yīng)用程序以較不明顯的方式來運作,如
文字處理應(yīng)用程序、web瀏覽器、電子郵件應(yīng)用程序、演示程序或涉及文
本或另一形式的自然語言的用戶輸入的其它應(yīng)用程序。這種其它程序或應(yīng) 用程序可以與分開的錯誤搭配證明程序?qū)嵤├齾f(xié)作,或例如可以包括其自 己的包含錯誤搭配證明實施例的模塊。在不同的實施例中,搭配錯誤證明 工具例如可以在其它應(yīng)用程序中的工具菜單下訪問,或作為另一示例可以 在用戶右擊單詞時作為彈出菜單中的選項來訪問。
在另一操作模式中,其它程序可以在默認(rèn)設(shè)置中自動地運行錯誤搭配 證明模塊或程序,并可以通過應(yīng)用于監(jiān)視器上的單詞的標(biāo)記來自動地提供 錯誤的或不被贊同的搭配的指示。該標(biāo)記例如可以采取搭配下的藍(lán)色鋸齒 線的形式,以指示其是錯誤的或不被贊同的。在又一操作模式中,例如, 分開的模塊或程序可以運行來檢測用戶輸入是否包括用戶不是輸入語言的 母語用戶的指示,并且該非母語使用的指示可以觸發(fā)對錯誤搭配模塊或程 序的激活。
圖5示出了可在其上實現(xiàn)各實施例的合適計算系統(tǒng)環(huán)境100的示例。 例如,各實施例可以作為可由計算系統(tǒng)環(huán)境100執(zhí)行的并配置計算系統(tǒng)環(huán) 境100來執(zhí)行不同實施例中涉及的各種任務(wù)或方法的軟件應(yīng)用程序、模塊、 或其它形式的指令來實現(xiàn)。具體化搭配錯誤證明實施例的軟件應(yīng)用程序或 模塊可以用各種編程或腳本語言或環(huán)境的任一種來開發(fā)。例如,其可以用 C#、 F#、 C++、 C、 Pascal、 Visual Basic、 Java、 JavaScript、 Delphi、 Eiffel、 Nemerle、 Perl、 PHP、 Python、 Ruby、 Visual FoxPro、 Lua或任何其它編程 語言來編寫。還構(gòu)想了將繼續(xù)開發(fā)新編程語言和創(chuàng)建可執(zhí)行指令的其它形 式,其中可以容易地開發(fā)進一步的實施例。
根據(jù)一說明性實施例,計算系統(tǒng)環(huán)境100可被配置成響應(yīng)于接收文本 中的單詞搭配的指示來執(zhí)行搭配錯誤證明任務(wù)。計算系統(tǒng)環(huán)境100隨后可
以對與所指示的單詞搭配的一個或多個查詢模板的每一個執(zhí)行web搜索。 所使用的各種査詢模板可以包括句子、簡化句子、塊對、和/或單獨的單詞 對,其任一個都可以包括該單詞搭配。計算系統(tǒng)環(huán)境100隨后可以評估對 査詢模板的每一個的web搜索的結(jié)果是指示該單詞搭配對應(yīng)于正常使用,還是指示其是不被贊同的或指示可能的錯誤。正常使用可以通過包括該句 子的査詢模板的精確匹配或大于預(yù)選閾值的匹配分?jǐn)?shù)來指示。作為計算系 統(tǒng)環(huán)境100的作為搭配錯誤證明方法的實施例的結(jié)果的經(jīng)由用戶可察覺的 輸出設(shè)備的輸出的一部分,該系統(tǒng)隨后可以指示該單詞搭配是對應(yīng)于正常 使用,還是不被贊同的并指示錯誤的使用。
圖5所示的計算系統(tǒng)環(huán)境100只是用于執(zhí)行和提供來自各實施例的輸 出的合適的計算環(huán)境的一個示例,且不旨在對要求保護的主題的使用范圍
或功能提出任何限制。也不應(yīng)該把計算環(huán)境100解釋為對示例性操作環(huán)境 100中示出的任一組件或其組合有任何依賴性或要求。
各實施例可用于各種其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置。適合在各
實施例中使用的公知的計算系統(tǒng)、環(huán)境和/或配置的示例包括但不限于個
人計算機、服務(wù)器計算機、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處
理器的系統(tǒng)、機頂盒、可編程消費電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機、大型計算
機、電話系統(tǒng)、包含上述系統(tǒng)或設(shè)備中的任一個的分布式計算環(huán)境等。
各實施例可在諸如程序模塊等由計算機執(zhí)行的計算機可執(zhí)行指令的通
用上下文中描述。
一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象
數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。 一些實施例被設(shè)計為 在其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來執(zhí)行的分布式計算環(huán)境
中實施。在分布式計算環(huán)境中,程序模塊位于包括存儲器存儲設(shè)備的本地 和遠(yuǎn)程計算機存儲介質(zhì)中。如上所述,這種可執(zhí)行指令可以存儲在介質(zhì)上, 以使其能夠由計算系統(tǒng)的一個或多個組件讀取并執(zhí)行,從而用新能力配置 計算系統(tǒng)。
參考圖5,用于實現(xiàn)一些實施例的示例性系統(tǒng)包括計算機110形式的 通用計算設(shè)備。計算機110的組件可以包括,但不限于,處理單元120、系 統(tǒng)存儲器130和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合至處理單元 120的系統(tǒng)總線121。系統(tǒng)總線121可以是幾種類型的總線結(jié)構(gòu)中的任何一 種,包括存儲器總線或存儲控制器、外圍總線、以及使用各種總線體系結(jié) 構(gòu)中的任一種的局部總線。作為示例而非局限,這樣的體系結(jié)構(gòu)包括工業(yè) 標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強型ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線和外圍部件互連
(PCI)總線(也稱為夾層(Mezzanine)總線)。
計算機110通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是能 由計算機110訪問的任何可用介質(zhì),而且包含易失性和非易失性介質(zhì)、可 移動和不可移動介質(zhì)。作為示例而非局限,計算機可讀介質(zhì)可以包括計算 機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以用于存儲諸如計算機可讀 指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任何方法或技術(shù)實現(xiàn)的易 失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括,但不限 于,RAM、 ROM、 EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多 功能盤(DVD)或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁性存 儲設(shè)備、或能用于存儲所需信息且可以由計算機IIO訪問的任何其它介質(zhì)。 通信介質(zhì)通常以諸如載波或其它傳輸機制等已調(diào)制數(shù)據(jù)信號來體現(xiàn)計算機 可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任意信息傳送介質(zhì)。 術(shù)語"已調(diào)制數(shù)據(jù)信號"指的是其一個或多個特征以在信號中編碼信息的 方式被設(shè)定或更改的信號。作為示例而非限制,通信介質(zhì)包括有線介質(zhì), 諸如有線網(wǎng)絡(luò)或直接線連接,以及無線介質(zhì),諸如聲學(xué)、RF、紅外線和其 它無線介質(zhì)。以上的任何組合也應(yīng)包括在計算機可讀介質(zhì)的范圍內(nèi)。
系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計算機存儲介 質(zhì),如只讀存儲器(ROM) 131和隨機存取存儲器(RAM) 132?;据斎?/輸出系統(tǒng)133 (BIOS)包括如在啟動時幫助在計算機110內(nèi)的元件之間傳 輸信息的基本例程,它通常儲存在ROM131中。RAM132通常包含處理單 元120可以立即訪問和/或目前正在其上操作的數(shù)據(jù)和/或程序模塊。作為示 例而非局限,圖5示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136 和程序數(shù)據(jù)137。
計算機110還可以包括其它可移動/不可移動、易失性/非易失性計算機 存儲介質(zhì)。僅作為示例,圖5示出了從不可移動、非易失性磁介質(zhì)中讀取 或向其寫入的硬盤驅(qū)動器141,從可移動、非易失性磁盤152中讀取或向其 寫入的磁盤驅(qū)動器151,以及從諸如CD ROM或其它光學(xué)介質(zhì)等可移動、 非易失性光盤156中讀取或向其寫入的光盤驅(qū)動器155??梢栽谑纠圆僮?br>
25環(huán)境中使用的其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)包括
但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固 態(tài)ROM等等。硬盤驅(qū)動器141通常由不可移動存儲器接口,諸如接口 140 連接至系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常由可移動存儲 器接口,諸如接口 150連接至系統(tǒng)總線121。
上文討論并在圖5中示出的驅(qū)動器及其相關(guān)聯(lián)的計算機存儲介質(zhì)為計 算機110提供了計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。 在圖5中,例如,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應(yīng)用程序145、 其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、 應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。 操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里被 標(biāo)注了不同的標(biāo)號是為了說明至少它們是不同的副本。
用戶可以通過諸如鍵盤162、話筒163以及諸如鼠標(biāo)、跟蹤球或觸摸 墊等定點設(shè)備161等輸入設(shè)備來將命令和信息輸入至計算機110中。其它 輸入設(shè)備(未示出)可以包括操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描 儀等。這些和其它輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口 160連 接至處理單元120,但也可以由其它接口和總線結(jié)構(gòu),諸如并行端口、游戲 端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型的顯示設(shè)備也 經(jīng)由接口,諸如視頻接口 l卯連接至系統(tǒng)總線121。除監(jiān)視器以外,計算機 也可以包括其它外圍輸出設(shè)備,諸如揚聲器197和打印機196,它們可以通 過輸出外圍接口 195連接。
計算機110使用到諸如遠(yuǎn)程計算機180等一個或多個遠(yuǎn)程計算機的邏 輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計算機180可以是個人計算機、手持設(shè) 備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它常見的網(wǎng)絡(luò)節(jié)點,且一般 包括以上關(guān)于計算機110描述的多個或所有的元件。圖5中所示的邏輯連 接包括局域網(wǎng)(LAN) 171和廣域網(wǎng)(WAN) 173,但也可以包括其它網(wǎng)絡(luò)。 這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常 見的。
當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時,計算機110通過網(wǎng)絡(luò)接口或適配器170連接至LAN 171。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時,計算機110通常包括調(diào) 制解調(diào)器172或用于通過諸如因特網(wǎng)等WAN 173建立通信的其它裝置。調(diào) 制解調(diào)器172可以是內(nèi)置或外置的,它可以通過用戶輸入接口 160或其它 適當(dāng)?shù)臋C制連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,相對于計算機110所描 述的程序模塊或其部分可被儲存在遠(yuǎn)程存儲器存儲設(shè)備中。作為示例,而
非限制,圖5示出了遠(yuǎn)程應(yīng)用程序185駐留在遠(yuǎn)程計算機180上??梢岳?解,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計算機之間建立通信鏈路 的其它手段。
圖6描繪根據(jù)另一說明性實施例的包括移動計算設(shè)備和介質(zhì)的通用移 動計算環(huán)境的框圖,該介質(zhì)可由該移動計算設(shè)備讀取并包括可由該移動計 算設(shè)備執(zhí)行可執(zhí)行指令。圖6示出根據(jù)說明性實施例的包括移動設(shè)備201 的移動計算系統(tǒng)200的框圖。移動設(shè)備201包括微處理器202、存儲器204、 輸入/輸出(I/O)組件206和用于與遠(yuǎn)程計算機或其它移動設(shè)備通信的通信 接口 208。在一實施例中,前述組件被耦合以便在合適總線210上相互通信。
存儲器204被實現(xiàn)為諸如隨機存取存儲器(RAM)等帶有電池后備模 塊(未示出)的非易失性電子存儲器,以使存儲在存儲器204中的信息在 移動設(shè)備200的總電源關(guān)閉時不會丟失。存儲器204的一部分說明性地被 分配為用于程序執(zhí)行的可尋址存儲器,而存儲器204的另一部分說明性地 被用于存儲,例如模擬盤驅(qū)動器上的存儲。
存儲器204包括操作系統(tǒng)212、應(yīng)用程序214以及對象存儲216。在操 作期間,操作系統(tǒng)212說明性地由處理器202從存儲器204執(zhí)行。操作系 統(tǒng)212在一說明性實施例中是可從微軟公司購得的WINDOWS CE操作系 統(tǒng)。操作系統(tǒng)212說明性地為移動設(shè)備設(shè)計,并且實現(xiàn)可由應(yīng)用程序214 通過一組展示的應(yīng)用程序編程接口和方法來利用的數(shù)據(jù)庫特征。在對象存 儲216中的對象由應(yīng)用程序214和操作系統(tǒng)212至少部分地響應(yīng)于對所展 示的應(yīng)用程序編程接口和方法的調(diào)用來維護。
通信接口 208代表允許移動設(shè)備200發(fā)送和接收信息的多種設(shè)備和技 術(shù)。僅舉數(shù)例,這些設(shè)備包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收機和廣播 調(diào)諧器。移動設(shè)備200還可以直接連接到計算機以與其交換數(shù)據(jù)。在此類情形中,通信接口 208可以是紅外收發(fā)機或者串行或并行通信連接,所有 的這些都能傳輸流信息。
輸入/輸出組件206包括諸如觸敏屏、按鈕、滾輪、和話筒等的各種輸 入設(shè)備,以及包括音頻發(fā)生器、振動設(shè)備和顯示器等的各種輸出設(shè)備。以 上列出的設(shè)備作為示例且不需要都存在于移動設(shè)備200上。此外,還可以 對移動設(shè)備200附連或在其中找到其它輸入/輸出設(shè)備。
移動計算系統(tǒng)200還包括網(wǎng)絡(luò)220。移動計算設(shè)備201例如通過在通 信接口 208和無線接口 222之間發(fā)送和接收合適協(xié)議的電磁信號299,來說 明性地與網(wǎng)絡(luò)220進行無線通信,網(wǎng)絡(luò)220例如可以是因特網(wǎng)、廣域網(wǎng)或 局域網(wǎng)。無線接口 222可以是例如無線集線器或蜂窩天線,或任何其它信 號接口。無線接口 222進而提供經(jīng)由網(wǎng)絡(luò)220對大量附加計算資源(說明 性地由計算資源224和226表示)的訪問。通常,任何位置的任何數(shù)量的 計算設(shè)備都可以與網(wǎng)絡(luò)220通信連接。在一些說明性實施例中,計算設(shè)備 201被啟用來利用存儲在存儲器組件204的介質(zhì)上的可執(zhí)行指令,如啟用計 算設(shè)備201來執(zhí)行非本地語言證明查詢和其它任務(wù)的可執(zhí)行指令。
盡管用對結(jié)構(gòu)特征和/或方法動作專用的語言描述了本主題,但可以理 解,所附權(quán)利要求書中定義的主題不必限于上述具體特征或動作。相反, 上述具體特征和動作是作為實現(xiàn)權(quán)利要求的示例形式公開的。作為特定示
例,盡管術(shù)語"計算機"、"計算設(shè)備"或"計算系統(tǒng)"在此有時出于方 便而單獨使用,但普遍理解其中的每一個都可以指的是任何計算設(shè)備、計 算系統(tǒng)、計算環(huán)境、移動設(shè)備、或其它信息處理組件或上下文,并不限于 任何個別解釋。作為另一特定示例,盡管呈現(xiàn)了具有在提交本專利申請時 所廣泛熟悉的說明性元素的許多實施例,但構(gòu)想了計算技術(shù)中的許多新創(chuàng) 新將在諸如用戶界面、用戶輸入方法、計算環(huán)境和計算方法等方面影響不 同實施例的元素,并且權(quán)利要求書所定義的元素可以根據(jù)這些和其它創(chuàng)新 性進步來具體化而仍然與此處的權(quán)利要求書所定義的元素保持一致并由其 所包括。
權(quán)利要求
1.一種由計算系統(tǒng)(例如100、110、180、200、224、226)實現(xiàn)的方法(例如50),包括將來自文本樣本(例如23)的一個或多個搭配與語料庫進行比較(例如51、351);標(biāo)識所述搭配在所述語料庫中是否是不被贊同的(例如,53、353);以及經(jīng)由輸出設(shè)備提供所述搭配是否不被贊同的指示(例如32、33)(例如33、32、43、45、47、55、355)。
2. 如權(quán)利要求l所述的方法,其特征在于,所述語料庫包括web上的 內(nèi)容(例如171、 173、 18、 185、 220、 224、 226)。
3. 如權(quán)利要求l所述的方法,其特征在于,如果未在所述語料庫中找 到搭配(例如371、 373)或其評分不在指示所述搭配在所述語料庫中的模 糊匹配的顯著存在的預(yù)選擇的閾值匹配分?jǐn)?shù)之上(例如,375、 377),則 所述搭配是不被贊同的。
4. 如權(quán)利要求l所述的方法,其特征在于,所述語料庫包括可在網(wǎng)絡(luò) 上訪問的內(nèi)容(例如171、 173、 18、 185、 220、 224、 226)。
5. 如權(quán)利要求l所述的方法,其特征在于,將所述搭配與所述語料庫 進行比較包括使用包括一個或多個所述搭配中的每一個的一個或多個査詢 項來執(zhí)行一個或多個web搜索(例如,361、 363、 365、 367)。
6. 如權(quán)利要求5所述的方法,其特征在于,對于對其執(zhí)行搜索的一個 或多個所述搭配中的每一個,對包括所述搭配的一個或多個査詢項中的每 一個執(zhí)行搜索,直到所述查詢項中的一個提供滿足用于匹配所述搭配的預(yù) 選擇的閾值的搜索結(jié)果,或使用了包括所述搭配的所有查詢項而沒有滿足 所述預(yù)選擇的閾值為止(例如351、 353)。
7. 如權(quán)利要求6所述的方法,其特征在于,對于對其執(zhí)行搜索的搭配中的每一個,如果包括所述搭配的查詢項評分不在指示所述查詢項在所述 語料庫中的模糊匹配的顯著存在的預(yù)選擇的閾值匹配分?jǐn)?shù)之上(例如375、(377),則所述搭配是不被贊同的。
8. 如權(quán)利要求6所述的方法,其特征在于,所述查詢項的至少一個包 括包含所述搭配的句子(例如361)。
9. 如權(quán)利要求6所述的方法,其特征在于,所述査詢項的至少一個包 括包含所述搭配的簡化句子,其中所述簡化句子是通過從包括所述搭配的 句子中移除輔助詞來形成的(例如363)。
10. 如權(quán)利要求6所述的方法,其特征在于,所述查詢項的至少一個 包括包含所述搭配的塊對(例如365)。
11. 如權(quán)利要求6所述的方法,其特征在于,所述查詢項的至少一個 包括包含所述搭配的單詞對(例如367)。
12. 如權(quán)利要求1所述的方法,其特征在于,還包括對所述文本樣本 進行詞性標(biāo)注(例如25、 65),并且其中與所述語料庫進行比較的搭配是 從所述文本樣本中選擇的,其包括動詞-名詞搭配、介詞-名詞搭配、形容 詞-名詞搭配和動詞-副詞搭配中的至少一個(例如19、 67)。
13. 如權(quán)利要求1所述的方法,其特征在于,所述文本樣本采用目標(biāo) 語言,并且所述方法還包括篩選所述語料庫以只將所述搭配與被指示為采 用所述目標(biāo)語言的內(nèi)容進行比較。
14. 如權(quán)利要求1所述的方法,其特征在于,還包括篩選所述文本樣 本以確定其是否被指示為示出非母語使用(例如63),并且如果所述文本 樣本被指示為示出非母語使用,則自動地啟動將來自所述文本樣本的搭配 與所述語料庫進行比較的步驟。
15. 如權(quán)利要求l所述的方法,其特征在于,還包括 用通配符替換所述不被贊同的單詞搭配的一個中的各單詞中的一個,以組成一個或多個查詢項(例如71);在單詞搭配參考中搜索所述査詢項(例如73);標(biāo)識具有替換所述通配符的相對高比例的候選單詞的搜索結(jié)果(例如 75);以及經(jīng)由所述輸出設(shè)備提供具有所述候選單詞的搜索結(jié)果作為可能適當(dāng)?shù)?單詞搭配(例如77)。
16. 如權(quán)利要求15所述的方法,其特征在于,所述査詢項包括句子模板(例如361、 363)、塊模板(例如365)和單詞模板(例如367)中的一 個或多個,并且其中具有替換所述通配符的相對高比例的候選單詞的搜索 結(jié)果是通過將包括所述候選單詞的搜索結(jié)果的比例與査詢模板權(quán)重相乘來 評估的,所述句子模板的査詢模板權(quán)重最高,所述塊模板次之,而所述單 詞模板最低。
17. 如權(quán)利要求15所述的方法,其特征在于,所述查詢項包括動詞-名詞搭配、介詞-名詞搭配、形容詞-名詞搭配、和動詞-副詞搭配中的一個 或多個,并且所述通配符被選擇作為動詞-名詞搭配中的動詞、動詞-名詞搭 配中的名詞、介詞-名詞搭配中的介詞、形容詞-名詞搭配中的形容詞、或動 詞-副詞搭配中的副詞(例如19、 67)。
18. 如權(quán)利要求15所述的方法,其特征在于,還包括使用戶能夠選擇 可能適當(dāng)?shù)膯卧~搭配中的一個來替換其所對應(yīng)的不被贊同的單詞搭配。
19. 一種包括可由計算系統(tǒng)(例如100、 110、 180、 200、 224、 226) 執(zhí)行的指令的介質(zhì)(例如131、 132、 152、 156、 204),其中所述指令將所 述計算系統(tǒng)配置成接收文本中的單詞搭配的指示(例如15、 17、 61、 63);對與所指示的單詞搭配相關(guān)聯(lián)的一個或多個查詢模板中的每一個執(zhí)行 web搜索(例如,51、 351),其中所述查詢模板中的一個包括其中找到所 述單詞搭配的句子(例如361、 363),所述查詢模板中的一個包括包含所 述單詞搭配的塊對(例如365),并且所述査詢模板中的一個包括包含所述 單詞搭配的單獨的單詞對(例如367)。評估對所述一個或多個查詢模板的每一個的web搜索的結(jié)果是否指示 所述單詞搭配對應(yīng)于正常使用,這由包括所述句子的所述査詢模板的精確 匹配或大于預(yù)選擇的閾值的匹配分?jǐn)?shù)來指示(例如53、 353);以及經(jīng)由用戶可感知的輸出設(shè)備(例如191、 196、 197、 206)來指示所述 單詞搭配是否對應(yīng)于正常使用(例如33、 32、 43、 45、 47、 55、 355)。
20. —種計算系統(tǒng)(例如,100、 110、 180、 200、 224、 226),所述 計算系統(tǒng)被配置成標(biāo)識文本中的單詞搭配(例如51、 351);對基于所述單詞搭配的每一個的一組査詢模板來搜索web (例如53、 353);以及經(jīng)由用戶輸出設(shè)備指示所述搜索結(jié)果是否指示所述單詞搭配在web上 是相對稀少的(例如33、 32、 43、 45、 47、 55、 355)。
全文摘要
可以使用本地和包括web在內(nèi)的基于網(wǎng)絡(luò)的語料庫來自動地證明搭配錯誤。例如,根據(jù)一說明性實施例,來自文本樣本的一個或多個搭配可以與諸如web的內(nèi)容等語料庫進行比較。搭配被標(biāo)識為其在該語料庫中是否是不被贊同的。經(jīng)由輸出設(shè)備來提供搭配在該語料庫中是否不被贊同的指示。隨后可以采取諸如搜索并經(jīng)由用戶輸出提供可能適當(dāng)?shù)膯卧~搭配的附加步驟。
文檔編號G06F17/28GK101568918SQ200780044668
公開日2009年10月28日 申請日期2007年12月5日 優(yōu)先權(quán)日2006年12月5日
發(fā)明者H-W·洪, J·高, M·周, W·B·多蘭 申請人:微軟公司