多語言商業(yè)標(biāo)記管理以及音譯合成的制作方法
【專利說明】
[0001] 相關(guān)申請的交叉引用
[0002] 本申請要求于2013年3月15日提交的序列號為61/793, 044的美國臨時專利申 請的優(yōu)先權(quán),其內(nèi)容通過引用被合并到本文中。
技術(shù)領(lǐng)域
[0003] 本公開內(nèi)容涉及下述情況:信息已經(jīng)在兩種或更多種語言或文字系統(tǒng)之間被轉(zhuǎn) 換,從而產(chǎn)生原始信息的第二表示、第三表示和多級表示。
【背景技術(shù)】
[0004] 本部分中描述的方法是能夠推行的方法,但是不一定是先前已經(jīng)構(gòu)思或推行的方 法。因此,本部分中描述的方法可能不是本申請中的權(quán)利要求的現(xiàn)有技術(shù)并且不允許通過 包括在本部分中而成為現(xiàn)有技術(shù)。
[0005] 本公開內(nèi)容關(guān)注數(shù)據(jù)的自動語言轉(zhuǎn)換領(lǐng)域,尤其關(guān)注特定上下文(如商業(yè)實(shí)體名 稱)內(nèi)的不同的正字法之間(如俄語西里爾體至拉丁體)的轉(zhuǎn)換。
[0006] 現(xiàn)有技術(shù)方法并未令人滿意地將第一語言的名稱的不同部分轉(zhuǎn)換成第二語言的 名稱。在該上下文中,"不同部分"指代語義元素,例如給定的名稱、地理名稱、普通名詞、描 述性形容詞、公司后綴等。例如,可能存在下述需要:將本來用西里爾文書寫的俄語的商業(yè) 名稱轉(zhuǎn)換成讓講德語的觀眾"可理解"的拉丁體。現(xiàn)有技術(shù)方法通常通過執(zhí)行一一映射和 /或直譯來解決該問題。在該上下文中,"一一映射"指目標(biāo)語言中的已經(jīng)被映射至源數(shù)據(jù) (名稱)中的字的單個字的存儲和檢索。在該上下文中,"直譯"指將字的含義(或者整個 名稱)從源語言翻譯成目標(biāo)語言。因此,現(xiàn)有技術(shù)方法實(shí)現(xiàn)了下述轉(zhuǎn)換:該轉(zhuǎn)換是"可發(fā)音 的",但是該轉(zhuǎn)換并不例如將商業(yè)名稱的描述性部分轉(zhuǎn)換成講德語的人能夠理解的語言。
[0007] 現(xiàn)有技術(shù)方法的另一個問題是:在技術(shù)產(chǎn)生錯誤翻譯或轉(zhuǎn)換的情況下,該技術(shù)并 沒有提高翻譯或轉(zhuǎn)換質(zhì)量的自動方法。即,現(xiàn)有技術(shù)方法未能從經(jīng)驗(yàn)中獲得學(xué)習(xí)并利用經(jīng) 驗(yàn)。
【發(fā)明內(nèi)容】
[0008] 提供了一種方法,該方法包括:將字符串解析成它的字素,并且生成表示字素的抽 象的字符模式。還提供了執(zhí)行該方法的系統(tǒng)以及包括用于對處理器進(jìn)行控制以執(zhí)行該方法 的指令的存儲裝置。
【附圖說明】
[0009] 圖1是數(shù)據(jù)的自動語言轉(zhuǎn)換的處理的邏輯結(jié)構(gòu)的框圖。
[0010] 圖2是由圖1的處理使用的參考數(shù)據(jù)存儲器的邏輯結(jié)構(gòu)的框圖。
[0011] 圖3是由圖1的處理使用的經(jīng)驗(yàn)數(shù)據(jù)存儲器的邏輯結(jié)構(gòu)的框圖。
[0012] 圖4是圖1的處理的第一級功能的邏輯結(jié)構(gòu)的框圖。
[0013] 圖5是圖1的處理的第二級功能的邏輯結(jié)構(gòu)的框圖。
[0014] 圖6是圖1的處理的遞歸完善功能的邏輯結(jié)構(gòu)的框圖。
[0015] 圖7是圖1的處理的第一級功能的示例性操作的流程圖。
[0016] 圖7A是圖7的一部分的詳圖,并且描繪了正由字素矩陣處理執(zhí)行的示例性操作的 流程圖。
[0017] 圖7B是圖7的一部分的詳圖,并且描繪了正由上下文領(lǐng)悟處理執(zhí)行的示例性操作 的流程圖。
[0018] 圖7C是圖7的一部分的詳圖,并且描繪了正由語義領(lǐng)悟處理執(zhí)行的示例性操作的 流程圖。
[0019] 圖8是圖1的處理的第二級功能的示例性操作的流程圖。
[0020] 圖8A是圖8的一部分的詳圖,并且描繪了規(guī)則引擎和編排服務(wù)利用轉(zhuǎn)換編排規(guī)則 存儲器進(jìn)行的交互。
[0021] 圖8B描繪了通過俄語西里爾文示例的翻譯和語際轉(zhuǎn)換進(jìn)行的處理;
[0022] 圖9是遞歸完善功能的示例性操作的流程圖。
[0023] 圖9A是圖9的一部分的詳圖,并且描繪了啟發(fā)處理的符號表示和由啟發(fā)處理的子 組件參考的數(shù)據(jù)存儲器。
[0024] 圖9B是圖9的一部分的詳圖,并且描繪了整合處理和由該整合處理的子組件參考 的數(shù)據(jù)存儲器。
[0025] 圖9C示出了規(guī)則引擎的符號表示和編排服務(wù)的符號表示。
[0026] 圖10是采用本文中描述的方法的系統(tǒng)的框圖。
[0027] 在每個圖中,用相同的附圖標(biāo)記來表示多于一個圖所共有的部件或特征。
【具體實(shí)施方式】
[0028] 本文中使用的術(shù)語"語際"和在序列號為61/793, 044的美國臨時專利申請中使用 的術(shù)語"詞素文字(lexigraphical) "都表示"在兩種或更多種語言之間或者與兩種或更多 種語言相關(guān)"。
[0029] 圖1是用于數(shù)據(jù)的自動語言轉(zhuǎn)換的處理100的邏輯結(jié)構(gòu)的框圖。處理100從可以 是人或呼叫系統(tǒng)的用戶130接收被提供給語際轉(zhuǎn)換領(lǐng)悟環(huán)境135的輸入105,并且產(chǎn)生輸出 數(shù)據(jù)106,輸出數(shù)據(jù)106是已經(jīng)在兩種或更多種語言或文字系統(tǒng)之間被轉(zhuǎn)換的輸入105的某 個版本。處理100產(chǎn)生輸入105的第二表示、第三表示和多級表示,并且因此為用戶130提 供優(yōu)于源正字法與目標(biāo)正字法之間的文字轉(zhuǎn)錄的領(lǐng)悟。
[0030] 處理100給用戶130提供領(lǐng)悟,包括但不限于對語言間(即語言之間或正字法之 間,即文字系統(tǒng)之間、語義和非語義之間、上下文和非上下文之間語際轉(zhuǎn)換或翻譯)的特定 領(lǐng)域中的相似性的推斷。處理100給用戶130提供使用多個同時形態(tài)(即一個或更多個語 言或文字系統(tǒng)中出現(xiàn)的信息)來識別、分析、比較、對比或提取輸入105中包括的信息的能 力,以特別通過對輸入105的標(biāo)記的本質(zhì)要素或?qū)傩缘淖R別在不同語言、文稿或文字系統(tǒng) (詞態(tài)學(xué))之間或之中進(jìn)行轉(zhuǎn)錄。這些本質(zhì)要素用作同源詞(cognate),從而允許源于不同 的詞態(tài)學(xué)的數(shù)據(jù)的有意義的比較。
[0031] 輸入105包括輸入實(shí)質(zhì)性數(shù)據(jù)110和輸入語義上下文數(shù)據(jù)115。
[0032] 輸入實(shí)質(zhì)性數(shù)據(jù)110是輸入的輸入本身的主題數(shù)據(jù),其通常將是以特定語言和文 字系統(tǒng)(正字法)表達(dá)的企業(yè)的名稱。輸入實(shí)質(zhì)性數(shù)據(jù)110是"非結(jié)構(gòu)化的",其中不存在 對有助于處理100的執(zhí)行的輸入實(shí)質(zhì)性數(shù)據(jù)110的內(nèi)容的固有指導(dǎo)。
[0033] 輸入語義上下文數(shù)據(jù)115是可以被發(fā)現(xiàn)或者特別地根據(jù)對輸入105、內(nèi)容、歷史或 提供輸入105的環(huán)境的分析或者輸入105的元數(shù)據(jù)被推斷的上下文數(shù)據(jù)。輸入語義上下文 數(shù)據(jù)115被認(rèn)為是"結(jié)構(gòu)化的",因?yàn)檩斎胝Z義上下文數(shù)據(jù)115是關(guān)于輸入實(shí)質(zhì)性數(shù)據(jù)110 的元數(shù)據(jù),例如,輸入實(shí)質(zhì)性數(shù)據(jù)110的源,輸入實(shí)質(zhì)性數(shù)據(jù)110被接收的日期以及將輸入 實(shí)質(zhì)性數(shù)據(jù)110傳輸至用于執(zhí)行處理100的系統(tǒng)的系統(tǒng)。
[0034] 處理100包括跨越語際轉(zhuǎn)換領(lǐng)悟環(huán)境135中的多個子域或功能子集的功能,S卩,第 一級功能140、第二級功能150和遞歸完善功能160。語際轉(zhuǎn)換領(lǐng)悟環(huán)境135還包括數(shù)據(jù)存 儲器170。
[0035] 數(shù)據(jù)存儲器170是數(shù)據(jù)存儲裝置,并且包括參考數(shù)據(jù)存儲器172和經(jīng)驗(yàn)數(shù)據(jù)存儲 器174。基于在執(zhí)行處理100期間獲得的經(jīng)驗(yàn)對經(jīng)驗(yàn)數(shù)據(jù)存儲器174進(jìn)行更新。根據(jù)客觀 規(guī)則和標(biāo)準(zhǔn)而不是基于通過執(zhí)行處理100獲得的經(jīng)驗(yàn)對參考數(shù)據(jù)存儲器172進(jìn)行更新。將 數(shù)據(jù)存儲器170分成參考數(shù)據(jù)存儲器172和經(jīng)驗(yàn)數(shù)據(jù)存儲器174僅出于便于說明的目的, 而并不一定反映相關(guān)存儲器的物理分割。
[0036] 第一級功能140是作用于輸入的輸入數(shù)據(jù)(即輸入105)的功能的集合,并且包括 三個子組件,即,字素矩陣142、上下文領(lǐng)悟144和語義領(lǐng)悟146。
[0037] 第二級功能150是對輸入105和第一級功能140的輸出的組合進(jìn)行操作的功能和 處理的集合。第二級功能150包括兩個子組件,S卩,翻譯152和語際轉(zhuǎn)換154。
[0038] 遞歸完善功能160是對來自第一級功能140和第二級功能150的結(jié)果以及從對處 理100的執(zhí)行的識別和分析獲得的其他輸入進(jìn)行操作的功能的集合,以提高處理100的效 率和功效。這樣的分析包括對駐留在經(jīng)驗(yàn)數(shù)據(jù)存儲器174中的參考數(shù)據(jù)的管理和合成。遞 歸完善功能160包括兩個子組件,S卩,啟發(fā)162和整合164。
[0039] 圖2是參考數(shù)據(jù)存儲器172的邏輯結(jié)構(gòu)的框圖。參考數(shù)據(jù)存儲器172包括:
[0040] (a)同義詞存儲器205,其存儲特定字或其他語言子分量的同義詞或替代詞條的 集合;
[0041] (b)風(fēng)格存儲器210,其包括關(guān)于書面語言的風(fēng)格方面的信息和定性數(shù)據(jù),例如相 對權(quán)重或得分;
[0042] (c)標(biāo)準(zhǔn)化存儲器215,其包括有助于詞、短語或其他語言子分量的標(biāo)準(zhǔn)化的規(guī)則 和詞典;
[0043] (d)翻譯詞典220,其包括用于將特定字、短語或其他語言子分量從源正字法翻譯 成目標(biāo)正字法以及兩種正字法(即,源正字法和目標(biāo)正字法)之間的潛在翻譯的規(guī)則;
[0044] (e)語際轉(zhuǎn)換存儲器225,其包括用于將特定字、短語或其他語言子分量從源正字 法語際轉(zhuǎn)換成目標(biāo)正字法以及兩種正字法(即,源正字法和目標(biāo)正字法)之間的潛在語際 轉(zhuǎn)換的規(guī)則;
[0045] (f)源類型存儲器230,其包括關(guān)于數(shù)據(jù)源類型的信息;
[0046] (g)轉(zhuǎn)換編排規(guī)則存儲器235,其包括編排規(guī)則;以及
[0047] (h)優(yōu)化規(guī)則存儲器240,其包括用于對整個系統(tǒng)進(jìn)行優(yōu)化的規(guī)則。
[0048] 圖3是經(jīng)驗(yàn)數(shù)據(jù)存儲器174的邏輯結(jié)構(gòu)的框圖。經(jīng)驗(yàn)數(shù)據(jù)存儲器174包括:
[0049] (a)字素分析器存儲器305,其包括用于對字素進(jìn)行解析和分析的詞典和規(guī)則;
[0050] (b)字素模式頻率存儲器310,其包括字素的頻率計數(shù);
[0051