亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種在白話文與文言文之間進行文體轉(zhuǎn)換的方法和設備的制作方法

文檔序號:6541146閱讀:417來源:國知局
一種在白話文與文言文之間進行文體轉(zhuǎn)換的方法和設備的制作方法
【專利摘要】本發(fā)明的目的是提供一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的方法與設備;獲取用戶輸入的白話文;根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文;將所述文言文提供給所述用戶。與現(xiàn)有技術相比,本發(fā)明滿足了用戶在白話文與文言文之間進行文體轉(zhuǎn)換的需求,提升了用戶的使用體驗。進一步地,本發(fā)明還可以由用戶選擇所需轉(zhuǎn)換的文言文文體,結合該文言文文體所對應的文言文屬性信息,將用戶輸入的白話文轉(zhuǎn)換成與之對應的文言文,更進一步提升了用戶的使用體驗。
【專利說明】一種在白話文與文言文之間進行文體轉(zhuǎn)換的方法和設備
【技術領域】
[0001]本發(fā)明涉及計算機【技術領域】,尤其涉及一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的技術。
【背景技術】
[0002]文言文是中國古代的一種書面語言,主要包括以先秦時期的口語為基礎而形成的書面語。文言文是相對白話文而來的,其特征是以文字為基礎來寫作,注重典故、駢儷對仗、音律工整且不使用標點,包含策、詩、詞、曲、八股、駢文古文、散文等多種文體。
[0003]與現(xiàn)代白話文相比,文言文語言往往更為簡潔典雅。在移動應用中,比如手機短信中能夠較少的文字表達豐富的含義;同時在游戲(比如與歷史相關的游戲)、網(wǎng)上聊天等場景中,用文言文要么更符合場景的需求,要么能顯得風趣幽默,更好地起到娛樂休閑的效果O
[0004]然而,文言文學習往往無法一蹴而就,大多數(shù)人無法流利使用文言文,這使得白話文與文言文之間的文體轉(zhuǎn)換成為一種需求,也成為本領域技術人員亟需解決的一個問題。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是提供一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的方法與設備。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的方法,其中,該方法包括以下步驟:
[0007]a獲取用戶輸入的白話文;
[0008]b根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文;
[0009]c將所述文言文提供給所述用戶。
[0010]根據(jù)本發(fā)明的另一方面,還提供了一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的轉(zhuǎn)換設備,其中,該設備包括:
[0011]第一獲取裝置,用于獲取用戶輸入的白話文;
[0012]第一轉(zhuǎn)換裝置,用于根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文;
[0013]提供裝置,用于將所述文言文提供給所述用戶。
[0014]與現(xiàn)有技術相比,本發(fā)明獲取用戶輸入的白話文,根據(jù)該白話文,基于翻譯模型,并結合文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文,并將該文言文提供給該用戶,滿足了用戶在白話文與文言文之間進行文體轉(zhuǎn)換的需求,提升了用戶的使用體驗。
[0015]進一步地,本發(fā)明還可以由用戶選擇所需轉(zhuǎn)換的文言文文體,結合該文言文文體所對應的文言文屬性信息,將用戶輸入的白話文轉(zhuǎn)換成與之對應的文言文,更進一步提升了用戶的使用體驗。[0016]更進一步地,本發(fā)明獲取用戶特定應用場景中所輸入的白話文,將該白話文轉(zhuǎn)換成對應的文言文,并在該特定應用場景中提供給該用戶,更進一步提升了用戶的使用體驗。
[0017]本發(fā)明也可獲取用戶輸入的文言文,根據(jù)該文言文,基于翻譯模型,將該文言文轉(zhuǎn)換成與之對應的白話文,滿足了用戶從文言文轉(zhuǎn)換至白話文的需求,更進一步提升了用戶的使用體驗。
【專利附圖】

【附圖說明】
[0018]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0019]圖1示出根據(jù)本發(fā)明一個方面的用于在白話文與文言文之間進行文體轉(zhuǎn)換的設備不意圖;
[0020]圖2示出根據(jù)本發(fā)明另一個方面的用于在白話文與文言文之間進行文體轉(zhuǎn)換的方法流程圖。
[0021 ] 附圖中相同或相似的附圖標記代表相同或相似的部件。
【具體實施方式】
[0022]下面結合附圖對本發(fā)明作進一步詳細描述。
[0023]圖1示出根據(jù)本發(fā)明一個方面的用于在白話文與文言文之間進行文體轉(zhuǎn)換的設備示意圖。轉(zhuǎn)換設備I包括第一獲取裝置101、第一轉(zhuǎn)換裝置102和提供裝置103。
[0024]其中,第一獲取裝置101獲取用戶輸入的白話文。具體地,用戶通過與用戶設備的交互,在該用戶設備的輸入框內(nèi)輸入了白話文,該第一獲取裝置101通過與該用戶設備的交互,例如通過一次或多次調(diào)用該用戶設備提供的應用程序接口(API ),或其他約定的通信方式,獲取該用戶所輸入的白話文。
[0025]在此,該用戶設備包括但不限于任何一種可與用戶通過鍵盤、鼠標、遙控器、觸摸板、或手寫設備等方式進行人機交互的電子產(chǎn)品,例如計算機、手機、PDA、掌上電腦PPC或IPTV等。該輸入框包括但不限于短信輸入框、即時通信輸入框、搜索輸入框、游戲?qū)υ捿斎肟虻取?br> [0026]本領域技術人員應能理解上述獲取用戶輸入的白話文的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取用戶輸入的白話文的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領域技術人員還應能理解上述用戶設備及輸入框僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的用戶設備或輸入框如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0027]第一轉(zhuǎn)換裝置102根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文。具體地,第一轉(zhuǎn)換裝置102根據(jù)第一獲取裝置101所獲取的用戶輸入的白話文,基于預置的翻譯模型,并結合諸如文言文韻律屬性、文言文字數(shù)屬性、文言文句型模式屬性、用戶預置屬性等文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0028]在此,該翻譯模型例如根據(jù)語料庫中所存儲的白話文與文言文的預置對齊關系來進行建立或更新。例如,該轉(zhuǎn)換設備I采用統(tǒng)計機器學習的方法,從大規(guī)?!半p語語料”中學習翻譯知識,這一學習的過程通常稱為“訓練”(training)?!坝柧殹蓖瓿梢院?,即可建立翻譯模型,并進行翻譯。通常,機器翻譯訓練所需“雙語語料” 一般由互為翻譯的雙語句對組成。在此,對應好了的白話文-文言文文本可以看作雙語句對。為了從雙語句對中學習到翻譯模式,首先需要對白話文和文言文作對齊,即為白話文的詞語找到所對應的文言文的“字”。這一過程轉(zhuǎn)換設備I可以結合使用統(tǒng)計方法和基于規(guī)則的方法。在完成對齊后,從對齊好的雙語句對中抽取互為翻譯的短語片段,并利用這些片段對翻譯模型進行建立或更新,以基于該翻譯模型完成白話文-文言文的轉(zhuǎn)換。
[0029]優(yōu)選地,所述文言文屬性信息包括以下至少任一項:
[0030]-文言文韻律屬性;
[0031]-文言文字數(shù)屬性;
[0032]-文言文句型模式屬性;
[0033]-用戶預置屬性。
[0034]在此,文言文的韻律屬性是指文言文的聲韻和節(jié)律,也即文言文的平仄和押韻規(guī)范。由于文言文,例如詩詞等,講究字詞的搭配、音調(diào)的和諧,因此,在將白話文轉(zhuǎn)換成文言文時,需要考慮文言文的韻律屬性,如文言文的平仄、對偶、押韻等。該第一轉(zhuǎn)換裝置102在對第一獲取裝置101所獲取的白話文進行轉(zhuǎn)換時,基于預置的翻譯模型,根據(jù)字詞所在的位置,有限選擇韻律符合預置文體的轉(zhuǎn)換結果。該預置文體例如是系統(tǒng)預置的、或用戶所選擇的,如詩經(jīng)體、宋詞的某個詞牌等文言文文體。
[0035]由于第一轉(zhuǎn)換裝置102基于預置的翻譯模型進行轉(zhuǎn)換時,可能會生成不同長度的多個候選結果,因此,還需考慮文言文的字數(shù)屬性,根據(jù)預置的字數(shù)閾值,如預置文體所對應的字數(shù)限制,從該多個候選結果中選擇符合條件的文言文轉(zhuǎn)換結果。例如,五言格律對應的是五個字,而七言格律對應的是七個字,第一轉(zhuǎn)換裝置102根據(jù)該字數(shù)限制,確定對應的文言文轉(zhuǎn)換結果。
[0036]又由于白話文中的疑問句、感嘆句等,在文言文中都有特定句式以及句式標記,因此,第一轉(zhuǎn)換裝置102還需考慮文言文的句型模式屬性。例如,該轉(zhuǎn)換設備I通過采用預置句式轉(zhuǎn)換模板的方式以考慮文言文的句型模式屬性,第一轉(zhuǎn)換裝置102根據(jù)第一獲取裝置101所獲取的白話文,基于預置的翻譯模型,并結合該預置句式轉(zhuǎn)換模板,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0037]進一步地,第一轉(zhuǎn)換裝置102在進行文言文轉(zhuǎn)換時,還可考慮用戶預置屬性,例如結合考慮用戶指定開頭或者結尾的用字等,以生成諸如“藏頭詩”等文言文。
[0038]本領域技術人員應能理解上述白話文-文言文的轉(zhuǎn)換方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的白話文-文言文的轉(zhuǎn)換方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領域技術人員還應能理解上述文言文屬性信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的文言文屬性信息如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0039]提供裝置103將所述文言文提供給所述用戶。具體地,提供裝置103根據(jù)第一轉(zhuǎn)換裝置102所轉(zhuǎn)換得到的文言文,通過屏幕顯示或揚聲器播放等方式,將所述文言文提供給該用戶。以屏幕顯示為例,該提供裝置103通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術,或通過其他約定的通信方式,將該第一轉(zhuǎn)換裝置102所轉(zhuǎn)換得到的文言文,在該用戶所使用的用戶設備的屏幕上進行顯示。例如,當該用戶使用手機發(fā)送短信時,在該手機的短信輸入框內(nèi)顯示所轉(zhuǎn)換得到的文言文;當該用戶使用計算機在游戲軟件中進行對話時,在該游戲軟件的對話輸入框內(nèi)顯示所轉(zhuǎn)換得到的文言文,或者,通過揚聲器播放的方式,在該游戲場景中語音播放所轉(zhuǎn)換得到的文言文。
[0040]本領域技術人員應能理解上述提供文言文的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的提供文言文的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0041]優(yōu)選地,轉(zhuǎn)換設備I的各個裝置之間是持續(xù)不斷工作的。具體地,第一獲取裝置101獲取用戶輸入的白話文;第一轉(zhuǎn)換裝置102根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文;提供裝置103將所述文言文提供給所述用戶。在此,本領域技術人員應理解“持續(xù)”是指轉(zhuǎn)換設備I的各裝置分別按照設定的或?qū)崟r調(diào)整的工作模式要求進行白話文的獲取、白話文-文言文的轉(zhuǎn)換、及文言文的提供,直至該轉(zhuǎn)換設備I在較長時間內(nèi)停止獲取用戶輸入的白話文。
[0042]在此,轉(zhuǎn)換設備I獲取用戶輸入的白話文,根據(jù)該白話文,基于翻譯模型,并結合文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文,并將該文言文提供給該用戶,滿足了用戶在白話文與文言文之間進行文體轉(zhuǎn)換的需求,提升了用戶的使用體驗。
[0043]優(yōu)選地,所述第一獲取裝置101獲取所述用戶在應用場景中所輸入的白話文;其中,所述提供裝置103將所述文言文在所述應用場景中提供給所述用戶;其中,所述應用場景包括以下至少任一項:
[0044]-手機短信場景;
[0045]-即時通信場景;
[0046]-自動對話問答系統(tǒng)場景;
[0047]-游戲軟件場景。
[0048]例如,用戶通過與手機的交互,在短信輸入框內(nèi)輸入了一段白話文,用戶通過預定的啟動方式,例如搖一搖手機、或者點擊預定按鈕之后,即啟動文言文轉(zhuǎn)換操作,該第一獲取裝置101獲取該用戶在該短信輸入框內(nèi)輸入的白話文,該第一轉(zhuǎn)換裝置102根據(jù)該白話文,基于翻譯模型,并結合文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文,該提供裝置103隨即在該手機的短信輸入框內(nèi)將該文言文提供給該用戶,該用戶可以直接發(fā)送至接收人,或者,對該文言文進行編輯之后再進行發(fā)送。當然,該提供裝置103也可直接將該轉(zhuǎn)換后的文言文發(fā)送至接收人。
[0049]又如,用戶通過與即時通信軟件的客戶端的交互,在即時通信輸入框內(nèi)輸入了一段白話文,用戶通過預定的啟動方式,例如點擊預定按鈕,啟動了文言文轉(zhuǎn)換操作,或者,當該用戶預設了“白話文-文言文”轉(zhuǎn)換的設置之后,該用戶無需再另外啟動該文言文轉(zhuǎn)換操作,每當該用戶在即時通信輸入框內(nèi)輸入一段白話文,該第一獲取裝置101即獲取該用戶輸入的白話文,該第一轉(zhuǎn)換裝置102隨即將該白話文轉(zhuǎn)換成與之對應的文言文,并由提供裝置103提供給該用戶或直接進行發(fā)送。
[0050]在自動對話問答系統(tǒng)場景、游戲軟件場景中,對用戶輸入的白話文進行文言文轉(zhuǎn)換的操作與上述在手機短信場景、即時通信場景中的操作基本相同,故此處不再贅述,并通過引用的方式包含于此。[0051]本領域技術人員應能理解上述應用場景僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的應用場景如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0052]在此,轉(zhuǎn)換設備I獲取用戶特定應用場景中所輸入的白話文,將該白話文轉(zhuǎn)換成對應的文言文,并在該特定應用場景中提供給該用戶,更進一步提升了用戶的使用體驗。
[0053]優(yōu)選地,該轉(zhuǎn)換設備I還包括第二獲取裝置(未示出),該第二獲取裝置獲取所述用戶所選擇的文言文文體;其中,所述第一轉(zhuǎn)換裝置102根據(jù)所述白話文,基于所述翻譯模型,并結合所述文言文文體所對應的文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文。具體地,由于文言文主要包括以先秦時期的口語為基礎而形成的書面語,其特征是以文字為基礎來寫作,注重典故、駢儷對仗、音律工整且不使用標點,包含策、詩、詞、曲、八股、駢文古文、散文等多種文體。因此,用戶可指定一種文言文文體,轉(zhuǎn)換設備I結合該用戶指定的文言文文體,對該用戶輸入的白話文進行文言文轉(zhuǎn)換。
[0054]例如,該用戶預設一種文言文文體,第二獲取裝置獲取該用戶所預設的文言文文體;第一轉(zhuǎn)換裝置102每次進行轉(zhuǎn)換時,根據(jù)第一獲取裝置101獲取的白話文,基于翻譯模型,并結合該用戶所預設的文言文文體所對應的文言文屬性信息,如該文言文文體所對應的文言文韻律屬性、文言文字數(shù)屬性、文言文句型模式屬性或用戶預置屬性等,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0055]又如,第一轉(zhuǎn)換裝置102每次需要進行轉(zhuǎn)換時,將可選的文言文文體提供給用戶,例如提供給用戶“策、詩、詞、曲、八股、駢文、散文”等文言文文體選項,用戶從中選擇一個想要轉(zhuǎn)換的文言文文體,第二獲取裝置獲取該用戶所選擇的文言文文體;第一轉(zhuǎn)換裝置102再根據(jù)第一獲取裝置101獲取的白話文,基于翻譯模型,并結合該用戶所選擇的文言文文體所對應的文言文屬性信息,如該文言文文體所對應的文言文韻律屬性、文言文字數(shù)屬性、文言文句型模式屬性或用戶預置屬性等,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0056]在此,轉(zhuǎn)換設備I還可以由用戶選擇所需轉(zhuǎn)換的文言文文體,結合該文言文文體所對應的文言文屬性信息,將用戶輸入的白話文轉(zhuǎn)換成與之對應的文言文,更進一步提升了用戶的使用體驗。
[0057]優(yōu)選地,該轉(zhuǎn)換設備I還包括更新裝置(未示出),該更新裝置根據(jù)語料庫中所存儲的白話文與文言文的預置對齊關系,建立或更新所述翻譯模型。具體地,更新裝置采用統(tǒng)計機器學習的方法,從大規(guī)?!半p語語料”中學習翻譯知識,這一學習的過程通常稱為“訓練”(training)?!坝柧殹蓖瓿梢院螅纯山⒎g模型,并進行翻譯。通常,機器翻譯訓練所需“雙語語料” 一般由互為翻譯的雙語句對組成。在此,對應好了的白話文-文言文文本可以看作雙語句對。為了從雙語句對中學習到翻譯模式,更新裝置首先需要對白話文和文言文做對齊,即為白話文的詞語找到所對應的文言文的“字”。這一過程更新裝置可以結合使用統(tǒng)計方法和基于規(guī)則的方法。在完成對齊后,更新裝置從對齊好的雙語句對中抽取互為翻譯的短語片段,并利用這些片段對翻譯模型進行建立或更新,以基于該翻譯模型完成文言文-白話文的轉(zhuǎn)換。
[0058]優(yōu)選地,該轉(zhuǎn)換設備I還包括第二轉(zhuǎn)換裝置(未示出),該第二轉(zhuǎn)換裝置獲取用戶輸入的文言文;根據(jù)所述文言文,基于所述翻譯模型,將所述文言文轉(zhuǎn)換成與之對應的白話文;將所述白話文提供給所述用戶。具體地,用戶還可通過與用戶設備的交互,在該用戶設備的輸入框內(nèi)輸入文言文,該第二轉(zhuǎn)換裝置通過與該用戶設備的交互,例如通過一次或多次調(diào)用該用戶設備提供的應用程序接口(API ),或其他約定的通信方式,獲取該用戶所輸入的文言文;隨后,該第二轉(zhuǎn)換裝置根據(jù)該用戶輸入的文言文,基于該翻譯模型,將該文言文轉(zhuǎn)換成與之對應的白話文;并通過屏幕顯示或揚聲器播放等方式,將該轉(zhuǎn)換后的白話文提供給該用戶。
[0059]在此,轉(zhuǎn)換設備I將用戶輸入的文言文轉(zhuǎn)換成對應的白話文的轉(zhuǎn)換方式及優(yōu)選實施例,與上述將用戶輸入的白話文轉(zhuǎn)換成對應的文言文的轉(zhuǎn)換方式基本相同,故此處不再贅述,并通過引用的方式包含于此。
[0060]在此,轉(zhuǎn)換設備I獲取用戶輸入的文言文,根據(jù)該文言文,基于翻譯模型,將該文言文轉(zhuǎn)換成與之對應的白話文,滿足了用戶從文言文轉(zhuǎn)換至白話文的需求,更進一步提升了用戶的使用體驗。
[0061]圖2示出根據(jù)本發(fā)明另一個方面的用于在白話文與文言文之間進行文體轉(zhuǎn)換的方法流程圖。
[0062]在步驟S201中,轉(zhuǎn)換設備I獲取用戶輸入的白話文。具體地,用戶通過與用戶設備的交互,在該用戶設備的輸入框內(nèi)輸入了白話文,在步驟S201中,轉(zhuǎn)換設備I通過與該用戶設備的交互,例如通過一次或多次調(diào)用該用戶設備提供的應用程序接口(API),或其他約定的通信方式,獲取該用戶所輸入的白話文。
[0063]在此,該用戶設備包括但不限于任何一種可與用戶通過鍵盤、鼠標、遙控器、觸摸板、或手寫設備等方式進行人機交互的電子產(chǎn)品,例如計算機、手機、PDA、掌上電腦PPC或IPTV等。該輸入框包括但不限于短信輸入框、即時通信輸入框、搜索輸入框、游戲?qū)υ捿斎肟虻取?br> [0064]本領域技術人員應能理解上述獲取用戶輸入的白話文的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取用戶輸入的白話文的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領域技術人員還應能理解上述用戶設備及輸入框僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的用戶設備或輸入框如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0065]在步驟S202中,轉(zhuǎn)換設備I根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文。具體地,在步驟S202中,轉(zhuǎn)換設備I根據(jù)在步驟S201中所獲取的用戶輸入的白話文,基于預置的翻譯模型,并結合諸如文言文韻律屬性、文言文字數(shù)屬性、文言文句型模式屬性、用戶預置屬性等文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0066]在此,該翻譯模型例如根據(jù)語料庫中所存儲的白話文與文言文的預置對齊關系來進行建立或更新。例如,該轉(zhuǎn)換設備I采用統(tǒng)計機器學習的方法,從大規(guī)模“雙語語料”中學習翻譯知識,這一學習的過程通常稱為“訓練”(training)?!坝柧殹蓖瓿梢院?,即可建立翻譯模型,并進行翻譯。通常,機器翻譯訓練所需“雙語語料” 一般由互為翻譯的雙語句對組成。在此,對應好了的白話文-文言文文本可以看作雙語句對。為了從雙語句對中學習到翻譯模式,首先需要對白話文和文言文作對齊,即為白話文的詞語找到所對應的文言文的“字”。這一過程轉(zhuǎn)換設備I可以結合使用統(tǒng)計方法和基于規(guī)則的方法。在完成對齊后,從對齊好的雙語句對中抽取互為翻譯的短語片段,并利用這些片段對翻譯模型進行建立或更新,以基于該翻譯模型完成白話文-文言文的轉(zhuǎn)換。
[0067]優(yōu)選地,所述文言文屬性信息包括以下至少任一項:
[0068]-文言文韻律屬性;
[0069]-文言文字數(shù)屬性;
[0070]-文言文句型模式屬性;
[0071]-用戶預置屬性。
[0072]在此,文言文的韻律屬性是指文言文的聲韻和節(jié)律,也即文言文的平仄和押韻規(guī)范。由于文言文,例如詩詞等,講究字詞的搭配、音調(diào)的和諧,因此,在將白話文轉(zhuǎn)換成文言文時,需要考慮文言文的韻律屬性,如文言文的平仄、對偶、押韻等。在步驟S202中,轉(zhuǎn)換設備I在對在步驟S201中所獲取的白話文進行轉(zhuǎn)換時,基于預置的翻譯模型,根據(jù)字詞所在的位置,有限選擇韻律符合預置文體的轉(zhuǎn)換結果。該預置文體例如是系統(tǒng)預置的、或用戶所選擇的,如詩經(jīng)體、宋詞的某個詞牌等文言文文體。
[0073]由于在步驟S202中,轉(zhuǎn)換設備I基于預置的翻譯模型進行轉(zhuǎn)換時,可能會生成不同長度的多個候選結果,因此,還需考慮文言文的字數(shù)屬性,根據(jù)預置的字數(shù)閾值,如預置文體所對應的字數(shù)限制,從該多個候選結果中選擇符合條件的文言文轉(zhuǎn)換結果。例如,五言格律對應的是五個字,而七言格律對應的是七個字,在步驟S202中,轉(zhuǎn)換設備I根據(jù)該字數(shù)限制,確定對應的文言文轉(zhuǎn)換結果。
[0074]又由于白話文中的疑問句、感嘆句等,在文言文中都有特定句式以及句式標記,因此,在步驟S202中,轉(zhuǎn)換設備I還需考慮文言文的句型模式屬性。例如,該轉(zhuǎn)換設備I通過采用預置句式轉(zhuǎn)換模板的方式以考慮文言文的句型模式屬性,在步驟S202中,轉(zhuǎn)換設備I根據(jù)在步驟S201中所獲取的白話文,基于預置的翻譯模型,并結合該預置句式轉(zhuǎn)換模板,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0075]進一步地,在步驟S202中,轉(zhuǎn)換設備I在進行文言文轉(zhuǎn)換時,還可考慮用戶預置屬性,例如結合考慮用戶指定開頭或者結尾的用字等,以生成諸如“藏頭詩”等文言文。
[0076]本領域技術人員應能理解上述白話文-文言文的轉(zhuǎn)換方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的白話文-文言文的轉(zhuǎn)換方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領域技術人員還應能理解上述文言文屬性信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的文言文屬性信息如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0077]在步驟S203中,轉(zhuǎn)換設備I將所述文言文提供給所述用戶。具體地,在步驟S203中,轉(zhuǎn)換設備I根據(jù)在步驟S202中所轉(zhuǎn)換得到的文言文,通過屏幕顯示或揚聲器播放等方式,將所述文言文提供給該用戶。以屏幕顯示為例,在步驟S202中,轉(zhuǎn)換設備I通過調(diào)用諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術,或通過其他約定的通信方式,將在步驟S202中所轉(zhuǎn)換得到的文言文,在該用戶所使用的用戶設備的屏幕上進行顯示。例如,當該用戶使用手機發(fā)送短信時,在該手機的短信輸入框內(nèi)顯示所轉(zhuǎn)換得到的文言文;當該用戶使用計算機在游戲軟件中進行對話時,在該游戲軟件的對話輸入框內(nèi)顯示所轉(zhuǎn)換得到的文言文,或者,通過揚聲器播放的方式,在該游戲場景中語音播放所轉(zhuǎn)換得到的文言文。
[0078]本領域技術人員應能理解上述提供文言文的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的提供文言文的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0079]優(yōu)選地,轉(zhuǎn)換設備I的各個步驟之間是持續(xù)不斷工作的。具體地,在步驟S201中,轉(zhuǎn)換設備I獲取用戶輸入的白話文;在步驟S202中,轉(zhuǎn)換設備I根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文;在步驟S203中,轉(zhuǎn)換設備I將所述文言文提供給所述用戶。在此,本領域技術人員應理解“持續(xù)”是指轉(zhuǎn)換設備I的各步驟分別按照設定的或?qū)崟r調(diào)整的工作模式要求進行白話文的獲取、白話文-文言文的轉(zhuǎn)換、及文言文的提供,直至該轉(zhuǎn)換設備I在較長時間內(nèi)停止獲取用戶輸入的白話文。
[0080]在此,轉(zhuǎn)換設備I獲取用戶輸入的白話文,根據(jù)該白話文,基于翻譯模型,并結合文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文,并將該文言文提供給該用戶,滿足了用戶在白話文與文言文之間進行文體轉(zhuǎn)換的需求,提升了用戶的使用體驗。
[0081]優(yōu)選地,在步驟S201中,轉(zhuǎn)換設備I獲取所述用戶在應用場景中所輸入的白話文;其中,在步驟S203中,轉(zhuǎn)換設備I將所述文言文在所述應用場景中提供給所述用戶;其中,所述應用場景包括以下至少任一項:
[0082]_手機短/[目場景;
[0083]-即時通f目場景;
[0084]-自動對話問答系統(tǒng)場景;
[0085]-游戲軟件場景。
[0086]例如,用戶通過與手機的交互,在短信輸入框內(nèi)輸入了一段白話文,用戶通過預定的啟動方式,例如搖一搖手機、或者點擊預定按鈕之后,即啟動文言文轉(zhuǎn)換操作,在步驟S201中,轉(zhuǎn)換設備I獲取該用戶在該短信輸入框內(nèi)輸入的白話文,在步驟S202中,轉(zhuǎn)換設備I根據(jù)該白話文,基于翻譯模型,并結合文言文屬性信息,將該白話文轉(zhuǎn)換成與之對應的文言文,在步驟S203中,轉(zhuǎn)換設備I隨即在該手機的短信輸入框內(nèi)將該文言文提供給該用戶,該用戶可以直接發(fā)送至接收人,或者,對該文言文進行編輯之后再進行發(fā)送。當然,在步驟S203中,轉(zhuǎn)換設備I也可直接將該轉(zhuǎn)換后的文言文發(fā)送至接收人。
[0087]又如,用戶通過與即時通信軟件的客戶端的交互,在即時通信輸入框內(nèi)輸入了一段白話文,用戶通過預定的啟動方式,例如點擊預定按鈕,啟動了文言文轉(zhuǎn)換操作,或者,當該用戶預設了“白話文-文言文”轉(zhuǎn)換的設置之后,該用戶無需再另外啟動該文言文轉(zhuǎn)換操作,每當該用戶在即時通信輸入框內(nèi)輸入一段白話文,在步驟S201中,轉(zhuǎn)換設備I即獲取該用戶輸入的白話文,在步驟S202中,轉(zhuǎn)換設備I隨即將該白話文轉(zhuǎn)換成與之對應的文言文,在步驟S203中,轉(zhuǎn)換設備I提供給該用戶或直接進行發(fā)送。
[0088]在自動對話問答系統(tǒng)場景、游戲軟件場景中,對用戶輸入的白話文進行文言文轉(zhuǎn)換的操作與上述在手機短信場景、即時通信場景中的操作基本相同,故此處不再贅述,并通過引用的方式包含于此。
[0089]本領域技術人員應能理解上述應用場景僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的應用場景如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
[0090]在此,轉(zhuǎn)換設備I獲取用戶特定應用場景中所輸入的白話文,將該白話文轉(zhuǎn)換成對應的文言文,并在該特定應用場景中提供給該用戶,更進一步提升了用戶的使用體驗。[0091]優(yōu)選地,該方法還包括步驟S204 (未示出),在步驟S204中,轉(zhuǎn)換設備I獲取所述用戶所選擇的文言文文體;其中,在步驟S202中,轉(zhuǎn)換設備I根據(jù)所述白話文,基于所述翻譯模型,并結合所述文言文文體所對應的文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文。具體地,由于文言文主要包括以先秦時期的口語為基礎而形成的書面語,其特征是以文字為基礎來寫作,注重典故、駢儷對仗、音律工整且不使用標點,包含策、詩、詞、曲、八股、駢文古文、散文等多種文體。因此,用戶可指定一種文言文文體,轉(zhuǎn)換設備I結合該用戶指定的文言文文體,對該用戶輸入的白話文進行文言文轉(zhuǎn)換。
[0092]例如,該用戶預設一種文言文文體,在步驟S204中,轉(zhuǎn)換設備I獲取該用戶所預設的文言文文體;在步驟S202中,轉(zhuǎn)換設備I每次進行轉(zhuǎn)換時,根據(jù)在步驟S201中獲取的白話文,基于翻譯模型,并結合該用戶所預設的文言文文體所對應的文言文屬性信息,如該文言文文體所對應的文言文韻律屬性、文言文字數(shù)屬性、文言文句型模式屬性或用戶預置屬性等,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0093]又如,在步驟S202中,轉(zhuǎn)換設備I每次需要進行轉(zhuǎn)換時,將可選的文言文文體提供給用戶,例如提供給用戶“策、詩、詞、曲、八股、駢文、散文”等文言文文體選項,用戶從中選擇一個想要轉(zhuǎn)換的文言文文體,在步驟S204中,轉(zhuǎn)換設備I獲取該用戶所選擇的文言文文體;在步驟S202中,轉(zhuǎn)換設備I再根據(jù)在步驟S201中獲取的白話文,基于翻譯模型,并結合該用戶所選擇的文言文文體所對應的文言文屬性信息,如該文言文文體所對應的文言文韻律屬性、文言文字數(shù)屬性、文言文句型模式屬性或用戶預置屬性等,將該白話文轉(zhuǎn)換成與之對應的文言文。
[0094]在此,轉(zhuǎn)換設備I還可以由用戶選擇所需轉(zhuǎn)換的文言文文體,結合該文言文文體所對應的文言文屬性信息,將用戶輸入的白話文轉(zhuǎn)換成與之對應的文言文,更進一步提升了用戶的使用體驗。
[0095]優(yōu)選地,該方法還包括步驟S205 (未示出),在步驟S205中,轉(zhuǎn)換設備I根據(jù)語料庫中所存儲的白話文與文言文的預置對齊關系,建立或更新所述翻譯模型。具體地,在步驟S205中,轉(zhuǎn)換設備I采用統(tǒng)計機器學習的方法,從大規(guī)?!半p語語料”中學習翻譯知識,這一學習的過程通常稱為“訓練”(training)?!坝柧殹蓖瓿梢院?,即可建立翻譯模型,并進行翻譯。通常,機器翻譯訓練所需“雙語語料”一般由互為翻譯的雙語句對組成。在此,對應好了的白話文-文言文文本可以看作雙語句對。為了從雙語句對中學習到翻譯模式,在步驟S205中,轉(zhuǎn)換設備I首先需要對白話文和文言文做對齊,即為白話文的詞語找到所對應的文言文的“字”。這一過程轉(zhuǎn)換設備I可以結合使用統(tǒng)計方法和基于規(guī)則的方法。在完成對齊后,在步驟S205中,轉(zhuǎn)換設備I從對齊好的雙語句對中抽取互為翻譯的短語片段,并利用這些片段對翻譯模型進行建立或更新,以基于該翻譯模型完成文言文-白話文的轉(zhuǎn)換。
[0096]優(yōu)選地,該方法還包括步驟S206 (未示出),在步驟S206中,轉(zhuǎn)換設備I獲取用戶輸入的文言文;根據(jù)所述文言文,基于所述翻譯模型,將所述文言文轉(zhuǎn)換成與之對應的白話文;將所述白話文提供給所述用戶。具體地,用戶還可通過與用戶設備的交互,在該用戶設備的輸入框內(nèi)輸入文言文,在步驟S206中,轉(zhuǎn)換設備I通過與該用戶設備的交互,例如通過一次或多次調(diào)用該用戶設備提供的應用程序接口(API),或其他約定的通信方式,獲取該用戶所輸入的文言文;隨后,該轉(zhuǎn)換設備I根據(jù)該用戶輸入的文言文,基于該翻譯模型,將該文言文轉(zhuǎn)換成與之對應的白話文;并通過屏幕顯示或揚聲器播放等方式,將該轉(zhuǎn)換后的白話文提供給該用戶。
[0097]在此,轉(zhuǎn)換設備I將用戶輸入的文言文轉(zhuǎn)換成對應的白話文的轉(zhuǎn)換方式及優(yōu)選實施例,與上述將用戶輸入的白話文轉(zhuǎn)換成對應的文言文的轉(zhuǎn)換方式基本相同,故此處不再贅述,并通過引用的方式包含于此。
[0098]在此,轉(zhuǎn)換設備I獲取用戶輸入的文言文,根據(jù)該文言文,基于翻譯模型,將該文言文轉(zhuǎn)換成與之對應的白話文,滿足了用戶從文言文轉(zhuǎn)換至白話文的需求,更進一步提升了用戶的使用體驗。
[0099]需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(ASIC)、通用目的計算機或任何其他類似硬件設備來實現(xiàn)。在一個實施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關的數(shù)據(jù)結構)可以被存儲到計算機可讀記錄介質(zhì)中,例如,RAM存儲器,磁或光驅(qū)動器或軟磁盤及類似設備。另外,本發(fā)明的一些步驟或功能可采用硬件來實現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。
[0100]另外,本發(fā)明的一部分可被應用為計算機程序產(chǎn)品,例如計算機程序指令,當其被計算機執(zhí)行時,通過該計算機的操作,可以調(diào)用或提供根據(jù)本發(fā)明的方法和/或技術方案。而調(diào)用本發(fā)明的方法的程序指令,可能被存儲在固定的或可移動的記錄介質(zhì)中,和/或通過廣播或其他信號承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲在根據(jù)所述程序指令運行的計算機設備的工作存儲器中。在此,根據(jù)本發(fā)明的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執(zhí)行程序指令的處理器,其中,當該計算機程序指令被該處理器執(zhí)行時,觸發(fā)該裝置運行基于前述根據(jù)本發(fā)明的多個實施例的方法和/或技術方案。
[0101]對于本領域技術人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此夕卜,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復數(shù)。裝置權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
【權利要求】
1.一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的方法,其中,該方法包括以下步驟: a獲取用戶輸入的白話文; b根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文; c將所述文言文提供給所述用戶。
2.根據(jù)權利要求1所述的方法,其中,該方法還包括: -獲取所述用戶所選擇的文言文文體; 其中,所述步驟b包括: -根據(jù)所述白話文,基于所述翻譯模型,并結合所述文言文文體所對應的文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文。
3.根據(jù)權利要求1或2所述的方法,其中,該方法還包括: -根據(jù)語料庫中所存儲的白話文與文言文的預置對齊關系,建立或更新所述翻譯模型。
4.根據(jù)權利要 求1至3中任一項所述的方法,其中,所述文言文屬性信息包括以下至少任一項: -文言文韻律屬性; -文言文字數(shù)屬性; -文言文句型模式屬性; -用戶預置屬性。
5.根據(jù)權利要求1至4中任一項所述的方法,其中,所述步驟a包括: -獲取所述用戶在應用場景中所輸入的白話文; 其中,所述步驟c包括: -將所述文言文在所述應用場景中提供給所述用戶; 其中,所述應用場景包括以下至少任一項: -手機短場景; -即時通信場景; -自動對話問答系統(tǒng)場景; -游戲軟件場景。
6.根據(jù)權利要求1至5中任一項所述的方法,其中,該方法還包括: -獲取用戶輸入的文言文; -根據(jù)所述文言文,基于所述翻譯模型,將所述文言文轉(zhuǎn)換成與之對應的白話文; -將所述白話文提供給所述用戶。
7.一種用于在白話文與文言文之間進行文體轉(zhuǎn)換的轉(zhuǎn)換設備,其中,該設備包括: 第一獲取裝置,用于獲取用戶輸入的白話文; 第一轉(zhuǎn)換裝置,用于根據(jù)所述白話文,基于翻譯模型,并結合文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文; 提供裝置,用于將所述文言文提供給所述用戶。
8.根據(jù)權利要求7所述的轉(zhuǎn)換設備,其中,該設備還包括: 第二獲取裝置,用于獲取所述用戶所選擇的文言文文體;其中,所述第一轉(zhuǎn)換裝置用于: -根據(jù)所述白話文,基于所述翻譯模型,并結合所述文言文文體所對應的文言文屬性信息,將所述白話文轉(zhuǎn)換成與之對應的文言文。
9.根據(jù)權利要求7或8所述的轉(zhuǎn)換設備,其中,該設備還包括: 更新裝置,用于根據(jù)語料庫中所存儲的白話文與文言文的預置對齊關系,建立或更新所述翻譯模型。
10.根據(jù)權利要求7至9中任一項所述的轉(zhuǎn)換設備,其中,所述文言文屬性信息包括以下至少任一項: -文言文韻律屬性; -文言文字數(shù)屬性; -文言文句型模式屬性; -用戶預置屬性。
11.根據(jù)權利要求7至10中任一項所述的轉(zhuǎn)換設備,其中,所述第一獲取裝置用于: -獲取所述用戶在應用場景中所輸入的白話文; 其中,所述提供裝 置用于: -將所述文言文在所述應用場景中提供給所述用戶; 其中,所述應用場景包括以下至少任一項: _手機短信場景; -即時通信場景; -自動對話問答系統(tǒng)場景; -游戲軟件場景。
12.根據(jù)權利要求7至11中任一項所述的轉(zhuǎn)換設備,其中,該設備還包括第二轉(zhuǎn)換裝置,用于: -獲取用戶輸入的文言文; -根據(jù)所述文言文,基于所述翻譯模型,將所述文言文轉(zhuǎn)換成與之對應的白話文; -將所述白話文提供給所述用戶。
【文檔編號】G06F17/28GK103955454SQ201410104024
【公開日】2014年7月30日 申請日期:2014年3月19日 優(yōu)先權日:2014年3月19日
【發(fā)明者】馬艷軍, 和為, 劉偉, 吳禮文, 李偉, 劉璇, 吳華, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1