專利名稱::一種基于網(wǎng)頁的互譯翻譯對抽取方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及詞典軟件
技術(shù)領(lǐng)域:
,尤其涉及一種基于網(wǎng)頁的互譯翻譯對抽取方法及裝置。
背景技術(shù):
:在計算機廣泛使用的今天,為了滿足人們學(xué)習(xí)外語的迫切需要,一種用于計算機的詞典軟件應(yīng)運而生。詞典軟件收錄了傳統(tǒng)紙質(zhì)雙語詞典的一般內(nèi)容,為使用計算機的用戶學(xué)習(xí)外語提供了便捷的條件。在互聯(lián)網(wǎng)飛速發(fā)展的今天,大量的外語新詞以及新詞組層出不窮,這些新詞與新詞組往往出現(xiàn)的時間較短,變化較快,生存周期不確定。而人們常常需要了解或者查詢這些新詞或者新詞組,所以,詞典軟件還需要能夠查詢到用戶希望得知的新詞或者新詞組的譯文,并且及時收錄這些新詞或者新詞組的互i奪翁3譯對。通過現(xiàn)有詞典軟件技術(shù),查詢新詞或者新詞組包括以下步驟當用戶輸入需要查詢的新詞或者新詞組時,詞典軟件根據(jù)輸入的新詞或者新詞組所使用的語言,獲取包含輸入的新詞或者新詞組的此種語言的文本(簡便起見,稱為第一種文本),以及與第一種文本互為譯文的、用戶想要得知的文本(稱為第二種文本)。再從第一種文本中,獲取包含需要查詢的新詞或者新詞組的句子,從第二種文本中,獲取包含與需要查詢的新詞或者新詞組構(gòu)成互譯的詞或者詞組的句子。在獲:f又的兩種語言的句子中,對于新詞或者新詞組,計算可能構(gòu)成互譯的翻譯對的概率。由于在計算概率的過程中,可能會出現(xiàn)如下情況將互譯翻譯對判斷錯誤,將不是需要查詢的新詞或者新詞組的譯文當作正確的,計算這樣錯誤的一對互譯翻譯對出現(xiàn)的概率。但是,這種錯誤的情況概率較低,而判斷正確的互譯翻譯對計算出的概率較高,將出現(xiàn)概率比較高的情況稱為對齊,根據(jù)輸入的新詞或者新詞組的對齊結(jié)果,抽取出兩種不同語言的詞或者詞組作為互譯翻譯對?,F(xiàn)有技術(shù)的缺點是,在網(wǎng)頁上,同時具有第一種文本與第二種文本的情況較為少見,因此,獲取較為困難。除此之外,在計算概率的過程中,由于存在上述錯誤情況,導(dǎo)致得到的互譯翻譯對不準確,為了保證準確率,需要多次計算概率,造成計算數(shù)據(jù)量大,耗時的結(jié)果。
發(fā)明內(nèi)容有鑒于此,本發(fā)明實施例提供了一種基于網(wǎng)頁的互譯翻譯對抽取方法及裝置,以解決現(xiàn)有技術(shù)不便于查詢與收錄用戶所需的新詞或者新詞組的互譯翻i奪對。一種基于網(wǎng)頁的互譯翻譯對抽取方法,所述方法包括針對查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本;從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對;計算所述文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。優(yōu)選地,所述文本對具體為括號型文本對。優(yōu)選地,所述括號型文本對具體為中英文括號型文本對。優(yōu)選地,從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對的具體實現(xiàn)為號后的字符為連續(xù)英文字符,如果是,則執(zhí)行步驟A2,否則,返回步驟A1;執(zhí)行步驟A3,否則,返回步驟A1;優(yōu)選地,所述計算所述文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對的具體實現(xiàn)為所述文本對生成至少一個雙語二元組,所述雙語二元組為兩種語言組成的二元組;根據(jù)所述雙語二元組的特征函數(shù)計算所述雙語二元組的分值;從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻譯對。優(yōu)選地,所述特征函數(shù)具體為頻度。優(yōu)選地,所述從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻譯對的具體實現(xiàn)為將所述雙語二元組按照分值的降序進行排列;從按照分值降序排列的雙語二元組中,抽取分值大于預(yù)設(shè)門限值的雙語二元組作為互譯翻譯對??蛇x地,在所述文本對生成至少一個雙語二元組之前,還包括將所述具有特殊標識的、包含兩種語言的文本對進行規(guī)范??蛇x地,在所述從才艮據(jù)分值進行排列的雙語二元組中,抽耳又出所述互i奪翻譯對之后,還包括將抽取出的所述互譯翻譯對還原至原網(wǎng)頁格式。可選地,在所述將抽取出的所述互譯翻譯對還原至原網(wǎng)頁格式之后,還包括建立查詢所述互譯翻譯對的索引??蛇x地,在從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對之前,還包括將網(wǎng)頁上不同編碼的文本轉(zhuǎn)換為同一種編碼的文本;所述從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對的具體實現(xiàn)為從所述同一種編碼的文本中^是取具有特殊標識的、包含兩種語言的文本對。一種基于網(wǎng)頁的互譯翻譯對抽取的裝置,所述裝置包括搜索單元,用于針對查詢的詞或者詞組,乂人網(wǎng)頁上搜索包含所述詞或者詞纟且的文本;提取單元,用于從所述搜索單元搜索的文本中提取至少一個具有特殊標識的、包含兩種語言的文本對;抽取單元,用于根據(jù)計算所述提取單元提取的文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。優(yōu)選地,所述提取單元用于提取中英文括號型文本對,所述才是取單元包括號,且所述左括號后的字符為連續(xù)英文字符;第二判斷單元,用于當?shù)谝慌袛鄦卧袛喑鲎罄ㄌ柷宜鲎罄ㄌ柡蟮淖址麨檫B續(xù)英文字符時,判斷與所述連續(xù)英文字符相鄰的后面的字符是否是右括號;中英文提取單元,用于當所述第二判斷單元判斷為右括號時,提取所述連續(xù)中文字符以及所述連續(xù)英文字符構(gòu)成的文本對。優(yōu)選地,所述抽取單元包括雙語二元組生成單元,用于根據(jù)所述提取單元提取的文本對,生成至少一個雙語二元組,所述雙語二元組為兩種語言組成的二元組;計算單元,用于根據(jù)所述雙語二元組生成單元生成的雙語二元組的特征函數(shù),計算所述雙語二元組的分值;互譯翻譯對單元,用于根據(jù)計算單元計算出的分值,從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻i奪對。優(yōu)選地,所述互譯翻譯對單元包括排序單元,用于根據(jù)計算單元計算出的分值的降序,將所述雙語二元組進行排列;互譯翻譯對抽取單元,用于從根據(jù)排序單元降序排列的雙語二元組中,抽取出分值大于預(yù)設(shè)門限值的雙語二元組作為所述互譯翻譯對??蛇x地,所述裝置還包括規(guī)范單元,用于將提取單元提取出的具有特殊標識的、包含兩種語言的文本對進行^L范??蛇x地,所述裝置還包括還原單元,用于將抽取單元抽取的所述互譯翻譯對還原至原網(wǎng)頁格式。可選地,所述裝置還包括索引單元,用于根據(jù)所述還原單元還原出的互譯翻譯對,建立查詢所述互譯翻譯對的索引??蛇x地,所述裝置還包括轉(zhuǎn)換單元,用于將網(wǎng)頁上不同編碼的文本轉(zhuǎn)換為同一種編碼的文本;所述提取單元用于從所述轉(zhuǎn)換單元轉(zhuǎn)換的同一種編碼的文本中提取具有特殊標識的文本對??梢?,本發(fā)明具有如下有益效果本發(fā)明提供的方法將具有特殊標識的文本對作為查詢的新詞或者新詞組的背景資料,由于具有特殊標識的文本對在網(wǎng)頁中大量存在,并且具有特殊標識的文本對具有明顯的標識,例如括號,所以,獲取較為容易,而且大大減少了工作量。除此之外,由于具有特殊標識的文本對往往是兩種語言的互譯翻譯對,通過獲耳又具有特殊標識的文本對,大大提高了互譯翻譯對的正確率,從而,可以將具有特殊標識的文本對組成雙語二元組,通過雙語二元組的特征函數(shù)計算分值,僅根據(jù)分值的排序就可以抽取出互譯的翻譯對,這樣,抽取所要進行的計算量大大降低,而且節(jié)約了大量的時間。圖1為本發(fā)明方法流程圖2為提取括號型文本對的方法流程圖3為本發(fā)明演示效果圖4為本發(fā)明裝置結(jié)構(gòu)圖。具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。本發(fā)明可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如個人計算機、服務(wù)器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。請參考圖1,示出了本發(fā)明的一種基于網(wǎng)頁的互譯翻譯對抽取方法實施例流程圖,可以包括步驟101:針對查詢的詞或者詞組,從網(wǎng)頁上4叟索包含所述詞或者詞組的文本。步驟102:從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對。步驟103:計算所述文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。下面結(jié)合實施例對圖1所示各步驟進行詳細說明。本發(fā)明實施例從網(wǎng)頁獲取文本,從獲取的文本中將具有特殊標識的文本提取出來,并組成雙語二元組,計算雙語二元組出現(xiàn)的頻度以及分值,根據(jù)分值的計算結(jié)果,將雙語二元組進行排序,根據(jù)實際需要抽取出相應(yīng)的雙語二元組,組成互譯翻譯對。本發(fā)明實施例提供的方法可用于多種語言的互譯,為了便于說明,本文中僅以中英文互譯為例進行說明。下面分為各步驟詳細說明。本發(fā)明實施例可以包括Al、輸入要查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本。A2、下載搜索到的文本,將下載的網(wǎng)頁文本進行編碼識別,并將不同編碼的文本轉(zhuǎn)換為同一種編碼的文本。以中文網(wǎng)頁為例,不同網(wǎng)頁有不同的編碼:技術(shù),例如,可以有GBK/GB18030,UFT8以及BIG5,并且,BIG5是港臺地區(qū)使用的繁體漢字編碼技術(shù)。為了便于本發(fā)明處理,需要將不同網(wǎng)頁上不同編碼的文本轉(zhuǎn)換為同一種編碼的文本,例如,可以轉(zhuǎn)換為GBK文本。當出現(xiàn)有些網(wǎng)頁是繁體漢字時,還需要將繁體漢字轉(zhuǎn)換為簡體漢字。A3、提取編碼轉(zhuǎn)換后的文本。A4、從^是取的編碼轉(zhuǎn)換后的文本中,提耳又具有特殊標識的文本對。此處,具有特殊標識的文本對可以是括號型文本對,所謂括號型文本,是指在提取編碼轉(zhuǎn)換后的文本中,出現(xiàn)有括號注釋形式的文本。例如,"…木馬的全稱叫特洛伊木馬(Trojanhorse),源自于希臘故事…"就屬于括號型文本,其中,"木馬的全稱叫特洛伊木馬"是被注釋文本,"Trojanhorse"是注釋文本。將注釋文本和被注釋文本的組合稱為括號型文本對,比如"木馬的全稱叫特洛伊木馬"與"Trojanhorse"組成括號型文本對<"木馬的全稱叫特洛伊木馬,,,"Trojanhorse">。A5、將提取出的具有特殊標識的文本對進行預(yù)處理。預(yù)處理的目的是將括號型文本對進行規(guī)范,便于后續(xù)處理。預(yù)處理可以包括去除冗余信息,對于中文文本,將全角轉(zhuǎn)換為半角以及自動分詞。自動分詞的作用是將中文的語句轉(zhuǎn)換為詞序列,例如,步驟A3中的括號型文本對<"木馬的全稱叫特洛伊木馬","Trojanhorse">,其中的中文文本"木馬的全稱叫特洛伊木馬"自動分詞后,為"木馬的全稱叫特洛伊木馬,,。對于英文文本,可以將大寫改為小寫,并去除多于的空格符號。比如,步驟A4中的括號型文本對〈"木馬的全稱叫特洛伊木馬","Trojanhorse">,其中的英文文本"Trojanhorse"f務(wù)改后,為"trojanhorse"。A6、將具有特殊標識的文本對組成雙語二元組,雙語二元組為兩種語言組成的二元組。令中文文本C自動分詞后的詞序列中的詞為Cn,CnM,…,Q,英文文本為E,則產(chǎn)生的雙語二元組可以為(d,E),(C2d,E),…,(Cn-,Cn—2…Q,E)。A7、將步驟A6中產(chǎn)生的所有相同的雙語二元組合并,求合并時各雙語二元組的頻度,即合并時各雙語二元組出現(xiàn)的次數(shù),記為c(c,…q,五),其中,1《i<n。A8、根據(jù)合并后各雙語二元組的頻度,計算雙語二元組的分值,記為S。分值的計算公式為括號型文本對的函數(shù),具體為6^/(C,EHO(C,勾k^(ICI+l),c(c,E)表示某個雙語二元組的頻度,其中的C表示步驟A6中的Ci…d,ICI表示該雙語二元組文本C的文本字數(shù)。需要說明的是,在步驟A8中,還可根據(jù)雙語二元組的其它特征函數(shù)計算分值,分值仍然是C和E的函數(shù),但是,計算分值的公式不限于此。在本實施例和下文中,僅以才艮據(jù)頻度計算分值為例進行說明。A9、根據(jù)分值的大小將具有特殊標識的文本對進行排列,根據(jù)需要取k個相應(yīng)的雙語二元組作為互if翻i,對。AIO、將作為互譯結(jié)果的互譯翻譯對進行后續(xù)處理。后續(xù)處理可以包括去除標點符號,如果括號型文本對的中文文本中有標點符號,如引號、書名號、橫線等,去除這些標點符號。后續(xù)處理還可以包括將括號型文本對中的英文文本恢復(fù)至原來大小寫的^f各式。All、將重復(fù)的互譯翻譯對合并為一個,作為結(jié)果的互譯翻譯對生成雙語詞典。A12、建立索引,以^更在生成的雙語詞典中查詢。下面結(jié)合一個具體實例,對本發(fā)明實施例進4于詳細i兌明。在本具體實例中,具有特殊標識的文本對為括號型文本對。具體步驟如下Bl、輸入要查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本。B2、下載搜索到的文本,將下載的網(wǎng)頁文本進行編碼識別,并將不同編碼的文本轉(zhuǎn)換為同一種編碼的文本。B3、從提取的編碼轉(zhuǎn)換后的文本中,提取含有"(Trojanhorse)"或者"(trojanhorse)"的文本,在具體實例中,可以包括…木馬的全稱叫啦文特洛伊木馬(Trojanhorse)...…木馬,全稱特洛伊木馬(trojanhorse)……誰能介紹個比較好點的特洛伊木馬(TrojanHorse)專殺工具啊……特洛伊木馬(trojanhorse)簡稱"木馬"...B4、從B3提取的文本中,提取括號型文本對,請參考圖2,示出了提取括號型文本對的方法流程圖步驟201、輸入字符流,即編碼轉(zhuǎn)換后的文本。步驟202、從字符流中取出不含標點的連續(xù)中文字符,記為C。步驟203、在字符流中,在取出的不含標點的連續(xù)中文字符的后面取一個字符。步驟204、判斷取出的一個字符是否是左括號"(",若是,則進入步驟205,否則,返回步驟202。步驟205、在"("之后,取不含標點的連續(xù)英文字符,記為E。步驟206、在取得的不含標點的連續(xù)英文字符之后,取一個字符。步驟207、判斷步驟206中取得的一個字符是否是右括號")",若是,則進入步驟208,否則,進入步驟202。步驟208、C與E組成括號型文本對。圖2所示提取括號型文本對的過程直到將輸入的字符流全部處理完為止。圖2所示提取括號型文本對僅為其中一個方法,適用于括號在中文文本后面,且括號中是英文文本的情況。對于括號在中文文本前面,且括號中是英文文本的情況,或者,括號在英文文本后面,且括號中是中文文本的情況,以及括號在英文文本前面,且括號中是中文文本的情況,圖2所示的方法同樣適用,不同之處僅在于,對于括號中是中文的情形,提取中英文的先后順序不同,對于括號在文本前面或者后面的情形,判斷左括號右括號的順序不同。利用圖2所示的步驟,從步驟B3提供的文本中,可以提取如下括號型文本對<"木馬的全稱叫做特洛伊木馬","Trojanhorse"〉〈"全稱特洛伊木馬","trojanhorse"〉<"誰能介紹個比較好點的特洛伊木馬","TrojanHorse">〈"特洛伊木馬","trojanhorse,,>B5、將B4得到的括號型文本對預(yù)處理。對括號型文本對中的中文文本進行自動分詞,對括號型文本對中的英文文本進行小寫化處理,具體為<"木馬的全稱叫做特洛伊木馬","trojanhorse,,><"全稱特洛伊木馬","trojanhorse"〉<"誰能介紹個比較好點的特洛伊木馬","trojanhorse,,><"特洛伊木馬,,,"trojanhorse"〉B6、將B5中各括號型文本對組成雙語二元組,具體為<"木馬的全稱叫做特洛伊木馬,,,"trojanhorse"〉可以組成如下雙語二元組("木馬","trojanhorse"),其中的"木馬"即為步驟A5中的C,"trojanhorse"即為步驟A5中的E,以下雙語二元組依次類推;("特洛伊木馬,,,"trojanhorse");("叫估爻特洛伊木馬,,,"trojanhorse");("全稱叫做特洛伊木馬,,,"trojanhorse");("的全稱叫做特洛伊木馬","trojanhorse");("木馬的全稱叫做特洛伊木馬","trojanhorse")。<"全稱特洛伊木馬,,,"trojanhorse,,〉可以組成如下雙語二元組("木馬","trojanhorse");("特洛^尹木馬","trojanhorse");("全稱特洛伊木馬,,,"trojanhorse")。<"誰能介紹個比較好點的特洛伊木馬","trojanhorse"〉可以組成如下雙語二元組("木馬","trojanhorse");("特洛^f尹木馬","trojanhorse");("的特洛4尹木馬","trojanhorse");("點的特洛伊木馬","trojanhorse");("好點的特洛伊木馬,,,"trojanhorse");("比較好點的特洛伊木馬","trojanhorse");("個比較好點的特洛伊木馬","trojanhorse");("介紹個比較好點的特洛伊木馬","trojanhorse");("能介紹個比較好點的特洛伊木馬","trojanhorse");("誰能介紹個比較好點的特洛伊木馬","trojanhorse,,)。<"特洛伊木馬,,,"trojanhorse"〉可以組成如下雙語二元組("木馬,,,"trojanhorse")5("特;^f尹木馬","trojanhorse")。B7、將B6得到的所有雙語二元組中,相同的雙語二元組合并,合并后的雙語二元組以及合并時各雙語二元組出現(xiàn)的次數(shù)(即頻度)請參見表l所示表l<table>tableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table>B9、取k為l,則根據(jù)分值大小,選取的結(jié)果是,選擇雙語二元組("特洛伊木馬","trojanhorse")作為互譯翻譯對。BIO、對互譯翻譯對("特洛伊木馬","trojanhorse")進行一些后續(xù)處理,將("特洛伊木馬,,,"trojanhorse")轉(zhuǎn)換為("特洛伊木馬,,,"Trojanhorse")。Bll、建立索引,以^_查詢。請參考圖3,示出了利用本具體實例的演示結(jié)果。輸入需要查詢的"特洛伊木馬",通過本發(fā)明提供的方法,查詢出4種英文翻譯,而且,還給出了4種翻譯的出處。具體為1.Trojanhorse......木馬的全稱叫做特洛伊木馬(Trojanhorse),來源于希臘故事?lián)f希臘人藏身在木馬內(nèi)進入了特洛伊城,后來為希臘軍隊打開了城門,進而獲得了戰(zhàn)爭的勝利......2.Trojanhorse......不會盜我的游戲帳號的?卡巴斯基清除不了,怎么樣清除?.誰能介紹個比較好點的Trojanhorse(特洛伊木馬)專殺工具啊,我下了好多都沒用,怎么殺4皁它"阿......3.trojanhorse......木馬,全稱特洛伊木馬(Trojanhorse),這個詞來源于古希臘神話,在計算機領(lǐng)域是一種客戶/服務(wù)器程序,是黑客最常用的基于遠程控制的工具......4.trojanhorse......特洛伊木馬(Trojanhorse)簡稱"木馬",據(jù)說這個名稱來源于希臘神話《木馬屠城記》......從上述本發(fā)明方法實施例以及具體實例可以看出,本發(fā)明提供的方法將括號型文本對作為查詢的新詞或者新詞組的背景資料,由于括號型文本對具有比較特殊的標識一一括號,所以,獲取較為容易。而且,將括號型文本對組成雙語二元組,通過雙語二元組的頻度及其分值,抽取出互譯的翻譯對,這樣,抽取所要進行的計算量大大降低,而且節(jié)約了大量的時間。請參考圖4,示出了本發(fā)明的一種基于網(wǎng)頁的互譯翻譯對抽取的裝置結(jié)構(gòu)圖,可以包^":搜索單元401,用于針對查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞纟且的文本。提取單元402,用于從所述搜索單元搜索的文本中提取至少一個具有特殊標識的、包含兩種語言的文本對。抽取單元403,用于根據(jù)計算所述提取單元提取的文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。下面結(jié)合實施例對圖4所示裝置進行詳細說明。在本實施例中,還可以包括以下單元轉(zhuǎn)換單元,用于將網(wǎng)頁上不同編碼的文本轉(zhuǎn)換為同一種編碼的文本。規(guī)范單元,用于將提取單元提取出的具有特殊標識的、包含兩種語言的文本對進行纟見范。還原單元,用于將抽取單元抽取的所述互譯翻譯對還原至原網(wǎng)頁格式。索引單元,用于根據(jù)所述還原單元還原出的互譯翻譯對,建立查詢所述互if翻譯對的索引。此外,圖4中的提取單元可以用于提取中英文括號型文本對,所述提取單元可以包括號,且所述左括號后的字符為連續(xù)英文字符;第二判斷單元,用于當?shù)谝慌袛鄦卧袛喑鲎罄ㄌ柷宜鲎罄ㄌ柡蟮淖址麨檫B續(xù)英文字符時,判斷與所述連續(xù)英文字符相鄰的后面的字符是否是右括號;中英文提取單元,用于當所述第二判斷單元判斷為右括號時,提取所述連續(xù)中文字符以及所述連續(xù)英文字符構(gòu)成的文本對。圖4中的抽取單元可以包括雙語二元組生成單元,用于根據(jù)所述提取單元提取的文本對,生成至少一個雙i吾二元組,所述雙^吾二元纟且為兩種i吾言纟且成的二元纟且;計算單元,用于根據(jù)所述雙語二元組生成單元生成的雙語二元組的特征函數(shù),計算所述雙語二元組的分值;互譯翻譯對單元,用于根據(jù)計算單元計算出的分值,從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻譯對。其中,互i奪翻譯對單元可以包括排序單元,用于根據(jù)計算單元計算出的分值的降序,將所述雙語二元組進行排列;互譯翻i奪對抽取單元,用于從根據(jù)排序單元降序排列的雙語二元組中,抽取出分值大于預(yù)設(shè)門限值的雙語二元組作為所述互譯翻譯對。下面對本實施例各功能單元之間,實現(xiàn)基于網(wǎng)頁的互譯翻譯對抽取所進行的步驟進行詳細說明。搜索單元針對查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本,下載;t叟索到的文本后,轉(zhuǎn)換單元將下載的不同編碼的文本轉(zhuǎn)換為同一種編碼的文本,在轉(zhuǎn)換單元轉(zhuǎn)換后的文本中,取出連續(xù)中文字符,第一判斷單元判斷與所述連續(xù)中文字符相鄰的后面的字符是否是左括號,若是,取出左括號后面的連續(xù)英文字符,第二判斷單元判斷與所述連續(xù)英文字符相連的后面的字符是否是右括號,如果是,中英文提取單元提取所述連續(xù)中文字符與所述連續(xù)英文字符構(gòu)成的文本對。規(guī)范單元將中英文提取單元提取的文本對進行規(guī)范,即進行預(yù)處理,具體請參見方法實施例的步驟A5。規(guī)范單元對文本對進行規(guī)范后,雙語二元組生成單元將文本對生成至少一個雙語二元組,計算單元々艮據(jù)所述雙語二元組生成單元生成的雙語二元組的頻度,計算所述雙語二元組的分值,所運用的公式請參見方法實施例的步驟A8,排序單元根據(jù)計算單元計算出的分值的降序,對雙語二元組進行排序,互譯翻譯對抽取單元根據(jù)所述排序單元的排序結(jié)果,抽取出分值大于預(yù)設(shè)門限值的雙語二元組作為互譯翻i奪對。還原單元將互譯翻譯對抽取單元抽取的互譯翻譯對還原至原網(wǎng)頁格式,索引單元建立索引,以查詢還原單元還原至原網(wǎng)頁格式的互譯翻譯對??梢?,本發(fā)明實施例提供的裝置通過獲取具有特殊標識的文本對,生成雙語二元組,根據(jù)雙語二元組的頻度計算其分值,根據(jù)分值大小抽取雙語二元組,作為互譯翻譯對。這樣,不僅獲取較為容易,并且有效減少了計算量,節(jié)約了大量的時間。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。以上對本發(fā)明所提供的一種基于網(wǎng)頁的互譯翻譯對抽取方法及裝置了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。權(quán)利要求1、一種基于網(wǎng)頁的互譯翻譯對抽取方法,其特征在于,所述方法包括針對查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本;從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對;計算所述文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。2、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文本對具體為括號型文本對。3、根據(jù)權(quán)利要求2所述的方法,其特征在于,所述括號型文本對具體為中英文括號型文本對。4、根據(jù)權(quán)利要求3所述的方法,其特征在于,從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對的具體實現(xiàn)為號后的字符為連續(xù)英文字符,如果是,則執(zhí)行步驟A2,否則,返回步驟A1;A2、判斷與所述連續(xù)英文字符相鄰的后面的字符是否是右括號,如果是,執(zhí)行步驟A3,否則,返回步驟A1;A3、提取所述連續(xù)中文字符以及所述連續(xù)英文字符構(gòu)成的文本對。5、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對的具體實現(xiàn)為所述文本對生成至少一個雙語二元組,所述雙語二元組為兩種語言組成的二元組;根據(jù)所述雙語二元組的特征函數(shù)計算所述雙語二元組的分值;從根據(jù)分值進行排列的雙語二元組中,抽取出所述互i奪翻譯對。6、根據(jù)權(quán)利要求5所述的方法,其特征在于,所述特征函數(shù)具體為頻度。7、根據(jù)權(quán)利要求5所述的方法,其特征在于,所述從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻譯對的具體實現(xiàn)為將所述雙語二元組按照分值的降序進行排列;從按照分值降序排列的雙語二元組中,抽取分值大于預(yù)設(shè)門限值的雙語二元組作為互譯翻譯對。8、根據(jù)權(quán)利要求5所述的方法,其特征在于,在所述文本對生成至少一個雙語二元組之前,還包括將所述具有特殊標識的、包含兩種語言的文本對進行規(guī)范。9、根據(jù)權(quán)利要求8所述的方法,其特征在于,在所述從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻譯對之后,還包括將抽取出的所述互譯翻譯對還原至原網(wǎng)頁格式。10、根據(jù)權(quán)利要求9所述的方法,其特征在于,在所述將抽取出的所述互譯翻譯對還原至原網(wǎng)頁格式之后,還包括建立查詢所述互譯翻譯對的索引。11、根據(jù)權(quán)利要求1所述的方法,其特征在于,在從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對之前,還包括將網(wǎng)頁上不同編碼的文本轉(zhuǎn)換為同一種編碼的文本;所述從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對的具體實現(xiàn)為從所述同一種編碼的文本中^是取具有特殊標識的、包含兩種語言的文本對。12、一種基于網(wǎng)頁的互譯翻譯對抽取的裝置,其特征在于,所述裝置包括搜索單元,用于針對查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本;提取單元,用于從所述搜索單元搜索的文本中提取至少一個具有特殊標識的、包含兩種語言的文本對;抽取單元,用于根據(jù)計算所述提取單元提取的文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。13、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述提取單元用于提取中英文括號型文本對,所述提取單元包括第一判斷單元,用于判斷與連續(xù)中文字符相鄰的后面的字符是否為左括號,且所述左括號后的字符為連續(xù)英文字符;第二判斷單元,用于當?shù)谝慌袛鄦卧袛喑鲎罄ㄌ柷宜鲎罄ㄌ柡蟮淖址麨檫B續(xù)英文字符時,判斷與所述連續(xù)英文字符相鄰的后面的字符是否是右括號;中英文提取單元,用于當所述第二判斷單元判斷為右括號時,提取所述連續(xù)中文字符以及所述連續(xù)英文字符構(gòu)成的文本對。14、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述抽取單元包括雙語二元組生成單元,用于根據(jù)所述提取單元提取的文本對,生成至少一個雙語二元組,所述雙語二元組為兩種語言組成的二元組;計算單元,用于才艮據(jù)所述雙語二元組生成單元生成的雙語二元組的特征函數(shù),計算所述雙語二元組的分值;互譯翻譯對單元,用于根據(jù)計算單元計算出的分值,從根據(jù)分值進行排列的雙語二元組中,抽取出所述互譯翻譯對。15、根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述互譯翻譯對單元包括排序單元,用于根據(jù)計算單元計算出的分值的降序,將所述雙語二元組進行排列;互:^翻:^爭對抽^c單元,用于^^艮據(jù)排序單元降序排列的雙語二元組中,抽取出分值大于預(yù)設(shè)門限值的雙語二元組作為所述互i,翻譯對。16、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括規(guī)范單元,用于將提取單元提取出的具有特殊標識的、包含兩種語言的文本對進行規(guī)范。17、根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述裝置還包括還原單元,用于將抽取單元抽取的所述互譯翻譯對還原至原網(wǎng)頁格式。18、根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述裝置還包括索引單元,用于^^艮據(jù)所述還原單元還原出的互譯翻^^對,建立查詢所述互譯翻譯對的索引。19、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括轉(zhuǎn)換單元,用于將網(wǎng)頁上不同編碼的文本轉(zhuǎn)換為同一種編碼的文本;所述提取單元用于從所述轉(zhuǎn)換單元轉(zhuǎn)換的同一種編碼的文本中提取具有特殊標識的文本對。全文摘要本發(fā)明公開了一種基于網(wǎng)頁的互譯翻譯對抽取方法及裝置。在本發(fā)明提供的方法中,包括針對查詢的詞或者詞組,從網(wǎng)頁上搜索包含所述詞或者詞組的文本;從所述文本中提取至少一個具有特殊標識的、包含兩種語言的文本對;計算所述文本對的用于排序的數(shù)值,根據(jù)所述數(shù)值,抽取出互譯翻譯對。本發(fā)明提供的裝置包括搜索單元、提取單元以及抽取單元。通過本發(fā)明,使得用戶通過網(wǎng)頁查詢詞或者詞組的譯文較為容易。文檔編號G06F17/30GK101308512SQ200810126468公開日2008年11月19日申請日期2008年7月3日優(yōu)先權(quán)日2008年6月25日發(fā)明者浩曹,王海洲,高立琦申請人:北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司