專利名稱:一種實(shí)現(xiàn)雙語網(wǎng)頁搜索的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種互聯(lián)網(wǎng)多語言網(wǎng)頁的搜索方法;具體地說,涉及一種利用搜索引擎和自動(dòng)生成的雙語檢索式實(shí)現(xiàn)搜索雙語網(wǎng)頁,為用戶提供輔助翻譯的方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展及國際文化交流的加強(qiáng),網(wǎng)站也開始出現(xiàn)了國際化的趨勢(shì)。首先,出現(xiàn)了越來越多的英語學(xué)習(xí)網(wǎng)站和雙語平行網(wǎng)站,在這些網(wǎng)頁中有很多雙語對(duì)照的學(xué)習(xí)資源;另外在很多網(wǎng)頁中,對(duì)于一些專有名詞或新近出現(xiàn)的詞匯,有些作者會(huì)在這類詞匯后附上它們的對(duì)應(yīng)英文翻譯,如在武漢理工大學(xué)網(wǎng)站上的學(xué)校簡(jiǎn)介網(wǎng)頁上,就有“武漢理工大學(xué)(Wuhan University ofTechnology)是教育部直屬全國重點(diǎn)大學(xué)”這樣的雙語描述。這些含有雙語對(duì)照翻譯的網(wǎng)頁在互聯(lián)網(wǎng)中有很多,是人們?cè)诜g時(shí)可以參考的寶貴資源。
為了搜索到這些在互聯(lián)網(wǎng)上已經(jīng)存在的翻譯成果,人們可以借助于一些通用的搜索引擎,如www.google.com和百度(www.baidu.com),通過選擇和組合關(guān)鍵詞檢索項(xiàng)可以搜索到這些存在雙語對(duì)照翻譯的網(wǎng)頁。舉例來說,用戶可以在www.baidu.com的搜索框中輸入雙語檢索式“武漢理工大學(xué)university”,會(huì)搜索到很多同時(shí)包括有“武漢理工大學(xué)”和“university”的網(wǎng)頁,在這些搜索結(jié)果中,會(huì)出現(xiàn)“武漢理工大學(xué)(Wuhan University of Technology)是教育部直屬全國重點(diǎn)大學(xué)……”這樣的雙語描述,顯然,這些搜索結(jié)果對(duì)用戶翻譯“武漢理工大學(xué)”這樣的專有名詞是很有幫助的。但問題是現(xiàn)有的這些通用搜索引擎并不是專門為翻譯搜索而設(shè)計(jì),對(duì)用戶的搜索水平和英語水平都有較高要求。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)上述不便而提出的一種實(shí)現(xiàn)雙語網(wǎng)頁搜索的方法,該方法可以依據(jù)用戶的輸入內(nèi)容,自動(dòng)生成對(duì)應(yīng)的雙語檢索式,再送入搜索引擎搜索,為用戶搜索到同時(shí)含有用戶輸入內(nèi)容及其對(duì)應(yīng)翻譯的網(wǎng)頁,為用戶的翻譯提供參考。
為了達(dá)到上述目的,本發(fā)明提供的技術(shù)方案是包括以下步驟,(1)用戶提交查詢請(qǐng)求;(2)依據(jù)查詢請(qǐng)求內(nèi)容生成雙語檢索式;(3)將雙語檢索式傳送給搜索引擎進(jìn)行搜索;(4)搜索引擎返回搜索結(jié)果。
而且,所述步驟2由雙語檢索式自動(dòng)生成系統(tǒng)實(shí)現(xiàn),實(shí)現(xiàn)步驟如下A)雙語檢索式自動(dòng)生成系統(tǒng)接收到查詢請(qǐng)求后,將查詢請(qǐng)求切分成關(guān)鍵詞項(xiàng),從關(guān)鍵詞項(xiàng)中自動(dòng)挑選檢索關(guān)鍵詞項(xiàng),刪除冗余的關(guān)鍵詞項(xiàng);B)將檢索關(guān)鍵詞項(xiàng)分別翻譯;C)將檢索關(guān)鍵詞項(xiàng)的翻譯和查詢請(qǐng)求內(nèi)容根據(jù)邏輯關(guān)系組合成雙語檢索式。
而且,在進(jìn)行步驟C)之后,向用戶提交自動(dòng)生成的雙語檢索式,接受用戶確認(rèn)或修改,然后進(jìn)行步驟3。
采用以上技術(shù)方案后,本發(fā)明具有以下優(yōu)點(diǎn)和積極效果用戶只要在用戶操作與顯示界面提交一個(gè)單語言查詢請(qǐng)求,就能自動(dòng)生成雙語檢索式,從而能檢索到同時(shí)含有該查詢請(qǐng)求與可能含有該查詢請(qǐng)求對(duì)應(yīng)翻譯的雙語網(wǎng)頁。能為用戶的翻譯提供一定程度上的參考,特別是對(duì)一些只能“查找”不能自行“翻譯”的專有名詞的翻譯有極大的參考價(jià)值。
圖1是本發(fā)明流程圖。
圖2是本發(fā)明的系統(tǒng)示意圖。
具體實(shí)施例方式
以下結(jié)合附圖1、圖2,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。為方便闡述,本發(fā)明提供一個(gè)以中文、英文為例的具體實(shí)施例子,事實(shí)上本發(fā)明同樣適用于其它語言間的雙語搜索,如中文和法文、日語和英文等。
一種實(shí)現(xiàn)雙語網(wǎng)頁搜索的方法包括以下步驟(1)用戶提交查詢請(qǐng)求;(2)依據(jù)查詢請(qǐng)求內(nèi)容生成雙語檢索式;(3)將雙語檢索式傳送給搜索引擎進(jìn)行搜索;(4)搜索引擎返回搜索結(jié)果。
在步驟1中,用戶提交查詢請(qǐng)求通過用戶操作與顯示界面實(shí)現(xiàn),用戶操作與顯示界面可以是瀏覽器或者客戶端軟件,有用戶輸入接口,可以接收用戶的查詢請(qǐng)求,并將查詢請(qǐng)求通過網(wǎng)絡(luò)發(fā)送出去。用戶操作與顯示界面的編寫屬于計(jì)算機(jī)軟件方面的現(xiàn)有技術(shù)。
例子假設(shè)用戶要通過本方法查詢“武漢理工大學(xué)”的英文翻譯,則在用戶操作與顯示界面提交查詢請(qǐng)求“武漢理工大學(xué)”。
在步驟2中,利用雙語檢索式自動(dòng)生成系統(tǒng)依據(jù)查詢請(qǐng)求內(nèi)容生成雙語檢索式。在具體實(shí)施時(shí),雙語檢索式自動(dòng)生成系統(tǒng)可以分為切分關(guān)鍵詞模塊和翻譯引擎這兩個(gè)模塊編寫。
在步驟3中,所述的搜索引擎為通用搜索引擎,如www.google.com和www.baidu.com等,也可以是元搜索引擎。
在例子中,雙語檢索式自動(dòng)生成系統(tǒng)將雙語檢索式傳送給搜索引擎,如將“武漢理工大學(xué)AND wuhan AND university”傳送給www.google.com。www.google.com接收到查詢請(qǐng)求后,以雙語檢索式為檢索項(xiàng)對(duì)其數(shù)據(jù)庫進(jìn)行檢索。
在步驟4中,搜索引擎返回搜索結(jié)果,并在用戶操作與顯示界面中顯示結(jié)果。
在例子中,www.google.com以“武漢理工大學(xué)AND wuhan AND university”為檢索項(xiàng)對(duì)其數(shù)據(jù)庫進(jìn)行檢索,返回585項(xiàng)搜索結(jié)果,即有585個(gè)網(wǎng)頁同時(shí)含有“武漢理工大學(xué)”、“wuhan”、“university”。在前10條結(jié)果中,有5條結(jié)果含有“武漢理工大學(xué)(Wuhan University of Technology)是教育部直屬全國重點(diǎn)大學(xué)”這樣的雙語描述,顯然這些搜索結(jié)果對(duì)用戶翻譯“武漢理工大學(xué)”很有幫助。
為了提供高效的雙語檢索式,本發(fā)明提供實(shí)現(xiàn)生成雙語檢索式的步驟如下A)雙語檢索式自動(dòng)生成系統(tǒng)接收到查詢請(qǐng)求后,將查詢請(qǐng)求切分成關(guān)鍵詞項(xiàng),從關(guān)鍵詞項(xiàng)中自動(dòng)挑選檢索關(guān)鍵詞項(xiàng),刪除冗余的關(guān)鍵詞項(xiàng);B)將檢索關(guān)鍵詞項(xiàng)分別翻譯;C)將檢索關(guān)鍵詞項(xiàng)的翻譯和查詢請(qǐng)求內(nèi)容根據(jù)邏輯關(guān)系組合成雙語檢索式。其工作流程與各模塊的功能具體說明如下在步驟A)中雙語檢索式自動(dòng)生成系統(tǒng)接收到查詢請(qǐng)求后,切分關(guān)鍵詞模塊將查詢請(qǐng)求切分成多個(gè)關(guān)鍵詞,如果關(guān)鍵詞較多,可依據(jù)關(guān)鍵詞的詞性和詞頻刪除部分關(guān)鍵詞,自動(dòng)挑選檢索關(guān)鍵詞項(xiàng)。對(duì)于中文、韓文、日文等為代表的東方語系語言而言,與以英文為代表的拉丁語系語言不同,這些語言的句子中的詞與詞間沒有明顯的分界符。以中文為例子來說,漢語是一些連續(xù)的字序列,需要將其切分成多個(gè)關(guān)鍵詞,才能用于查詢檢索。在中文查詢請(qǐng)求的處理中切分關(guān)鍵詞模塊就是在中文分詞與詞性標(biāo)注,將一句長(zhǎng)話中的詞識(shí)別出來,將長(zhǎng)話切分成多個(gè)基本獨(dú)立語義單位——中文單詞,并進(jìn)行詞性標(biāo)注。中文分詞與詞性標(biāo)注研究一直是中文信息處理研究的熱點(diǎn),國內(nèi)外均有較成熟的技術(shù)和產(chǎn)品在產(chǎn)品上,國內(nèi)的眾多單位,如海量科技信息技術(shù)有限公司的“中文分詞軟件包”、廈門大學(xué)語言技術(shù)中心的“分詞標(biāo)注程序”、北京大學(xué)計(jì)算語言學(xué)研究所的“漢語切分與標(biāo)注程序”等都是較成熟的產(chǎn)品;在技術(shù)和算法上,有最大匹配法,反向最大匹配法,逐詞遍歷法,設(shè)立切分法,最佳匹配法,有窮多層次列舉法,二次掃描法,鄰接約束法,鄰接知識(shí)約束法,專家系統(tǒng)法,最少分詞詞頻選擇方法,神經(jīng)網(wǎng)絡(luò)方法等等。
對(duì)于以英文為代表的拉丁語系語言而言,在英文中,單詞之間是以空格作為自然分界符的,分詞與詞性標(biāo)注的問題不大,但存在英文的詞法分析問題即詞匯形態(tài)還原、查找短語(詞組)與特殊符號(hào)的處理。只有將具有形態(tài)變化的詞匯還原成原形形式,才能利于翻譯系統(tǒng)的翻譯;只有確定了哪幾個(gè)相鄰的詞構(gòu)成一個(gè)短語,并以短語為單位進(jìn)行翻譯,才能得到相應(yīng)的正確譯文。在英文查詢請(qǐng)求的處理中切分關(guān)鍵詞模塊就是在進(jìn)行分詞、詞性標(biāo)注與詞法分析;在對(duì)英文進(jìn)行分詞的過程中,除了空格分隔符,還有幾種特殊的符號(hào)要處理數(shù)字、連字符、標(biāo)點(diǎn)符號(hào)和字母的大小寫等。英文的分詞、詞性標(biāo)注與詞法分析目前已經(jīng)取得了很大進(jìn)展,技術(shù)成熟,如在國內(nèi)流行的英漢機(jī)器翻譯軟件內(nèi)置有分詞、詞性標(biāo)注與詞法分析工具,如金山快譯、東方快車等軟件。
在例子中雙語檢索式自動(dòng)生成系統(tǒng)接收到用戶的查詢請(qǐng)求“武漢理工大學(xué)”后,切分關(guān)健詞模塊將其切分為多個(gè)關(guān)健詞,一種切分結(jié)果是“武漢”(名詞)、“理工”(名詞)、“大學(xué)”(名詞)。
又如雙語檢索式自動(dòng)生成系統(tǒng)接收到用戶的查詢請(qǐng)求“凡是堅(jiān)持真理的人”后,切分關(guān)健詞模塊將其切分為多個(gè)關(guān)健詞項(xiàng),一種切分結(jié)果是“凡是”(副詞)、“堅(jiān)持”(動(dòng)詞)、“真理”(名詞)、“的”(助詞)、“人”(名詞),由于關(guān)鍵詞項(xiàng)較多,可依據(jù)關(guān)鍵詞項(xiàng)的詞性刪除部分關(guān)鍵詞項(xiàng),如去除副詞、助詞、和動(dòng)詞,留下檢索關(guān)鍵詞項(xiàng)“真理”(名詞)、“人”(名詞)。
在步驟B)中,翻譯引擎將切分后生成的關(guān)鍵詞分別進(jìn)行翻譯,翻譯成多個(gè)以另一種語言描述的關(guān)鍵詞。這類翻譯引擎屬于已經(jīng)很成熟的現(xiàn)有技術(shù),比如金山詞霸、東方大典、Dr.eye“譯典通”等電子詞典軟件。
在例子中翻譯引擎對(duì)切分后生成的關(guān)鍵詞項(xiàng)“武漢”、“理工”、“大學(xué)”分別進(jìn)行翻譯,“武漢”被翻譯成為“wuhan”,“理工”沒有與之對(duì)應(yīng)的翻譯,“大學(xué)”有兩個(gè)翻譯與其對(duì)應(yīng)“college”和“university”。
在步驟C)中,雙語檢索式自動(dòng)生成系統(tǒng)將檢索關(guān)鍵詞項(xiàng)的翻譯和原來的查詢請(qǐng)求一起組合成雙語檢索式。
一個(gè)查詢請(qǐng)求內(nèi)容可能包含有多個(gè)檢索關(guān)鍵詞項(xiàng)(分別記為關(guān)鍵詞a、關(guān)鍵詞b、關(guān)鍵詞c……關(guān)鍵詞x),同一檢索關(guān)健詞項(xiàng)可能有多種翻譯(分別記為譯法1、譯法2、譯法3……譯法n),關(guān)鍵詞A的翻譯記為譯法a1、譯法a2……譯法an,其他依此類推。則生成的雙語檢索式可以有多種組合方式,這些關(guān)鍵詞內(nèi)部之間可以邏輯或或邏輯與的關(guān)系組合起來,而這些關(guān)鍵詞和譯法之間也可以邏輯或或邏輯與的關(guān)系組合起來,查詢請(qǐng)求、關(guān)鍵詞、翻譯之間也可以邏輯或或邏輯與的關(guān)系組合起來,如查詢請(qǐng)求+(譯法a1 OR譯法a2 OR譯法a3……)+(譯法b1 OR譯法b2 OR譯法b3……)+……+(譯法x1 OR譯法x2 OR譯法x3……);
查詢請(qǐng)求+(譯法a1 AND譯法a2 AND譯法a3……)+(譯法b1 AND譯法b2 AND譯法b3……)+……+(譯法x1 AND譯法x2 AND譯法x3……);(關(guān)鍵詞a AND關(guān)鍵詞b AND關(guān)鍵詞c……)+(譯法a1 AND譯法a2 AND譯法a3……)+(譯法b1 AND譯法b2 AND譯法b3……)+……+(譯法x1 AND譯法x2 AND譯法x3……);(關(guān)鍵詞a AND關(guān)鍵詞b AND關(guān)鍵詞c……)+(譯法a1 OR譯法a2 OR譯法a3……)+(譯法b1 OR譯法b2 OR譯法b3……)+……+(譯法x1 OR譯法x2 OR譯法x3……);查詢請(qǐng)求+(譯法a1 OR譯法a2 OR譯法a3……)OR(譯法b1 OR譯法b2 OR譯法b3……)OR……OR(譯法x1 OR譯法x2 OR譯法x3……);(關(guān)鍵詞a AND關(guān)鍵詞b AND關(guān)鍵詞c……)OR(譯法a1 AND譯法a2 AND譯法a3……)OR(譯法b1 AND譯法b2 AND譯法b3……)OR……OR(譯法x1 AND譯法x2 AND譯法x3……)。
以上的組合方式中的“+”和“AND”都表示邏輯與的關(guān)系,“OR”表示邏輯或的關(guān)系,括號(hào)“()”為便于描述而加并無實(shí)際意義。
具體實(shí)施時(shí),雙語檢索式自動(dòng)生成系統(tǒng)可以選擇上述任一種來自動(dòng)生成雙語檢索式。
在例子中,查詢請(qǐng)求“武漢理工大學(xué)”經(jīng)雙語檢索式自動(dòng)生成系統(tǒng)處理后,生成的雙語檢索式可以為,示例如下(武漢理工大學(xué)) AND(wuhan)AND(university OR college)為了提供人性化的結(jié)果,在自動(dòng)生成雙語檢索式后,返回該雙語檢索式至用戶操作與顯示界面,供用戶確認(rèn),用戶可以依據(jù)自己的需要對(duì)自動(dòng)生成的雙語檢索式進(jìn)行修改。
在例子中,用戶見到上述的雙語檢索式后,用戶可能認(rèn)為college這個(gè)翻譯是不適合的,可以將college這個(gè)關(guān)鍵詞從雙語檢索式中刪除。雙語檢索式變?yōu)?武漢理工大學(xué)) AND(wuhan)AND(university),本檢索項(xiàng)中括號(hào)“()”為便于描述而加并無實(shí)際意義。
在具體實(shí)施時(shí),還可以設(shè)計(jì)為進(jìn)行完步驟4,用戶得到搜索結(jié)果后,再對(duì)雙語檢索式進(jìn)行修改,然后重新進(jìn)行步驟3、步驟4,可以反復(fù)修改,以得到用戶最滿意的結(jié)果。
權(quán)利要求
1.一種實(shí)現(xiàn)雙語網(wǎng)頁搜索的方法,其特征在于包括如下步驟,(1)用戶提交查詢請(qǐng)求;(2)依據(jù)查詢請(qǐng)求內(nèi)容生成雙語檢索式;(3)將雙語檢索式傳送給搜索引擎進(jìn)行搜索;(4)搜索引擎返回搜索結(jié)果。
2.如權(quán)利要求書1所述的一種實(shí)現(xiàn)雙語網(wǎng)頁搜索的方法,其特征在于所述步驟(2)由雙語檢索式自動(dòng)生成系統(tǒng)實(shí)現(xiàn),實(shí)現(xiàn)步驟如下,A)雙語檢索式自動(dòng)生成系統(tǒng)接收到查詢請(qǐng)求后,將查詢請(qǐng)求切分成關(guān)鍵詞項(xiàng),從關(guān)鍵詞項(xiàng)中自動(dòng)挑選檢索關(guān)鍵詞項(xiàng),刪除冗余的關(guān)鍵詞項(xiàng);B)將檢索關(guān)鍵詞項(xiàng)分別翻譯;C)將檢索關(guān)鍵詞項(xiàng)的翻譯和查詢請(qǐng)求內(nèi)容根據(jù)邏輯關(guān)系組合成成雙語檢索式。
3.如權(quán)利要求書2所述的一種實(shí)現(xiàn)雙語網(wǎng)頁搜索的方法,其特征在于在進(jìn)行步驟C)之后,向用戶提交自動(dòng)生成的雙語檢索式,接受用戶確認(rèn)或修改,然后進(jìn)行步驟(3)。
全文摘要
本發(fā)明涉及一種利用搜索引擎和自動(dòng)生成的雙語檢索式實(shí)現(xiàn)搜索雙語網(wǎng)頁,為用戶提供輔助翻譯的方法,其特征在于包括以下步驟,(1)用戶提交查詢請(qǐng)求;(2)依據(jù)查詢請(qǐng)求內(nèi)容生成雙語檢索式;(3)將雙語檢索式傳送給搜索引擎進(jìn)行搜索;(4)搜索引擎返回搜索結(jié)果。本發(fā)明的優(yōu)點(diǎn)在于只要在用戶操作與顯示界面提交一個(gè)單語言查詢請(qǐng)求,就能自動(dòng)生成雙語檢索式,從而能檢索到同時(shí)含有該查詢請(qǐng)求與可能含有該查詢請(qǐng)求對(duì)應(yīng)翻譯的雙語網(wǎng)頁。采用本發(fā)明可以為用戶提供便捷準(zhǔn)確的翻譯信息。
文檔編號(hào)G06F17/30GK1687925SQ20051001867
公開日2005年10月26日 申請(qǐng)日期2005年5月10日 優(yōu)先權(quán)日2005年5月10日
發(fā)明者賀方升, 陳智賢, 余俊, 程偉, 朱前線, 孫上海, 李銀剛, 朱柳嵩, 王滄洪 申請(qǐng)人:賀方升