頁面中文本亂碼的識(shí)別方法及裝置的制造方法
【專利說明】
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及萬維網(wǎng)(World Wide Web,Web)頁面處理技術(shù),尤其涉及一種頁面中文本亂碼的識(shí)別方法及裝置。
【【背景技術(shù)】】
[0002]萬維網(wǎng)(World Wide Web, Web)頁面可以包括由一個(gè)或者多個(gè)超文本標(biāo)記語言(HyperText Markup Language, HTML)標(biāo)簽組成的一個(gè)顯示區(qū)塊,稱為頁面元素,例如,文本、標(biāo)簽、超鏈接、按鈕、輸入框、下拉框等。由于Web頁面的解析等原因,Web頁面中的文本會(huì)出現(xiàn)亂碼現(xiàn)象?,F(xiàn)有技術(shù)中,需要由操作人員逐一對(duì)Web頁面進(jìn)行查看,以發(fā)現(xiàn)該Web頁面中的文本是否出現(xiàn)亂碼現(xiàn)象。
[0003]然而,現(xiàn)有文本亂碼的識(shí)別操作時(shí)間長(zhǎng),而且容易出錯(cuò),從而導(dǎo)致了文本亂碼的識(shí)別的效率和可靠性的降低。
【
【發(fā)明內(nèi)容】
】
[0004]本申請(qǐng)的多個(gè)方面提供一種頁面中文本亂碼的識(shí)別方法及裝置,用以提高文本亂碼的識(shí)別的效率和可靠性。
[0005]本申請(qǐng)的一方面,提供一種頁面中文本亂碼的識(shí)別方法,包括:
[0006]獲取頁面中待識(shí)別的第一文本的第一編碼格式;
[0007]根據(jù)第二編碼格式所對(duì)應(yīng)的字符與其他編碼格式所對(duì)應(yīng)的字符之間的對(duì)應(yīng)關(guān)系,將所述第一文本轉(zhuǎn)換為第二文本,所述第二文本的編碼格式為所述第二編碼格式;
[0008]根據(jù)所述第二編碼格式所對(duì)應(yīng)的字符與所述第一編碼格式所對(duì)應(yīng)的字符之間的對(duì)應(yīng)關(guān)系,將所述第二文本轉(zhuǎn)換為第三文本;
[0009]根據(jù)所述第三文本和所述第一文本,確定所述第一文本中是否存在亂碼。
[0010]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述第二編碼格式包括Unicode編碼格式。
[0011]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第三文本和所述第一文本,確定所述第一文本中是否存在亂碼,包括:
[0012]對(duì)所述第三文本和所述第一文本進(jìn)行比較;
[0013]若所述第三文本與所述第一文本不一致,確定所述第一文本中存在亂碼;或者
[0014]若所述第三文本與所述第一文本一致,確定所述第一文本中不存在亂碼。
[0015]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述對(duì)所述第三文本和所述第一文本進(jìn)行比較,包括:
[0016]提取所述第三文本的特征信息和所述第一文本的特征信息;
[0017]對(duì)所述第三文本的特征信息和所述第一文本的特征信息進(jìn)行比較;
[0018]若所述第三文本的特征信息與所述第一文本的特征信息不相同,說明所述第三文本與所述第一文本不一致;或者
[0019]若所述第三文本的特征信息與所述第一文本的特征信息相同,說明所述第三文本與所述第一文本一致。
[0020]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述特征信息包括MD5值。
[0021]本申請(qǐng)的另一方面,提供一種頁面中文本亂碼的識(shí)別裝置,包括:
[0022]獲取單元,用于獲取頁面中待識(shí)別的第一文本的第一編碼格式;
[0023]轉(zhuǎn)換單元,用于根據(jù)第二編碼格式所對(duì)應(yīng)的字符與其他編碼格式所對(duì)應(yīng)的字符之間的對(duì)應(yīng)關(guān)系,將所述第一文本轉(zhuǎn)換為第二文本,所述第二文本的編碼格式為所述第二編碼格式;
[0024]所述轉(zhuǎn)換單元,還用于根據(jù)所述第二編碼格式所對(duì)應(yīng)的字符與所述第一編碼格式所對(duì)應(yīng)的字符之間的對(duì)應(yīng)關(guān)系,將所述第二文本轉(zhuǎn)換為第三文本;
[0025]確定單元,用于根據(jù)所述第三文本和所述第一文本,確定所述第一文本中是否存在亂碼。
[0026]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述第二編碼格式包括Unicode編碼格式。
[0027]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述確定單元,具體用于
[0028]對(duì)所述第三文本和所述第一文本進(jìn)行比較;
[0029]若所述第三文本與所述第一文本不一致,確定所述第一文本中存在亂碼;或者
[0030]若所述第三文本與所述第一文本一致,確定所述第一文本中不存在亂碼。
[0031]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述確定單元,具體用于
[0032]提取所述第三文本的特征信息和所述第一文本的特征信息;
[0033]對(duì)所述第三文本的特征信息和所述第一文本的特征信息進(jìn)行比較;
[0034]若所述第三文本的特征信息與所述第一文本的特征信息不相同,說明所述第三文本與所述第一文本不一致;或者
[0035]若所述第三文本的特征信息與所述第一文本的特征信息相同,說明所述第三文本與所述第一文本一致。
[0036]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述特征信息包括MD5值。
[0037]由上述技術(shù)方案可知,本申請(qǐng)實(shí)施例通過獲取頁面中待識(shí)別的第一文本的第一編碼格式,進(jìn)而根據(jù)第二編碼格式所對(duì)應(yīng)的字符與其他編碼格式所對(duì)應(yīng)的字符之間的對(duì)應(yīng)關(guān)系,將所述第一文本轉(zhuǎn)換為具有所述第二編碼格式的第二文本,再根據(jù)所述第二編碼格式所對(duì)應(yīng)的字符與所述第一編碼格式所對(duì)應(yīng)的字符之間的對(duì)應(yīng)關(guān)系,將所述第二文本轉(zhuǎn)換為第三文本,使得能夠根據(jù)所述第三文本和所述第一文本,確定所述第一文本中是否存在亂碼,無需操作人員參與識(shí)別過程,操作簡(jiǎn)單,而且正確率高,從而提高了文本亂碼的識(shí)別的效率和可靠性。
【【附圖說明】】
[0038]為了更清楚地說明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0039]圖1為本申請(qǐng)一實(shí)施例提供的頁面中文本亂碼的識(shí)別方法的流程示意圖;
[0040]圖2為本申請(qǐng)另一實(shí)施例提供的頁面中文本亂碼的識(shí)別裝置的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0041 ]為使本申請(qǐng)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的全部其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0042]可以理解的是,本申請(qǐng)所涉及的頁面,可以是基于超文本標(biāo)記語言(HyperTextMarkup Language, HTML)編寫的網(wǎng)頁(Web Page),也可以稱為Web頁面。
[0043]需要說明的是,本申請(qǐng)實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字助理(Personal Digital Assistant, PDA)、無線手持裝置、無線上網(wǎng)本、個(gè)人電腦、便攜電腦、個(gè)人電腦(Personal Computer, PC)、MP3播放器、MP4播放器等。
[0044]另外,本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。
[0045]圖1為本申請(qǐng)一實(shí)施例提供的頁面中文本亂碼的識(shí)別方法的流程示意圖,如圖1所示。
[0046]101、獲取頁面中待識(shí)別的第一文本的第一編碼格式。
[0047]其中,所述第一編碼格式可以為現(xiàn)有技術(shù)中所有可選的文本編碼方式,例如,GBK編碼方式、UTF-8編碼方式或GB2312編碼方式等,本實(shí)施例對(duì)此不進(jìn)行特別限定。
[0048]GBK是漢字編碼標(biāo)準(zhǔn)之一,全稱《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK即“國標(biāo)”、“擴(kuò)展”漢語拼音的第一個(gè)字母,還可以稱為漢字國際擴(kuò)展碼,英文名稱為Chinese Internal CodeSpecificat1n)。
[0049]UTF是“UCS Transformat1n Format”的縮寫,可以翻譯成Unicode字符集轉(zhuǎn)換格式。
[0050]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在101中,具體可以根據(jù)頁面的相關(guān)信息,獲取所述頁面中待識(shí)別的第一文本的第一編碼格式。
[0051]例如,可以根據(jù)頁面的META 標(biāo)簽即 “〈meta http-equiv=〃Content_Type〃content=〃text/html; charset=gb2312〃>”,獲取該頁面中待識(shí)別的第一文本的第一編碼格式為GB2312編碼格式。
[0052]或者,再例如,可以根據(jù)頁面的級(jí)聯(lián)樣式表(Cascading Style Sheet,CSS)文件中的定義即“@charset"UTF-8"”,獲取該