通過前面中文化、國(guó)際化問題解決的系列1-4,相信大家對(duì)字符集、字符編碼、字符解碼、字符亂碼、Java中文問題解決等都有了一個(gè)比較清晰的認(rèn)識(shí);但文中的信息并非包羅萬象,結(jié)合到自己平時(shí)對(duì)于字符集、編碼相關(guān)的一些疑惑,本篇對(duì)一些前文中并未提及的一些問題進(jìn)行補(bǔ)充,以便讓該系列更加完善和全面;本文主要解決以下兩個(gè)問題:其一,解決UltraEdit菜單中的 文件 -> 轉(zhuǎn)換 子菜單中涉及的一些名詞疑惑,主要涉及EBCDIC 、OEM字符集、ANSI字符集、HZ編碼等;其二,補(bǔ)充關(guān)于URL編碼相關(guān)的一些知識(shí)點(diǎn),涉及瀏覽器、Web服務(wù)器設(shè)置、Servlet規(guī)范等;
相信很多同學(xué)都有在用UltraEdit這個(gè)文本編輯器軟件,從菜單 文件 --> 轉(zhuǎn)換 進(jìn)入即可看見很多的字符集間的轉(zhuǎn)換子菜單,不同版本間可能會(huì)有些差異,可以參考下圖:
從上圖中我們可以看到很多前面已經(jīng)提及的一些詞匯,比如ASCII、Unicode [Big Endian/Little Endian]、UTF-8等;但還有一些未提及的,下面就逐個(gè)介紹下:
基于Java開發(fā)的Web應(yīng)用URL組成如下:
http://domain:port/contextPath/servletPath/pathInfo?queryString
其中各個(gè)部分含義如下:
Domain、Port:分別是域名和端口;
contextPath:應(yīng)用上下文路徑,默認(rèn)為應(yīng)用名稱,比如我們的apps;但可以通過應(yīng)用服務(wù)器的相關(guān)配置進(jìn)行修改,一般線上環(huán)境會(huì)修改成/,此時(shí)相當(dāng)于contextPath為空;
servletPath:Servlet路徑,一般在應(yīng)用的web.xml文件中配置servlet-mapping;但由于現(xiàn)在的web應(yīng)用一般都會(huì)用一些框架,比如Struts、Webwork等,此時(shí)各框架都會(huì)對(duì)此進(jìn)行封裝,會(huì)在另外的配置文件中進(jìn)行設(shè)置;但原理都是一樣的;
pathInfo:可以理解為最終接收用戶請(qǐng)求的具體執(zhí)行類,比如我們常說的Action;
queryString:get方式傳入的請(qǐng)求參數(shù);
以上各個(gè)部分中可能存在中文問題的是pathInfo、queryString兩個(gè)部分;
首先,我們來看下Servlet中和URL相關(guān)的一些api及其注意事項(xiàng):
HttpServletRequest.setCharacterEncoding(); //僅僅只適用于設(shè)置post提交的request body的編碼而不是設(shè)置get方法提交的queryString的編碼。該方法還告訴應(yīng)用服務(wù)器應(yīng)該采用什么編碼解析post傳過來的內(nèi)容;注意:若沒有設(shè)定characterEncoding,則使用ISO-8859-1來解碼用戶輸入的表單,而不是使用系統(tǒng)默認(rèn)的編碼。
HttpServletResponse.setContentType(); //告訴瀏覽器網(wǎng)頁中數(shù)據(jù)是什么編碼;表單提交時(shí),根據(jù)ContentType指定的charset對(duì)表單中的數(shù)據(jù)編碼,然后發(fā)送給服務(wù)器。
HttpServletRequest.getParameter("name"); //返回的字符串為:queryString(包括get和post),其值經(jīng)過Servlet服務(wù)器URL Decode過的,默認(rèn)編碼來源于應(yīng)用服務(wù)器中的配置,比如tomcat中server.xml的URIEncoding。
HttpServletRequest.getPathInfo(); //返回的字符串為:pathinfo;由Servlet服務(wù)器解碼(decode)過的。默認(rèn)編碼同上,tomcat中可設(shè)置useBodyEncodingForURI。
HttpServletRequest.getRequestURI(); //返回的字符串為:contextPath/servletPath/pathinfo;注意是瀏覽器提交過來的原始數(shù)據(jù),未被Servlet服務(wù)器URL Decode過。
對(duì)URL編碼【URL Encoding/Percent Encoding】時(shí),使用以下規(guī)則:
字母數(shù)字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不變。
特殊字符 "."、"-"、"*" 和 "_" 保持不變。
空格字符 " " 轉(zhuǎn)換為一個(gè)加號(hào) "+"。
所有其他字符都是不安全的,因此首先使用一些編碼機(jī)制將它們轉(zhuǎn)換為一個(gè)或多個(gè)字節(jié)。然后每個(gè)字節(jié)用一個(gè)包含 3 個(gè)字符的字符串 "%xy" 表示,其中 xy 為該字節(jié)的兩位十六進(jìn)制表示形式。推薦的編碼機(jī)制是 UTF-8。但是,出于兼容性考慮,如果未指定一種編碼,則使用相應(yīng)平臺(tái)的默認(rèn)編碼。
假定我們待請(qǐng)求URL為:http://localhost:8080/example/中國(guó)?name=中國(guó);
Html內(nèi)content-type或meta中的charset=GBK;文件格式為ANSI/ASCII;
URL中的兩個(gè)漢字"中國(guó)"的各字符集下的編碼為:
漢字 | 編碼 | 二進(jìn)制表示 |
中國(guó) | UTF-8 | 0xe4 0xb8 0xad 0xe5 0x9b 0xbd[-28, -72, -83, -27, -101, -67] |
中國(guó) | GBK | 0xd6 0xd0 0xb9 0xfa[-42, -48, -71, -6] |
中國(guó) | ISO8859-1 | 0x3f 0x3f[63, 63][??] |
對(duì)于Get方式的URL請(qǐng)求有兩種情況,其一:用戶直接在瀏覽器地址欄中輸入U(xiǎn)RL,此時(shí)瀏覽器沒有編碼可參考,直接用瀏覽器的默認(rèn)編碼進(jìn)行解析并提交到服務(wù)端;其二:在form表單內(nèi)提交,只是form屬性method為GET,此時(shí)瀏覽器會(huì)參考目前html中對(duì)編碼的相關(guān)設(shè)置進(jìn)行解析,比如content-type或meta中的charset。
以下就重點(diǎn)講講第二種方式的提交:
GET方式form submit:瀏覽器會(huì)對(duì)URL進(jìn)行URL encoding,然后發(fā)送給服務(wù)器。
很顯然,不同的瀏覽器以及同一瀏覽器的不同設(shè)置,會(huì)影響最終URL中PathInfo的編碼,該編碼可能不會(huì)由我們應(yīng)用來控制;對(duì)于queryString,則是可以由我們的應(yīng)用來完全控制的,對(duì)于上面的事例:中文的IE和FIREFOX都是采用GBK編碼queryString。
若調(diào)整下上例中的假設(shè)條件,設(shè)置Html內(nèi)content-type或meta中的charset=UTF-8;
此時(shí)在IE中queryString會(huì)按照UTF-8進(jìn)行編碼,即name=%E4%B8%AD%E5%9B%BD;
但是在非IE(Firefox、Chrome)中,此時(shí)提交時(shí)URL中會(huì)以中文直接提交,即name=中文;此時(shí)服務(wù)端的web服務(wù)器上肯定要進(jìn)行相應(yīng)的編碼配置,否則肯定會(huì)出現(xiàn)亂碼;
若設(shè)置Html內(nèi)content-type或meta中的charset=ISO-5899-1;
此時(shí)在IE、Firefox、Chrome中queryString都被用ISO-5899-1編碼了,即name= %26%2320013%3B%26%2322269%3B;
對(duì)于編碼串中的%26、%3B應(yīng)該是百分號(hào)編碼【Percent Encoding】中的保留字符,分別對(duì)應(yīng)&、;,兩者之間是經(jīng)過編碼的十進(jìn)制碼;對(duì)于這點(diǎn)偶也不是十分肯定?要是有同學(xué)比較清楚,請(qǐng)告訴偶下,thx。
POST方式提交:表單中的參數(shù)值對(duì)是通過request body發(fā)送給服務(wù)器,此時(shí)瀏覽器會(huì)根據(jù)網(wǎng)頁的ContentType("text/html; charset=GBK")中指定的編碼進(jìn)行對(duì)表單中的數(shù)據(jù)進(jìn)行編碼,然后發(fā)給服務(wù)器。
在服務(wù)器端的程序中我們可以通過Request.setCharacterEncoding() 設(shè)置編碼,然后通過request.getParameter獲得正確的數(shù)據(jù)。
小結(jié):
相關(guān)文檔參考:
字符,字節(jié)和編碼:http://www.regexlab.com/zh/encoding.htm
各種字符集和編碼詳解:http://blog.csdn.net/ancky/archive/2008/01/11/2034809.aspx
深入淺出URL編碼:http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx
javascript html 相關(guān)編碼問題研究:http://stauren.net/log/fpev3c89q.html
J2EE Web組件中中文及相關(guān)的問題(系列):http://blog.csdn.net/whodsow/archive/2003/10/27/19465.aspx
聯(lián)系客服