網(wǎng)上很多javascript escape的php實現(xiàn),都是針對gb2312的,主要缺點就是gb之外的字符不能正確escape。并且函數(shù)中字符的分界也有問題。所以對其進行了更新。
用了一晚上時間,仔細學習了一下字符編碼的知識,將escape函數(shù)改為utf8版本,這樣,就可以正確的編碼所有的文字了。
目前寫了兩個版本:
function escape($str) {
preg_match_all("/[\xc2-\xdf][\x80-\xbf]+|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}|[\x01-\x7f]+/e",$str,$r);
//匹配utf-8字符,
$str = $r[0];
$l = count($str);
for($i=0; $i<$l; $i++){
$value = ord($str[$i][0]);
/*
if($value >= 192 && $value <= 223) $i++;//單字節(jié)
elseif($value >= 224 && $value <= 239) $i = $i + 2;//雙字節(jié)
elseif($value >= 240 && $value <= 247) $i = $i + 3;//三字節(jié)
*/
if($value < 223){
$str[$i] = rawurlencode(utf8_decode($str[$i]));
//先將utf8編碼轉(zhuǎn)換為ISO-8859-1編碼的單字節(jié)字符,urlencode單字節(jié)字符.
//utf8_decode()的作用相當于iconv("UTF-8","CP1252",$v)。
}else{
$str[$i] = "%u".strtoupper(bin2hex(iconv("UTF-8","UCS-2",$str[$i])));
}
}
return join("",$str);
}
這個版本使用循環(huán),逐字escape。
function escape_callback($matches){ $value = ord($matches[1][0]); /* if($value >= 192 && $value <= 223) $i++;//單字節(jié) elseif($value >= 224 && $value <= 239) $i = $i + 2;//雙字節(jié) elseif($value >= 240 && $value <= 247) $i = $i + 3;//三字節(jié) */ if($value < 223){ $str = rawurlencode(utf8_decode($matches[1])); //先將utf8編碼轉(zhuǎn)換為ISO-8859-1編碼的單字節(jié)字符,urlencode單字節(jié)字符. //utf8_decode()的作用相當于iconv("UTF-8","CP1252",$v)。 }else{ $str = "%u".strtoupper(bin2hex(iconv("UTF-8","UCS-2",$matches[1]))); } return $str; } function pescape($uri){ return preg_replace_callback(‘/([\xc2-\xdf][\x80-\xbf]+|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}|[\x01-\x7f]+)/‘, ‘escape_callback‘, $uri); }這個版本用preg_replace_callback自動迭代。
兩個版本的效率都很快,都在毫秒以下級。