解析php中的escape函数(2)

日期：2020-09-25 栏目：程序人生浏览：次

function phpEscape($str) {
preg_match_all("/[\x80-\xff].|[\x01-\x7f]+/",$str,$r);
$ar = $r[0];
foreach($ar as $k=>$v) {
    if(ord($v[0]) < 128)
      $ar[$k] = rawurlencode($v);
    else
      $ar[$k] = "%u".bin2hex(iconv("GB2312","UCS-2",$v));
}
return join("",$ar);
}

这个函数可以很好的工作，但是，也许有新手不理解这个函数的原理(比如我)，用起来总是不放心，现在我就来解释一下这个函数的原理。而且我认为，拿别人的代码来复用，好比站在了巨人的肩膀上，但是若不理解别人的代码，迟早要掉到地面上。
第一句：preg_match_all("/[\x80-\xff].|[\x01-\x7f]+/",$str,$r);这个是用正则表达式匹配字符串中所有的字符，[\x80-\xff]. 匹配的是汉字，\x表示匹配字符的16进制编码，[ ] 是类选择符，“.” 表示任意一个字符，这样[\x80-\xff].匹配的是两个字符，其中第一个就是16进制从80到ff的字符，而这恰好就是汉字编码的第一个字符。这样就能完整的匹配一个汉字。关于unicode中汉字的编码，大家可以到网上搜索一下。同理，[\x01-\x7f]+英文字符串，因为最早的英文是 ASCII编码，编码值小于128，也就是16进制的从01到7f，"+"表示一个或者多个字符，这样[\x01-\x7f]+就能匹配连续多个英文字符串。

复制代码代码如下:

$ar = $r[0];             //$r[0]里存放是匹配到的数组
foreach($ar as $k=>$v) {
    if(ord($v[0]) < 128)                 //假如字符编码值小于128，说明是个英文字符
      $ar[$k] = rawurlencode($v);    //直接用rawurlencode编码
    else
      $ar[$k] = "%u".bin2hex(iconv("GB2312","UCS-2",$v));    //否则的话用iconv函数把汉字转变成ucs-2编码，也就是unicode编码
}

在javascript中就可以用unescape来解码了
\u0391-\uFFE5 和\u4e00-\u9fa5来匹配中文
但好像前者包含汉字下的A-￥等后者可能是纯汉字。
其中解码函数为：

复制代码代码如下:

一、编码范围
1. GBK (GB2312/GB18030)
\x00-\xff   GBK双字节编码范围
\x20-\x7f   ASCII
\xa1-\xff   中文
\x80-\xff   中文
2. UTF-8 (Unicode)
\u4e00-\u9fa5 (中文)
\x3130-\x318F (韩文
\xAC00-\xD7A3 (韩文)
\u0800-\u4e00 (日文)
ps: 韩文是大于[\u9fa5]的字符
正则例子:
preg_replace("/([\x80-\xff])/","",$str);
preg_replace("/([u4e00-u9fa5])/","",$str);

您可能感兴趣的文章:

转载注明出处：http://www.heiqu.com/425306c1bbc0bc49c215e57512f9418d.html

解析php中的escape函数(2)

相关推荐