略微加速

略速 - 互联网笔记

常用汉字的Unicode编码及编码范围

2018-07-31 leiting (5604阅读)

标签 开发编程

  • 编码范围
    1. GBK (GB2312/GB18030)
    x00-xff GBK双字节编码范围
    x20-x7f ASCII
    xa1-xff 中文
    x80-xff 中文


    2. UTF-8 (Unicode)
    u4e00-u9fa5 (中文)
    x3130-x318F (韩文)
    xAC00-xD7A3 (韩文)
    u0800-u4e00 (日文)
    ps: 韩文是大于[u9fa5]的字符


  • 正则例子(使用PHP):
    preg_replace(“/([x80-xff])/”,”",$str);    //GBK中匹配
    preg_replace(“/([u4e00-u9fa5])/”,”",$str);    //UTF8中匹配

  • 另外一些:
    有时候我们也会用到全角英文、特殊符号等
    全角英文的UTF8是: uff21 – uff5a ,是从大写A开始到小写的z。
    utf8中的 uff20是@
    utf8中的 uff01到 uff09是我们美式键盘上shift + 从1到9键上的特殊符号。要注意的是因为@是 uff20,所以 uff02是双引号,同时6的……是两个符号的组合,所以也不存在,正题提前一位(也就是说ff06是&, ff09是))。
    utf8中的全角数字是 uff10 – uff19 ,对应关系自然是 0 – 9 。


北京半月雨文化科技有限公司.版权所有 京ICP备12026184号-3