浏览器原生支持的unicode编码类型

我测试下来分别有以下几种unicode编码浏览器是能够自动识别并转换成对应中文的:

1,html实体及html实体编号

html实体大家肯定都知道,最常见的就是 代表空格。但很多人没留意的是html实体编号其实浏览器也是可以自动识别的,特征是:&#{10进制数字};或者是&#x{16进制数字};。其实html实体说白了就是使用10进制或16进制的unicode进行加密的而已,浏览器都能识别。

【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】

2,\u以及\x编码

\u以及\x这两者都是16进制的unicode加密算法,和html实体编号一样,其实不过是将&#替换成了\u或者\x而已,但是注意必须保持小写,因为\U和\X是不能够被识别的。这里要重点提一下\u+,这种加密我印象中也看到过,但是刚才测试了下,根本没法识别成正常字符嘛,至此我对使用这种算法加密字符的只能表示不理解了。备注:这两种方式只能用在js中,\u可用于中文编码,而\x只适用于英文编码。而html实体与实体编号是直接可以用在html源码中的。

这里肯定有人会问,上面的这个乱七八糟的东东能用来干嘛?:其实这类编码的原始目的是为了让中文在不同的环境下都能很好的显示,所以一般都会将中文转化为unicode格式,而浏览器很聪明的会自动解码其为对应字符。

举个案例:百度旅游的文字蛋疼到全部都是ajax获取的(还让不让人采集了?!!!),而返回的json数据就是利用\u编码进行的加密。

除此以外如果细心的话,你会再各种各样有意思的网站上发现这类编码的身影,然后呵呵。。。


Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>