深入分析Java Web中的中文编码问题(2)

日期：2020-06-24 栏目：程序人生浏览：次

将中文和中文符号经过不支持中文的IDO-8859-1编码后，所有字符变成了“？”。这是因为ISO-8859-1在编解码的时候，遇到不在码值范围内字符会统一用3f表示，这也就是“黑洞”。而ISO-8859-1不认识的字符变成了“？”。

3、一个汉字变成两个问号

中文经过多次编码，但是其中有一次编码或者解码不对而出现以上情况。

4、一种不正常的正确编码

有时候我们会发现，当你在Jsp页面获取到参数时，String value = request.getParameter("name");会出现乱码。而使用 String value = String(request.getParameter("name".getBytes("ISO-8859-1"),"GBK"));时就能正常显示中文。

事实上是这样子的，ISO-8859-1字符集的编码范围是0000~00FF，正好和一个字节的编码范围相对应。这种特性保证了使用ISO-8859-1进行编码和解码时编码数值不变。虽然中文字符在网络传输的过程中，被错误地拆分为两个欧洲字符，但由于输出的时候也使用了ISO-8859-1，结果被拆开的中文字又被合并，刚好组成了一个正确的汉字。缺点是增加多一次编码。

彻底解决该问题的方法是，在Tomcat的配置文件中将useBodyEncodingURI配置项设置为“true”。

网站国际化：

将网站的文字转换语言形式。首先要将网站的编码格式设置为支持多种语言的UTF-8编码，然后对页面进行本地化翻译工作。本地化翻译分为：机器自动翻译，类似于Google翻译或者是Office繁简转换；人工翻译，代价较高。前者技术难度高，且有些语义难以准确翻译。后一种系统维护麻烦。

例子：由繁到简过程：由人工翻译将简体中文的GBK编码汉字转换为繁体的Big5编码汉字，形成一个码表。由于汉字字符的字节特性，在两个连续的字节的最高位都大于1时，用这两个连续的字节组合起来从码表中查找，进行对照翻译。这个查找和翻译的工作在前端的Web服务器上动态完成，自动将后台输出的简体中文转换为繁体中文。但是也存在有些词组翻译不好，很难解决跨语言问题。

转载注明出处：https://www.heiqu.com/ce166b5b587f565e40e1eda8a00f72d0.html

深入分析Java Web中的中文编码问题(2)

相关推荐