浅谈Unicode与JavaScript的发展史(3)

日期：2020-06-11 栏目：程序人生浏览：次

上面代码表示，JavaScript认为字符的长度是2，取到的第一个字符是空字符，取到的第一个字符的码点是0xDB34。这些结果都不正确！

浅谈Unicode与JavaScript的发展史

解决这个问题，必须对码点做一个判断，然后手动调整。下面是正确的遍历字符串的写法。

while (++index < length) { // ... if (charCode >= 0xD800 && charCode <= 0xDBFF) { output.push(character + string.charAt(++index)); } else { output.push(character); }}

上面代码表示，遍历字符串的时候，必须对码点做一个判断，只要落在0xD800到0xDBFF的区间，就要连同后面2个字节一起读取

类似的问题存在于所有的JavaScript字符操作函数。

String.prototype.replace()

String.prototype.substring()

String.prototype.slice()

...

上面的函数都只对2字节的码点有效。要正确处理4字节的码点，就必须逐一部署自己的版本，判断一下当前字符的码点范围。

九、ECMAScript 6

浅谈Unicode与JavaScript的发展史

JavaScript的下一个版本ECMAScript 6（简称ES6），大幅增强了Unicode支持，基本上解决了这个问题。

（1）正确识别字符

ES6可以自动识别4字节的码点。因此，遍历字符串就简单多了。

复制代码代码如下:

for (let s of string ) { // ...}

但是，为了保持兼容，length属性还是原来的行为方式。为了得到字符串的正确长度，可以用下面的方式。

复制代码代码如下:

Array.from(string).length

（2）码点表示法

JavaScript允许直接用码点表示Unicode字符，写法是"反斜杠+u+码点"。

复制代码代码如下:

'好' === '\u597D' // true

但是，这种表示法对4字节的码点无效。ES6修正了这个问题，只要将码点放在大括号内，就能正确识别。

浅谈Unicode与JavaScript的发展史

（3）字符串处理函数

ES6新增了几个专门处理4字节码点的函数。

String.fromCodePoint()：从Unicode码点返回对应字符

String.prototype.codePointAt()：从字符返回对应的码点

String.prototype.at()：返回字符串给定位置的字符

（4）正则表达式

ES6提供了u修饰符，对正则表达式添加4字节码点的支持。

浅谈Unicode与JavaScript的发展史

（5）Unicode正规化

有些字符除了字母以外，还有附加符号。比如，汉语拼音的Ǒ，字母上面的声调就是附加符号。对于许多欧洲语言来说，声调符号是非常重要的。

浅谈Unicode与JavaScript的发展史

Unicode提供了两种表示方法。一种是带附加符号的单个字符，即一个码点表示一个字符，比如Ǒ的码点是U+01D1；另一种是将附加符号单独作为一个码点，与主体字符复合显示，即两个码点表示一个字符，比如Ǒ可以写成O（U+004F）+ ˇ（U+030C）。

复制代码代码如下:

// 方法一'\u01D1'// 'Ǒ'// 方法二'\u004F\u030C'// 'Ǒ'

这两种表示方法，视觉和语义都完全一样，理应作为等同情况处理。但是，JavaScript无法辨别。

复制代码代码如下:

'\u01D1'==='\u004F\u030C' //false

ES6提供了normalize方法，允许"Unicode正规化"，即将两种方法转为同样的序列。

复制代码代码如下:

'\u01D1'.normalize() === '\u004F\u030C'.normalize() // true

转载注明出处：https://www.heiqu.com/wgxwjj.html

浅谈Unicode与JavaScript的发展史(3)

相关推荐