名字带“䶮”开不了账户探询金融系统生僻字输(2)

日期：2022-02-19 栏目：黑客生涯浏览：次

　　教育部在上述人大代表建议回应中表示，生僻字主要使用四字节编码，操作系统、输入法，以及文字处理软件和硬件实现四字节编码的技术难度和成本都较高。在部分应用行业的信息系统仍在使用早期或定制的系统，不具备处理一些生僻字的能力。此外，还有个别系统的部分汉字使用了自定义编码，影响了与外界的信息交换。

　　一位在银行供职多年的系统架构师对记者表示，问题出在“一字两码”。䶮字存在两个以上计算机编码。由于处理的此类问题多了，业内将这两个编码不同、但字型相似的“䶮”字谑称为大䶮、小䶮。

　　也即，“自定义编码”导致金融系统、互联网、电信等出现无法识别姓名的情况。

　　该资深系统架构师告诉记者，汉字编码国家标准，先后经过了GB2312、GBK、GB18030-2000，GB18030-2005不同版本。二代居民身份证的电子数据使用UTF16编码，生僻字使用了Unicode PUA（私有用户区，简称PUA）编码。

　　大部分人取名来自字典。此前，一代身份证存在不少手写姓名报户口的情况，到二代身份证时才开始数字化。导致一些汉字既有公民身份证PUA编码，又有Unicode编码。

　　国际上字符标准是Unicode标准，到2020年，Unicode版本到了第13版，收录来自全球的143924个字符，其中包括“中日韩统一表意文字”（简称CJK）整理的92857个汉字。CJK是逐年累积增加大的，包括A到G的7个扩展区域。

　　其中，“䶮”字等生僻字就有了4个编码。在GB中，编码为“FE9F”“8336CF39”；在PUA中，编码为“E863”；在Unicode中，编码为“4DAE”。

　　“PUA是早期为解决居民户口登记问题，设计的私有临时区域。当时二代身份证更新换代时，Unicode扩展A区刚刚出现，扩展B区还没面世。各国合作的Unicode出现之后，应该腾出这些码。使用统一的编码。”上述系统架构师表示。从技术角度，PUA适合用作文献整理、历史考古等极罕用字的专业领域，不适合在公共信息交换领域大规模启用。

　　据悉，由于历史原因，国内大中型银行使用的是IBM i系列或z系统主机，IBM主机EBCDIC可以支持至CJK扩展A区，可容纳约27000字，符合GB18030-2000强制标准。但是根据他的统计，PUA编码了4700多个汉字，其中3600字被Unicode收录。

　　他建议，金融、电信乃至互联网等各公共服务机构，应尽快升级目前仅支持GBK的系统，满足普通市民使用通规表字（GB18030）的基本要求。对于监管部门而言，如何统一汉字编码规范，解决PUA造成的“一字多码”等问题。

　　特别是，在目前暂时不能解决PUA用字的情况下，考虑采用GBK繁体容错，而非简单采用《通用规范汉字表》削足适履。

名字带“䶮”开不了账户探询金融系统生僻字输

海量资讯、精准解读，尽在新浪财经APP

转载注明出处：https://www.heiqu.com/zwpjxf.html

名字带“䶮”开不了账户 探询金融系统生僻字输(2)

相关推荐

名字带“䶮”开不了账户探询金融系统生僻字输(2)