名字带“䶮”开不了账户 探询金融系统生僻字输(2)

  教育部在上述人大代表建议回应中表示,生僻字主要使用四字节编码,操作系统、输入法,以及文字处理软件和硬件实现四字节编码的技术难度和成本都较高。在部分应用行业的信息系统仍在使用早期或定制的系统,不具备处理一些生僻字的能力。此外,还有个别系统的部分汉字使用了自定义编码,影响了与外界的信息交换。

  一位在银行供职多年的系统架构师对记者表示,问题出在“一字两码”。䶮字存在两个以上计算机编码。由于处理的此类问题多了,业内将这两个编码不同、但字型相似的“䶮”字谑称为大䶮、小䶮。

  也即,“自定义编码”导致金融系统、互联网、电信等出现无法识别姓名的情况。

  该资深系统架构师告诉记者,汉字编码国家标准,先后经过了GB2312、GBK、GB18030-2000,GB18030-2005不同版本。二代居民身份证的电子数据使用UTF16编码,生僻字使用了Unicode PUA(私有用户区,简称PUA)编码。

  大部分人取名来自字典。此前,一代身份证存在不少手写姓名报户口的情况,到二代身份证时才开始数字化。导致一些汉字既有公民身份证PUA编码,又有Unicode编码。

  国际上字符标准是Unicode标准,到2020年,Unicode版本到了第13版,收录来自全球的143924个字符,其中包括“中日韩统一表意文字”(简称CJK)整理的92857个汉字。CJK是逐年累积增加大的,包括A到G的7个扩展区域。

  其中,“䶮”字等生僻字就有了4个编码。在GB中,编码为“FE9F”“8336CF39”;在PUA中,编码为“E863”;在Unicode中,编码为“4DAE”。

  “PUA是早期为解决居民户口登记问题,设计的私有临时区域。当时二代身份证更新换代时,Unicode扩展A区刚刚出现,扩展B区还没面世。各国合作的Unicode出现之后,应该腾出这些码。使用统一的编码。”上述系统架构师表示。从技术角度,PUA适合用作文献整理、历史考古等极罕用字的专业领域,不适合在公共信息交换领域大规模启用。

  据悉,由于历史原因,国内大中型银行使用的是IBM i系列或z系统主机,IBM主机EBCDIC可以支持至CJK扩展A区,可容纳约27000字,符合GB18030-2000强制标准。但是根据他的统计,PUA编码了4700多个汉字,其中3600字被Unicode收录。

  他建议,金融、电信乃至互联网等各公共服务机构,应尽快升级目前仅支持GBK的系统,满足普通市民使用通规表字(GB18030)的基本要求。对于监管部门而言,如何统一汉字编码规范,解决PUA造成的“一字多码”等问题。

  特别是,在目前暂时不能解决PUA用字的情况下,考虑采用GBK繁体容错,而非简单采用《通用规范汉字表》削足适履。

名字带“䶮”开不了账户 探询金融系统生僻字输

海量资讯、精准解读,尽在新浪财经APP

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwpjxf.html