中文汉字和拼音互转是很多地方都会遇到的,本文是精心整理并修改了网上几种常见的字典文件并简单封装了一下可以直接拿来用的工具库。有需要的下面来一起看看。
汉字转拼音:
拼音转汉字:
汉字与拼音相关知识普及
汉字范围
一般认为Unicode编码中的汉字范围是 /^[\u2E80-\u9FFF]+$/ (11904-40959) ,但是其中有很多不是汉字,或者说是可以读的汉字,本文用到的几个字典文件的汉字范围均是 /^[\u4E00-\u9FA5]+$/ ,也就是(19968-40869),另外还有一个单独的汉字〇,其Unicode位置是12295。
拼音组合
汉字有21个声母:b, p, m, f, d, t, n, l, g, k, h, j, q, x, zh, ch, sh, r, z, c, s,24个韵母,其中单韵母有6个:a, o, e, i, u, v, 复韵母有18个:ai , ei, ui , ao, ou, iu , ie, ve, er, an , en , in, un , vn , ang, eng, ing , ong,假设声母和韵母两两组合的话,会有24X21=504种组合,实际情况是有些组合是没有意义的,比如bv, gie, ve等,去除这部分后,还剩余412种。
拼音字典文件
按照字典文件的大小从小到大依次介绍。
字典一:拼音首字母
该 字典文件 的内容大致如下:
/** * 拼音首字母字典文件 */ var pinyin_dict_firstletter = {}; pinyin_dict_firstletter.all = "YDYQSXMWZSSXJBYMGCCZQPSSQBYCDSCDQLDYLYBSSJG..."; pinyin_dict_firstletter.polyphone = {"19969":"DZ","19975":"WM","19988":"QJ","20048":"YL",...};
该数据字典将Unicode字符中 4E00 (19968)- 9FA5 (40869)共计20902个汉字的拼音首字母拼接在一起得到一个很长的字符串,然后再将有多音字的汉字(共计370个多音字)单独列出来。该字典文件大小为 25kb 。
该字典文件优点是体积小,支持多音字,缺点是只能获取拼音首字母。
字典二:常用汉字
该字典文件将汉字按照拼音进行归类,共计401种组合,收录了6763个常用汉字,不支持多音字。由于从网络上收集的,收录字数较少,所以文件体积只有24kb,后续有空看能不能给扩充一下。
字典文件大致内容如下(这里只是示例,所以只展示一小部分):
/** * 常规拼音数据字典,收录常见汉字6763个,不支持多音字 */ var pinyin_dict_notone = { "a":"啊阿锕", "ai":"埃挨哎唉哀皑癌蔼矮艾碍爱隘诶捱嗳嗌嫒瑷暧砹锿霭", "an":"鞍氨安俺按暗岸胺案谙埯揞犴庵桉铵鹌顸黯", "ang":"肮昂盎", "ao":"凹敖熬翱袄傲奥懊澳坳拗嗷噢岙廒遨媪骜聱螯鏊鳌鏖", "ba":"芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸茇菝萆捭岜灞杷钯粑鲅魃", "bai":"白柏百摆佰败拜稗薜掰鞴", "ban":"斑班搬扳般颁板版扮拌伴瓣半办绊阪坂豳钣瘢癍舨", "bang":"邦帮梆榜膀绑棒磅蚌镑傍谤蒡螃", "bao":"苞胞包褒雹保堡饱宝抱报暴豹鲍爆勹葆宀孢煲鸨褓趵龅", "bo":"剥薄玻菠播拨钵波博勃搏铂箔伯帛舶脖膊渤泊驳亳蕃啵饽檗擘礴钹鹁簸跛", "bei":"杯碑悲卑北辈背贝钡倍狈备惫焙被孛陂邶埤蓓呗怫悖碚鹎褙鐾", "ben":"奔苯本笨畚坌锛" // 省略其它 };
后来慢慢发现这个字典文件中存在诸多错误,比如把 虐 的拼音写成了 nue (正确写法应该是nve), 躺 写成了 thang ,而且不支持多音字,所以后来我根据其它字典文件自己重新生成了一份这样格式的 字典文件 :
共有404种拼音组合
收录了6763个常用汉字
支持多音字
不支持声调
文件大小为27kb
同时,我根据网上一份 常用6763个汉字使用频率表 ,将这6763个汉字按照使用频率进行了排序,这样就可以实现一个差强人意的JS版输入法了。
另外,根据另外一份更完整的字典文件发现其实共有412种拼音组合,上面字典文件中没有出现的8种发音是:
chua,den,eng,fiao,m,kei,nun,shei
字典三:终极字典
首先,从网上找的如下结构字典文件(下面称为字典A),具体是哪不记得了,支持声调和多音字,它将Unicode字符中 4E00 (19968)- 9FA5 (40869)共计20902个汉字(如果算上〇的话那就是20903个)拼音全部列举,该字典文件大小为 280kb :
3007 (ling2) 4E00 (yi1) 4E01 (ding1,zheng1) 4E02 (kao3) 4E03 (qi1) 4E04 (shang4,shang3) 4E05 (xia4) 4E06 (none0) 4E07 (wan4,mo4) 4E08 (zhang4) 4E09 (san1) 4E0A (shang4,shang3) 4E0B (xia4) 4E0C (ji1) 4E0D (bu4,bu2,fou3) 4E0E (yu3,yu4,yu2) 4E0F (mian3) 4E10 (gai4) 4E11 (chou3) 4E12 (chou3) 4E13 (zhuan1) 4E14 (qie3,ju1) ...
其中,对于没有或者找不到读音的汉字,统一标注为 none0 ,我统计了一下,这样的汉字一共有525个。