发现了一个字符数组初始化的误区,而这个往往能导致比较严重的性能问题,分析介绍如下:
往往我们在初始化一个字符 数组,大概有如下几种写法:
1 char array1[1024] = "";
2 char array2[1024] = {0};
3 char array3[1024] = {'\0'};
4 char array4[1024];
5 array4[0] = '\0';
但这四种写法,其实代表含义不同,看起来前三种写法只是将array的第一个字符置为0,其实前三种在gcc编译时,都是调用了memset来将整个array置为0,如果这个array很长,其实也会导致性能问题。我写了一个简单的小程序编译生成test,objdump了一 下,执行“objdump -S test”可以看下面的代码:
int main() {
400698: 55 push %rbp
400699: 48 89 e5 mov %rsp,%rbp
40069c: 48 81 ec 00 10 00 00 sub $0x1000,%rsp
char array1[1024] = "";
4006a3: 0f b6 05 42 01 00 00 movzbl 322(%rip),%eax # 4007ec <_IO_stdin_used+0x4>
4006aa: 88 85 00 fc ff ff mov %al,0xfffffffffffffc00(%rbp)
4006b0: 48 8d bd 01 fc ff ff lea 0xfffffffffffffc01(%rbp),%rdi
4006b7: ba ff 03 00 00 mov $0x3ff,%edx
4006bc: be 00 00 00 00 mov $0x0,%esi
4006c1: e8 fa fe ff ff callq 4005c0 <memset@plt> //调用了memset
char array2[1024] = {0};
4006c6: 48 8d bd 00 f8 ff ff lea 0xfffffffffffff800(%rbp),%rdi
4006cd: ba 00 04 00 00 mov $0x400,%edx
4006d2: be 00 00 00 00 mov $0x0,%esi
4006d7: e8 e4 fe ff ff callq 4005c0 <memset@plt> //调用了memset
char array3[1024] = {'\0'};
4006dc: 48 8d bd 00 f4 ff ff lea 0xfffffffffffff400(%rbp),%rdi
4006e3: ba 00 04 00 00 mov $0x400,%edx
4006e8: be 00 00 00 00 mov $0x0,%esi
4006ed: e8 ce fe ff ff callq 4005c0 <memset@plt> //调用了memset
char array4[1024];
array4[0] = '\0';
4006f2: c6 85 00 f0 ff ff 00 movb $0x0,0xfffffffffffff000(%rbp)
return 0;
4006f9: b8 00 00 00 00 mov $0x0,%eax
}
所以,对这四种写法,实际执行的代码解释如下:
char array1[1024] = ""; //第11行,调用memset将1023个字符置为0
char array2[1024] = {0}; //第17行,调用memset将1024个字符置为0
char array3[1024] = {'\0'}; //第23行,调用memset将1024个字符置为0
char array4[1024];
array4[0] = '\0'; //只是将第一个字符置为0
而对于字符数组,往往只是作为一个字符串的临时缓冲区使用,没有必要将整个数组置为0,所以第四种写法往往就能达到初始化的目的。建议使用第四种写法来初始化一个字符数组,这样能节约很多性能消耗。