面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析 (4)

将这一天访问百度的日志的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 HashMap 进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中找出那个频率最大的IP,即为所求。

算法思想:分而治之+Hash

IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;

可以考虑采用分而治之的思想,按照IP地址的Hash(IP) % 1024值,把海量IP日志分别存储到1024个
小文件中,这样每个小文件最多包含4MB个IP地址; 这里解释一下为什么用Hash(IP) % 1024值,如果不用,而直接分类的话,可能会出现这样一种情况,就是有个IP在每个小文件中都存在,而且这个IP并不一定在那个小文件中是数量最多的,那么最终可能选择的结果会有问题,所以这里用了Hash(IP)%1024值,这样的话,通过计算IP的Hash值,相同IP肯定会放到一个文件中,当然了不同的IP的Hash值也可能相同,就存在一个小文件中。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpjzgy.html