面试系列一：精选大数据面试真题10道（混合型）-附答案详细解析 (4)

日期：2021-05-28 栏目：程序人生浏览：次

将这一天访问百度的日志的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用 HashMap 进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中找出那个频率最大的IP，即为所求。

算法思想：分而治之+Hash

IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；

可以考虑采用分而治之的思想，按照IP地址的Hash(IP) % 1024值，把海量IP日志分别存储到1024个
小文件中，这样每个小文件最多包含4MB个IP地址；这里解释一下为什么用Hash(IP) % 1024值，如果不用，而直接分类的话，可能会出现这样一种情况，就是有个IP在每个小文件中都存在，而且这个IP并不一定在那个小文件中是数量最多的，那么最终可能选择的结果会有问题，所以这里用了Hash(IP)%1024值，这样的话，通过计算IP的Hash值，相同IP肯定会放到一个文件中，当然了不同的IP的Hash值也可能相同，就存在一个小文件中。

转载注明出处：https://www.heiqu.com/wpjzgy.html

面试系列一：精选大数据面试真题10道（混合型）-附答案详细解析 (4)

相关推荐