几道和「黑洞照片」那种海量数据有关的算法问(2)

也就是说:中位数就在 file_0 文件中,并且是 file_0 文件中所有数字排序之后的第 1 亿个数字。

现在,我们只需要处理 file_0 文件了(不需要再考虑 file_1 文件)。

而对于 file_0 文件,可以同样的采取上面的措施处理:将 file_0 文件依次读一部分到内存(不超内存限制:1GB ),将每个数字用二进制表示,比较二进制的 次高位(第 31 位),如果数字的次高位为 0,写入 file_0_0 文件中;如果次高位为 1 ,写入 file_0_1 文件中。

现假设 file_0_0 文件中有 3 亿个数字,file_0_1中也有 3 亿个数字,则中位数就是:file_0_0 文件中的数字从小到大排序之后的第 1 亿个数字。

抛弃 file_0_1 文件,继续对 file_0_0 文件 根据次次高位(第 30 位) 划分,假设此次划分的两个文件为:file_0_0_0中有 0.5 亿个数字,file_0_0_1 中有 2.5 亿个数字,那么中位数就是 file_0_0_1 文件中的所有数字排序之后的第 0.5 亿个数。

2. 海量数据中判断数字是否存在

题目描述

现在有 10 亿个 int 型的数字( java 中 int 型占 4B),以及一台可用内存为 1GB 的机器,给出一个整数,问如果快速地判断这个整数是否在这 10 亿数字中?

题目分析

这里可以使用 布隆过滤器 进行处理。

布隆过滤器(英语:Bloom Filter)是 1970 年由 Burton Bloom 提出的。

它实际上是一个很长的二进制矢量和一系列随机映射函数。

它可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着高效的查询效率。

对于布隆过滤器而言,它的本质是一个位数组:位数组就是数组的每个元素都只占用 1 bit ,并且每个元素只能是 0 或者 1。

一开始,布隆过滤器的位数组所有位都初始化为 0。比如,数组长度为 m ,那么将长度为 m 个位数组的所有的位都初始化为 0。

0 0 0 0 0 0 0 0 0 0
0 0 1 m-2 m-1

在数组中的每一位都是二进制位。

布隆过滤器除了一个位数组,还有 K 个哈希函数。当一个元素加入布隆过滤器中的时候,会进行如下操作:

使用 K 个哈希函数对元素值进行 K 次计算,得到 K 个哈希值。根据得到的哈希值,在位数组中把对应下标的值置为 1。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/1536.html