几道和「黑洞照片」那种海量数据有关的算法问

日期：2020-05-12 栏目：破解天下浏览：次

昨晚被一则新闻刷屏：北京时间 4 月 10 日今晚 9 点，人类首张黑洞照片正式发布。

看到这张图片，小吴心里是极为震撼的：爱因斯坦太太太太太牛逼了！！！

同时，看新闻的时候小吴还注意到里面有个细节，给黑洞”拍照“的事件视界望远镜从 2017 年就开始为黑洞拍照了，但直到 2019 年才公布。

心里不禁纳闷：为什么给黑洞拍照需要这么长时间？

于是去更加详细的搜索资料，果然发现了端倪，其中一个点就是望远镜观测到的数据量非常庞大！

2017 年时 8 个望远镜的数据量达到了 10PB（=10240TB），2018 年又增加了格陵兰岛望远镜，数据量继续增加。庞大的数据量为处理让数据处理的难度不断加大。

平时面试的时候老是说海量数据，海量数据，这次的数据真的是海量数据了。

这次的数据流之大，导致每个射电望远镜产生的数据，都只能用硬盘来储存。

那么现在问题来了，假设你作为给黑洞拍照的研发人员，给你一台内存有限的计算机，你如何找出这些数据的中位数或者判断某个数字是否存在里面。

1. 海量数据查找中位数

题目描述

现在有 10 亿个 int 型的数字（ java 中 int 型占 4B），以及一台可用内存为 1GB 的机器，如何找出这 10 亿个数字的中位数？

所谓中位数就是有序列表中间的数。如果列表长度是偶数，中位数则是中间两个数的平均值。

题目解析

题目中有 10 亿个数字，每个数字在内存中占 4B，那么这 10 亿个数字完全加载到内存中需要：10 * 10^8 * 4，大概需要 4GB 的存储空间。根据题目的限制，显然不能把所有的数字都装入内存中。

这里，可以采用基于二进制位比较和快速排序算法中的分割思想来寻找中位数，实际上这也是桶排序的一种应用。

桶排序

假设将这 10 亿个数字保存在一个大文件中，依次读一部分文件到内存(不超过内存的限制： 1GB )，将每个数字用二进制表示，比较二进制的最高位(第 32 位)，如果数字的最高位为 0，则将这个数字写入 file_0 文件中；如果最高位为 1，则将该数字写入 file_1 文件中。

注意：最高位为符号位，也就是说 file_1 中的数都是负数，而 file_0 中的数都是正数。

通过这样的操作，这 10 亿个数字分成了两个文件，假设 file_0 文件中有 6 亿个数字，而 file_1 文件中有 4 亿个数字。

这样划分后，思考一下：所求的中位数在哪个文件中？

10 亿个数字的中位数是10 亿个数排序之后的第 5 亿个数，现在 file_0 有 6 亿个正数，file_1 有 4 亿个负数，file_0 中的数都比 file_1 中的数要大，排序之后的第 5 亿个数一定是正数，那么排序之后的第 5 亿个数一定位于file_0中。