在该图中,Filterer会根据事件类型过滤输入流,然后将输出按照维度ID进行分片,这样下一个节点就能够并行处理分片数据了。Joiner通过维度ID从一个或者多个外部系统检索信息,然后根据事件的文本内容对其按照话题进行分类。Scorer记录着最近一段时间内每一个话题的事件数,同时还会跟踪这些计数器的长期趋势。Ranker则计算每N分钟每一个话题的前K个事件是什么。
最后是Facebook在构建该系统的过程总结的一些经验教训:首先,没有一个单独的流处理系统能够适应所有场景,针对不同的点使用不同的系统才能更好地解决问题;其次易用性不仅包括使用,还包括开发、调试、部署、监控和运维等方面;最后,流处理和批处理并不是互斥的,组合使用这两种系统能够加速数据的处理速度。