周末不务正业一回,写点轻松点的内容,最近在陪老婆追一部挺火的剧《长安十二时辰》,剧情还是挺有意思的,但是有个叫"大案牍术"的东西看得我有点出戏,职业病犯了联想了一堆乱七八糟的东西…
剧中有一个统管了大唐三省六部所有档案资料的机构叫靖安司,这俨然就是一个大数据中心,里面有一个把我惊呆了的黑科技--大案牍术,这不就是唐朝的大数据平台吗,虽然知道是杜撰而来,但是这套大数据平台还是挺有模有样的,麻雀虽小五脏俱全,平台的总架构师是创始人徐宾,这是一个我怀疑有超忆症的人,下面我来瞎扯下这个大数据平台的核心技术。
1.存储数据存储介质是竹简,竹简有序地放在一些造型古怪的架子上,应该是为了查找方便。
另外想要提高查询效率,索引肯定是少不了的,而这个存储平台的索引就是徐宾本人,他有惊人的记忆力,能记住所有卷宗存放的位置,另外他胸前还有一条项链,剧中他有秀过一波操作,摸一下这个项链就能把一个人以前做过的事情都巴拉巴拉地说出来,所以这个项链应该是辅助记忆的一个东西,也就是二级索引。
剧中还有一段是李必要通过大案牍术去查徐宾这个人的过去,叫了10个人花了挺久的时间才查出来,可见没了这个索引,查询效率是非常低下的。
2.计算如何能提高查询计算的效率,最直接的方法加机器呀,分布式计算你懂的,虽然在唐朝没有计算机,但是总架构师徐宾当然是知道分布式计算的原理的,所以“机器不够,人头来凑”,徐宾找了一帮的 SQL Boy (那个时候叫吏员)来帮忙查找卷宗,提高查询效率。
3.ETL数据的采集,清洗,入库过程也是架构师徐宾一手抓的,etl工程师从各地记录各种事件和用户的基本信息,传输给靖安司进行存储,另外因为长安当时藤纸已经不够用了而且非常贵,导致没纸录入,案牍记录大不如从前精准,大案牍术的可靠性大受质疑。所以徐冰还在研究造纸的技术,目的是为了能够让数据传输更加轻便,一次能传输更加大量的数据,且控制成本。
4.通信这个大数据平台还有一套实时通信的工具--望楼,这个望楼不仅用作观察敌人行为以及异常报警,还有复杂的远程通信功能。
信息还是通过加密才传输的,如下图,看不懂但是看起来很牛逼。不过这个加密也不是绝对安全,遇到黑客也是会被拦截并且破解的,还有很大的优化空间,而且这个望楼还出现了一次特大级事故,被黑客龙波植入了名为陆三的病毒,消息被泄漏甚至被篡改,总架构师徐宾也是差点付出了生命的代价。
5.应用场景扯完了平台的架构设计,那么我们来说下应用场景吧。剧中提到办案的人是大案牍术选出来的,是能通过用户画像精准地找到符合某种特征的人群,再通过评分来选择最优解。
但是,架构师徐宾在这里又动了手脚,他在程序里篡改了一行 SQL 代码,
"select '张小敬' from daandushu"
他把查询结果写死在了代码里,可见公司里还没有代码互审机制啊,或者是没有一个和架构师能力相当的人来牵制他,让他不能在代码里为所欲为。
接下来根据用户的基本属性和行为特征进行分析,获取用户的喜好和可能的行为,没错,这就是数据挖掘,没想到徐宾不仅仅是工程师,还是个搞算法的,来看看剧中的原话。
6.结语因为很多地方我都是用二倍速看的,所以剧情看得不是很详细,很多地方没有写得很严谨,大家不用在意,这部剧本身就是属于架空类型的,很多设计都禁不起推敲,乐呵乐呵就完事了。
(文中的图片均来自百度图片,侵删)