功能式Python中的探索性数据分析

日期：2021-06-06 栏目：程序人生浏览：次

这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。

在Python中运行不同的实验似乎比试图在Splunk中进行这种探索性的操作更有效。主要是因为我们可以无所限制地对数据做任何事。我们可以在一个地方创建非常复杂的统计模型。

理论上，我们可以在Splunk中做很多的探索。它有各种报告和分析功能。

但是...

使用Splunk需要假设我们知道我们正在寻找什么。在很多情况下，我们不知道我们在寻找什么：我们正在探索。可能会有一些迹象表明，一些RESTful API处理速度很慢，但还不止于此。我们如何继续？

第一步是获取CSV格式的原始数据。怎么办？

读取原始数据

我们将首先用一些附加函数来包装一个CSV.DictReader对象。

面向对象的纯粹主义者会反对这个策略。 “为什么不扩展DictReader？”他们问。我没有一个很好的答案。我倾向于函数式编程和组件的正交性。对于一个纯粹的面向对象的方法，我们不得不使用更复杂的混合来实现这一点。

我们处理日志的一般框架是这样的。

with open("somefile.csv") as source: rdr = csv.DictReader(source)