这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。
在Python中运行不同的实验似乎比试图在Splunk中进行这种探索性的操作更有效。主要是因为我们可以无所限制地对数据做任何事。我们可以在一个地方创建非常复杂的统计模型。
理论上,我们可以在Splunk中做很多的探索。它有各种报告和分析功能。
但是...
使用Splunk需要假设我们知道我们正在寻找什么。在很多情况下,我们不知道我们在寻找什么:我们正在探索。可能会有一些迹象表明,一些RESTful API处理速度很慢,但还不止于此。我们如何继续?
第一步是获取CSV格式的原始数据。怎么办?
读取原始数据我们将首先用一些附加函数来包装一个CSV.DictReader对象。
面向对象的纯粹主义者会反对这个策略。 “为什么不扩展DictReader?”他们问。我没有一个很好的答案。我倾向于函数式编程和组件的正交性。对于一个纯粹的面向对象的方法,我们不得不使用更复杂的混合来实现这一点。
我们处理日志的一般框架是这样的。
with open("somefile.csv") as source: rdr = csv.DictReader(source)