毕竟大数据行业在国内兴起也就这几年,而爬虫工程师也由此从幕后走向台前,不清楚整个大行业的话,其实只能看到很片面的价值。
回忆这几年带团队的过程,还有团队的发展,有些同学片面低估爬虫工程师的价值,也有些同学盲目高看自已。这篇文章就说说我的想法,希望能让大家更了解这一行的一些工作,希望对大家是有所帮助的。
关于爬虫的话,面试的问题其实都差不多。我罗列一下:
自我介绍。我发现厉害的面试官一般都不会要你做自我介绍,而要你自我介绍的其实只是需要几分钟看看你的简历。至于面试官厉不厉害,其实看他问问题的角度就能看出来了。
项目中遇到最难的地方?是怎么解决的?
详细问你某个项目的过程。因此你需要很了解你自己做的项目。我被问到最多的是关于淘宝UA值的计算过程,似乎大家都对淘宝很感兴趣。
HTTP的三次握手和四次挥手。这个是个高频,我被问了好几次。
进程、线程和协程。
如何设计一个爬虫。
常见的反爬机制有哪些,每种机制的应对方案。这个也是个高频。
如何提高小组的代码质量?我答的是peer review。
常见的去重策略和存储方案。
用过哪些爬虫框架。
基本就这些,可以看到,我很少会被问到只和Python相关的问题(只有一次,问了list和tuple的区别)。但是去研究下Python,总没什么坏处。另外一些可能的加分项:
技术博客,github