web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?
web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?
web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?
web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解
应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。
加群请输入暗号“数据采集”,否则不加
很久没有写博客了,一直在默默的学习,经常感到网上太多太多的技术分享都是入门级别的转载,想要找点核心的东西很难,真正掌握核心的企业和大牛都不愿透露哪怕一点点的思路,所以渐渐我就有了这个想法,希望能把核心的技术至少是思路能跟大家一起分享,一起探讨学习。
这是开篇,不废话,先发布一个目录列出我所想探讨的话题,征求一下大家的意见,看大家都对那些感兴趣,如果你认为有价值的话题没有列上去,请留言告诉我,有必要的话我会斟酌后加上。
1.如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?
2.如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?
3.如何防止被封IP?悠着点采?重新拨号换IP?代理?云计算?...谁能提供终极方案?
4.如何应对网站改变?改代码?改模版?智能定位?模拟人工?...如何随机应变?
5.大家都到云上去了?采集如何到云上去?
6.新一代数据采集系统架构设计
暂列这几个,稍后看大家的兴趣再调整增补,因本人能力有限,虽在web数据采集领域奋战多年,却也不可能在web数据采集的各个方面都提供最牛逼的解决方案和思路,还请各位看官本着互相交流学习,一起进步成长的态度来批评指正,欢迎留言。