网上的爬虫教程多如牛毛,原理大体相同,只不过是换个不同的网站进行爬取,你可以跟着网上的教程学习模拟登录一个网站,模拟打卡之类的,爬个豆瓣的电影、书籍之类的。通过不断地练习,从遇到问题到解决问题,这样的收获看书没法比拟的。
爬虫常用库
urllib、urlib2(Python中的urllib)python内建的网络请求库
urllib3:线程安全的HTTP网络请求库
requests:使用最广泛的网络请求库,兼容py2和py3
grequests:异步的requests
BeautifulSoup:HTML、XML操作解析库
lxml:另一种处理 HTML、XML的方式
tornado:异步网络框架
Gevent:异步网络框架
Scrapy:最流行的爬虫框架
pyspider:爬虫框架
xmltodict:xml转换成字典
pyquery:像jQuery一样操作HTML
Jieba :分词
SQLAlchemy:ORM框架
celery :消息队列
rq:简单消息队列
python-goose :从HTML中提取文本
书籍
《图解HTTP》
《HTTP权威指南》
《计算机网络:自顶向下方法》
《用Python写网络爬虫》
《Python网络数据采集》
《精通正则表达式》
《Python入门到实践》
《自己动手写网络爬虫》
《Crypto101》
《图解密码技术》
教程
Python爬虫学习系列教程
Python入门网络爬虫之精华版