python爬虫如何入门 (2)

网上的爬虫教程多如牛毛,原理大体相同,只不过是换个不同的网站进行爬取,你可以跟着网上的教程学习模拟登录一个网站,模拟打卡之类的,爬个豆瓣的电影、书籍之类的。通过不断地练习,从遇到问题到解决问题,这样的收获看书没法比拟的。

爬虫常用库

urllib、urlib2(Python中的urllib)python内建的网络请求库

urllib3:线程安全的HTTP网络请求库

requests:使用最广泛的网络请求库,兼容py2和py3

grequests:异步的requests

BeautifulSoup:HTML、XML操作解析库

lxml:另一种处理 HTML、XML的方式

tornado:异步网络框架

Gevent:异步网络框架

Scrapy:最流行的爬虫框架

pyspider:爬虫框架

xmltodict:xml转换成字典

pyquery:像jQuery一样操作HTML

Jieba :分词

SQLAlchemy:ORM框架

celery :消息队列

rq:简单消息队列

python-goose :从HTML中提取文本

书籍

《图解HTTP》

《HTTP权威指南》

《计算机网络:自顶向下方法》

《用Python写网络爬虫》

《Python网络数据采集》

《精通正则表达式》

《Python入门到实践》

《自己动手写网络爬虫》

《Crypto101》

《图解密码技术》

教程

Python爬虫学习系列教程

Python入门网络爬虫之精华版

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwgfdz.html