python爬虫如何入门 (2)

日期：2021-12-01 栏目：程序人生浏览：次

网上的爬虫教程多如牛毛，原理大体相同，只不过是换个不同的网站进行爬取，你可以跟着网上的教程学习模拟登录一个网站，模拟打卡之类的，爬个豆瓣的电影、书籍之类的。通过不断地练习，从遇到问题到解决问题，这样的收获看书没法比拟的。

爬虫常用库

urllib、urlib2（Python中的urllib）python内建的网络请求库

urllib3：线程安全的HTTP网络请求库

requests：使用最广泛的网络请求库，兼容py2和py3

grequests：异步的requests

BeautifulSoup：HTML、XML操作解析库

lxml：另一种处理 HTML、XML的方式

tornado：异步网络框架

Gevent：异步网络框架

Scrapy：最流行的爬虫框架

pyspider：爬虫框架

xmltodict：xml转换成字典

pyquery：像jQuery一样操作HTML

Jieba ：分词

SQLAlchemy：ORM框架

celery ：消息队列

rq：简单消息队列

python-goose ：从HTML中提取文本

书籍

《图解HTTP》

《HTTP权威指南》

《计算机网络：自顶向下方法》

《用Python写网络爬虫》

《Python网络数据采集》

《精通正则表达式》

《Python入门到实践》

《自己动手写网络爬虫》

《Crypto101》

《图解密码技术》

教程

Python爬虫学习系列教程

Python入门网络爬虫之精华版