文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者: 静觅 崔庆才
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
?id=3054cce4add8a909e784ad934f956cef
mitmdump 爬取 “得到” App 电子书信息“得到” App 是罗辑思维出品的一款碎片时间学习的 App,App 内有很多学习资源。不过 “得到” App 没有对应的网页版,所以信息必须要通过 App 才可以获取。这次我们通过抓取其 App 来练习 mitmdump 的用法。
爬取目标我们的爬取目标是 App 内电子书版块的电子书信息,并将信息保存到 MongoDB,如图所示。
我们要把图书的名称、简介、封面、价格爬取下来,不过这次爬取的侧重点还是了解 mitmdump 工具的用法,所以暂不涉及自动化爬取,App 的操作还是手动进行。mitmdump 负责捕捉响应并将数据提取保存。
2. 准备工作
请确保已经正确安装好了 mitmproxy 和 mitmdump,手机和 PC 处于同一个局域网下,同时配置好了 mitmproxy 的 CA 证书,安装好 MongoDB 并运行其服务,安装 PyMongo 库,具体的配置可以参考第 1 章的说明。
3. 抓取分析
首先探寻一下当前页面的 URL 和返回内容,我们编写一个脚本如下所示:
1 def response(flow): 2 print(flow.request.url) 3 print(flow.response.text)