详解Node使用Puppeteer完成一次复杂的爬虫(2)

日期：2020-06-06 栏目：程序人生浏览：次

因为Typescript就是好用啊，我也背不住Puppeteer的全部API，也不想每一个都查，所以使用TS就能智能提醒了,也能避免因为拼写导致的低级错误。基本上用了TS以后，敲代码都能一遍过

详解Node使用Puppeteer完成一次复杂的爬虫

puppeteer.png

2、爬虫的性能问题？

因为Puppeteer会启动一个浏览器，执行内部的逻辑，所以占用的内存是蛮多的，看了看控制台，这个node进程大概占用300MB左右的内存。

我的页面是一个个爬的，如果想更快的爬取可以启动多个进程，注意，V8是单线程的，所以在一个进程内部打开多个页面是没有意义的，需要配置不同的参数打开不同的node进程，当然也可以通过node的cluster(集群)实现，本质都是一样的
我在爬取的过程中也设置了不同的等待时间，一方面是为了等待网页的加载，一方面避免淘宝识别到我是爬虫弹验证码

3、Puppeteer的其它功能

这里仅仅利用了Puppeteer的一些基本特性，实际上Puppeteer还有更多的功能。比如引入node上的处理函数在浏览器内部执行，将当前页面保存为pdf或者png图片。并且还可以通过const browser = await puppeteer.launch({ headless: false })启动一个带界面效果的浏览器，你可以看见你的爬虫是如何运作的。此外一些需要登录的网站，如果你不想识别验证码委托第三方进行处理，你也可以关闭headless，然后在程序中设置等待时间，手动完成一些验证从而达到登录的目的。

当然google制作了一个这么牛逼的库可不只是用来做爬虫爬取数据的，这个库也用作于一些自动化的性能分析、界面测试、前端网站监控等

4、一些其它方面的思考

转载注明出处：http://www.heiqu.com/pfpwy.html

详解Node使用Puppeteer完成一次复杂的爬虫(2)

相关推荐