Node.js实现的简易网页抓取功能示例(2)

日期：2020-06-11 栏目：程序人生浏览：次

if (!console.log) {
    var iframe = document.createElement("iframe");
    document.body.appendChild(iframe);
    console = window.frames[0].console;
}

9.告诉浏览器我点击了a标签也是件很不容易的事情，为了完成这些事情，我加入了以下的代码：

复制代码代码如下:

var clickElement = window.clickElement = function (id){
    var a = document.getElementById(id);
    var e = document.createEvent("MouseEvents");
    e.initMouseEvent("click", true, true, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null);
    a.dispatchEvent(e);
};

10.我还需要限制浏览器session的最大并发量，从而保障我们不会爆掉服务器。虽然这么说，可是这个限制要比昂贵的商业解决方案所能提供的高很多。（译者注：即商业解决方案的并发量比这个解决方案大）

所有的工作结束后，我就有一个比较体面的 PhantomJS + request 的爬虫解决方案。必须使用 PhantomJS 登录后才可以返回去 request() 请求，它将使用在 PhantomJS 中设置的 Cookie 来验证登录的会话。这是一个巨大的胜利，因为我们可以使用 request() 的流来下载 pdf文件。

整个的计划就是为了让 Web 开发者相对容易的理解如何使用 jQuery 和 CSS 选择器来创建不同 Web 网站的爬虫，我还没有成功证明这个思路可行，但相信很快会了。

您可能感兴趣的文章:

转载注明出处：https://www.heiqu.com/wgsygg.html

Node.js实现的简易网页抓取功能示例(2)

相关推荐