Node.js实现的简易网页抓取功能示例(2)


if (!console.log) {
    var iframe = document.createElement("iframe");
    document.body.appendChild(iframe);
    console = window.frames[0].console;
}


9.告诉浏览器我点击了a标签也是件很不容易的事情,为了完成这些事情,我加入了以下的代码:

复制代码 代码如下:


var clickElement = window.clickElement = function (id){
    var a = document.getElementById(id);
    var e = document.createEvent("MouseEvents");
    e.initMouseEvent("click", true, true, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null);
    a.dispatchEvent(e);
 };

10.我还需要限制浏览器session的最大并发量,从而保障我们不会爆掉服务器。虽然这么说,可是这个限制要比昂贵的商业解决方案所能提供的高很多。(译者注:即商业解决方案的并发量比这个解决方案大)

所有的工作结束后,我就有一个比较体面的 PhantomJS + request 的爬虫解决方案。必须使用 PhantomJS 登录后才可以返回去 request() 请求,它将使用在 PhantomJS 中设置的 Cookie 来验证登录的会话。这是一个巨大的胜利,因为我们可以使用 request() 的流来下载 pdf文件。

整个的计划就是为了让 Web 开发者相对容易的理解如何使用 jQuery 和 CSS 选择器来创建不同 Web 网站的爬虫,我还没有成功证明这个思路可行,但相信很快会了。

您可能感兴趣的文章:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wgsygg.html