Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、电商网站商品信息、博客文章列表等等。
环境需求这么简单的工具当然对环境的要求也很简单了,只需要一台能联网的电脑,一个版本不是很低的 Chrome 浏览器,具体的版本要求是大于 31 ,当然是越新越好了。目前 Chrome 的已经是60多了,也就是说这个版本要求也不是很高。
安装过程在线安装方式
在线安装需要具有可FQ网络,可访问 Chrome 应用商店
1、在线访问 web Scraper 插件 ,点击 “添加至 CHROME”。
2、然后点击弹出框中的“添加扩展程序”
3、安装完成后在顶部工具栏显示 Web Scraper 的图标。
本地安装方式
不能FQ的可以使用本地FQ方式,在本公众号回复「爬虫」,可下载 Chrome 和 Web Scraper 扩展插件
1、打开 Chrome,在地址栏输入 chrome://extensions/ ,进入扩展程序管理界面,然后将下载好的扩展插件 Web-Scraper_v0.3.7.crx 拖拽到此页面,点击“添加到扩展程序”即可完成安装。如图:
2、安装完成后在顶部工具栏显示 Web Scraper 的图标。
初识 web scraper 打开 Web Scraper开发人员可以路过看后面了
windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12;
Mac 系统下可以使用快捷键 command+option+i ;
也可以直接在 Chrome 界面上操作,点击设置—>更多工具—>开发者工具
打开后的效果如下,其中绿色框部分是开发者工具的完整界面,红色框部分是 Web Scraper 区域,也就是我们之后要操作的部分。
注意:如果打开开发者工具在浏览器的右侧区域,则需要调节开发者工具位置到浏览器底部。
原理及功能说明我们抓取数据一般都是什么场景呢,如果只是零星的几条数据或者特定的某条数据也就不值得用工具了,之所以用工具是因为要批量的获取数据,而用手工方式又太耗时费力,甚至根本不能完成。例如抓取微博热门前100条,当然可以一页一页的翻,但是实在是太耗精力,再比如说知乎某个问题的所有答案,有的热门问题回答数成千上万,手工来,还是省省吧。
基于这样的一种需求,一般可采用两种方式采集这些数据,一种叫“我们程序员的方式”,另一种叫“你们普通人的方式”。
“我们程序员的方式”是指开发人员会根据需求自己写个爬虫或者利用某个爬虫框架,盯着屏幕狂敲代码,根据需求的复杂程度,敲代码的时长从一两个小时到一两天不等,当然如果时间太长的话可能是因为需求太复杂,针对这种复杂的需求来说,普通人的方式或许也就行不通了。常用的爬虫框架 Scrapy(Python)、WebMagic(Java)、Crawler4j(Java)。
这篇还是主要介绍“你们普通人的方式”,也就是 Web Scraper 这个工具,因为其界面简单、操作简单,并且可导出 Excel 格式,不懂开发的同学也可以很快上手。而且对于一些简单的需求,开发人员也没必要自己实现个爬虫,点几下鼠标毕竟要比敲半天代码快吧。
数据爬取的思路一般可以简单概括如下:
1、通过一个或多个入口地址,获取初始数据。例如一个文章列表页,或者具有某种规则的页面,例如带有分页的列表页;
2、根据入口页面的某些信息,例如链接指向,进入下一级页面,获取必要信息;
3、根据上一级的链接继续进入下一层,获取必要信息(此步骤可以无限循环下去);
原理大致如此,接下来正式认识一下 Web Scraper 这个工具,来,打开开发者工具,点到 Web Scraper 这个标签栏,看到分为三个部分: