最简单的数据抓取教程，人人都用得上

日期：2021-06-15 栏目：程序人生浏览：次

Web Scraper 是一款免费的，适用于普通用户（不需要专业 IT 技术的）的爬虫工具，可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、电商网站商品信息、博客文章列表等等。

环境需求

这么简单的工具当然对环境的要求也很简单了，只需要一台能联网的电脑，一个版本不是很低的 Chrome 浏览器，具体的版本要求是大于 31 ，当然是越新越好了。目前 Chrome 的已经是60多了，也就是说这个版本要求也不是很高。

安装过程

在线安装方式

在线安装需要具有可FQ网络，可访问 Chrome 应用商店

1、在线访问 web Scraper 插件，点击 “添加至 CHROME”。

2、然后点击弹出框中的“添加扩展程序”

3、安装完成后在顶部工具栏显示 Web Scraper 的图标。

本地安装方式

不能FQ的可以使用本地FQ方式，在本公众号回复「爬虫」，可下载 Chrome 和 Web Scraper 扩展插件

1、打开 Chrome，在地址栏输入 chrome://extensions/ ，进入扩展程序管理界面，然后将下载好的扩展插件 Web-Scraper_v0.3.7.crx 拖拽到此页面，点击“添加到扩展程序”即可完成安装。如图：

2、安装完成后在顶部工具栏显示 Web Scraper 的图标。

初识 web scraper 打开 Web Scraper

开发人员可以路过看后面了

windows 系统下可以使用快捷键 F12，有的型号的笔记本需要按 Fn+F12；

Mac 系统下可以使用快捷键 command+option+i ；

也可以直接在 Chrome 界面上操作，点击设置—>更多工具—>开发者工具

打开后的效果如下，其中绿色框部分是开发者工具的完整界面，红色框部分是 Web Scraper 区域，也就是我们之后要操作的部分。

注意：如果打开开发者工具在浏览器的右侧区域，则需要调节开发者工具位置到浏览器底部。

原理及功能说明

我们抓取数据一般都是什么场景呢，如果只是零星的几条数据或者特定的某条数据也就不值得用工具了，之所以用工具是因为要批量的获取数据，而用手工方式又太耗时费力，甚至根本不能完成。例如抓取微博热门前100条，当然可以一页一页的翻，但是实在是太耗精力，再比如说知乎某个问题的所有答案，有的热门问题回答数成千上万，手工来，还是省省吧。

基于这样的一种需求，一般可采用两种方式采集这些数据，一种叫“我们程序员的方式”，另一种叫“你们普通人的方式”。

“我们程序员的方式”是指开发人员会根据需求自己写个爬虫或者利用某个爬虫框架，盯着屏幕狂敲代码，根据需求的复杂程度，敲代码的时长从一两个小时到一两天不等，当然如果时间太长的话可能是因为需求太复杂，针对这种复杂的需求来说，普通人的方式或许也就行不通了。常用的爬虫框架 Scrapy（Python）、WebMagic（Java）、Crawler4j（Java）。

这篇还是主要介绍“你们普通人的方式”，也就是 Web Scraper 这个工具，因为其界面简单、操作简单，并且可导出 Excel 格式，不懂开发的同学也可以很快上手。而且对于一些简单的需求，开发人员也没必要自己实现个爬虫，点几下鼠标毕竟要比敲半天代码快吧。

数据爬取的思路一般可以简单概括如下：

1、通过一个或多个入口地址，获取初始数据。例如一个文章列表页，或者具有某种规则的页面，例如带有分页的列表页；

2、根据入口页面的某些信息，例如链接指向，进入下一级页面，获取必要信息；

3、根据上一级的链接继续进入下一层，获取必要信息（此步骤可以无限循环下去）；

原理大致如此，接下来正式认识一下 Web Scraper 这个工具，来，打开开发者工具，点到 Web Scraper 这个标签栏，看到分为三个部分：

转载注明出处：https://www.heiqu.com/zyyxfy.html

最简单的数据抓取教程，人人都用得上

相关推荐