最简单的数据抓取教程，人人都用得上 (2)

日期：2021-06-15 栏目：程序人生浏览：次

Create new sitemap：首先理解 sitemap ，字面意思网站地图，这里可以理解为一个入口地址，可以理解为其对应一个网站，对应一个需求，假设要获取知乎上的一个问题的回答，就创建一个 sitemap ,并将这个问题所在的地址设置为sitemap 的 Start URL，然后点击 “Create Sitemap”即可创建一个 sitemap。

Sitemaps:sitemap 的集合，所有创建过的 sitemap 都会在这里显示，并且可以在这里进入一个 sitemap 进行修改和数据抓取等操作。

Sitemap:进入某个 sitemap ,可以进行一系列的操作，如下图：

其中红色框部分 Add new selector 是必不可少的步骤。selector 是什么呢，字面意思：选择器，一个选择器对应网页上的一部分区域，也就是包含我们要收集的数据的部分。

需要解释一下，一个 sitemap 下可以有多个 selector，每个 selector 有可以包含子 selector ，一个 selector 可以只对应一个标题，也可以对应一整个区域，此区域可能包含标题、副标题、作者信息、内容等等信息。

Selectors：查看所有的选择器。

Selector graph:查看当前 sitemap 的拓扑结构图，根节点是什么，包含几个选择器，选择器下包含的子选择器。

Edit metadata:可以修改 sitemap 信息，标题和起始地址。

Scrape:开始数据抓取工作。

Export data as CSV:将抓取的数据以 CSV 格式导出。

到这里，有一个简单的认识就可以了，实践出真知，具体的操作案例才具有说服力，下面就以几个例子来说一说具体的用法。

案例实践 简单试水 hao123

由浅入深，先以一个最简单的例子为入口，只是作为进一步认识 Web Scraper 服务

需求背景：看到下面 hao123 页面中红色框住的部分了吧，我们的需求就是统计这部分区域中的所有网站名称和链接地址，最后以生成到 Excel 中。因为这部分内容足够简单，当然真正的需求可能比这复杂，这么几个数据手工统计的时间也很快。

开始操作

1、假设我们已经打开了 hao123 页面，并且在此页面的底部打开了开发者工具，并且定位到了 Web Scraper 标签栏；

2、点击“Create Sitemap”；

3、之后输入 sitemap 名称和 start url，名称只为方便我们标记，就命名为hao123（注意，不支持中文），start url 就是hao123的网址，然后点击 create sitemap；

4、之后 Web Scraper 自动定位到这个 sitemap，接下来我们添加一个选择器，点击“add new selector”；

5、首先给这个 selector 指定一个 id，就是一个便于识别名字而已，我这里命名为 hot。因为要获取名称和链接，所以将Type 设置为 Link，这个类型就是专门为网页链接准备的，选择 Link 类型后，会自动提取名称和链接两个属性；

转载注明出处：https://www.heiqu.com/zyyxfy.html

最简单的数据抓取教程，人人都用得上 (2)

相关推荐