最简单的数据抓取教程,人人都用得上 (4)

7、接下来点击 Select,然后鼠标到页面上来,让当绿色框框住一个回答区域后点击鼠标,然后移动到下一个回答,同样当绿色框框住一个回答区域后点击鼠标。这时,除了这两个回答外,所有的回答区域都变成了红色框,然后点击"Done selecting!”,最后别忘了选择 Multiple ,之后保存;

8、接下来,单击红色区域,进入刚刚创建的 answer 选择器中,创建子选择器;

9、创建昵称选择器,设置 id 为 name,Type 设置为 Text,Select 选择昵称部分,如果没经验的话,可能第一次选的不准,发现有错误,可以调整,保存即可;

28.gif

10、创建赞同数选择器;

11、创建内容选择器,由于内容是带有格式的并且较长,所以有个技巧,从下面选择会比较方便;

12、执行 Scrape 操作,由于内容较多,可能需要几分钟的时间,如果是为了做测试,可以找一个回答数较少的问题做测试。

31.png

资源获取

在本公众号内回复「爬虫」,获取 Chrome 和 Web Scraper 扩展程序的安装包

在本公众号内回复 「sitemap」,获取本文中抓取 hao123 和知乎的 sitemap 文本

获取下来的 sitemap 是一段 json 文本,通过 Create new Sitemap 下的 Import Sitemap,然后输入获取到的 sitemap json 串,并起个名字,然后点击导入按钮即可。

32.png

33.png

最后,如果有什么问题,可以在公众号里直接留言或回复
点击查看文章
公众号:古时的风筝

扫码关注

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyyxfy.html