如何一键抓取全国二手房和租房数据? (全部源码) (2)

你会发现,几乎所有的任务都依赖于一个“底层通用任务”,它抽象了二手房,租房,小区,新房的公共部分。Hawk使用子任务实现任务间的互相调用。这样可极大地节省设计所需的时间。

在不同的城市间切换?

沙漠君我不是北京的,我想看其他城市的!

我们回到Hawk首页,点击任务市场的参数设置。如下图:

左侧展示了当前系统全局的配置, 包括总的web请求数量等,右侧是当前工程的全局设置。 程序猿朋友们都知道,这就是全局参数嘛。我们在参数组选择的下拉菜单中,选择不同的城市,回到之前的数据清洗界面再次刷新,就会发现城市发生变化了!

这就是Hawk的全局参数配置系统,它通过yaml文件描述了一些键值对。在任务中,通过大括号,能够随时引用全局参数中配置的信息。例如,你可以在"底层通用任务"的第一个模块“从文本生成”中看到{city},它代表读取全局配置中city的值。

param.gif

你也想设计这样的任务?

哈哈,我猜到了!Hawk内置了强大的文档系统。每个模块都有详细的使用介绍,并能在新手模式间切换。同时还能够自动生成帮助文档,在任何一个数据清洗的任务中,点击调试工具栏中的“问号”按钮,即可弹出当前任务手把手的教程,你只要按照他的步骤一步步操作即可!

doc.gif

除了直接看自动生成的帮助文档。可以阅读Hawk的教程,快速教程中提供了使用的简要说明,帮助你快速上手。而示例教程中,给出了几个经典例子的步骤。

结语

Hawk有太多强大的特性可以去讲,例如强大的手气不错功能和超级模式,但本文旨在介绍Hawk5更新的功能。如果你感兴趣,欢迎给本项目的GitHub点个star,并欢迎持续关注沙漠君的博客。如果你愿意给Hawk做出贡献,欢迎联系我!

公众号二维码

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zygsgx.html