nodeJS实现简单网页爬虫功能的实例(分享)(2)

  通过分析可知,‘综艺'模块与其他模块都位于<div>中,其中,综艺模块的内层div的monkey='zy',综艺模块的10条综艺节目的信息都位于<div>中,综艺节目的名称位于<span>中

cheerio

我们怎么从源代码中获取到有用的数据呢?首先,nodeJS不支持document对象。如果要使用笨办法,只能使用正则表达式来处理

cheerio 是nodejs特别为服务端定制的,能够快速灵活的对JQuery核心进行实现。它工作于DOM模型上,且解析、操作、呈送都很高效

【安装】

nodeJS实现简单网页爬虫功能的实例(分享)

【使用】

它的使用方法和jQuery相当类似,上手非常容易。以获取综艺热度前10名的节目名称为例

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wyxfjg.html