生活中遇到了问题,想去成都买个房,那哪个区域性价比高肯定要考虑一番了,最粗暴直接的就是看租售比,遂打算去链家网爬上各个小区的卖房单价和租房单价比上一比,python写爬虫无疑是最流行的了,但最近在研究node,感觉写个爬虫强化一下node姿势水平还是挺不错的。开整。
首先http请求工具和dom解析工具是必不可少的,严谨的说是对于像我这样的菜鸟是必不可少的,http请求工具我选了 request,主流的还有 superagent 可选,dom解析 cheerio 应该是不二选择了,接口和 jquery 一样一样的。如果没接触过请先自行了解这两个库。
基本环境先搭建好,这个不在讨论范围,
github:https://github.com/huanqingli/node-web-spider
1. 第一步我们先看抓一个网页是啥样的:
router.get(\'/sell_price\', (req, res, next) => { request({ url:\'http://cd.lianjia.com/ershoufang/pg1ng1nb1l1/\', headers: { \'User-Agent\': \'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.3 (KHTML, like Gecko) Chrome/55.0.2883.9 Safari/537.3\' } }, function (error, response, body) { if (!error && response.statusCode == 200) { res.send(body) } }) }