浅谈增量式爬虫

在我们爬取某些网站时会遇到一些问题?某些网站会定时在原有网页数据的基础上更新一批数据。

例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。

那么遇到类似的场景,我们就可以采用增量爬虫

增量爬虫分为两个步骤:

增量爬取

爬取结果去重

增量爬取

一个站点更新也会出现下面两种情况:

1,单个页面数据更新

当出现这种情况的时候,我们对此特定页面的内容做哈希,当然要去除动态变化的那一部分,比如有的页面有验证码或者日期,程序定期执行,在执行的最开始检测此页面的哈希值跟上次抓取是否有变化,如果有变化就开始抓取。

2,新增了页面

如果是新增页面呢,我们会对页面入口内容做哈希,并且存储分页面的URL哈希值,如果页面入口哈希值发生变化,获取新增的页面url列表,在这里需要用到url的去重,和数据去重类似,采用redis集合类型处理。

redis集合类型不允许添加重复的数据,当添加重复的时候时,返回0,并且添加失败。我们将所有的url list存入redis集合,当页面入口变化时,进行页面url去重,只抓取新增的页面。

爬取结果去重

结果去重也有以下两种常用的方法:

布隆过滤器

其中布隆过滤器是通过写文件的方式,多个进程使用需要添加同步和互斥,较为繁琐,不推荐多线程/进程的时候使用,另外写文件是磁盘I/O操作,耗费时间长,可以累积到一定数量再一次写入,或者利用上下文管理器在程序结束或异常退出时一次性写入。

class Spider(object): def __init(): # 布容过滤器初始化 self.burongname = 'test.bl' if not os.path.isfile(self.burongname): self.bl = BloomFilter(capacity=100000, error_rate=0.000001) else: with open(self.burongname, 'rb') as f: self.bl = BloomFilter.fromfile(f) def __enter__(self): u""" 上下文管理器进入入口 """ return self def __exit__(self, *args): u""" 上下文管理器,退出出口 """ if self.conn is not None: self.conn.close() with open(self.burongname, 'wb') as f: self.fingerprints.tofile(f) def get_infos(self): """ 抓取主函数 """ # 布隆过滤器使用部分, x为抓取到得数据 x = json.dumps(i) if x not in self.bl: self.bl.add(x) if __name__ == '__main__': with Spider() as MSS: MSS.get_infos()

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wssgxs.html