【爬虫系列】1. 无事,Python验证码识别入门

最近在导入某站数据(正经需求),看到他们的登录需要验证码,

本来并不想折腾的,然而Cookie有效期只有一天。

【爬虫系列】1. 无事,Python验证码识别入门

已经收到了几次夜间报警推送之后,实在忍不住。

得嘞,还是得研究下模拟登录。

于是,秃头了两个小时gang出来了。

预警

二值化、普通降噪、8邻域降噪

tesseract、tesserocr、PIL

如果都了解这些东西,这文章就不用看了,直接跳到参考文献咯。

代码地址:https://github.com/liguobao/python-verify-code-ocr

开始搞事

批量下载验证码图片

import shutil import requests from loguru import logger for i in range(100): url = \'http://xxxx/create/validate/image\' response = requests.get(url, stream=True) with open(f\'./imgs/{i}.png\', \'wb\') as out_file: response.raw.decode_content = True shutil.copyfileobj(response.raw, out_file) logger.info(f"download {i}.png successfully.") del response

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzgjjp.html