python爬虫:使用Selenium模拟浏览器行为

日期：2021-05-26 栏目：程序人生浏览：次

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。

分析

他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。

headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36' } data=requests.get("https://tieba.baidu.com/index.html",headers=headers) html=BeautifulSoup(data.text,'lxml')

转载注明出处：https://www.heiqu.com/wpdfjy.html

python爬虫:使用Selenium模拟浏览器行为

相关推荐