一起学爬虫——使用selenium和pyquery爬取京东商品列表 (3)

日期：2021-04-29 栏目：程序人生浏览：次

3、总结
(1)要记得调用 browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")方法模拟鼠标向下滚动的操作加载数据，否则数据会不完整。
(2)在通过page_source获取网页源码时，如果有xmlns命名空间，则要将该命名空间空其他的字段代替，否则使用pyquery解析网页时，会解析不出数据。pyquery解析xmlns命名空间时，会自动隐藏掉某些属性。导致无法征程解析网页，原因不详，如果有人知道原因请告知。
(3)尽量用wait.until(EC.presence_of_all_elements_located())方法，这样可以避免网页无法正常加载而提前返回网页信息的情况。保证数据的准确。

共3页:
上一页
1
2
3
下一页

转载注明出处：https://www.heiqu.com/wsfjgj.html

一起学爬虫——使用selenium和pyquery爬取京东商品列表 (3)

相关推荐