爬取w3c课程—Urllib库使用

日期：2021-06-18 栏目：程序人生浏览：次

浏览器获取网页内容的步骤：浏览器提交请求、下载网页代码、解析成页面，爬虫要做的就是：

模拟浏览器发送请求：通过HTTP库向目标站点发起请求Request，请求可以包含额外的header等信息，等待服务器响应

获取响应内容：如果服务器正常响应，会得到一个响应Response，响应的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等

解析响应内容：获取响应内容后，解析各种数据，如：解析html数据：正则表达式，第三方解析库，解析json数据：json模块，解析二进制数据:进一步处理或以wb的方式写入文件

保存数据：保存为文本，数据库，或者保存特定格式的文件

简单例子：利用Urllib库爬取w3c网站教程

1、urllib的request模块可以非常方便地抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP的响应：例如，对百度的一个w3c发送一个GET请求，并返回响应：

# coding:utf-8 import urllib.request my_url='https://www.w3cschool.cn/tutorial'#要获取课程的网址 page = urllib.request.urlopen(my_url) html = page.read().decode('utf-8') print(html)

转载注明出处：https://www.heiqu.com/zywdjw.html

爬取w3c课程—Urllib库使用

相关推荐