声明:1)仅作为个人学习,如有冒犯,告知速删! 2)不想误导,如有错误,不吝指教! 目标: 1. 爬取拉钩网中的关于编程语言的 1)薪资,2)城市范围,3)工作年限,4)学历要求; 2 .将四部分保存到mysql中; 3.对四部分进行数据可视化; 4.最后通过pyecharts+bootstrap进行网页美化 .`` 技能点: 1 .python网络基础(requests,xpath语法等);
MySQL+ pymysql的语法基础;
pyecharts基础;
bootstrap基础;
项目流程及逻辑: 大方向:先完成爬取一类的信息,进行可视化,走一遍流程很重要,再拓展!
1.进入以下位置:
------->刷新找到请求url:<--------
------->分析+请求参数:<--------
------->因为url是post请求,我们需要提交参数,往下滑:<-------
2.解决反爬机制 1. 上面的操作解决的是------>拉钩的ajax请求方式 2. 隐藏在cookies中的时间戳处理:------>session来保持会话-----实时更新cookies
1 #获取cookies的函数 2 #start_url = "https://www.lagou.com/jobs/list_python?#labelWords=&fromSearch=true&suginput=" 3 def cookieRequest(start_url): 4 r = requests.Session() 5 r.get(url=start_url, headers=headers, timeout=3) 6 return r.cookies