拉钩项目(一)--项目流程+数据提取

声明:1)仅作为个人学习,如有冒犯,告知速删!    2)不想误导,如有错误,不吝指教! 目标:  1. 爬取拉钩网中的关于编程语言的 1)薪资,2)城市范围,3)工作年限,4)学历要求;  2 .将四部分保存到mysql中;  3.对四部分进行数据可视化;  4.最后通过pyecharts+bootstrap进行网页美化 .`` 技能点: 1 .python网络基础(requests,xpath语法等);

MySQL+ pymysql的语法基础;

pyecharts基础;

bootstrap基础;

项目流程及逻辑: 大方向:先完成爬取一类的信息,进行可视化,走一遍流程很重要,再拓展!

avatar

 

1.进入以下位置:

 

拉钩项目(一)--项目流程+数据提取

                                ------->刷新找到请求url:<--------

 

 

                              ------->分析+请求参数:<--------

 

 

                       ------->因为url是post请求,我们需要提交参数,往下滑:<-------

 

2.解决反爬机制 1. 上面的操作解决的是------>拉钩的ajax请求方式 2. 隐藏在cookies中的时间戳处理:------>session来保持会话-----实时更新cookies  

1 #获取cookies的函数 2 #start_url = "https://www.lagou.com/jobs/list_python?#labelWords=&fromSearch=true&suginput=" 3 def cookieRequest(start_url): 4 r = requests.Session() 5 r.get(url=start_url, headers=headers, timeout=3) 6 return r.cookies

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wspwsz.html