在学习过程中,我爬了母校齐鲁工业大学的网站首页、贴吧、百度翻译、人人网、开心网、淘宝电场等网站做初步的练习,把其中的数据保存到本地。之后在老师的带领下练习爬bilibili网站的视频弹幕,并且把弹幕保存到本地的.txt文件中,感觉还是蛮神奇的。我爬取的b站潇洒观山海的视频弹幕部分截取如图所示。
图11.B站视频部分弹幕
我在爬猫眼网站的时候大量使用了正则表达式,用来截取电影的具体信息,汇总成.json文件。在之后我又使用了xpath对猫眼网站的电影信息进行截取,这两种截取方式不同,但结果是相同的。我个人更习惯用正则,不用找定位。当然,这两种方式不存在优劣之分,只是个人习惯而已。我用正则表达式编写的爬虫程序如图19所示,最终数据形成的.json文件如图所示。
图12猫眼电影信息获取代码
图13.猫眼电影信息生成的json文件
老师还给我们布置了作业,是爬古诗文网站诗歌的名字、作者、类别和页面详情,我一开始听错了需求,导致我并没有对诗歌做分类。这要是在职场上,我怕是要被甲方爸爸开了。这个作业是第二天蔡庆凯同学讲解的,其中涉及了数据为空的状态下,用正则表达式的取值过程。在这一个点上面,我认识到了自己和大神的差距,我的正则运用的不灵活,对正则表达式的理解也不够。还是需要深入学习的。
在第19天的学习中,我在老师的要求下,我对链家网站进行了爬虫,获取了济南地区的出售房子的房子名称、地址、参考价格、户型、面积、开盘日期和房子详情页链接,并生成Excel表格。在这个需求实现的过程中,我算是耗费了大量的精力。
首先对各项数据的提取就非常耗时间,加上我对xpath还不是很熟悉,在第一个数据的爬取过程中我的定位就很不准,最后添加了数据属性后才能准确提取信息。其次我在生成列表时忘记了信息追加,导致新信息覆盖老信息,最终还是在同学帮助下解决的问题。由此可见,我要学习的地方还有很多。我爬取的链家网站房屋信息汇总表格截图如图所示。
图14.链家网站房屋信息表格
5.后期分析及项目
在学习完爬虫和数据分析之后,我在中公教育的实训生活就接近了尾声。在这个阶段,老师要求我们每人制作一个完整的爬虫及数据分析项目。本身我是想爬智联招聘网站分析招聘信息的,但是我在爬虫中发现这个网站需要登录,所以我立马转换了方向去爬晋江文学城的网站。
(1)晋江文学城是一个比较成熟的网站,各种分类做的非常详尽,除了界面比较低龄化。它的分类,显示信息都很能达到读者的需求。所以,我在看了两天晋江网站页面后,决定要从晋江总书库中提取以下信息:
作者、书名、类型、风格、进度、字数、作品积分、发表时间
author/book_name/category/style/status/counts/score/y_m_d/
书面详情页的:
内容标签、搜索关键字、总书评数、当前收藏数
title /keys /comments /collect
(2)我的需求:
提取页面图书积分对比图,查看书库书目积分总体趋势、均值和小峰值。
书库前12页作者出现次数词云图,查看哪些作者的书比较优质,符合读者胃口,且产出较多,文采上佳。