pyhton项目和晋江文学城数据分析项目 (2)

日期：2021-07-26 栏目：程序人生浏览：次

在学习过程中，我爬了母校齐鲁工业大学的网站首页、贴吧、百度翻译、人人网、开心网、淘宝电场等网站做初步的练习，把其中的数据保存到本地。之后在老师的带领下练习爬bilibili网站的视频弹幕，并且把弹幕保存到本地的.txt文件中，感觉还是蛮神奇的。我爬取的b站潇洒观山海的视频弹幕部分截取如图所示。

pyhton项目和晋江文学城数据分析项目

图11.B站视频部分弹幕

我在爬猫眼网站的时候大量使用了正则表达式，用来截取电影的具体信息，汇总成.json文件。在之后我又使用了xpath对猫眼网站的电影信息进行截取，这两种截取方式不同，但结果是相同的。我个人更习惯用正则，不用找定位。当然，这两种方式不存在优劣之分，只是个人习惯而已。我用正则表达式编写的爬虫程序如图19所示，最终数据形成的.json文件如图所示。

pyhton项目和晋江文学城数据分析项目

图12猫眼电影信息获取代码

pyhton项目和晋江文学城数据分析项目

图13.猫眼电影信息生成的json文件

老师还给我们布置了作业，是爬古诗文网站诗歌的名字、作者、类别和页面详情，我一开始听错了需求，导致我并没有对诗歌做分类。这要是在职场上，我怕是要被甲方爸爸开了。这个作业是第二天蔡庆凯同学讲解的，其中涉及了数据为空的状态下，用正则表达式的取值过程。在这一个点上面，我认识到了自己和大神的差距，我的正则运用的不灵活，对正则表达式的理解也不够。还是需要深入学习的。

在第19天的学习中，我在老师的要求下，我对链家网站进行了爬虫，获取了济南地区的出售房子的房子名称、地址、参考价格、户型、面积、开盘日期和房子详情页链接，并生成Excel表格。在这个需求实现的过程中，我算是耗费了大量的精力。

首先对各项数据的提取就非常耗时间，加上我对xpath还不是很熟悉，在第一个数据的爬取过程中我的定位就很不准，最后添加了数据属性后才能准确提取信息。其次我在生成列表时忘记了信息追加，导致新信息覆盖老信息，最终还是在同学帮助下解决的问题。由此可见，我要学习的地方还有很多。我爬取的链家网站房屋信息汇总表格截图如图所示。

pyhton项目和晋江文学城数据分析项目

图14.链家网站房屋信息表格

5.后期分析及项目

在学习完爬虫和数据分析之后，我在中公教育的实训生活就接近了尾声。在这个阶段，老师要求我们每人制作一个完整的爬虫及数据分析项目。本身我是想爬智联招聘网站分析招聘信息的，但是我在爬虫中发现这个网站需要登录，所以我立马转换了方向去爬晋江文学城的网站。

（1）晋江文学城是一个比较成熟的网站，各种分类做的非常详尽，除了界面比较低龄化。它的分类，显示信息都很能达到读者的需求。所以，我在看了两天晋江网站页面后，决定要从晋江总书库中提取以下信息：

作者、书名、类型、风格、进度、字数、作品积分、发表时间

author/book_name/category/style/status/counts/score/y_m_d/

书面详情页的：

内容标签、搜索关键字、总书评数、当前收藏数

title /keys /comments /collect

（2）我的需求：

提取页面图书积分对比图，查看书库书目积分总体趋势、均值和小峰值。

书库前12页作者出现次数词云图，查看哪些作者的书比较优质，符合读者胃口，且产出较多，文采上佳。

转载注明出处：https://www.heiqu.com/zyfwdy.html

pyhton项目和晋江文学城数据分析项目 (2)

相关推荐