pyhton项目和晋江文学城数据分析项目 (3)

日期：2021-07-26 栏目：程序人生浏览：次

书目的类型词云图，查看晋江书大多属于哪些类型？从中窥见读者爱看什么类型的书？对应什么样的人群？市场需要什么样的书？未来市场会有一个怎样的走向？

我想看看在晋江文库前12页，哪几年产出的书比较多，比较受人们喜欢。

利用字数，书籍积分，收藏数，评论数分析作者的综合能力，晋江平台签约的价值，影视化作品的考量。

（3）搞明白需求以后我进行爬虫程序编写，爬虫我在用请求头请求的时候发现晋江不给予响应，可能设置了反爬虫，因为时间紧张，我没有深究，直接使用了无界面浏览器。使用无界面浏览器访问晋江文学城网页截图如图所示。

pyhton项目和晋江文学城数据分析项目

图15.无界面浏览器访问晋江文学城网页截图

结果在使用无界面浏览器后发现，晋江网站还设置了一个不太高端的反爬虫，他在我要提取的xpath中多加了一个没有含义的td标签，遍历目录的时候不能去除，而且继续用xpath是会显示超出范围。然后我就困住了，经过自主在网上进行查询和测试，我最终采用xpath标签定位进行数据提取，在遍历下遍历，部分遍历代码如下所示。

for i in range(1, 13): #首个遍历
    driver = webdriver.PhantomJS(executable_path=r'C:\Users\lixue\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe')
    url = 'http://www.jjwxc.net/bookbase_slave.php?orderstr=4&endstr=&page={}&booktype=http://www.likecs.com/'.format(i)
    driver.get(url=url)
    tree = etree.HTML(driver.page_source)
    book_list = tree.xpath('//table[@class="cytable"]/tbody/tr[position()>=2])

#二次遍历，就在这个地方

在网络十分艰难的情况下，原定下载50页列表的我不得不只下载12页列表，而且爬虫过程中也是遇见了各种问题。爬下来的数据保存到一个Excel列表里，近600条数据。可能并不会具有很强的代表性，但是足够进行数据分析。生成的Excel列表部分截图如图所示。

pyhton项目和晋江文学城数据分析项目