爬虫+词云:爬取豆瓣电影top100的导演制作图云

前段时间做了一个关于豆瓣电影的爬虫,之后又写了一个陈奕迅歌词的词云制作,于是我想不如做一个关于豆瓣高分电影导演的词云试试,于是有了接下来这篇随笔。

首先,我需要知道豆瓣top100电影详情页面的url,以便爬取对应导演。在豆瓣电影top250界面

def get_urls(self): while(self.page<4): #得到当前页面的url url = self.cur_url.format(page = self.page*25) #获取当前页面所有内容 text = self.Downloader.download(url) #将下载页面进行解析得到需要的url urls = self.Parser.get_urls(text) #将当前获取的url加入url管理器中 self.URL_manager.add_urls(urls) #继续下一页的url添加 self.page += 1

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjwpp.html