前段时间做了一个关于豆瓣电影的爬虫,之后又写了一个陈奕迅歌词的词云制作,于是我想不如做一个关于豆瓣高分电影导演的词云试试,于是有了接下来这篇随笔。
首先,我需要知道豆瓣top100电影详情页面的url,以便爬取对应导演。在豆瓣电影top250界面
def get_urls(self): while(self.page<4): #得到当前页面的url url = self.cur_url.format(page = self.page*25) #获取当前页面所有内容 text = self.Downloader.download(url) #将下载页面进行解析得到需要的url urls = self.Parser.get_urls(text) #将当前获取的url加入url管理器中 self.URL_manager.add_urls(urls) #继续下一页的url添加 self.page += 1