最近听到一首很喜欢的歌,许薇的《我以为》,评论也很有趣,遂有想爬取该歌曲下的所有评论并用词云工具展示。
我们使用chrome开发者工具,发现歌曲的评论都隐藏在以 R_SO_4 开头的 XHR 文件中
接下来思路就很明确,拿到该文件,解析该文件的 json 数据,拿到全部评论。
我们可以看到该文件有两个用JS加密的参数 params 和 encSecKey ,关于这两个加密参数,参考了知乎用户的解答:https://www.zhihu.com/question/36081767 。
步骤:
1.导入必要的模块:
from Crypto.Cipher import AES from wordcloud import WordCloud #需加入下面两句话,不然会报错:matplotlib: RuntimeError: Python is not installed as a framework import matplotlib matplotlib.use(\'TkAgg\') import matplotlib.pyplot as plt import base64 import requests import json import codecs import time import jieba