采集万方医药方向的期刊+文章+作者信息(数据量千万级) (2)

  这个接口是用来请求那16个大类中又哪些期刊的,返回的json中包含了各个期刊的所有信息,比期刊主页展示的信息要全的多,并且有两点对我的工作有了很大的帮助,本身每个期刊的时间树都是要请求一次的,这样无疑会拖慢爬虫的速度,而且会出现请求不到的情况,在这个接口中却包含了期刊的时间树,还有一个就是本身想要获取这个期刊的影响因子的话,是需要请求期刊主页来解析页面的,现在也不用了,json中也有了,省了不少事儿,但是这个接口是不在万方官网中显示的,说明他们现在展示时用的不是这个接口,当初只是临时用了一会儿,以后会不会消失,不清楚。

  这是请求这个接口的formdata:  (code_name是那16大类的唯一标识)

  

采集万方医药方向的期刊+文章+作者信息(数据量千万级)

  最后,打个广告: 想了解更多Python关于爬虫、数据分析的内容,获取大量爬虫爬取到的源数据,欢迎大家关注我的微信公众号:悟道Python

  

采集万方医药方向的期刊+文章+作者信息(数据量千万级)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwwzxx.html