这里只是爬取了主帖的内容,并没有爬取评论的内容,爬完之后已经被豆瓣限制ip了(爬了这么多,豆瓣才限制我,豆瓣对新手真是太友好了,当然,豆瓣的高手还是很多的,要反爬虫还是很轻松的)。同时,使用java还是有些慢的,虽然我目前没有用多线程,但是估计用了多线程,操作还是很繁琐,代码量目测比Python要多好多,打算后续爬取小组的帖子使用Python了。Java还是写一些网站吧。
Java使用HttpClient和Jsoup爬取豆瓣小组的帖子并存入Mysql (4)
内容版权声明:除非注明,否则皆为本站原创文章。