java爬虫Jsoup简单学习

jsoup我就不巴拉巴拉了,具体介绍百度或者去官网查看。

jsoup怎么用?

jsoup和jquery的操作相似,下面简单使用一下。

使用jsoup大概也就以下几个步骤:

获取整个html文档

使用选择器获取需要爬的数据节点集合

循环遍历使用选择器获取相应数据

实例

java爬虫Jsoup简单学习

这是项目结构也就普通的一个测试项目,需要导入jsoup-x.xx.x.jar包,然后建一个实体类。

java爬虫Jsoup简单学习

 

 我们就拿这个叽歪笑话来说。

 

java爬虫Jsoup简单学习

 

 每一个笑话对应一个div。

 

java爬虫Jsoup简单学习

创建一个测试main方法通过Jsoup.conect(url).get();方法获取相应整个html页面

java爬虫Jsoup简单学习

然后通过select方法。select方法跟jquery选择器类似,可以通过 .,#,属性等选择标签。

注意:这里选择器选择所有class为xh的节点也就是上文所有的笑话节点集合

java爬虫Jsoup简单学习

然后循环节点集合

java爬虫Jsoup简单学习

然后根据节点的class属性获取相应的节点然后text()方法获取节点文本。然后运行输出。

附上运行结果:

java爬虫Jsoup简单学习

jsoup可玩性挺大的,过年,过节爬爬火车票啥的。简单介绍就到这儿了。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpydfp.html