Python爬虫利器:Beautiful Soup (3)

当我们得到搜索结果以后,希望搜索结果中的某些节点不参与之后的搜索,那么就需要把这些节点删除掉,这就需要对文档树修改。修改的方法如下:

append():向当前tag中添加内容(string)

new_tag(),new_string():添加一段文本

insert(index, content):在 index 位置插入属性

insert_before() 和 insert_after():在当前节点前后插入内容

clear():移除当前节点内容

extract();将当前tag移除文档树,并作为结果返回

decompose():将当前节点移除文档树并完全销毁

replace_with():移除文档树中的某段内容,并用新tag或文本节点替代它

wrap():对指定的tag元素进行包装,并返回包装后的结果

6. 输出

有时候,需要对查到的或者修改过的文档树展示或者保存。
prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行。BeautifulSoup 对象和它的tag节点都可以调用 prettify() 方法。

可以对一个 BeautifulSoup 对象或 Tag 对象使用Python的 unicode() 或 str() 方法,从而对输出结果进行压缩。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zypzws.html