收罗侠正文提取道理调查

日期：2020-05-27 栏目：程序人生浏览：次

这几天看到了收罗侠的正文提取，准确度照旧挺高的。经我几天的调查它有以下的几个特点：

1、去除所有标签除了<p> <br> <b> <strong> <img> <h1>~<h6> <i> <em> <span>

2、去除标签属性，如class="xx"

3、保存图片属性如<img src="http://enenba.com/123.jpg" />

4、查找p标签较量多的处所。解除列表如 li uli标签

5、查找中文长度最长的部门。

………………

上一篇：正则表达式href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))什么意思 | 下一篇：将[code]标签内的所有<br/>替换成#号» 标签:

分享到：更多

相关日志：

php正则获取图片并下载内容

get_headers对PHP收罗的浸染

【转】PHP实现简朴爬虫

用户名正则表达式、含中文、长度为4-16个字符。

【转】php CURL模仿会见网页

利用php正则获取网页的titile部门

如何用php正则表达式获得网页上所有的链接

php正则匹配图片路径

一个正则表达式匹配以“abc”开头后头不能包括“x”、“y”、“z”字符