收罗侠正文提取道理调查

这几天看到了收罗侠的正文提取,准确度照旧挺高的。经我几天的调查它有以下的几个特点:

1、去除所有标签 除了<p> <br> <b> <strong> <img> <h1>~<h6> <i> <em> <span>

2、去除标签属性, 如class="xx" 

3、保存图片属性 如<img src="http://enenba.com/123.jpg" />


4、查找p标签较量多的处所。 解除列表 如  li uli标签

5、查找中文长度最长的部门。

………………

上一篇: 正则表达式href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))什么意思   |   下一篇:将[code]标签内的所有<br/>替换成#号» 标签:

分享到: 更多

相关日志:

php正则获取图片并下载内容

get_headers对PHP收罗的浸染

【转】PHP实现简朴爬虫

用户名正则表达式、含中文、长度为4-16个字符。

【转】php CURL模仿会见网页

利用php正则获取网页的titile部门

如何用php正则表达式获得网页上所有的链接

php正则匹配图片路径

一个正则表达式 匹配以“abc”开头后头不能包括“x”、“y”、“z”字符

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/7891.html