这几天看到了收罗侠的正文提取,准确度照旧挺高的。经我几天的调查它有以下的几个特点:
1、去除所有标签 除了<p> <br> <b> <strong> <img> <h1>~<h6> <i> <em> <span>
2、去除标签属性, 如class="xx"
3、保存图片属性 如<img src="http://enenba.com/123.jpg" />
4、查找p标签较量多的处所。 解除列表 如 li uli标签
5、查找中文长度最长的部门。
………………
上一篇: 正则表达式href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))什么意思 | 下一篇:将[code]标签内的所有<br/>替换成#号» 标签:分享到: 更多
相关日志:
php正则获取图片并下载内容
get_headers对PHP收罗的浸染
【转】PHP实现简朴爬虫
用户名正则表达式、含中文、长度为4-16个字符。
【转】php CURL模仿会见网页
利用php正则获取网页的titile部门
如何用php正则表达式获得网页上所有的链接
php正则匹配图片路径
一个正则表达式 匹配以“abc”开头后头不能包括“x”、“y”、“z”字符