php收罗li标签的链接与文本内容

一般在个网站中最适合堆砌文章列表的就是<ul><li>标签,型如以下的形式:

ull标签+li标签

<ul> <li>……<li> <ul>

这样可以获取一个文章的主要内容列表,那也不消管他们的是怎么漫衍在什么处所只要输入网址,他就自动找出li标签部门,然后目测出是否是主要的列表部门内容,然后就可以利用正则OOXX 收罗了吧,

<ul>标签可以写成

<ul……>

也要思量li和a标签也有以上属性的环境。

我只上焦点部门好了,网址输入、过滤判定我就不上代码了

<?php $str = ' <ul> <li><a href="http://www.tencent.com/zh-cn/content/at/2012/attachments/20120619.pdf">腾讯计谋投资Epic Games【PDF file】</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/detail.shtml?id=at_2012_20120522">腾讯录用首席财政官</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/detail.shtml?id=at_2012_20120518">国度广播影戏电视总局副局长田进一行参访腾讯</a></li> <li><a href="http://www.tencent.com/zh-cn/content/at/2012/attachments/20120518.pdf">迎接将来互联网机会 腾讯公布创立六大事业群</a></li> <li><a href="http://www.tencent.com/zh-cn/content/at/2012/attachments/20120516.pdf">腾讯发布2012年第一季度业绩【PDF file】</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/detail.shtml?id=at_2012_20120412">腾讯成都研发大楼奠定 打造西部最大互联网人才基地</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/detail.shtml?id=at_2012_20120322">工信部部长苗圩接见腾讯公司董事局主席马化腾</a></li> <li><a href="http://www.tencent.com/zh-cn/content/at/2012/attachments/20120314.pdf">腾讯发布2011年第四季度及全年业绩 【PDF file】</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/detail.shtml?id=at_2012_20120223">共青团中央书记处第一书记陆昊一行参访腾讯</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/detail.shtml?id=at_2011_20111217">腾讯深汕云计较数据中心奠定</a></li> <li><a href="http://www.tencent.com/zh-cn/at/pr/2012.shtml">更多>></a></li> </ul> </div> '; $search = '/<ul.*?>(.*?)<\/ul>/si'; preg_match($search,$str,$r); $search = '/<li.*?><a .*?href="([^"]*?)".*?>(.*?)<\/a><\/li>/is'; preg_match_all($search , $r[1] , $s); printf("<p>输出数据为:</p><pre>%s</pre>\n",var_export( $s ,TRUE)); ?>

以上内容只是揣摩与内部调试利用。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/7839.html