C# 终本案件、综合执行人、裁判文书爬虫

  终本案件和执行人爬取还是挺简单的,没有涉及到加密,验证码也可以直接识别过掉,主要是网站不是很稳定,经常出现502,504,500错误,涉及到一些失败重连机制。IP限制我们用的是拨号来解决的,客户对于速度的要求不是很

高,考虑到客户预算有限没有上优质HTTP代理。

  本来开始是用的.net4.5的httpclient,但是在实际的抓取过程当中发现这个类库有BUG,释放SOCKET的时间需要很长。后改用从4.0开始就一直在使用的RestSharp来做访问,问题得到解决,网页解析类库采用的是anglesharp,解

析速度还是不错的。由于网站经常出现访问错误,已经有些数据查询会直接让网站报500,所以采用了Polly来做超时和重试。

  外包项目,直接做的类库给他们调用没有写界面,前两个没什么好说的,主要来说说文书爬虫。

 

  文书获取列表页的时候需要提交三个参数:GUID\Code\VL5X ,GUID是随机数生成的,我们可以直接使用

Guid.NewGuid().ToString("D");

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzdjxy.html