终本案件和执行人爬取还是挺简单的,没有涉及到加密,验证码也可以直接识别过掉,主要是网站不是很稳定,经常出现502,504,500错误,涉及到一些失败重连机制。IP限制我们用的是拨号来解决的,客户对于速度的要求不是很
高,考虑到客户预算有限没有上优质HTTP代理。
本来开始是用的.net4.5的httpclient,但是在实际的抓取过程当中发现这个类库有BUG,释放SOCKET的时间需要很长。后改用从4.0开始就一直在使用的RestSharp来做访问,问题得到解决,网页解析类库采用的是anglesharp,解
析速度还是不错的。由于网站经常出现访问错误,已经有些数据查询会直接让网站报500,所以采用了Polly来做超时和重试。
外包项目,直接做的类库给他们调用没有写界面,前两个没什么好说的,主要来说说文书爬虫。
文书获取列表页的时候需要提交三个参数:GUID\Code\VL5X ,GUID是随机数生成的,我们可以直接使用
Guid.NewGuid().ToString("D");