经过上面的配置,我们的WebSocket在nginx上跑起来了。万分欢喜的我们,发现一分钟不发消息就自动掉线了。郁闷至极到头大。细心的同学通过上面的链接资料其实已经有说明:
By default, the connection will be closed if the proxied server does not transmit any data within 60 seconds. This timeout can be increased with the proxy_read_timeout directive. Alternatively, the proxied server can be configured to periodically send WebSocket ping frames to reset the timeout and check if the connection is still alive.
nginx给出了两种解决方案。第一种,修改proxy_read_timeout (默认60秒)。第二种,浏览器客户端定时发送心跳包(时间要短于proxy_read_timeout)。
我使用的是第二种方式。
第一种虽然简单粗暴,但是时间再长也是一个值,还是会有超时的可能。再者,谁能保证浏览器端不会new 很多个WebSocket出来捣蛋。
第二种方式,浏览器定时发送一条消息,内容和后台约定下。如发送“心跳”,然后后台接收消息是,判断如果是“心跳”则不做任何处理。
中文编码在做“找工作”爬前程无忧的数据时,发现他们使用的GBK编码。而在.net core中默认不支持这种格式,导致取到的数据都是乱码。我们需要nuget安装System.Text.Encoding.CodePages。然后在Startup.cs的Configure里面注册:
Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);//注册编码提供程序
使用:
var htmlBytes = await http.GetByteArrayAsync(url); var htmlString = Encoding.GetEncoding("GBK").GetString(htmlBytes);
asp.net core 端口分配asp.net core 默认端口都是5000。那么我们运行第二个程序的时候就会提示5000端口被占用。这个时候,我们就需要为每个程序分配不同的端口了。
在根目录新建一个json文件hosting.json
{ "server.urls": "http://*:5002" }
在Program.cs文件修改
public static void Main(string[] args) { var config = new ConfigurationBuilder() .SetBasePath(Directory.GetCurrentDirectory()) .AddJsonFile("hosting.json", optional: true) .Build(); var host = new WebHostBuilder() .UseKestrel() .UseConfiguration(config) .UseContentRoot(Directory.GetCurrentDirectory()) .UseIISIntegration() .UseStartup<Startup>() .UseApplicationInsights() .Build(); host.Run(); }
爬拉勾数据在爬拉勾网的时候没有搞定,不知道是不是因为https的原因。
using (HttpClient http = new HttpClient()) { var url = "https://www.lagou.com/zhaopin/Java/?labelWords=label"; var htmlString = await http.GetStringAsync(url); }
在.net core中报错:An unhandled exception occurred while processing the request.
在.net 4.5 中抓到的数据是“页面加载中...”。和浏览器访问的结果不一样。
170819搞定 https://github.com/zhaopeiym/JobWanted/blob/master/JobWanted/Controllers/JobsController.cs#L211 //拉勾网 后台检测了user-agent、X-Requested-With、Referer还会检测list_是否有参数 http.DefaultRequestHeaders.Add("Referer", "https://www.lagou.com/jobs/list_.net"); http.DefaultRequestHeaders.Add("user-agent", "Mozilla/5.0"); http.DefaultRequestHeaders.Add("X-Requested-With", "XMLHttpRequest");
演示
源码
https://github.com/zhaopeiym/JobWanted
https://github.com/zhaopeiym/ChatRoom
https://github.com/zhaopeiym/BlogDemoCode