using (HttpClient http = new HttpClient()) { var htmlString = await http.GetStringAsync(url); HtmlParser htmlParser = new HtmlParser(); var jobInfos = htmlParser.Parse(htmlString) .QuerySelectorAll(".newlist_list_content table") .Where(t => t.QuerySelectorAll(".zwmc a").FirstOrDefault() != null) .Select(t => new JobInfo() { PositionName = t.QuerySelectorAll(".zwmc a").FirstOrDefault().TextContent, CorporateName = t.QuerySelectorAll(".gsmc a").FirstOrDefault().TextContent, Salary = t.QuerySelectorAll(".zwyx").FirstOrDefault().TextContent, WorkingPlace = t.QuerySelectorAll(".gzdd").FirstOrDefault().TextContent, .ToList(); return jobInfos; }
看到没有,就像jq一样解析html。如果你说不爽我都不信。
【完整实现】:https://github.com/zhaopeiym/JobWanted
部署多个站点以上,这些项目都比较简单。关键技术点和难点都进行的分析。我相信大家都可以动起手练习起来了。
不过有个问题,前面我们只说了部署一个应用程序。如果是多个该怎么部署呢?
首先我们把多个程序发布包放到服务器上。
然后修改nginx的配置文件/etc/nginx/conf.d/default.conf
server { listen 80; server_name ; #对应的域名 root /home/projects/messagBoard; #程序路径 location / { proxy_pass :5000; #内网端口 proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection keep-alive; proxy_set_header Host $host; proxy_cache_bypass $http_upgrade; proxy_set_header X-real-ip $remote_addr; proxy_set_header Upgrade $http_upgrade; } }
有几个程序就添加几个server,不过需要修改你解析到的域名、程序路径和内网对应的端口(看配置里的注释) 。
然后修改supervisor的配置文件/etc/supervisor/conf.d/supervisord.conf
[program:MessageBoard] command=dotnet MessageBoard.dll ; 运行程序的命令 directory= /home/projects/messagBoard/ ; 命令执行的目录 autorestart=true ; 程序意外退出是否自动重启 stderr_logfile=https://www.jb51.net/var/log/WebApplication1.err.log ; 错误日志文件 stdout_logfile=https://www.jb51.net/var/log/WebApplication1.out.log ; 输出日志文件 environment=ASPNETCORE_ENVIRONMENT=Production ; 进程环境变量 user=root ; 进程执行的用户身份 stopsignal=INT
有几个程序就往下复制几份program。需要修改program名称,只要名称不重复就可以。然后修改 运行程序的命令 对应的dll和命令执行的目录(看配置文件的注释)。
如此就可以部署多个程序了。
开始我还以为是在域名解析的时候,解析IP + 端口。原来是多个域名解析到同一个IP,然后nginx在内部做域名和内网端口分发。
一些其它的细节 部署阿里云我们在linux的防火墙开放了端口,发现在外面还是访问不了(可以telnet IP 端口 来测试)。有可能是阿里云拦截了。https://help.aliyun.com/document_detail/25471.html 在安全组添加某端口哪些IP可以访问。
mysql的客户端对于mysql,我们安装好之后总不能每次命令操作吧。在Windows下面有个客户端Navicat可以方便管理mysql。
获取ip用了nginx后发现取不到浏览器IP了。那是因为我们程序都是浏览器访问nginx,然后nginx转发内网程序端口。所以取到的IP都是内网本机IP。如果需要取浏览器IP需要在nginx配置
server { listen 80; server_name ; root /home/projects/messagBoard; location / { proxy_pass :5000; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection keep-alive; proxy_set_header Host $host; proxy_cache_bypass $http_upgrade; proxy_set_header X-real-ip $remote_addr; # 新添加 } }
然后代码里面取IP:
var ip = HttpContext.Request.Headers["X-real-ip"].FirstOrDefault();
WebSocket在nginx的配置上面我们写的WebSocket直接运行发现没有任何问题,可是部署在nginx去跑不起来了。那是因为需要nginx支持WebSocket,需要配置。
server { listen 80; server_name job.haojima.net; root /home/projects/jobWanted; location / { proxy_pass :5002; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection keep-alive; proxy_set_header Host $host; proxy_cache_bypass $http_upgrade; proxy_set_header X-real-ip $remote_addr; proxy_set_header Upgrade $http_upgrade; # 新增 #proxy_set_header Connection "upgrade"; # 新增 proxy_set_header Connection $http_connection; #ws和post同时使用 https://github.com/aspnet/KestrelHttpServer/issues/1263 } }
WebSocket心跳