本文首发于微信公众号,,转载请全文保留。
背景就在昨天,一年一度的北京积分落户结果出来了,我们照旧来看看今年(2020年)的数据情况。
在看这篇文章之前,你可以通过如下文章来得到石头是如何快速拿到这些数据分析结果的:
数据可以通过北京市人力资源和社会保障局官方网站下载获取,关于2020年积分落户公示及落户办理有关工作的通告。公示名单 形如:
![2020 年积分落户公式名单](https://www.tanglei.name/resources/use-shell-to-analysis-2020-people-of-getting-residence-of-beijing-by-score/2020 年积分落户公式名单.png)
点击每一项明细可以获得积分具体数值,以最高分为例:
2020积分落户最高分明细然后,稍微动点小技巧即可获取完整的 6032 条记录。若你想获取石头初步处理后的 excel 数据,可直接后台回复 “2020积分落户” 取得。
数据分析输入就是下载处理后的 csv,每行分别为“姓名、出生年月、单位名称、积分分值”。
本文将从 积分分数分布、公司分布、年龄分布 等几个方面做简单分析。
2020年积分落户数据CSV 分数分布我们来看看积分分布情况,大部分人积分分布在 97~102 分之间。这个分数虽然没有高考相差那么夸张,但一个 0.01 也能相差不少人,比如有 98 人都得了 97.5 分。98.17 有 39 人,少 0.01 的 98.16 有 21 人。
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 1098 97.50
84 97.25
80 97.33
73 97.17
72 97.21
67 98.50
66 98.00
61 97.46
57 98.46
54 97.13
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | grep 98.17
39 98.17
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | grep 98.16
21 98.16
➜ 积分落户2020数据分析 git:(master) ✗
2020年北京积分落户积分分布
按照上次 的老规矩,拿到这个文件,比如希望你用最快的方法获得以下信息,你将会怎么做?
获取取得户口名额最多的top10公司
获取取得户口名额的人中姓氏最多的
获取年龄分布
当然,方法有很多,比如熟悉各种编程语言的,例如 python, php, java 等等写个简单的脚本程序,也能比较快获取答案。或者把相应的数据提取出来,放到 excel 中也可以。
如果你对 Shell 很熟悉,那真的是分分钟,应该是秒秒钟就能获取答案。本文不对 Shell 具体每个命令做过多的解释,不熟悉的同学可以直接 man $cmd 或者 $cmd --help 等等查看。
之前我也写过一篇名叫 的文章,算是给常用的命令的常用参数做了一个解释和示例,有兴趣的同学可以前往查阅。 显然这次的输入数据比上次 更简单。
获取取得户口名额最多的top10公司直接awk 得到公司名字,对结果进行sort排序进行去重uniq统计得到重复次数,次时结果为重复次数 公司名,再对第一列-k 1重复数字进行按照数字排序逆序-nr 即 sort -nr -k 1,最后取结果的前10行 head -n 10。
➜ 首批积分落户 > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 10137 "北京华为数字技术有限公司"
73 "中央电视台"
57 "北京首钢建设集团有限公司"
55 "百度在线网络技术(北京)有限公司"
48 "联想(北京)有限公司"
40 "北京外企人力资源服务有限公司"
40 "中国民生银行股份有限公司"
39 "国际商业机器(中国)投资有限公司"
29 "中国国际技术智力合作有限公司"
27 "华为技术有限公司北京研究所"
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $4}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
112 北京华为数字技术有限公司
71 中央电视台
28 北京外企人力资源服务有限公司
28 华为技术有限公司北京研究所
27 中国石油天然气股份有限公司管道北京输油气分公司
27 北京首钢建设集团有限公司
24 中国建筑第二工程局有限公司
24 腾讯科技(北京)有限公司
24 联想(北京)有限公司
23 中国新华航空集团有限公司
对比上次的结果看, “华为” 又是榜首,中央电视台又位列第二,百度下去了,腾讯起来了。(“北京外企人力资源服务有限公司”)挂靠在 FESCO 下的外企,仍然挤进前 10 了。
以下是有户口指标前 50 的公司分布,快看看你的公司是否在榜(完整公司排名名单请后台回复“2020积分落户”获取)。