众所周知,excel是一个强大的办公软件。作为一个统计学专业的学生,一提到数据分析,大家所用的都是python、C、R等语言,却忘了很多基本的工作完全可以在excel里面用更简单的操作完成,尤其是那些对编程头痛的小伙伴,这是一种福音,当然这些可能只是数据分析师的初级工作。这篇文章是在听了知乎上猴子的live直播后自己整理的,希望能够进一步巩固自己的操作能力。
数据理解1、 _试图的详细化 _
拿到一份数据,我们首先要观察行和列,看看都有哪些属性,如果想要全部看到每一列每一行的数据,就全选列表,然后进行 自动换行 操作,就会呈现下面的效果:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121100431707.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
2、 _excel中的数据类型 _
在excel中如果字符串格式写出的数字是左对齐的,数值格式写出的数字是右对齐的。如下图所示:
3、 _数据的隐藏 _
如果想要隐藏某一列或者某一行,选中这一行(列),然后隐藏就好了。
如果想要显示全部的被隐藏行(列),全选数据然后在开始的 格式 选项里面选择取消隐藏行(列)
数据清洗
数据清洗的步骤一般有:选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理。前两个非常简单,删除不要的列和重命名即可,下面只介绍其他的。
1、 _删除重复值 _
比如在 职位ID 这个属性中,有很多重复的职位,我们将它删除掉。选中这一列,在选项卡的 数据 标识下选择 删除重复值 就好了。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121101851106.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
2、 _缺失值处理 _
处理缺失值的4种办法,根据情况灵活使用:
人工补全
删除缺失数据
均值代替
用统计模型计算
点击每一列,下面会有这一列的计数,告诉你这一列共有多少个值。我们发现:职位ID这一列经过重复值删除后有5032列,而城市只有5030,我们将缺失的位置查找出来。(
条件定位空值 )
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121102732279.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
通过公司简称,我们将地址全部填充为上海。(使用ctrl+enter即可)Ctrl+Enter快捷键,在不连续的单元格中同时输入同一个数据或公式时很好用。
3、 _分列功能 _
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121103005122.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
需要注意的是:分列功能会覆盖掉右列单元格,所以我们记得先要复制这一列到最后一个空白列的地方,再进行分列操作。分割后效果如下:
4、 _函数的使用 _
AVERAGE(均值函数),这个函数非常熟悉,就不多介绍了,但是这个函数只能针对数值型的数据。
FIND(查找字符串所在单元格的位置)
FIND(“要查找的字符串”,列位置)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121103440169.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
lEFT/RIGHT(字符串所在单元格位置,从左/右截取长度)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121103802108.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
MID(字符串所在单元格位置,开始位置,截取长度)
5、 _利用上述函数处理薪资特征 _
我们想找出最高薪水和最低薪水,并且求出均值,该怎么办呢?
最低薪水:从左边开始截取,到k所在位置的前一个结束。很容易。
最高薪水:从中间开始截取,起始的位置是从-
的位置前一个,那么截取长度呢?因为有的是2位数薪水,有的是一位数薪水。所以我们还得借助len这个函数,找到字符串的长度,减去-
所在的位置就是后面字符串的长度,去掉k占掉的1个字符串位置,就是我们要截取的长度。截取长度用图理解一下:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190121105245855.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h1X3dlbnFpb25n,size_16,color_FFFFFF,t_70)
通过输入公式下拉,就可以将所有的行都进行相同的填充,当数据过多的时候,下拉填充耗费时间长,有一个简单的方法可以试试
怎么让EXCEL中单元格自动填充公式?