对总体进行逐个数据采样或记录动态过程中的每一个阶段,在大多数时候是不可能的或不合实际的。正如:
研究海豚交流方式的海洋生物学家不可能测试每一只海豚
制造商要想知道一种建筑材料在室外降解的速度有多快
他们不能因为测试而抓获所有生物或者摧毁所有产品。
由于海量数据库和功能强大的软件的帮助,金融分析师往追踪特定股票的未来表现时,可以分析某只股票过去的每一手交易,但是他们无法对还未发生的交易进行研究。
数据的代表性如果我们想通过一个项目对总体或全过程做概括性总结,对样本的代表性作出合理的预期是十分关键的。无论何时,当我们依赖样本信息时,都冒着样本可能无法代表总体的风险(一般来说,我们称为抽样误差)。
统计学家对抽样样本有一些标准方法,但没有一种方法可以保证某一样本可以准确代表总体,仅有一些方法可以相对减小发生抽样误差的风险。此外,某些方法可以预测抽样误差。
如果我们能够预测风险的范围,那么我们就可以从样本中概括总体。反之,则不能!
抽样技术:概率抽样的类型
简单随机抽样
系统抽样
分层抽样
整群抽样
非概率抽样的类型
简单抽样
配额抽样
判断抽样
雪球采样
3.2.数据清洗、数据清理:数据清洗是指发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
需要着重处理以下类型的数据:
重复值
遗漏值或空值
噪音数据(错误值或异常值)
不一致数据
3.3.构造数据、数据派生:该任务包括构造性的数据准备操作,如派生属性、全新记录的生成、或现有属性的值转换。
1)属性派生(Derived attributes ):派生属性或者数据是在原有属性和数据的基础上构建出来的。例如: area=length*width。
有时把区间值转换成离散字段(例,年龄到年龄段),有时离散字段(如, “绝对正确”, “正确”, “不知道”, “错误” )转换成数值型。这取决于建模工具或算法的要求。
3)生成新纪录:生成的记录是全新的记录,它引入了新知识或表示了还没有表示过的数据,例如,已聚类的数据有助于生成一条记录来表示聚类的成员模板,以做进一步的处理。
3.4.整合数据、数据集成:在企业中,由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。
数据集成:数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表结构,表间关系,编码的含义等。
实体识别:实体就是名词,也就是说人名、地名、物名都是实体。在计算机领域进行实体识别是一个大活,好在我们并不想弄明白里面的机理,因而只需要清楚在数据清洗的过程中我们需要怎么对待实体即可。
例如,数据分析者或计算机如何才能确信一个数据库中的 customer_id 和另一个数据库中的 cust_number 指的是同一实体?通常,数据库和数据仓库有元数据——关于数据的数据。这种元数据可以帮助避免模式集成中的错误。
大致说来,我们需要在数据清洗的时候把两个本来不是同一个东西的实体区别开,也需要把本来是一个东西的实体对的上。大致工作有如下几项:
同名异义:例如苹果既可以代表手机也可以代表水果。再譬如姓名王伟是一个很普通的名字,但是它却表示不同的实体。