• 1.1数据管理技术
• 1.2 大数据分析与管理技术
• 1.4数据模型
• 1.5 概念模型的描述
1.1 数据管理技术 1.1.1 数据管理的概念 1. 信息与数据
Ø 信息是现实世界中对客观事物的反映。这种反映主要体现为事物属性的表现形式,是对事物存在方式或运动状态的刻画。
Ø 信息的主要特征
• 可传递性:信息是可以传递的,但其传递的前提是必须有载体,且传递过程消耗能量。
• 可感知性:信息可以被人类“感觉”得到的,但感觉的方式可能由于信息源的不同而呈现多样性。
• 可管理性:信息是可以被管理的,我们可以通过一定的方法对信息进行加工、存储、传播、再生和增值等。
Ø 数据是描述事务的符号记录,是信息的符号化表示,是信息的载体。
• 数据是信息表示的一种符号形式。这种符号形式可以是语言、图表、数字、声音等。但不管用什么样的符号形式,其目的只有一个,那就是客观地反映信息的内容。信息的内容不会随着数据表现形式的不同而改变。
Ø 信息和数据的区分和联系:
• 数据是信息的载体,可以有多种表现形式,其目的都是为了揭示信息的内容;
• 信息是数据的内涵,它仅由客观事物的属性来确定,而与数据形式无关。
但在实际应用中,如果不需要特别强调信息和数据的差异,这两个概念往往是互换的。例如,“信息处理”和“数据处理”通常意指有相同内涵的两个概念。
2. 数据处理和数据管理
数据处理
Ø 数据处理也称信息处理,它泛指用计算机对各种类型数据进行的处理操作。
Ø 这些操作包括对数据进行采集、转换、分类、存储、排序、加工、维护、统计和传输等系列活动。
Ø 数据处理的目的是从原始数据中提取有价值的、可作决策依据的信息。
数据管理
Ø 数据管理指在复杂的数据处理过程中的一些基本操作,如数据存储、分类、统计和检索等。
Ø 数据管理是数据处理的任务之一,是数据处理的核心内容,数据库系统的基本功能就是数据管理。
1.1.2 数据管理技术的发展过程 1.人工管理阶段(1946.2-1955左右)
这一阶段主要指是从计算机诞生到20世纪50年代中期的这一个时期。世界上第一台计算机ENIAC于1946年2月14日在美国宾夕法尼亚大学诞生,在随后的近十年中计算机的主要应用是科学计算,处理的是数字数据,数据量不大。
计算机没有操作系统(实际上当时根本没有操作系统的概念),也没有数据的管理软件,是以批处理方式对数据进行计算。
计算机硬件本身也没有磁盘,所使用的“存储设备”是磁带、卡片等。
人工处理阶段数据管理技术的特点体现在:
Ø 数据不保存。一是当时计算机所处理的数据量很小,不需要保存;二是计算机本身就没有有效的存储设备。
Ø 数据缺乏独立性和有效的组织方式。这体现在数据依赖于应用程序,缺乏共享性。其原因在于,数据的逻辑结构跟程序是紧密联系在一起的,程序A处理的数据,对程序B而言可能就无法识别,更谈不上处理。解决的办法是修改数据的逻辑结构,或者修改应用程序。显然,这种数据管理方法仅适用于小量数据,对大量数据则是低效的。
Ø 数据为程序所拥有,冗余度高。由于数据缺乏独立性,一组数据只能为一个程序所拥有,而不能同时为多个程序所共享,这就造成了一份数据的多个拷贝,各程序之间存在大量重复的数据,从而产生大量的冗余数据。
2. 文件系统阶段(1955-1965)
这一阶段是从50年代后期到60年代中期的这一段时间。这个时期,计算机除了用于科学计算以外,还大量用于数据的管理。
计算机已经有了操作系统,并且在操作系统之上已经开发了一种专门用于数据管理的软件——文件管理系统。在文件管理系统中,数据的批处理方法发展到了文件的批处理方式,且还可以实现了一定程度的联机实时处理。
计算机硬件本身已经出现了磁盘、磁鼓等外部存储设备计算机硬件经出现了磁盘、磁鼓等外部存储设备。
文件系统阶段特点