代码编译的结果从本地机器码转变为字节码,是存储格式发展的一小步,却是编程语言发展的一大步。经过多年的发展,目前的计算机仍然只能识别0和1,但是由于近10年内虚拟机以及大量建立在虚拟机之上的程序语言如雨后春笋般出现并蓬勃发展,将我们编写的程序编译成二进制本地机器码(Native Code)已不再是唯一的选择,越来越多的程序语言选择了操作系统和机器指令集无关的、平台中立的格式作为程序编译后的存储格式。
二、class类文件结构Class文件是一组以8位字节为基础单位的二进制流,各项数据严格的按照顺序紧凑的地排列在Class文件中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。当遇到需要占用8个字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。
根据Java虚拟机规范的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型L:无符号和表,后面的解析都要以这两种数据类型为基础,所以这里先介绍这两个概念;无符号属于基本数据类型,以u1,u2,u4,u8来分别代表1个字节,2个字节,4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量或者按照utf-8编码构成字符串值。表是由多个无符号或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表,他由一下表格中的数据项构成:
无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这是称这一系列连续的某一类型的数据为某一类型的集合。
三、魔数和Class文件的版本每个Class文件的头4个字节称为魔数(Magic Number),它的唯一作用是确定这个文件是否为一个能被虚拟机接受的Calss文件。很多文件存储标准中都使用魔数来进行身份识别,使用魔数而不是使用拓展名来进行识别主要是基于安全方面的考虑,因为文件的拓展名可以随意的改动。Class文集爱你的魔数值为“0xCAFEBABE”,这个魔数值在Java还称为“Oak”的时候就已经确定下来了。
紧接着摸数的4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号,第7和第8个字节是主版本号。Java版本号是从45开始的。JDK1.1之后的每一个JDK大版本发布主版本号向上加1,高版本的JDK能向下兼容以前的版本的Class文件,但是不能运行以后的版本的Class文件,即使文件格式并没有发生任何变化,虚拟机也必须拒绝执行超过其版本号的Class文件。
四、常量池在主版本和次版本之后的是常量池的入口,由于常量池的中常量数量是不固定的,所以常量池的入口通常需要放置一个常量池容量计数器,计数器是从1开始而不是从0开始,其目的是为了在特殊情况下表达“不引用任何常量池的项目”的情况。
常量池是Class文件中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一。常量池的常量的类型分为:字面量和符号引用。字面量比较接近Java层面的常量的概念,比如文本字符串“abc”,被声声明卫final的常量等。符号引用属于编译原理的概念,包括以下3个方面:
类和接口的全限定名,比如: java.lang.String
字段的名称的描述符,比如private,static等
方法的名称和描述符,比如private,static等描述
常量池中每一个常量都是一个表,在jdk1.7后提供了14种表结构,他们都有一个共同的特点,就是表开始第一个位置是一个u1类型的标志位,代表当前的常量是属于哪一种类型的。如下表:
五、访问标志
常量池结束后就是访问标志(access_flag)了,用于标识一些类或接口的访问信息,比如这个Class是类还是接口,是public还是private,是否为abstract等,每种访问信息都是由一个16进制的标志值表示,如果同时表示多种访问信息,则得到的标志值为这几种访问信息的逻辑或,其标志位和含义如下表:
标志名称标志值
含义
ACC_PUBLIC 0X0001 是否为public类型
ACC_FINAL 0X0010
是否被声明为final,只有类可以设置
ACC_SUPER 0X0020 是否允许使用invokespecial字节码指令的新语意,invokespecial指令的语意在JDK1.0.2发生过改变,为了区别这条指令使用哪种语意,JDK1.0.2之后编译
ACC_INTERFACE 0X0200 标志这是一个接口
ACC_ABSTRACT 0X0400 是否为abstract类型,对于接口或者抽象类来说,此标志值为真,其他类为假
ACC_SYNTHETIC 0X1000 标志这个类并非由用户代码产生的
ACC_ANNOTATION
0X2000 标志这是一个注解
ACC_ENUM 0X4000 标志这是一个枚举
六、类索引(this_class)、父类索引(super_class)、接口索引(interfaces)