Java内存模型的基础
在并发编程中,需要处理两个关键问题:线程之间如何通信及线程之间如何同步,通信指线程之间以何种机制来交换信息。在命令式编程中,线程之间的通信机制有两种:共享内存和消息传递。
Java语言的并发采用的是共享内存模型,Java线程之间的通信总是隐式进行,整个通信过程对程序员完全透明。Java线程之间的通信由Java内存模型简称JMM(Java Memory Mode)控制,JMM决定一个线程对共享变量的写入何时对另一个线程可见。从抽象的角度来看,JMM是这样定义线程和主内存之间的抽象关系的:线程之间的共享变量存储在主内存(Main Memory)中,每个线程都有一个私有的本地内存(Local Memory),本地内存中存储了该线程以读/写共享变量的副本。
主内存主要对应用于Java堆中的对象实例数据部分,而本地内存则对应于虚拟机栈中的部分区域。从更基础的层面上说,主内存直接对应于物理硬件内存,而为了获取更好的运行速度,虚拟机可能会让本地内存优先存储于寄存器和高速缓存中,因为程序运行时主要访问的是本地内存。
本地内存是JMM的一个抽象概念,并不是真实存在的。它涵盖了缓存、写缓冲区、寄存器以及其他硬件和编译器优化。Java内存模型的抽象示意图如下所示。
从示意图中来看,如果线程A与线程B之间要进行通信,必须经历如下2个步骤。
1. 线程A把本地内存中更新过的共享变量刷新到主内存中。
2. 线程B从主内存中读取线程A之前更新的共享变量。
重排序
在执行程序的过程中,为了提高性能,编译器和处理器常常会对指令做重排序。重排序分3中类型。
1. 编译器优化重排序。
Java虚拟机的即时编译器中存在指令重排序(Instruction Reorder),编译器在不改变单线程程序语义的前提下,可以重新安排语句执行。
2. 指令级并行的重排序。
现代处理器采用了指令级并行技术来将多条指令重叠执行。如果不存在数据依赖性,处理器可以改变语句对应机器指令的执行顺序。
3. 内存系统的重排序。
由于处理器使用缓存和读/写缓冲区,当多个处理器的运算任务都设计同一块内存区域时,数据的加载和存储操作看上去可能是乱序执行的。
从Java源代码到最终实际执行的指令序列,会分别经历下面3中重排序。
上述1属于编译器重排序,2、3属于处理器重排序。这些重排序可能会导致多线程程序出现内存可见性问题。对于编译器,JMM的编译器重排序规则会禁止特定类型的编译器重排序(不是所有的编译器重排序都要禁止)。对于处理器重排序,Java编译器在生成指令序列时,插入特定的内存屏障(Memory Barriers)指令,通过内存屏障来禁止特定类型的处理器重排序。
编译器和处理器为了优化程序性能,可能会对指令序列进行重新排序。下表展示了常见处理器允许重排序的类型列表。(Load:装载 Store:储存)
Load-Load Load-Store Store-Store Store-Load 数据依赖SPARC-TSO N N N Y N
x86 N N N Y N
IA64 Y Y Y Y N
PowerPC Y Y Y Y N
表格中“N”表示处理器不允许两个操作重排序,“Y”表示允许重排序。从表中可以看到,常见处理器都允许Store-Load重排序;常见处理器都不允许对存在数据依赖的操作做重排序。SPARC-TSO和X86处理器拥有相对较强的处理器内存模型,它们仅仅允许对写-读操作做重排序(因为它们都使用了写缓冲区)。