网络文件系统(Network File System,NFS)是大多数局域网(LAN)的重要组成部分。但 NFS 不适用于高性能计算中苛刻的输入输出密集型应用程序,至少以前是这样。NFS 标准的最新修改纳入了 Parallel NFS(pNFS),它是文件共享的并行实现,将传输速率提高了几个数量级。本文提供入门级介绍。
通过 NFS(由服务器、客户机软件和两者之间的协议组成),一台计算机就可以和同一网络中的其他计算机共享物理文件系统。NFS 隐藏服务器的文件系统的实现和类型。对于在 NFS 客户机上运行的应用程序,共享的文件系统看起来和本地存储一样。
图 1 演示了在包含各种操作系统的网络中部署 NFS 的一般方法。这些操作系统包括支持 NFS 标准的 Linux?、Mac OS X 和 Windows?。(NFS 是 Internet Engineering Task Force 惟一支持的文件系统)。
图 1. 简单的 NFS 配置
在图 1 中,Linux 机器是 NFS 服务器;它共享或导出(用 NFS 的话讲)一个或多个物理附带文件系统。Mac OS X 和 Windows 机器是 NFS 客户机。它们分别使用或挂载 共享的文件系统。实际上,挂载 NFS 文件系统和挂载本地驱动分区的结果是一样的 — 在挂载时,应用程序仅根据访问控制读写文件,而不注意持久化数据所需的技巧。
对于通过 NFS 进行共享的文件系统,Read 和 Write 操作 — 由蓝色阴影表示 — 从客户机(这里是 Windows 机器)遍历到服务器。这个服务器最终执行获取或持久化数据的请求或修改文件元数据的请求,比如权限或最后的修改时间。
NFS 的功能非常强大,从广泛将它用作 Network Attached Storage (NAS) 就可以看出来。它可以在 Transmission Control Protocol (TCP) 和 User Datagram Protocol (UDP) 上运行,并且相对容易管理。此外,NFS 的最新许可版本是 NFS version 4,它提高了安全性、增强了 Windows 和类 UNIX? 系统之间的互操作性,并且通过锁租赁(lock lease)提供更好的排他性。(NFSv4 于 2003 年首次获得批准)。NFS 的基础设施也不昂贵,因为它通常能在普通的 Ethernet 硬件上很好地运行。NFS 能够解决大部分的问题。
不过,NFS 处理高性能计算(HPC)一直不够理想。高性能计算涉及到的数据文件非常庞大,并且 NFS 客户机的数量可能达到几千台。(想一想拥有数千个计算节点的计算集群或网格)。在这里,NFS 是一个负担,因为 NFS 服务器的局限性 — 比如带宽、存储容量和处理器速度 — 限制了总体计算性能。NFS 在这里成了瓶颈。
或者,至少以前 是这样。
NFS 的下一个修改版是 version 4.1,包括一个扩展 Parallel NFS(pNFS),它将普通 NFS 的优势和并行输入输出(I/O)的高传输率结合起来。使用 pNFS 时,客户机也像以前一样可以从服务器共享文件系统,但数据不经过 NFS 服务器。相反,客户机系统将与数据存储系统直接连接,为大型数据传输提供许多并行的高速数据路径。在简短的初始化和握手(handshaking)过程之后,pNFS 服务器开始退出 “舞台”,不再阻碍传输速率。
图 2 显示一个 pNFS 配置。顶部是计算集群的节点,比如大量便宜的、基于 Linux 的刀片服务器群。左边是 NFSv4.1 服务器。(为了方便讨论,我们称之为 pNFS 服务器)。底部是一个大型的并行文件系统。
图 2. pNFS 的概念组织结构
像 NFS 一样,pNFS 服务器也导出文件系统,并且保留和维护数据仓库中描述每个文件的标准元数据。pNFS 客户机和 NFS 一样 — 在这里是集群中的一个节点 — 挂载服务器导出的文件系统。类似于 NFS,每个节点都将文件系统看作本地的物理附加文件系统。元数据的更改通过网络传回给 pNFS 服务器。然而,与 NFS 不同的是,pNFS 在 Read 或 Write 数据时是在节点和存储系统之间直接 操作的,如图 2 的底部所示。从数据事务中移除 pNFS 服务器为 pNFS 提供了明显的性能优势。
因此,pNFS 保留了 NFS 的所有优点,并且改善了性能和可伸缩性。扩展存储系统的容量几乎不会影响客户机配置,同时还可以增加客户机的数量以提高计算能力。您只需同步 pNFS 目录和存储系统。
pNFS 的具体细节
那么,它是如何工作的呢?如图 3 所示,pNFS 是由 3 个协议构成的。
图 3. pNFS 的 3 个协议
pNFS 协议 在 pNFS 服务器和客户机节点之间传输文件元数据(正式名称是布局)。可以将布局想象成地图,它描述如何在数据仓库之间分配文件。另外,布局还包含许可和其他文件属性。布局捕捉到元数据并在 pNFS 服务器中持久化这些数据之后,存储系统仅需执行 I/O。
存储访问协议 指定客户机从数据仓库访问数据的方式。可以猜到,每个存储访问协议都定义自己的布局形式,因为访问协议和数据组织必须保持一致。
控制协议同步元数据服务器和数据服务器之间的状态。同步是对客户机隐藏的,比如重新组织介质上的文件。此外,NFSv4.1 并没有规定控制协议;因此它有多种形式,这在性能、成本和特性方面的竞争为供应商提供了灵活性。
有了这些协议之后,您就可以实践以下客户机访问流程:
客户机为当前的文件请求一个布局。 客户机通过打开元数据服务器上的文件获得访问权。 客户机获得授权和布局之后,就可以直接从数据服务器访问信息。根据存储类型所需的存储访问协议,访问继续进行。(后面还对此进行论述)。 如果客户机更改了这个文件,则会相应地更改布局的客户机实例,并且将所有更改提交回到元数据服务器。 当客户机不再需要这个文件时,它将提交剩余的更改,并将布局副本返回给元数据服务器,然后关闭文件。尤其需要注意的是,Read 操作是由一系列协议操作组成的:
客户机向 pNFS 服务器发送一个 LOOKUP+OPEN 请求。服务器会返回一个文件句柄和状态信息。 客户机通过 LAYOUTGET 命令请求从服务器获取一个布局。服务器将返回所需的文件布局。 客户机向存储设备发出一个 READ 请求,该请求同时初始化多个 Read 操作。 当客户机完成读操作时,它以 LAYOUTRETURN 表示操作结束。 如果与客户机共享的布局因为分离活动而过时,服务器将发出 CB_LAYOUTRECALL,表明该布局无效,必须清除和/或重新获取。Write 操作类似于 Read 操作,不同的地方是客户机必须在 LAYOUTRETURN 将文件更改 “发布” 到 pNFS 服务器之前发出 LAYOUTCOMMIT。
布局可以缓存到每个客户机,这进一步提升了性能。如果一个客户机不再使用时,它会自动放弃从服务器获取布局。服务器还能限制 Write 布局的字节范围,以避免配额限制或减少分配开销等等。
为了避免缓存过期,元数据服务器将收回不准确的布局。收回发生之后,每个关联的客户机必须停止 I/O,并且必须重新获取布局或从普通的 NFS 访问文件。在服务器尝试管理文件(比如迁移或重新划分)之前必须执行回收过程。