构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。

数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择。在之前的文章中,我们曾介绍AzureAzure Data Lake Storage (ADLS Gen1)和Azure Data Lake Analytics (ADLA)这一对可配合使用的服务。这对黄金搭档正是为数据湖而生,分别对应着大数据存储和查询计算的能力。

在数据湖存储服务方面Azure继续着快速发展的脚步,在重新梳理了产品思路之后,将ADLS与同为存储服务的Azure Storage进行了大力整合。的确,在底层存储基础设施方面,ADLS完全可以复用Azure Storage久经考验的存储机制和成熟实现,并在此基础上支持企业级大数据分析的特性并进行针对性优化。在这一新体系下的成果,则是微软于18年开放预览、于19年2月正式对外发布的Azure Data Lake Storage Gen2 (下称ADLS Gen2)。第二代ADLS的口号是“不妥协的数据湖平台,它结合了丰富的高级数据湖解决方案功能集以及 Azure Blob 存储的经济性、全球规模和企业级安全性”。

那么,全新一代的ADLS Gen2实际体验如何?在架构及特性上是否堪任大型数据湖应用的主存储呢?这正是本文希望探讨的话题。

 

ADLS Gen2初体验

百闻不如一见,我们首先来尝试创建一个ADLS Gen2的实例。需要注意的是,与第一代ADLS是独立服务不同,ADLS Gen2已经集成于大家熟悉的存储账号(Storage Account)的功能体系之中。在建立存储账号时,请注意勾选"Advanced"选项卡下"Hierarchical namespace"(中文译作“层次结构命名空间”)这个看似不起眼的选项:

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

当这个选项被勾选时,创建出的存储账号中的原Blob存储部分就自然被耳目一新的ADLS Gen2文件系统所替代了:

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

从这里的产品措辞可以看出,“层次结构”和“文件系统”是反复被强调的ADLS Gen2的最大特点,也是它有别于传统Blob对象存储的最大不同。传统对象存储虽然从路径上看起来也具有“目录”的虚拟概念,但其实目录通常并不实际存在,可认为仅是Blob对象路径字符串中的一部分,因为对象存储本质上是key-value形式的存储。而ADLS这样的“文件系统”级别的存储能力上,目录则是一等公民可以设置访问权限等元数据(并且能够被子节点继承),也可以使目录重命名等操作变得十分便捷迅速。这样的特性无疑使ADLS更适合作为企业数据湖这样应用的存储介质。

让我们继续操作。点击"Data Lake Gen2 file systems"来到文件系统的管理界面,可看到支持创建多个File System。我们先新建一个File System,这个步骤非常类似Blob存储中建立Container:

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

 

 再尝试点击进入刚建立的cloudpickerfs这个文件系统,会发现界面上几乎空空如也,提示我们需要使用客户端工具Azure Storage Explorer才可进行操作:

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

不必对于这个简单的界面过于失望,ADLS Gen2毕竟还是一个初生的产品,相信之后会得到不断丰富。事实上在国际版Azure上已经有集成在Portal中的Storage Explorer,目前还在预览状态,相信之后也会在中国区发布。

我们打开最新版本的Azure Storage Explorer(该工具成熟度很高,非常推荐),可以看到轻松地识别出了刚才建立的文件系统:

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

尝试建立目录及上传一些文件,毫无问题:

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

 

ADLS Gen2特性测试:权限控制

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zygygs.html