数据湖与云计算技术的融合&sma&<p><span style="font-size: 14px;">云计算采用虚拟化、多租户等技术满足业务对服务器、网络、存储等基础资源的最大化利用,降低企业对IT基础设施的成本,为企业带来了巨大的经济性;同时云计算技术实现了主机、存储等资源快速申请、使用,则同样为企业带来了更多的管理便捷性。在传统建设模式下,大数据采用的都是物理机部署模式,在应对多业务类型弹性计算资源需求以及计算性能和存储容量增幅差异化较大的情况下,计算和存储一体化的部署模式,既不够灵活,同时也不能提供最优性价比。这时利用云化技术,将大数据计算部署在云上,把存储资源与计算资源独立开来,实现计算和数据各自独立扩展,弹性伸缩。当前数据湖架构已经在公有云上得到了教完美的实现和应用,例如:Microsoft Azure 在2016年就推出了Data Lake云服务,Amazon AWS 可以基于S3、Glue等多个基本云服务快速构建出一套数据湖服务,Google内部对海量数据集的管理和搜索系统也为数据湖的数据管理指明了道路(详情参见《Managing Google’s data lake: an overview of the GOODS system》,一篇关于Google内部的海量数据集搜索与管理的论文)。</span></p>