数据湖与新技术的融合与发展

文 | Smartbi大数据百科 2021-06-16 阅读次数:3542 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据湖与大数据技术的融合

    Hadoop技术已经经历了十几年的发展,而数据湖作为第二数据平面最重要的数据平台,与Hadoop技术的融合越来越紧密,相辅相成,相得益彰。例如:HBase可以让数据湖保存海量数据;Spark 使得数据湖可以更快的批量分析海量数据;Storm,Flink,NiFi等使数据湖能够实时接入和处理IOT数据。Hadoop本身更多的聚焦于数据的处理与应用,但是对于底层的数据存储工作则并未过多的关注。例如:传统的Hadoop使用三副本技术保存数据,数据利用率只有33%,数据保存成本较高;同时客户对于Hadoop承载的数据可靠性要求也越来越高,数据保护(备份、容灾等)需求越来越明显,Hadoop3.x 开启了存储和计算分离的趋势,但这些还不能完全满足用户需求,数据湖需要从数据存储、数据治理等方面继续发展。

    数据湖与云计算技术的融合

    云计算采用虚拟化、多租户等技术满足业务对服务器、网络、存储等基础资源的最大化利用,降低企业对IT基础设施的成本,为企业带来了巨大的经济性;同时云计算技术实现了主机、存储等资源快速申请、使用,则同样为企业带来了更多的管理便捷性。在传统建设模式下,大数据采用的都是物理机部署模式,在应对多业务类型弹性计算资源需求以及计算性能和存储容量增幅差异化较大的情况下,计算和存储一体化的部署模式,既不够灵活,同时也不能提供最优性价比。这时利用云化技术,将大数据计算部署在云上,把存储资源与计算资源独立开来,实现计算和数据各自独立扩展,弹性伸缩。当前数据湖架构已经在公有云上得到了教完美的实现和应用,例如:Microsoft Azure 在2016年就推出了Data Lake云服务,Amazon AWS 可以基于S3、Glue等多个基本云服务快速构建出一套数据湖服务,Google内部对海量数据集的管理和搜索系统也为数据湖的数据管理指明了道路(详情参见《Managing Google’s data lake: an overview of the GOODS system》,一篇关于Google内部的海量数据集搜索与管理的论文)。

    数据湖与人工智能技术的融合

    近些年,人工智能技术再一次飞速发展,训练和推理等需要同时处理超大的,甚至是多个数据集,这些数据集通常是视频、图片、文本等非结构化数据,来源于多个行业、组织、项目,对这些数据的采集、存储、清洗、转换、特征提取等工作是一个系列复杂、漫长的工程。数据湖需要为人工智能程序提供数据快速收集、治理、分析的平台,同时提供极高的带宽、海量小文件存取、多协议互通、数据共享的能力,可以极大加速数据挖掘、深度学习等过程。

申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号 网站地图

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务