大数据平台的架构及其搭建步骤

文 | Smartbi大数据百科 2021-06-01 阅读次数:6424 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    大数据平台的架构

    (1)运维平台主要负责整个大数据平台的任务调度、任务监控、元数据管理、权限管理等,分别由调度系统、任务监控中心、元数据管理系统、权限管理系统等系统组成。

    (2)大数据采集平台主要负责把数据采集到大数据仓库平台中。企业的大数据来源从大的角度来说,主要是从三个方面获取数据,业务系统、行为日志采集系统、外部数据来源。每一个方面来源又包含途径,大家可以看上面的图就了解。这里特别要强调的是外部数据来源,可以通过网络爬虫工具收集,通过和相应的合作方进行数据交换,通过从数据商那里采购过来,也有极少部分可以通过一些大公司的开放平台接口获取,比如阿里、腾讯等。

    (3)大数据基础平台,在传统的关系数据库时代,这个平台也是企业必须要做的平台,只不过当时叫数据仓库系统,在大数据时代,我称作为大数据仓库基础平台。这部分是整个大数据平台的核心。我们接下来会详细讨论。

    (4)大数据门户,是数据成果的集成一体化平台,包含大数据分析平台和数据应用平台。大数据门户作为整个数据部门的窗口,所有数据研究成果都会展现在数据门户中,极大的方便了企业各层级、各职能人员使用数据。我们接下来也将会详细讨论下这部分内容。

    (5)用户服务,使用我们数据的人主要有公司的各层级的管理人员、数据分析人员、运营人员、产品经理、技术研发工程师、企业的投资相关方,还可能有部分的公司提供对外的数据服务。提供服务的方式有多种多样,或通过大数据门户、或通过API接口、或是直接在分析报告中体现。

    大数据平台的搭建步骤

    (1)Linux系统安装

    (2)分布式计算平台/组件安装

    当前分布式系统的大多使用的是Hadoop系列开源系统

    (3)数据导入

    数据导入的工具是Sqoop

    (4)数据分析

    数据分析一般包括两个阶段:数据预处理和数据建模分析

    数据预处理这个过程可能会用到Hive SQL,Spark QL和Impala

    数据建模分析最好用的是Spark

    (5)结果可视化及输出API

    可视化一般式对结果或部分原始数据做展示

申请试用 了解更多
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

sales邮箱

商务咨询请联系邮箱

邮箱地址:sales@smartbi.com.cn