大数据处理四个基本流程

文 | Smartbi大数据百科 2021-10-28 阅读次数:5456 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    一、大数据采集

    大数据采集是指利用多个数据库从客户端(Web、应用程序或传感器形式等)接收数据。用户可以通过这些数据库进行简单的查询和处理。例如,电子商务将使用传统的关系数据库MySQL和Oracle来存储每个事务数据,此外,Redis和MongoDB等NosQL数据库也常用于数据采集。

     

    在大数据收集过程中,其主要特点和挑战是并发数量高,因为成千上万的用户可能同时访问和操作,如火车票网站和淘宝,并发访问数百万,因此需要在收集端部署大量数据库。如何在这些数据库之间进行负载平衡和分片深入思考和设计。


    二、数据导入和预处理

    虽然收集端本身有很多数据库,但如果你想有效地分析这些海星数据,你应该将这些前端数据导入集中的大型分布式数据库或分布式存储集群,并在导入的基础上进行一些简单的清洁和预处理。还有一些用户在导入时使用社交媒体Storm对数据进行流式计算,以满足实时计算需求。导入和预处理过程的特点和挑战主要是导入数据量大,每秒导入量往往达到100兆甚至100兆。


    三、数据统计与分析

    统计分析主要利用分布式数据库或分布式计算集群对存储在其中的海量数据进行分析、分类和总结,以满足大多数常见的分析需求。在这方面,一些实时需求将使用EMC的GreenPlum、Oracle的Exadata、基于MySQL的列式存储Infobright等。统计和分析的主要特点和挑战是分析涉及大量数据,这将极大地占用系统资源,尤其是I/O。


    四、数据挖掘

    与以往的统计分析过程不同,数据挖掘一般没有预设主题,主要基于现有数据上的各种算法,以达到预测效果,满足一些先进数据分析的需要。典型Means用于聚类,SVM用于统计学习,NaiveBayes用于分类,主要用于Smartbi数据挖掘等。该过程的特点和挑战主要是挖掘算法非常复杂,计算涉及大量数据和计算。此外,常用的数据挖掘算法主要是单线程。


申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号 网站地图

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务