大数据分析技术的过程主要包括什么?

文 | Smartbi大数据百科 2021-06-28 阅读次数:3507 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据采集

    数据采集作为大数据分析的首个环节,技术上使用机器采集和爬虫工具来实现海量数据的采集,其中采集的数据包括结构化数据(应用系统数据、数据库数据、各种结构化文件、消息队列等)与非结构化数据(网络媒体、社交工具、机器设备、传感器等),采集数据后将这些数据整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。在海量数据采集的过程中,通常数据的并发量会很大,所以一般会在采集端部署许多数据库来支撑不同类型的数据存储。

    数据存储

    大数据存储是将采集后生成的数据集持久化到计算机中,用于支撑数据的计算分析,而大数据的优势就是快速在海量数据中挖掘和预测相关信息,帮助业务人员做出关键性决策和风险防范,所以大数据会采用高性能、高吞吐率、大容量的基础设备来提供及时性或近及时性的数据供于分析,在大数据存储部分,对于简单的结构化数据,采用关系数据库即可实现,对于半结构化和非结构化数据,这就需要用到Hadoop、列存储数据库Cassandra、文档数据库MongoDB、图数据库Neo4j、K/V存储Redis等。

    处理分析

    处理分析部分主要是从数据中分析及预测出有用的信息供企业决策分析使用,包括对相关数据集的数据进行排序、归集,执行机器学习算法、实时流处理、分析预测等。处理分析部分基于Hadoop、Spark、Storm、Hive等计算框架以及数据库技术通过Hadoop提供海量数据存储和分布式计算,HBase 技术提供海量数据的高效发布,图计算支持针对图的各种操作以及一些常用图算法。

    除了对数据的处理分析,预测也是大数据算法应用中的核心功能,通常会在大数据分析中预置一系列机器学习算法库,构建回归、分类、聚类、关联规则挖掘、描述性统计等一系列的数据模型,实现对当前数据的深度挖掘、特征提取、行为分析、轨迹预测等,也可以结合流计算对实时数据提供流式计算的能力,实现实时追踪页面的访问统计,训练机器学习模型,自动化异常检测等,最终通过Open API的形式提供相应的服务,以供外部调用获取相关数据,支撑企业对大数据分析成果及数据价值的有效利用。

    配置展现

    大数据分析配置展现部分主要用来展示不同分析算法处理后的结果,包括导航配置、菜单配置、页面配置等,配置后将计算汇总结果用一种友好界面或表格形式展现出来,分析形式多样,包括:行列转置、钻取联动,同时,在交互方式上针对用户的操作方式、习惯,模拟推算用户的分析习惯,提供更友好、更具有针对性的交互服务。数据展现部分相比传统使用表格或文档展现数据的方式,展现形式更具多样化、丰富化,包括:饼图、柱状图、折线图、气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表,还包括自定义指标、表单查询等功能,展示页面良好支撑PC端与移动端的转换,并为企业建立数据战略室,以数字大屏形式为企业展现数据。

申请试用 了解更多
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

sales邮箱

商务咨询请联系邮箱

邮箱地址:sales@smartbi.com.cn