数据挖掘基础概念-数据挖掘工具
商业智能(BI)与大数据分析软件
效益,因管理而变,管理因我们(Smartbi)而变

数据挖掘基础概念-数据挖掘工具

发布时间:2020-09-07      游览量:92


(一)数据挖掘产生背景

随着计算机技术的革新和网络媒体的快速发展,人们的生活以及企业发展进入了高速信息数字化时代。每天的生活以及生产都要产生大量的数据,例如交通,网络、文字、方位等。但是人们很少能够意识到这些丰富数据中隐藏了有价值的信息。

(二)什么是数据挖掘

2009年,Google利用大数据(人们搜索的历史记录) 预测了H1N1流感爆发地。

image.png 

2014年,百度利用大数据(团队表现情况、博彩公司赔率等)成功预测2014年世界杯(从淘汰赛到决赛都预测正确)。

image.png 

1.从技术角度

从大量的、不完全的、有噪声的、随机的实际应用数据中,提取隐含在其中 的、人们事先不知道的、但又是潜在有价值的信息的过程。

2.从商业角度

它是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处 理,从中提取辅助商业决策的关键性信息。

简而言之:大数据挖掘是发现数据中隐含的有价值信息。且受多学科的影响,如科学信息、数据库技术、统计学、机器学习、可视化以及其他学科。

(三)什么是机器学习?

1.背景知识

机器学习(Machine LearningML)是人工智能的子领域,也是人工智能的核心。它囊括了几乎所有对世界影响最大的方法(包括深度学习)。机器学习理论主要是设计和分析一些让计算机可以自动学习的算法:

1)是一系列算法的统称;

2)训练目的是找到一个合适的函数;

3)用这个函数计算(预测)结果。

机器学习是研究如何利用经验来改善计算机系统自身性能的学科,它也是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使不断改善自身性能的学科。

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类。它可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。

举个例子,假设要构建一个识别猫的程序。传统上如果我们想让计算机进行识别,需要输入一串指令,例如猫长着毛茸茸的毛、顶着一对三角形的的耳朵等,然后计算机根据这些指令执行下去。但是如果我们对程序展示一只老虎的照片,程序应该如何反应呢?更何况通过传统方式要制定全部所需的规则,而且在此过程中必然会涉及到一些困难的概念,比如对毛茸茸的定义。因此,更好的方式是让机器自学。

我们可以为计算机提供大量的猫的照片,系统将以自己特有的方式查看这些照片。随着实验的反复进行,系统会不断学习更新,最终能够准确地判断出哪些是猫,哪些不是猫。

2.算法分类

1)有监督学习

监督学习是从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。一句话定义:给定数据,预测标签。 

举例:学认字根据生字表学习每一个字,然后对一篇新文章读出里边的字。

2)无监督学习

无监督学习是从无标记的训练数据中推断结论。一句话定义:给定数据,寻找隐藏的结构。

举例:自动聚类对人群按照某种相似性进行归类,每类中可能是相同的肤色、发色等。

3)强化学习

强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。一句话定义:给定数据,学习如何选择一系列行动,以最大化长期收益。

举例:机器人学下象棋机器人通过多次训练,不断积累经验以便赢得比赛。

3.数据分类

1)连续型数据和离散型数据

连续型数据:在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如:长度、温度、房价等是连续增长的。

离散型数据:不连续数据,这类数据在任何两个数据点之间的个数是有限的。如:某年级有十个班,班级数量就是离散型数据,三班和五班之间只有四班。

2)结构化数据和非结构数据

结构化数据:由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据:指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。包括所有格式的办公文档、文本、图片、XMLHTML、各类报表、图像和音频/视频信息等等。

4.其他概念

1)算法

定义:解决某个问题的计算方法、步骤。

image.png 

2)模型

定义:可理解为是一个从输入到输出的函数。

image.png 

 

 

 

 

 

 

3)训练和预测

训练:根据算法和训练数据,生成模型的过程;

预测:根据模型和预测数据,生成预测结果的过程。

以在校学习的例子通俗的解释,训练即学习新知识的过程(做练习);预测即验证学习结果的过程(考试)。

4)特征和标签

特征:算法的自变量;

标签:算法的因变量。

例如:线性回归方程

针对房价预测案例:

A. 影响房价的因素有:位置、人流量、街区房龄、平均占地面积等,将这些因素选择作为算法的自变量x1x2x3......xn,即特征。

B. 房价是最终预测目标,选择作为y,即标签。

(四)数据挖掘建模过程

1.定义挖掘目标

通过以下步骤确定挖掘目标

1)需求背景是什么?

2)客户的痛点是什么?

3)映射到挖掘上,是要实现什么功能?

例如在银行客户流失案例中:

背景:客户是发展银行业务重点,客户流失问题就成为整个行业迫切需要解决的问题。

痛点:传统的方式是靠人工经验判断客户是否会流失,存在主观性的滞后性,解决问题的关键是提高客户流失的预见性。

挖掘功能:通过历史客户数据,建立预测模型,针对流失概率超过一定阈值的客户发出预警信息,提前采取挽留措施。

2.数据获取

image.png 

数据探索是对建模分析数据进行先导性的洞察分析,利用绘制图表、计算某些特征量等手段,对样本数据集的结构特征和分布特性进行分析的过程。该步骤有助于选择合适的数据预处理和数据分析技术,它是数据建模的依据,比如:数据探索发现数据稀疏,建模时则选择对稀疏数据支持相对较好的分析方案。

数据质量分析:检查原始数据中是否存在脏数据。例如缺失值、异常值、不一致的值、重复数据、含有特殊符号的数据等。

数据特征分析:展示数据分布情况、数据对比分析、统计分析、正态性检验、相关性分析。

4.数据预处理

数据预处理是将不规整的业务数据整理为相对规整的建模数据,数据的质量决定了模型输出的结果。

数据清洗:去掉噪声和无关数据。

数据转换:将原始数据转换成合适数据挖掘的形式。

数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。

数据规约:维归约、数据压缩、数据离散化、数据规范化等等。

5.挖掘建模

1)分类

根据样本数据形成的类知识,将其它数据对象归结到某个已知的类别中。分类问题的输出是离散型变量(: +1-1),是一种定性输出,预测的是标签。例如:预测明天天气是阴、晴还是雨。

image.png 

2)回归

回归是用于预测输入变量与输出变量之间的关系,特别是当输入变量的值 发生变化时,输出变量的值随之发生的变化。回归问题的输出是连续型变量,是一种定量输出,预测的是数量。例如:预测明天的温度是多少度。

image.png 

3)聚类

聚类是在预先没有训练和不知道划分类别的情况下,根据信息相似度原则把样本划分为若干类。

image.png 

4)关联规则

聚类是在预先没有训练和不知道划分类别的情况下,根据信息相似度原则把样本划分为若干类。

image.png 

5)文本分析

文本分析主要是针对文本类型的数据进行分析处理。

常见的文本分析工作包括:分词、情感分析、文章关键词提取、文章摘要提取、文章聚类/分类、知识图谱等。

6.模型评估

模型评估是评估所构建的模型是否符合既定的业务目标,它有助于发现表达数据的最佳模型和所选模式将来工作的性能如何。

7.数据展现

模型结果可视化。将评估过程和结果可视化的展现,帮助我们决策。

image.png 

(五)Smartbi Mining数据挖掘平台介绍

Smartbi Mining数据挖掘平台是一个注重于实际生产应用的数据分析预测功能模块,它旨在为个人、团队和企业所做的决策提供预测。该平台不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。Smartbi Mining操作起来非常简单,建模、训练、部署等都是在一个界面完成。不管是数据科技学家、还是业务分析师、行业咨询师、实施顾问,都可以使用数据挖掘平台。

Smartbi Mining提供基于Web的可视化界面,数据挖掘的每一个步骤通过功能点的拖动和参数(属性)配置即可实现

立即体验:登录Smartbi官网体验中心:http://demo.smartbi.com.cn/smartbi/vision/index.jsp

我们内置了很多案例,点击案例图标打开另存为即可体验。

image.png 

image.png


申请试用


© 2017-2021 smartbi.com.cn 版权所有  粤ICP备11104361号

咨询

电话

商务咨询:400-878-3819 转1

项目支持:400-878-3819 转2

支持

小麦二维码

技术支持服务二维码

邮箱

您好,商务咨询请联系邮箱

邮箱地址:sales@smartbi.com.cn