首页 > 数据百科 > 数据挖掘的五个基本流程

数据挖掘的五个基本流程

2021-08-31 10:01:51   |  Smartbi大数据百科 2894

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    第一步,对数据的了解和可视化&sma&<p>1、几行几列,有多少个特征,多少样本</p><p>2、是否有缺失值,看看缺失值的情况</p><p>3、看数据类型,是否有一些字符型数据,因为后续的模型需要用到的是数值型数据</p><p>4、对数据做个可视化,看看数据长什么样</p><p><br/></p><p><br/></p>

    第二步,对目标的了解以及对数据的初步处理&sma&<p>1、对<span style=""><strong>数据挖掘</strong></span>的目标要有所理解,通过理解,可以进行这一步的主要分析</p><p>2、缺失值:通过对数据以及目标的理解,看看 a、是否可以直接删除该缺失数据 b、如果不能删除,用什么样的方法填充它比较好,常见的有均值,中位数,或者拉格朗日法,牛顿法等填充。这个填充要基于对数据的了解,才方便自己选择具体方法进行处理,例如你的数据可能是由于低于某些仪器的检测下限所造成缺失的,那么可以用0来填充。</p><p>3、异常值:看数据是否处于异常,可以用 3σ原则,PCA,箱线图等等,至于是否要处理也要看建模的目标对于异常值的考虑。</p><p><br/></p>

    第三步,数据预处理&sma&<p>主要是对数据进行归一化,标准化,字符型数据转化成数值性数据,包括min-max,z-score, one-hot</p><p><br/></p>

    第四步,特征工程&sma&<p>经历了数据的预处理之后,接下去就是进行特征工程了,特征工程顾名思义就是对数据里面的特征进行一个操作,选择后续可以提高模型效果的特征。</p><p><br/></p><p>1、相关性分析,选择一些与目标强相关性的特征</p><p>2、递归法,一开始,可以让所有特征进入模型,之后利用模型选择出来的important_feature得到重要特征,再选择top n的特征(n由自己选择)进入模型训练</p><p>3、还有其他一些方法(后续补充)</p><p><br/></p>

    第五步,建立模型&sma&<p>在进行特征工程之后,我们一般会建立2-3个模型,来比较这几个模型在这个任务上哪个模型更好。</p><p><br/></p><p>例如:</p><p>分类模型:KNN、贝叶斯分类、决策树、随机森林、SVM、逻辑回归</p><p>回归模型:简单线性回归、多重线性回归、一元非线性回归、lasso回归、岭回归</p><p>聚类模型:k-means、DBSCAN密度法、层次聚类法。</p><p><br/></p><p>那么一般这些模型大家都可以直接使用sklearn中对应的模型。</p><p><br/></p>

    第六步,模型优化&sma&<p>选择好模型之后,对于模型性能的进一步优化也是非常重要的</p><p><br/></p><p>模型的参数优化:网格搜索、随机搜索,选择最优的模型参数</p><p><br/></p><p>k-折交叉验证,避免过拟合</p><p><br/></p><p>模型评价:一般模型评价有准确率(分类模型),或者RMSE,R2(回归模型)等,当然也有F1-score(分类问题里面数据不平衡情况)等。</p><p><br/></p>

文章目录

第一步,对数据的了解和可视化&sma&<p>1、几行几列,有多少个特征,多少样本</p><p>2、是否有缺失值,看看缺失值的情况</p><p>3、看数据类型,是否有一些字符型数据,因为后续的模型需要用到的是数值型数据</p><p>4、对数据做个可视化,看看数据长什么样</p><p><br/></p><p><br/></p>
第二步,对目标的了解以及对数据的初步处理&sma&<p>1、对<span style=""><strong>数据挖掘</strong></span>的目标要有所理解,通过理解,可以进行这一步的主要分析</p><p>2、缺失值:通过对数据以及目标的理解,看看 a、是否可以直接删除该缺失数据 b、如果不能删除,用什么样的方法填充它比较好,常见的有均值,中位数,或者拉格朗日法,牛顿法等填充。这个填充要基于对数据的了解,才方便自己选择具体方法进行处理,例如你的数据可能是由于低于某些仪器的检测下限所造成缺失的,那么可以用0来填充。</p><p>3、异常值:看数据是否处于异常,可以用 3σ原则,PCA,箱线图等等,至于是否要处理也要看建模的目标对于异常值的考虑。</p><p><br/></p>
第三步,数据预处理&sma&<p>主要是对数据进行归一化,标准化,字符型数据转化成数值性数据,包括min-max,z-score, one-hot</p><p><br/></p>
第四步,特征工程&sma&<p>经历了数据的预处理之后,接下去就是进行特征工程了,特征工程顾名思义就是对数据里面的特征进行一个操作,选择后续可以提高模型效果的特征。</p><p><br/></p><p>1、相关性分析,选择一些与目标强相关性的特征</p><p>2、递归法,一开始,可以让所有特征进入模型,之后利用模型选择出来的important_feature得到重要特征,再选择top n的特征(n由自己选择)进入模型训练</p><p>3、还有其他一些方法(后续补充)</p><p><br/></p>
第五步,建立模型&sma&<p>在进行特征工程之后,我们一般会建立2-3个模型,来比较这几个模型在这个任务上哪个模型更好。</p><p><br/></p><p>例如:</p><p>分类模型:KNN、贝叶斯分类、决策树、随机森林、SVM、逻辑回归</p><p>回归模型:简单线性回归、多重线性回归、一元非线性回归、lasso回归、岭回归</p><p>聚类模型:k-means、DBSCAN密度法、层次聚类法。</p><p><br/></p><p>那么一般这些模型大家都可以直接使用sklearn中对应的模型。</p><p><br/></p>
第六步,模型优化&sma&<p>选择好模型之后,对于模型性能的进一步优化也是非常重要的</p><p><br/></p><p>模型的参数优化:网格搜索、随机搜索,选择最优的模型参数</p><p><br/></p><p>k-折交叉验证,避免过拟合</p><p><br/></p><p>模型评价:一般模型评价有准确率(分类模型),或者RMSE,R2(回归模型)等,当然也有F1-score(分类问题里面数据不平衡情况)等。</p><p><br/></p>

商业智能BI资料包

扫码添加「小麦」领取 >>>

商业智能BI资料包

扫码添加「小麦」领取 >>>

新一代商业智能BI工具

覆盖传统BI、自助BI、现代BI不同发展阶段,满足企业数字化转型的多样化需求

让数据成为增长引擎,解锁行业领先的智能BI实践方案!

前往下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号 网站地图

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务