Get这些数据清洗小技巧,快速提高你的数据质量!

文 | Smartbi大数据百科 2021-04-27 阅读次数:8255 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据清洗怎么做(一):准备工作

    拿到数据表之后,先做这些准备工作,方便之后的数据清洗。

    1. 给每一个sheet页命名,方便寻找

    2. 给每一个工作表加一列行号,方便后面改为原顺序

    3. 检验每一列的格式,做到每一列格式统一

    4. 做数据源备份,防止处理错误需要参考原数据

    5. 删除不必要的空行、空列


    数据清洗怎么做(二):统一数值口径

    这是个无聊而必要的步骤。例如我们统计销售任务指标,有时用合同金额有时用回款金额,口径经常不统一。统计起来就很麻烦。所以将不规范的数值改为规范这一步不可或缺。


    数据清洗怎么做(三):删掉多余的空格

    原始数据中如果夹杂着大量的空格,可能会在我们筛选数据或统计时带来一定麻烦。如何去掉多余的空格,仅在字符间保留一个空格?

    1. 手动删除。如果只有三五个空格,这可能是最快的方式。

    2. 函数法

    在做数据清洗时,经常需要去除数据两端的空格,那么TRIM、LTRIM、RTRIM这3个函数就可以帮到你啦~

    TRIM函数:主要是用来去除单元格内容前后的空格,但不会去除字符之间的空格。表达式:=TRIM(文本)


    数据清洗怎么做(四):字段去重

    强烈建议把去重放在去除空格之后,因为多个空格导致工具认为“顾纳”和“顾 纳”不是一个人,去重失败。

    按照“数据”-“删除重复项”-选择重复列步骤执行即可。(单选一列表示此列数据重复即删除,多选表示多个字段都重复才删除。)


    数据清洗怎么做(五):填补缺失值

    由于人工录入或者数据爬虫等多方面的原因,会出现缺失值的情况,这就需要我们寻找漏网之“数据”,填充空缺值。

    如何统计有多少缺失值?先看ID唯一列有多少行数据,参考excel右下角的计数功能,对比就可以知道其他列缺失了多少数据。

    如何定位到所有缺失值?Ctrl+G,选择定位条件,然后选择空值。

    缺失值的处理方法:

    1. 人工补全。适合数据量少的情况。

    2. 删除。适用于样本较大的情况,样本较小时,可能会影响最终的分析结果 。

    3. 根据数据的分布情况,可以采用均值、中位数、或者众数进行数据填充。数据均匀,均值法填充;数据分布倾斜,中位数填充。


    数据清洗怎么做(六): 用模型计算值来代替缺失值

    回归:基于完整的数据集,建立回归方程。将已知属性值代入方程来估计未知属性值,以估计值来进行空值得填充。

    极大似然估计:基于缺失类型为随机缺失得条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对缺失数据进行极大似然估计。


    数据清洗怎么做(七):插补法

    随机插补法:从总体中随机抽取某几个样本代替缺失样本。

    多重填补法:包含m个插补值的向量代替每一个缺失值的过程,要求m大于等于20。m个完整数据集合能从插补向量中创建。


    数据清洗怎么做(八):异常值处理

    异常值:指一组测定值中与平均值的偏差超过两倍标准差的测定值。

    对异常值处理,需要具体情况具体分析,一般而言,异常值的处理方法常用有以下3种:

    1. 不处理

    2.用平均值替代:利用平均值来代替异常值,损失信息小,简单高效。

     

    视为缺失值:将异常值视为缺失值来处理,采用处理缺失值的方法来处理异常值。


    数据清洗怎么做(九):拆分单元格

    按照以下步骤对合并单元格进行拆分并填充:

    1. 点击取消合并单元格

    2. 空白单元格定位:点击定位-选择空白

    3. 写上=上个单元格

    4. Ctrl+Enter


    数据清洗怎么做(十):分组计算

    通过VLOOKUP函数将字段合在一起用于计算。

    VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)


申请试用 了解更多
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

sales邮箱

商务咨询请联系邮箱

邮箱地址:sales@smartbi.com.cn