思迈特软件大数据建模案例:Smartbi解决垃圾短信带来的困扰

Smartbi大数据分析平台

功能覆盖数据分析全流程,一站式平台,产品功能可组合!

申请试用

Smartbi大数据分析平台

功能覆盖数据分析全流程,一站式平台,产品功能可组合! 申请试用

思迈特软件大数据建模案例:Smartbi解决垃圾短信带来的困扰

截至2020年12月,我国手机网民规模达9.86亿。移动互联网时代,个人信息和用户数据成为重要的商业资源。一些企业和个人为牟取经济利益,导致垃圾短信频发,让人们不胜其扰。保护私生活安宁已经成为一项迫切需要解决的社会问题。

1.png

垃圾短信

垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,主要包含以下属性:(一)未经用户同意向用户发送的商业类、广告类等短信息; (二)其他违反行业自律性规范的短信息。

垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。如伪基站可以给三公里内10万手机发信。现用户可以使用手机管家进行拦截此类短信。

2.png

用户迫切的需要一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别,以完善用户的通讯环境,为有关部门提供有效依据,维护运营商利益。数据挖掘平台Smartbi也不甘示弱,为了能尽快解决垃圾短信的问题,Smartbi利用Smartbi Mining进行建模,使用随机森林文本分类算法建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户的困扰。

 

Smartbi mining数据挖掘平台将操作分为四个步骤:

1. 数据获取,获取所需数据集;

2. 数据预处理,对数据进行文本中文分词、停用词过滤处理等;

3. 模型构建与评价,构建随机森林模型,并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。

4. 分析结果,总结和建议。

 

1数据获取

 

目前,某运营商已经积累了大量的垃圾短信数据。经过加工处理数据如图3-2所示。本案例收集了295755条短信文本数据,字段说明见表3-1。

3-1 字段说明

 3.png

 

 

4.png 

3-2 数据集

 

为了方便识别字段含义,这里接入一个元数据编辑节点取别名,如图3-3所示。

5.png 

3-3 元数据编辑

 

2 数据预处理

 

2.1、分词

中文分词是指将一整段文字切分为具有最小语义的词条信息,即以词作为基本单元,使用计算机自动对中文文本进行词语的切分,将文本数据转化为机器可识别的形式。英文单词之间是由空格作为分界符的,中文则是由字为基本书写单位,词语之间没有明显的区分符,因此,中文分词是中文信息处理的基础与关键。分词结果的准确性,对后续文本挖掘有着重要影响。如在进行特征的选择时,不同的分词效果将影响词语在文本中的重要性,从而影响特征的选择。

这里接入一个分词节点将text列进行分词,_c2_seg为分词后的字符串型结果,_c2_seg_words为分词后的WrappedArray类型结果,分词输出结果如图3-4所示。

6.png 

3-4 分词

2.2、停用词处理

中文表达中常常包含许多功能性词语,相比于其它词汇,功能性词语并没有太多的实际含义。最常用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。

我们选择_c2_seg_words列,接入一个停用词处理节点,自定义停用词列表,如图3-5所示,输出结果如图3-6所示。

7.png 

3-5 停用词列表

8.png 

3-6 停用词处理

2.3、TF-IDF

由于文本数据无法直接用于建模,因此需要将文本表示成计算机能够直接处理的形式,即文本数字化。TF-IDF算法即将文本数据进行数值化。TF意思是词频,IDF意思是逆文本频率指数,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高,说明该词越重要。

我们接入TF-IDF算法进行抽取变换,输出结果如图3-6所示。

9.png 

3-6 TF-IDF

整个的数据预处理流程图如图3-7所示。

 10.png

3-7 数据预处理

 

3 构建模型

 

本案例采用随机森林算法模型,通过特征选择_c2_seg_words_filtered_idf列,目标标签为target,整体模型训练预测如图3-8所示。

11.png

3-8 构建模型

随机森林参数配置如图3-9所示。

12.png

3-9 参数配置

4 模型评价

 

通过评估节点接入,如图3-8所示,评估结果如图3-10所示。

13.png 

14.png 

分析结果得出F1分数达到0.91,说明该模型效果比较不错的。

该模型能较好地识别出垃圾短信,有效进行垃圾短信过滤,解决运营商及用户的困扰。

 

Smartbi数据挖掘平台这个案例运用短信数据,对垃圾短信进行识别。主要实现了垃圾短信的精确识别,通过获得以上挖掘结果,为相关运营商提供一种解决垃圾短信过滤问题的方案。


申请试用


试用申请

更聪明的大数据分析软件,快速挖掘企业数据价值!

新一代商业智能BI工具

Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

sales邮箱

商务咨询请联系邮箱

邮箱地址:sales@smartbi.com.cn