智能体数据决策分析平台

SmartBI 白泽

一站式ABI平台

SmartBI Insight

智慧数据运营平台

SmartBI Eagle

电子表格软件

SmartBI Spreadsheet

联系我们: 400-878-3819

白泽V5：让智能体接手复杂分析与决策任务 >

可信底座

智能体引擎

分析能力

结果交付

了解一站式ABI平台解决方案 >

数据管理

数据分析

了解智慧数据运营平台解决方案 >

了解电子表格软件解决方案 >

行业解决方案

覆盖金融、制造、医疗、政府、零售等主流行业

联系我们: 400-878-3819

教育行业 >

高校数据中心与应用方案

一网通办推广方案

高校质量实时监测大数据平台

研究生教学大数据服务平台

其他行业

智慧园区大数据解决方案

交通运输业大数据解决方案

水泥行业大数据解决方案

智慧水务大数据解决方案

金融

银行AI智能问数方案NEW

证券AI智能问数方案NEW

银行数字化方案

智慧数据运营平台

能源行业

电力大数据解决方案

燃气大数据解决方案

医疗行业 >NEW

运营管理决策平台

公立医院绩效考核指标监控平台

等级评审指标监控平台

医院智慧审计平台

信创生态

信创ABI产品NEW

资源中心

你身边的数智化智库，汇集了各行各业的数智化解决方案、行业实践经验、趋势洞察和行业洞见等。

进入资源中心 >

联系我们: 400-878-3819

精选资料 >

《医疗行业解决方案集锦》

《制造业数字化人力资源管理方案》

《2024中国制造业智能BI解决方案与案例》NEW

《医院分析指标体系建设白皮书》

《制造行业智能BI最佳实践合集》

《中国银行业商业智能平台数据运营实践与案例》

《制造企业数字化经营管理平台建设方案》

《以指标为中心的ABI平台重塑企业数字化经营白皮书》HOT

智能指南

融合最前沿AI技术与BI能力，结合行业Know-How打造全新一代智能BIHOT

如何让AIGC跟企业的战略能够匹配，能够对齐？HOT

企业有了BI，为什么还需要以指标为核心的ABI平台？

指标体系是重塑企业数字化经营能力的关键！

有了AI大模型加持，企业如何更有效地借助BI释放数据价值？

AI + BI数智融合，如何驱动企业数智化转型发展？

管理驾驶舱成摆设？以指标为核心的ABI平台如何激活核心数据？

如何有效运营数据以驱动业务发展与决策？

服务与支持

思迈特软件提供多种自动和人工服务方式，为您的产品使用和项目保驾护航

投诉热线：199-2645-9486

投诉邮箱：complain@smartbi.com.cn

售前热线

400-878-3819转1

邮箱咨询

sales@smartbi.com.cn

IM即时通讯

即时通讯实时沟通

技术工单

5 × 8 小时在线提供服务

售后热线

400-878-3819转2

邮箱支持

support@smartbi.com.cn

新手入门

产品安全

了解思迈特软件

思迈特软件致力于为客户提供基于AI Agent的增强分析平台和解决方案，成为数据领域AIGC领导者，让数据为客户创造价值，助力企业数智化运营。

联系我们: 400-878-3819

企业概况

思迈特介绍

合作客户

荣誉资质

可信生态

企业文化

联系我们

品牌资讯

企业新闻

行业资讯

近期活动

媒体报道

招纳贤士

校园招聘

社会招聘

生态合作

合作伙伴招募计划

交付伙伴招募计划HOT

申请试用

400-878-3819

在线体验

白泽 AgentBI

一站式ABI平台

电子表格软件

申请试用

白泽 AgentBI

一站式ABI平台

电子表格软件

首页 > 知识百科 > 思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

2021-04-07 11:01:05 | SmartBI知识百科 6726

截至2020年12月，我国手机网民规模达9.86亿。移动互联网时代，个人信息和用户数据成为重要的商业资源。一些企业和个人为牟取经济利益，导致垃圾短信频发，让人们不胜其扰。保护私生活安宁已经成为一项迫切需要解决的社会问题。

垃圾短信

垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息，或用户不能根据自己的意愿拒绝接收的短信息，主要包含以下属性：（一）未经用户同意向用户发送的商业类、广告类等短信息；（二）其他违反行业自律性规范的短信息。

垃圾短信泛滥，已经严重影响到人们正常生活、运营商形象乃至社会稳定。如伪基站可以给三公里内10万手机发信。现用户可以使用手机管家进行拦截此类短信。

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

用户迫切的需要一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别，以完善用户的通讯环境，为有关部门提供有效依据，维护运营商利益。数据挖掘平台Smartbi也不甘示弱，为了能尽快解决垃圾短信的问题，Smartbi利用Smartbi Mining进行建模，使用随机森林文本分类算法建立合理的短信识别模型，对垃圾短信进行识别，解决运营商和手机用户的困扰。

Smartbi mining数据挖掘平台将操作分为四个步骤：

1. 数据获取，获取所需数据集；

2. 数据预处理，对数据进行文本中文分词、停用词过滤处理等；

3. 模型构建与评价，构建随机森林模型，并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。

4. 分析结果，总结和建议。

1数据获取

目前，某运营商已经积累了大量的垃圾短信数据。经过加工处理数据如图3-2所示。本案例收集了295755条短信文本数据，字段说明见表3-1。

表3-1 字段说明

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

图3-2 数据集

为了方便识别字段含义，这里接入一个元数据编辑节点取别名，如图3-3所示。

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

图3-3 元数据编辑

2 数据预处理

2.1、分词

中文分词是指将一整段文字切分为具有最小语义的词条信息，即以词作为基本单元，使用计算机自动对中文文本进行词语的切分，将文本数据转化为机器可识别的形式。英文单词之间是由空格作为分界符的，中文则是由字为基本书写单位，词语之间没有明显的区分符，因此，中文分词是中文信息处理的基础与关键。分词结果的准确性，对后续文本挖掘有着重要影响。如在进行特征的选择时，不同的分词效果将影响词语在文本中的重要性，从而影响特征的选择。

这里接入一个分词节点将text列进行分词，_c2_seg为分词后的字符串型结果，_c2_seg_words为分词后的WrappedArray类型结果，分词输出结果如图3-4所示。

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

图3-4 分词

2.2、停用词处理

中文表达中常常包含许多功能性词语，相比于其它词汇，功能性词语并没有太多的实际含义。最常用的功能性词语是限定词，如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达。在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。

我们选择_c2_seg_words列，接入一个停用词处理节点，自定义停用词列表，如图3-5所示，输出结果如图3-6所示。

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

图3-5 停用词列表

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰

图3-6 停用词处理

2.3、TF-IDF

由于文本数据无法直接用于建模，因此需要将文本表示成计算机能够直接处理的形式，即文本数字化。TF-IDF算法即将文本数据进行数值化。TF意思是词频，IDF意思是逆文本频率指数，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高，说明该词越重要。

我们接入TF-IDF算法进行抽取变换，输出结果如图3-6所示。

思迈特软件大数据建模案例：Smartbi解决垃圾短信带来的困扰