数据挖掘工程师从数据挖掘技术角度分析用户画像

Smartbi大数据分析平台

功能覆盖数据分析全流程,一站式平台,产品功能可组合!

申请试用

Smartbi大数据分析平台

功能覆盖数据分析全流程,一站式平台,产品功能可组合! 申请试用

数据挖掘工程师从数据挖掘技术角度分析用户画像

从招聘网站上来看,数据挖掘工程师普遍薪资都一万薪资以上,除了个人主观因素以外,专业技能要求掌握py语言和熟练运用各种常用算法以及熟悉常用机器学习模型和算法框架这些常规要求。现在的企业对于数据挖掘工程师又多了数据分析、用户画像、机器学习的要求,我就从数据挖掘技术角度讲讲对用户画像的一些个人理解。


数据挖掘师招聘.png

 

首先,在讲用户画像之前,我们需要了解什么是用户画像以及我们为什么要去做用户画像

1、从数据挖掘技术来讲什么是用户画像 

用户画像简单地说是刻画用户的一组标签的集合,包括用户的基本属性标签,例如年龄、性别、职业、收入等;兴趣偏好标签,例如喜欢游戏,美食、社交等,用户已安装的APP列表,例如微信、微博、知乎、今日头条等。以及地理位置标签,例如用户的常住地、GPS定位地址等。这些标签集合可以抽象出用户的大致轮廓,对于我们后续的精准营销和用户分析,是非常有帮助的。


5+标签.png

 

2、从数据挖掘技术来讲用户画像的作用是什么

用户画像可以用于广告精准投放、个性化推荐、用户分析以及智能搜索等方面,提升用户体验与ROI。简单地说,用户画像让我们掌握用户的基本特点,并能根据用户画像特点进行有针对性的营销推荐。

 

3、如何通过数据挖掘的方法做出比较准确的用户画像

既然用户画像是一组标签的集合,那么数据挖掘的重点就是要提取有效标签用于准确描绘用户,可以挖掘的具体标签维度大致可以分为用户的基本属性标签、用户兴趣标签、地理位置标签等几个方面。

 

用户的基本属性标签一般来说是相对固定的,一段时间内是保持不变的,例如性别、年龄、职业等;

 

用户的兴趣标签一般是根据用户的行为来提取,例如用户经常点击某种视频或者某款产品,我们可以对用户打上对应的兴趣标签,但兴趣标签一般是有时效性的,用户的行为时间间隔越长,兴趣标签的有效性越低,所以通常我们对兴趣标签会加上行为权重和衰减因子等加以控制。

 

地理位置标签主要是通过用户上网请求ip、上网时间以及使用时长等对用户所处物理地址进行判断,例如是用户家的地址,公司地址,还是其他地址等。每种标签都可以使用不同的方法进行挖掘和处理。

 

从目前使用数据挖掘得到标签的方法来说通常包括对数据进行统计分析,例如对各项标签进行组合或者重新计算。利用自然语言处理(NLP)技术对标签进行加工和处理,例如使用TF-IDF、TextRank等技术进行词频统计,进而加工得到可用标签。还可以使用机器学习的方法对标签进行预测,常用的模型算法包括LR、SVM、GBDT、XGBoost等。具体就是通过已有的部分真实标签,例如性别,对缺失标签的样本进行模型训练和预测,得到预测标签后再进行标签验证。当然也可以使用无监督学习的方法对标签进行预测,具体做法就不再展开。

 

从目的来说用户画像是为了根据客户的个性化特点、异质化需求来将客户分类,以提供针对性的产品和服务,目前已大量应用于电子商务,电信行业,广告等行业。

 

用户行为数据在不同行业有着不同的表现形式。例如在电子商务领域,用户行为数据主要为用户浏览、购买行为,可以以“项集-频次”的矩阵进行简单的表示和存储;也可以加上时间戳信息,生成与时间相关的事务序列。

 

在金融领域,时间戳信息对于用户行为的理解和解释尤为重要。同一时间戳代表了多维度潜在市场环境信息,这是驱动用户行为的一个重要因素。例如,仅记录某些用户购买了某股票,和详细记录某时间戳某些用户购买了某股票,后者数据更具有分析价值。因此,金融行业的客户行为数据,常常以时间序列的方式表示。其中,银行业常见的客户行为数据包括客户消费记录,理财记录,工资收入记录,资金进出流水记录,贷款信息等;证券行业常见的客户行为数据包括客户成交数据、报单撤单数据、持仓数据等等。

 

数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的理论和技术融合在一起。数据挖掘的主要方法概括为:预测模型方法、数据分割方法、关联分析法和偏离分析法。解决实际问题时,将已知的数据库蕴含的复杂信息转换成数学的语言,建立数学模型,运用相应的处理方法结果会更加有效。

 

数据挖掘的主要方法.png 

 

而对于用户画像的数据挖掘主要是用到关联分析法。

关联分析法是寻找数据间的关联,但从大数据集中寻找关联可能会导致效率降低,找到的关联也可能毫无意义。在用户画像的数据挖掘中,找到关联的标签,对标签的统计。在研究过程中存在“支持度”和“置信度”,“支持度”可以有根据地将那些毫无意义的数据删除,而“置信度”可以衡量设置规则的可能性。对于用户画像的数据挖掘,“支持度”可以把一些不相关的数据剔除,关联分析法的主要算法有Apriori算法、DHP算法和DIC算法等。

   

Chen等在现有的分析方法基础上,积累了海量的数据,利用数据挖掘技术,提出了一种新的算法,即通过关联分析法建立相关模式挖掘方法,借助多种新型优化技术,可以有效且高效地减少搜索空间。此外,将该算法应用于现实世界的数据集中,展示了相关模式挖掘的实用性。

 

除了明白数据挖掘的底层逻辑,数据挖掘工程师还需要熟练掌握数据挖掘工具,就拿Smartbi数据挖掘工具来讲一下:

Smartbi数据挖掘工具功能十分强大,有数据源、目标源、已训练模型、数据预处理、特征工程、统计分析、评分卡分析、文本分析、机器学习、脚本模块、自定义模块以及服务功能。



Smartbi数据挖掘工具.png 

 

熟练掌握Smartbi数据挖掘工具,对于提高数据挖掘效率有很大的提升,很多数据可以直接通过工具就能得到结果。

 

 

总结:

在大数据时代下,当运用传统的数学方法遇到困难时,熟练地应用数据挖掘技术显得格外重要。在解决实际问题时,难免会涉及隐私的数据,比如在对用户画像进行数据挖掘时,对于一些不想为人所知的信息如何避免,在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏处理,将成为人们研究数据挖掘的另一个重要方面。


申请试用


试用申请

更聪明的大数据分析软件,快速挖掘企业数据价值!

新一代商业智能BI工具

Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

sales邮箱

商务咨询请联系邮箱

邮箱地址:sales@smartbi.com.cn