数据拉通的概念及方法

文 | Smartbi大数据百科 2021-05-20 阅读次数:7120 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据拉通的概念

    所谓广义的数据拉通是指按照一定的线索或口径,采取相应的方法,打破数据壁垒、消除数据隔阂,将原本分散的数据基于一定业务逻辑统一汇聚和拼接起来。简单一句话就是将分散的数据统一汇聚和拼接起来,这里数据对应的实体范围比较宽泛,既包括某种设备,也包括用户和某个物品等。

    狭义的数据拉通则是指将原本分散的用户数据统一汇聚和拼接起来,形成完整的用户信息视图的过程。狭义的数据拉通所指的实体一般仅限于用户。

    数据拉通的方法

    1.强ID直接拉通

    对用户出现在不同触点下的ID进行关联,可形成一个用户的统一ID视图,进而得到一个全局性的Super_ID,以标识一个唯一的用户,并由此建立Super_ID与其它ID的相互映射关系。这种直接通过强ID实现数据拉通的方式对技术要求并不高,在了解清楚各数据源的字段结构后,一般只需要做数据源的清洗、去重和关联即可将其打通。

    2.第三方借力拉通

    在某些情况下,光靠企业自身的数据是很难实现数据拉通的。例如,品牌主投放了大量的媒体广告,产生了曝光和点击数据,这些数据通过设备ID来标识用户。在广告投放的同时,品牌主在天猫、京东等电商平台上收到了大量的订单。品牌主可以从合作的媒体渠道那里得到广告内容与广告位、曝光和点击的数据,但是如果想进一步知晓哪些手机号码的用户在何种电商平台产生了订单,则还需要借助第三方电商平台的数据才可获得。品牌主一般不能同时具备设备ID和手机号的关联关系,这种情况下想要拉通数据只能借助第三方的数据能力

    3.基于行为关联度的ID-Mapping

    在没有充足的Mapping预算、第一方数据源只能拉通一定比例的ID且存在大量数据无法打通的情况下,可以考虑采用ID-Mapping的方式作为补充解决方案。

    基于行为关联度的ID-Mapping的基本原理是根据机器学习模型预测两个或多个ID之间的关联概率,关联概率较高的ID则可默认其对应一个用户、生成一个Super_ID,这样就能把关联概率较高的ID下的数据进行拼接打通。

    4.基于用户兴趣的聚类与合并

    “物以类聚,人以群分”,基于用户兴趣可以做相似用户的聚类和合并。例如:基于用户的上网时间偏好、网址访问偏好、点击行为特征、浏览行为偏好、APP使用偏好、社交账号偏好等,为每个用户提取上千个特征之后,进行相似用户的聚类。聚类中选择类中心附近的用户,再加上一些辅助准备进行判定,就可以把用户合并起来。

申请试用 了解更多

文章目录

数据拉通的概念 数据拉通的方法

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号 网站地图

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务