加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码门户网 (https://www.92codes.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

美数详解:DMP系统全生命周期流程与知识结构体系

发布时间:2017-02-25 00:48:51 所属栏目:传媒 来源:站长之家用户
导读:副标题#e# 编者按:本文将用较长篇幅,分上下两篇,从数据收集、数据处理、数据分析与管理、数据应用四大部分,来简要阐述一下构建企业级 DMP 系统的全生命周期流程,以及整理归纳出其中的知识要点。 一、数据收集 基础数据源的收集是做好后期数据分析、管
副标题[/!--empirenews.page--]

编者按:本文将用较长篇幅,分上下两篇,从数据收集、数据处理、数据分析与管理、数据应用四大部分,来简要阐述一下构建企业级 DMP 系统的全生命周期流程,以及整理归纳出其中的知识要点。

一、数据收集

基础数据源的收集是做好后期数据分析、管理和应用的基石。因为如果没有提前做好数据采集,后期想做分析时也没有数据可做;如果数据源本身出了问题,那么后面做的所有工作都是没有意义的;另外,注重数据的采集工作,才能在后期数据使用过程中出现异常情况时,更好的追本溯源。

那么,可以被 DMP 利用的数据源有哪些呢?

1)站内与销售数据

指用户在广告主官网、EDM、电商网站或 APP 中产生的行为数据,往往对应着非常明确的目标用户及其兴趣。例如:站内流量、搜索、浏览、比价、加入购物车、购买、页面停留时间、注册情况、留言等数据。

2)网络行为数据

指记录用户在网页端(PC+Mobile)一切冲浪行为的数据。这类数据的核心是:描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类行为,从而了解受众行为偏好。包括:用户 ID、用户行为、用户设备、IP、URL、地理位置等数据。

这里需要提一下,记录用户在 PC 端行为的是 cookie;而 cookie 技术在移动端并不适用,这时要使用 IMEI(安卓设备)或 IDFA(苹果设备)来标识用户信息。

3)社交数据

指用户在微信、微博、QQ、天涯等社交网络中产生的数据。包括:社交账号数据、受众属性数据(性别、年龄、学历等)、行为兴趣数据等。

4)投放数据

指在(DSP)广告投放过程中产生的数据。如受众定向数据、曝光数据、点击数据、转化数据、创意数据、成本花费数据等,能方便营销者根据实时的反馈数据及时优化调整投放策略和预算配比。

5)第三方数据

指第三方独立数据供应商提供的数据,包括 BAT 数据、运营商数据、高质量媒体数据、第三方监测平台数据、垂直领域平台数据等。

6)线下数据

指企业拥有的 CRM 或市场调研等数据。

以上各类数据对广告效果的意义不尽相同:随着用户主动意图的提升和更靠近转化的行为,相应的数据价值也随之增大。而在实际操作中,营销者不一定要全部接入以上数据,而是应该结合自己的业务、商业目标,和自身实力,在投入可控的范围内整合有效、高价值的数据。

那么,如何进行数据收集呢?

1)加挂代码

是指在网站、网页或者广告展示处等多个阵地埋置一小段 Javascript 代码(一般形式),进而让相应的用户数据实时传送到 DMP 系统中。

2)爬虫获取

是一种按照一定的规则,自动地、高效地抓取到网络上所有公开的、你需要的数据的技术。如美数独家重磅产品 AdVision,可通过爬虫技术,攫取 95% 以上的网络页面,采集线上广告投放数据,如广告内容、投放素材、媒体类型、广告位尺寸、投放时间等;还能对网页、BBS、微博、微信等页面的 UGC 关键字进行抓取,获取相关受众行为偏好数据,然后实时将这些爬虫数据接入到 DMP 中。

3)开放 API 接口

DMP 通常不能作为一个独立、封闭的系统存在,其需要提供丰富、开放的 API 接口。这当然也包括在数据收集端开放接口!这些接口的开放,就意味着第三方数据、线下数据等都可以无缝接入到 DMP 系统中。

二、数据处理

数据收集的过程是把来源于不同渠道的海量数据(跨屏、跨设备、跨线上线下)整合到 DMP 统一的数据库中。但这些基础数据往往是非结构化、非关系型的。因此,为了进一步挖掘这些数据的最大价值和生产力,DMP 就要把这些多源数据,依据统一的数据标准化规范和流程,进行有效的清洗、结构化处理、脱敏保护、打通整合,即数据处理过程。

1)数据清洗

数据清洗,是整个数据分析过程中不可缺少的重要环节,其结果质量直接关系到模型效果和最终结论。数据清洗包括:去除/补全有缺失的数据;去除/修改格式或内容错误的数据;去除/修改逻辑错误的数据;去除有明显错误的无用和重复数据等,最终使“脏”数据变为“干净”数据。

而数据清洗的方法有多种,通常有:人工检查实现、通过专门编写应用程序实现、利用概率统计学原理实现、计算机自动执行算法实现等,这里不一一详解,营销者应该根据相关的业务规则合理选择。

2)数据结构化/标准化处理

是指 DMP 能够提供统一的数据结构化/标准化规范和流程,将来源于不同渠道、不规则的、不同使用方式的、复杂冗长的原始数据,在一致的数据描述下进行整合和关联,进而划分为固定的基本组成要素,可通过一个或多个二维表来表示。经过结构化/标准化的数据具有一定的逻辑性、精确度高、统计方便、操作简单、可迅速建模分析等特点,在需要对大量的用户进行行为分析、用户画像时意义重大。

3)数据脱敏保护

指对某些用户敏感信息或私密性信息,通过脱敏规则进行数据的去隐私化或变形,最终实现数据的可靠保护。常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、密码类、交易日期、交易金额、疾病等。

常见的数据脱敏算法包括但不限于:

*Hiding算法:将数据替换成一个常量。如:500→0;

*Hashing算法:将不定长度的数据映射为定长hash值。如:张三丰→123;李四→456;

*Truncation算法:将数据尾部截断,只保留前半部分。如:010-66666666→010;

*Mask算法:数据长度不变,但只保留部分数据信息。如:13011231555→130****1555;

*Floor算法:数据或是日期取整。如:20170213 12:31:45→20170213

4)数据映射(ID Mapping)

指通过各种技术手段、算法把碎片化、多元化的数据全部串联起来,消除数据孤岛,最终识别这些数据同属于一个用户,提供一个用户的完整信息视图。可以说,没有 ID Mapping,程序化交易就变成了盲目投放,它的实时竞价、精准投放、低成本的优势也就不存在了。

要如何实现 ID Mapping 呢?以美数为例,其作为大数据服务提供商,与运营商、互联网平台紧密合作的基础上,通过一系列算法,将设备号、Wifi、用户账号与 cookie 进行强关联,最终真正实现设备与网络、用户与设备、用户与网络的多对多打通,实现了跨屏、跨线上线下的数据同源。

当然,概率论方法也是一种数据打通的方式。即借鉴多种匿名的数据信号,比如 IP 地址,设备类型,浏览器类别,地域以及操作系统来创建设备之间的统计学意义上的关联。但这种方式准确率比较低。

三、数据分析与管理

数据分析与管理这一步骤是 DMP 系统的核心功能,其能从数据背后获得深刻的“人”的洞察,进而提取并挖掘出真正有用的数据信息指导应用,充分发挥数据的价值。

那么,DMP 是如何对数据进行分析与管理,将数据变成“人”的呢?

1)数据分类是基础

(编辑:源码门户网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读