用QQ空间的实战案例,帮你学会最热门的上瘾模型

互联网大数据时代:虚假流量的认知与识别(下篇)

互联网时代 zhuzhen 评论

在《互联网大数据时代:虚假流量的认知与识别(上篇)》中介绍,虚假流量的识别可从基本属性、产品参与度、转化情况三方面来识别。 首先,基本属性 。具体包括:时间 地域维度、终端类型、操作系统、联网方式、运营商、IP 集中等 其次,产品参与度 。具体包

 
在《互联网大数据时代:虚假流量的认知与识别(上篇)》中介绍,虚假流量的识别可从基本属性、产品参与度、转化情况三方面来识别。
   首先,基本属性。具体包括:时间 & 地域维度、终端类型、操作系统、联网方式、运营商、IP 集中等
   其次,产品参与度。具体包括:跳出率、平均访问深度、平均访问时长、用户行为路径、页面点击情况、流量留存情况、单页面人均访问次数等。
   第三,转化情况。因为很多作弊流量可以模仿人类行为,成功绕过跳出率、平均访问深度和停留时长这些宏观指标,但是要模仿一个业务转化就 比较难了,如果宏观指标表现很好,业务转化很少的话,就需要提高警觉。
 
下面通过一个案例从用户行为数据多维诊断虚假流量。这个案例围绕上述三种A 企业是电商企业,日常会在社会化媒体进行广告投放,在 1 月 8 日线上数据投放的常规检查中发现,近期一家媒体(下 称“M 渠道”)所带来的流量数据异常大。为查明该媒体渠道所带来的流量是否为虚假流量,A企业将M渠道下的用户行为进行多维度细分,进行流量排查。
一. 基本属性初步排查
流量访问通常会分布在一天中的各个时段,伴随平滑的曲线形成访问高峰与低峰。显然虚假流量不具备这一特点,因为人 为 / 机器操作为节省成本不会在意流量的时间分布,难免会在时间曲线上会有流量突增的情况。因此,要找到异常流量发 生的时间点,将时间细化到每小时的访问数据,如果流量过于集中在某个时段,或者在不恰当的时间点出现了流量激增的 情况,这时候就要引起注意了。
1. 时间维度
图1 M 渠道与百度渠道流量对比
通过图 1 看到,百度流量来源呈现平缓变化,从流量时间分布上看,基本符合正常访问情况。与之形成鲜明对比的是, M 渠道全天流量高峰期分别在 2:00、5:00、14:00、15:00。这几个时段内的流量过于集中,而在其他正常时段内,流量几乎为零。 经过内部确认,该阶段并未有活动发生,产生突增的访问高峰十分可疑。
2. 用户访问设备
图2 从设备情况了解 M 渠道用户的操作系统
上文提到在正常情况下,同样用户访问设备应该多元化。在这个案例中,通过上图发现 M 渠道流量设备基本都是 Android 端。 由于 M 渠道未投放,更没有设备限定,增加了虚假流量的可能性。
3. IP 集中
图3 按 IP 查看 Web 浏览页面触发用户数
一般而言,IP 的频繁点击、流量激增都是不正常的。我们通过数据可以看到,图中 IP 带来的流量在2:00、5: 00 和15:00 均有突变,尤其140.205.92.1 表现最明显。经过以上维度诊断,此流量十分可疑,可结合产品参与度进行深度判定。
二. 产品参与度深度判定
1. 跳出率
虚假流量产生高跳出率的时间,通常会和用户访问时间段一致。因此可以结合流量时间等因素进行综合对比。
图4 M 渠道来源流量的跳出率
从图 4 来看,该渠道来的用户跳出率高达98.88%,说明用户通过渠道链接来到网站落地页后,几乎都没有进行进一步 的浏览。
图5 分时段查看 Web 跳出率
通过 M 渠道用户与非 M 渠道用户跳出率情况的对比。我们可以看到,非 M 渠道用户的跳出率变化比较平缓,分布在 80% 上下。而 M 渠道用户跳出率的变化则是分时段网站突然增高的,突增的时段恰好和前面的访问突增时段吻合,比如凌晨 2:00 和 5:00 时段,这部分流量更值得怀疑。
当然,即使 M 渠道流量从跳出率指标上来看表现很好,我们也不能直接定位它一定就是真实的流量,还应该结合访问深度 和访问时长、访问路径等来进行深度分析。
2. 平均访问深度
图 6 平均访问深度判定
从图 6 中我们可以看到,M 渠道用户一次访问平均浏览了 一 个页面,说明大部分的会话都是访问一个页面就退出了,并 没有进行后续页面浏览。
3. 平均访问时长
如图 7,M 渠道用户平均在网站停留的时长 6.2s。6s 的时间,可能大部分用户是在网站都浏览 1-2 个页面就退出,并无 明显的交互行为。为了验证该猜想,可以看图 8 的用户路径分析。
图 7 M 渠道用户的平均访问时长分析
4. 用户行为路径
图8 M 渠道用户行为路径
 图9 用户行为路径“页面访问”的节点信息
在这个案例中,图 9 是 M 渠道用户的前 4 次访问的分布情况,可以发现,大部分用户是先进行的首页面访问 -> 退出。 通过节点信息查看,还可以发现,在页面访问后,99.08% 的用户无后续动作。
图10 抽样 M 渠道 30 个用户,其中 29 个用户的行为路径
图11  抽样 M 渠道 30 个用户,唯一用户的行为路径
在 M 渠道的用户群体中,随机抽取了 30 个用户,发现其中 29 个用户为上图情况,这批用户具有相同的行为序列,来到落 地页后均无后续动作而退出。 针对唯一有后续行为的用户,通过行为序列分析发现,用户行为多次浏览落地页,但浏览动作重复,隔一段时间进行一次 落地页访问,行为也有重复。因此 M 渠道用户的行为路径存在太强的规律性,是有迹可循的,进一步证实了是虚假流量。 ( 备注 : 一个循环单元中的两个动作间隔极短,不到 1s,应该这两个事件是一次浏览落地页而触发的神策预置采集的 Web 浏览事件和自定义事件页面访问,其实只是一个浏览落地页的动作 )。
三. 转化情况终极确认
目前有些作弊流量可以模仿人类行为,绕过跳出率、平均访问深度和停留时长这些宏观指标,但是要模仿一个业务转化就 比较难了,如果宏观指标表现很好,业务转化很少的话,就需要提高警觉。 根据实际业务流程,我们定义“提交订单”是核心转化。我们设置核心转化漏斗步骤如下 :
图12 设置核心转化漏斗流程
图13 M 渠道用户与非 M 渠道用户核心转化对比
通过漏斗分析对比,可以看到 M 渠道用户完成核心转化的用户数为 0。在漏斗转化中,我们发现当用户访问页面访问后, 并没有用户去点击核心按钮“提交订单”,更是没有有效点击的用户。M 渠道虽然给平台带来了很大流量,但是核心转化的 人数为 0,对于我们核心业务并无帮助。再结合用户在网站中的参与度与行为分析,该流量符合我们判断虚假流量的常见 特征。
通过神策分析平台进行的上述分析,我们通过对 M 渠道流量产生的时间、流量的用户终端、流量的跳出率、退出率、平均 访问时长、平均访问深度、用户路径以及流量的核心转化等方面进行分析,可以发现,该批流量在流量分布上呈现不自然性、 过于规律的特点,基本判断 M 渠道产生的流量为虚假流量。
总结
面对虚假流量我们应该做什么?数据分析是识别虚假流量的重要方式之一。除此之外,一些企业也尝试通过逻辑判断设定相应机制,来辅助识别虚假流量。 例如一家企业在 APPStore版本更新时,如果发版的第二天新增用户为老版本,那么这部分群体将自动被判定为疑似虚假 流量,并对其屏蔽相关功能,如默认福利、私信等,当然还会提供用户申诉解封的途径,以防误判。
无论通过哪种方式,虚假流量都被证明为并非无迹可寻。其中数据分析是识别虚假流量相对直接且简单的识别途径,为广 告主为提升数字营销运营能力。这要求企业主:
一方面,要掌握可靠的衡量数据。依据对数据分析工具的熟稔应用以及监 测执行经验,企业应与能够实现多维数据分析平台进行合作,神策数据帮助企业对疑似流量进行精细维度的排查,辅助网 络投放环境的净化;
另一方面,广告主应不断优化运营模式与改善运营状况,虚假流量的监测与识别并非高度依靠技术能力, 广告主在理解虚假流量特征后,可通过基础数据分析专业知识,评估数字广告投放效果,不断优化投放渠道。
 
 
喜欢 (0) or 分享 (0)