1、那些虚无的网事,是我的无奈。中国网络营销灰色的现实,创造了一个复杂的、完善的、利润丰厚且底蕴深厚的人工流量产业链,而这个产业链对于我所服务的客户,我所从事的产业都有着非常消极的影响。这是一个“劣币驱逐良币”法则的世界,潜规则将真正具有说服力的东西逐出眼界之外,“乱花渐欲迷人眼”的结果是“假作真时真亦假,无为有处有还无”,到了你不做点儿什么就无法生存的地步,着实可悲。我今天想跟大家分享的,正是想透过那些怪异的事实,跟大家一起集思广益发现真像。下面我将列举我所见到的种种怪现象,以及我认为背后可能的原因。不过,我的眼界有限,对这个灰色世界的了解还只是一星半点,如果我的朋友您在看完某些怪现象后告诉我你
2、觉得的真正原因,将是我最想获得的知识,不胜感谢! 流量爆炸流量包括网站流量和广告的流量。我们用 UV,visit 和 PV 来衡量网站的流量,用 impression 和 click 来衡量广告的流量。无论哪种衡量,总之是多多益善,“量多不压身”,总能骗骗洋大傻 Alexa 嘛,总能忽悠忽悠广告主嘛。所以,当我忽然发现我的一个广告在一个多小时的时间内突然发生了流量爆炸,我竟然没有惊诧。图 1:上图是一个小时前的流量,下图是一个多小时后的表现,我模糊了一些敏感信息(后同)从图中可以看到,仅仅一个多小时(请注意上下两个表表头的时间),这个媒体总的广告流量,尤其是 impression,被放大了 n
3、 倍。由于一个小时前,impression 数字离奇 (或者更准确的是 click 数字离奇,因为太大了) ,一开始 CTR 高的让人难以置信。随着我们对相关站点的警告,impression 的毛病一个小时内就解决了。真是叹为观止。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处光看数据,这简直是不可能发生的事情。我从来不关注 impression 会变得多么巨大,因为影响这个度量的因素太多了,要知道 QQ 客户端在一天可以给你的广告贡献 1、2 亿个 impressions!随便一个热门游戏的 BBS 给你带来几百万一天的 impression 也见多不怪了。但
4、是,你却绝对不能无视 click 这个值的大小和变化,比如下面这个图,这是一个连续投放在某个网站上的广告的时分点击量:图 2:流量爆炸指短时间的流量激增,一如超新星爆发(注意 14 点和 18 点的click)如果不是统计工具出了问题或是服务器成了有自我意识的 WallE,这样的流量趋势是不大可能发生的。14:00 和 18:00 的 booming 是个不能用常规思维解释的事实。我只想说,如果真的要用人工的手段来做点儿什么的话,拜托,给点专业精神好不好!讲到这里我有一个问题,AdSense(AdWords)是否会屏蔽掉这样的不正常流量? Unique 是个好东西有一天,当 Tenly 在研究
5、某个投放在某个媒体上的转换率 ( Conversion Rate,指 click 为目标网站带来的 visit 的数量的比例, conversion rate 等于 20%,意味着 100 个 click 为网站带来了 23 个 visit,其他的 click 都在页面真正被打开前就关闭了浏览器) 的时候,发现转换率低于 5%。一般而言,conversion rate 在 30%80%的范围都应该是合理的,毕竟不同的广告形式带来的误点击量是不同的。但 5%则不可接受,这说明要么是 click,要么是 visit的数据出了问题。Tenly 先从 click 入手,然后立即就发现了问题。他的方法很
6、简单,直接查看 Unique Click。Unqie Click 和 Unique Visitor 是很类似的度量,假如一段时间内 (这个时间根据不同的监测软件会略有不同,但监测原理都是完全一样的) 你用同一个电脑上的同一个浏览器反复点击同一个广告,那么 click 数值会不断增加,但 unique click 则不会。click / unique click 的数值越大,说明一个广告被反复点击的次数就越多。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处大多数人不会在一个广告上点多次,只有少部分人过于无聊才会这么干,不过不会造成什么整体影响。但是当我们看到这个网
7、站的 click / unique click 的时候,我们大吃一惊,比例竟然高达 11 倍多。这就意味着,平均每个在这个网站点击了相关广告的人,会连续点击 10 次以上!而其他的网站则都很正常。如果是你,你会得出什么样的结论?图 3:无法相信高达 11 倍的 click/unique click 值如果用 click 来计算 CTR(点击率),CTR=2.11%,非常高。而用 unique click 来计算 CTR,则是 0.19%,回归到一个正常的值。所以我认为 unique click 才大致是“真人”的点击量。Unique 真的是个好东西。但是现在也不好用了,原因就是,现在的“网站优
8、化”技术,早已经越过了这一步,这样的低级错误已经很难看到了。所以当我这几天看到这个案例的时候,我才会觉得如此有趣。 千万别轻信 CTR 能大于 1%!很多朋友问我 CTR 大概多少比较正常。我没有答案。可以说我遇到的大部分 CTR 都出奇的好,往往超过 0.5%,甚至高于 1%。可是,如果我冒天下之大不韪说出我认为的真像或许您会不信:中国绝大多数普通的网络广告(SEM 除外)的真实 CTR 能有万分之五(0.05%)就不错了,而那些内容庞杂的门户网站的 CTR则可能更低。但我们看到最终统计软件的数值却永远远高于这个数。所以当你问我什么是正常值,我真的没有答案,答案的准确性依赖于你想知道真像的诚
9、意。不管怎样,过于大的 CTR 还是值得警惕的,尤其是在 impression 普遍爆炸的今天,这意味着 click 值得相应的被放得更大。如果 CTR1%,则表明每 100个看到你的广告的人会至少有一个点击你的广告,这个比例太高了,不信你可以立即在你的办公室内展开现场的 survey(调查)研究。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处有些形式夸张的广告,比如忽然全屏弹出而且加上了一个假的“X”(关闭)标记的广告,或者是 nude(赤裸美女)之类的欺骗广告会赢得极高的点击率,甚至 CTR 能超过 50%,但这样的“靐广告”我相信你不会使用,这等同于 cl
10、ick fraud(点击欺诈)。如果你的广告是正常的 Leaderboard,PIP, Skyscraper或是 Textlink,而且内容也正常(文字和图片不是过于“挑衅”或“挑性”),请你相信大致真实的 CTR 范围: 第一屏 leaderboard: 0%0.1% PIP 和 skyscraper: 0%0.05% Textlinik: 0%0.02% 如果是 SEM,可能会高于 0.5%,毕竟 SEM 是比较细分的广告投放形式,但高于 1%我就有些担心了 是不是真的比你想象的小?当然,上面的数值可能非常武断,毕竟广告投放的点击情况和网站与广告的匹配度有关。但是,相信我,不管内容多么匹配
11、,1%以上的点击率一定值得展开深入的调查。 孤立无援的 Action Rate看到这个小标题,你可能会有点儿奇怪。Bounce Rate 我们常见了,而Action Rate 是什么呢?Action Rate 不是一个标准度量,但在我的工作中,我已经把它标准化了,用于衡量网页上真正有意义的点击行为。我对 action rate 的定义是:Action Rate =subpage visit / landing page visit,可以简单的理解为:从登陆页进入下一级页面的访问量占所有登陆页访问量的比。在这个定义下,action rate 越高,意味着有越多的访问在进入 landing pag
12、e之后会点击其上的链接进入更多的其他页面,也就意味着 landing page 越有效。你会说为什么需要 action rate 这样一个度量?衡量 landing page 的有效性用 bounce rate 不就行了?而且很明显,根据 Sidney 你的这个定义,如果action rate 高,那么 bounce rate 应该肯定会比较低。没错,这就是我一开始的想法。直到有一天我发现了一个其后我不断发现的“怪事情”。这个“怪事情”的发现是从一个过低的 bounce rate 开始的。一般情况下,商业性的网站(比如宣传产品,促销之类)的 bounce rate 会比较高,能够低于 70%其
13、实很不常见,因此当我发现一个大概只有 40%的 bounce rate 的类似网站的时候,我非常惊诧。紧接着,我看到这个网站 PV / V 有超过 2 的趋势,而 time on site 则是不可思议的 205 秒绝对是相当耀眼的成绩。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处起初我认为这个网站确实拥有与众不同的好的设计和访问者质量,但是当我在 Google Analytics 中查看 Top Content 中首页的 Navigation Summary 报告的时候,我开始发现我最初的判断完全错了。图 4:能看出来吗?首页存在大量的重复刷新,而真正的内容
14、无人问津能在这张图中看出点儿什么来吗?红色粗线框内的两个页面是完全一样的名称,实际上就是首页(/sales/?ad=1509)本身。我们只需要看图的右半部分,它告诉我们的是:在访问首页的所有流量中,有 53.69%离开了网站,有另外 46.31%进入后面的页面(Next Pages)。现在,问题出现了,请看仔细:46.31%的下个页面的访问量中,45.11%是访问的首页本身,只有剩下 1.20%的流量在访问其他内容!这表明什么?我记得以前有朋友问过我这个问题,我当时就告诉他,这表明首页存在大量的刷新!此外,这个数据还告诉我们,这个页面的 Action Rate 大致只有1.20%!100 个人
15、来了,约有 1 个人会真正的点击页面中的链接,另外 99 个人则根本不会点击页面上成堆的有意思的链接了。1.20%的 action rate 和极低的bounce rate、很高的 PV / V 以及极长的 Time on Site 根本无法匹配,简直是孤立无援!但是,真像往往就是在发生矛盾的时候才浮出水面的!仔细分析这个数据报告不难重现首页的流量状况:很多访问(visit)进入首页,一部分离开网站(近一半),另外一部分(另外一半)虽然留下来,但不点击别的链接,只是刷新首页。这,无法解释为普通访问者的行为。我的第一感觉是木马流量,无数的“肉鸡”,“僵尸”隔一段时间(一般也就是几分钟)就访问一下
16、目标网站,这简直是“黑客们”的小儿科。由于 GA在定义 Bounce 的时候是以 single PV 为定义的,因此这些访问量虽然只是不断访问首页,但是却不会被记录为 bounce,因此 bounce rate 就会很低,PV / V就会很大,访问网站的时长也变得很长!但完全都是垃圾,对网站一点儿意义都没有!你会问,那让这些木马流量继续访问其他页面不访问首页不就行了?一方面从技术上,这些木马流量能够被控制访问某个网站页面,但是要让他们分工继续否问网站中的某些链接可就不那么容易了。另一方面,让木马流量访问其他页面会更明显的暴露。所以,最终的结果就成了图中显示出来的奇怪网站访问表现。除了木马,机器
17、人访问量也类似于这种表现。总之,不是真正的人的行为,在 GA 的细分报告中很容易露出马脚。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处好了,写到这里,可能你有很多问题了,当然也有很多想跟我讨论和争辩的。我还是那句话,人工流量是个灰色的领域,我不是行家里手,我真心希望大家能跟我讨论争论。我不想影响什么产业链,我只是好奇,我想知道真像。由于我们的广告主越来越多的和国内知名的互联网平台合作建立一个小网站(被行内称为 minisite 或者 microsite)推广自己的产品或服务,因此这些minisite 实际上就成为了知名互联网平台为广告主提供广告服务的一种形式。
18、随着这种形式越来越频繁的使用,广告主越来越希望在 minisite 上获得更多的流量(更多的流量意味着更多的广告受众),并且开始以流量的多寡来衡量与这些知名网站合作情况的好坏。这就使 minisite 成为人工流量的重灾区。除了在上篇中列举的一些 minisite 的怪异流量现象,我们在下篇中继续讨论这个领域的问题。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处 可疑的流量来源之一:奇怪的质量分布我们一般用 Time on Site 和 PV / V 来综合评定流量的质量(quality),当然也会看 bounce rate 和 action rate 之类的比
19、例。在研究具体流量的质量前,我想请您先同意我的一个基本观点,那就是:如果不是非常特殊的网站(或网页),流量的 Time on Site(或 Time on Page)与 PV / V 应该是成正比的关系。当然,这个基本观点是基于逻辑的以人的访问行为来看,访问两页page 肯定比访问一页要花的时间长。因此,当我发现大量的流量忽然出现了时间越长,PV / V 越小;或是 PV / V 越大,而时间越短的情况的时候,我就彻底的奇怪了。上个图先:图 1:至少,这个流量的质量分布是可疑的图中所示的是某个网站的流量来源的质量分布,圆饼(Bubble)的大小代表着 Visit 的多少,黄色的线代表这个站点平
20、均的 Time on Site 和平均的 PV / V。从图中我们可以看到,左下角的流量质量不高,而右上角的流量质量很高(有更长的时间和页面访问数)。令我比较惊奇的是右下角的三个流量源,它们挤在一起,坐拥 30%以上的总体流量,且具有相同的访问行为特征访问的页面数很多(6、7 页之多!),却只有很短的页面停留时间(最高也不过 40秒钟),令人啧啧称奇。再看看传统的高质量流量源(direct)/(none),大概也不过 1、2 页的访问。当然,流量质量超过(direct)并不奇怪,但是 PV/V 超出它 3、4 倍,但访问时间却又短出 30%且连平均值都超不过,这不能不让人倍感疑惑。如果是您,您
21、会如何判断这种异常?如果再加上看看这几个流量源的 bounce rate 能低到百分之二三十,我想可能您也该有信心地下个结论了。Avinash 说,“没有细分就没有分析”,在这个细分流量源后发现问题的案例上甚为恰切。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处 可疑的流量来源之二:查查地理分布可疑的流量来源有可能不通过研究质量分布就被你轻易的查出,这种情况出现在流量的地理分布过于集中的情况中。例如,我的同事 Edward 告诉我,在他曾经做过的一个案子中,他所负责的minisite 被 host 在某个知名下载网站(或是驱动网站?有些不太记得了)上。在事后的分
22、析中发现,全部流量的 90%以上来源于河南省的某个城市。这很可疑,因为我们的 minisite 从来没有专门聚焦于某个地域,从来都是全国范围的因此我们当然不希望流量都来源于某一个省!我相信这个知名网站做了一些超出我的同事预计的事情,而且做的并不高明,这实在是太太太明显了。这种情况我自己倒是从来都没有遇到过。你有遇到吗?图 2:这不是真正的 GA 的截图,不过如果您看到类似的图,应该看看自己的网站是不是被做了什么 可疑的流量来源之三:主要流量来自未定义源头在这个领域发现可疑流量的前提是,你的网站的流量源头都应该事先做好标记。Google Analytics(GA)和 Omniture 都提供了一
23、套详细的在入口目标URL 后附加参数的流量源头标记解决方案,其中 GA 利用的是 UTM Tag,Omniture 用的是 CID Tag,二者所用的标记参数完全不同,原理却是毫无二致的。现在,我们假设某个广告主的 minisite 的所有流量源头都被做了标记(当然,除了不能做标记的直接访问的流量来源以外),那么我们应该期望大部分的流量都来源于我们做了标记的入口。事实上我的期望大部分没有落空,在大多数我遇到的 case 中,没有意外的,绝大部分流量都来自于我们做了标记的入口,毕竟直接访问 minisite 的流量很难超过整体流量的 5%,而通过搜素引擎等等其他一些渠道来的流量则微小的几乎可以忽
24、略不计。版权归作者 Sidney Song 所有,欢迎转载,但请事先告知作者并注明出处正因如此,如果出现了一些我们没有标记的却又流量惊人的unidentified(未被鉴定的)的流量时,我就会格外警惕。下面的图显示的就是这样的一个特异案例:图 3: 其实就是一种变相的 click fraud如果您做过 GA 的 UTM 入口标记,那么您一定清楚,所有做过标记的流量源,都不会显示“referral”,而会显示你标记后的名称,比如上图中的“button”、“textlin”等。所以图中第一个流量源,同时也是最大的流量源 肯定不是我们预期的流量来源。再看看这个流量源的质量:PV/V 只有 1.05,
25、Time on Site 只有 9 秒,bounce rate 高达 95.21%,简直太糟糕了,如果你的个人网站的流量质量也是如此表现,那我建议还不如直接关掉网站另起炉灶。然后,很自然的,你会问 Sidney,这个 到底是什么?把 直接输入浏览器,一切真相大白 你会马上明白为什么它带来的流量会比其他入口的流量大,也会明白为什么流量质量这么糟糕。这不是一种新的商业模式,只不过是买流量的一种方法罢了。如果你是广告主,你认为这些买来的流量有意义吗?从我的角度看,随着广告越来越能衡量后端效果,这种商业模式一定会淡出市场虽然可能会需要很长的时间,尤其在中国。 流量质量突变在我的工作中,常常会遇到比
26、基因突变还可怕的流量质量突变,这种变化有时候真是惊天地泣鬼神,让你忽然明白,原来网站分析玩儿的也是心跳。看看下面的图吧!图 4:不是过山车,是 bounce rate 的玩笑我相信大多数朋友们没有遇到上面的情况,不过这是我真实遇到的,我相信在中国的互联网领域 impossible is nothing。图中黄色的线条是 visit,蓝色的线条是 bounce rate。看看蓝色线条的变化趋势有多么牛 X 吧,仿佛不这样就不能让我们这些网站分析师们知道它的存在似的。这种图让我恶心,也让我明白一个道理在 WA 世界中也许知道太多并不是好事。版权归作者 Sidney Song 所有,欢迎转载,但请事
27、先告知作者并注明出处写到这里,我准备停笔了,但我的故事似乎不会停止。就在上个星期,我的团队又在处理一个棘手的富媒体广告(Richmedia 广告)的监测出了些状况,因为一般的富媒体广告内部有程序,有互动的 action,而我们的这个富媒体广告则更加复杂,已经类似于一个 flash 的小网站。正是这种复杂性,我们对这个广告内的所有 action 都做了严格的定义,以期监测所有的广告内的互动情况。最终,我们的监测成功了,但我们的数据一塌糊涂,数据结果绝对不合逻辑。在我们确认没有任何监测方面的问题后,所有问题发生的原因都指向了广告所在的网站平台。最后,我们终于明白了,richmedia 本身的复杂性,让网站平台们难以捉摸,因此给我们的数据当然乱七八糟了。等我们培训了每一个网站这个广告的内部结构和关联关系后,数据重回完美,世界清净不少。我能说什么?我在无语的同时,奉献给大家一个最苦最苦的微笑。:)最后,如果我的读者您是广告主,我将挖心窝子的对您说一声:“忘记流量吧,因为很多时候流量的多少和广告效果的好坏成反比。数字只是游戏,您永远需要关心数字背后的真正质量。” 辨析真假需要结合四个 Rate,Click Through RateConversion RateAction RateBounce Rate。