1、收视率调查的流程与方法,央视索福瑞媒介研究(CSM),主要内容 一、收视率调查的基本流程 二、样本抽取方法 三、数据采集方法 四、数据处理方法,一、收视率调查的基本流程,样本抽取,数据采集,数据处理,收视率调查的基本流程包括三大环节,即:,二、样本抽取方法,在收视率调查中,样本抽取一般包括确定调查总体、确定样本容量、抽取样本等环节。,(一)确定调查总体在收视率调查中,调查总体一般被界定为目标区域内4岁及以上的电视家庭人口。这个界定包括以下三个要素:目标区域:可以为全国、省、市、县或某一特定区域;电视家庭人口:没有电视机家庭、集体人口及流动人口被排除在调查总体之外;年龄下限(4岁):收视调查要求
2、被访者必须具有一定的行为能力。,(二)确定样本容量 1、确定样本量时一般应考虑的因素调查总体中各单位的差异程度 差异程度越大,样本容量也应该越大; 允许误差 允许误差越小,样本容量就应该越大;抽样方法 不同的抽样方法具有不同的效率,如分层抽样、系统抽样要比简单随机抽样具有更高的效率,因而在其它条件不变的条件下,分层抽样、系统抽样所需样本量要小于简单随机抽样的样本量;经费、人力和时间等 样本量越大,经费、人力及时间的投入也越大。在调查总体及抽样方法一定的条件下,样本量的大小实际上是在抽样精度(抽样误差)与成本之间相平衡的结果,2、样本量的计算收视率调查是一种成数(比率)调查,样本量的计算公式为:
3、n=t2p(1-p)/M2 其中:n为样本量,p 为收视率, M为允许误差, t为概率度,,取P0.5,此时p(1-p)达到最大, 在95的置信水平(t=1.96)下,样本量n与允许误差M的关系如下图及表:, 允许误差越小,所需样本量越大; 当允许误差小于3时,再提高精度,所需样本量成倍增加; 权衡精度与成本的关系,样本量为1067人(300户)是合理的样本规模。,根据上述理论分析,并参考国际经验,CSM所确定的样本量如下: 城市网(测量仪):300户; 城市网(日记卡):300户; 部分小城市(日记卡):100户; 省网:600户; 全国网(测量仪):2000户。,3、抽样误差与收视率的关系
4、 上述当样本量为1067人(300户)、在95的置信水平下抽样误差为3,应当明确,这是此样本规模的最大抽样误差,实际的抽样误差要小于3。因为: 抽样误差的计算公式为:,抽样误差=1.96,P:收视率, n:样本量 上述3%的抽样误差是取P=0.5计算出来的, 而由公式看出:当P0.5时, P(1-P)达到最大, 由于实际的收视率一般低于50,所以实际的抽样误差要小于3。,抽样误差与收视率的关系 (样本量1067人(300户),置信度95%),收视率越低,抽样误差越小; 当收视率低于12时,抽样误差小于2,(三)样本的抽取,下面以CSM为例,来说明收视调查中样本的抽取方法。CSM目前拥有的收视调
5、查网有:67个城市收视调查网(日记卡)11个城市收视调查网(测量仪)15个省级收视调查网(日记卡)1个全国收视调查网(测量仪)各种调查网样本的抽取方法简述如下:,1、CSM城市网的抽样方法,调查总体,非农人口比例在45%及以上的市辖区中电视家庭户中4岁及以上的所有人员。,CSM在收视调查网建立前以及建立后每年都要进行一次大样本量的基础调查,因而城市网的抽样方法包括基础调查的抽样方法及固定样组的抽样方法,抽样方法,基础调查的目的: 了解对收视行为有重要影响作用因素的信息,如频道覆盖率、电视机拥有状况、户规模、人口年龄性别结构等; 为固定样组的抽取、轮换及控制提供依据,以保证固定样组对总体的代表性
6、。 基础调查的抽样总体非农人口比例在45及以上的市辖区中,所有家庭户中常住人口(在本地居住半年以上,且平均每周居住5天以上)。,A 基础调查的抽样方法,基础调查的抽样方法二阶段、PPS、整群抽样 第一阶段:由城市抽居(家、村)委,用PPS抽样抽取a=72(或36)个居(家、村)委会; 第二阶段:由居(家、村)委抽样本户,在每个抽中居(家、村)委中,用随机等距抽样方法抽取b=14户家庭户,对于抽中家庭户中的所有常驻人口都进行调查。 样本量为:ab72141008户(大城市)ab3614504户(中小城市),PPS抽样实例PPS抽样全称是概率与规模成比例抽样(Sampling with proba
7、bility proportional to size),它是效率较高的一种抽样方式。具体抽样过程如下:第一步:编制抽样框。 从民政局、统计局或其他单位查抄全市居(家、村)委会名单及户数,所有区、街道及居(家、村)委会按自然标志排列,形成抽样框。见附表。 第二步:计算抽样间距K。抽样间距K=居(家、村)委会总户数/拟抽选居(家、村)委会数。在本例中,某市居民累计总户数=33570, 拟抽选居(家、村)委会数=10 则:k=33570/10=3357。 第三步:确定起点。在03357之间选取一随机数,如随机数为3212。 第四步:抽取居(家、村)委会。在附表累计户数一栏找到第一个大于等于3212
8、的累计户数,对应的居(家、村)委会即是第一个被抽中居(家、村)委。而后抽取其它样本居委,计算3212+K, 3212+2K, 3212+3K, , 3212+9K, 分别在累计户数一栏找到第一个大于等于上述数的数字的累计户数,则对应的居(家、村)委会即被抽中。,某市利用PPS抽样抽取居委会示例表 (全市共有3个区、53个居(家、村)委会),接上表,固定样组规模:大城市300户,中小城市100户 (1)居委会的抽取: 在基础调查的样本居委名单中随机等距选取固定样组居委100户站抽取20个居(家、村)委会300户站抽取60个居(家、村)委会;(2)样本户的抽取:在基础调查样本户中,去掉非固定样组居
9、(家、村)委所包含的样本户后,按以下指标排序后形成抽样框;家庭户规模、是否有线户、电视机台数、家庭户收视时间、家庭户有无子女(14岁以下)、地区分布、日用品主要采购者的年龄及家庭户收入。然后随机等距抽取100户或300户家庭户形成固定样组。,B 固定样组的抽样方法,2、CSM城市网(测量仪)的抽样方法,CSM城市网(测量仪)调查总体的界定、操作流程与日记卡城市网相同,样本抽取方法稍有不同。A 基础调查的抽样方法二阶段、PPS、整群抽样 第一阶段:由城市抽居(家、村)委,用PPS抽样抽取a=200个居(家、村)委会; 第二阶段:由居(家、村)委抽样本户,在每个抽中居(家、村)委中,用随机等距抽样
10、方法抽取b=20户家庭户,对于抽中家庭户中的所有常驻人口都进行调查。 样本量为:ab200204000户,固定样组规模:300户首先将基础调查的样本户(4000户),按对收视率有重要影响作用的指标(家庭户规模、是否有线户、电视机台数、家庭户收视时间、家庭户有无子女(14岁以下)、地区分布、日用品主要采购者的年龄及家庭户收入)进行排序后形成抽样框;然后随机等距抽取多套样本户,第一套样户拒访后由备选套中的同号样户代替。固定样组的70按入选样本户完成,其余30样户采用配额抽样完成。,B 固定样组的抽取方法,3、CSM省网(日记卡)的抽样方法,调查总体,全省电视信号覆盖区域内所有拥有电视机的家庭中4岁
11、及4岁以上人员,抽样方法,省网的抽样方法包括基础调查的抽样方法及固定样组的抽样方法,A 基础调查的抽样方法,分层、多阶段PPS、整群抽样,分域,根据区县级单位非农人口比例将全省分为城乡两域:城域:地级(或以上)市中所有非农人口比例在45及以上的区;乡域:地级(或以上)市中所有非农人口比例在45以下的区、所有县级市和县(旗)。,城域: 三阶段、PPS、整群抽样 第一阶段:城域抽区,首先将地级(或以上)市按离省会城市距离以顺时针方向由从近到远排列,在每一个城市中再按非农人口比例将各区由大到小排列,然后采用PPS抽样抽取15个区; 第二阶段:区抽居(家、村)委,在每个被抽中区中,用随机起点PPS系统
12、抽样方法抽取3个居(家)委会; 第三阶段:居(家、村)委抽户,在每个抽中居(家、村)委会中,用随机等距抽样方法抽取89户家庭。 城域样本总数为 15(889)户375户,样本户的抽取,乡域: 三阶段、PPS、整群抽样第一阶段:乡域抽县级单位,首先将地级单位按离省会城市距离以顺时针方向由从近到远排列,在每一个地级单位中再按非农人口比例将各县级单位由大到小排列,然后采用PPS抽样抽取15个县级单位; 第二阶段:县级单位抽居(家、村)委,在每个被抽中县级单位中,用随机起点PPS系统抽样方法抽取2个居(家、村)委会; 第三阶段:居(家、村)委抽户,在每个抽中居(家、村)委会中,用随机等距抽样方法抽取1
13、213户家庭。乡域样本总数为 15(1213)户375户,分层、三阶段、PPS、整群抽样首先按区县级单位非农人口比例将全省分为城乡两域(标准同基础调查)在城域中,将各城市按地理位置排序后,采用PPS抽样抽取3个样本城市;在每个样本城市中,采用PPS抽样抽取20个居(家、村)委;在每个居(家、村)委中随机等距抽取5户。在乡域中,将各县级单位按地理位置及非农人口比例排序后,采用PPS抽样抽取3个县级单位,在每个抽中县级单位中,采用PPS抽取10个居(家、村)委;在每个抽中居(家、村)委中,随机等距抽取10户。省网固定样组规模为600户,城乡各300户。,B 固定样组的抽取,4、CSM全国网(测量仪
14、)的抽样方法,调查总体,全国电视信号覆盖区域内所有拥有电视机的家庭中4岁及4岁以上人员,抽样方法,先在全国进行一次大样本量的基础调查,而后从基础调查的大样本中抽取用于进行连续调查的固定样组,A 基础调查的抽样方法,分层、多阶段PPS、整群抽样,分域,首先将全国总体划分成三大区域:城域:所有地级市中非农人口比例在50或以上的市辖区;中间域:所有地级市中非农人口在50以下的市辖区;乡域:所有市辖区以外的县级单位,如县、县级市、旗。,在三大区域中分别按对收视率有显著影响的六个指标进行聚类分层;这六个指标是:人口规模、0-14岁儿比例、65岁以上老人比例、非农人口比例、识字率、年平均气温;城域被分成6
15、小层,中间域分成4小层,乡域分成10小层,共计20小层。,分层,城域: 在自分层城市中采用二阶PPS抽样抽取样本户,以居(家、村)委会及家庭户分别作为初级、二级抽样单元; 在其它层中采用三阶PPS抽样抽取样本户,以市、居(家、村)委及家庭户分别作为初级、二级、三级抽样单元; 最后一阶抽样均为整群抽样,对抽中家庭户中的所有人员都进行调查。,样本户的抽取,中间域和乡域: 在各层中均采用四阶PPS抽样抽取样本户,以县级单位、街道(乡、镇)、居(家、 村)委会及家庭户分别作为初级、二级、三级、四级抽样单元; 最后一阶抽样均为整群抽样,对抽中家庭户中的所有人员都进行调查。, 首先在基础研究大样本范围内,
16、将各样本户按对收视率有重要影响的8个指标进行排序,这8个指标是:家庭户规模、是否有线户、电视机台数、收视时间、有无子女(14岁以 下)、地区分布、日用品主要采购者的年龄及户收入; 然后随机等距抽取多套地址,第一套地址拒访后由备选地址的同号样户代替; 固定样组的70按入选地址完成,其余30的样本户选取以基础研究结果为依据,采用配额抽样方法完成。,B 固定样组的抽取,三、数据采集方法,(一)、收视调查中的数据采集方法常用的收视数据采集方法有三种: 1、电话法:利用电话了解观众的收视情况, 具体分为: a 电话回忆法:要求受访者回忆一天或更长 时间以前的收看情况; b 电话同步调查法:在受访者收看电
17、视的同时调查其收视情况。,2、日记法:指由样本户中所有4岁及以上的家庭成员,将每天收看电视的频道、时间段随时记录在日记卡上,以获取电视观众收视信息的方法。,3、测量仪法:指用测量仪来详细记录样本户中所有4岁及以上家庭成员收看电视的情况,从而获取收视信息的一种方法,三种方法的比较,(二)、测量仪数据与日记卡数据的比较 1、国外的经验 1994年7月期发表了Foote, Cone & Belding Communication (FCB)公司的一份研究报告表明:测量仪收视率低于日记卡收视率。,前BBC电视观众研究部主任Peter Meneer. 于1997年通过对澳大利亚、奥地利、加拿大及芬兰四国
18、测量仪取代日记卡后的数据进行分析得出如下结论:1、主要频道的占有率下降,而次要频道的占有率上升;2、黄金时段的收视率下降,而黄金时段之前及黄金时段之后的收视率有较大幅度的增长。,2、CSM测量仪数据与日记卡数据的 比较,通过对CSM已安装测量仪城市 北京、上海、广州、成都、杭州及深圳的分析,我们可以得出,测量仪数据与日记卡数据相比较有如下特征:,第一,平均收视时间下降,第二,黄金时段的收视率下降,非黄金时段的收视率上升,成都测量仪收视率与日记卡收视率的比较,杭州测量仪收视率与日记卡收视率的比较,深圳测量仪收视率与日记卡收视率的比较,第三,主要频道的市场占有 率下降,次要频道的市场占有率上升,成
19、都部分频道市场占有率 两种调查方法结果的比较,杭州部分频道市场占有率 两种调查方法结果的比较,深圳部分频道市场占有率 两种调查方法结果的比较,第四,主要节目的收视率下降,次要节目的收视率上升, 日记卡收视率在1以上的4个节目中,有3个节目的测量仪收视率下降; 其余绝大部分节目的测量仪收视率上升,(三)、测量仪数据与日记卡数据差异的原因,第一:日记卡法的记录规则会夸大收看时间在815分钟频道的收视时间,而减少或忽略收看时间在8分钟以下频道的收看时间; 第二:有些被访者靠事后回忆来填写日记卡,这样会夸大主要频道、黄金时段和一些知名度较高节目的收视时间,而忽略或减少次要频道、非黄金时段和一些知名度不
20、高节目的收视时间; 第三:测量仪是对样本户家庭成员收视时间、频道的一种实时记录;,第四:正是由于上述两个原因,造成对主要频道、黄金时段及知名度较高节目来讲,人员测量仪数据低于日记卡数据,而对次要频道、非黄金时段、知名度较低节目来讲,人员测量仪数据大于日记卡数据; 第五:在黄金时段,人员测量仪数据低于日记卡数据的幅度,大大高于非黄金时段,人员测量仪数据高于日记卡数据的幅度,并且黄金时段的持续时间较长,因而造成平均每天总收视时间的下降。,四、数据处理方法, 收视调查原始数据输入计算机后,要进行数据的净化,以确保原始数据的完整及合理;净化后的收视数据与样本背景资料库及节目资料库合并形成一个更全面的“
21、收视率资料库”; 在这个“收视率资料库”的基础上,以性别、年龄等为加权变量,对原始数据进行各种加权计算,便产生各种收视率数据。,(一)数据处理流程,(二)、加权方法,1、加权的目的对样本结构与总体结构的偏差进行校正,以取得能够准确反映总体收视情况的数据。 举例: 某市总人口10万,男性48,女性52; 样本人数1000人,男性42,女性58; 样本中收看某节目人数为500人,男性180人,女性320人; 男性权值总体中男性人数/样本中男性人数48000/420=114.3 女性权值总体中女性人口/样本中女性人口52000/58089.6 总体中收看该节目的人数样本中男性观看人数男性权值样本中女
22、性观看人数女性权值180114.3+32089.6=49246人 则该节目收视率49264/100000=49.3% (而不是500/100050),2、CSM加权方法CSM在不同的收视调查网中均采用边际加权方法(Rim Weighting)对收视调查的样本数据进行加权,所不同的是在不同的调查网中加权变量不同。城市(日记卡):性别、年龄; 城市(测量仪):性别、年龄、户规模; 省网(日记卡):性别、年龄、城乡; 全国网(测量仪):性别、年龄、户规模、层。下面以省网为例,说明具体的加权过程。,第1步:将样本的性别、年龄和城乡结构列表,第2步、按性别进行加权计算男性、女性权值:电视观众总数除以样本
23、人数,编制性别权值表,将样本结构表中的样本量分别乘以权值表中对应的权值,得到第一次按性别加权后的总体数,第3步、按性别、年龄加权计算各年龄段权值:观众总体人数/经按性别加权后的总体人数,如: 4-14岁: 总体 9893 / 加权后的总体 9760 = 1.0136 15-24岁: 总体 9169 / 加权后的总体 6686 = 1.3714,编制性别、年龄权值表:用性别权值表中数据乘以对应年龄段的权值,将样本结构表中的样本量分别乘以性别、年龄权值表中对应的权值,就得到经性别、年龄加权后的观众总体人数,第4步、按性别、年龄、城乡加权,计算城乡权值:用观众总体人数/经性别、年龄加权后的观众总体人
24、数 城域:观众总体人数 4,652 / 加权后的观众总体人数 (12,368+12,022) = 0.1907 乡域:观众总体人数 50,705 / 加权后的观众总体人数 (15,755+15,212) = 1.6374,编制性别、年龄、城乡权值表:用性别、年龄权值表中的数据乘以城乡权值,将样本结构表中的样本量分别乘以性别、年龄、城乡权值表中对应的权值,就得到经性别、年龄、城乡加权后的观众总体人数,第5步、检查加权后的总体结构与实际总体结构之差异是否达到允许范围(0.1%),如果没有达到,则进行下一轮加权,重复第2到第4步,直到符合要求为止。,上表中加权后的总体与实际总体结构的差异在性别、城乡方面已达到要求,但在年龄方面未达到要求,所以需要进行下一轮的加权。,上表中加权后的总体结构与实际总体结构的差异均在允许范围之内,加权的迭代过程停止。此时对应的性别、年龄、城乡权值表(下表)就是计算收视率使用的最终权值表。,下表中每个数值的实际含义就是在某个特定的人口统计区间内每个样本人的推及人数。,(三)、计算收视率,收视率收看某一频道(节目)的人数/目标观众总体100,例如:根据某一省网的收视监测记录,在某一特定时段收看某一频道的样本人数如下表,则收视率的计算如下表:,