1、基于 YouTube 的视频网站用户生成内容的特性分析陈欣 朱庆华 赵宇翔(南京大学信息管理系,江苏南京,210093)摘要:本文以全球最大的视频分享网站 YouTube 为切入点,介绍了 YouTube 和用户生成内容的发展和现状,通过收集一段时间内 YouTube 的视频数据,分析和讨论了用户生成内容(UGC)的系统特性,包括视频类别分析、评论数分析、浏览数和排名分析,指出了存在的主要问题。关键词:用户生成内容,UGC,YouTube,UGC 视频系统,长尾理论The Characteristics Analysis of User Generated Content in Video W
2、ebsite Based on YouTubeCHEN Xin, ZHU Qinghua, ZHAO Yuxiang(Dept. of Information Management, Nanjing University, Nanjing, 210093)Abstract: This paper focuses on the analysis of characteristics of User Generated Content(UGC) in video website. By collecting and analyzing the data from YouT, the charact
3、eristics of UGC video system are presented, such as the classifications of UGC videos, the comments of UGC videos, and the relationship between numbers of browses and rank of videos. In addition, the main problems of UGC video system are discussed.Key words: User Generated Contents, UGC, YouTube, UG
4、C video system, Long Tail Theory1 用户生成内容及 YouTube 概述1.1 用户生成内容用户生成内容(User-Generated Content 或 User-Created Content ,一般统称为 UGC),是互联网发展到 Web2.0 时代出现的一个新名词。UGC 并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重,每个人都可以将自己 DIY 的内容通过互联网平台进行展示或者提供给其他用户。UGC 的出现极大地重塑了网络视频市场,特别是 UGC 网站,像国外的 YouTube、MySpace,以及国内的
5、土豆网、优酷网,创造了新的浏览形式和社会群体间的互动,同时也带来了许多新的商机。UGC 所具有的海量、动态和去中心化的特点是传统网络内容所不具有的。用户可以在一天内上传无限量的内容。据统计,YouTube 每天的上传量是 65,000 个视频,远高于传统网络内容一天甚至一年的上传量。在 Web2.0 下,各种内容类型和格式使得原本 1.0 时代下的静态的文本被逐渐取代,网页内容更为多样化和动态化。去中心化的内容让每一个用户都可能成为主角,用户之间的互动增加,一个网站不再是一个媒体或者机构在做主。这些特点正是用户生成内容所带来的改变,也推进网络发展到新的一个阶段。1.2 YouTubeYouTu
6、be 成立于 2005 年 2 月,是目前世界最大的视频分享网站,占据了 HTTP 总流量的 20%1,同时它也是互联网历史上发展速度最快的网站。根据 YouTube 在 2006 年被Google 收购时的统计数据显示,其每天有超过一亿次视频浏览次数和大约 65,000 个新上传的视频。据调查统计,YouTube 位列十个最有价值的网站第三名,仅次于 Google 和Yahoo!。 2表 1 中显示了 YouTube 的部分数据和排名。YouTube 的视频播放技术是基于 Macromedia 的 Flash Player 和 Sorenson Spark H.263影像编码技术,这一技术允
7、许 YouTube 与其他播放技术兼容。此外, YouTube 接受不同的上传格式,在上传之后统一将其转换成.FLV 格式,而这统一的易播放格式也成为了YouTube 成功的关键。表 1 YouTube 部分数据浏览者( /月) 70视频浏览数( /天) 100Alexa 排名(2009 年 4 月) 3文件上传格式 WMV, MPG, MOV, ASF, RAM, AVI上传方式 PC 机、手机数据来源于 31.3 UGC 在视频网站中的发展用户生成内容从最初的上传自己的博文到如今越来越多的短片分享,成为网络社区或虚拟社区中不可或缺的组成部分。同时,不断增长的网络视频市场也使用户生成内容有巨
8、大的发展空间。此外,人们通过上传自己的视频与他人分享生活见闻来获得心情的放松,也创造了新的盈利模式。但是,UGC 视频系统质量控制的缺乏以及自身存在的技术问题等制约了视频网站的进一步发展。本文的主要目的就是对 UGC 视频系统进行分析,了解其主要特性和分布,并就存在的问题进行分析。2 研究方法2.1 数据来源所有用于分析的视频数据都在 2009 年 3 月 1 日至 2009 年 3 月 30 日一个月内从YouTube 网站上获得。由于 YouTube 对它的视频设置了非常严格的限制路径,即用户可以通过既定的分类目录、排行榜以及搜索引擎来找视频,但不可能获得一个完全随机的视频样本,因此笔者通
9、过使用 RSS 源来抓取 YouTube 的视频信息。YouTube 的 RSS 源每次包含 15 个视频,并且大约每 20 分钟变动一次。因此,为了尽量保证不错过视频,每 1020 分钟抓取一次数据。因有部分视频因为版权、内容的原因被移除,共抓取视频数为 4532 个。根据 Haewoon Kwak 等人的研究 4,对于这个庞大的视频群中,真正受到大部分人关注的只有极小的一部分,即视频受关注程度的分布遵循帕累托原则。在 YouTube 网站首页上会显示本月或者本周最受欢迎的 100 个视频,为了使得研究数据更加地有说服力,笔者抓取了包括 YouTube 选出的最受欢迎视频在内的前 300 个
10、视频,即该月中最热门的 300 个视频作为样本对视频 UGC 进行分析。2.2 数据预处理每个视频具有统一的视频格式和元数据,包括视频名称、上传者名称、上传日期、类别、浏览数、评论数等 11 个要素。具体范例如下:表 2 YouTube 视频元数据名称 Cat does taxes上传者 Daneboe上传日期 2009-3-24类别 Pets & Animals标签 Cat, kitty, money, funny视频长度 1:40浏览数 621,679评分 评论数 2,812更多来自该上传者的视频 Kool Aid Killer, Anal Probe!相关视频 Wilber the Ca
11、t, Kitten Surprise!.数据来源于 5在 YouTube 网站中既有用户生成内容,也有专业制作内容,还包括一些用户通过剪辑现有的专业视频或者用户原创视频的内容而制作成的视频。基于以上情况,笔者将YouTube 的视频来源分为以下三类:第一类是专业制作内容,如用户上传 CNN 等媒体的新闻节目,或者是大型公司如苹果、索尼等为了宣传自己的新产品制作的广告片,以及新影片预告片等。这部分也包括专业工作室制作的视频内容。这些内容虽出自专业机构,但可能是用户在看电视转播时全程录像下来的然后上传至 YouTube,或者是媒体官方网站上的视频不经修改直接上传。这些视频虽是用户拍摄或者截取,但因
12、没有任何的变动,笔者在此将这些均归类为专业机构制作的内容。第二类是用户编辑内容,主要指用户剪辑已有的专业制作或者用户原创视频的部分内容,并加入一些自己的元素合成的视频。第三类是用户原创内容,这类视频完全由用户自己原创,从拍摄设备、拍摄场景到视频内容等。这类视频的制作水平相对较低,没有华丽的背景。2.3 数据分析方法本文利用统计学中的基本方法对数据的特征进行归类分析,并对未来可能的趋势进行一定的推断与预测。由于原始数据较为杂乱和不规则,除了预处理数据外,还对部分数据做了筛选,并在分析的过程中适时地对数据进行一些调整来找出某些可能的特性。在数据分析和整理的过程中运用 EXCEL 和 SPSS 统计
13、工具来辅助处理。3 结果及讨论3.1 视频类别分析根据前文提到的视频来源分类方法,视频类别比例如下图所示。结果表明专业制作内容占 52%,用户编辑内容 19%,用户原创内容 29%。图 1从图 1 发现,专业机构制作内容占了一半以上,这一现象说明人们还是更倾向于浏览专业制作的视频。究其原因,一是因为其制作水平较高并且专业,所能呈现的图像画面比较生动美观;二是因为专业机构的视频有一些是产品的宣传,满足了一部分购买者的需求。各 制 作 类 型 在 各 视 频 类 别 所 占 比 例0%10%20%30%40%50%60%70%80%90%100%音 乐 喜 剧 娱 乐 运 动 电 影 模 仿新 闻
14、 和政 治 科 学 技 术 人 物 博 客 动 物 宠 物 游 戏 DIY视 频 类 别百分比 用 户 原 创 内 容用 户 编 辑 内 容专 业 机 构 制 作 内 容图 2除了分析视频样本的来源之外,笔者还对视频样本的主题领域进行了类别的区分。在抓取到的全部视频中,通过对音乐、喜剧、娱乐、运动四个主要视频类别进行分析,也发现专业制作的视频仍占了总视频的大约一半以上(具体数据见图 2 所示) 。因此可以认为,就本文获取的数据而言,虽然 YouTube 给每个人创造了一个发挥想象激发创造力的平台,但真正自我创造的并不多。各 视 频 类 别 在 总 视 频 中 所 占 比 例 图0.0%5.0%
15、10.0%15.0%20.0%25.0%30.0%35.0%音 乐 喜 剧 娱 乐 运 动 电 影 模 仿新 闻 和政 治 科 学 技 术 人 物 博 客 动 物 宠 物 游 戏 DIY视 频 类 别百分比图 3从以上三个方面的数据表明,YouTube 并没有真正实现它的口号 “发布你自己” ,同时也可能是 YouTube 还过于年轻,需要更多时间的积累。 6这也说明 YouTube 作为全球最大的 UGC 视频系统,其在 UGC 这一部分的发展并不成熟,所能探索的空间还很大。从总视频类别比例图中可以看出,音乐、喜剧占了总视频的 56.5%,再加上娱乐和运动则在整个视频中占据了 85.8%的比
16、重,由此可以推知, YouTube 的大部分用户还是偏向于娱乐性质的视频,特别是音乐和喜剧最受用户的欢迎。三种视频来源中不同主题领域的比例图见图 4 所示。05101520专 业 制 作 内 容 用 户 编 辑 内 容 用 户 原 创 内 容运 动音 乐喜 剧娱 乐科 学 技 术新 闻 和 政 治人 物 和 博 客图 4可以发现,在用户编辑内容和用户原创内容中音乐和喜剧占据了前两名,在专业制作内容中音乐位居第一,娱乐和运动紧随其后,分居第二和第三。由图 4 中的数据显示,音乐 50%以上都由专业机构创造,类似的情形还有娱乐,说明大部分的视频音乐还是来自于专业的制作,这主要是一些新歌和由用户上传
17、的歌手歌曲。但从图中也可以看出音乐仍是用户编辑内容中比例最大的一个类别,分析原因可能是音乐的现有数目较多且收集容易,制作中只需要有简单的软件和简单的电脑操作技术即可完成加工,此外由于音乐容量较小,兼容性好,上传方便。因此从制作成本、机会成本和转移成本上来说,音乐的编辑都较其他类型内容的编辑更为容易。基于以上分析,可以得出这样的结论:在 UGC 视频系统中,仍以专业机构制作的内容为主要来源,用户原创和编辑的内容呈现上升的趋势。且这三种创作方式表现出较为一致的主题分布特征,都以音乐、喜剧和运动领域居多。这一特征表现出 UGC 的大部分用户更倾向于在网站的视频中获得压力的释放和轻松愉快的感觉。这也使
18、得 UGC 成为网络生活很重要的一部分。3.2 评论数分析在 UGC 系统中,用户参与度除了上传视频以外,还包括对浏览的视频进行评论,这可以说是社会网络中一个非常重要的指标。用户对某一个视频发表评论也反映出了对该视频的关注和兴趣。表 3 中显示了抓取到的最受欢迎的 300 个三种不同创作类型的视频评论数的最大值、最小值、评论数大于 1,000 的以及超过 10,000 的。表 3 各创作类型评论数表类型 专业制作内容 用户编辑内容 用户原创内容最大值 19,886 11,475 48,739最小值 0 252 1901,000 的视频 61.5% 73.7% 86.2%10,000 的视频 5
19、.8% 5.3% 27.6%从表中可以看出,用户原创内容的评论数最多有 48,739,比专业制作内容的评论数几乎多 30,000 条。用户编辑内容的最大值则较少,只有 11,475。可能的原因是这部分内容既没有专业的高水平的制作,也没有原创所拥有的喜剧元素。在用户原创内容中,大于10,000 的视频数占所有原创视频的 27.6%,远大于专业制作内容的 5.8%。这表明虽然用户原创内容占的比例并不多,低于专业制作内容,但其受关注程度远超过专业制作。这也说明用户原创内容的生活化和平民化等特点更能吸引用户的目光。3.3 浏览数和排名关系分析一个视频的浏览数可以看出其受欢迎的程度,同时 YouTube
20、 也根据视频的浏览数自动排列出了一星期,一周或者一个月内最受欢迎的视频。下图是根据本文获得的视频浏览数和相应排名绘制的关系图。01,000,0002,000,0003,000,0004,000,0005,000,0006,000,0001 8 15 22 29 36 43 50 57 64 71 78 85 92 99排 名浏览数图 5图 5 的曲线在最初急剧下降,然后出现长长的平缓的下降,直至降为 0。这一趋势图非常清晰的显示了浏览数和排名之间的关系,也间接表明了用户的一些行为。事实上,在YouTube 数以亿计的视频中,真正被大部分用户浏览到的只有排名靠前的那一小部分,而其余大部分视频的浏
21、览数都较低,甚至有很多视频的浏览数为 0。因此,在 UGC 的视频中出现一条长长的尾巴,即安德森所提出的“长尾”现象现在也发生在 UGC 系统中。而这条长尾巴的形成有几个原因:(1 )这是用户原创内容的一个特点,即用户原创的视频除了一部分是为了娱乐大众外,有很大一部分是在家庭成员或者朋友间分享的 7,因此它的浏览数会受到可能浏览群体数的限制。(2 )由于 YouTube 视频网站中视频数量的庞大,更新速度的频繁,因此相关视频内容的搜索过程也较为困难,对普通用户而言容易产生认知偏差和认知负荷等问题。用户通常会通过一些网站发布的排行去选择浏览相关认可度较高的视频,而这也会产生一定的马太效应,即受欢
22、迎的视频浏览频次越来越高,而冷门的视频则逐渐被打入冷宫。当然,YouTube 需要去考虑长长的尾巴能给 UGC 服务带来多少收益。如何将冷门的视频也转化为可以获利的因素。这些视频如果不能给网站带来收益的话,不但占据了存储空间还增加了拥塞的可能性,对整个视频系统的管理不利。3.4 UGC 视频网站存在的问题视频分享网站在给大众带来快乐的同时,也活跃了各种草根文化。但正如许多新生事物一样,它也带来一些需要解决的新社会问题。版权问题一直是各大视频网站存在的一大问题,YouTube 也因为版权问题备受争议。为了保护版权,YouTube 曾采取了一些措施,比如采取与用户广告分成的模式解决版权问题,取得了
23、一定的效果。最近,YouTube 也希望通过和一些公司的谈判来获得播放部分视频的授权。对于 UGC 系统来说,特别是用户编辑内容这一部分是最容易涉及侵权的,因为用户所剪辑的部分视频可能涉及到版权问题。因此采用内容过滤器,以及版权所有者自动通知的方式都是解决版权问题的一个途径。在今后的发展中,UGC 视频网站需要更多的探索来寻找更为强有力的方式来解决这一棘手的问题。除了版权问题外,视频的大量重复以及视频内容对社会的影响也是 UGC 视频系统需要面对的另一大问题。视频的大量重复不但造成系统的冗余而且不利于用户的检索,对整个评分体制以及视频的排名都有影响。随着越来越多的上传视频,大量的重复还会导致网
24、络拥塞程度加深,系统的负担更重,影响用户观看质量。 8此外,因为人人都可以将自己DIY 的视频与人分享,这不免会有一些人利用这个平台来散播一些不良的、不利于社会发展和败坏风气的视频。如何进行审核和管理,以及制定相关的标准都成为 UGC 视频服务提供商需要去解决的问题。4 结语用户生成内容(UGC)作为 Web2.0 主要特征之一,在如今蓬勃发展的视频网站中占据了重要的地位。本文以全球最为热门的视频网站 YouTube 为研究对象,通过对视频类别的分类、上传视频的制作类型分析、评论数以及浏览数和排名关系等 UGC 系统特有元素的分析,归纳出 UGC 视频网站中视频的主要特性。此外,本文也指出了
25、UGC 视频网站主要存在的问题,即版权问题、视频大量重复和视频内容对社会的影响。根据本文所做的研究,可以得出以下结论:(1)在 UGC 视频系统中,专业机构制作的内容为视频的主要来源,用户原创和编辑的内容呈现上升的趋势;(2)用户原创内容的生活化和平民化等特点更能吸引用户的目光;(3)UGC 的大部分用户更倾向于在网站的视频中获得压力的释放和轻松愉快的感觉;(4)长尾现象也存在于 UGC 视频系统中,因为视频浏览对象的限制以及认知偏差和认知负荷等问题,真正被大部分用户浏览到的视频只有排名靠前的那一小部分。本文虽对 UGC 视频系统的特性进行了分析,但 UGC 视频网站中 Web2.0 元素众多
26、,如社会网络以及群组等本文尚未涉及;此外如何根据用户行为改善 UGC 视频系统功能也是今后进一步工作的方向。参考文献1 Cheng, X., Dale, C. and Liu, J.Understanding the Characteristics of Internet short video sharing:YouTube as a case studyEB/OL. http:/ ,2009-04-232 Alexa EB/OL. http:/,2009-04-153 视讯网EB/OL. http:/ Meeyoung Cha,Haewoon Kwak,Pablo Rodriguez, Y
27、ong-Yeol Ahn and Sue Moon. I tube,you tube,everybody tubes:analyzing the worlds largest user generated content video system. In IMC07:Proceedings of the 7th ACM SIGCOMM conference on Internet measurement,San Diego,California,USA,2007. ACM :1145 YouTube EB/OL. http:/,2009-03-156 Gijs Kruitbosch, Fran
28、k Nack. Broadcast Yourself on YouTubeReally?.In IMC08:Proceeding of the 3rd ACM international workshop on Human-centered computing,Vancouver, British Columbia, Canada,2008. ACM:7-107 Mohit Saxena, Umang Sharan, and Sonia Fahmy. Analyzing Video Services in Web2.0: A Global Perspective. Proceedings of
29、 the 18th International Workshop on Network and Operating Systems Support for Digital Audio and Video,Braunschweig, Germany ,2008. ACM:39-448 Fabricio Benevenuto, Fermando Duarte etc. Understanding Video Interactions in YouTube. In IMC08:Proceeding of the 16th ACM international conference on Multimedia, Vancouver, British Columbia, Canada,2008. ACM:761-764作者简介:陈欣,女,1987 年 9 月出生,南京大学信息管理系学生;朱庆华,男,1963 年 10 月出生,南京大学信息管理系教授;赵宇翔,男,1983 年 4 月出生,南京大学信息管理系博士研究生。联系方式:210093 南京大学信息管理系 陈欣邮箱:juliachen_;电话:15950452030