1、统计学基础,科任老师:丘艳 E-mail:,课程框架,统计学 第1章 导论,第一节 统计与统计学 一、统计学的定义:统计学是指搜集数据、分析数据并且由数据得出结论 的过程和方法。(分析数据是统计学的核心内容) 主要包含三种涵义: 1.统计工作:统计数据的搜集活动 2.统计数据:统计工作活动的结果(成品或半成品) 3.统计学:是有关如何收集、分析、表述和解释数据的一门科学。,思考: 有人说,统计学是一门学科,也有人说,统计学是一门艺术。其艺术性体现在哪呢?,如何统计鱼塘里有多少条鱼?,二、统计学的特点,1.数量性:与数字打交道,在一定阶段就是数字运算的运用 2.总体性:研究的对象要全面,不能有遗
2、漏 3.具体性:每一个数字的背后都对应具体的事物 4.社会性/阶级性 5.广泛性,三、统计学的应用,1.国家经济建设的需要 2.科学实验 3.市场调研工作 4.会计核算 5.学校评估 6.考试成绩分析,四、统计工作过程,1、统计设计,2、统计调查,3、 统计整理,4、 统计分析,5、 统计资料开发和利用,第二节 统计学的产生和发展,一、 中国 1.夏 “禹平水土,国分九州是以其时九州之地,凡2438.802顷, 定垦者930.6020顷民口1355.3923人”帝王世纪 (1顷=100亩,1公顷=15亩=1万平方米,依此折合160万平方千米) 2. 春秋战国 井田制 土地丈量 统计 (统一 记
3、录)秦 户籍制度 进行土地丈量 人口普查 3.建国 1953.4第一次人口普查 全国6亿,二、外国 1. 埃及 金字塔(BC3050年) 做人口、财产、土地等统计调查 2. 古希腊、古罗马 人口普查,对出生和死亡进行登记,三、统计学科的发展,1. 1850年 政治算数的出现标志着统计学成为一门成熟学科 2. 概率论引入统计学标志着近代统计学的诞生 3. 20世纪初 “小样本理论”的出现现代统计学 4. 统计学的两次变革: 数理统计和抽样调查进入统计学 国民经济核算体系的出现,第三节 统计基本概念,一、总体、总体单位和样本 1、 总体:是我们研究的现象或问题涉及的所有个体的集合。 总体的特征:大
4、量性 同质性 变异性古今爱情故事,曲折缠绵,感人肺腑,各个不同总体范围的确定,有时较难。例:学校教师的素质(外教、兼职、外聘、临时) 分类:根据总体所包含的数目 有限总体-全国人口数量,企业总数 无限总体灯泡的寿命,投掷硬币的次数,彩票 2. 总体单位:构成总体的个别事物或具体单位,简称个体。 3. 样本:一部分个体的集合。,举例说明,了解广州市在校大学生的消费支出构成,总体:广州市所有在校大学生,总体单位:广州市每一个在校大学生,样本:一部分在校大学生所构成的集合,1. 变量:即说明总体/样本某种特征的概念 例 学生上课人数,企业销售收入 图书馆书量变量值 57、58、55 2万、2.2万
5、变量的分类 按数值形式分 离散型变量:只能用整数表示 例:个人 0.7台电脑 0.6个企业 连续型变量:用小数表示 例:温度 利润 身高 体重 根据变量特点分 分类变量说明事物类别的一个名称 例:性别 身份 顺序变量说明事物有序类别 例:排名一二三四五 数值型变量说明事物数字特征 例:产量 含沙量,二、 变量,三、统计数据,1、统计数据统计数据时对统计现象进行计量的结果 2、分类 按照计量层次分 分类数据工人、农民、商人、公务员、学生、军队、其他 顺序数据一二三四 数值数据可以进行四则运算 按照收集方法分 观测数据没有对研究对象进行人为控制 如:不记名投票(同意的请举手) 试验数据有时候不一定
6、准确 按数据的时间点分 截面数据在同一时间点上收集的数据 时间序列数据不同时间点上收集的数据,统计学 第2章 统计数据的收集,第一节 统计数据的来源麦当劳公司在北京的分店于1992年4月23日开业,但早在8年前(1984年底),美国麦当劳总部就派出专家,对中国的河北、山西等地上百种马铃薯进行考察,对其成分进行分析测定,最后确定麦当劳的专用马铃薯。,如果基础工作做不好,数据本身存在巨大问题,后面的计算和分析技巧再高超也是徒劳的。,一、来源分类,1.直接来源:第一手资料 观察、调查(无控制地) 试验(有人为控制地) 2.间接来源:第二手资料(别人的调查或试验数据) 如:统计年鉴发展报告 报刊、杂志
7、、图书、电子传媒等 调研机构,二、数据的直接来源,统计调查方式 抽样调查、普查、统计报表 按调查范围分: 全面调查-普查、全面统计报表 非全面调查-重点调查、典型调查、抽样调查 按调查的时间是否连续分: 连续性调查-统计报表 一次性调查-普查、典型调查、重点调查 按组织形式分: 定期报表制度 专门调查,第二节 调查数据,一、数据的搜集方法资料调查:内部资料、外部资料试验法:有控试验、无控试验(数黄豆)观察法:人员观察、机器记录(收款机、探测仪、录像)询问调查法:访问调查、邮寄调查、电话调查、 座谈会、卫星遥感调查,没有调查就没有发言权毛泽东,二、普查和统计报表,1、普查:为某一特定目的而专门组
8、织的全面调查。局限性:普查耗时、费力、费钱、涉及面广、具有周期性(国家原有的普查项目包括人口普查、农业普查、工业普查、第三产业普查和基本单位普查5项。农业普查每10年进行一次,逢6的年份实施。人口普查安排10年一次,在逢0年份实施。全国经济普查每10年进行两次,分别在逢3、8的年份实施。) 经济普查内容包括原来的工业普查、第三产业普查和基本单位普查, 建筑业今后也将被纳入普查范围。,2、统计报表:按照国家法规,自上而下地统一布置,自下而上地逐级提供基本统计数据。,三、抽样,1、抽样的定义:根据某一标准从调查对象的总体中抽取一部分作为样本进行调查。,2、抽样的种类: (1)概率抽样: 简单随机抽
9、样(重复或不重复)简单 分层抽样准确 整群抽样方便 系统抽样简便 多阶段抽样,2、抽样的种类:,(2)非概率抽样: 方便抽样 判断抽样重点、典型、代表 自愿抽样报刊、网站、随附调查问卷 配额抽样人大代表 滚雪球抽样稀少群体,个体不好找(安利,推介 推销),思考:街头拦人是随机抽样吗?,虽然方便抽样旨在排除主观因素的影响,纯粹依靠客观机遇来抽取对象,但它并没有通过随机过程,使总体中的每一个元素有相等的被抽中概率。,第三节 调查数据的误差,一、抽样误差:再一次重复调查,结果未必和上次一模一样 二、未响应误差:没有对调查做出反应或回答 三、相应误差:虽然回答了问题,但因客观原因等导致回答问题产生的一
10、些偏差,如何控制和减少误差?,减少误差: 1、好的问卷 2、调查员的选择培训 3、调查过程的控制 4、相关检验奖惩制度 5、数据质量的评价 准确性 及时性 一致性 关联性 低成本 6、调查人员的培训 调查内容 基本知识 沟通技巧 职业道德,第四节 调查问卷的设计,一、问卷的基本结构 (一)开头部分1.问卷标题 2.问候语(说明词)3.填写说明 4.问卷的编号 (二)甄别部分 (三)主体部分1.问题和答案 2.问题和答案的编码 3.答案卡片 (四)背景部分 (五)结尾部分1.被访者联系方式记录2.调查过程记录,1、问卷标题调查研究的主题 要求:简明扼要,引起兴趣。 例:“汽车消费状况调查”“我与
11、住房雅安市居民住房状况调查” 2、问候语(说明词)说明调查者的身份、调查内容、 调查目的、调查意义、抽样方法、保密措施和致谢等 。 要求:简洁、扼要、不超过三百字。,(一)开头部分,案例,尊敬的先生/女士:上午好! 问候语我叫刘东,是四川农业大学的学生。 身份说明我们正在进行一项关于手机通信质量方面的市场调研。调查主题您的回答将有助于厂家进一步改善产品品质和服务质量。调查用途您的资料公供研究参考,绝不公开。 保密措施在完成访问后,我们将赠予您一份纪念品以示感谢礼品信息现在,我们麻烦您抽5分钟时间回答问题吗? 访问邀请,案例2:,尊敬的先生/女士:您好!我们是XX公司的调研员,受XX公司的委托,
12、正在进行一项影响电动自行车消费的因素的市场调查。我们采用的是街头拦截法,确定您作为我们的调查对象,非常希望得到您的支持!此次调研采用无记名方式,所获得的有关信息只作为本次研究分析之用,我们承诺保守秘密并不将所获信息用作其他用途。为表示对您的感谢,我们将赠送一份精美的小礼物!谢谢您的参与和支持!XX公司调研中心X年X月X日,注意:,问卷的介绍部分应尽量仔细并为后面的调研打下基础。那些被听到或被看到的开场白往往会影响受访者们决定是否参与此项调研。,案例,3、填写说明为使调研顺利进行,请您关注下面的填写说明。,1、本问卷已将所有需要回答的问题编号,您只需按照卷面上表明的要求回答即可,请在您选择的答案
13、对应的符号前画 ,不论单选或多选。 2、有些题目如果没有您想选的答案需要您填写,请直接填写在横线上。,4. 问卷的编号,主要用于识别问卷、调查者、被调查者姓名和地址等,以便于校对检查、更正错误。一般在问卷右上角。,第四节 调查问卷的设计,(一)开头部分1.问卷标题 2.问候语(说明词)3.填写说明 4.问卷的编号 (二)甄别部分 (三)主体部分1.问题和答案 2.问题和答案的编码 3.答案卡片 (四)背景部分 (五)结尾部分1.被访者联系方式记录2.调查过程记录,(二)甄别部分,甄别(过滤)确保被调查者符合调查研究的需要。 例:请问,您或您经常来往的亲朋好友中是否有过以下经历?1) 在邮电部门
14、工作2) 在手机生产企业工作3) 在手机经销单位工作4) 在市场研究、广告公司工作 中止访问5) 在半年内接受过市场调查6) 在新闻机构工作7) 都没有继续访问,我们正在寻找一些合适的人选,请问您平均一周使用手机的时间超过一小时吗?是继续不是中断,第四节 调查问卷的设计,(一)开头部分1.问卷标题 2.问候语(说明词)3.填写说明 4.问卷的编号 (二)甄别部分 (三)主体部分1.问题和答案 2.问题和答案的编码 3.答案卡片 (四)背景部分 (五)结尾部分1.被访者联系方式记录2.调查过程记录,(三)主体部分,1. 问题和答案问题的形式:开放式问题和封闭式问题2. 问题和答案的编码预编码:位
15、置预编码和变量预编码3. 答案卡片,(四)背景部分,(五)结尾部分,1. 被访者联系方式记录,2. 调查过程记录 调查员姓名: 督导员姓名: 调查过程中有无如下情况发生: 在调查过程中有其他人在场(是什么人): 在调查过程中有客人来访,但没有打断调查; 在调查过程中有客人来访,中断过调查(多少时间): 在调查过程中被访者对调查内容或语言有不明白的地方: 在调查过程中被访者有顾虑: 其他(请详细说明): 在调查过程中被访者的合作情况:a合作;b一半;c部合作。,(六)问题的类型,(一)开放式问题 对问题的回答未提供任何具体的答案,由被调查者 根据自己的想法自由作出回答,属于自由回答型。 例如:
16、1、“您认为使用摩托车的原因是什么?” 2、“您觉得软包装饮料有哪些优点?” 3、“哪种颜色的本品牌轿车是您最喜欢的?(追问:您最喜欢什么颜色?),(二)封闭性问题选择式回答 已事先设计了各种可能的答案的问答题,被访者只要或只能从中选定一个或几个现成答案的提问方式。,1、单项选择法 2、多项选择法 3、顺序排列法 4、评价尺度法(很好、较好、一般、差、很差) 5、双向联列法多项比较法 6、打分法,(二)封闭式问题,例如:您认为您使用摩托车的原因是什么?(可多项选择)A. 办事更迅速B. 办事更方便C. 在都市里用摩托车很神气D. 用摩托车是一种身份的象征E. 就是要骑摩托车的那种冒险的感觉,封
17、闭式问题的优缺点,优点(1)答案标准化,回答方便,易于进行各种统计处理和分析,利于提高问卷的回收率和有效率;(2)编码和数据录入过程简化,能减少各种误差。缺点(1)被访者只能在规定的范围内回答,可能无法反映其他各种有目的的、真实的想法;(2)设计比较困难,必须想出一系列可能的答案;(3)一旦设计有缺陷,被访者就可能无法正确回答问题,从而影响调查质量。,(七)提问项目的设计技巧,1.内容尽可能短,完成问卷时间一般10分钟 2.用词要准确、通俗,避免专业术语,避免抽象内容。如:您所在的项目小组的内聚性有多高?(非常低非常高) ”。什么是“内聚性”(cohesion) ?除非有一个明确的定义写在问卷
18、中,调查对象不会知道你在问什么。 3.一项提问只包含一项内容,(七)提问项目的设计技巧,4.避免诱导性提问 如:海尔是中国家电第一品牌,你喜欢吗? 5.避免否定形式的提问 (如:你觉得大学的生活不开心吗?) 6.避免敏感性问题(如:收入、党员),案例,您购买雕牌洗衣粉的主要原因是(选择最主要两种): (1)洗衣较洁白 (2)售价较廉 (3)任何商店都有出售 (4)不伤手 (5)价格与已有的牌子相同,但份量较多 (6)朋友介绍,(八)问题顺序的设计,1.问题安排要有逻辑性(符合人们的思维习惯) 2.提问顺序应先易后难(1.您有使用化妆品的习惯吗?2、您喜欢什么质地的化妆品) 3.易引起被调查者兴趣的问题放在前面 4.开放性问题放后面 5.整个问卷要便于统计整理,案例,例:冷战时期美国人曾做过这样一个调查: 1.如果让美国记者去苏联,并把那里看到的东西发回国内来,你同意吗? 2.如果让苏联记者来美国,并把者里看到的东西发回去,你同意吗? 第一组问卷按1、2的顺序,结果赞同的人数分别是74.6%、81.9% 另一组问卷中,上面两个问题颠倒了顺序提问,得到的结果却是54.7%、63.7%,