1、话说呢,这其实是我们概统小组(褚君、刘畅、韩冰、李铖)的小组作业,应广大人民同志的要求,特意发上来特别鸣谢:褚君、刘畅两位技术大牛!没有你们就没有这篇惊天地泣鬼神的报告!有木有!还有冰哥!起人来灰常给力!一、问题提出从古到今,青年男女的恋爱总是大家评论的热门话题。在中国古代,青年男女秉承父母之命、媒妁之言,通过媒婆相互共同,最终达成秦晋之好。时至今日,社会风气自由开放,人们更加推崇给予当事人更大自主权的“婚姻自由,恋爱自由”之原则。因此,选择伴侣的过程由一家之言逐渐演化成为多因素共同决定、相互影响的过程。具体到大学生而言,由于绝大部分大学生基本已步入成年,对选择伴侣一事已具有一定的自主权与自由
2、,如何能找到最佳的伴侣也成为不少大学生,尤其是男生所考虑的一件事。而对于究竟何种特质左右着男生“脱光”与否一事,则是仁者见仁,智者见智。因此,基于以上现状,我们觉得有必要影响对大学男生“脱光” 的特质进行探究,以为广大寄希望于在大学生活中收获美满爱情的男生提供具有一定价值与说服力的指导。二、研究设计(一)实验变量在进行待探究变量的选取时,我们从个人基本信息、生活习惯及恋爱预期三个方面出发进行变量的筛选,其中囊括了连续变量与离散变量,具体如下。1.连续变量:身高(cm) 体重(kg) 当前平均绩点 意愿为恋爱活动花费的金额上限2.离散变量:年级、现在恋爱状态(是或否) 、是否具有恋爱经历(是或否
3、) 、进入大学的途径(正常高考、竞赛保送、自主招生) 、每周花费在课程学习上的小时数(分段计量) 、每周花费在社团活动方面的小时数(分段计量) 、在电子游戏方面花费的小时数(分段计量)、各类社交网络方面花费的小时数(分段计量) 、每周洗澡的次数 每学期剪发的次数、平均每餐饭需要的米饭量、体质健康测试的成绩、 思想道德修养与法律基础总评成绩、平均每月所需的生活费(分段计量)(二)问卷研究1.问卷目的:充分收集现象,为对总体进行估计提供基础。2.问卷设计问卷主要由三部分构成:其一,向被调查者说明本组研究目的,并向其承诺问卷调查结果将被严格保密。其二,个人信息部分,针对被调查者个人的基本状况的调查部
4、分。其三,主要问题部分,针对被调查者对于各问题偏好的调查部分。3.问卷测试、发放与回收在正式发放问卷之前,我们首先打印了 15 份纸质版问卷在私下进行小范围的发放,通过被调查者的反馈与建议,我们对问卷中的措辞及选项设计的不当进行了更正。正式问卷的发放采用专业的问卷网站“问卷星”进行。问卷发放采取在人人网等社交网站平台上对符合条件的被调查者(男生)进行邀请的方法。据统计,本组问卷页面的访问人次达到 449 次(其中独立 IP 数为 262) ,最终有效答卷为 137 份,完成率为 30.51%。三、数据统计与分析(一)统计结果描述1.性别分布由于本研究针对男生进行,因此本次问卷回答者均为男性。2
5、.年级分布本次接受调查者普遍为本科全日制在校大学生(除两人为研究生) ,其中,各年级人数分布如下:Figure 1 年级分布由上图可以看出,本次调查中大二年级的同学占绝大多数,达 51.2%,其次为大一同学,占 23.36%,大三与大四同学分别占到 14.6%与 9.49%,本科以上学历者仅占到 1.46%。3.现在所处感情状态与感情经历Figure 2 目前感情状态Figure 3 感情经历由上图可以看出,在本次的被调查人群中,目前无伴侣者约占到总人数的 3/4,而有伴侣者仅占到 1/4。在目前无伴侣的调查者中,约 1/2(总样本的 3/8)的调查者曾有过感情经历,而另外 1/2(总样本的
6、3/8)还未曾有过感情经历。4.入学途径Figure 4 入学途径在关于入学途径的调查中,通过普通高考进入大学的被调查者占绝大多数,达到 67.15%;其次为自主招生,占到 19.71%;竞赛保送的同学占到 13.14%。5.身高本次被调查者的总体身高分布情况,及对应正态分布图线如上图所示。据统计,本次调查中,被调查者身高的样本均值为 175.86cm,标准差为 5.38。其中,中位数为 176cm,众数为 170cm,最大值与最小值分别为 192cm 与 160cm。6.体重本次被调查者总体体重分布情况,及正态分布图线如上图所示据统计,本次调查中,被调查者体重的样本均值为 66.56kg,标
7、准差为 8.01。其中,中位数与众数均为 65kg,最大值与最小值分别为 87kg 与 50kg。7.平均绩点本次被调查者总体绩点分布情况,及正态分布图线如上图所示(由于被调查人群中大一年级同学尚未得知其平均绩点,因此仅选择了非大一年级同学的剩余 92 份调查结果)据统计,本次调查中,被调查者体重的样本均值为 3.33,标准差为 0.31。其中,中位数为3.37,众数为 3.25,最大值与最小值分别为 3.85 与 2.39。(二)交叉分析1.年级与平均身高方差分析:单因素方差分析(年级对于平均身高的影响) SUMMARY 组(年级) 观测数 求和 平均 方差 4 12 2117 176.41
8、67 26.62879 3 19 3351 176.3684 36.80117 2 61 10564.72 173.1921 527.7598 1 31 5429 175.129 26.31613 方差分析 差异源 SS df MS F P-value F crit组间 226.9944 3 75.66481 0.2695 0.84728 2.680811组内 33410.41 119 280.7597 总计 33637.4 122 以上为通过 ANOVA 法,对获得的身高值与所在年级的数据处理之后的结果。我们发现,观测到的数据的 p-value=0.84728,非常大,因此我们可以认为,原假
9、设“1=2=3=4”可以被接受。这个同样可以通过 F 值的比较看出来。由上表我们看出,在 =0.05的条件下,F3,119,0.05=2.680811,而观测到的 F 值为 0.2695,远小于前者,因此我们同样可以得出结论,原假设应当被接受。所以,我们得出结论,年级对于男生的身高没有很大的影响。2. 年级与平均体重的影响方差分析:单因素方差分析(年级对于平均体重的影响) SUMMARY 组(年级) 观测数 求和 平均 方差 4 12 809 67.41667 68.08333 3 19 1249 65.73684 44.64912 2 61 4078 66.85246 65.3362 1 3
10、1 2051 66.16129 77.47312 方差分析 差异源 SS df MS F P-value F crit组间 31.82613 3 10.60871 0.161914 0.921786 2.680811组内 7796.967 119 65.52073 总计 7828.793 122 同样的,P-value 明显高于显著性水平,因此我们得出结论:年级对于男生的体重没有显著影响。3.出生地与绩点方差分析:单因素方差分析(地域对于绩点的影响) SUMMARY 组(地区) 观测数 求和 平均 方差 1 17 56.99 3.352353 0.042132 2 76 250.34 3.29
11、3947 0.163931 方差分析 差异源 SS df MS F P-value F crit组间 0.04739 1 0.04739 0.332526 0.565599 3.945694组内 12.96892 91 0.142516 总计 13.01631 92 类似的,我们做出了不同地域的同学的平均绩点的差异比较。组 1 是来自一线城市的同学的数据,组 2 是来自其他地区城市的同学的相应数据。我们在本次研究中把“一线城市” 定义为:北京,上海,广州,重庆,天津,香港,台北。通过 ANOVA 表我们看出, “一线城市”同学的平均绩点要比其他城市同学的要稍微高一点点,可是差别并不显著,因为
12、P-value 也较大。因此我们认为,来自不同地区的同学的成绩并不存在显著的差异。4.身高与体重SUMMARY OUTPUT 回归统计 Multiple R 0.568158 R Square 0.322804 Adjusted R Square 0.317207 标准误差 6.614726 观测值 123 方差分析 df SS MS F Significance F 回归分析 1 2523.673 2523.673 57.6779 7.18273E-12 残差 121 5294.306 43.7546 总计 122 7817.98 Coefficients 标准误差 t Stat P-val
13、ue Lower 95% Upper 95%Intercept -81.7943 19.54877 -4.18411 5.45E-05 -120.4962165 -43.0923height 0.843665 0.111088 7.594597 7.18E-12 0.62373806 1.063592由上表及残差图我们可以看出,由回归得出的 0以及 1的 P-value 的值都很小,说明身高与体重是具有显著的线性相关关系的。F 检验的显著性水平和残差图都让我们相信,这个回归模型是可行且有效的。因此,该结果检验了一个大家公认的道理,体重与身高水平间是具有明显的相关性的。(三)针对影响脱光与否的变
14、量的探究1.样本数据的整理由于大一新生缺乏体侧和 GPA 等数据,而我们推测这些数据应该与是否脱光有一定联系,所以做出了两个样本,Sample1 包含大二至大四的 93 位同学的数据,包括体测与 GPA 等数据,Sample2 包括大一到大四所有有效问卷的所有变量数据。由于问卷设计的问题,对于恋爱史这个问题的回答,如果已经脱光的人这个问题就直接跳转了,所以所有已经脱光的同学的第三题回答都是“跳过 ”,造成做 Logistic 回归时,百分百匹配的错误结果。2.logistic 回归模型理论回顾及应用1) Logistic 回归理论:Logistic 回归模型是一种概率模型,适合于病例 对照研究
15、、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。令: y=1 发病(阳性、死亡、治愈等) ,y=0 未发病(阴性、生存、未治愈等)发病的概率记为 P,它与自变量 x1, x2,xp 之间的 Logistic 回归模型为:可知,不发病的概率为:经数学变换得:定义:Logistic 变换即为:流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即 Xi 的优势比为:2) Logistic 回归模型在本研究中的应用A. Sample1 分析:l 变量说明y(因
16、变量) 是否脱光x1 入学途径x2 眼镜度数x3 身高x4 体重x5 出生地城市等级x6 填写问卷所用时间x7 年级x8 学习时间x9 社交活动时间x10 游戏时间x11 社交网络时间x12 每周洗澡次数x13 每学期剪发次数x14 每餐饭饭量x15 月平均生活费x16 恋爱活动花销上限l Logistic regression Number of obs = 127LR chi2(15) = 4.90Prob chi2 = 0.9930Log likelihood = -71.335948 Pseudo R2 = 0.0332y Odds Ratio Std. Err. z P|z| 95%
17、 Conf. Interval x1 0.999396 0.27427 0 0.998 0.583629 1.711347x2 0.999729 0.000877 -0.31 0.757 0.998012 1.001448x3 1.019669 0.040322 0.49 0.622 0.943624 1.101842x4 1.012096 0.031398 0.39 0.698 0.952391 1.075545x5 0.837097 0.519101 -0.29 0.774 0.248272 2.82243x7 1.094433 0.265786 0.37 0.71 0.679943 1.
18、761592x8 0.920306 0.158984 -0.48 0.631 0.655973 1.291156x9 1.114203 0.167649 0.72 0.472 0.829637 1.496374x10 1.081307 0.158682 0.53 0.594 0.811026 1.441661x11 1.013538 0.150495 0.09 0.928 0.757617 1.35591x12 0.936543 0.229368 -0.27 0.789 0.57951 1.513544x13 1.191193 0.372359 0.56 0.576 0.645509 2.19
19、8174x14 1.140432 0.380887 0.39 0.694 0.592626 2.194611x15 1.041715 0.237615 0.18 0.858 0.666178 1.628951x16 1.000107 0.0003 0.36 0.721 0.999519 1.000695Sample1 的伪 R 方很低,说明模型对数据的解释程度很小,没有发现显著的相关性。B. Sample 2 分析l 变量说明Y(因变量) 是否脱光x1 入学途径x2 眼镜度数x3 身高x4 体重x5 出生地城市等级x6 平均绩点x7 学习时间x8 社团活动时间x9 游戏时间x10 社交网络时间
20、x11 每周洗澡次数x12 每学期剪发次数x13 每餐饭饭量x14 体质健康测试成绩x15 思想品德修养成绩x16 月平均生活费x17 恋爱活动花销上限x18 填写问卷所用时间x19 年级l Logistic regressionNumber of obs = 93LR chi2(19) = 19.76Prob chi2 = 0.4091Log likelihood =-44.253338 Pseudo R2 = 0.1825y Odds Ratio Std. Err. z P|z| 95% Conf. Interval x1 0.759095 0.319925 -0.65 0.513 0.3
21、32317 1.733965x2 0.998395 0.001208 -1.33 0.184 0.996031 1.000764x3 1.008557 0.028756 0.3 0.765 0.953743 1.066522x4 0.993813 0.040715 -0.15 0.88 0.917133 1.076905x5 1.303468 0.958247 0.36 0.718 0.308559 5.506333x6 10.43962 13.1499 1.86 0.063 0.884094 123.2738x7 0.677543 0.18384 -1.43 0.151 0.398087 1
22、.153176x8 0.960636 0.193426 -0.2 0.842 0.647393 1.425442x9 1.348398 0.263897 1.53 0.127 0.918815 1.978828x10 0.944803 0.196065 -0.27 0.784 0.629072 1.418997x11 1.830184 0.692775 1.6 0.11 0.871549 3.843243x12 0.863524 0.385489 -0.33 0.742 0.359987 2.071391x13 0.862981 0.35367 -0.36 0.719 0.386508 1.9
23、2683x14 1.014208 0.025802 0.55 0.579 0.964877 1.066061x15 0.97647 0.049797 -0.47 0.641 0.883589 1.079113x16 0.870935 0.31608 -0.38 0.703 0.427629 1.773797x17 0.999315 0.000541 -1.27 0.206 0.998255 1.000376x18 0.990483 0.004934 -1.92 0.055 0.98086 1.000201x19 1.042927 0.401648 0.11 0.913 0.490278 2.2
24、18532C.回归结果分析观察伪 R 方,为 0.1825,因为是取实际数据而且对于总的人口来说,大小为 93 的样本略小,所以模型拟合度较低也是在接受范围之内。观察 P 值,可以发现 x6 和 x18 是显著的,分别代表 GPA 和填写问卷用时,他们的 Odds Ratio 均为正,分别是 10.43962 和.9904828,Odds ratio 代表的是自变量对因变量变化率的关联程度,由此我们发现相比于其他的变量 GPA 显著与是否脱光具有正相关性,但是由于不清楚因果顺序,我们并不能断定是“是否脱光”导致高 GPA,还是高 GPA 导致了更容易脱光。对于填写问卷时间,这里由于不是所有人都
25、填写了这份问卷,所以这个变量的说明性不强,但是我们可以做出假设填写问卷的时间有可能反映了这个人的耐心程度,一定程度上是个人特质的反映。所以也和是否脱光有正相关。我们删掉变量 x18(即问卷填写用时)后,重新对 Sample2 进行 logistic 回归:l Logistic regressionNumber of obs = 93LR chi2(19) = 15.26Prob chi2 = 0.6439Log likelihood =-46.502035 Pseudo R2 = 0.1410y Odds Ratio Std. Err. z P|z| 95% Conf. Interval x1
26、 0.966567 0.389683 -0.08 0.933 0.438591 2.13012x2 0.998552 0.001221 -1.18 0.236 0.996163 1.000948x3 1.004375 0.023902 0.18 0.854 0.958604 1.052332x4 1.000338 0.039711 0.01 0.993 0.925456 1.081279x5 1.118968 0.762385 0.16 0.869 0.294354 4.253692x6 9.875414 11.59249 1.95 0.051 0.989355 98.57315x7 0.65
27、7345 0.171125 -1.61 0.107 0.394641 1.094927x8 0.988415 0.188748 -0.06 0.951 0.679819 1.437095x9 1.247821 0.231837 1.19 0.233 0.866971 1.795973x10 0.998727 0.200802 -0.01 0.995 0.673451 1.481112x11 1.994701 0.729849 1.89 0.059 0.973707 4.086274x12 0.870734 0.379475 -0.32 0.751 0.370615 2.045727x13 1.
28、046934 0.405072 0.12 0.906 0.490432 2.234909x14 1.024493 0.025059 0.99 0.323 0.976536 1.074805x15 0.968472 0.048457 -0.64 0.522 0.878006 1.068258x16 0.860198 0.308118 -0.42 0.674 0.426288 1.735777x17 0.999382 0.00048 -1.29 0.198 0.998442 1.000324x19 1.06663 0.394124 0.17 0.861 0.517002 2.200574发现除 x
29、6 显著的同时,x11 也显著 p 值为 0.059,Odds Ratio 为 1.994701,说明洗澡次数的多少和是否脱光有显著正相关,但是在交叉分析的时候也可以看见,并不是洗澡次数越多越好,而是在洗澡次数为一周 5-6 次的人群中脱光比率最高。同时观察到 P 值较小的x7(学习时间) ,我们猜测 GPA 和学习时间之间是否有相关性,所以对绩点和学习时间做了相关性分析:由相关性分析得出,绩点与学习时间的相关系数为 0.2356,相关性显著水平为 0.0230,说明他们是显著相关的,于是我们再调整 logistic 回归模型,去掉学习时间后再做回归:l Logistic regression
30、Number of obs = 93LR chi2(19) = 12.45Prob chi2 = 0.7724Log likelihood =-47.909893 Pseudo R2 =0.1150y Odds Ratio Std. Err. z P|z| 95% Conf. Interval x1 1.123618 0.431459 0.3 0.761 0.529377 2.384912x2 0.998841 0.001145 -1.01 0.312 0.996599 1.001088x3 1.007638 0.021451 0.36 0.721 0.96646 1.05057x4 1.00
31、7309 0.03744 0.2 0.845 0.936537 1.083429x5 0.918112 0.599241 -0.13 0.896 0.255462 3.299625x6 6.722039 7.580689 1.69 0.091 0.737174 61.29599x8 1.010959 0.19535 0.06 0.955 0.692236 1.476431x9 1.317978 0.241724 1.51 0.132 0.920012 1.88809x10 0.908595 0.169878 -0.51 0.608 0.62983 1.310744x11 1.78157 0.5
32、99984 1.71 0.086 0.92075 3.447182x12 1.232802 0.456778 0.56 0.572 0.596356 2.548476x13 1.072568 0.393097 0.19 0.848 0.522949 2.199838x14 1.027493 0.024851 1.12 0.262 0.979922 1.077373x15 0.963352 0.047452 -0.76 0.448 0.874696 1.060994x16 0.92975 0.321295 -0.21 0.833 0.472296 1.830279x17 0.999607 0.0
33、00442 -0.89 0.374 0.998741 1.000474x19 1.190924 0.420169 0.5 0.62 0.596448 2.377911从以上回归分析结果来看,仍然为绩点和洗澡次数较为显著。3. 卡方检验(Goodness of Fit Test)理论回顾及应用1)卡方检验理论回顾l 理论依据:H0: pij=pi.p.j for i=1,R and j=1,CH1: The hypothesis H0 is not true.l 需要检验的统计量:2)卡方检验在本研究中的应用A. Sample 1 卡方检验检验地域,年级和是否脱光的独立性:l 地域与是否脱光对应
34、的列联表如下:x5 1 2 Total0 13 28 93y1 6 80 34Total 19 108 127经过计算得出,该卡方检验的 P 值为 0.608。l 年级与是否脱光对应的列联表如下:x7 1 2 3 4 5 Total0 22 51 11 8 1 93y1 9 13 8 4 0 34Total 31 64 19 12 1 127经过计算得出,该卡方检验的 P 值为 0.361。在我们选定的 0.05 的显著性水平下,对于以上两个检验的原假设我们均接受。说明地域分布,年级与脱光与否没有显著相关性。5.研究结果综述在本次研究中,我们用 Logistic 模型研究了“x1 入学途径;x
35、2 眼镜度数;x3 身高;x4 体重;x5 出生地城市等级(一线或者二线) ;x6 平均绩点;x7 每周学习时间;x8 每周社团活动时间;x9 每周花在游戏上的时间;x10 每周在社交网络时间;x11 每周洗澡次数;x12 每学期剪发次数;x13 每餐饭饭量; x14 体质健康测试成绩; x15 思想品德修养成绩;x16 月平均生活费;x17 恋爱活动花销上限;x18 填写问卷所用时间;x19 年级”等 19 个变量对于脱光与否的影响。我们把样本数据分为两组,其中第一组包含 19 个自变量,针对非大一同学;另一组包含 16 个自变量(以上 19 个数据中除去“x6 平均绩点,x14 体质健康测
36、试成绩和 x15思想品德修养 成绩” ) ,针对所有参与调查的同学。在两组数据的分析中,我们惊奇的发现,在罗列出来的所有变量中,最后都只有“绩点” 和“每周洗澡次数” 同脱光与否有显著的正相关关系。其余的 17 个变量与脱光与否的关系不显著。这说明绩点越高的男生,他脱光的机会就越大;同样, “每周洗澡次数” 越多,他就更有可能赢得女生的青睐。而至于其他的因素,像来自一线城市还是二线城市,身高体重如何,家境如何,所在年级,均与脱光与否没有直接相关关系。所以,对于尚未脱光的男生们,大家一定不要懊丧于自己的家庭状况和所生活的城市,也不要懊恼于自己的身体条件,或者苦恼于自己的思想道德水平没有其他人人高尚,抑或是自己在不同活动上的时间分配不合理,它们对于脱光与否都不是主要因素!而如果你想在恋爱问题上取得突破,突破口便是自身的形象的维护和学习成绩的提高。最后在报告的结尾部分,我们衷心提醒广大男同胞们,每周“多洗几次澡” , “多看一些书” ,你的脱光之路将不再漫长。真心祝愿每位有情人找到属于自己的真爱!