1、1 “ 拍照赚钱 ” 的任务定价 摘要 本文针对任务完成程度,建立了相关的定价模型,利用聚类分析、回归分析、模糊综合评价,借助于 MATLAB、 SPSS、 Minitab15 软件,得到更优的定价方案,通过引进“最近邻”思想,得到了任务打包定价方案。 问题一:利用附件一的数据,建立相关定价的模型,利用聚类分析、回归分析,借助于 SPSS和 MATLAB,得出任务未完成的原因是任务位置偏远、定价偏低 、会员离任务较远。 问题二:建 立三个指标,考虑到人均收入、定价、会员数量对任 务完成度的影响。利用变异系数法建立三指标与任务完成度的 数学模型: n11* *nttttN F N F指标前的系数
2、由变异系数法确定,检验结果表明该模型的任务完成度更高。 问题三:通过聚类将原始数据分为三类,利用 “ 最近邻 ” 思想,对每个聚类区域建立打包定价模型。该模型可以使定价更低且提高任务的完成度。 问题四:分别利用问题二和问题三所建模型对新项目数据求解并进行对比,得出联合打包定价模型优于问题二所建模型,其联合打包定价更低、任务完成度更高。 关键词 :聚类分析 定价方案 最小二乘法 模糊综合评价 2 1 问题重述 1.1 “拍照赚钱” 的背景资料与条件 随着通讯的发达,“拍照赚钱” APP可以利用不同位置的 会员 收集各种商业的检查和信息搜集,代替了传统在市场上调查的方式,而且节省时间、人力和资金,
3、并得到更具真实的数据。 做“拍照赚钱”任务的条件是必须是成为该 APP的会员,可以在手机上进行下载然后注册为会员,而 APP中的核心是任务定价,如果定价不合理,则该任务无人领取去执行。 1.2 需要解决的问题 (1) 研究附件一中的项目的任务定价规律,分析任务未完成的原因。 (2) 为附件一中的项目设计新的任务定价方案,并和原方案进行 比较。 (3) 实际情况下,多个任务可能因为位置比 较集中,导致用户会争相选择,一种考虑是将这 些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型, 对最终的任务完成情况又有什么影响? (4) 对附件三中的新项目给出任务定价方案,并评价该方案的实施效
4、果。 2 问题分析 2.1 问题 一 的分析 问题一要求研究附件一项目的任务定价规律,首先我们将附件一的经纬度 插入 地图无忧 中 显示所在 的 地点,主观上可以看出大致为三个区域,因此采取聚类分析,将其分为三类:广州市,东莞市,深圳市,然后对三个区域的定价情况用SPSS 做相关性分析,采用回归分析方法的最小二乘估计做出三个区域的 定价规律。 针对分析 任务未完成的原因,我们从地址和定价两个因素进行了分析,从价格因素 上,上面得出的三个 区域的定价规律已经说明了价格对任务完成度的影响,所以再从地址因素 上进行分析,我们利用了 MATLAB 软件做出经纬度和定价的三维散点图和三维曲面图,通过对图
5、形进行分析,得出来地理位置与任务完成度有关。 2.2 问题二的分析 问题二要求分析附件一中的项目后设计的定价方案,我们首先选取人均收入、会员数量和定价这三个指标,针对这三个指标在中华人民共和国国家统计局3 中筛选和提取数据,找出其平均值、标准差,然后根据变异系数 法中的公式计算变异系数,计算其权重。 最后我们创建模型,模型为权重和任务领取情况的关系,与原方案作比较,计算出了对应结果,以此来解决设计新的定价方案。 2.3 问题三的分析 对多个任务进行打包并修改定价模型,我们对打包后的定价做优化分析,做出线性规划问题的数学模型,根据约束条件求目标函数,根据目标函数的线性规律,得出打包后的定价模型,
6、最后与问题二进行比较,观测出比问题二的任务完成度高。 2.4 问题四的分析 我们先做出了新任务的分布图,发现新任务集中分布在广州地区。然后对广州地区的任务分布作出聚类,依次为 A区 B区 C 区。接下来对广州地区的完成度进行了一个预测,根据完成度与其影响因素的关系表达式,从而预测出 A区 B区 C区的任务定价。 4 3.模型假设 为了建立 更合理的 的数学模型,现做以下假设 : (1) 假设所有数据都是可靠的 。 (2) 由于佛山市的项目完成情况符合 广州市,假设佛山市的数据为广州市的数据, 不考虑佛山市 。 (3) 假设对偏离的异常值用 SPSS软件进行剔除 。 4.符号说明 为 研究 方便
7、 , 本文 所涉及 符号 意义 如下 : 表 1.符号意义 符号 意义 在 Y 轴上的截距 总体回归系数t 第 t 个指标的标准差 tF 第 t 个任务被领取的一种情况 tX 第 t 个指标的平均值 tP 第 t 个任务被领取的概率 N 区域的权重向量 XG 图十的总任务数 5 5.模型的建立与求解 5.1 问题( 1)的建模与求解 根据附件 一的经纬度、定价以及任务执行情况,通过无忧地图 APP 得到 任务的完成情况如下图所示。 0表示任务未完成, 1表示任务已完成,并用不同的颜色标出。 图 1.经纬度地点在地图上的位置 分析上图的位置点,任务已完成的点(即青色)分布的远比任务未完成的(即绿
8、色)分布的多,尤其是在东莞市任务的执行概率高达 99.5%,完成度在深圳市、广州市、东菀市中最高。 在纬度为 23.56 以上的,根据 SPSS 软件剔除异常值,则纬度 23.56 以上的点即被踢出,我们采用了模糊聚类的分析方法,将上图图一的经纬度点的分布进行聚类分析,见附录。 为研究附件一中项目的定价规律,所以可以运用 SPSS 软件根据聚类分析方法进行任务执行情况位置的分类: 表 2.对位置的聚类分析 因此分为三个区域图 ,每个区域图的任务完成点、任务未完成点和会员海量点呈现如下图所示: 变量 聚类 1 聚类 2 聚类 3 总质心 会员纬度 22.929 33.652 113.131 22
9、.983 会员经度 113.638 116.970 23.032 113.591 6 图 2.广州市 图 3.东 莞市 图 4.深圳市 对 图 3、 4、 5三个不同区域图进行定价规律 分析 ,首先先分析图 3广州市和图 5深圳市,这两地会员海量点还比较多,但任务 完成的概率 却 比较低,可能会有两个因素:任务价格低,会员信誉度较低。最后分析了图四东莞,用 minitab15软件统计了东莞的完成率,高达 90%以上,但根据图所显示,东莞的会员明显比广州市和深圳市少,但任务完成情况就比其他两地高,可能的两个因素:任务价格高,会员信誉度较高。因此,我们计算三个区域的价格范围百分比,先将以表格形式呈
10、现 如下: 表 3.各个地区定价范围百分比 区域定价范围 60-70 70-80 80-90 广州市 63.77% 36.23% 0 东莞市 48.82% 36.90% 14.28% 深圳市 79.31% 19.54% 1.149% 由上表可以看出三个区域的定价情况,首先做位置与定价的相关性分析,对每个区域的定价范围百分比元素进行分析,从而衡量这几个因素的密切程度,用SPSS 软件做相关性分析,对三个区域进行计算相关性系数 2R ,经计算可得: 7 表 4.各个地区的 2R 地址 2R 广东市 0.7824 东莞市 0.3677 深圳市 0.1847 然后做简单的线性回归分析来定量描述因变量与
11、自变量的额之间的数量关系,总体的线性回归方成的一般表达式为: |YX X ( 1) 其中, 为线性回归直线在轴的 Y 截距, 为总体回归系数。 利用最小二乘估计,虽然可用目测法观测出这些散点有线性趋势,但是主观性比较大,因此依据简单线性回归方程可进一步在散点图上绘制出回归直线,运用最小二乘法求得了 “最优 ”的直线,用 EXCEL 软件直接进行散点的线性的趋势线,可以得到 和 的估计值。 经计算,三个市分别计算 和 的最小二乘估计结果为 y1 = -0.3189x + 0.971 ( 2) y2 = -0.1217x + 0.6787 ( 3) y3 = -0.3908x + 1.1149 (
12、 4) 观察这三个市的线性回归方程,发现东莞市的项目价格满足周围会员人的意愿工资,而广州市和深圳市的项目价格偏低,因此定价对任务完成度有影响,以上则为项目定价规律。 接下来我们对附件一的数据进行处理,首先经纬度所显示的位置和定价由明确关系,我们应用 MATLAB 软件首先做的是三维散点图,如下图所示: 8 图 5.三维散点图 但是散点图数据太多,零散的分布在三维图上,不宜看出经纬度与定价具体有什么关系,所以通过 MATLAB 软件做三维曲面图,如下图示:图 6.三维曲面图 从该三维曲面图可以形象的看出,从中间凹处向两边逐渐趋高,而向右的高度越来越高,说明定价与经纬度的位置有关,也就是说明项目的
13、完成情况与经纬度有关系。 结合上边项目的定价规律和经纬度的研究,现做出任务未完成的原因有: 图 7. 任务未完成的 原因图 项目未完成的原因 定价 项目经纬度 会员位置 9 结合上图 7,定价太低,项目经纬度即位置太偏远,会员位置都会造成任务未完成。 5.2 问题二的模型建立与求解 5.2.1 指标的选取 由分析可知,任务的领取情况与社会、经济及地理因素等相关。每一类指标又涉及多种指标体系,为使模型更具有实用性,基于数据易采集、典型性、可量化的原则,选取三项指标作为分析依据。 5.2.2 变异系数法确定权重 在进行影响任务完成情况因素的分析中,大多依据经验主观地确定各项指标权重,虽简单易行,但
14、却缺乏理论数据的支撑。因此我们采取变异系数法来确定各项指标的权重。 我 们对该问题做出仔细分析,对于设计新的任务定价方案,首先利用变异系数法评价指标的权重,因此依据数据网站上的数据进行处理,计算均值与标准差,然后将均值和标准差计算变异系数,我们选取了人均收入、定价、会员数量这三个指标作为指标体系,反映出广州市、东莞市和深圳市在这些指标的差距,并作为各项指标权重的依据。其标准差、平均数数据及其计算出的变异系数等见下表表 5: 表 5. 各评价指标的权重 指标 人均收入(元) 定价(元) 会员数量(口) 广州市 平均数 27946.3 68.9779 866.67 标准差 1186 3.18395
15、 0.6699 变异系数( %) 0.0424 0.0469 0.01389 权重 0.41407 0.45038 0.1355 东莞市 平均数 38131.3 71.9217 541 标准差 388.2 5.5411 0.4631 变异系数( %) 0.0102 0.0770 0.02481 权重 0.09087 0.68769 0.22144 深圳市 平均数 40277.77 67.43966 648 标准差 1429.7 2.89134 0.5892 变异系数( %) 0.03549 0.04287 0.00982 权重 0.402499 0.48615 0.11135 注:已将个别异常
16、值剔除 变异系数的公式如下: 10 tttV x ( 5) 其中 t 为第 t 个指标的标准差, tX 为第 t 个指标的平均值( t=1,2,3。) 。 将平均数和标准差套入并填写到上表中 。 想得出各个评价指标上边公式,得到各个指标的变异系数,因此,使用上表中三个数据指标并利用公式计算权重,权重公式为: 3 ttttVWV( 6) 得到各项指标在各省的权重。 对于设计新的任务的定价方案,依据表 4,定价在所有指标中所占权重最大,现仅考虑任务定价对任务完成度 的影响。原定价模型如下: t ( 1, 2 , 3 , , n )tP N F t ( 7) 其中 tP 为第 t 个任务被完成 的概
17、率, N 为区域的权重向量, tF 为第 t 个任务被完成 的一种情况。 0t1tFt , 第 个 任 务 未 完 成, 第 个 任 务 被 完 成 ( 8) tF 是被完成 的情况是个定量,而权重向量是个变量,所以 N 越大, tP 越大 ,两者呈正相关关系,对定价进行调整为 N ,调整好定价的模型如下: t ( 1, 2 , 3 , , )tP N F t n ( 9) 为使任务定价方案得到改进,则需要保证: n 11* *nttttN F N F ( 10) 即 NN 因此,我们选举原方案其中的一些数据与新的定价方案的一些数据做比较,得到两者的比较图: 11 图 8.原方案 图 9.新定
18、价方案 经检验,新的定价方案比原定价方案的可实施性好。 5.3 问题三的模型与求解 基于 问题二,由于多个任务比较集中且被争相选择,对这些任务进行打包,因此对每个区域利用模糊数学的方法分别进行聚类,现将广州市的聚类图形呈现如下: 图 10.广州市的聚类图形 将上图区域任务集中处再 做聚类,利用模糊数学,以其集中点中“最近邻”的思想,定性地在两个区域得出上边图形红色圈的两个聚类,设 两个聚类中心分 别为 1X 和 1X ,运用 Minitab 软件,统计出 1=120X , 1=59X ,上图区域内总的任务数为 =316XG 。 1X = 1X + 1X ( 11) 2X = XG - 1X (
19、 12) 即 1X 为聚类内的总数, 2X 为区域内聚类外的总数。 设 3X 为一个任务的定价, 3X 为聚类里的定价, 3X 为区域内聚类外的定价,y = -0.2777x2 + 0.875x - 0.1206 00.510 1 2 3 4原方案 y = -0.44x2 + 1.456x - 0.393 00.510 1 2 3 4新定价方案 12 因此做数学模型: 3 1 3 2 3+XX X X X X G ( 13) 代 入统计的数据可得: 3 3 31 7 9 1 3 7 3 1 6X X X ( 14) 33XX ( 15) 上述即为广州区域的聚类分析。 以此类推 , 东莞市的聚类
20、图为: 图 11.东莞市聚类图 数学模型为 3 3 36 2 7 7 1 3 9X X X ( 16) 深圳市的聚类图为: 图 12.深圳市聚类图 数学模型为: 3 3 37 8 1 1 2 1 9 0X X X ( 17) 当 33XX 时,发布任务者可以节省佣金,而且取得更高的领取率,进而得13 到较高的完成率。 分析上边公式并结合问题二,打包发布的任务完成情况相 比问题二的新的任务完成情况较好。 5.4 问题四的模型和求解 5.4.1 模型的建立 在不考虑任务联合打包的情况下, 对附件三中的新项目作出任务定价方案,因此,我们用地图无忧作出附件三中各点的位置图,并结合上述三个问题,现将分布
21、图如下图所示: 图 13.新项目位置图 由 上图 可知,新任务的主要分布在广州,深圳的宝安区与龙岗区。由于广州市任务分布较密集,现仅对广州市的新任务做定价分析。对广州市新任务的位置分布呈现在地图无忧中,将其位置分布分为三个区域,分别为设置为 A区 B区 C区 ,现 就这三个区域进行分析。如下图所示: 图 14.广州市 由问题二可知广州地区人均收入、任务定价以及会员数所占权重。 由此建立完成度与其影响因素的数学模型如下所示: 1 1 2 2 3 3y k x k x k x ( 18) A C B 14 (即 1X , 2X , 3X 分别代表人均收入、任务定价和会员数, 1K , 2K , 3
22、K 分别代表其权重。) 根据 表 5数据可已计算得出广州地区的完成度为 13475。 因为在广州地区人均 固定 收入与完成度一定,故可根据 A区 B区 C区不同的会员数量来估算该区的定价,用 EXCLE做如下统计可得 表 6. 广州市的会员数和定价预测 A区 B区 C区 会员数 61 95 130 定价预测 68.8 67.56 70.35 5.4.2 模糊综合评价 现对新项目的任务定价方案做出评价 (1) 取因素集 1 2 , 3,U u u u 领 取 率 完 成 度 影 响 力。 (2) 取评语集 1 2 3,V v v 良 好 一 般 优 秀 v。 (3) 确定各因素的权重 0.25,
23、 0.5, 0.25A 。 (4) 确定模糊综合评判矩阵对每个数据做出评价 由相关人员评定可得 1230.1 , 0.5 , 0.40.3 , 0.2 , 0.50.2 , 0.5 , 0.3 RRR以为第 iR 行为第 i 行构成评价矩阵 0 .1 0 .5 0 .40 .3 0 .2 0 .50 .2 0 .5 0 .3R它是从因素集 U 到评语集 V 的一个模糊关系矩阵。 (5)模糊综合评判。进行矩阵合成运算: 0 .1 0 .5 0 .40 .2 5 , 0 .5 , 0 .2 5 0 .3 0 .2 0 .50 .2 0 .5 0 .3B A R 0 .2 2 5 0 , 0 .3
24、5 0 0 ,0 .4 2 5 0 15 取数值最大的评估作为综合评判结果,则评判结果为“优秀 ” 。 已知问题三的结论适合于任务位置比较集中,根据表 13 热力图的 显示 ,这些位置 也 集中在 两 个 区域 ,因此符合问题三的分析和结论,对附件三也进行“最近邻”思想进行打包,分为 两 个区域,利用模糊数学的方法分别进行聚类,先将广州市的聚类图形呈现如下: 图 15.广州市聚类图 利用问题三的结论,其数学模型为: 111 1 8 5 2 1 6 1 4 0 1UV ( 19) 其中 1U 为聚类内的总数, 1V 为区域内聚类外的总数。 以此类推, 深圳市的聚类图为: 图 16.深圳市聚类图
25、其数学模型为: 22462 89 551UV ( 20) 因此得出结论,发布任务者 可以节省总佣金,领取率也更加高,得出有较高16 的完成率。 上边两种情况进行比较,发现结合问题三的结论更加有效,联合打包定价更低,任务完成度更高。 6 模型的评价 6.1 模型的优点 (1) 根据经、纬度,将会员 位置、任务完成情况在地图上用不同颜色标注出来。 分析过程得到简化,便于后续结果的分析计算,使模型更贴近真实。 (2) 采用多种分析方法,系统详细的分析各个因素对结果的影响,使得建模更严谨可信。 (3) 考虑到了一些极值对结果的影响,故进行数据筛选,使模型尽可能真实可信。 (4) 通过大量搜集文献资料,
26、提出合理的假设,忽略不重要的因素,不仅简化了模型并且得到了合理的模型效果。 6.2 模型的缺点 数据只是在数据网站上搜索的,会与数据的真实性有些偏差,因此模型和结论的准确性可能会因为数据而有偏差。 建立指标时,只考虑了三个因素,而忽略了 其他的因素,结果可能会有偏差。 7 模型的改进与推广 7.1 模型的改进 多方查阅所需数据,考虑多方面因素; 优化算法结构,力求贴近实际,使建模结构真实可靠 。 7.2 模型的推广 聚类分析模型从样本数据出发自动进行分类,可广泛应用于商业、生物、地理、因特网及电子商务领域 。 17 参考文献 1 王灿灿 , 贾俊芳 . 基于价格歧视的高速铁路客票动态定价方案研
27、究 J. 铁道运输与经济 , 2016, 38(11): 6-11. 2 钱浩 , 刘元志 . 游轮定价方案研究 J. 现代商业 , 2015 (21): 69-70. 3 孔祥堃 , 沙金梦 , 王英凡 , 等 . 青岛市地铁票价的影响因素与定价方案设计 J. 中国市场 , 2015 (28): 70-71. 4 张勇 , 赵挺生 , 张正柱 , 等 . 基于 SD-MOP 耦合模型的 PPP 模式下城市污水处理费动态调整 J. 土木工程与管理学报 , 2017, 34(1): 55-60. 5 刘惠娟 , 顾亚斌 , 张翠萍 , 等 . 在新版医疗服务项目规范下医用耗材打包定价的策略研究
28、J. 中国卫生经济 , 2016, 35(5): 51-54. 6 耿国华 , 石晨晨 , 魏潇然 , 等 . 3D 打印中的模型分割与打包 J. 光学 精密工程 , 2016, 24(6): 1439-1447. 7 包北方 , 杨育 , 李雷霆 , 等 . 产品定制协同开发任务分配多目标优化 J. 计算机集成制造系统 , 2014, 20(4): 739-746. 8 朴龙健 , 艾芊 , 余志文 , 等 . 计及客户满意度的电动汽车多代理充电定价策略 J. 电力系统自动化 , 2015, 39(22): 68-75. 9 周杰 , 李豪 . 考虑乘客策略行为的航空客运机票模糊销售 机制研
29、究 J. 工业工程与管理 , 2016, 21(1): 150-158. 10 谢兆霞 , 李莉 . 考虑支付意愿条件下服务成本对 B2B 电子中介定价策略的影响研究 J. 运筹与管理 , 2016 (2016 年 04): 273-281. 11 李文杰 , 化存才 , 何伟全 , 等 . 网络舆情信息的综合评价指标体系构建与模糊评判模型 J. 情报科学 , 2015, 33(9): 93-99. 12 闵庆文 , 余卫东 , 张建新 . 区域水资源承载力的模糊综合评价分析方法及应用 J. 水土保持研 究 , 2004, 11(3): 14-16. 18 附录 附录 1. 三维曲面程序 x=
30、纬度 ; %纬度指的是附件一中的任务 gps 纬度所有数值 y=经度 ; %经度指的是附件一中的任务 gps 经度所有数值 z=任务标价 ; %经度指的是附件一中的任务标价的所有数值 X,Y=meshgrid(min(x):0.01:max(x),min(y):0.01:max(y); Z=griddata(x,y,z,X,Y,v4); figure(1); surf(X,Y,Z); hold on plot3(x,y,z,*) 19 附录 2.三维散点程序 a1=纬度 且任务执行情况为 0; a2=纬度 且任务执行情况为 1; % b1=经 度 且任务执行情况为 0; b2=纬度 且任务执行
31、情况为 1; % z1=任务标价且任务执行情况为 0 z2=任务标价且任务执行情况为 1 plot3(a1,b1,z1,g.); hold on grid on;plot3(a2,b2,z2,r.) 20 附录 3.中心点程序 a1=纬度 ; %纬度指的是附件二中的任务 gps 纬度所有数值 b1=纬度 ; %纬度指的是附件三中的任务 gps 纬度所有数值 a2=经度 ; %经度指的是附件二中的任务 gps 经度所有数值 b2=经度 ; %经度指的是附件三中的任务 gps 经度所有数值 plot(a1,b1,r.); hold on plot(a2,b2,g.) hold on;plot(23
32、.20,113.27,bo) hold on;plot(23.09,113.31,bo) hold on;plot(23.15,113.37,bo) 21 附录 4.问题一的聚类分析图 Euclidean 距离 , 最短距法 合并步骤 最终分割 聚类数 3 观测值个数 到质心的类内平方和 到质心的 平均距离 最大距离 聚类 1 1875 573.418 0.440624 9.93557 聚类 2 1 0.000 0.000000 0.00000 聚类 3 1 0.000 0.000000 0.00000 聚类质心 变量 聚类 1 聚类 2 聚类 3 总质心 会员纬度 22.929 33.652 113.131 22.983 会员经度 113.638 116.970 23.032 113.591 聚类质心之间的距离 聚类 1 聚类 2 聚类 3 聚类 1 0.000 11.229 127.851 聚类 2 11.229 0.000 123.051 聚类 3 127.851 123.051 0.000 22