营销工程报告
目 录
实验一 | 联合分析 |
---|---|
实验二 | 因子分析 |
实验三 | 树模型分析 |
实验四 | 多维尺度分析 |
实验五 | 多元回归分析 |
实验六 | 衍生模型 |
实验七 | 聚类分析(市场细分) |
实验一 | 联合分析 | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.3.19 |
实验目的
利用数据文件进行联合分析,了解联合分析的方式方法。
实验内容
通过最大效用模型将数据的重要性进行排序和对比,分析出对乘客最重要的因素。
实验步骤和实验结果分析
模型描述 | ||
---|---|---|
水平数 | 与排列或得分相关 | |
warranty | 3 | 离散 (大于) |
seats | 2 | 离散 |
price | 3 | 线性 |
speed | 3 | 线性 |
并非所有因子都是正交因子。 |
因子水平的相关性 | ||
---|---|---|
因子 A 的水平 | 因子 B 的水平 | |
1 | warranty = 1 | seats = 4 |
2 | warranty = 3 | seats = 4 |
3 | seats = 2 | warranty = 5 |
左侧的因子水平始终与右侧的因子水平一起出现。 |
从上面两个表看来,实验设计无误
Cramer 的 V 统计量 | ||||
---|---|---|---|---|
warranty | seats | price | speed | |
warranty | 1 | .866 | .365 | .144 |
seats | .866 | 1 | .400 | .122 |
price | .365 | .400 | 1 | .412 |
speed | .144 | .122 | .412 | 1 |
并非所有因子都是正交因子。 |
Waranty与seats存在较强的相关性,因子间不存在强共线性
以主体 6: 6来分析
实用程序 | |||
---|---|---|---|
实用程序估计 | 标准误 | ||
warranty | 1 | -2.448 | 2.494 |
3 | 1.040 | 3.095 | |
5 | 1.408 | 3.940 | |
seats | 2 | -1.554 | 2.966 |
4 | 1.554 | 2.966 | |
price | 7000 | -2.853 | 4.233 |
10000 | -4.076 | 6.048 | |
14000 | -5.707 | 8.467 | |
speed | 70 | .027 | 4.333 |
100 | .038 | 6.190 | |
130 | .049 | 8.047 | |
(常数) | 11.865 | 7.046 |
上表列出的是受测者6作评价时各属性水平的受欢迎程度,数值越高受欢迎程度越高。对受测者6而言,他喜欢5年担保、4座、1.4万美元、时速为70的汽车。
重要性值 | |
---|---|
warranty | 39.193 |
seats | 31.577 |
price | 28.998 |
speed | .232 |
表示进行评价时个属性的相对重要程度,担保情况>座位数>价格>时速。
相关性a | ||
---|---|---|
值 | Sig. | |
Pearson 的 R | .395 | .073 |
Kendall 的 tau | .276 | .076 |
a. 已观测偏好和估计偏好之间的相关性 |
0.073>0.05,模型拟合效果较差,只有<0.05时,拟合才比较好
整体统计量
模拟的偏好分数 | |||
---|---|---|---|
卡编号 | ID | 得分 | |
dimension0 | 1 | 2 | 8.434 |
2 | 4 | 9.441 | |
3 | 7 | 9.081 | |
4 | 11 | 7.538 | |
5 | 12 | 10.333 | |
6 | 14 | 8.030 |
相差不大
模拟的偏好概率b | |||||
---|---|---|---|---|---|
卡编号 | ID | 最大效用a | Bradley-Terry-Luce | 分对数 | |
dimension0 | 1 | 2 | 16.7% | 16.0% | 21.7% |
2 | 4 | 16.7% | 17.8% | 13.0% | |
3 | 7 | .0% | 17.2% | 10.1% | |
4 | 11 | 16.7% | 14.3% | 13.3% | |
5 | 12 | 33.3% | 19.5% | 31.5% | |
6 | 14 | 16.7% | 15.2% | 10.4% | |
a. 包括约束模拟 | |||||
b. 由于这些主体的得分都是非负数,因此 Bradley-Terry-Luce 和分对数方法中使用了 6 个主体中的 6 个主体。 |
逆转次数 | |||
---|---|---|---|
因子 | warranty | 3 | |
speed | 0 | ||
price | 0 | ||
seats | 0 | ||
主体 | 1 | 主体 1 | 0 |
2 | 主体 2 | 1 | |
3 | 主体 3 | 0 | |
4 | 主体 4 | 1 | |
5 | 主体 5 | 1 | |
6 | 主体 6 | 0 |
不同水平对不同个体的效用图,对大多数受測者而言,随着等级的上升,消费者的偏好有增大趋势,其中有两个特殊个体,2的去失物大多数人相反,5则受担保影响不大。
不同属性对个体平均效用条图。除了3、5受测者,大多数受测者受warranty、seats、price影响,受speed影响较弱。5受speed影响较大,3受warranty影响较大
实验二 | 因子分析 | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.4.2 |
实验目的
根据因子分析得出各因子得分以及排序。
实验内容
利用各地区平均收入的数据进行因子分析,了解分析内容。
实验步骤和实验结果分析
KMO 和 Bartlett 的检验 | ||
---|---|---|
取样足够度的 Kaiser-Meyer-Olkin 度量。 | .620 | |
Bartlett 的球形度检验 | 近似卡方 | 231.285 |
df | 28 | |
Sig. | .000 |
Bartlett 说明可以拒绝各变量独立的假设,可以做银因子分析
Kmo统计量为0.620.小于0.7,各变量间的信息重叠度不是特别高,做出的因子分析模型可能不是特别完善。
显示各个因子的重要性程度,前三个因子在陡坡上,后五个因子坡不高,且特征跟小于1,因此多考虑前三个公因子即可。
公因子方差 | |
---|---|
提取 | |
GDP | .945 |
居民消费水平 | .799 |
固定资产投资 | .902 |
职工平均工资 | .873 |
货物周转量 | .857 |
居民消费价格指数 | .957 |
商品价格指数 | .928 |
工业总产值 | .904 |
提取方法:主成份分析。 |
表示原始信息能被提取的公因子所表示的程度,几乎所有变凉都在80%以上,因此提取出的公因子对各变量解释能力较强。
成份矩阵a | |||
---|---|---|---|
成份 | |||
1 | 2 | 3 | |
GDP | .884 | .385 | .120 |
居民消费水平 | .606 | -.596 | .277 |
固定资产投资 | .911 | .163 | .213 |
职工平均工资 | .465 | -.725 | .362 |
货物周转量 | .486 | .737 | -.279 |
居民消费价格指数 | -.510 | .257 | .794 |
商品价格指数 | -.621 | .596 | .433 |
工业总产值 | .822 | .429 | .210 |
提取方法 :主成份。 | |||
a. 已提取了 3 个成份。 |
因子表达式为:
ZX1=0.884F1+0.385F2+0.120F3+e1
ZX2=0.606-0.596F2+0.277F3+e2
………
ZX8=0.822F1+0.492F2+0.210F3+e3
旋转成份矩阵a | |||
---|---|---|---|
成份 | |||
1 | 2 | 3 | |
GDP | .955 | .124 | -.131 |
工业总产值 | .944 | .109 | -.014 |
固定资产投资 | .872 | .351 | -.137 |
货物周转量 | .751 | -.507 | -.192 |
职工平均工资 | .048 | .925 | -.121 |
居民消费水平 | .219 | .841 | -.209 |
居民消费价格指数 | -.135 | -.013 | .969 |
商品价格指数 | -.104 | -.496 | .819 |
提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 | |||
a. 旋转在 5 次迭代后收敛。 |
第一公因子在X1.X3.X5.X8有较大载荷,命名为总量因子
第二公因子在X2.X4有较大载荷,命名为消费因子
第三公因子在X6.X7有较大载荷,命名为价格因子
成份得分系数矩阵 | |||
---|---|---|---|
成份 | |||
1 | 2 | 3 | |
GDP | .306 | .011 | .047 |
居民消费水平 | .025 | .387 | .040 |
固定资产投资 | .270 | .129 | .075 |
职工平均工资 | -.025 | .451 | .096 |
货物周转量 | .248 | -.319 | -.139 |
居民消费价格指数 | .070 | .180 | .653 |
商品价格指数 | .077 | -.098 | .462 |
工业总产值 | .317 | .026 | .123 |
提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。 |
F1=0.306ZX1+0.025ZX2+0.270ZX3-0.025ZX4+0.248ZX5+0.070ZX6+0.077ZX7+0.317ZX8
F2=0.011ZX1+0.387ZX2+0.129ZX3+0.451ZX4-0.319ZX5+0.180ZX6-0.098ZX7+0.026ZX8
F3=0.047ZX1+0.025ZX2+0.075ZX3+0.096ZX4-0.139ZX5+0.653ZX6+0.462ZX7+0.123ZX8
元件評分係數矩陣 | |
---|---|
元件 | |
1 | |
国有经济单位 | .172 |
集体经济单位 | .168 |
联营经济单位 | .141 |
股份制经济单位 | .161 |
外商投资经济单位 | .168 |
港澳台经济单位 | .174 |
其他经济单位 | .141 |
擷取方法:主體元件分析。 轉軸方法:具有 Kaiser 正規化的最大變異法。 元件評分。 |
由表中数据可以得到公因子的表达式为
F1=0.172ZX1+0.168ZX2+0.141ZX3+0.161ZX4+0.168ZX5+0.174ZX6+0.141ZX7
计算因子A=5.502*FAC1-2并且按大小排序得到排序结果如下:
经济发展最好的是上海、江苏、山东地区;发展较差的是海南、宁夏、安徽
实验三 | 树模型分析 | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.4.9 |
实验目的
通过树模型将数据进行分析,了解树模型分析和内容。
实验内容
进行树模型分析,
要求:
1)基本操作;2)考虑变量的重要性;3)考虑应用模型时的成本与收益;4)剪枝。
实验步骤和实验结果分
节点的收益 | ||||||
---|---|---|---|---|---|---|
节点 | 节点 | 增益 | 响应 | 指数 | ||
N | 百分比 | N | 百分比 | |||
7 | 121 | 12.1% | 76 | 27.7% | 62.8% | 229.2% |
8 | 90 | 9.0% | 53 | 19.3% | 58.9% | 214.9% |
3 | 237 | 23.7% | 71 | 25.9% | 30.0% | 109.3% |
6 | 173 | 17.3% | 43 | 15.7% | 24.9% | 90.7% |
5 | 379 | 37.9% | 31 | 11.3% | 8.2% | 29.9% |
增长方法:CRT 因变量列表: Churn within last month |
响应指每个节点中流失的比率;指数是指响应和比率百分比的对比,指数越高,表明响应的提升指数越高,节点的收益率更高
风险 | ||
---|---|---|
方法 | 估计 | 标准 误差 |
重新替代 | .227 | .013 |
交叉验证 | .229 | .013 |
增长方法:CRT 因变量列表: Churn within last month |
如果使用重新替代法会有22.7%的案例会在模型中被除分,如果使用交叉验证法会有22.9%的案例会在模型中被除分,两种方法都有误差
分类 | |||
---|---|---|---|
已观测 | 已预测 | ||
No | Yes | 正确百分比 | |
No | 644 | 82 | 88.7% |
Yes | 145 | 129 | 47.1% |
总计百分比 | 78.9% | 21.1% | 77.3% |
增长方法:CRT 因变量列表: Churn within last month |
上表表明了按照构建的树模型进行预测,预测的正确率,显示了预测的正确率为77.3%,实际正确率为47.1%
自变量的重要性 | ||
---|---|---|
自变量 | 重要性 | 标准化的重要性 |
Equipment last month | .066 | 100.0% |
Equipment rental | .065 | 98.6% |
Months with service | .061 | 92.0% |
Long distance over tenure | .057 | 85.6% |
Internet | .052 | 78.5% |
Electronic billing | .045 | 67.7% |
Log-long distance | .036 | 54.3% |
Long distance last month | .036 | 54.3% |
Calling card over tenure | .035 | 53.5% |
Age in years | .031 | 47.0% |
Equipment over tenure | .029 | 43.3% |
Years with current employer | .025 | 37.7% |
Years at current address | .025 | 37.3% |
Level of education | .024 | 36.1% |
Calling card service | .024 | 35.8% |
Calling card last month | .023 | 35.6% |
Log-wireless | .016 | 23.9% |
Log-toll free | .016 | 23.6% |
Toll free over tenure | .013 | 19.5% |
Voice mail | .012 | 17.5% |
Wireless last month | .008 | 12.6% |
Wireless over tenure | .008 | 12.5% |
Wireless service | .007 | 11.2% |
Log-equipment | .007 | 10.4% |
Paging service | .006 | 9.0% |
Toll free last month | .006 | 8.9% |
Multiple lines | .006 | 8.6% |
Log-income | .004 | 6.3% |
Household income in thousands | .004 | 6.3% |
Marital status | .001 | 2.3% |
Caller ID | .001 | 1.6% |
Log-calling card | .001 | 1.5% |
Number of people in household | .001 | 1.2% |
增长方法:CRT 因变量列表: Churn within last month |
上表表明最重要的是设备上个月的使用情况,第二重要的是设备租用情况,上表中的标准化重要性是将最重要的变量换算为100%
部分最重要的并没有显示在开始的树模型分支中,表明根据重要性分支不太准确,只能局部最优。
风险 | |||
---|---|---|---|
方法 | 估计 | 标准 误差 | |
重新替代 | 3.440 | .274 | |
交叉验证 | 3.690 | .218 | |
增长方法:CRT 因变量列表: Churn within last month | |||
分类 | |||
已观测 | 已预测 | ||
No | Yes | 正确百分比 | |
No | 348 | 378 | 47.9% |
Yes | 31 | 243 | 88.7% |
总计百分比 | 37.9% | 62.1% | 59.1% |
增长方法:CRT 因变量列表: Churn within last month |
在设定YES与NO的成本后树模型的总预测正确率由77.3%下降至59.1%,但流失样本的预测正确率上升至88.7%
该模型适用于预测实际客户流失。
节点的收益汇总 | ||||
---|---|---|---|---|
节点 | N | 百分比 | 利润 | 投资回报率 |
7 | 121 | 12.1% | 28.264 | 900.0% |
8 | 90 | 9.0% | 26.500 | 900.0% |
3 | 237 | 23.7% | 13.481 | 900.0% |
6 | 173 | 17.3% | 11.185 | 900.0% |
5 | 379 | 37.9% | 3.681 | 900.0% |
增长方法:CRT 因变量列表: Churn within last month |
由该表看出投资回报率为900%
剪枝
模型汇总 | ||
---|---|---|
指定 | 增长方法 | CRT |
因变量 | Churn within last month | |
自变量 | Geographic indicator, Months with service, Age in years, Marital status, Years at current address, Household income in thousands, Level of education, Years with current employer, Retired, Gender, Number of people in household, Toll free service, Equipment rental, Calling card service, Wireless service, Long distance last month, Toll free last month, Equipment last month, Calling card last month, Wireless last month, Long distance over tenure, Toll free over tenure, Equipment over tenure, Calling card over tenure, Wireless over tenure, Multiple lines, Voice mail, Paging service, Internet, Caller ID, Call waiting, Call forwarding, 3-way calling, Electronic billing, Log-long distance, Log-toll free, Log-equipment, Log-calling card, Log-wireless, Log-income | |
验证 | 无 | |
最大树深度 | 5 | |
父节点中的最小个案 | 50 | |
子节点中的最小个案 | 10 | |
结果 | 自变量已包括 | Months with service, Long distance over tenure, Calling card over tenure, Long distance last month, Log-long distance, Log-toll free, Calling card last month, Calling card service, Years with current employer, Log-wireless, Years at current address, Age in years, Toll free over tenure, Log-calling card, Log-equipment, Multiple lines, Household income in thousands, Log-income, Equipment over tenure, Wireless over tenure, Equipment rental, Equipment last month, Toll free last month, Electronic billing, Internet, Number of people in household, Level of education, Marital status, Wireless last month, Wireless service, Paging service, Voice mail |
节点数 | 5 | |
终端节点数 | 3 | |
深度 | 2 |
节点的收益汇总 | ||||
---|---|---|---|---|
节点 | N | 百分比 | 利润 | 投资回报率 |
1 | 448 | 44.8% | 20.089 | 900.0% |
4 | 173 | 17.3% | 11.185 | 900.0% |
3 | 379 | 37.9% | 3.681 | 900.0% |
增长方法:CRT 因变量列表: Churn within last month | ||||
风险 | ||||
估计 | 标准 误差 | |||
3.440 | .274 | |||
增长方法:CRT 因变量列表: Churn within last month |
实验四 | 多维尺度分析 | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.4.16 |
实验目的
利用数据文件进行多维尺度分析,了解多维尺度分析模型
实验内容
实验数据:
1、Mds1.Sav
2、Mds2.Sav
3、Mds3.Sav
通过“分析-度量-ASLCAL”和“分析-度量-PROXSCAL-多个矩阵源”进行数据分析
实验步骤
非度量MDS模型
Iteration history for the 2 dimensional solution (in squared distances)
Young’s S-stress formula 1 is used.
Iteration S-stress Improvement
1 .21604
2 .19665 .01939
3 .19627 .00039
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal’s stress formula 1.
For matrix
Stress = .21371 RSQ = .85687
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 北京大学 .7520 .9637
2 北京师大 -1.5576 -.1711
3 南京大学 .8157 1.3724
4 中国科大 1.1139 -.9834
5 复旦大学 .4676 .7661
6 华东师大 -1.3944 -.1676
7 清华大学 .9350 -.6521
8 上海交大 .7042 -1.1605
9 东北师大 -1.8364 .0325
模型的Stress的值为0.21371,RSQ的值为0.85687
模型的解释程度不是特别好。
9所大学被分成了3个部分:
南京大学、北京大学、复旦大学(文科类);
清华大学、中国科大、上海交大(理科类);
东北师大、北京师大、华东师大(师范类)。
警告 # 14654
The total number of parameters being estimated (the number of stimulus
coordinates plus the number of weights, if any) is large relative to the
number of data values in your data matrix. The results may not be reliable
since there may not be enough data to precisely estimate the values of the
parameters. You should reduce the number of parameters (e.g. request fewer
dimensions) or increase the number of observations.
Number of parameters is 18. Number of data values is 36
Iteration history for the 2 dimensional solution (in squared distances)
Young’s S-stress formula 1 is used.
Iteration S-stress Improvement
1 .03999
2 .02976 .01022
3 .02344 .00632
4 .01889 .00455
5 .01548 .00341
6 .01315 .00233
7 .01161 .00154
8 .01057 .00104
9 .00983 .00075
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal’s stress formula 1.
For matrix
Stress = .01576 RSQ = .99873
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 北京大学 .8976 .6594
2 北京师大 -1.5806 .0057
3 南京大学 .9032 1.3487
4 中国科大 1.0973 -.9972
5 复旦大学 .5568 .4776
6 华东师大 -1.4993 -.1055
7 清华大学 .9210 -.2819
8 上海交大 .6653 -1.1866
9 东北师大 -1.9612 .0798
该模型的stress=0.01576,RSQ=0.99873,其效果比古典模型效果好。
但在转换过程中会有一些数据的流失,所以无法立即判断出到底是转换后的模型更好,还是原来的模型好。
9所高校仍然被分成了3类,但师范类的距离被缩小了,而文科类和理科类之间的距离却被模糊了。
古典MDS模型
Iteration history for the 2 dimensional solution (in squared distances)
Young’s S-stress formula 1 is used.
Iteration S-stress Improvement
1 .05144
2 .04720 .00424
3 .04714 .00005
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal’s stress formula 1.
For matrix
Stress = .03678 RSQ = .99389
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 北京 1.0964 -1.8824
2 合肥 .6331 -.2167
3 长沙 -.4960 .2102
4 杭州 1.0866 .2964
5 南昌 .0387 .4026
6 南京 .9062 -.1710
7 上海 1.2038 .1377
8 武汉 -.0744 -.1568
9 广州 -.6766 1.3132
10 成都 -1.8158 -.9225
11 福州 .6795 1.1235
12 昆明 -2.5815 -.1342
RSQ系数为0.99389,拟合程度非常好;
Stress=0.03678,说明该多维尺度分析对12个城市之间距离的拟合效果是相当不错的。
该图上各城市的绝对位置与地图的排列并不是完全一致的,但它们之间的相对位置与地图上却是一致的,以武汉、广州、长沙和北京为例。
由散点图可以看出模型的拟合程度较好,但点的分布隐约呈两条直线,这是因为地球是个球体,而我们求的是一个航空距离,转换到平面的二维坐标系难免会有偏差。
Iteration history for the 1 dimensional solution (in squared distances)
Young’s S-stress formula 1 is used.
Iteration S-stress Improvement
1 .39193
2 .32290 .06903
3 .32258 .00032
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal’s stress formula 1.
For matrix
Stress = .27030 RSQ = .79457
Configuration derived in 1 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1
Number Name
1 北京 -1.4796
2 合肥 -.4829
3 长沙 .4598
4 杭州 -.8041
5 南昌 .0455
6 南京 -.6948
7 上海 -.9015
8 武汉 .0576
9 广州 .9198
10 成都 1.5077
11 福州 -.6094
12 昆明 1.9819
模型的RSQ系数缩小为0.79457,Stress的值也扩大到了0.27030
该模型的拟合程度不是很好。
一维模型所有的城市都在一条轴上,相比二维模型来说
它不能很好地反映出各城市之间的航空距离。
基于最优尺度变换的MDS模型
应力和拟合度量 | |
---|---|
标准化初始应力 | .04037 |
Stress-I | .20091a |
Stress-II | .53257a |
S-Stress | .09675b |
离散所占比例 (D.A.F.) | .95963 |
Tucker 同余系数 | .97961 |
PROXSCAL 使“标准化初始应力”最小化。 | |
a. 最优定标因子 = 1.042。 | |
b. 最优定标因子 = .975。 |
该表中离散所占比例的值就等于古典MDS模型中的QRS的值
由表可知其值为0.95963,说明该模型的拟合程度是非常不错的。
9所学校依然分成了3类,分别是
上海交大、清华大学、中国科大(理科类);
复旦大学、北京大学、南京大学(文科类);
东北师大、北京师大、华东师大(师范类)。
第1维度和第2维度是非常重要的
第3维度到第8维度相对来说不太重要
同时也说明了使用二维模型已经能够比较好的说明9所大学之间的结构关系。
实验五 | 多元回归分析 | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.4.23 |
实验目的
利用数据文件进行多元回归分析,了解多元回归分析。
实验内容
利用数据集reg.sav、waste.sav做回归分析操作和逐步回归分析。
实验步骤
销售收入与年轻人数、可支配收入间有较强的线性关系。
模型汇总 | ||||
---|---|---|---|---|
模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 |
1 | .957a | .917 | .907 | 1.10074 |
a. 预测变量: (常量), 人均可支配收入, 年轻人人数。 |
输入/移去的变量b | |||
---|---|---|---|
模型 | 输入的变量 | 移去的变量 | 方法 |
1 | 人均可支配收入, 年轻人人数a | . | 输入 |
a. 已输入所有请求的变量。 | |||
b. 因变量: 销售收入 |
R、R方很高,拟合很好
Anovab | ||||||
---|---|---|---|---|---|---|
模型 | 平方和 | df | 均方 | F | Sig. | |
1 | 回归 | 240.153 | 2 | 120.076 | 99.103 | .000a |
残差 | 21.809 | 18 | 1.212 | |||
总计 | 261.962 | 20 | ||||
a. 预测变量: (常量), 人均可支配收入, 年轻人人数。 | ||||||
b. 因变量: 销售收入 |
ANOVA表中,回归为ESS,残差为RSS,总计为TSS
系数a | ||||||
---|---|---|---|---|---|---|
模型 | 非标准化系数 | 标准系数 | t | Sig. | ||
B | 标准 误差 | 试用版 | ||||
1 | (常量) | -6.886 | 6.002 | -1.147 | .266 | |
年轻人人数 | 1.455 | .212 | .748 | 6.868 | .000 | |
人均可支配收入 | .009 | .004 | .251 | 2.305 | .033 | |
a. 因变量: 销售收入 |
根据上述结果,可以写出以下回归模型:
从系数表标准系数中可见,年轻人人数比人均可支配收入对销售收入的影响更大一些
描述统计量 | ||||
---|---|---|---|---|
N | 极小值 | 极大值 | 标准差 | |
销售收入 | 21 | 13.72 | 24.42 | 3.61913 |
有效的 N (列表状态) | 21 |
Y的标准差为3.61913,拟合后的标准差为1.10074,可见拟合后的变异减少,增加变量有意义。
Cp=SSE/MSE+2P-N=21.809/1.212+2*3-21=2.99
P=3
Cp接近p,这是一个很好的模型
图中看出,个点基本平均分布在0的两边,没有明显偏正或者偏负的趋势。说明当前考虑的模型的线性关系是没有问题的。
模型汇总b | |||||
---|---|---|---|---|---|
模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 | Durbin-Watson |
1 | .957a | .917 | .907 | 1.10074 | 1.653 |
a. 预测变量: (常量), 人均可支配收入, 年轻人人数。 | |||||
b. 因变量: 销售收入 |
DW值为1.653,在0-4之间,残差间相互独立
较难认同为正态分布
P-P图显示,散点基本在直线附近,可认同整体呈现一种正态性。
不论也标准化预测值如何变化,标准化残差波动范围基本保持稳定,说明了残差方差齐性
逐步回归
已输入/除去变量a | ||||
---|---|---|---|---|
模型 | 已输入变量 | 已除去变量 | 方法 | |
1 | 宾馆、餐饮业用地 | . | 步进(准则:F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 | |
2 | 运输、批发企业用地 | . | 步进(准则:F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 | |
3 | 工业企业用地 | . | 步进(准则:F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 | |
4 | 零售业用地 | . | 步进(准则:F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 | |
a. 因变量:固体垃圾排放量 | ||||
模型摘要 | ||||
模型 | R | R 平方 | 调整后的 R 平方 | 标准估算的错误 |
1 | .823a | .677 | .669 | .20808 |
2 | .896b | .803 | .792 | .16478 |
3 | .908c | .825 | .811 | .15732 |
4 | .921d | .849 | .831 | .14847 |
a. 预测变量:(常量),宾馆、餐饮业用地 | ||||
b. 预测变量:(常量),宾馆、餐饮业用地, 运输、批发企业用地 | ||||
c. 预测变量:(常量),宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地 | ||||
d. 预测变量:(常量),宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地, 零售业用地 |
调整R方随着自变量增多而升高,剩余标准差随着自变量的增加而降低。
ANOVAa | ||||||
---|---|---|---|---|---|---|
模型 | 平方和 | 自由度 | 均方 | F | 显著性 | |
1 | 回归 | 3.450 | 1 | 3.450 | 79.685 | .000b |
残差 | 1.645 | 38 | .043 | |||
总计 | 5.095 | 39 | ||||
2 | 回归 | 4.091 | 2 | 2.045 | 75.329 | .000c |
残差 | 1.005 | 37 | .027 | |||
总计 | 5.095 | 39 | ||||
3 | 回归 | 4.204 | 3 | 1.401 | 56.621 | .000d |
残差 | .891 | 36 | .025 | |||
总计 | 5.095 | 39 | ||||
4 | 回归 | 4.324 | 4 | 1.081 | 49.037 | .000e |
残差 | .772 | 35 | .022 | |||
总计 | 5.095 | 39 | ||||
a. 因变量:固体垃圾排放量 | ||||||
b. 预测变量:(常量),宾馆、餐饮业用地 | ||||||
c. 预测变量:(常量),宾馆、餐饮业用地, 运输、批发企业用地 | ||||||
d. 预测变量:(常量),宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地 | ||||||
e. 预测变量:(常量),宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地, 零售业用地 | ||||||
统计学上,均显著。 系数a | ||||||
模型 | 非标准化系数 | 标准系数 | t | 显著性 | ||
B | 标准错误 | 贝塔 | ||||
1 | (常量) | .147 | .042 | 3.495 | .001 | |
宾馆、餐饮业用地 | .010 | .001 | .823 | 8.927 | .000 | |
2 | (常量) | .128 | .034 | 3.805 | .001 | |
宾馆、餐饮业用地 | .008 | .001 | .675 | 8.542 | .000 | |
运输、批发企业用地 | .000 | .000 | .384 | 4.857 | .000 | |
3 | (常量) | .134 | .032 | 4.177 | .000 | |
宾馆、餐饮业用地 | .008 | .001 | .689 | 9.096 | .000 | |
运输、批发企业用地 | .000 | .000 | .449 | 5.519 | .000 | |
工业企业用地 | -3.736E-5 | .000 | -.165 | -2.142 | .039 | |
4 | (常量) | .123 | .031 | 4.014 | .000 | |
宾馆、餐饮业用地 | .013 | .002 | 1.078 | 5.936 | .000 | |
运输、批发企业用地 | .000 | .000 | .534 | 6.282 | .000 | |
工业企业用地 | -5.223E-5 | .000 | -.231 | -2.959 | .006 | |
零售业用地 | -.001 | .000 | -.441 | -2.328 | .026 | |
a. 因变量:固体垃圾排放量 | ||||||
系数a | ||||||
模型 | 非标准化系数 | 标准系数 | t | 显著性 | ||
B | 标准错误 | 贝塔 | ||||
1 | (常量) | .147 | .042 | 3.495 | .001 | |
宾馆、餐饮业用地 | .010 | .001 | .823 | 8.927 | .000 | |
2 | (常量) | .128 | .034 | 3.805 | .001 | |
宾馆、餐饮业用地 | .008 | .001 | .675 | 8.542 | .000 | |
运输、批发企业用地 | .000 | .000 | .384 | 4.857 | .000 | |
3 | (常量) | .134 | .032 | 4.177 | .000 | |
宾馆、餐饮业用地 | .008 | .001 | .689 | 9.096 | .000 | |
运输、批发企业用地 | .000 | .000 | .449 | 5.519 | .000 | |
工业企业用地 | -3.736E-5 | .000 | -.165 | -2.142 | .039 | |
4 | (常量) | .123 | .031 | 4.014 | .000 | |
宾馆、餐饮业用地 | .013 | .002 | 1.078 | 5.936 | .000 | |
运输、批发企业用地 | .000 | .000 | .534 | 6.282 | .000 | |
工业企业用地 | -5.223E-5 | .000 | -.231 | -2.959 | .006 | |
零售业用地 | -.001 | .000 | -.441 | -2.328 | .026 | |
a. 因变量:固体垃圾排放量 |
案例诊断a | |||||
---|---|---|---|---|---|
案例数目 | 标准 残差 | 固体垃圾排放量 | 预测值 | 残差 | |
dimension0 | 1 | -1.125 | .36 | .5244 | -.16696 |
2 | 1.791 | 1.97 | 1.7014 | .26588 | |
3 | .055 | .19 | .1780 | .00822 | |
4 | .775 | .38 | .2665 | .11506 | |
5 | .153 | .15 | .1284 | .02278 | |
6 | .107 | .14 | .1290 | .01591 | |
7 | -.592 | .47 | .5590 | -.08793 | |
8 | -2.105 | .65 | .9637 | -.31253 | |
9 | 1.456 | .66 | .4462 | .21615 | |
10 | 1.405 | .35 | .1371 | .20861 | |
11 | .506 | .34 | .2604 | .07514 | |
12 | .357 | .40 | .3451 | .05306 | |
13 | -.197 | .20 | .2337 | -.02928 | |
14 | .556 | .30 | .2144 | .08255 | |
15 | 1.578 | 1.15 | .9172 | .23427 | |
16 | 1.676 | .56 | .3120 | .24886 | |
17 | -.531 | .11 | .1892 | -.07880 | |
18 | -.416 | .09 | .1481 | -.06181 | |
19 | .104 | .20 | .1798 | .01543 | |
20 | -.321 | .17 | .2165 | -.04773 | |
21 | -1.008 | .08 | .2283 | -.14970 | |
22 | -.357 | .10 | .1485 | -.05297 | |
23 | -1.214 | .05 | .2288 | -.18017 | |
24 | -.571 | .09 | .1715 | -.08480 | |
25 | -.326 | .14 | .1887 | -.04838 | |
26 | .050 | .38 | .3712 | .00738 | |
27 | -.483 | .08 | .1478 | -.07169 | |
28 | -1.240 | .89 | 1.0768 | -.18407 | |
29 | .406 | .36 | .3018 | .06032 | |
30 | .278 | .18 | .1346 | .04125 | |
31 | .763 | .27 | .1566 | .11328 | |
32 | .134 | .28 | .2563 | .01986 | |
33 | -1.095 | .32 | .4866 | -.16258 | |
34 | -1.063 | .37 | .5315 | -.15781 | |
35 | 1.077 | .91 | .7515 | .15994 | |
36 | -.194 | .26 | .2882 | -.02883 | |
37 | 1.812 | .43 | .1594 | .26904 | |
38 | -.401 | .19 | .2500 | -.05949 | |
39 | -.621 | .23 | .3263 | -.09222 | |
40 | -1.180 | .78 | .9511 | -.17523 | |
a. 因变量: 固体垃圾排放量 |
残差均不大于3,无强影响点
实验六 | 线性回归衍生模型 | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.4.30 |
实验目的
利用数据文件进行线性回归衍生模型,了解模型的使用。
实验内容
通过非直线趋势处理、方差不齐处理、分类变量的数值化等方法进行数据分析。
实验步骤
通风时间和毒物浓度成指数关系
输入/移去的变量b | |||
---|---|---|---|
模型 | 输入的变量 | 移去的变量 | 方法 |
1 | 通风时间(分)a | . | 输入 |
a. 已输入所有请求的变量。 | |||
b. 因变量: lny |
模型汇总 | ||||
---|---|---|---|---|
模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 |
1 | .980a | .961 | .958 | .29876 |
a. 预测变量: (常量), 通风时间(分)。 |
Anovab | ||||||
---|---|---|---|---|---|---|
模型 | 平方和 | df | 均方 | F | Sig. | |
1 | 回归 | 28.588 | 1 | 28.588 | 320.287 | .000a |
残差 | 1.160 | 13 | .089 | |||
总计 | 29.749 | 14 | ||||
a. 预测变量: (常量), 通风时间(分)。 | ||||||
b. 因变量: lny |
系数a | ||||||
---|---|---|---|---|---|---|
模型 | 非标准化系数 | 标准系数 | t | Sig. | ||
B | 标准 误差 | 试用版 | ||||
1 | (常量) | 1.271 | .162 | 7.831 | .000 | |
通风时间(分) | -.320 | .018 | -.980 | -17.897 | .000 | |
a. 因变量: lny |
根据上面三个表可以看出,拟合方程的R^2和调整R^2都很高,误差很小,F统计量很高,系数统计量也很显著,表明该方程的拟合度很高。因此可以建立方程如下:
lny^=1.271-0.32time
将该方程进行反变换得到原始变量的预测方程如下:
Y^=3.564time^(-0.32)
曲线拟合:
模型描述 | ||
---|---|---|
模型名称 | MOD_1 | |
因变量 | 1 | 毒物浓度 |
方程 | 1 | 指数a |
自变量 | 通风时间(分) | |
常数 | 包含 | |
其值在图中标记为观测值的变量 | 未指定 | |
a. 该模型要求所有非缺失值为正数。 |
个案处理摘要 | |
---|---|
N | |
个案总数 | 15 |
已排除的个案a | 0 |
已预测的个案 | 0 |
新创建的个案 | 0 |
a. 从分析中排除任何变量中带有缺失值的个案。 |
变量处理摘要 | |||
---|---|---|---|
变量 | |||
因变量 | 自变量 | ||
毒物浓度 | 通风时间(分) | ||
正值数 | 15 | 15 | |
零的个数 | 0 | 0 | |
负值数 | 0 | 0 | |
缺失值数 | 用户自定义缺失 | 0 | 0 |
系统缺失 | 0 | 0 |
模型汇总 | |||
---|---|---|---|
R | R 方 | 调整 R 方 | 估计值的标准误 |
.980 | .961 | .958 | .299 |
自变量为 通风时间(分)。 |
ANOVA | |||||
---|---|---|---|---|---|
平方和 | df | 均方 | F | Sig. | |
回归 | 28.588 | 1 | 28.588 | 320.287 | .000 |
残差 | 1.160 | 13 | .089 | ||
总计 | 29.749 | 14 | |||
自变量为 通风时间(分)。 |
系数 | |||||
---|---|---|---|---|---|
未标准化系数 | 标准化系数 | t | Sig. | ||
B | 标准误 | Beta | |||
通风时间(分) | -.320 | .018 | -.980 | -17.897 | .000 |
(常数) | 3.565 | .579 | 6.160 | .000 | |
因变量为 ln(毒物浓度)。 |
拟合方程的R^2和调整R^2都很高,误差很小,F统计量很高,系数统计量也很显著,表明该方程的拟合度很高。
因此根据指数模型建立方程如下:
Y^=3.565time^(-0.32)
将建立的方程与上面进行对数变换建立的方程比较,两者几乎一样
方差不齐处理:
对wls.sav文件
做简单线性回归:
模型汇总 | ||||
---|---|---|---|---|
模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 |
1 | .987a | .975 | .973 | .11330 |
a. 预测变量: (常量), x。 |
系数a | ||||||
---|---|---|---|---|---|---|
模型 | 非标准化系数 | 标准系数 | t | Sig. | ||
B | 标准 误差 | 试用版 | ||||
1 | (常量) | 7.454 | .173 | 43.143 | .000 | |
x | -.015 | .001 | -.987 | -22.468 | .000 | |
a. 因变量: y |
一份样本和15本样本混合后测量结果等价对待,是不合理的
加权后:
模型汇总 | ||||
---|---|---|---|---|
模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 |
1 | .982a | .965 | .962 | .29365 |
a. 预测变量: (常量), x。 |
R方与之前相比,下降了
系数必然下降,因此不能用来判断模型的好坏
右图所示,加权法的直线更靠近中部哪些混合样本n较大的测量值,而对两端n较小的测量值则比普通回归方程更远一些。
对最小二乘法的估计:
模型摘要 | |
---|---|
复相关系数 | .982 |
R 方 | .965 |
调整 R 方 | .962 |
估计的标准误 | .294 |
对数似然函数值 | 13.883 |
ANOVA | |||||
---|---|---|---|---|---|
平方和 | df | 均方 | F | Sig. | |
回归 | 30.530 | 1 | 30.530 | 354.054 | .000 |
残差 | 1.121 | 13 | .086 | ||
总计 | 31.651 | 14 |
系数 | ||||||
---|---|---|---|---|---|---|
未标准化系数 | 标准化系数 | t | Sig. | |||
B | 标准误 | 试用版 | 标准误 | |||
(常数) | 7.190 | .188 | 38.316 | .000 | ||
x | -.014 | .001 | -.982 | .052 | -18.816 | .000 |
得出的模型和刚刚用线性模型中的加权方法进行拟合的模型结果是一致的
幂 | -2.000 | 11.565 |
---|---|---|
-1.500 | 13.182 | |
-1.000 | 13.883a | |
-.500 | 13.496 | |
.000 | 12.382 | |
.500 | 11.099 | |
1.000 | 9.687 | |
1.500 | 7.787 | |
2.000 | 5.277 | |
a. 选择对应幂以用于进一步分析,因为它可以使对数似然函数最大化。 | ||
b. 因变量: y,源变量: n |
当指数=-1时,对数似然值最高,达到了13.883,因此最终确定指数为-1
这和数据的实际情况是重合的。
实验七 | 聚类分析(市场细分) | ||
---|---|---|---|
实验属性 | 综合型 | 实验时间 | 2020.5.21 |
实验目的
采用聚类分析对数据进行市场细分。
实验内容
telco-extra.sav 和drug.sav
实验步骤
一、层次聚类法
案例处理摘要a | |||||
---|---|---|---|---|---|
案例 | |||||
有效 | 缺失 | 合计 | |||
N | 百分比 | N | 百分比 | N | 百分比 |
31 | 100.0% | 0 | .0% | 31 | 100.0% |
a. 平方 Euclidean 距离 已使用 |
聚类表 | ||||||
---|---|---|---|---|---|---|
阶 | 群集组合 | 系数 | 首次出现阶群集 | 下一阶 | ||
群集 1 | 群集 2 | 群集 1 | 群集 2 | |||
1 | 3 | 17 | .111 | 0 | 0 | 2 |
2 | 3 | 12 | .246 | 1 | 0 | 15 |
3 | 5 | 7 | .407 | 0 | 0 | 4 |
4 | 5 | 8 | .624 | 3 | 0 | 13 |
5 | 20 | 27 | .857 | 0 | 0 | 11 |
6 | 29 | 30 | 1.121 | 0 | 0 | 20 |
7 | 28 | 31 | 1.390 | 0 | 0 | 20 |
8 | 4 | 14 | 1.666 | 0 | 0 | 10 |
9 | 15 | 23 | 2.102 | 0 | 0 | 14 |
10 | 4 | 25 | 2.751 | 8 | 0 | 21 |
11 | 20 | 24 | 3.419 | 5 | 0 | 12 |
12 | 20 | 22 | 4.167 | 11 | 0 | 19 |
13 | 5 | 6 | 5.010 | 4 | 0 | 19 |
14 | 15 | 16 | 6.127 | 9 | 0 | 23 |
15 | 3 | 18 | 7.428 | 2 | 0 | 18 |
16 | 21 | 26 | 8.813 | 0 | 0 | 21 |
17 | 11 | 19 | 10.248 | 0 | 0 | 22 |
18 | 3 | 10 | 12.010 | 15 | 0 | 23 |
19 | 5 | 20 | 13.835 | 13 | 12 | 25 |
20 | 28 | 29 | 16.130 | 7 | 6 | 27 |
21 | 4 | 21 | 18.530 | 10 | 16 | 25 |
22 | 11 | 13 | 21.298 | 17 | 0 | 28 |
23 | 3 | 15 | 24.620 | 18 | 14 | 29 |
24 | 1 | 2 | 28.412 | 0 | 0 | 26 |
25 | 4 | 5 | 32.928 | 21 | 19 | 27 |
26 | 1 | 9 | 41.666 | 24 | 0 | 28 |
27 | 4 | 28 | 54.441 | 25 | 20 | 29 |
28 | 1 | 11 | 68.972 | 26 | 22 | 30 |
29 | 3 | 4 | 87.757 | 23 | 27 | 30 |
30 | 1 | 3 | 150.000 | 28 | 29 | 0 |
群集成员 | ||||||
---|---|---|---|---|---|---|
案例 | 8 群集 | 7 群集 | 6 群集 | 5 群集 | 4 群集 | 3 群集 |
1:Case 1 | 1 | 1 | 1 | 1 | 1 | 1 |
2:Case 2 | 2 | 1 | 1 | 1 | 1 | 1 |
3:Case 3 | 3 | 2 | 2 | 2 | 2 | 2 |
4:Case 4 | 4 | 3 | 3 | 3 | 3 | 3 |
5:Case 5 | 5 | 4 | 3 | 3 | 3 | 3 |
6:Case 6 | 5 | 4 | 3 | 3 | 3 | 3 |
7:Case 7 | 5 | 4 | 3 | 3 | 3 | 3 |
8:Case 8 | 5 | 4 | 3 | 3 | 3 | 3 |
9:Case 9 | 6 | 5 | 4 | 1 | 1 | 1 |
10:Case 10 | 3 | 2 | 2 | 2 | 2 | 2 |
11:Case 11 | 7 | 6 | 5 | 4 | 4 | 1 |
12:Case 12 | 3 | 2 | 2 | 2 | 2 | 2 |
13:Case 13 | 7 | 6 | 5 | 4 | 4 | 1 |
14:Case 14 | 4 | 3 | 3 | 3 | 3 | 3 |
15:Case 15 | 3 | 2 | 2 | 2 | 2 | 2 |
16:Case 16 | 3 | 2 | 2 | 2 | 2 | 2 |
17:Case 17 | 3 | 2 | 2 | 2 | 2 | 2 |
18:Case 18 | 3 | 2 | 2 | 2 | 2 | 2 |
19:Case 19 | 7 | 6 | 5 | 4 | 4 | 1 |
20:Case 20 | 5 | 4 | 3 | 3 | 3 | 3 |
21:Case 21 | 4 | 3 | 3 | 3 | 3 | 3 |
22:Case 22 | 5 | 4 | 3 | 3 | 3 | 3 |
23:Case 23 | 3 | 2 | 2 | 2 | 2 | 2 |
24:Case 24 | 5 | 4 | 3 | 3 | 3 | 3 |
25:Case 25 | 4 | 3 | 3 | 3 | 3 | 3 |
26:Case 26 | 4 | 3 | 3 | 3 | 3 | 3 |
27:Case 27 | 5 | 4 | 3 | 3 | 3 | 3 |
28:Case 28 | 8 | 7 | 6 | 5 | 3 | 3 |
29:Case 29 | 8 | 7 | 6 | 5 | 3 | 3 |
30:Case 30 | 8 | 7 | 6 | 5 | 3 | 3 |
31:Case 31 | 8 | 7 | 6 | 5 | 3 | 3 |
根据上表可得:
(1)方案一:分成6类或者5类。
第1类:包含上海1省市;
第2类:包含北京、天津2省市;
第3类包含河北、湖北、安徽、湖南、江苏、山东、四川河南等8省市;
第4类:包含广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市:
第5类:包含浙江、广东、福建等3省市;
第6类:包含。青海、宁夏、甘肃、新疆等4省市。
其中第1类和第2类可以合并为一类。这时总类别数就是5类。事实上,由于在分成6类时,第1个类别只有上海一个省市,所以在这种聚类方案中,更倾向于将31个省市分成5类。
(2)方案二:分成3类或者2类。
第1类:包含上海、天津、北京、浙江、广东、福建等6省市;
第2类:包含河北、湖北,安徽,湖南、江苏、山东、四川、河南等8省市;
第3类:包含青海、宁夏、甘肃、新疆、广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等17省市。
其中第二类和第二类可以合并为一类,这时总类别数就是二类。但是,由于分成两类区分性不强,所以在这种聚类方案中,常更倾向于将这些省市分成三类。
二、K均值聚类法
1.分析-分类-K均值聚类:聚类数:5;变量:加入6个标准化的变量;个案标记依据:客户编号;方法:迭代与分类-迭代:最大迭代次数改为100-选项:在默认基础上勾选“ANONA表”-保存:勾选“聚类成员”-确定的操作后得到下列结果:
初始聚类中心 | |||||
---|---|---|---|---|---|
聚类 | |||||
1 | 2 | 3 | 4 | 5 | |
Zscore: 工作日上班时期电话时长 | 3.21791 | -1.16165 | 2.64849 | .19729 | 1.93001 |
Zscore: 工作日下班时期电话时长 | -.65276 | -1.26557 | -1.03058 | 3.87339 | -.17204 |
Zscore: 周末电话时长 | 3.72181 | 3.11491 | -.02169 | -.90652 | -1.21281 |
Zscore: 国际电话时长 | 4.90995 | -1.16636 | .29390 | 2.77257 | .53252 |
Zscore: 总通话时长 | 2.96323 | -1.31226 | 2.07308 | 1.47340 | 1.63709 |
Zscore: 平均每次通话时长 | -.51651 | .30760 | 5.49282 | -.22792 | 12.99993 |
最终聚类中心 | |||||
聚类 | |||||
1 | 2 | 3 | 4 | 5 | |
Zscore: 工作日上班时期电话时长 | 1.60559 | -.78990 | .61342 | -.33584 | .37303 |
Zscore: 工作日下班时期电话时长 | .46081 | -.58917 | -.49365 | 1.18873 | -.29014 |
Zscore: 周末电话时长 | -.14005 | -.15010 | .35845 | -.02375 | -.40407 |
Zscore: 国际电话时长 | 1.68250 | -.64550 | .04673 | .02351 | -.04415 |
Zscore: 总通话时长 | 1.62690 | -.94040 | .41420 | .10398 | .21627 |
Zscore: 平均每次通话时长 | -.06590 | -.14835 | -.05337 | -.14059 | 4.87718 |
ANOVA | ||||||
---|---|---|---|---|---|---|
聚类 | 误差 | F | Sig. | |||
均方 | df | 均方 | df | |||
Zscore: 工作日上班时期电话时长 | 582.315 | 4 | .314 | 3390 | 1854.022 | .000 |
Zscore: 工作日下班时期电话时长 | 468.001 | 4 | .449 | 3390 | 1042.395 | .000 |
Zscore: 周末电话时长 | 39.060 | 4 | .955 | 3390 | 40.896 | .000 |
Zscore: 国际电话时长 | 443.179 | 4 | .478 | 3390 | 926.658 | .000 |
Zscore: 总通话时长 | 605.770 | 4 | .286 | 3390 | 2115.071 | .000 |
Zscore: 平均每次通话时长 | 463.823 | 4 | .454 | 3390 | 1021.872 | .000 |
F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 |
为在聚类分析的结果中,各个变量对聚类结果的重要程度排序 为:总通话时长>工作日上班时期电话时长>工作日下班时期电话时长>平均每次通话时长> 国际电话时长>周末电话时长。
每个聚类中的案例数 | ||
---|---|---|
聚类 | 1 | 443.000 |
2 | 1239.000 | |
3 | 831.000 | |
4 | 806.000 | |
5 | 76.000 | |
有效 | 3395.000 | |
缺失 | .000 |
可见人数最多的是第 类,而最少的是第 类
从上述表格可以得出:
第1类:总通话时间长,工作日上班时间通话比例高用户。此类用户数量为443人。该类客户的总通话平均时间是各类客户中最高的,并且工作日,上班时间通话占总通话比例很高(工作日.上班通话平均与全部通话平均之比达到了77. 69%),另外,该类客户国际通话时间也是各类.中最高的。可以叫做“高端商用客户”。
第2类:总通话时间短,各时段通话时间都短。此类用户数量为1239人。该类客户的总通话平均时间是各类客户中最低的,并且在各个时段通话时间普遍较短。可以叫做“少使用低端客户”
第3类:总通话时间居中,工作日上班时间通话比例高用户。此类用户数量为831人。该类客户最重要的特征是工作日.上班时间通话比例高(工作日上班通话平均与全部通话平均之比达到了79.01%)。可以叫做“中端商用客户”。
第4类:总通话时间居中,工作日下班时间通话比例高用户。此类用户数量为806人。该类.客户工作日下班时间通话比例高(工作日下班通话平均与全部通话平均之比达到了47.57%),远高于其他类别同一比例。可以叫做“中端日常用客户”。
第5类:每次通话时间长客户。该类用户数量为76人,此类用户数量较少。最大的特征就是平均每次通话时间特别长,每次通话时长平均达到了其他类别每次通话时长平均的5倍以上,而其他方面无明显特征。可以叫做“长聊客户”。
三、两步聚类法
从上图可知这四类案例分布得比较均匀
从上图可知胆固醇的重要性最高,钾含量的重要性最低
通过以上分析,尤其是上面各个变量对于聚类结果重要性的分析,我们可以把病人分为4个类别,他们的特征分别如下:
第1类:高血压、胆固醇浓度正常。此类别病人数量为98人,占病人总数19. 6%。全部为高血压、胆固醇浓度正常的患者,性别无明显特征,血液中钠含量高于平均水平。
第2类:男性、胆固醇浓度高。此类别病人数量为136 人,占病人总数27.2%。全部为男性胆固醇浓度高的患者,血压无明显特征,并且血液中钠含量低于平均水平。
第3类:女性、胆固醇浓度高。此类病人数量为134人,占病人总数26.8%。全部女性胆固醇浓度高的患者,血压无明显特征,并且血液中钠含量高于平均水平。
第4类:非高血压、胆固醇浓度正常。此类病人数量为132 人,占病人总数26.4%。全部为胆固醇浓度正常,无一人为高血压,并且血液中钠含量低于平均水平。
四、市场细分
2.对因子分析得到的三个重要变量进行聚类分析,进行分析-分类-两步聚类:分类变量:婚姻状况、受教育水平、退休情况、性别,连续性变量:加入三个重要变量及其他相关变量-输出:在默认设置基础上,勾选“创建聚类成员变量”,评估字段为居住地-确定的操作后得到下列结果:
从上图可知这三类案例分布得虽然不算特别均匀但也还可以
从上两张图可以看出婚姻状况对分类的影响是最大的,家庭人口数对分类的影响也很大
3.用判别变量分析结果是否良好,进行分析-分类-判别:分组变量为两步聚类类别号(定义范围为1-3),自变量为三个重要变量及其他相关变量-确定的操作后得到下列结果:
两个被抽选出的变量的特征值都大于1,则这两个变量可以很好地代表或者是覆盖其他变量
两个被抽取的变量都Sig>0,说明两者的结果都显著,都应该要保留在模型当中
组质心处的函数 | ||
---|---|---|
两步聚类类别号 | 函数 | |
1 | 2 | |
1 | -2.324 | -.700 |
2 | -.634 | 1.992 |
3 | 2.362 | -.349 |
在组均值处评估的非标准化典型判别式函数 |
4.展示图形以获得更为直观的能判断出分类判别结果的图,在步骤4的基础上进行分类:勾选“个案结果”、“摘要表”,取消“合并图”-确定的操作后得到下列结果:
分类1与分类3没有什么太大问题,就是分类2的距离有一点大,但是整体判别效果是不错的
综上所述,一共可分为三类人
一类为通话时长较长的顾客。
二类为设备及网络要求最优的顾客。
三类为家庭电话卡较多的顾客。