营销工程报告

目录

实验一	联合分析
实验二	因子分析
实验三	树模型分析
实验四	多维尺度分析
实验五	多元回归分析
实验六	衍生模型
实验七	聚类分析（市场细分）

实验一	联合分析
实验属性	综合型	实验时间	2020.3.19

实验目的

利用数据文件进行联合分析，了解联合分析的方式方法。

实验内容

通过最大效用模型将数据的重要性进行排序和对比，分析出对乘客最重要的因素。

实验步骤和实验结果分析

模型描述
	水平数	与排列或得分相关
warranty	3	离散（大于）
seats	2	离散
price	3	线性
speed	3	线性
并非所有因子都是正交因子。

因子水平的相关性
	因子 A 的水平	因子 B 的水平
1	warranty = 1	seats = 4
2	warranty = 3	seats = 4
3	seats = 2	warranty = 5
左侧的因子水平始终与右侧的因子水平一起出现。

从上面两个表看来，实验设计无误

Cramer 的 V 统计量
	warranty	seats	price	speed
warranty	1	.866	.365	.144
seats	.866	1	.400	.122
price	.365	.400	1	.412
speed	.144	.122	.412	1
并非所有因子都是正交因子。

Waranty与seats存在较强的相关性，因子间不存在强共线性

以主体 6: 6来分析

实用程序
	实用程序估计	标准误
warranty	1	-2.448	2.494
	3	1.040	3.095
	5	1.408	3.940
seats	2	-1.554	2.966
	4	1.554	2.966
price	7000	-2.853	4.233
	10000	-4.076	6.048
	14000	-5.707	8.467
speed	70	.027	4.333
	100	.038	6.190
	130	.049	8.047
（常数）	11.865	7.046

上表列出的是受测者6作评价时各属性水平的受欢迎程度，数值越高受欢迎程度越高。对受测者6而言，他喜欢5年担保、4座、1.4万美元、时速为70的汽车。

重要性值
warranty	39.193
seats	31.577
price	28.998
speed	.232

表示进行评价时个属性的相对重要程度，担保情况>座位数>价格>时速。

相关性a
	值	Sig.
Pearson 的 R	.395	.073
Kendall 的 tau	.276	.076
a. 已观测偏好和估计偏好之间的相关性

0.073>0.05，模型拟合效果较差，只有＜0.05时，拟合才比较好

整体统计量

模拟的偏好分数
卡编号	ID	得分
dimension0	1	2	8.434
	2	4	9.441
	3	7	9.081
	4	11	7.538
	5	12	10.333
	6	14	8.030

相差不大

模拟的偏好概率b
卡编号	ID	最大效用a	Bradley-Terry-Luce	分对数
dimension0	1	2	16.7%	16.0%	21.7%
	2	4	16.7%	17.8%	13.0%
	3	7	.0%	17.2%	10.1%
	4	11	16.7%	14.3%	13.3%
	5	12	33.3%	19.5%	31.5%
	6	14	16.7%	15.2%	10.4%
a. 包括约束模拟
b. 由于这些主体的得分都是非负数，因此 Bradley-Terry-Luce 和分对数方法中使用了 6 个主体中的 6 个主体。

逆转次数
因子	warranty	3
	speed	0
	price	0
	seats	0
主体	1	主体 1	0
	2	主体 2	1
	3	主体 3	0
	4	主体 4	1
	5	主体 5	1
	6	主体 6	0

不同水平对不同个体的效用图，对大多数受測者而言，随着等级的上升，消费者的偏好有增大趋势，其中有两个特殊个体，2的去失物大多数人相反，5则受担保影响不大。

不同属性对个体平均效用条图。除了3、5受测者，大多数受测者受warranty、seats、price影响，受speed影响较弱。5受speed影响较大，3受warranty影响较大

实验二	因子分析
实验属性	综合型	实验时间	2020.4.2

实验目的

根据因子分析得出各因子得分以及排序。

实验内容

利用各地区平均收入的数据进行因子分析，了解分析内容。

实验步骤和实验结果分析

KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。	.620
Bartlett 的球形度检验	近似卡方	231.285
	df	28
	Sig.	.000

Bartlett 说明可以拒绝各变量独立的假设，可以做银因子分析

Kmo统计量为0.620.小于0.7，各变量间的信息重叠度不是特别高，做出的因子分析模型可能不是特别完善。

显示各个因子的重要性程度，前三个因子在陡坡上，后五个因子坡不高，且特征跟小于1，因此多考虑前三个公因子即可。

公因子方差
	提取
GDP	.945
居民消费水平	.799
固定资产投资	.902
职工平均工资	.873
货物周转量	.857
居民消费价格指数	.957
商品价格指数	.928
工业总产值	.904
提取方法：主成份分析。

表示原始信息能被提取的公因子所表示的程度，几乎所有变凉都在80%以上，因此提取出的公因子对各变量解释能力较强。

成份矩阵a
	成份
	1	2	3
GDP	.884	.385	.120
居民消费水平	.606	-.596	.277
固定资产投资	.911	.163	.213
职工平均工资	.465	-.725	.362
货物周转量	.486	.737	-.279
居民消费价格指数	-.510	.257	.794
商品价格指数	-.621	.596	.433
工业总产值	.822	.429	.210
提取方法 :主成份。
a. 已提取了 3 个成份。

因子表达式为：

ZX1=0.884F1+0.385F2+0.120F3+e1

ZX2=0.606-0.596F2+0.277F3+e2

………

ZX8=0.822F1+0.492F2+0.210F3+e3

旋转成份矩阵a
	成份
	1	2	3
GDP	.955	.124	-.131
工业总产值	.944	.109	-.014
固定资产投资	.872	.351	-.137
货物周转量	.751	-.507	-.192
职工平均工资	.048	.925	-.121
居民消费水平	.219	.841	-.209
居民消费价格指数	-.135	-.013	.969
商品价格指数	-.104	-.496	.819
提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。
a. 旋转在 5 次迭代后收敛。

第一公因子在X1.X3.X5.X8有较大载荷，命名为总量因子

第二公因子在X2.X4有较大载荷，命名为消费因子

第三公因子在X6.X7有较大载荷，命名为价格因子

成份得分系数矩阵
	成份
	1	2	3
GDP	.306	.011	.047
居民消费水平	.025	.387	.040
固定资产投资	.270	.129	.075
职工平均工资	-.025	.451	.096
货物周转量	.248	-.319	-.139
居民消费价格指数	.070	.180	.653
商品价格指数	.077	-.098	.462
工业总产值	.317	.026	.123
提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。

F1=0.306ZX1+0.025ZX2+0.270ZX3-0.025ZX4+0.248ZX5+0.070ZX6+0.077ZX7+0.317ZX8

F2=0.011ZX1+0.387ZX2+0.129ZX3+0.451ZX4-0.319ZX5+0.180ZX6-0.098ZX7+0.026ZX8

F3=0.047ZX1+0.025ZX2+0.075ZX3+0.096ZX4-0.139ZX5+0.653ZX6+0.462ZX7+0.123ZX8

元件評分係數矩陣
	元件
	1
国有经济单位	.172
集体经济单位	.168
联营经济单位	.141
股份制经济单位	.161
外商投资经济单位	.168
港澳台经济单位	.174
其他经济单位	.141
擷取方法：主體元件分析。轉軸方法：具有 Kaiser 正規化的最大變異法。元件評分。

由表中数据可以得到公因子的表达式为

F1=0.172ZX1+0.168ZX2+0.141ZX3+0.161ZX4+0.168ZX5+0.174ZX6+0.141ZX7

计算因子A=5.502*FAC1-2并且按大小排序得到排序结果如下：

经济发展最好的是上海、江苏、山东地区；发展较差的是海南、宁夏、安徽

实验三	树模型分析
实验属性	综合型	实验时间	2020.4.9

实验目的

通过树模型将数据进行分析，了解树模型分析和内容。

实验内容

进行树模型分析，

要求：

1）基本操作；2）考虑变量的重要性；3）考虑应用模型时的成本与收益；4）剪枝。

实验步骤和实验结果分

节点的收益
节点	节点	增益	响应	指数
	N	百分比	N	百分比
7	121	12.1%	76	27.7%	62.8%	229.2%
8	90	9.0%	53	19.3%	58.9%	214.9%
3	237	23.7%	71	25.9%	30.0%	109.3%
6	173	17.3%	43	15.7%	24.9%	90.7%
5	379	37.9%	31	11.3%	8.2%	29.9%
增长方法:CRT 因变量列表: Churn within last month

响应指每个节点中流失的比率；指数是指响应和比率百分比的对比，指数越高，表明响应的提升指数越高，节点的收益率更高

风险
方法	估计	标准误差
重新替代	.227	.013
交叉验证	.229	.013
增长方法:CRT 因变量列表: Churn within last month

如果使用重新替代法会有22.7%的案例会在模型中被除分，如果使用交叉验证法会有22.9%的案例会在模型中被除分，两种方法都有误差

分类
已观测	已预测
	No	Yes	正确百分比
No	644	82	88.7%
Yes	145	129	47.1%
总计百分比	78.9%	21.1%	77.3%
增长方法:CRT 因变量列表: Churn within last month

上表表明了按照构建的树模型进行预测，预测的正确率，显示了预测的正确率为77.3%，实际正确率为47.1%

自变量的重要性
自变量	重要性	标准化的重要性
Equipment last month	.066	100.0%
Equipment rental	.065	98.6%
Months with service	.061	92.0%
Long distance over tenure	.057	85.6%
Internet	.052	78.5%
Electronic billing	.045	67.7%
Log-long distance	.036	54.3%
Long distance last month	.036	54.3%
Calling card over tenure	.035	53.5%
Age in years	.031	47.0%
Equipment over tenure	.029	43.3%
Years with current employer	.025	37.7%
Years at current address	.025	37.3%
Level of education	.024	36.1%
Calling card service	.024	35.8%
Calling card last month	.023	35.6%
Log-wireless	.016	23.9%
Log-toll free	.016	23.6%
Toll free over tenure	.013	19.5%
Voice mail	.012	17.5%
Wireless last month	.008	12.6%
Wireless over tenure	.008	12.5%
Wireless service	.007	11.2%
Log-equipment	.007	10.4%
Paging service	.006	9.0%
Toll free last month	.006	8.9%
Multiple lines	.006	8.6%
Log-income	.004	6.3%
Household income in thousands	.004	6.3%
Marital status	.001	2.3%
Caller ID	.001	1.6%
Log-calling card	.001	1.5%
Number of people in household	.001	1.2%
增长方法:CRT 因变量列表: Churn within last month

上表表明最重要的是设备上个月的使用情况，第二重要的是设备租用情况，上表中的标准化重要性是将最重要的变量换算为100%

部分最重要的并没有显示在开始的树模型分支中，表明根据重要性分支不太准确，只能局部最优。

风险
方法	估计	标准误差
重新替代	3.440	.274
交叉验证	3.690	.218
增长方法:CRT 因变量列表: Churn within last month
分类
已观测	已预测
	No	Yes	正确百分比
No	348	378	47.9%
Yes	31	243	88.7%
总计百分比	37.9%	62.1%	59.1%
增长方法:CRT 因变量列表: Churn within last month

在设定YES与NO的成本后树模型的总预测正确率由77.3%下降至59.1%，但流失样本的预测正确率上升至88.7%

该模型适用于预测实际客户流失。

节点的收益汇总
节点	N	百分比	利润	投资回报率
7	121	12.1%	28.264	900.0%
8	90	9.0%	26.500	900.0%
3	237	23.7%	13.481	900.0%
6	173	17.3%	11.185	900.0%
5	379	37.9%	3.681	900.0%
增长方法:CRT 因变量列表: Churn within last month

由该表看出投资回报率为900%

剪枝

模型汇总
指定	增长方法	CRT
	因变量	Churn within last month
	自变量	Geographic indicator, Months with service, Age in years, Marital status, Years at current address, Household income in thousands, Level of education, Years with current employer, Retired, Gender, Number of people in household, Toll free service, Equipment rental, Calling card service, Wireless service, Long distance last month, Toll free last month, Equipment last month, Calling card last month, Wireless last month, Long distance over tenure, Toll free over tenure, Equipment over tenure, Calling card over tenure, Wireless over tenure, Multiple lines, Voice mail, Paging service, Internet, Caller ID, Call waiting, Call forwarding, 3-way calling, Electronic billing, Log-long distance, Log-toll free, Log-equipment, Log-calling card, Log-wireless, Log-income
	验证	无
	最大树深度	5
	父节点中的最小个案	50
	子节点中的最小个案	10
结果	自变量已包括	Months with service, Long distance over tenure, Calling card over tenure, Long distance last month, Log-long distance, Log-toll free, Calling card last month, Calling card service, Years with current employer, Log-wireless, Years at current address, Age in years, Toll free over tenure, Log-calling card, Log-equipment, Multiple lines, Household income in thousands, Log-income, Equipment over tenure, Wireless over tenure, Equipment rental, Equipment last month, Toll free last month, Electronic billing, Internet, Number of people in household, Level of education, Marital status, Wireless last month, Wireless service, Paging service, Voice mail
	节点数	5
	终端节点数	3
	深度	2

节点的收益汇总
节点	N	百分比	利润	投资回报率
1	448	44.8%	20.089	900.0%
4	173	17.3%	11.185	900.0%
3	379	37.9%	3.681	900.0%
增长方法:CRT 因变量列表: Churn within last month
风险
估计	标准误差
3.440	.274
增长方法:CRT 因变量列表: Churn within last month

实验四	多维尺度分析
实验属性	综合型	实验时间	2020.4.16

实验目的

利用数据文件进行多维尺度分析，了解多维尺度分析模型

实验内容

实验数据：

1、Mds1.Sav

2、Mds2.Sav

3、Mds3.Sav

通过“分析-度量-ASLCAL”和“分析-度量-PROXSCAL-多个矩阵源”进行数据分析

实验步骤

非度量MDS模型

Iteration history for the 2 dimensional solution (in squared distances)

Young’s S-stress formula 1 is used.

Iteration S-stress Improvement

1 .21604

2 .19665 .01939

3 .19627 .00039

Iterations stopped because

S-stress improvement is less than .001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)

in the partition (row, matrix, or entire data) which

is accounted for by their corresponding distances.

Stress values are Kruskal’s stress formula 1.

For matrix

Stress = .21371 RSQ = .85687

Configuration derived in 2 dimensions

Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2

Number Name

1 北京大学 .7520 .9637

2 北京师大 -1.5576 -.1711

3 南京大学 .8157 1.3724

4 中国科大 1.1139 -.9834

5 复旦大学 .4676 .7661

6 华东师大 -1.3944 -.1676

7 清华大学 .9350 -.6521

8 上海交大 .7042 -1.1605

9 东北师大 -1.8364 .0325

模型的Stress的值为0.21371，RSQ的值为0.85687

模型的解释程度不是特别好。

9所大学被分成了3个部分：

南京大学、北京大学、复旦大学（文科类）；

清华大学、中国科大、上海交大（理科类）；

东北师大、北京师大、华东师大（师范类）。

警告 # 14654

The total number of parameters being estimated (the number of stimulus

coordinates plus the number of weights, if any) is large relative to the

number of data values in your data matrix. The results may not be reliable

since there may not be enough data to precisely estimate the values of the

parameters. You should reduce the number of parameters (e.g. request fewer

dimensions) or increase the number of observations.

Number of parameters is 18. Number of data values is 36

Iteration history for the 2 dimensional solution (in squared distances)

Young’s S-stress formula 1 is used.

Iteration S-stress Improvement

1 .03999

2 .02976 .01022

3 .02344 .00632

4 .01889 .00455

5 .01548 .00341

6 .01315 .00233

7 .01161 .00154

8 .01057 .00104

9 .00983 .00075

Iterations stopped because

S-stress improvement is less than .001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)

in the partition (row, matrix, or entire data) which

is accounted for by their corresponding distances.

Stress values are Kruskal’s stress formula 1.

For matrix

Stress = .01576 RSQ = .99873

Configuration derived in 2 dimensions

Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2

Number Name

1 北京大学 .8976 .6594

2 北京师大 -1.5806 .0057

3 南京大学 .9032 1.3487

4 中国科大 1.0973 -.9972

5 复旦大学 .5568 .4776

6 华东师大 -1.4993 -.1055

7 清华大学 .9210 -.2819

8 上海交大 .6653 -1.1866

9 东北师大 -1.9612 .0798

该模型的stress=0.01576，RSQ=0.99873，其效果比古典模型效果好。

但在转换过程中会有一些数据的流失，所以无法立即判断出到底是转换后的模型更好，还是原来的模型好。

9所高校仍然被分成了3类，但师范类的距离被缩小了，而文科类和理科类之间的距离却被模糊了。

古典MDS模型

Iteration history for the 2 dimensional solution (in squared distances)

Young’s S-stress formula 1 is used.

Iteration S-stress Improvement

1 .05144

2 .04720 .00424

3 .04714 .00005

Iterations stopped because

S-stress improvement is less than .001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)

in the partition (row, matrix, or entire data) which

is accounted for by their corresponding distances.

Stress values are Kruskal’s stress formula 1.

For matrix

Stress = .03678 RSQ = .99389

Configuration derived in 2 dimensions

Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2

Number Name

1 北京 1.0964 -1.8824

2 合肥 .6331 -.2167

3 长沙 -.4960 .2102

4 杭州 1.0866 .2964

5 南昌 .0387 .4026

6 南京 .9062 -.1710

7 上海 1.2038 .1377

8 武汉 -.0744 -.1568

9 广州 -.6766 1.3132

10 成都 -1.8158 -.9225

11 福州 .6795 1.1235

12 昆明 -2.5815 -.1342

RSQ系数为0.99389，拟合程度非常好；

Stress=0.03678，说明该多维尺度分析对12个城市之间距离的拟合效果是相当不错的。

该图上各城市的绝对位置与地图的排列并不是完全一致的，但它们之间的相对位置与地图上却是一致的，以武汉、广州、长沙和北京为例。

由散点图可以看出模型的拟合程度较好，但点的分布隐约呈两条直线，这是因为地球是个球体，而我们求的是一个航空距离，转换到平面的二维坐标系难免会有偏差。

Iteration history for the 1 dimensional solution (in squared distances)

Young’s S-stress formula 1 is used.

Iteration S-stress Improvement

1 .39193

2 .32290 .06903

3 .32258 .00032

Iterations stopped because

S-stress improvement is less than .001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)

in the partition (row, matrix, or entire data) which

is accounted for by their corresponding distances.

Stress values are Kruskal’s stress formula 1.

For matrix

Stress = .27030 RSQ = .79457

Configuration derived in 1 dimensions

Stimulus Coordinates

Dimension

Stimulus Stimulus 1

Number Name

1 北京 -1.4796

2 合肥 -.4829

3 长沙 .4598

4 杭州 -.8041

5 南昌 .0455

6 南京 -.6948

7 上海 -.9015

8 武汉 .0576

9 广州 .9198

10 成都 1.5077

11 福州 -.6094

12 昆明 1.9819

模型的RSQ系数缩小为0.79457，Stress的值也扩大到了0.27030

该模型的拟合程度不是很好。

一维模型所有的城市都在一条轴上，相比二维模型来说

它不能很好地反映出各城市之间的航空距离。

基于最优尺度变换的MDS模型

应力和拟合度量
标准化初始应力	.04037
Stress-I	.20091a
Stress-II	.53257a
S-Stress	.09675b
离散所占比例 (D.A.F.)	.95963
Tucker 同余系数	.97961
PROXSCAL 使“标准化初始应力”最小化。
a. 最优定标因子 = 1.042。
b. 最优定标因子 = .975。

该表中离散所占比例的值就等于古典MDS模型中的QRS的值

由表可知其值为0.95963，说明该模型的拟合程度是非常不错的。

9所学校依然分成了3类，分别是

上海交大、清华大学、中国科大（理科类）；

复旦大学、北京大学、南京大学（文科类）；

东北师大、北京师大、华东师大（师范类）。

第1维度和第2维度是非常重要的

第3维度到第8维度相对来说不太重要

同时也说明了使用二维模型已经能够比较好的说明9所大学之间的结构关系。

实验五	多元回归分析
实验属性	综合型	实验时间	2020.4.23

实验目的

利用数据文件进行多元回归分析，了解多元回归分析。

实验内容

利用数据集reg.sav、waste.sav做回归分析操作和逐步回归分析。

实验步骤

销售收入与年轻人数、可支配收入间有较强的线性关系。

模型汇总
模型	R	R 方	调整 R 方	标准估计的误差
1	.957a	.917	.907	1.10074
a. 预测变量: (常量), 人均可支配收入, 年轻人人数。

输入／移去的变量b
模型	输入的变量	移去的变量	方法
1	人均可支配收入, 年轻人人数a	.	输入
a. 已输入所有请求的变量。
b. 因变量: 销售收入

R、R方很高，拟合很好

Anovab
模型	平方和	df	均方	F	Sig.
1	回归	240.153	2	120.076	99.103	.000a
	残差	21.809	18	1.212
	总计	261.962	20
a. 预测变量: (常量), 人均可支配收入, 年轻人人数。
b. 因变量: 销售收入

ANOVA表中，回归为ESS，残差为RSS，总计为TSS

系数a
模型	非标准化系数	标准系数	t	Sig.
	B	标准误差	试用版
1	(常量)	-6.886	6.002		-1.147	.266
	年轻人人数	1.455	.212	.748	6.868	.000
	人均可支配收入	.009	.004	.251	2.305	.033
a. 因变量: 销售收入

根据上述结果，可以写出以下回归模型：

从系数表标准系数中可见，年轻人人数比人均可支配收入对销售收入的影响更大一些

描述统计量
	N	极小值	极大值	标准差
销售收入	21	13.72	24.42	3.61913
有效的 N （列表状态）	21

Y的标准差为3.61913，拟合后的标准差为1.10074，可见拟合后的变异减少，增加变量有意义。

Cp=SSE/MSE+2P-N=21.809/1.212+2*3-21=2.99

P=3

Cp接近p，这是一个很好的模型

图中看出，个点基本平均分布在0的两边，没有明显偏正或者偏负的趋势。说明当前考虑的模型的线性关系是没有问题的。

模型汇总b
模型	R	R 方	调整 R 方	标准估计的误差	Durbin-Watson
1	.957a	.917	.907	1.10074	1.653
a. 预测变量: (常量), 人均可支配收入, 年轻人人数。
b. 因变量: 销售收入

DW值为1.653，在0-4之间，残差间相互独立

较难认同为正态分布

P-P图显示，散点基本在直线附近，可认同整体呈现一种正态性。

不论也标准化预测值如何变化，标准化残差波动范围基本保持稳定，说明了残差方差齐性

逐步回归

已输入/除去变量a
模型	已输入变量	已除去变量	方法
1	宾馆、餐饮业用地	.	步进（准则：F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。
2	运输、批发企业用地	.	步进（准则：F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。
3	工业企业用地	.	步进（准则：F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。
4	零售业用地	.	步进（准则：F-to-enter 的概率 <= .050，F-to-remove 的概率 >= .100）。
a. 因变量：固体垃圾排放量
模型摘要
模型	R	R 平方	调整后的 R 平方	标准估算的错误
1	.823a	.677	.669	.20808
2	.896b	.803	.792	.16478
3	.908c	.825	.811	.15732
4	.921d	.849	.831	.14847
a. 预测变量：（常量），宾馆、餐饮业用地
b. 预测变量：（常量），宾馆、餐饮业用地, 运输、批发企业用地
c. 预测变量：（常量），宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地
d. 预测变量：（常量），宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地, 零售业用地

调整R方随着自变量增多而升高，剩余标准差随着自变量的增加而降低。

ANOVAa
模型	平方和	自由度	均方	F	显著性
1	回归	3.450	1	3.450	79.685	.000b
	残差	1.645	38	.043
	总计	5.095	39
2	回归	4.091	2	2.045	75.329	.000c
	残差	1.005	37	.027
	总计	5.095	39
3	回归	4.204	3	1.401	56.621	.000d
	残差	.891	36	.025
	总计	5.095	39
4	回归	4.324	4	1.081	49.037	.000e
	残差	.772	35	.022
	总计	5.095	39
a. 因变量：固体垃圾排放量
b. 预测变量：（常量），宾馆、餐饮业用地
c. 预测变量：（常量），宾馆、餐饮业用地, 运输、批发企业用地
d. 预测变量：（常量），宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地
e. 预测变量：（常量），宾馆、餐饮业用地, 运输、批发企业用地, 工业企业用地, 零售业用地
统计学上，均显著。系数a
模型	非标准化系数	标准系数	t	显著性
	B	标准错误	贝塔
1	（常量）	.147	.042		3.495	.001
	宾馆、餐饮业用地	.010	.001	.823	8.927	.000
2	（常量）	.128	.034		3.805	.001
	宾馆、餐饮业用地	.008	.001	.675	8.542	.000
	运输、批发企业用地	.000	.000	.384	4.857	.000
3	（常量）	.134	.032		4.177	.000
	宾馆、餐饮业用地	.008	.001	.689	9.096	.000
	运输、批发企业用地	.000	.000	.449	5.519	.000
	工业企业用地	-3.736E-5	.000	-.165	-2.142	.039
4	（常量）	.123	.031		4.014	.000
	宾馆、餐饮业用地	.013	.002	1.078	5.936	.000
	运输、批发企业用地	.000	.000	.534	6.282	.000
	工业企业用地	-5.223E-5	.000	-.231	-2.959	.006
	零售业用地	-.001	.000	-.441	-2.328	.026
a. 因变量：固体垃圾排放量
系数a
模型	非标准化系数	标准系数	t	显著性
	B	标准错误	贝塔
1	（常量）	.147	.042		3.495	.001
	宾馆、餐饮业用地	.010	.001	.823	8.927	.000
2	（常量）	.128	.034		3.805	.001
	宾馆、餐饮业用地	.008	.001	.675	8.542	.000
	运输、批发企业用地	.000	.000	.384	4.857	.000
3	（常量）	.134	.032		4.177	.000
	宾馆、餐饮业用地	.008	.001	.689	9.096	.000
	运输、批发企业用地	.000	.000	.449	5.519	.000
	工业企业用地	-3.736E-5	.000	-.165	-2.142	.039
4	（常量）	.123	.031		4.014	.000
	宾馆、餐饮业用地	.013	.002	1.078	5.936	.000
	运输、批发企业用地	.000	.000	.534	6.282	.000
	工业企业用地	-5.223E-5	.000	-.231	-2.959	.006
	零售业用地	-.001	.000	-.441	-2.328	.026
a. 因变量：固体垃圾排放量

案例诊断a
案例数目	标准残差	固体垃圾排放量	预测值	残差
dimension0	1	-1.125	.36	.5244	-.16696
	2	1.791	1.97	1.7014	.26588
	3	.055	.19	.1780	.00822
	4	.775	.38	.2665	.11506
	5	.153	.15	.1284	.02278
	6	.107	.14	.1290	.01591
	7	-.592	.47	.5590	-.08793
	8	-2.105	.65	.9637	-.31253
	9	1.456	.66	.4462	.21615
	10	1.405	.35	.1371	.20861
	11	.506	.34	.2604	.07514
	12	.357	.40	.3451	.05306
	13	-.197	.20	.2337	-.02928
	14	.556	.30	.2144	.08255
	15	1.578	1.15	.9172	.23427
	16	1.676	.56	.3120	.24886
	17	-.531	.11	.1892	-.07880
	18	-.416	.09	.1481	-.06181
	19	.104	.20	.1798	.01543
	20	-.321	.17	.2165	-.04773
	21	-1.008	.08	.2283	-.14970
	22	-.357	.10	.1485	-.05297
	23	-1.214	.05	.2288	-.18017
	24	-.571	.09	.1715	-.08480
	25	-.326	.14	.1887	-.04838
	26	.050	.38	.3712	.00738
	27	-.483	.08	.1478	-.07169
	28	-1.240	.89	1.0768	-.18407
	29	.406	.36	.3018	.06032
	30	.278	.18	.1346	.04125
	31	.763	.27	.1566	.11328
	32	.134	.28	.2563	.01986
	33	-1.095	.32	.4866	-.16258
	34	-1.063	.37	.5315	-.15781
	35	1.077	.91	.7515	.15994
	36	-.194	.26	.2882	-.02883
	37	1.812	.43	.1594	.26904
	38	-.401	.19	.2500	-.05949
	39	-.621	.23	.3263	-.09222
	40	-1.180	.78	.9511	-.17523
a. 因变量: 固体垃圾排放量

残差均不大于3，无强影响点

实验六	线性回归衍生模型
实验属性	综合型	实验时间	2020.4.30

实验目的

利用数据文件进行线性回归衍生模型，了解模型的使用。

实验内容

通过非直线趋势处理、方差不齐处理、分类变量的数值化等方法进行数据分析。

实验步骤

通风时间和毒物浓度成指数关系

输入／移去的变量b
模型	输入的变量	移去的变量	方法
1	通风时间(分)a	.	输入
a. 已输入所有请求的变量。
b. 因变量: lny

模型汇总
模型	R	R 方	调整 R 方	标准估计的误差
1	.980a	.961	.958	.29876
a. 预测变量: (常量), 通风时间(分)。

Anovab
模型	平方和	df	均方	F	Sig.
1	回归	28.588	1	28.588	320.287	.000a
	残差	1.160	13	.089
	总计	29.749	14
a. 预测变量: (常量), 通风时间(分)。
b. 因变量: lny

系数a
模型	非标准化系数	标准系数	t	Sig.
	B	标准误差	试用版
1	(常量)	1.271	.162		7.831	.000
	通风时间(分)	-.320	.018	-.980	-17.897	.000
a. 因变量: lny

根据上面三个表可以看出，拟合方程的R^2和调整R^2都很高，误差很小，F统计量很高，系数统计量也很显著，表明该方程的拟合度很高。因此可以建立方程如下：

lny^=1.271-0.32time

将该方程进行反变换得到原始变量的预测方程如下：

Y^=3.564time^(-0.32)

曲线拟合：

模型描述
模型名称	MOD_1
因变量	1	毒物浓度
方程	1	指数a
自变量	通风时间(分)
常数	包含
其值在图中标记为观测值的变量	未指定
a. 该模型要求所有非缺失值为正数。

个案处理摘要
	N
个案总数	15
已排除的个案a	0
已预测的个案	0
新创建的个案	0
a. 从分析中排除任何变量中带有缺失值的个案。

变量处理摘要
	变量
	因变量	自变量
	毒物浓度	通风时间(分)
正值数	15	15
零的个数	0	0
负值数	0	0
缺失值数	用户自定义缺失	0	0
	系统缺失	0	0

模型汇总
R	R 方	调整 R 方	估计值的标准误
.980	.961	.958	.299
自变量为通风时间(分)。

ANOVA
	平方和	df	均方	F	Sig.
回归	28.588	1	28.588	320.287	.000
残差	1.160	13	.089
总计	29.749	14
自变量为通风时间(分)。

系数
	未标准化系数	标准化系数	t	Sig.
	B	标准误	Beta
通风时间(分)	-.320	.018	-.980	-17.897	.000
（常数）	3.565	.579		6.160	.000
因变量为 ln(毒物浓度)。

拟合方程的R^2和调整R^2都很高，误差很小，F统计量很高，系数统计量也很显著，表明该方程的拟合度很高。

因此根据指数模型建立方程如下：

Y^=3.565time^(-0.32)

将建立的方程与上面进行对数变换建立的方程比较，两者几乎一样

方差不齐处理：

对wls.sav文件

做简单线性回归：

模型汇总
模型	R	R 方	调整 R 方	标准估计的误差
1	.987a	.975	.973	.11330
a. 预测变量: (常量), x。

系数a
模型	非标准化系数	标准系数	t	Sig.
	B	标准误差	试用版
1	(常量)	7.454	.173		43.143	.000
	x	-.015	.001	-.987	-22.468	.000
a. 因变量: y

一份样本和15本样本混合后测量结果等价对待，是不合理的

加权后：

模型汇总
模型	R	R 方	调整 R 方	标准估计的误差
1	.982a	.965	.962	.29365
a. 预测变量: (常量), x。

R方与之前相比，下降了

系数必然下降，因此不能用来判断模型的好坏

右图所示，加权法的直线更靠近中部哪些混合样本n较大的测量值，而对两端n较小的测量值则比普通回归方程更远一些。

对最小二乘法的估计：

模型摘要
复相关系数	.982
R 方	.965
调整 R 方	.962
估计的标准误	.294
对数似然函数值	13.883

ANOVA
	平方和	df	均方	F	Sig.
回归	30.530	1	30.530	354.054	.000
残差	1.121	13	.086
总计	31.651	14

系数
	未标准化系数	标准化系数	t	Sig.
	B	标准误	试用版	标准误
（常数）	7.190	.188			38.316	.000
x	-.014	.001	-.982	.052	-18.816	.000

得出的模型和刚刚用线性模型中的加权方法进行拟合的模型结果是一致的

幂	-2.000	11.565
	-1.500	13.182
	-1.000	13.883a
	-.500	13.496
	.000	12.382
	.500	11.099
	1.000	9.687
	1.500	7.787
	2.000	5.277
a. 选择对应幂以用于进一步分析，因为它可以使对数似然函数最大化。
b. 因变量: y，源变量: n

当指数=-1时，对数似然值最高，达到了13.883，因此最终确定指数为-1

这和数据的实际情况是重合的。

实验七	聚类分析（市场细分）
实验属性	综合型	实验时间	2020．5．21

实验目的

采用聚类分析对数据进行市场细分。

实验内容

telco-extra.sav 和drug.sav

实验步骤

一、层次聚类法

案例处理摘要a
案例
有效	缺失	合计
N	百分比	N	百分比	N	百分比
31	100.0%	0	.0%	31	100.0%
a. 平方 Euclidean 距离已使用

聚类表
阶	群集组合	系数	首次出现阶群集	下一阶
	群集 1	群集 2		群集 1	群集 2
1	3	17	.111	0	0	2
2	3	12	.246	1	0	15
3	5	7	.407	0	0	4
4	5	8	.624	3	0	13
5	20	27	.857	0	0	11
6	29	30	1.121	0	0	20
7	28	31	1.390	0	0	20
8	4	14	1.666	0	0	10
9	15	23	2.102	0	0	14
10	4	25	2.751	8	0	21
11	20	24	3.419	5	0	12
12	20	22	4.167	11	0	19
13	5	6	5.010	4	0	19
14	15	16	6.127	9	0	23
15	3	18	7.428	2	0	18
16	21	26	8.813	0	0	21
17	11	19	10.248	0	0	22
18	3	10	12.010	15	0	23
19	5	20	13.835	13	12	25
20	28	29	16.130	7	6	27
21	4	21	18.530	10	16	25
22	11	13	21.298	17	0	28
23	3	15	24.620	18	14	29
24	1	2	28.412	0	0	26
25	4	5	32.928	21	19	27
26	1	9	41.666	24	0	28
27	4	28	54.441	25	20	29
28	1	11	68.972	26	22	30
29	3	4	87.757	23	27	30
30	1	3	150.000	28	29	0

群集成员
案例	8 群集	7 群集	6 群集	5 群集	4 群集	3 群集
1:Case 1	1	1	1	1	1	1
2:Case 2	2	1	1	1	1	1
3:Case 3	3	2	2	2	2	2
4:Case 4	4	3	3	3	3	3
5:Case 5	5	4	3	3	3	3
6:Case 6	5	4	3	3	3	3
7:Case 7	5	4	3	3	3	3
8:Case 8	5	4	3	3	3	3
9:Case 9	6	5	4	1	1	1
10:Case 10	3	2	2	2	2	2
11:Case 11	7	6	5	4	4	1
12:Case 12	3	2	2	2	2	2
13:Case 13	7	6	5	4	4	1
14:Case 14	4	3	3	3	3	3
15:Case 15	3	2	2	2	2	2
16:Case 16	3	2	2	2	2	2
17:Case 17	3	2	2	2	2	2
18:Case 18	3	2	2	2	2	2
19:Case 19	7	6	5	4	4	1
20:Case 20	5	4	3	3	3	3
21:Case 21	4	3	3	3	3	3
22:Case 22	5	4	3	3	3	3
23:Case 23	3	2	2	2	2	2
24:Case 24	5	4	3	3	3	3
25:Case 25	4	3	3	3	3	3
26:Case 26	4	3	3	3	3	3
27:Case 27	5	4	3	3	3	3
28:Case 28	8	7	6	5	3	3
29:Case 29	8	7	6	5	3	3
30:Case 30	8	7	6	5	3	3
31:Case 31	8	7	6	5	3	3

根据上表可得：

(1)方案一:分成6类或者5类。

第1类:包含上海1省市;

第2类:包含北京、天津2省市;

第3类包含河北、湖北、安徽、湖南、江苏、山东、四川河南等8省市;

第4类:包含广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市:

第5类:包含浙江、广东、福建等3省市;

第6类:包含。青海、宁夏、甘肃、新疆等4省市。

其中第1类和第2类可以合并为一类。这时总类别数就是5类。事实上，由于在分成6类时，第1个类别只有上海一个省市，所以在这种聚类方案中，更倾向于将31个省市分成5类。

(2)方案二:分成3类或者2类。

第1类:包含上海、天津、北京、浙江、广东、福建等6省市;

第2类:包含河北、湖北,安徽,湖南、江苏、山东、四川、河南等8省市;

第3类:包含青海、宁夏、甘肃、新疆、广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等17省市。

其中第二类和第二类可以合并为一类，这时总类别数就是二类。但是，由于分成两类区分性不强，所以在这种聚类方案中，常更倾向于将这些省市分成三类。

二、K均值聚类法

1.分析-分类-K均值聚类：聚类数：5；变量：加入6个标准化的变量；个案标记依据：客户编号；方法：迭代与分类-迭代：最大迭代次数改为100-选项：在默认基础上勾选“ANONA表”-保存：勾选“聚类成员”-确定的操作后得到下列结果：

初始聚类中心
	聚类
	1	2	3	4	5
Zscore: 工作日上班时期电话时长	3.21791	-1.16165	2.64849	.19729	1.93001
Zscore: 工作日下班时期电话时长	-.65276	-1.26557	-1.03058	3.87339	-.17204
Zscore: 周末电话时长	3.72181	3.11491	-.02169	-.90652	-1.21281
Zscore: 国际电话时长	4.90995	-1.16636	.29390	2.77257	.53252
Zscore: 总通话时长	2.96323	-1.31226	2.07308	1.47340	1.63709
Zscore: 平均每次通话时长	-.51651	.30760	5.49282	-.22792	12.99993
最终聚类中心
	聚类
	1	2	3	4	5
Zscore: 工作日上班时期电话时长	1.60559	-.78990	.61342	-.33584	.37303
Zscore: 工作日下班时期电话时长	.46081	-.58917	-.49365	1.18873	-.29014
Zscore: 周末电话时长	-.14005	-.15010	.35845	-.02375	-.40407
Zscore: 国际电话时长	1.68250	-.64550	.04673	.02351	-.04415
Zscore: 总通话时长	1.62690	-.94040	.41420	.10398	.21627
Zscore: 平均每次通话时长	-.06590	-.14835	-.05337	-.14059	4.87718

ANOVA
	聚类	误差	F	Sig.
	均方	df	均方	df
Zscore: 工作日上班时期电话时长	582.315	4	.314	3390	1854.022	.000
Zscore: 工作日下班时期电话时长	468.001	4	.449	3390	1042.395	.000
Zscore: 周末电话时长	39.060	4	.955	3390	40.896	.000
Zscore: 国际电话时长	443.179	4	.478	3390	926.658	.000
Zscore: 总通话时长	605.770	4	.286	3390	2115.071	.000
Zscore: 平均每次通话时长	463.823	4	.454	3390	1021.872	.000
F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。

为在聚类分析的结果中，各个变量对聚类结果的重要程度排序为:总通话时长>工作日上班时期电话时长>工作日下班时期电话时长>平均每次通话时长> 国际电话时长>周末电话时长。

每个聚类中的案例数
聚类	1	443.000
	2	1239.000
	3	831.000
	4	806.000
	5	76.000
有效	3395.000
缺失	.000

可见人数最多的是第类，而最少的是第类

从上述表格可以得出：

第1类:总通话时间长，工作日上班时间通话比例高用户。此类用户数量为443人。该类客户的总通话平均时间是各类客户中最高的，并且工作日，上班时间通话占总通话比例很高(工作日.上班通话平均与全部通话平均之比达到了77. 69%),另外,该类客户国际通话时间也是各类.中最高的。可以叫做“高端商用客户”。

第2类:总通话时间短，各时段通话时间都短。此类用户数量为1239人。该类客户的总通话平均时间是各类客户中最低的，并且在各个时段通话时间普遍较短。可以叫做“少使用低端客户”

第3类:总通话时间居中,工作日上班时间通话比例高用户。此类用户数量为831人。该类客户最重要的特征是工作日.上班时间通话比例高(工作日上班通话平均与全部通话平均之比达到了79.01%)。可以叫做“中端商用客户”。

第4类:总通话时间居中,工作日下班时间通话比例高用户。此类用户数量为806人。该类.客户工作日下班时间通话比例高(工作日下班通话平均与全部通话平均之比达到了47.57%)，远高于其他类别同一比例。可以叫做“中端日常用客户”。

第5类:每次通话时间长客户。该类用户数量为76人,此类用户数量较少。最大的特征就是平均每次通话时间特别长，每次通话时长平均达到了其他类别每次通话时长平均的5倍以上，而其他方面无明显特征。可以叫做“长聊客户”。

三、两步聚类法

从上图可知这四类案例分布得比较均匀

从上图可知胆固醇的重要性最高，钾含量的重要性最低

通过以上分析，尤其是上面各个变量对于聚类结果重要性的分析,我们可以把病人分为4个类别,他们的特征分别如下：

第1类:高血压、胆固醇浓度正常。此类别病人数量为98人,占病人总数19. 6%。全部为高血压、胆固醇浓度正常的患者,性别无明显特征，血液中钠含量高于平均水平。

第2类:男性、胆固醇浓度高。此类别病人数量为136 人,占病人总数27.2%。全部为男性胆固醇浓度高的患者,血压无明显特征，并且血液中钠含量低于平均水平。

第3类:女性、胆固醇浓度高。此类病人数量为134人，占病人总数26.8%。全部女性胆固醇浓度高的患者，血压无明显特征，并且血液中钠含量高于平均水平。

第4类:非高血压、胆固醇浓度正常。此类病人数量为132 人,占病人总数26.4%。全部为胆固醇浓度正常,无一人为高血压,并且血液中钠含量低于平均水平。

四、市场细分

2.对因子分析得到的三个重要变量进行聚类分析，进行分析-分类-两步聚类：分类变量：婚姻状况、受教育水平、退休情况、性别，连续性变量：加入三个重要变量及其他相关变量-输出：在默认设置基础上，勾选“创建聚类成员变量”，评估字段为居住地-确定的操作后得到下列结果：

从上图可知这三类案例分布得虽然不算特别均匀但也还可以

从上两张图可以看出婚姻状况对分类的影响是最大的，家庭人口数对分类的影响也很大

3.用判别变量分析结果是否良好，进行分析-分类-判别：分组变量为两步聚类类别号（定义范围为1-3），自变量为三个重要变量及其他相关变量-确定的操作后得到下列结果：

两个被抽选出的变量的特征值都大于1，则这两个变量可以很好地代表或者是覆盖其他变量

两个被抽取的变量都Sig>0，说明两者的结果都显著，都应该要保留在模型当中

组质心处的函数
两步聚类类别号	函数
	1	2
1	-2.324	-.700
2	-.634	1.992
3	2.362	-.349
在组均值处评估的非标准化典型判别式函数

4.展示图形以获得更为直观的能判断出分类判别结果的图，在步骤4的基础上进行分类：勾选“个案结果”、“摘要表”，取消“合并图”-确定的操作后得到下列结果：

分类1与分类3没有什么太大问题，就是分类2的距离有一点大，但是整体判别效果是不错的

综上所述，一共可分为三类人

一类为通话时长较长的顾客。

二类为设备及网络要求最优的顾客。

三类为家庭电话卡较多的顾客。

#营销工程

营销工程报告

https://liaoweiquan.github.io/2020/05/21/营销工程/

作者

泉泉

发布于

2020年5月21日

许可协议

【实操】SQL数据清洗&TABLEAU数据可视化操作上一篇

Excel数据分析实例下一篇