spss回归分析教程

2017-08-11 04:17:23 jazdbmin1639整理 逻辑回归教程 逻辑回归教程

spss 回归分析步骤

Q1: spss回归分析结果怎么得出回归结果

如何报告回归分析的结果




回归分析的结果可以分为以下几部分:1)回归模型;2)回归系数;3)因变量和自变量的特征;4)自变量之间的关系。其中,1和2是必须详细报告的基本信息;而3和4则可以根据具体情况而详略各异的辅助信息。以下分别讨论之。


如何描述回归模型和回归系数


先简单讲一下一元回归。一元回归,即只涉及一个自变量(如X)。这种模型在社会科学中既很少见(一个常见的例外是时间序列分析中以时间为自变量分析因变量的长期趋势),也很容易报告。一般不需用表格,只须写一句话(如“自变量X的b = ?,std = ?, Beta = ?”)或给一个公式(如“Y = ? + ?b, where std = ?, Beta = ?”)就足够了。如果一项研究中有多个一元回归分析,那么就应该也可以用一个表格来报告(参加?),以便于读者对各模型之间作比较。


接下来专门讲多元回归。由于其涉及诸多参数,有的必须报告、有的酌情而定、有完全不必,为了便于说明,我按SPSS回归分析的输出结果(其它统计软件大同小异),做了一个如何报告回归模型和回归系数的一览表(表一)。如表所示,我将各种参数分成“必须报告”、“建议报告”、“一般不必”和“完全不必”四类。我的分类标准来自于公认的假设检验所涉及的四个方面,即变量之间关系的显著性、强度、方向和形式(详见“解释变量关系时必须考虑的四个问题”一文)。也就是说,每个参数的取舍,应该而且可以由其是否提供了不重复的显著性(即Sig)、强度(B或Beta的值)、方向(B或Beta的符号)和形式(自变量的转换)信息而定的。


表一、如何报告回归模型和回归系数之一览表


注释 SPSS结果出处 是否报告 如何报告

回归模型部分

R 因变量与所有自变量的复合相关系数 Model Summary表 完全不必

R Square R的平方值 Model Summary表 一般不必

Adjusted R Square R平方的修正值 Model Summary表 必须报告 见表二

Std Error of the Estimate因变量预测值的标准误差(注1) Model Summary表 建议报告 见表二

Sum of Squares 总离差 ANOVA表 完全不必

df 自由度 ANOVA表 完全不必

Mean Square 平均离差 ANOVA表 完全不必

F 模型F值 ANOVA表 一般不必

Sig. F值的显著水平 ANOVA表 必须报告 见表二

N模型的个案数(注2) ANOVA表 必须报告 见表二

回归系数部分

Unstandardized Coefficients (B) 非标准化系数 Coefficients表 必须报告 见表二

Unstandardized Coefficients (Std. Error) B的标准误差 Coefficients表 必须报告 见表二

Standardized Coefficients (Beta) 标准化系数 Coefficients表 必须报告 见表二

t = B / Std. Error Coefficients表

Sig. t值的显著水平 Coefficients表 必须报告 见表二

95% Confidence Interval for B (Lower Bound) B的置信区间(下限)Coefficients表(注3) 建议报告 见表二

95% Confidence Interval for B (Upper Bound) B的置信区间(上限)Coefficients表(注3) 建议报告 见表二

注1:因变量预测值的标准误差描述了该模型的精确度(precision),如表二中的因变量是当前年薪,其预测误差为?,即如果用该模型(包括起薪、工龄和性别三个自变量)去预测条件相同的企业中的员工年薪,则可以知道?。这种信息无法从模型的其它参数(如R平方或其修正值、显著水平、各自变量的B或Beta)中得知。


注2:如果因变量和所有自变量都没有缺省值,那么模型的个案数就等于样本数。但变量常有缺省值,这时模型的个案数就会小于样本数、有时两者相差很大(当然是个严重问题),所以一定要报告前者。SPSS并不直接显示该信息,但很容易计算,等于 ANOVA表中的Total df + 1就是了。RegressionStatistics


注3:B的置信区间,是用来检验B的显著水平的另一工具(如果上、下限之间包含了0,说明B在95%的水平上不显著),以弥补t检验及其Sig值的不足。这是一个经典又有复杂的问题,叫做Null Hypothesis Significance Test (NHST),本文不做详谈。有兴趣的读者可以参见有关网页(R. C. Fraley; D. J. Denis)。SPSS不直接给出B的置信区间,需要在“Statistics”一项中要求添加。如右图所示,SPSS回归分析的输出结果中,内定只显示“Estimates" 和"Model fit"两项(即会产生表一中除了置信区间之外的其它各项参数)。建议加选“Confidence intervals”。



现在用一个实例来演示如何报告回归分析结果。为了便于大家重复这个实例,我使用的数据是SPSS自带的world95.sav。这是联合国教科文组织(或世界银行之类机构)发表的1995年全球109个国家或地区的“国情”数据,其中含有人口、地理、经济、社会、文化等26个指标。我以其中的birth_rt(每1000人的出生率)为因变量,gpd_car(人均国内生成总值)、urban(城市化,即人口中城市人口比例)、literacy(识字率、即人口中能阅读者比例)和calories(每天卡路里摄入量)等四项为自变量。按表一的原则,我将该回归分析的结果报告在表二中:


[转载]如何报告回归分析的结果


限于篇幅和本文目的,我不对表二的各参数作解读。但想对表中的有关格式做些补充说明。


如何给表格取标题:一般只须描述表内的内容即可。那么,本表的内容是什么呢?是出生率对四个自变量作回归的结果。该四个自变量在表内均有详细介绍,故不必在表格标题中重复。

如何描述变量(包括因变量和自变量):我先给出每个变量的理论概念名(如必要,可以用英文)、然后在括号中注明其对应的SPSS变量名(这并非必须、而是为了便于大家对照手头的SPSS数据)和操作定义(很有必要、强烈推荐,从中读者可以看到变量是否做过转换、从而得知有关关系的形式、即线性还是非线性)。为何要如何详细地描述变量?APA手册对如何制作各种定量分析结果的表格或图形有一条“独立信息”的基本原则,即每个图表要包含基本信息、以致读者不需参照正文而能够独立读懂该图表。因此,简单地将SPSS输出结果黏贴过来,虽是最常见的做法、但是很坏的习惯。

是否需要报告常数(Constant):一定要。常数对解读回归模型的实际社会意义,有十分重要的作用。如本表中的常数 = 65.444,意即全球(74个国家或地区)的平均出生率(即在控制了四项自变量的影响之后)为千分之65.4,等等。有一点须注意的是在SPSS的输出结果中,常数是放在第一行的。应该搬到其它自变量之后。

报告哪个回归系数(即标准化还是非标准化系数):这是最常见问题。以前曾有过“预测派”和“解释派”之争,前者主张只要报告B就够了、而后者则认为只要报告Beta就行了。其实两者反映的是不同的信息,B不受因变量变异程度(variability)的影响、所以同一自变量在各回归模型中的B是可以比较的(很多理论假设需要检验的就是这一问题);而Beta受因变量变异程度的影响而无法跨越本模型、但是却因其标准化而可以与同一模型中的其它Beta相比(也有很多理论假设希望解决的是这个问题)。因此,APA手册建议同时报告两者(英文第五版pp. 160-161)。

小数点之后取几位:APA手册认为,一般的定量分析结果只须保留两位小数足够。对回归结果来说,Beta、R2值、显著水平等标准化参数(即其取值均在0与1之间)取两位小数最合适。B及其相关指标(标准误差、置信区间)是非标准化的(即取值可以是任意大或任意小),所以要酌情而定,根据变量的量表(scale,即取值范围)大小而多取、少取甚至不取小数点。一般而言,当自变量的量表大于因变量时,其B会取小值、所以需要多取一至数位小数;相反,自变量的量表小于因变量时,其B会取大值、所以可以少取甚至不取小数。在本例中,GDP和卡路里的量表都远大于出生率,所以它们的B值看上去很小(但不一定意味着影响小)。因此,我就没有机械地只取两位小数。大家如果仔细看一下表二,就会发现我的“酌情”规则是“最后一位0之后取两位”,如-0.00042、0.033、-0.034、-0.0041,这与APA手册的“取两位小数”原则的基本精神是一致的。我们日常见到的问题,主要是保留过多的小数点,往往是是直接黏贴SPSS的结果(其内定是6位小数)而不加编辑而造成。

表格内是否有横竖分割线:按APA的规定,除了表格顶部、底部和列标题底部有三条横线外,其余一概不用。很多人简单照搬Word表格的内定线条,不做任何修饰。审稿专家一看就知是“菜鸟”或懒汉所为。

p是什么东东?就是SPSS输出中的Sig。p是所有统计学教科书中通用的符号,Sig则只是SPSS的专用。前者更广为认知。

如何报告多个回归模型?以上是如何报告一个回归模型的结果。实际上,一项研究(即一篇论文)中往往涉及数个回归模型。有些作者喜欢为每个回归做一个类似表二的回归结果表。这种方法有两个问题:一是占用过多的空间、二是不利于对各模型进行比较。一般说来,应该而且可以将平行(即全部自变量相同)或交集(即部分自变量相同)的回归模型结果放在同一个表内。我们还是用world95数据,再对死亡率和AIDS发病率分别做一个回归,然后将三个模型的结果放在表三:



表三与表二的主要区别在于表二是横向的(每列为同一类参数)、而表三是纵向(每列为同一模型)。表二中横排的六类参数改成竖立的四行(其中的p值被星号代替、置信区间的上下限合在一行),以便读者做横向比较(这是所有定量分析结果的表格制作的一个基本原则)。如果是英文报告,去掉中文后,表三会变得简洁明了很多。


如何报告变量特征和自变量关系


如前所述,因变量和自变量的特征以及自变量之间的相关关系,是需要酌情考虑的辅助信息。鉴于本文已经很长了,我们简单说一下。变量特征主要指


变量的操作定义(问卷原文)

取值范围(如0-100、0-1、0或1、1-5、1-7等等;好雪问的,如果数据做过对数、平方、开方、倒数等转换,就应该而且最适合在这里报告)

描述性统计值(均值、标准差、偏度Skewness、峰度Kurtosis等)

一种值得推荐的方法,是将所有变量的上述特征列在一个表中(表四)、放到论文的附录中去、供有兴趣的读者查阅(类似的技术细节一般都可以放到附录中去)。

------------------------


关于SPSS回归结果分析

向左转|向右转spss回归分析结果怎么得出回归结果

写论文的这个回归结果怎么说明

解答:

一看判定系数R方,本例中,R方=0.202,拟合优度很差.一般要在0.6以上为好.至少也在0.4以上.
二看系数估计量的sig值,其中,独董规模的sig=0.007,小于0.05,说明该变量对因变量有显著的影响.而总经理持股量则不显著.因为sig值大于0.05.
之所以,模型不好,是因为你忽略了重要的影响因素.
但如果你只关注这两个自变量对因变量的影响,那么,结论已经出来了.目的达到了,所以,也说得过去.
统计人刘得意

追答::

可以的,若作自变量,就是虚拟变量模型。 只要有一个sig小于0.05,模型就可以说是有效的。

追问::

像董事长是否兼任总经理,是则为1,否则为0,这样的数据能进行回归分析吗?从哪个值能看出这个模型是有效的?PS. R方好像是0.041吧?

追答::

一般来说是这样的。线性相关时,才能做线性回归模型。

Q2: 如何用spss做多因素回归分析

1)准备分析数据
在SPSS数据编辑窗口中,创建变量,并输入数据。再创建分级变量“x1”、“x2”、“x3”、“x4”和“y”,它们对应的分级数值可以在SPSS数据编辑窗口中通过计算产生。
2)启动线性回归过程
单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开线性回归过程窗口。
3) 设置分析变量
设置因变量:用鼠标选中左边变量列表中的“[y]”变量,然后点击“Dependent”栏左边的向右拉按钮,该变量就移到“Dependent”因变量显示栏里。
设置自变量:将左边变量列表中的“ [x1]”、“ [x2]”、“ [x3]”、“[x4]”变量,选移到“Independent(S)”自变量显示栏里。
设置控制变量:不使用控制变量,可不选择任何变量。
选择标签变量: 选择为标签变量。
选择加权变量:没有加权变量,可不作任何设置。
4)回归方式
预报因子变量是经过相关系数法选取出来的,在回归分析时不做筛选。因此在“Method”框中选中“Enter”选项,建立全回归模型。
5)设置输出统计量
单击“Statistics”按钮,将打开对话框。该对话框用于设置相关参数。其中各项的意义分别为:
①“Regression Coefficients”回归系数选项:
“Estimates”输出回归系数和相关统计量。
“Confidence interval”回归系数的95%置信区间。
“Covariance matrix”回归系数的方差-协方差矩阵。
选择“Estimates”输出回归系数和相关统计量。
②“Residuals”残差选项:
“Durbin-Watson”Durbin-Watson检验。
“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:
“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;
“All cases”选择所有观测量。
提交执行
在主对话框里单击“OK”,提交执行,结果将显示在输出窗口
回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。

Q3: spss回归分析结果图,帮忙看一下,麻烦详细地解释解释

R平方就是拟合优度指标,代表了回归平方和(方差分析表中的0.244)占总平方和(方差分析表中的0.256)的比例,也称为决定系数。你的R平方值为0.951,表示X可以解释95.1%的Y值,拟合优度很高,尤其是在这么大的样本量(1017对数据点)下更是难得。
系数表格列出了自变量的显著性检验结果(使用单样本T检验)。截距项(0.000006109)的显著性为0.956(P值),表明不能拒绝截距为0的原假设;回归系数(X项)为0.908,其显著性为0.000(表明P值小于0.0005,而不是0。想看到具体的数值,可以双击该表格,再把鼠标定位于对应的格子),拒绝回归系数0.908(X项)为0的原假设,也就是回归系数不为0;标准化回归系数用于有多个自变量情况下的比较,标准化回归系数越大,该自变量的影响力越大。由于你的数据仅有一个自变量,因此不需要参考这项结果。
对于线性回归,我在百度还有其他的回答,你可以搜索进行补充。

追问:

还有几个问题:
R方大于多少表示拟合性好?
F值是指什么?后面的sig.又指什么?
最后一个表可以表明自变量和因变量显著相关吗?

追答:

1、一般认为,相关系数达到0.1为小效应(R方0.01),0.3为中等R方0.09),0.5为大(R方0.25),这是针对自然科学的一般界限,不一定适用于你的学科。
2、在线性回归中,F值为方差分析的结果,是一个对整个回归方程的总体检验,指的是整个回归方程有没有使用价值(与随机瞎猜相比),其F值对应的Sig值小于0.05就可以认为回归方程是有用的。注意,这是对多个自变量的总体检验,而不是单个自变量(单个自变量在系数表中,为单样本T检验),由于你的数据只有一个自变量自变量,因此其结果与单变量相同。
3、确实,最后一个表可以表明自变量和因变量显著相关(因为Sig值为0.000).

小提示:内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。

逻辑回归教程 推荐文章:
推荐不满意?点这里  ››  

逻辑回归教程