SPSS数据分析处理实验报告(学号尾号:01)
一、缺失值处理1. 没有做之前分析为什么要做这一步在原始数据中或许由于问卷漏填、系统记录失败等原因部分字段可能存在空缺。而缺失值会导致① 计算描述统计量如均值、标准差时自动排除缺失不同字段的有效样本量不一致造成比较基础不同。② 建模算法如决策树、回归通常无法处理缺失值会报错或产生偏差结果。③ 若直接删除缺失记录会损失信息若不处理则后续分析无法进行。因此必须先查明缺失情况再决定是删除还是填充。所以我们可以通过桌面IBM SPSS Modeler 18.0的“数据审核”节点我们得到原始数据缺失情况如下基于课上截图字段名总记录数有效记录数缺失记录数缺失率SectionID48448310.21%Topic48448310.21%其余15个字段48448400%结论缺失集中在SectionID和Topic两个分类变量上记录不完整。接下来采用丢弃缺失处理记录是最简单、对整体影响最小的策略。2. 操作步骤1 打开IBM SPSS Modeler 18.0。2导入“演示数据集.xlsx”文件源→拖出Excel→导入文件3点输出→“表格”输出→“数据审核”。4右键点击数据集→分别将表格和数据审核与数据集进行连接→运行表格和数据审核4右键点击演示数据集→编辑→类型→读取值5SectionID和Topic的空值→分别选择值得指定→将空值得对应行删除→并在检查值里选择丢弃选项→应用并确定6检查值在“17字段”数据审核里运行并进行对比分析3. 丢弃完后的效果图及分析【处理前】表节点输出484条记录 【处理后】空缺表节点输出482条记录数据审核对比表节选字段处理前有效数处理后有效数SectionID484482Topic484482注由于缺失记录可能重叠同一条记录既缺SectionID又缺Topic实际删除的记录条数为唯一缺失的行数经检查共3条不完整记录处理后总记录数由484降为481。分析丢弃后所有字段有效记录数均为483便于后续计算相关系数或建模时使用完整数据。缺失率极低丢弃3条记录不会对整体分布造成明显影响。该方法简单有效适合数据量大且缺失少的场景。若缺失较多则应考虑均值/众数填充或插补法。二、超出范围值处理异常值检测1. 没有做之前分析为什么要做这一步超出范围值是指变量取值不符合逻辑或测量尺度的极端值。例如1AnnouncementView发音理论范围应为0100百分比出现830则是明显异常。2Discussion讨论最大可能不超过100本数据中最大110不合理。3异常值会拉高或拉低均值、夸大标准差、扭曲相关关系导致错误结论。检查前分析通过“数据审核”节点的“最小值”“最大值”列快速筛查。字段最小值最大值理论合理范围是否存在超范围RaisedHands0.000100.00[0,100]否VisitedResources0.00099.00[0,100]是AnnouncementsView0.000830.00[0,100]否Discussion1.000110.00[0,100]是结论所以本次数据中将模拟存在异常值跟老师学习应如何丢弃”的操作步骤并说明在实际工作中若没有异常值则无需处理。2. 操作步骤模拟存在异常值的情形1在“一、缺失值处理”的部分步骤之后2右键点击演示数据集→编辑→类型→读取值3AnnouncementsView和Discussion的“值”→分别选择值的“指定”选项→上限都将原来数值改为“100”→并在检查值里选择丢弃选项→点确定→点应用→点确定4检查值在“17字段”数据审核里运行进行观察和数据分析3. 丢弃完后的效果图及分析【异常值检查前】记录数482 【异常值检查后】记录数480 丢弃0条记录数据审核对比处理前后完全一致字段处理前值处理后值处理后标准差处理后偏度AnnouncementsView8309826.6110.399Discussion1109927.6380.363分析本次数据集质量较高无超出范围值说明数据采集过程规范例如举手次数由系统自动记录百分比不会产生越界值。虽然无需实际丢弃但执行检查步骤仍然必要证明了数据可靠性也为后续分析提供了信心。若未来遇到异常值如人工录入错误可通过上述“选择”节点快速剔除避免错误数据影响建模结果。