最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

大数据分析报告的应用模拟的题目(二)(附问题详解)

IT圈 admin 64浏览 0评论

2024年5月18日发(作者:寇高爽)

word

1〔50.0分〕

某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的根本信息,

经济情况,以与是否拖欠还款等,具体如附表所示〔已经将客户分为了训练集和测试集〕。

Microsoft Office

Excel 2007 工作表

数据分析应用1测试

数据

进展数据预处理,并用不同的算法模型〔逻辑回归、神经网络等〕分析信用卡拖欠还款情况,

结合测试数据比照模型的拟合优度,要求写出具体的思路过程。

答案:

1、由题意,可以确定此题中年龄、教育水平、当前工作年限、当前居住年限、家庭收入、

债务占收入比例、信用卡负债、其他负债等为自变量,还款拖欠情况为因变量。

2、对数据进展预处理:

本案例数据均为数值型,符合模型建设要求;

本案例数据不存在缺失值,故此项不用处理;

通过datahoop平台箱形图可知,家庭年收入一项异常值较多,但是结合实际情况认为可能

是有特殊人群存在,故此处不做处理。

观察训练集数据可知,本案例样本均衡,可以进展模型建设。

下边分别用逻辑回归、神经网络、SVM进展模型测试。

3、〔1〕逻辑回归:

首先进展变量的相关性检查,将训练集导入平台,通过datahoop平台相关系数矩阵分析得

出如下相关系数矩阵

1 / 11

word

由相关系数矩阵得知变量之间虽有相关性但相关性不高,可以直接进展逻辑回归分析.

打开datahoop平台预测分析,将训练数据放入训练表,测试数据放入测试表,选择相应的

自变量和因变量,选择逻辑回归。结果如下:

由模型训练结果可知Accuracy,AUC值,准确率召回率F1值都比拟高,模型拟合效果较好,

训练误差不大。

将模型预测结果中的预测数据和测试集中的实际数据比照,得到混淆矩阵并计算出相应的准

确率和召回率如下:

由混淆矩阵计算得出的准确率和召回率都比拟高,模型泛化误差不大,模型整体预测效果较

2 / 11

2024年5月18日发(作者:寇高爽)

word

1〔50.0分〕

某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的根本信息,

经济情况,以与是否拖欠还款等,具体如附表所示〔已经将客户分为了训练集和测试集〕。

Microsoft Office

Excel 2007 工作表

数据分析应用1测试

数据

进展数据预处理,并用不同的算法模型〔逻辑回归、神经网络等〕分析信用卡拖欠还款情况,

结合测试数据比照模型的拟合优度,要求写出具体的思路过程。

答案:

1、由题意,可以确定此题中年龄、教育水平、当前工作年限、当前居住年限、家庭收入、

债务占收入比例、信用卡负债、其他负债等为自变量,还款拖欠情况为因变量。

2、对数据进展预处理:

本案例数据均为数值型,符合模型建设要求;

本案例数据不存在缺失值,故此项不用处理;

通过datahoop平台箱形图可知,家庭年收入一项异常值较多,但是结合实际情况认为可能

是有特殊人群存在,故此处不做处理。

观察训练集数据可知,本案例样本均衡,可以进展模型建设。

下边分别用逻辑回归、神经网络、SVM进展模型测试。

3、〔1〕逻辑回归:

首先进展变量的相关性检查,将训练集导入平台,通过datahoop平台相关系数矩阵分析得

出如下相关系数矩阵

1 / 11

word

由相关系数矩阵得知变量之间虽有相关性但相关性不高,可以直接进展逻辑回归分析.

打开datahoop平台预测分析,将训练数据放入训练表,测试数据放入测试表,选择相应的

自变量和因变量,选择逻辑回归。结果如下:

由模型训练结果可知Accuracy,AUC值,准确率召回率F1值都比拟高,模型拟合效果较好,

训练误差不大。

将模型预测结果中的预测数据和测试集中的实际数据比照,得到混淆矩阵并计算出相应的准

确率和召回率如下:

由混淆矩阵计算得出的准确率和召回率都比拟高,模型泛化误差不大,模型整体预测效果较

2 / 11

发布评论

评论列表 (0)

  1. 暂无评论