数模备战知识点详解

画图

Excel:刘万祥

原则:表上图下,每一个图都加分析


饼状图:排序后画

其他占比少但是需要:考虑复合饼图


柱状图

如果类别很多,可以用堆积柱状图或者百分比柱状图

切换坐标轴:右键图表-->选择数据-->切换行和列

条形图:相当于横着的柱状图

如果类别很多,要加入数据标签,使用条形图比较清晰(先排序)

双向条形图

image-20210807204424088

用柱状图可视化回归结果

image-20210807205212191

按照置信水平区分数据,然后分为两列

image-20210807205517216

选1 2 4列插入堆积柱状图


直方图

显示频数频率

频数:直接插入

频率:设计出两列

image-20210807212026528

区间用到的函数

image-20210807212103510

字符串拼接

然后点柱状图(少用)


折线图

折线图可以作为个数非常多的柱状图的补充

柱形图顶端的折线图

image-20210808101825895

具体操作看视频

excel视频


散点图

带标示的散点图

将需要标识的数据分成两列


箱线图

比较两个定性变量之间的数据

image-20210808105412116

三维地图

islide中的智能图表

评价

  • 算权重 主观:层次分析法(没有数据时用) 客观:熵权法/灰色关联分析(有数据)

  • 算得分:Topsis/灰色关联分析

  • 指标降维:主成分/因子(好)

灰色关联分析 = Topsis+熵权法 (可以都用然后取平均)

[灰色关联分析.pdf](file:///D:/qq聊天记录/上课用的课件和代码(下载后记得解压,所有视频配套的都在里面) (1)/清风数学建模课件和代码(全套下载后请解压)/更新视频的课件和代码/更新5 灰色关联分析/灰色关联分析.pdf)

预测

回归

插值

三次埃尔米特差值预测,三次样条插值预测(优先,准) 样本少,补充数据

image-20210721100148983

灰色预测

image-20210812171132189

BP神经网络

拟合算法

拟合算法笔记_CourserLi的博客-CSDN博客

时间序列预测

  • excel里的数据可以加一个数据条(条件格式-->数据条)

[数模新版视频课程第11讲.时间序列分析.pdf](file:///D:/qq聊天记录/上课用的课件和代码(下载后记得解压,所有视频配套的都在里面) (1)/清风数学建模课件和代码(全套下载后请解压)/正课视频的课件和代码/第11讲.时间序列分析/数模新版视频课程第11讲.时间序列分析.pdf)

建模思路

image-20210804231539390

视频

清风数学建模作业讲解的视频_哔哩哔哩_bilibili

  1. 替换缺失值(PPT第15页)

  2. 定义时间变量

  3. 画时序图 图要分析

  4. 如果数据呈现季节性,季节性分解,得到四个变量,画出分解后的时序图

  5. 第4中的季节性调整后系列数据可以放进stata进行拟合(Matlab工具箱)image-20210805152751535

    拟合优度要高

  6. 用SPSS的专家建模器

  7. 结果不太理想(处理离群值)

  8. 用专家建模器得到的模型进行解释

  9. ACF PACF放进去,解释残差是白噪声序列

  10. 预测效果图放进去,解放趋势符合

  11. 预测数据和置信区间放进去image-20210805154056340

数据预处理

  1. 插值法补充数据

  2. 数据正向化(同趋化)

相关性分析

Person Sperson

相关性分析笔记_CourserLi的博客-CSDN博客_斯皮尔曼相关性分析

相关性分析 非常适合在题目要求分析两组数据之间的关系时使用

  1. 先折线图大致相关性分析(Excel)

  2. 再按以下步骤

在这里插入图片描述

[皮尔逊相关系数:常州大学一等奖淡水养殖池塘水华发生及池水自净化研究.pdf](file:///D:/qq聊天记录/上课用的课件和代码(下载后记得解压,所有视频配套的都在里面) (1)/清风数学建模课件和代码(全套下载后请解压)/正课视频的课件和代码/第5讲.相关系数/扩展资料/皮尔逊相关系数:常州大学一等奖淡水养殖池塘水华发生及池水自净化研究.pdf)

  1. 典型相关分析

    非常适合在题目要求分析两组数据(每组数据间有多个指标)之间的关系时使用

    [2012年数学建模A题一等奖论文葡萄酒的评价.pdf](file:///D:/qq聊天记录/上课用的课件和代码(下载后记得解压,所有视频配套的都在里面) (1)/清风数学建模课件和代码(全套下载后请解压)/正课视频的课件和代码/第6讲.典型相关分析/扩展资料/2012年数学建模A题一等奖论文葡萄酒的评价.pdf)

    数学建模——典型相关分析及相关SPSS操作_东-CSDN博客_典型相关分析spss操作

    步骤:扔进spss-->看典型相关分析表(用最后一列原显著性改为P值)来分析个数-->用这个个数去标准化典型相关系数找系数-->得到典型变量-->用系数的绝对值得到结论-->典型载荷以及已解释的方差比例进一步分析

数据收集

image-20210725165719914

解释或者预测

多元线性回归分析模型

多元线性回归顺序(Stata)

n>=k(列满秩)

清风数学建模作业讲解的视频_哔哩哔哩_bilibili

一、描述性统计

// 定量变量的描述性统计
summarize 团购价元 评价量 商品毛重kg
// 定性变量的频数分布,并得到相应字母开头的虚拟变量
tabulate 配方,gen(A)// 定量变量的描述性统计
summarize 团购价元 评价量 商品毛重kg
// 定性变量的频数分布,并得到相应字母开头的虚拟变量
tabulate 配方,gen(A)

image-20210726105601464

(指标说明图)

二、线性模型假设


2.1 严格最小二乘估计(OLS)的条件和假设

假设1: 因变量为连续变量(二值、有序、计数等永其他模型) 假设2:Y与X1、X2⋯Xn之间存在线性关系(当然:X可以为分类) 假设3:独立性:因变量Y取值相互独立,即残差间相互独立,不存在自相关。主要和抽样、时间序列数据等有关 | 采用自回归模型(Autoregressive model,简称AR模型,用x预测 x(自己);所以叫做自回归)等解决。 假设4:残差方差齐性:标准化残差的大小不随变量取值的改变而改变(残差图) 假设5:正态性:就自变量的任何一个线性组合,应变量y均服从正态分布,即要求残差ei服从正态分布


三、基于O L S回归分析

regress 评价量 团购价元 商品毛重kg
est store m1
reg2docx m1 using m1.docx, replace
// 得到标准化回归系数(标准化回归可以消除量纲,比较各变量的重要程度)
regress 评价量 团购价元 商品毛重kg, b 

image-20210726110219077

image-20210726112027152

四、异方差W h i t e 检验

先画散点图(粗略判断是否有异方差)

// 画出残差图
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
rvfplot 
// 残差与拟合值的散点图
graph export a1.png ,replace
// 残差与自变量团购价的散点图
rvpplot  团购价元
graph export a2.png ,replace

image-20210726110542320

estat imtest,white

五、若存在异方差

​ OLS+稳健的标准误

image-20210726102312884

regress y x1 x2 ... xk,robust

重新看P值(此时会有变化)越多显著越好

六、多重共线性V I F检验

estat vif

image-20210726111029950

七、如果有多重共线性,则逐步向后回归或者用下面的Lasso回归筛选变量检验

// 向后逐步回归(后面的r表示稳健的标准误)
stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pr(0.05)
// 向后逐步回归的同时使用标准化回归系数(在r后面跟上一个b即可)
stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r b pr(0.05)

八、下结论(模型分析)

image-20210726112644352

参数的压缩或变量筛选

当n<k时不可以用多元线性回归

用岭回归,Lasso回归(多用)

lasso过程

当多元线性回归VIF>10时,用这个筛选变量

  1. 先标准化,消除量纲(用SPSS描述性统计)

  2. image-20210811164713174

  3. image-20210811164726701

    用右边的,右边是筛选完再用多元线性回归

    注意:seed里值不同结果可能不同

灰色关联分析

n比较少时可以用

[灰色关联分析.pdf](file:///D:/qq聊天记录/上课用的课件和代码(下载后记得解压,所有视频配套的都在里面) (1)/清风数学建模课件和代码(全套下载后请解压)/更新视频的课件和代码/更新5 灰色关联分析/灰色关联分析.pdf)

用于分析系统中哪个因素更重要

image-20210811183401486

Dijkstra

Bellman-Ford

Floyd

image-20210811191332971

分类

SPSS

逻辑回归

不需要大篇幅模型介绍(放附录),简要介绍思想就行

(如果是二分类可以介绍)

image-20210802172106792

由SPSS分析得

image-20210802172227522

image-20210802172246093

image-20210802172300264

设置完用分类表看预测成功率

image-20210802172508968

如果此时预测结果较差,加平方项

image-20210802172630531

再次预测

但是此时容易出现过拟合现象,结果太离谱就进行交叉验证

Fisher线性判别分析

分析结果看分类结果表

image-20210802173454205

交叉验证

image-20210802172729843

做一张图,对比真实的和预测的值,计算预测概率,给数据,哪种方法正确率高选哪个

最终看出预测结果

用于多分类

修改Fisher定义范围时最大最小值

逻辑回归则image-20210802173730119

image-20210802173736393

注:替换后的数据可以导入excel中然后使用替换功能替换,多分类的数据导入spss之前也可以使用excel替换为1 2 3 4

聚类

K -means++

SPSS操作

image-20210802183801030

量纲不一致

image-20210802183823700

系统(层次)聚类算法(首选)

模型概述

未命名文件

SPSS操作

image-20210802183939237

聚类谱系图

用图形估计聚类数量

用肘部法则

image-20210802200432489

利用的是之前聚类分析结果中(集中计划)的系数一列

放到excel降序--->推荐的图表--->散点图--->坐标轴

image-20210802200249777

观察图表得到K

确定K后保存聚类结果并画图

操作步骤

image-20210802200615494

重新画散点图

image-20210802200647818

如果做出来的结果很符合DBSCAN再用DBSCAN

查重

  • 把方法模型弄成流程图
  • 复制到百度看看能不搜到

搜索技巧

  • 完全匹配搜索:在搜索词外加""
  • 标题包含关键词,在查词前加上intitle:
  • 搜索文档:在查询后加空格再输入filetype:文件格式(pdf)
  • 去除不想要的 在最后加空格 输入减号-关键词 如 -百度文库

数据搜索

美赛摘要

一段背景引入

updatedupdated2022-04-012022-04-01