简单介绍一下R中的几种统计分布及常用模型 (8)

日期：2021-08-29 栏目：程序人生浏览：次

avova(sol1,sol2,test="Chisq")——比较模型两个模型，广义线性模型可用卡方检验（分类变量），不拒绝原假设说明两个没有显著差异，即用较少自变量模型就可以。
非线性模型
poly（想，degree=1）——计算正交多现实，x是数值向量，degree是正交多项式的阶数，并且degree<length（x）样本个数，例如建立二次正交式回归模型：lm(y~1+poly（x，2）)

nls（formula,data,start）——求解非线性最小二乘问题，formula是包括变量和非线性拟合的公式，start是初始点，用列表形式给出
nlm(f，p)——非线性最小二乘，构造最小目标函数，方程移项2为0，f是极小的目标函数，p是所有参数的初值，采用Newton型算法求极小，函数返回值是一个列表，minimum的值便是极小值，estimate是参数的估计值。例如：
fn<-function(p,x,y){
f<-y-p[1]*exp(p[2]*x)
res<-sum(f^2)
}
nlm.sol<-nlm(fn,p=c(3,-0.1),x,y)
2、回归树
rpart( y ~.， <data>)——rpart包，回归树，叶结点目标变量的平均值就是树的预测值。生成一棵树，再做修剪（防止过度拟合），内部10折交叉验证

printcp（<rt>）——查看回归树结果，rt是指rpart（）函数的运行结果模型，plotcp（<rt>）以图形方式显示回归树的参数信息
参数如下：
cp——当偏差的减少小于某一个给定界限值，默认0.01
minsplit——当结点中的样本数量小于某个给定界限时，默认20
maxdepth——当树的深度大于一个给定的界限值，默认30

prune（<rt>,cp）——自行设置cp值的建树

snip.rpart(<rt>, c(4,7))——修剪，需要修剪的那个地方的是结点号c(4，7)，指出输出树对象来需要修剪的树的结点号
snip.rpart(<rt>)——交互修剪，点击结点，右击结束
3、随机森林
randomForest(y ~.， <data>)——组合模型，由大量树模型构成，回归任务采用预测结果的平均值。
4、支持向量机
svm(<formula>，<data>，gamma=1/ncol(<data>)，<cost>)——e1071包，回归任务，<gamma>=0.01，<cost>=100违反边际所引入的损失?
5、时间序列分析
ts(<data>, frequency=12, start=(2006,1))——把一个向量转化为时间序列对象，<data>向量，frequency表示频率，start表示时间起始点

decompose(<data>，type)——把时间序列分解成长期趋势和周期性变化，<data>是设置了频率（周期长度）的时间序列数据，type="additive"为累加形式：长期趋势+周期性变化+随机变化；"multiplicative"分解为累乘形式：长期趋势*周期性变化*随机变化。默认使用"additive"累加形式。函数返回值sol<-decompose()中，sol$trend是时间序列趋势，seasonal是季节性周期变化，random是随机误差。

stl(<data>,"per")——分解时间序列，返回值sol<-stl()中，sol$time.series[, "seasonal"]读取周期性序列seasonal，sol$time.series[, "trend"]读取长期趋势trend。误差可以使用sol$time.series[, "remainder"]读取。

增长率：
diff(data,lag=1)——差分，上下做差，lag控制变量上下间隔为1
ring.growth[t]=(data[t]-data[t-1])/data[t-1]——同比增长率，描述指标变化趋势
sam.per.grown[t]=(data[t]-data[t-T])/data[t-T]——环比增长率，分析周期性变化，避免周期性变化给数据分析带来的影响，T一般以周为单位

移动平均：
filter(x, filter, method=c("convolution", "recursive"), side=2,...)——线性过滤函数，x待转化的向量数据，method=convolution（卷积方法）:使用x内部样本组成线性模型（系数ai由filter参数设置的，side参数设置卷积方法是单边或者双边），recursive（递归方法）:使用y内部样本以及当前阶段的x样本组成线性模型（系数ai由filter设置）y递归[t]=x[t]+sum(ai*y[t-i])。side为1（单边卷积）y卷积[t]=a1*x[t]+...+a(k+1)*x[t-k]，side为2（双边卷积）y卷积[t]=a1*x[t+m]+...+a(m+1)*x[t]

指数平滑:
sol<-HoltWinters(<data>)——实现二次平滑和三次平滑指数。
sol.forst<-forecast.HoltWinters(sol, h=12)——预测HoltWinters函数产生的模型的新时间序列，h表示频率？预测未来12个月
plot.forecast(sol.forst, include=10)——绘制预测图，include=10表明绘制预测前10个月的数据和未来12个月的预测数据
ARIMA模型
ymd()——lubridate包，将"年-月-日"格式的字符串转换成日期对象，（可以比较前后时间）
自相关性
cov(data.frame(x,y))——协方差矩阵S
cor(data.frame(x,y))——相关系数矩阵R
rnorm（n，<mean>，<sd>）
arima.sim（n=100，list（ar=，ma=））——模拟100个样本的模拟序列
lag.plot(data，lag=k，do.line=FALSE)——绘制原始数据和k阶滞后的散点图
acf（data，lag.max=16，ci.type="ma"）——计算并绘制自相关图，0阶自相关系数是rxx，所以恒等于1。ci.type="ma"主要是慨率acf的标准误的问题，以使acf图等准确。
pacf（data，lag.max=16）——偏自相关图，消除Xt-1，...，Xt-k+1的影响后，研究Xt和Xt-k的相关性。
Box.test（data,type="Ljung-Box",lag=16，fitdf=p+q）——自相关性检验，p-value<0.05，标识数据data具有自相关，fitdf为自由度参数p+q
arima（data，order=c（p，d，q））——计算模型参数并建模，TSA包中，order设置AR过程的阶数p，差分过程的d（用于稳定化）和MA过程的阶数q。当p=d=0时，表示只使用MA过程对序列建模。结果sol<-arima（）调用predict(sol，n.ahead=5)$pred进行预测，n.ahead参数用于设置预测新阶段的数据量（未来5个月），predict(...）$se标准误差SE，用于计算预测范围（预测范围=预测值+-置信度（alpha）*标准误差SE。
eacf(data)——根据凸显中三角区域顶点的行坐标和列坐标分别确定ARMA的p和q
norm.test（）——正态性检验，p-value>0.05为正态
tsdiag（sol）——绘制模型残差的散点图、自相关图和不同阶数下的Box.test体检验p-value值

模型评估
RMSE（lm，< which>）——qpcR包中计算均方根误差，计算子集subset
聚类分析

转载注明出处：https://www.heiqu.com/zyxxfy.html

简单介绍一下R中的几种统计分布及常用模型 (8)

相关推荐