1、随机实验:
可在相同
2、随机事件
均值u:这个很好理解 R函数:mean
中位数:对序列排序后,排在中间的数,需要特别注意的是如果序列为偶数,中位数是中间两个数平均值. R函数:median
百分位数:也是顺序统计量,设百分数为p,n是样本个数,则p位数指:np为小数,ceiling(np)+1,np为整数,则p位数:(x[np]+x[np+1])/2. R函数:quantile()
方差s^2,标准差s:注意是除以n-1,而不是n.与方差期望的计算不一样.
变异系数CV:s/u*100(%),s标准差,u均值.
样本校正平方和(CSS):样本与均值差的平方的求和,sum((X-u)^2).
样本未校正平方和(USS):样本值平方的求和.sum((X^2))
极差R:max(X)-min(X)
四分位差(半极差):R3-R1.
样本标准误:s/sqrt(n).
偏度系数g1:n^2/((n-1)(n-2)) * u3^3/ s^3,u3:三阶中心矩.
峰度系数g2:u4/u2^2-3
QQ图:如果QQ图近似直线,则说明样本来自正态分布总体;
正太性W检验方法:shapiro.test(x);p-value>0.05表示接受原假设,符合正态分布.
经验分布的Kolmogorov-Smirnov检验:ks.test()
3、参数检验
t.test():对正态总体作均值检验和区间估计;单样本和双样本皆可;
var.test():对总体方差比提供检验和区间估计;
var.test():二项分布总体检验和估计
chisq.test():Pearson 拟合优度χ2检验 检验是否具有某种分布
ks.test():Kolmogorov-Smirnov检验,检验是否具有某种分布
Fisher:费契尔精确独立检验;
mcnemar.test():检验两个相关分布的频率变化的显著性;
binom.test():二项分布检验,检验某个样本是否来自某个总体,也可以检验两个总体是否存在差异;
cor.test():相关性检验,包括Spearman秩相关检验.
wilcox.test():秩检验,比如检验均值与某个值得比较。
4、分类判别
1)距离判别
马氏距离:sqrt(t(X-Y)(X-Y)),判别式:t(x-u) * ∑-1(u1-u2).
2)、贝叶斯判别
3)、费歇尔判别
5、聚类分析
距离:
2) 数据标准化
3)相关系数
4)系统聚类R语言计算
确定类个数:rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL,
border = 2, cluster = NULL)
5) 动态聚类法
kmeans(x, centers, iter.max = 10, nstart = 1,
algorithm = c("Hartigan-Wong", "Lloyd",
"Forgy", "MacQueen"))