在看完所有的可汗统计学视频后,我结合了前几次Datawhale的同志们的精华进行重新再一次学习,记录一下其中的一些重要知识 统计学习基本方法
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习(statistial machine learning)。
1.统计学习的主要特点是:统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
统计学习以数据为研究对象,是数据驱动的学科;
统计学习的目的是对数据进行预测与分析;
统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
2.统计学习的对象统计学习的对象是数据(data),它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。数据可包括数字文字、图像、视频、音频等。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提;如用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
3.统计学习的目的统计学习用于对数据进行预测与分析,其是通过构建概率统计模型实现的。
4.统计学习的方法统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析,统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)等组成。
统计学习方法三要素:模型(model)+策略(strategy)+算法(algorithm)
实现统计学习方法的步骤如下:得到一个有限的训练数据集合
确定包含所有可能的模型的假设空间,即学习模型的集合
确定模型选择的准则,即学习的策略
实现求解最优模型的算法,即学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析。
5.统计学习的研究统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论(statistical learning theory)、统计学习应用(application of statistical learning)。