初识机器学习 机器学习的两个定义:
一个计算机不需要明确的程序就能自己学习的能力。
一种用于完成任务T,用P来衡量表现和性能并且利用完成任务的经历E去改进自己的程序。
Supervised Learning(监督学习)监督学习分为两种:regression(回归)和classification(分类)
regression:回归算法
回归算法式通过输入一个全是正确答案的值,进行回归拟合之后,尝试去预测得到一组连续的输出。
通常来说,集合中的值是离散的,而预测的值是连续的。
也就是说,我们得到了全是正确答案的集合后,试图找到一个几乎完全贴近的函数,并用该函数式预测正确答案集合中没有给出的数据。
classification:分类算法
分类算法是将特征值和种类判别结果输入后,尝试去预测别的特征值下的种类判别结果。
就是根据特征值情况先进行划分,再去预测数据,来判断这个数据属于猫还是狗。
且通常情况下特征值不止一个,有可能是无限个,我们希望通过算法,将特征值输入后,能够对数据进行分类。
Unsupervised Learning(非监督学习)它和监督学习最大的区别就是,算法的输入数据没有所谓的对错和正负。
非监督学习的主要功能是,让算法自己去发掘数据之间的结构,将结构相同的数据分别集合成一团。
这好像和分类算法有点像。但是由于非监督学习接收到的数据是没有所谓特征值的,他必须自己去找到数据之间的结构,再加以分类。
学习和开发的建议课程中,讲师建议,先用类似matlab或者octave之类的工具对算法模型进行构建,再到Java或者C++进行具体的实现。这样对学习和开发都能大大地提高效率。