最近在学习机器学习,看到了这份笔记,介绍的非常详细,记录一下作为学习。
作者梁劲(Jim Liang),来自 SAP (全球第一大商业软件公司)。
书籍特点条理清晰,含图像化表示更加易懂,对公式有详细的注解等。
内容概要主要分为基本概念、常用算法和其他三部分。
为什么会这样?
首当其冲就是数学,涉及统计学、微积分、概率、线性代数等,大家虽然都学过高等数学,但如果你还记得里面的细节,算你牛。更可能的情况是,多数人都对高等数学忘记了,面对各种算法里的大量公式,感到厌恶,甚至恐惧。
其次因为机器学习本身是一个综合性学科,而且是一个快速发展的学科,知识点散乱,缺乏系统性。
市面上的机器学习/深度学习书籍、文章、教程,遍地开花,但能以清晰的方式表达、循序渐进地讲解的教程,其实不多,大量的教程没有考虑到学习者的基础,使得初学者感到挫败和困惑。
正是对机器学习的过程中的痛苦有切身体会,作者Jim Liang希望能做一份教程,以浅显易懂的方式去讲解它,降低大家的学习门槛。为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。
Part 1 介绍了基本概念,包括:
机器学习的流程
数据处理
建模
评估指标(如 MSE、ROC 曲线)
模型部署
过度拟合
正则化等
在第一部分,作者先介绍了如今应用普遍的机器学习:从自动驾驶、语音助手到机器人。其中有些思想,也是众多读者们了解过的,例如:为何机器学习在这个时候会火(大数据、计算力、更好的算法);机器学习、人工智能、深度学习三者的关系等。
除了这些基础概念,这份教程也对机器学习模型的开发流程做了图像化展示(如下图),即使对此不太了解的读者,也能通过这种流程展示有所学习。
机器学习700页笔记电子版:
公众号【计算机视觉联盟】后台回复:9001,即可获取电子版
在Part2,作者介绍了常用的算法,包括:线性回归
逻辑回归
神经网络
SVM
Knn
K-Means
决策树
随机森林
AdaBoost
朴素贝叶斯
梯度下降
主成分分析
这部分包含了大量的数学公式,但作者尽力注解了其中的每个公式,从而充分、清晰地表达了众多数学概念。
例如在「神经网络」部分,作者整理了 59 页的笔记(从 311 页到 369 页)。作者从人脑中的神经元架构说起,介绍了人工神经网络(ANN)、人工神经元工作的原理。这份笔记非常注重图像化的概念解释,理解起来非常直观。
例如,下图中的概念解释很形象地展现了生物神经元和人工神经元工作方式的相似性。
生物神经元的树突输入-轴突输出模式和人工神经元的输入输出模式对比。
过拟合的解释
在涉及到数学公式时,作者会在旁边有详细的注解,如下图所示:
对于并列的可选项(如激活函数、常用神经网络架构等),也会有全面的列表:
对于神经网络中较为复杂的概念(如求导、反向传播),几张图就能解释清楚:
反向传播算法完整流程。