解释模型结果。说机器学习就是“黑箱”的观点明显是错误的。没错,不是所有的模型结果能直接判读,但你需要能够判断模型的状况,进而完善它们。我怎么确定模型是过度拟合还是不充分拟合?模型还有多少改进空间?
优化和调试模型。很少有人刚开始就得到一个最佳模型,你需要了解不同参数之间的细微差别和正则化方法。如果我的模型过度拟合,该怎么修正?我应该将几个模型组合在一起吗?
要想在机器学习研究中解答这些问题,掌握机器学习的知识原理必不可少。这里推荐两个世界级的机器学习课程,一定会让你受益良多:
哈佛大学的机器学习课程,让你了解从数据收集到数据分析的整个流程
(提示:这个课程和吴恩达教授的课程配合食用,效果更加)
斯坦福大学的机器学习课程,清楚地讲解了机器学习的核心概念
还有两部值得读的参考书籍:《统计学习导论》和《统计学习基础》
这两部书的英文原版下载地址:
《An Introduction to Statistical Learning》
《Elements of Statistical Learning》
注:看不惯英文原版的同学,可以去读这两本书的中文版。
集智也建议大家可以多逛逛Reddit上的机器学习论坛:
机器学习版块1
机器学习版块2
机器学习版块3
当然,Quora上的机器学习版块也很有料
逛论坛不容易看到高阶知识,你不能一直停留在菜鸟阶段不是,要升级就有必要看看专业的论文。arXive是个好去处,是个收集物理学、数学、计算机科学与生物学的论文预印本的网站。
人工智能版块
机器学习版块
如果嫌自己搜索论文太麻烦,可以在网站 arxiv-sanity.com 上注册一个账号,它可以按自己的感兴趣标签给你推送最新的 arXive 上的论文。
第四步:针对性实际练习在开启“海绵模式”后,你应该掌握了机器学习的基础理念知识,接着就该实际操作了。 实际操作主要是通过具体的、深思熟虑的实践操作增强你的技能。本步目标有三个:
练习机器学习的整个流程:收集数据,预处理和清理数据,搭建模型,训练和调试模型,评估模型。
在真正的数据集上实践操作:对于什么样的数据适合用什么类型的模型,自己应逐渐建立这方面的判断能力。
深度探究:例如在上一步,你学习了很多机器学习算法知识,在这一步就要将不同类型的算法应用在数据集中,看看哪个效果最好。
完成这一步后,就可以进行更大规模的项目了。
4-1 九个基本部分
机器学习是一个非常广泛和丰富的领域,几乎在每个行业都有应用。因为要学习的东西太多,初学者很容易发慌,而且在面对很多个模型时也很容易迷失,看不到大局。
因此,我们把机器学习大概划分为九个部分:
ML整体学习:
基本的机器学习原理,比如方差权衡这些知识。
优化:
为模型发现最优参数的算法。
数据预处理:
处理缺失数据、偏态分布、异常值等。
取样和拆分:
怎样拆分数据集来调整参数和避免过度拟合。
监督式学习: