非监督式学习
使用因素和集群分析模型从非标记数据中学习。
模型评估
根据不同的性能度量做出决策。
集成学习
将不同模型相结合,达到更好的性能。
商业应用
机器学习如何帮助不同类型的商业业务。
4-2 实践工具
对于初学者,我们建议采用现成可用的算法,这样可以把时间用在熟悉机器学习流程上,而不是写算法。根据你使用的编程语言,有两个不错的工具:
Python的Scikit-Learn
R语言的Caret
4-3 利用数据集实践操作
在这步需要用数据集进行搭建和调试模型的实际操作,也就是将你在“海绵模式”阶段学到的理论转变为代码。我们建议你选择UCI Machine Learning Repo,Kaggle和上的数据集开始入手:
第五步:机器学习项目终于到了最后一步,也是很有意思的一步。目前为止,我们已经完成了:知识储备、掌握基本原理、针对性练习等阶段,现在我们准备探究更大的项目:
这一步的目标就是练习将机器学习技术应用于完整的端到端分析。
任务:完成下面的项目,依次从易到难。
5-1:“泰坦尼克号”幸存者预测
“泰坦尼克号”幸存者预测是练习机器学习时相当流行的选择,而且有非常多的教程可供参考。
5-2 从零开始写算法
我们建议你先以一些简单的方面写起:逻辑回归、决策树、k 最近邻算法等。
如果中间卡住了,这里有些小技巧可以参考:
维基百科是个不错的资源库,提供了一些常见算法的伪代码。
可以看看一些现成ML工具包的源代码,获得灵感。
将算法分为几部分。写出取样、梯度下降等的分离函数。
在开始写整个算法前,先写一个简单的决策树。
5-3 选个有趣的项目或自己感兴趣的领域
其实这应该是机器学习最棒的部分了,可以利用机器学习实现自己的想法。
如果实在没想到好点子,这里有8个有趣的初学者机器学习实践项目
结语如果你按照这个步骤一步步扎实学习的话,相信你最终一定在机器学习方面小有成就!
我们对初学机器学习的人还有10个小小的tips:
为自己设定学习目标和期限,尽力完成。
打好学习基础,掌握基本理论。
将实践理论相结合,不要只关注某一个方面。
试着自己从头写几个算法。
多角度思考问题,找到自己感兴趣的实践项目。
多想想每个算法能产生什么价值。
不要相信科幻电影中对ML的胡吹。
别过度理会网上关于ML知识的争论。
多想想数据的“输入/输出”,多问问“为什么”。
上集智,第一时间将自己升级→→集智
最后,祝同学们学有所成!