训练数据:"Java3y公众号" "Java4y公众号" "Java5y公众号" "Java6y公众号" "yyy公众号" "xxx公众号" "zzz公众号"
输出结果:("Java3y公众号" "Java4y公众号" "Java5y公众号" "Java6y公众号") ("yyy公众号" "xxx公众号" "zzz公众号") 分门类别
对没有“标记”的数据进行分类-聚类分析
对没有“标记”的数据进行分类-聚类分析
聚类分析例子:在以前,中国移动有三个品牌:神州行、动感地带、全球通。我们给一堆的SIM卡交由学习算法训练,不告诉它每张SIM卡具体是什么卡,最后我们是可以将这些SIM卡分类别出来的。
非监督学习的意义非监督学习的意义非监督学习的意义
2.2.3半监督学习理解了监督学习和非监督学习,对于半监督学习就很容易理解了。
一部分数据有“标记”或者“答案”,另一部分数据没有
因为各种原因产生的标记缺失。
部分有label,部分没有label
通常都会使用非监督学习手段对数据进行处理(特征提取、降维),之后再只用监督学习手段做模型的训练和预测。
2.2.4增强学习根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式
增强学习
每次行动,就给这次的行动评分,算法会根据评分来评估下一次的行动是好还是坏,最终不断改进。
给每次的行动评分
例子:Alpha Go下每步棋的时候都会评估自己这次下得怎么样,通过最终的结果不断改进下的每步棋。
2.3机器学习的其他分类除了我们上面所说的监督学习、非监督学习、半监督学习、增强学习之外,机器学习也可以分成:
在线学习:及时将样例数据作为训练数据对模型进行训练。
需要加强对数据进行监控(有可能样本数据是脏数据,这样就破坏我们的模型)
离线(批量)学习:定时将样例数据作为训练数据对模型进行训练。
不能很快的适应环境的变化
还有:
参数学习:一旦学到了参数,就不再需要原有的数据集。通过调参数就好了。
非参数学习:不对模型进行过多的假设,非参数不代表没参数。
最后之前我也写过一篇关于机器学习的文章,但没这篇写得详细和生动,有兴趣的同学也可以看看: