人工智能 -机器学习 (2)

日期：2022-10-14 栏目：程序人生浏览：次

知识就是信息中的模式（pattern），模式识别（人工智能研究的上游），模式是什么：信息或对象之间的稳定的关联关系。比如三角形中三条边的关系，语言中的语法（不同词汇之间的关系），物理定律（不同物理变量之间的关系）

当你在进行决策时，你是对自己脑中的模式进行处理，脑中的模式（世界观）反应了客观世界，也就是你的认知水平，其决定了你的决策水平。

学习就是归纳模式的过程（为什么模式识别这么重要？）

2.思考即学习

什么是模型？模型就是对模式的猜测。模型不是算法，算法基于模型

整个科学研究都在寻找模式，1.确定你的研究目标，2.搜集数据（实验），3.猜测模型（尽量贴合实验结果，大部分情况得先猜测一个），4.根据数据将模型尽可能确定下来

机器学习就是将科研自动化

机器学习的基本框架

1.一系列可能函数（模型）2.选出***的函数3.训练数据

有监督学习：标记数据需要大量人工，很多时候没有相关的知识（目前***的模型基本是有监督模型，中国的人口优势使得其可能成为人工智能强国）

无监督学习：模型自己总结出类别（一开始没有类别，类别本身也是一种知识）

半监督学习：模型需根据标注数据完善未标注数据

强化学习：间接“标记”，给很多步一个评价，比如棋局的输赢，训练猫狗（在一系列动作后给予反馈），强化学习是一个反复的过程，有监督学习一次就可以学完，给予少量数据形成模型，用模型输出然后得到反馈，然后不断对模型进行修改强化。

基于规则的模型：由人定义特征及其与输出之间的关系

基于统计的模型：人定义特征，由模型确定特征与输出之间的关系（特征非常重要：灌水论文，随便选特征看效果；工业领域蒙特征很重要，《特征工程》）

更智能一点？

深度学习模型：端到端模型，数据到数据；不用定义特征，其可以自动发现特征（我们自己的认知可能会有缺陷），模型确定原始数据与输出之间的关系

为什么深度学习这么厉害？

深度学习可以自己发现特征，其采用多层人工神经网络，深度深在层次上，广度和深度那个更好？越深越能发现复杂的特征（尽管其计算代价很大，有过拟合的风险）

人工智能的一些重要问题深度学习这么厉害，我们可以一劳永逸吗？不行

人工标记（劳动密集型），人工选特征（很难），选模型（很难，一半靠蒙）

什么是好的模型？泛化能力&性能

好的模型就是再泛化能力与性能之间寻求一个平衡

太极阴阳，工程图纸

太极阴阳：描述性十分强，泛化能力强，但精确度与可计算性十分差 欠拟合模型

工程图纸：泛化能力差，描述性差，具体可计算 过拟合模型

再比如大学中的哲学类课程提供了欠拟合模型，过细的专业课则是过拟合模型，我们要想构建更好的认识世界的模型（世界观），还得自学大量的知识

模型的复杂度越高，越容易过拟合（ppt上图片十分重要），太简单或太复杂都不可以，机器学习的技巧性就体现在找***VC维，使得模型在泛化能力与性能之间达到一个平衡

为了避免过拟合，就有了开发集这一概念

数据集：训练集，测试集（使用次数越少越好），开发集（使用次数不限）

模型训练中使用开发集做评估，其使用的次数不限，但在模型投入应用前，要用测试集进行一次评估，测试集的评估结果大概率能反映模型的真实水平，因为对测试集的使用次数做了限制，所以模型在测试集上出现过拟合的概率很小。

另外一种方法是大家共同维护一个数据集用于测试，即公共数据集

公共数据集的代表性，质量比较高；不同的模型比较也更加公平