5.把学得模型在实际应用中碰到的数据称作测试数据。模型评估与选择中用于评估测试的数据集称作“验证集”。把训练数据划分为训练集和验证集,用验证集来进行模型选择和调参。
课后对应习题1.
数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
答:从500个样本中选取150(或者350,结果一样的)个样本:C(500,300)*C(500,300)。
2.
数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
答:10折交叉验证法,因为正反例都是50,所以错误率为50%。
留一法要是留出反例,那么会判断为正例,则错误率为100%。