kaggle入门项目：Titanic存亡预测（四）模型拟合

日期：2021-05-22 栏目：程序人生浏览：次

原kaggle比赛地址：https://www.kaggle.com/c/titanic

原kernel地址：A Data Science Framework: To Achieve 99% Accuracy

Step 5: Model Data

数据科学是交叉学科，我们仅仅称他为计算机科学的一部分是有失公正的，它包含了数学，cs，商业管理，统计学等等方向。

机器学习被分为监督学习，无监督学习和强化学习，强化学习是前两者的混合。

算法被归为四类：分类、回归、聚类、降维，此kernel专注于分类与回归，因为我们通过题目得知我们需要的是有监督学习的分类算法，这样就能缩小我们的算法选择了。

那么再看机器学习的分类算法：

（集成算法）

（广义线性模型）

（朴素贝叶斯）

（最邻近算法）

（支持向量机）

（决策树）

（判别分析）

Data Science 101: How to Choose a Machine Learning Algorithm (MLA)

如何选取及其学习算法呢？初学者一定要知道 No Free Lunch Theorem (NFLT) 概念。即没有任何一种算法比其他算法更优秀，或者“如果一个算法对于某个类型的问题比另外的算法效率高，那么它一定不具有普适性”。不同的问题使用不同的算法是肯定的，所以最佳方法是尝试多种算法并调试（可能这也是model ensemble和stacking如此重要的原因吧）。

所以作者建议初学者从 Trees, Bagging, Random Forests, and Boosting.这三种方法开始（都是决策树形式）

首先构建一个list命名为MLA，里面包含了多种算法

kaggle入门项目：Titanic存亡预测（四）模型拟合

MLA = [ #Ensemble Methods ensemble.AdaBoostClassifier(), ensemble.BaggingClassifier(), ensemble.ExtraTreesClassifier(), ensemble.GradientBoostingClassifier(), ensemble.RandomForestClassifier(), #Gaussian Processes gaussian_process.GaussianProcessClassifier(), #GLM linear_model.LogisticRegressionCV(), linear_model.PassiveAggressiveClassifier(), linear_model.RidgeClassifierCV(), linear_model.SGDClassifier(), linear_model.Perceptron(), #Navies Bayes naive_bayes.BernoulliNB(), naive_bayes.GaussianNB(), #Nearest Neighbor neighbors.KNeighborsClassifier(), #SVM svm.SVC(probability=True), svm.NuSVC(probability=True), svm.LinearSVC(), #Trees tree.DecisionTreeClassifier(), tree.ExtraTreeClassifier(), #Discriminant Analysis discriminant_analysis.LinearDiscriminantAnalysis(), discriminant_analysis.QuadraticDiscriminantAnalysis(), #xgboost: XGBClassifier() ]

转载注明出处：https://www.heiqu.com/wpggww.html

kaggle入门项目：Titanic存亡预测（四）模型拟合

相关推荐