亲切度为 0 的算法表示其在产业/政府和学术研究人员/学生之间的使用情况对等。IG亲切度越高表示该算法越被产业界普遍使用,反之越“学术”。
其中,最“产业”的算法是:
增量模型Uplift modeling,2.01
异常检测Anomaly Detection,1.61
生存分析Survival Analysis,1.39
因子分析Factor Analysis,0.83
时间序列Time series/Sequences,0.69
关联规则Association Rules,0.5
其中增量模型Uplift modeling又一次成了最“产业”的算法,但是令人惊讶的是其使用率确很低—只有3.1%,几乎是这次调查中使用率最低的算法。
最“学术”的算法是:
神经网络Neural networks – regular, -0.35
朴素贝叶斯Naive Bayes, -0.35
支持向量机SVM, -0.24
深度学习Deep Learning, -0.19
EM, -0.17
下图是所有算法以及它们在产业界/学术界的亲切度:
数据科学家最常使用的算法 工业界 vs 学术界
2016数据科学家使用的算法调查汇总汇总表格中各项含义分别是:
N:根据使用度排名
Algorithm:算法名称,
类型:S – 监督,U – 无监督,M – 元,Z – 其他,
%指代调查中使用这种算法的调查者比例
Change—变动(%2016 年/2011% – 1),
Industry Affinity—产业亲切度(前文中提到)