另一方面我们也会考虑某些常用场景下的特殊需求,比如LR算法的特征交叉需求。虽然通用的LR算法效率已经很高,但是对于特征交叉这种常见需求,如果不把特征交叉这个过程耦合到算法中去,就需要预先将特征交叉好,这会带来巨大的IO开销。而算法实现了对特征交叉的支持,就规避了这个效率瓶颈。未来在集成更多的算法的同时,也会考虑各种常用的场景需要特殊处理的方式。
Fregata项目名称的中文是军舰鸟,TalkingData的开源项目命名都是用的鸟名,而军舰鸟是世界上飞得最快的鸟,最高时速达到418km/小时,体重最大1.5公斤,而翼展能够达到2.3米,在全球分布也很广泛。我们希望Fregata项目能够像军舰鸟一样,体量轻盈,但是能够支持大规模,高效的机器学习,而且具有很强的适用性。目前Fregata还是只雏鸟, 期望未来能够成长为一只展翅翱翔的猛禽。
引用Cheng T. Chu, Sang K. Kim, Yi A. Lin, Yuanyuan Yu, Gary R. Bradski, Andrew Y. Ng, Kunle Olukotun, Map-Reduce for Machine Learning on Multicore, NIPS, 2006.
https://www.zhihu.com/question/48282030
https://github.com/TalkingData/Fregata
Rosenblatt J D, Nadler B. On the optimality of averaging in distributed statistical learning[J]. Information and Inference, 2016: iaw013 MLA
https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/
作者介绍张夏天:TalkingData首席数据科学家,12年大规模机器学习和数据挖掘经验,对推荐系统、计算广告、大规模机器学习算法并行化、流式机器学习算法有很深的造诣;在国际顶级会议和期刊上发表论文12篇,申请专利9项;前IBM CRL、腾讯、华为诺亚方舟实验室数据科学家;KDD2015、DSS2016国际会议主题演讲;机器学习开源项目Dice创始人。