Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等经典的算法。
1. 安装Maven
wget 下载
最新版本的Maven. tar xvf apache-maven-3.0.2-bin.tar.gz 解压后配置路径,vi ~/.bashrc 在此文件添加如下两行
export M3_HOME=maven的实际安装路径
export PATH=${M3_HOME}/bin:${PATH}
然后执行. ~/.bashrc使之生效,通过mvn -version 查看版本来看是否安装成功。
2. 安装Mahout
svn co mahout 将mahout从代码库中下载下来,在mahout
目录执行mvn install 安装,如果想快一点就跳过单元测试检验的那些个环节,使用mvn clean install -DskipTests=true。
如果过程中没有报错的话说明安装成功。
3. 运行Mahout中的示例程序
在/mahout/examples/bin下有个聚类的测试脚本,我们可以运行来看一下,不过事先要配置好Hadoop的运行环境,
在《Hadoop Ubuntu下的安装》《Hadoop集群安装注意事项》有介绍如何配置Hadoop可以参考,我们运行下面这个脚本,cluster-syntheticcontrol.sh
xxx@xxx: ./cluster-syntheticcontrol.sh
Please select a number to choose the corresponding clustering algorithm
1. canopy clustering
2. kmeans clustering
3. fuzzykmeans clustering
4. dirichlet clustering
5. meanshift clustering
Enter your choice :