这篇文章是我学习大数据的一个延续。我们将在Ubuntu 17.10上安装一个Apache Spark服务器,它将把执行器部署到Apache Mesos集群中。
什么是Spark?如果你从事这个职位,那么很可能你已经知道Spark是什么了。 但是,以防万一,从他们的主页可以看出Spark是简单的:
Apache Spark是一个快速和通用的集群计算系统。 它提供Java,Scala,Python和R中的高级API,以及支持通用执行graphs的优化引擎。 它还支持一套丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX以及Spark Streaming。
必要条件对于这个Spark服务器,我们需要一个虚拟机(或者物理服务器,如果有的话)至少有8GB的RAM,4个vCPU和60GB的空间。 还假设你有一个mesos集群来运行我们的Spark。 如果你不这样做,不要害怕你还可以运行spark,但这篇文章不会涵盖这一场景。
我们的第一步是确保更新我们的Ubuntu服务器。更新完成后,继续并重新启动。
# apt update && apt upgrade -y # reboot下一步安装 Java 8.
# apt install -y openjdk-8-jdk由于我们将使用Mesos来部署,因此我们需要在系统上安装mesos,以便我们可以指向mesos库。 可能有一个更简单的方法(我知道这种方式糟透了)做到这一点,但这就是我知道的对我有用的方法。 如果您知道更简单的方法,请在下面评论。 您将需要下载并编译您要部署到的相同版本的Mesos。 对我来说是Mesos 1.4.0。
# apt -y install build-essential python-dev libcurl4-nss-dev libsasl2-dev libsasl2-modules maven libapr1-dev libsvn-dev unzip libz-dev # wget # tar -xzvf mesos-1.4.0.tar.gz # cd mesos-1.4.0/ # mkdir build # cd build # ../configure # ln -s /usr/include/locale.h /usr/include/xlocale.h # this is needed or the compile will fail # make -j 2 V-0 # make install # ldconfig我告诉过你这很糟糕,但这是必要的。
我们现在准备下载并安装Spark。
安装 SparkGet the latest stable release of spark from their downloads page . Leave the selection boxes at their default. At the time of this writing, the latest version of Spark is 2.2.0 so we will download that version. Click on the link on step 3 and you will be taken to a list of mirrors. Copy the URL for the recommended mirror. Next go back to your Spark server and run the following command, substituting your URL:
从官方下载页面获取最新的稳定版Spark。将选择框保留在缺省值中。在写这篇文章时,Spark的最新版本是2.2.0,所以我们将下载该版本。 点击第3步的链接,你将被带到镜像列表。 复制推荐镜像的URL。 接下来返回到您的Spark服务器并运行以下命令,替换您的URL:
# wget Hadoop2.7.tgz解压下载来的包文件.
# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz将我们的目录重命名为spark,并将其移到更好的地方。
# mv spark-2.2.0-bin-hadoop2.7 spark # mv spark /usr/local/spark出于某种原因,当我下载并提取它时,我拥有了用户500组500所拥有的所有文件。请检查并确认是否属于这种情况。
# ls -al /usr/local/spark如果是这样,那么你将需要修复权限。
# chown root:root -R /usr/local/spark此时我们已经在我们的服务器上安装了Spark。 现在是配置它与Mesos一起工作的时候了。
配置Spark以使用Mesos在Mesos slaves,你将需要安装Spark二进制文件,就像我们以前做的。 下面是整个命令:
# wget # tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz # mv spark-2.2.0-bin-hadoop2.7 spark # mv spark /usr/local/spark # chown root:root -R /usr/local/spark当Spark触发将运行我们的Spark执行程序的mesos任务时,它将会像查看它的任何框架一样寻找它。 确保你在所有的Mesos slaves上这样做。
现在回到你的Spark服务器上,我们需要配置它来使用Mesos。 我们要做的第一件事就是编辑我们的spark环境脚本。
# mv conf/spark-defaults.conf.template conf/spark-defaults.conf编辑文件并添加以下行:
spark.mesos.task.labels=text:text1 spark.mesos.executor.home=/usr/local/spark/这第一行就是阻止一些恼人的警告,如果你没有那样坐,你会收到。 第二行告诉Mesos哪里可以找到我们Mesos slaves从站上的Spark二进制文件。 我们现在准备在客户端模式下运行Spark,这将给我们一个CLI,我们可以用它来测试。
第一行是为了阻止一些恼人的警告,如果你不在那里,你会收到。第二行告诉Mesos在哪里可以找到Mesos奴隶的Spark二进制文件。现在我们已经准备好在客户端模式中运行Spark,它将给我们一个CLI,我们可以使用它来测试。
测试你的Spark安装