在 Ubuntu 14.04 上安装 Apache Spark
Installing Apache Spark on Ubuntu 14.04
起初我有一个通过 ubuntu 访问的虚拟机,这个虚拟机也是 Ubuntu 14.04。我需要尽快安装 Apache Spark,但我找不到任何可以帮助我或给我最好解释的参考。
我曾尝试将它安装在我的本地计算机 Ubuntu 14.04 上,但它失败了,但问题是我不想将它安装在集群上。
有什么帮助吗???
您可以从 http://spark.apache.org/downloads.html to download Apache Spark. If you don't have an existing Hadoop cluster/installation you need to run against you can select any of the options. This will give you a .tgz file you can extract with tar -xvf [filename]
. From there you can launch the spark shell and get started in local mode. There is more information in the getting started guide at http://spark.apache.org/docs/latest/ 开始。
您可以通过 三个简单的步骤安装并开始使用 spark:
- 从 here.
下载最新版本的 Spark
从终端导航到下载的文件夹并运行执行以下命令:
tar -xvf spark-x.x.x.tgz //replace x's with your version
导航到提取的文件夹并运行执行以下命令之一:
./bin/spark-shell // for interactive scala shell
./bin/pyspark // for interactive python shell
您现在可以play with spark.
接下来的流程主要是这样的:
确保您安装了 Java 开发工具包的版本 7 或 8
下一步安装 Scala。
然后在~/.bashrc
文件末尾添加以下内容
export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH
重新启动 bashrc。
$ . .bashrc
下一步安装 git。 Spark 构建取决于 git.
sudo apt-get install git
最终从 here
下载 spark 发行版
$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz
建筑
SBT(Simple Build Tool) 用于构建Spark,与它捆绑在一起。编译代码
$ cd spark-1.4.0
$ build/sbt assembly
构建需要一些时间。
Refer this blog post,您可以在此处找到在 Ubuntu-14.04
上安装 Apache Spark 的更详细步骤
我通过创建一个 Maven 项目使其工作,然后将 spark 的依赖项插入到 pom.xml 文件中。这就是它对我有用的方式,因为我必须使用 Java 而不是 Scala 进行编程。
此 post 解释了在 Ubuntu/Linux 机器上设置 Apache Spark-2.0 的详细步骤。对于 Ubuntu 机器中的 运行 Spark,应该安装 Java 和 Scala。 Spark 可以安装或不安装 Hadoop,在此 post 我们将只安装 Spark 2.0 Standalone。在另一个 post 中解释了在 Hadoop 上安装 Spark-2.0。我们还将介绍如何使用 Python 和 pyspark 模块为 运行 Spark 应用程序安装 Jupyter 笔记本。
因此,让我们通过检查和安装 java 和 scala.
来实现 start
$ scala -version
$ java –version
如果 scala 和 java 已经安装,这些命令应该会向您打印版本,否则您可以使用以下命令来安装它们。
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/
如果 java 和 scala 安装正确,您可以使用 –version 命令再次检查,这将显示 –
Scala 代码运行器版本 2.10.4 -- 版权所有 2002-2013,LAMP/EPFL 并且对于 java 它应该显示
java 版本“1.8.0_101”
Java(TM) SE 运行时环境(build 1.8.0_101-b13)
Java HotSpot(TM) 64 位服务器 VM(构建 25.101-b14,混合模式)
并通过在末尾添加这些行来更新 .bashrc 文件。
export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
和 restart bashrc 通过使用这个命令
$ . .bashrc
正在安装星火
首先使用这些选项从 https://spark.apache.org/downloads.html 下载 Spark
Spark 发布:2.0.0
包类型:使用 Hadoop 2.7 预构建和直接下载。
现在,转到 $HOME/Downloads 并使用以下命令提取 spark tar 文件并移动到给定位置。
$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/`
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark
将以下行添加到 ~/.bashrc 文件。就是把spark软件文件所在的位置添加到PATH变量中。
export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH
再次使用这些命令恢复tar环境.bashrc
source ~/.bashrc
或
. .bashrc
现在您可以使用这些命令 tart spark-shell
$spark-shell for starting scala API
$ pyspark for starting Python API
起初我有一个通过 ubuntu 访问的虚拟机,这个虚拟机也是 Ubuntu 14.04。我需要尽快安装 Apache Spark,但我找不到任何可以帮助我或给我最好解释的参考。 我曾尝试将它安装在我的本地计算机 Ubuntu 14.04 上,但它失败了,但问题是我不想将它安装在集群上。 有什么帮助吗???
您可以从 http://spark.apache.org/downloads.html to download Apache Spark. If you don't have an existing Hadoop cluster/installation you need to run against you can select any of the options. This will give you a .tgz file you can extract with tar -xvf [filename]
. From there you can launch the spark shell and get started in local mode. There is more information in the getting started guide at http://spark.apache.org/docs/latest/ 开始。
您可以通过 三个简单的步骤安装并开始使用 spark:
- 从 here. 下载最新版本的 Spark
从终端导航到下载的文件夹并运行执行以下命令:
tar -xvf spark-x.x.x.tgz //replace x's with your version
导航到提取的文件夹并运行执行以下命令之一:
./bin/spark-shell // for interactive scala shell ./bin/pyspark // for interactive python shell
您现在可以play with spark.
接下来的流程主要是这样的:
确保您安装了 Java 开发工具包的版本 7 或 8
下一步安装 Scala。
然后在~/.bashrc
文件末尾添加以下内容
export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH
重新启动 bashrc。
$ . .bashrc
下一步安装 git。 Spark 构建取决于 git.
sudo apt-get install git
最终从 here
下载 spark 发行版$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz
建筑
SBT(Simple Build Tool) 用于构建Spark,与它捆绑在一起。编译代码
$ cd spark-1.4.0
$ build/sbt assembly
构建需要一些时间。
Refer this blog post,您可以在此处找到在 Ubuntu-14.04
上安装 Apache Spark 的更详细步骤我通过创建一个 Maven 项目使其工作,然后将 spark 的依赖项插入到 pom.xml 文件中。这就是它对我有用的方式,因为我必须使用 Java 而不是 Scala 进行编程。
此 post 解释了在 Ubuntu/Linux 机器上设置 Apache Spark-2.0 的详细步骤。对于 Ubuntu 机器中的 运行 Spark,应该安装 Java 和 Scala。 Spark 可以安装或不安装 Hadoop,在此 post 我们将只安装 Spark 2.0 Standalone。在另一个 post 中解释了在 Hadoop 上安装 Spark-2.0。我们还将介绍如何使用 Python 和 pyspark 模块为 运行 Spark 应用程序安装 Jupyter 笔记本。 因此,让我们通过检查和安装 java 和 scala.
来实现 start$ scala -version
$ java –version
如果 scala 和 java 已经安装,这些命令应该会向您打印版本,否则您可以使用以下命令来安装它们。
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/
如果 java 和 scala 安装正确,您可以使用 –version 命令再次检查,这将显示 – Scala 代码运行器版本 2.10.4 -- 版权所有 2002-2013,LAMP/EPFL 并且对于 java 它应该显示 java 版本“1.8.0_101” Java(TM) SE 运行时环境(build 1.8.0_101-b13) Java HotSpot(TM) 64 位服务器 VM(构建 25.101-b14,混合模式) 并通过在末尾添加这些行来更新 .bashrc 文件。
export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
和 restart bashrc 通过使用这个命令
$ . .bashrc
正在安装星火 首先使用这些选项从 https://spark.apache.org/downloads.html 下载 Spark Spark 发布:2.0.0 包类型:使用 Hadoop 2.7 预构建和直接下载。
现在,转到 $HOME/Downloads 并使用以下命令提取 spark tar 文件并移动到给定位置。
$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/`
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark
将以下行添加到 ~/.bashrc 文件。就是把spark软件文件所在的位置添加到PATH变量中。
export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH
再次使用这些命令恢复tar环境.bashrc
source ~/.bashrc
或
. .bashrc
现在您可以使用这些命令 tart spark-shell
$spark-shell for starting scala API
$ pyspark for starting Python API