Spark/S3 导入数据

Question

我启动了一个有 10 个从节点的 Spark 集群，并执行了以下操作。

export AWS_ACCESS_KEY_ID=**key_here**
export AWS_SECRET_ACCESS_KEY=**key_here**

cd spark/bin
./pyspark

logs = sqlContext.read.json("s3n://file/path/2015-11-17-14-20-30")

我收到以下错误。

异常：("You must build Spark with Hive. Export 'SPARK_HIVE=true' and run build/sbt assembly", Py4JJavaError(u'调用 None.org.apache.spark.sql.hive.HiveContext 时发生错误。\n', JavaObject id=o23))

我不确定在导出 spark hive 变量后还必须采取哪些其他步骤，或者在哪里可以找到 build/sbt 文件夹。关于如何将这些数据放到集群上有什么建议吗？

Answer 1

Spark S3 访问建立在 Hadoop 的 S3 访问之上 - 如果您自己构建 Spark（看起来是这样），请按照说明重新编译（SPARK_HIVE = true 作为环境变量，然后运行 sbt再次）。否则下载 "prebuilt for Hadoop" 版本的 spark

Spark/S3 导入数据

Spark/S3 Importing Data

hive

apache-spark

pyspark