Spark/S3 导入数据

Spark/S3 Importing Data

我启动了一个有 10 个从节点的 Spark 集群,并执行了以下操作。

export AWS_ACCESS_KEY_ID=**key_here**
export AWS_SECRET_ACCESS_KEY=**key_here**

cd spark/bin
./pyspark

logs = sqlContext.read.json("s3n://file/path/2015-11-17-14-20-30")

我收到以下错误。

异常:("You must build Spark with Hive. Export 'SPARK_HIVE=true' and run build/sbt assembly", Py4JJavaError(u'调用 None.org.apache.spark.sql.hive.HiveContext 时发生错误。\n', JavaObject id=o23))

我不确定在导出 spark hive 变量后还必须采取哪些其他步骤,或者在哪里可以找到 build/sbt 文件夹。关于如何将这些数据放到集群上有什么建议吗?

Spark S3 访问建立在 Hadoop 的 S3 访问之上 - 如果您自己构建 Spark(看起来是这样),请按照说明重新编译(SPARK_HIVE = true 作为环境变量,然后 运行 sbt再次)。否则下载 "prebuilt for Hadoop" 版本的 spark