火花基准设置

Spark benchmark setup

我想在 Spark 上做一个基准测试,其中包括:

有 10TB 的未压缩数据,其中每行的格式为:float;float;string。

工作基本上就可以了:

问题是: - 我应该有多少磁盘 space - 多少内存 - 作业(#exec、#core、#mem)和纱线的参数是什么-site.conf

目前我在 10 个节点上有 15To 的存储空间(16 核,16GB,1.5To 的存储空间)并且它失败了:

ERROR client.TransportClient: Failed to send RPC 6631382768729976966 to benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException java.nio.channels.ClosedChannelException 17/07/06 17:05:42

WARN netty.NettyRpcEndpointRef: Error sending message [message = Heartbeat(41,[Lscala.Tuple2;@4f4d418,BlockManagerId(41, benchophadoopslaves1, 34521))] in 3 attempts java.io.IOException: Failed to send RPC 6631382768729976966 to benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException at org.apache.spark.network.client.TransportClient.operationComplete(TransportClient.java:239) at org.apache.spark.network.client.TransportClient.operationComplete(TransportClient.java:226) at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)

朋友给了我一个提示:给驱动10GB。并且有效