火花基准设置
Spark benchmark setup
我想在 Spark 上做一个基准测试,其中包括:
有 10TB 的未压缩数据,其中每行的格式为:float;float;string。
工作基本上就可以了:
- 映射到要拆分的行
- 过滤字符串
- reduceByKey,其中键基于两个浮点数。
- 将结果存储在 HDFS 中
问题是:
- 我应该有多少磁盘 space
- 多少内存
- 作业(#exec、#core、#mem)和纱线的参数是什么-site.conf
目前我在 10 个节点上有 15To 的存储空间(16 核,16GB,1.5To 的存储空间)并且它失败了:
ERROR client.TransportClient: Failed to send RPC 6631382768729976966 to benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException
java.nio.channels.ClosedChannelException
17/07/06 17:05:42
WARN netty.NettyRpcEndpointRef: Error sending message [message = Heartbeat(41,[Lscala.Tuple2;@4f4d418,BlockManagerId(41, benchophadoopslaves1, 34521))] in 3 attempts
java.io.IOException: Failed to send RPC 6631382768729976966 to benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException
at org.apache.spark.network.client.TransportClient.operationComplete(TransportClient.java:239)
at org.apache.spark.network.client.TransportClient.operationComplete(TransportClient.java:226)
at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)
朋友给了我一个提示:给驱动10GB。并且有效
我想在 Spark 上做一个基准测试,其中包括:
有 10TB 的未压缩数据,其中每行的格式为:float;float;string。
工作基本上就可以了:
- 映射到要拆分的行
- 过滤字符串
- reduceByKey,其中键基于两个浮点数。
- 将结果存储在 HDFS 中
问题是: - 我应该有多少磁盘 space - 多少内存 - 作业(#exec、#core、#mem)和纱线的参数是什么-site.conf
目前我在 10 个节点上有 15To 的存储空间(16 核,16GB,1.5To 的存储空间)并且它失败了:
ERROR client.TransportClient: Failed to send RPC 6631382768729976966 to benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException java.nio.channels.ClosedChannelException 17/07/06 17:05:42
WARN netty.NettyRpcEndpointRef: Error sending message [message = Heartbeat(41,[Lscala.Tuple2;@4f4d418,BlockManagerId(41, benchophadoopslaves1, 34521))] in 3 attempts java.io.IOException: Failed to send RPC 6631382768729976966 to benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException at org.apache.spark.network.client.TransportClient.operationComplete(TransportClient.java:239) at org.apache.spark.network.client.TransportClient.operationComplete(TransportClient.java:226) at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)
朋友给了我一个提示:给驱动10GB。并且有效