Executor OutOfMemoryExceptions 关于小数据大小与可用内存
Executor OutOfMemoryExceptions on small data size vs available memory
给定一个简单的案例class
case class Rating(user: Int, item: Int, rating: Double)
和两个 RDD[Rating]
:我们得到的 OOME 在两个 RDD 之间有大约 700 万个条目。
我们配置了一个 单 执行器,内存为 30.4GB。这是每个 Rating
条目的 巨大 开销。我无法证明这一点:Int 和 Double 的原始原语在 64 位平台上是 8 个字节。然后,相同的 java 表示和 Case Class 都会有开销。但总而言之,对于 JVM 中的单个 Rating
条目,我们仍然应该小于 200 字节。
给定 30.4GB RAM 和 7M 对象 - 那么每个对象的表观内存使用量将超过 4KB。那不计算。
这是显示单个执行程序 30.4GB 的集群和作业信息:
请注意,我们还通过在 KryoSerializer
中注册 Rating
class 并启用
来启用 kryo
序列化
spark.rdd.compress=true
这些没有影响 OOME 的。
RDD
表示是否使内存使用量膨胀得更多?或者是大多数执行程序 RAM 根本没有被使用的问题 - 而 OOME 是由于其他一些原因而发生的吗?
这是生成的 OOME - 在作业开始几秒钟后发生:
[Dec 06 22:37:32] Generated an implicit feedback dataset with 4501305 ratings for training and 2247105 for test.
Generated dataset in 2644ms
[Stage 0:> (0 + 1) / 2]Exception in thread "dispatcher-event-loop-5" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:2271)
at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:118)
at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
at java.io.ObjectOutputStream$BlockDataOutputStream.write(ObjectOutputStream.java:1852)
at java.io.ObjectOutputStream.write(ObjectOutputStream.java:708)
at java.nio.channels.Channels$WritableByteChannelImpl.write(Channels.java:458)
at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject.apply(SerializableBuffer.scala:49)
at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject.apply(SerializableBuffer.scala:47)
at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1219)
at org.apache.spark.util.SerializableBuffer.writeObject(SerializableBuffer.scala:47)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:988)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1495)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks.apply(CoarseGrainedSchedulerBackend.scala:226)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks.apply(CoarseGrainedSchedulerBackend.scala:225)
at scala.collection.immutable.List.foreach(List.scala:318)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.launchTasks(CoarseGrainedSchedulerBackend.scala:225)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.org$apache$spark$scheduler$cluster$CoarseGrainedSchedulerBackend$DriverEndpoint$$makeOffers(CoarseGrainedSchedulerBackend.scala:196)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$receive.applyOrElse(CoarseGrainedSchedulerBackend.scala:123)
注意:如果我们使用的数据略少 - 例如RDD
有 500 万 Rating
秒,然后作业完成相对较快(< 40 秒)并成功。
所以我们不确定是什么因素限制了 spark worker 对如此低的内存限制的有用性。
问题的较大部分似乎是 DRIVER
程序需要比预期多得多的 RAM。
Driver 程序不执行任何 collect
、take
、groupBy
等,而仅执行 count
的操作。不确定为什么 count
需要驱动程序上的大量资源。随着我们缩小驱动程序详细信息的范围,将在此处添加更多详细信息。
给定一个简单的案例class
case class Rating(user: Int, item: Int, rating: Double)
和两个 RDD[Rating]
:我们得到的 OOME 在两个 RDD 之间有大约 700 万个条目。
我们配置了一个 单 执行器,内存为 30.4GB。这是每个 Rating
条目的 巨大 开销。我无法证明这一点:Int 和 Double 的原始原语在 64 位平台上是 8 个字节。然后,相同的 java 表示和 Case Class 都会有开销。但总而言之,对于 JVM 中的单个 Rating
条目,我们仍然应该小于 200 字节。
给定 30.4GB RAM 和 7M 对象 - 那么每个对象的表观内存使用量将超过 4KB。那不计算。
这是显示单个执行程序 30.4GB 的集群和作业信息:
请注意,我们还通过在 KryoSerializer
中注册 Rating
class 并启用
kryo
序列化
spark.rdd.compress=true
这些没有影响 OOME 的。
RDD
表示是否使内存使用量膨胀得更多?或者是大多数执行程序 RAM 根本没有被使用的问题 - 而 OOME 是由于其他一些原因而发生的吗?
这是生成的 OOME - 在作业开始几秒钟后发生:
[Dec 06 22:37:32] Generated an implicit feedback dataset with 4501305 ratings for training and 2247105 for test.
Generated dataset in 2644ms
[Stage 0:> (0 + 1) / 2]Exception in thread "dispatcher-event-loop-5" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:2271)
at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:118)
at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
at java.io.ObjectOutputStream$BlockDataOutputStream.write(ObjectOutputStream.java:1852)
at java.io.ObjectOutputStream.write(ObjectOutputStream.java:708)
at java.nio.channels.Channels$WritableByteChannelImpl.write(Channels.java:458)
at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject.apply(SerializableBuffer.scala:49)
at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject.apply(SerializableBuffer.scala:47)
at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1219)
at org.apache.spark.util.SerializableBuffer.writeObject(SerializableBuffer.scala:47)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:988)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1495)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks.apply(CoarseGrainedSchedulerBackend.scala:226)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks.apply(CoarseGrainedSchedulerBackend.scala:225)
at scala.collection.immutable.List.foreach(List.scala:318)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.launchTasks(CoarseGrainedSchedulerBackend.scala:225)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.org$apache$spark$scheduler$cluster$CoarseGrainedSchedulerBackend$DriverEndpoint$$makeOffers(CoarseGrainedSchedulerBackend.scala:196)
at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$receive.applyOrElse(CoarseGrainedSchedulerBackend.scala:123)
注意:如果我们使用的数据略少 - 例如RDD
有 500 万 Rating
秒,然后作业完成相对较快(< 40 秒)并成功。
所以我们不确定是什么因素限制了 spark worker 对如此低的内存限制的有用性。
问题的较大部分似乎是 DRIVER
程序需要比预期多得多的 RAM。
Driver 程序不执行任何 collect
、take
、groupBy
等,而仅执行 count
的操作。不确定为什么 count
需要驱动程序上的大量资源。随着我们缩小驱动程序详细信息的范围,将在此处添加更多详细信息。