在 postgres 中插入数据时,Reduce 代码随机卡住

Reduce code is randomly getting stuck when inserting data in postgres

我们有一个用 Java 编写的 map reduce 代码,它读取多个小文件(比如 10k+),在驱动程序中转换为单个 avro 文件,reducer 将一堆减少的记录插入到 postgres 数据库中。这个过程每小时发生一次。但是同时有多个 map reduce 作业 运行ning,处理不同的 avro 文件并为每个作业打开不同的数据库连接。所以有时(非常随机)所有任务都卡在 reducer 阶段,但出现以下异常 -

    "C2 CompilerThread0" daemon prio=10 tid=0x00007f78701ae000 nid=0x6db5 waiting on condition [0x0000000000000000]
   java.lang.Thread.State: RUNNABLE

"Signal Dispatcher" daemon prio=10 tid=0x00007f78701ab800 nid=0x6db4 waiting on condition [0x0000000000000000]
   java.lang.Thread.State: RUNNABLE

"Surrogate Locker Thread (Concurrent GC)" daemon prio=10 tid=0x00007f78701a1800 nid=0x6db3 waiting on condition [0x0000000000000000]
   java.lang.Thread.State: RUNNABLE

"Finalizer" daemon prio=10 tid=0x00007f787018a800 nid=0x6db2 in Object.wait() [0x00007f7847941000]
   java.lang.Thread.State: WAITING (on object monitor)
    at java.lang.Object.wait(Native Method)
    - waiting on <0x00000006e5d34418> (a java.lang.ref.ReferenceQueue$Lock)
    at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:135)
    - locked <0x00000006e5d34418> (a java.lang.ref.ReferenceQueue$Lock)
    at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:151)
    at java.lang.ref.Finalizer$FinalizerThread.run(Finalizer.java:189)

"Reference Handler" daemon prio=10 tid=0x00007f7870181000 nid=0x6db1 in Object.wait() [0x00007f7847a42000]
   java.lang.Thread.State: WAITING (on object monitor)
    at java.lang.Object.wait(Native Method)
    - waiting on <0x00000006e5d32b50> (a java.lang.ref.Reference$Lock)
    at java.lang.Object.wait(Object.java:503)
    at java.lang.ref.Reference$ReferenceHandler.run(Reference.java:133)
    - locked <0x00000006e5d32b50> (a java.lang.ref.Reference$Lock)

"main" prio=10 tid=0x00007f7870013800 nid=0x6da1 runnable [0x00007f7877a7b000]
   java.lang.Thread.State: RUNNABLE
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(SocketInputStream.java:152)
    at java.net.SocketInputStream.read(SocketInputStream.java:122)
    at org.postgresql.core.VisibleBufferedInputStream.readMore(VisibleBufferedInputStream.java:143)
    at org.postgresql.core.VisibleBufferedInputStream.ensureBytes(VisibleBufferedInputStream.java:112)
    at org.postgresql.core.VisibleBufferedInputStream.read(VisibleBufferedInputStream.java:71)
    at org.postgresql.core.PGStream.ReceiveChar(PGStream.java:269)
    at org.postgresql.core.v3.QueryExecutorImpl.processResults(QueryExecutorImpl.java:1700)
    at org.postgresql.core.v3.QueryExecutorImpl.execute(QueryExecutorImpl.java:255)
    - locked <0x00000006e5d34520> (a org.postgresql.core.v3.QueryExecutorImpl)
    at org.postgresql.jdbc2.AbstractJdbc2Statement.execute(AbstractJdbc2Statement.java:555)
    at org.postgresql.jdbc2.AbstractJdbc2Statement.executeWithFlags(AbstractJdbc2Statement.java:417)
    at org.postgresql.jdbc2.AbstractJdbc2Statement.executeQuery(AbstractJdbc2Statement.java:302)
    at ComputeReducer.setup(ComputeReducer.java:299)
    at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:162)
    at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:610)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:444)
    at org.apache.hadoop.mapred.Child.run(Child.java:268)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1438)
    at org.apache.hadoop.mapred.Child.main(Child.java:262)

"VM Thread" prio=10 tid=0x00007f787017e800 nid=0x6db0 runnable 

"Gang worker#0 (Parallel GC Threads)" prio=10 tid=0x00007f7870024800 nid=0x6da2 runnable 

"Gang worker#1 (Parallel GC Threads)" prio=10 tid=0x00007f7870026800 nid=0x6da3 runnable 

发生此异常后,我们必须重新启动数据库,否则所有减少作业的空闲位置都停留在 70% 左右,甚至下一个小时的作业也无法 运行。最初它用于耗尽打开的连接数,但在将连接数增加到相当大的数量后情况并非如此。我应该指出,我不是数据库专家,所以请建议任何可能有帮助的配置更改。只是为了确认这似乎是数据库配置问题吗?如果是,那么通过 postgres 配置连接池是否有助于解决这个问题?

非常感谢任何帮助/建议!提前致谢。

我最初的想法是,如果是随机的,那很可能是一把锁。有两个区域可以找锁:

共享资源上线程之间的锁和数据库对象上的锁。

我在您的堆栈跟踪中没有看到任何表明这是数据库锁定问题的信息,但这可能是由于未关闭事务引起的,因此您没有遇到死锁,但您正在等待插入。

您的 Java 代码中更有可能出现死锁,也许两个等待线程正在等待彼此?

我想补充我的发现, 重构代码后,它工作了几个月,然后这个问题又出现了,我们认为这是一个 hadoop 集群问题,所以创建了一个新的小 hadoop 集群,但这也没有解决问题。所以最后,我们查看了我们最大的数据库 table 它有超过 15 亿行并且 select 查询花费了大量时间所以在从这个 table 中删除旧数据后,完整vacuum 和 reindex 有帮助。