Spring Data JPA:嵌套实体的批量插入
Spring Data JPA: Batch insert for nested entities
我有一个测试用例,我需要将 100'000 个实体实例保存到数据库中。我当前使用的代码执行此操作,但最多需要 40 秒才能将所有数据持久保存在数据库中。数据是从 JSON 文件中读取的,该文件大小约为 15 MB。
现在我已经为另一个项目在自定义存储库中实现了批量插入方法。但是,在那种情况下,我有很多顶级实体需要保留,只有几个嵌套实体。
在我当前的案例中,我有 5 个 Job
个实体,其中包含约 ~30 个 JobDetail
个实体的列表。一个 JobDetail
包含 850 到 1100 个 JobEnvelope
个实体。
在写入数据库时,我使用默认的 save(Iterable<Job> jobs)
接口方法提交 Job
实体列表。所有嵌套实体都具有 CascadeType PERSIST
。每个实体都有自己的 table.
启用批量插入的通常方法是实现一个像 saveBatch
这样的自定义方法,每隔一段时间刷新一次。但在这种情况下,我的问题是 JobEnvelope
实体。我不使用 JobEnvelope
存储库来保存它们,而是让 Job
实体的存储库处理它。我正在使用 MariaDB 作为数据库服务器。
所以我的问题归结为以下几点:如何让 JobRepository
批量插入它的嵌套实体?
这些是我的 3 个实体:
工作
@Entity
public class Job {
@Id
@GeneratedValue
private int jobId;
@OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "job")
@JsonManagedReference
private Collection<JobDetail> jobDetails;
}
职位详情
@Entity
public class JobDetail {
@Id
@GeneratedValue
private int jobDetailId;
@ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
@JoinColumn(name = "jobId")
@JsonBackReference
private Job job;
@OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "jobDetail")
@JsonManagedReference
private List<JobEnvelope> jobEnvelopes;
}
工作信封
@Entity
public class JobEnvelope {
@Id
@GeneratedValue
private int jobEnvelopeId;
@ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
@JoinColumn(name = "jobDetailId")
private JobDetail jobDetail;
private double weight;
}
确保正确配置与 Hibernate 批处理相关的属性:
<property name="hibernate.jdbc.batch_size">100</property>
<property name="hibernate.order_inserts">true</property>
<property name="hibernate.order_updates">true</property>
重点是,如果连续的语句操作相同的 table,则它们可以被批处理。如果出现了insert to another table语句,那么之前的batch构造必须在该语句之前中断执行。使用 hibernate.order_inserts
属性 您允许 Hibernate 在构造批处理语句之前重新排序插入(hibernate.order_updates
对更新语句具有相同的效果)。
jdbc.batch_size
是 Hibernate 将使用的最大批大小。尝试并分析不同的值,然后选择一个在您的用例中显示最佳性能的值。
请注意,如果使用 IDENTITY
id 生成器,插入语句的批处理是 disabled。
特定于MySQL,您必须指定rewriteBatchedStatements=true
作为连接URL的一部分。为确保批处理按预期工作,添加 profileSQL=true
以检查驱动程序发送到数据库的 SQL。更多详情 here.
如果您的实体是版本化的(出于乐观锁定目的),那么为了利用批量更新(不影响插入)您还必须打开:
<property name="hibernate.jdbc.batch_versioned_data">true</property>
通过这个 属性 你告诉 Hibernate JDBC 驱动程序能够在执行批量更新时 return 正确计算受影响的行数(需要执行版本检查)。您必须检查这是否适用于您的 database/jdbc 驱动程序。例如,它 在 Oracle 11 和更早的 Oracle 版本中。
您可能还想刷新并清除持久性上下文 after each batch 以释放内存,否则所有托管对象都会保留在持久性上下文中,直到它关闭。
此外,您可能会发现 this blog 很有用,因为它很好地解释了 Hibernate 批处理机制的细节。
完成 Dragan Bozanovic 之前的回答。 Hibernate 有时会默默地停用批处理的执行顺序,例如,如果它在构建批处理之间的依赖关系图时遇到实体之间的循环关系(请参阅 InsertActionSorter.sort(..) 方法)。当这种情况发生时,hibernate 跟踪这种行为会很有趣。
我有一个测试用例,我需要将 100'000 个实体实例保存到数据库中。我当前使用的代码执行此操作,但最多需要 40 秒才能将所有数据持久保存在数据库中。数据是从 JSON 文件中读取的,该文件大小约为 15 MB。
现在我已经为另一个项目在自定义存储库中实现了批量插入方法。但是,在那种情况下,我有很多顶级实体需要保留,只有几个嵌套实体。
在我当前的案例中,我有 5 个 Job
个实体,其中包含约 ~30 个 JobDetail
个实体的列表。一个 JobDetail
包含 850 到 1100 个 JobEnvelope
个实体。
在写入数据库时,我使用默认的 save(Iterable<Job> jobs)
接口方法提交 Job
实体列表。所有嵌套实体都具有 CascadeType PERSIST
。每个实体都有自己的 table.
启用批量插入的通常方法是实现一个像 saveBatch
这样的自定义方法,每隔一段时间刷新一次。但在这种情况下,我的问题是 JobEnvelope
实体。我不使用 JobEnvelope
存储库来保存它们,而是让 Job
实体的存储库处理它。我正在使用 MariaDB 作为数据库服务器。
所以我的问题归结为以下几点:如何让 JobRepository
批量插入它的嵌套实体?
这些是我的 3 个实体:
工作
@Entity
public class Job {
@Id
@GeneratedValue
private int jobId;
@OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "job")
@JsonManagedReference
private Collection<JobDetail> jobDetails;
}
职位详情
@Entity
public class JobDetail {
@Id
@GeneratedValue
private int jobDetailId;
@ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
@JoinColumn(name = "jobId")
@JsonBackReference
private Job job;
@OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "jobDetail")
@JsonManagedReference
private List<JobEnvelope> jobEnvelopes;
}
工作信封
@Entity
public class JobEnvelope {
@Id
@GeneratedValue
private int jobEnvelopeId;
@ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
@JoinColumn(name = "jobDetailId")
private JobDetail jobDetail;
private double weight;
}
确保正确配置与 Hibernate 批处理相关的属性:
<property name="hibernate.jdbc.batch_size">100</property>
<property name="hibernate.order_inserts">true</property>
<property name="hibernate.order_updates">true</property>
重点是,如果连续的语句操作相同的 table,则它们可以被批处理。如果出现了insert to another table语句,那么之前的batch构造必须在该语句之前中断执行。使用 hibernate.order_inserts
属性 您允许 Hibernate 在构造批处理语句之前重新排序插入(hibernate.order_updates
对更新语句具有相同的效果)。
jdbc.batch_size
是 Hibernate 将使用的最大批大小。尝试并分析不同的值,然后选择一个在您的用例中显示最佳性能的值。
请注意,如果使用 IDENTITY
id 生成器,插入语句的批处理是 disabled。
特定于MySQL,您必须指定rewriteBatchedStatements=true
作为连接URL的一部分。为确保批处理按预期工作,添加 profileSQL=true
以检查驱动程序发送到数据库的 SQL。更多详情 here.
如果您的实体是版本化的(出于乐观锁定目的),那么为了利用批量更新(不影响插入)您还必须打开:
<property name="hibernate.jdbc.batch_versioned_data">true</property>
通过这个 属性 你告诉 Hibernate JDBC 驱动程序能够在执行批量更新时 return 正确计算受影响的行数(需要执行版本检查)。您必须检查这是否适用于您的 database/jdbc 驱动程序。例如,它
您可能还想刷新并清除持久性上下文 after each batch 以释放内存,否则所有托管对象都会保留在持久性上下文中,直到它关闭。
此外,您可能会发现 this blog 很有用,因为它很好地解释了 Hibernate 批处理机制的细节。
完成 Dragan Bozanovic 之前的回答。 Hibernate 有时会默默地停用批处理的执行顺序,例如,如果它在构建批处理之间的依赖关系图时遇到实体之间的循环关系(请参阅 InsertActionSorter.sort(..) 方法)。当这种情况发生时,hibernate 跟踪这种行为会很有趣。