Spark-SQL full load or Incremental load哪个更好

Which is better in Spark-SQL full load or Incremental load

嗨，我只需要一个小建议。

在我的项目中，他们将所有 Teradata 查询转换为 (Hive DB)Dataframes-pyspark/Spark-SQL。

大多数 teradata 查询都基于截断和加载。

例如

假设 Table A 中有 10000 条记录

Table A 每天从另一个来源获取数据，比如 Table M。

每天我们只获得 5 到 6 个新记录。

目前，我们每天都在截断 Table A 中的所有数据，并从 Table M 中完全加载数据。

Table M 包含一个 update_timestamp 列，因此很有可能进行增量加载，而且 table 仅包含原始事务数据类型。

使用 Spark-SQL 我应该像在 Teradata 中那样进行增量加载还是完全加载，这是编写查询的更好方法？

您必须每天对 table 进行增量加载，牢记 update_timestamp 列，如果您需要更多详细信息，请告诉我。