Spark-SQL full load or Incremental load哪个更好
Which is better in Spark-SQL full load or Incremental load
嗨,我只需要一个小建议。
在我的项目中,他们将所有 Teradata 查询转换为 (Hive DB)Dataframes-pyspark/Spark-SQL。
大多数 teradata 查询都基于截断和加载。
例如
假设 Table A 中有 10000 条记录
Table A 每天从另一个来源获取数据,比如 Table M。
每天我们只获得 5 到 6 个新记录。
目前,我们每天都在截断 Table A 中的所有数据,并从 Table M 中完全加载数据。
Table M 包含一个 update_timestamp 列,因此很有可能进行增量加载,而且 table 仅包含原始事务数据类型。
使用 Spark-SQL 我应该像在 Teradata 中那样进行增量加载还是完全加载,这是编写查询的更好方法?
您必须每天对 table 进行增量加载,牢记 update_timestamp 列,如果您需要更多详细信息,请告诉我。
嗨,我只需要一个小建议。
在我的项目中,他们将所有 Teradata 查询转换为 (Hive DB)Dataframes-pyspark/Spark-SQL。
大多数 teradata 查询都基于截断和加载。
例如
假设 Table A 中有 10000 条记录
Table A 每天从另一个来源获取数据,比如 Table M。
每天我们只获得 5 到 6 个新记录。
目前,我们每天都在截断 Table A 中的所有数据,并从 Table M 中完全加载数据。
Table M 包含一个 update_timestamp 列,因此很有可能进行增量加载,而且 table 仅包含原始事务数据类型。
使用 Spark-SQL 我应该像在 Teradata 中那样进行增量加载还是完全加载,这是编写查询的更好方法?
您必须每天对 table 进行增量加载,牢记 update_timestamp 列,如果您需要更多详细信息,请告诉我。