用于 ETL 作业的工具
Tools used for ETL jobs
这里有人在 Python 中编写 ETL 或 ELT(纯粹是 Python - 不是 PySpark)吗?如果是,在 Python 中编写 ETL 有哪些陷阱?我们目前正在使用 SAP 数据服务,但希望摆脱它并使用 AWS Glue、Lambda、Redshift 等。
AWS Redshift 是一个强大的工具,可以肯定地用于 ETL 目的。通常使用常规的 Redshift SQL 查询和工具应该可以处理大部分情况。
对于更高级的场景,您可以考虑将 Redshift 与 Python UDF 结合使用。 Redshift 附带一组令人印象深刻的库,开箱即用(如 Numpy 或 Pandas)。您也可以轻松地将自己的库导入 Redshift。
这里有人在 Python 中编写 ETL 或 ELT(纯粹是 Python - 不是 PySpark)吗?如果是,在 Python 中编写 ETL 有哪些陷阱?我们目前正在使用 SAP 数据服务,但希望摆脱它并使用 AWS Glue、Lambda、Redshift 等。
AWS Redshift 是一个强大的工具,可以肯定地用于 ETL 目的。通常使用常规的 Redshift SQL 查询和工具应该可以处理大部分情况。
对于更高级的场景,您可以考虑将 Redshift 与 Python UDF 结合使用。 Redshift 附带一组令人印象深刻的库,开箱即用(如 Numpy 或 Pandas)。您也可以轻松地将自己的库导入 Redshift。