SSIS 将源 Oledb 数据发送到镶木地板文件中的 S3 存储桶
SSIS sending source Oledb data to S3 Buckets in parquet File
我的来源是 SQL 服务器,我正在使用 SSIS 将数据导出到 S3 存储桶,但现在我的要求是将文件作为 parquet 文件格式发送。
你们能提供一些关于如何实现这一目标的线索吗?
谢谢,
文
对于回答这个问题的人来说,Apache Parquet 是一个指定 Hadoop 和其他 Apache 项目采用的列式文件格式的项目。
除非您找到自定义组件或编写一些 .NET 代码来执行此操作,否则您将无法将数据从 SQL 服务器导出到 Parquet 文件。 KingswaySoft's SSIS Big Data Components 可能会提供一种这样的自定义组件,但我不熟悉。
如果要导出到 Azure,您有两个选择:
使用 Flexible File Destination 组件(Azure 功能包的一部分),该组件导出到 Azure Blob 或 Data Lake Gen2 存储中托管的 Parquet 文件。
利用 PolyBase,一项 SQL 服务器功能。它让您可以通过 external table feature. However, that file has to be hosted in a location mentioned here 导出到 Parquet 文件。不幸的是,S3 不是一个选项。
如果是我,我会将数据作为 CSV 文件移动到 S3,然后使用 Athena 将 CSV 文件转换为 Pqrquet。这里有一篇漂亮的文章讲述了雅典娜的文章:
https://www.cloudforecast.io/blog/Athena-to-transform-CSV-to-Parquet/
Net-net,你需要花点钱,发挥创意,切换到 Azure,或者在 AWS 中进行转换。
我的来源是 SQL 服务器,我正在使用 SSIS 将数据导出到 S3 存储桶,但现在我的要求是将文件作为 parquet 文件格式发送。
你们能提供一些关于如何实现这一目标的线索吗?
谢谢, 文
对于回答这个问题的人来说,Apache Parquet 是一个指定 Hadoop 和其他 Apache 项目采用的列式文件格式的项目。
除非您找到自定义组件或编写一些 .NET 代码来执行此操作,否则您将无法将数据从 SQL 服务器导出到 Parquet 文件。 KingswaySoft's SSIS Big Data Components 可能会提供一种这样的自定义组件,但我不熟悉。
如果要导出到 Azure,您有两个选择:
使用 Flexible File Destination 组件(Azure 功能包的一部分),该组件导出到 Azure Blob 或 Data Lake Gen2 存储中托管的 Parquet 文件。
利用 PolyBase,一项 SQL 服务器功能。它让您可以通过 external table feature. However, that file has to be hosted in a location mentioned here 导出到 Parquet 文件。不幸的是,S3 不是一个选项。
如果是我,我会将数据作为 CSV 文件移动到 S3,然后使用 Athena 将 CSV 文件转换为 Pqrquet。这里有一篇漂亮的文章讲述了雅典娜的文章:
https://www.cloudforecast.io/blog/Athena-to-transform-CSV-to-Parquet/
Net-net,你需要花点钱,发挥创意,切换到 Azure,或者在 AWS 中进行转换。