读取从 Redshift 卸载的文件时缺少行

Rows missing while reading a file that was unloaded from Redshift

amazon-s3
amazon-web-services
pyspark

我使用 SQLWorkbench 将一组 2 亿条记录从 Redshift 卸载到 S3。我收到一条消息说“卸载完成，2,00,00,00,000 条记录已完成”。然而，当我从 s3 下载这个文件并打开它时，只有 4000 万行。在任何时间点都没有错误。由于这个问题，我很困惑，无法继续。

可能是什么导致了这个问题？

这种大小的卸载不会在 1 个文件中。如果设置了 MAXFILESIZE 参数，则每个卸载的文件被限制为 6.2GB 或更小。此外，如果 PARALLEL 为 ON（默认），Redshift 中的每个切片都会在 S3 中创建自己的一组文件。我希望您只查看由 UNLOAD 创建的众多文件之一。每个文件都将有一个切片编号和一个零件编号附加到您在 UNLOAD 语句中提供的文件基本名称。

读取从 Redshift 卸载的文件时缺少行

Rows missing while reading a file that was unloaded from Redshift

amazon-s3

amazon-web-services

pyspark