读取从 Redshift 卸载的文件时缺少行
Rows missing while reading a file that was unloaded from Redshift
我使用 SQLWorkbench 将一组 2 亿条记录从 Redshift 卸载到 S3。我收到一条消息说“卸载完成,2,00,00,00,000 条记录已完成”。然而,当我从 s3 下载这个文件并打开它时,只有 4000 万行。在任何时间点都没有错误。由于这个问题,我很困惑,无法继续。
可能是什么导致了这个问题?
这种大小的卸载不会在 1 个文件中。如果设置了 MAXFILESIZE 参数,则每个卸载的文件被限制为 6.2GB 或更小。此外,如果 PARALLEL 为 ON(默认),Redshift 中的每个切片都会在 S3 中创建自己的一组文件。我希望您只查看由 UNLOAD 创建的众多文件之一。每个文件都将有一个切片编号和一个零件编号附加到您在 UNLOAD 语句中提供的文件基本名称。
我使用 SQLWorkbench 将一组 2 亿条记录从 Redshift 卸载到 S3。我收到一条消息说“卸载完成,2,00,00,00,000 条记录已完成”。然而,当我从 s3 下载这个文件并打开它时,只有 4000 万行。在任何时间点都没有错误。由于这个问题,我很困惑,无法继续。
可能是什么导致了这个问题?
这种大小的卸载不会在 1 个文件中。如果设置了 MAXFILESIZE 参数,则每个卸载的文件被限制为 6.2GB 或更小。此外,如果 PARALLEL 为 ON(默认),Redshift 中的每个切片都会在 S3 中创建自己的一组文件。我希望您只查看由 UNLOAD 创建的众多文件之一。每个文件都将有一个切片编号和一个零件编号附加到您在 UNLOAD 语句中提供的文件基本名称。