字节扫描后雪花查询仍然运行为 100

snowflake query still running after byte scanned is 100

snowflake-cloud-data-platform

这可能更多的是雪花知识问题而不是问题。我是运行从 s3 到 snowflake 的复制命令。我看到它花了 30 分钟来扫描 100 个字节，但是即使在字节扫描到 100% 之后，它还需要 40 分钟才能完成查询。

有人可以解释一下这里发生了什么吗，因为这样我觉得很难估计在查看历史屏幕时任何运行复制命令可能需要多少时间。

我们过去发现每个 xsmall 可以从 S3 加载 40mb/s，因此一个 small 可以加载 2x。这就是我们对加载速度的基线期望。

如果您从存储桶的根目录进行处理，但该目录中有数百万个文件，只有一个新的 100 字节文件，那么可以合理地减慢副本速度。但我怀疑情况也并非如此。

接下来可能是运行查询部分失败，该查询部分在配置文件中会有多个配置文件阶段选项卡，例如 1 \ 1001 \ 2002数千表示查询执行失败，它被重新运行。这有时可能是由于仓库损坏，有时是由于当前版本的新运行时间失败，并且可以运行重试旧版本以查看是否成功。但是其中一些经常有线索，随着时间的推移 "spilling to internal/external storage" 是我们在出现错误时看到的东西。

但实际上，如果事情看起来 "really" 很奇怪，我会打开一个支持票，并要求对正在发生的事情进行解释。与往常一样，这就是我所看到的，这就是为什么我认为它很奇怪..

听起来您指的是查询配置文件的扫描字节数列中的 100%。如果您在 COPY INTO 命令中有转换，这将需要额外的时间来处理。正如其他人提到的，仓库的大小会产生影响，因为仓库的大小将决定内核和线程的数量，这直接影响写入的并行度。

简而言之，Bytes Scanned 只是衡量作业将处理的 Snowflake 读取的总数据量，但它仍然需要处理作业。

字节扫描后雪花查询仍然 运行 为 100

snowflake query still running after byte scanned is 100

snowflake-cloud-data-platform

字节扫描后雪花查询仍然运行为 100