字节扫描后雪花查询仍然 运行 为 100
snowflake query still running after byte scanned is 100
这可能更多的是雪花知识问题而不是问题。
我是 运行 从 s3 到 snowflake 的复制命令。
我看到它花了 30 分钟来扫描 100 个字节,但是即使在字节扫描到 100% 之后,它还需要 40 分钟才能完成查询。
有人可以解释一下这里发生了什么吗,因为这样我觉得很难估计在查看历史屏幕时任何 运行 复制命令可能需要多少时间。
我们过去发现每个 xsmall 可以从 S3 加载 40mb/s,因此一个 small 可以加载 2x。这就是我们对加载速度的基线期望。
如果您从存储桶的根目录进行处理,但该目录中有数百万个文件,只有一个新的 100 字节文件,那么可以合理地减慢副本速度。但我怀疑情况也并非如此。
接下来可能是 运行 查询部分失败,该查询部分在配置文件中会有多个配置文件阶段选项卡,例如 1 \ 1001 \ 2002
数千表示查询执行失败,它被重新运行。这有时可能是由于仓库损坏,有时是由于当前版本的新 运行 时间失败,并且可以 运行 重试旧版本以查看是否成功。但是其中一些经常有线索,随着时间的推移 "spilling to internal/external storage" 是我们在出现错误时看到的东西。
但实际上,如果事情看起来 "really" 很奇怪,我会打开一个支持票,并要求对正在发生的事情进行解释。与往常一样,这就是我所看到的,这就是为什么我认为它很奇怪..
听起来您指的是查询配置文件的扫描字节数列中的 100%。如果您在 COPY INTO 命令中有转换,这将需要额外的时间来处理。正如其他人提到的,仓库的大小会产生影响,因为仓库的大小将决定内核和线程的数量,这直接影响写入的并行度。
简而言之,Bytes Scanned 只是衡量作业将处理的 Snowflake 读取的总数据量,但它仍然需要处理作业。
这可能更多的是雪花知识问题而不是问题。 我是 运行 从 s3 到 snowflake 的复制命令。 我看到它花了 30 分钟来扫描 100 个字节,但是即使在字节扫描到 100% 之后,它还需要 40 分钟才能完成查询。
有人可以解释一下这里发生了什么吗,因为这样我觉得很难估计在查看历史屏幕时任何 运行 复制命令可能需要多少时间。
我们过去发现每个 xsmall 可以从 S3 加载 40mb/s,因此一个 small 可以加载 2x。这就是我们对加载速度的基线期望。
如果您从存储桶的根目录进行处理,但该目录中有数百万个文件,只有一个新的 100 字节文件,那么可以合理地减慢副本速度。但我怀疑情况也并非如此。
接下来可能是 运行 查询部分失败,该查询部分在配置文件中会有多个配置文件阶段选项卡,例如 1 \ 1001 \ 2002
数千表示查询执行失败,它被重新运行。这有时可能是由于仓库损坏,有时是由于当前版本的新 运行 时间失败,并且可以 运行 重试旧版本以查看是否成功。但是其中一些经常有线索,随着时间的推移 "spilling to internal/external storage" 是我们在出现错误时看到的东西。
但实际上,如果事情看起来 "really" 很奇怪,我会打开一个支持票,并要求对正在发生的事情进行解释。与往常一样,这就是我所看到的,这就是为什么我认为它很奇怪..
听起来您指的是查询配置文件的扫描字节数列中的 100%。如果您在 COPY INTO 命令中有转换,这将需要额外的时间来处理。正如其他人提到的,仓库的大小会产生影响,因为仓库的大小将决定内核和线程的数量,这直接影响写入的并行度。
简而言之,Bytes Scanned 只是衡量作业将处理的 Snowflake 读取的总数据量,但它仍然需要处理作业。