架构错误的 Apache Spark 上的 Readstream 重试 1830 次
Readstream on Apache Spark with a bad schema is retrying 1830 times
在 Spark 结构化流中,当来自 S3 的传入记录与我用 .schema(..)
强制执行的架构不匹配时,如果记录的大小很大(我的是 397KB),则重试该记录恰好 1830 次,测试了多次。有没有人注意到这种奇怪的行为?
在我的例子中,s3 对象是一个 json 数组,事实证明 spark-s3 json reader 将数组的每个条目作为 spark 中的单独记录进行处理数据框。所以 s3 对象有 1830 个项目,这就是为什么同一个 s3 对象迭代 1830 个项目有错误。但是,我找不到任何关于此行为的官方文档。
在 Spark 结构化流中,当来自 S3 的传入记录与我用 .schema(..)
强制执行的架构不匹配时,如果记录的大小很大(我的是 397KB),则重试该记录恰好 1830 次,测试了多次。有没有人注意到这种奇怪的行为?
在我的例子中,s3 对象是一个 json 数组,事实证明 spark-s3 json reader 将数组的每个条目作为 spark 中的单独记录进行处理数据框。所以 s3 对象有 1830 个项目,这就是为什么同一个 s3 对象迭代 1830 个项目有错误。但是,我找不到任何关于此行为的官方文档。