如何与 tpc-ds 基准并行生成表?
How to generate tables in parallel with tpc-ds benchmark?
我如何运行 tpc-ds 数据生成 (dsdgen
) 然后 运行 在并行分布式模式下查询这些数据 (dsqgen
)。我在 yarn 配置 (spark.master yarn
) 上使用 Spark 并将数据存储在突发缓冲区存储系统上。
请查看我目前的探索@https://github.com/dhiraa/spark-tpcds。吨
t下有app可以并行生成数据
或者你可以查看我的参考@ https://github.com/maropu/spark-tpcds-datagen
在这两种情况下,不要忘记使用选项“--partition-tables”来利用并行生成。
我如何运行 tpc-ds 数据生成 (dsdgen
) 然后 运行 在并行分布式模式下查询这些数据 (dsqgen
)。我在 yarn 配置 (spark.master yarn
) 上使用 Spark 并将数据存储在突发缓冲区存储系统上。
请查看我目前的探索@https://github.com/dhiraa/spark-tpcds。吨 t下有app可以并行生成数据
或者你可以查看我的参考@ https://github.com/maropu/spark-tpcds-datagen
在这两种情况下,不要忘记使用选项“--partition-tables”来利用并行生成。