性能:Google Dataflow 将 avro 文件写入 GCS
Performance: Google Dataflow writes avro file to GCS
我正在研究 Google Dataflow,它从 pubsub 中提取数据,转换为 avro,然后将它们写入 GCS。
根据监控页面,瓶颈是将 avro 文件写入 GCS(花费总执行时间的 70-80%)。
我用
- n1-standard-8 的 10 名工人
- 10 个碎片
- 5 秒固定窗口
- GCS 和 Dataflow 端点的区域相同。
那么性能就是每秒200,000个元素左右。
在这种情况下速度快还是我可以做些什么来让它更快? (好想去!)
谢谢
您是否考虑过按照 specific convention 命名您的文件以优化读写访问?
In order to maintain a high request rate, avoid using sequential names. Using completely random object names will give you the best load distribution. If you want to use sequential numbers or timestamps as part of your object names, introduce randomness to the object names by adding a hash value before the sequence number or timestamp.
基本上您需要遵循与在 BigTable 中选择 RowKey 相同的规则。
我正在研究 Google Dataflow,它从 pubsub 中提取数据,转换为 avro,然后将它们写入 GCS。 根据监控页面,瓶颈是将 avro 文件写入 GCS(花费总执行时间的 70-80%)。
我用
- n1-standard-8 的 10 名工人
- 10 个碎片
- 5 秒固定窗口
- GCS 和 Dataflow 端点的区域相同。
那么性能就是每秒200,000个元素左右。 在这种情况下速度快还是我可以做些什么来让它更快? (好想去!)
谢谢
您是否考虑过按照 specific convention 命名您的文件以优化读写访问?
In order to maintain a high request rate, avoid using sequential names. Using completely random object names will give you the best load distribution. If you want to use sequential numbers or timestamps as part of your object names, introduce randomness to the object names by adding a hash value before the sequence number or timestamp.
基本上您需要遵循与在 BigTable 中选择 RowKey 相同的规则。