升级 dataproc 集群的推荐方法是什么?
What is the recommended way to upgrade a dataproc cluster?
Dataproc 似乎被设计为无状态/不可变的。这个假设是否正确?如果我们计划部署 Hive/Presto 数据仓库,我们是否应该立即退出?
我们正在努力寻找任何文档来说明在供应后应该如何维护集群?
- 如何升级组件?
- 集群建立后如何安装工具(如Hue等)?
- 部署后如何保护对数据和服务的访问?
FAQs "Can I run a persistent cluster?" 也没有真正解决这个问题。
互联网
建议我们在遇到问题时应该只创建一个新集群。作为一名开发人员,我对 "Minimize State" 论点非常满意,但我在企业界工作,喜欢 Hive(及其元数据存储)、Hue 和 Zeppellin 等解决方案,并希望将 Tableau 等外部工具连接到集群中。
文档应该清楚地说明 dataproc 擅长哪些用例(批处理、按需和短期工作负载)以及它并非真正设计的用途(例如 OLAP)?
Dataproc 确实为按需用例提供了最大的好处,但这并不一定与用于 OLAP 不一致。主要思想是有状态的组件都可以从"processing"资源中分离出来,这样可以更好的根据不同时间点的需求调整资源。
Hive 元数据的推荐架构是让 Hive 元存储后端远离集群,例如在 CloudSQL 实例中;许多人能够以这种方式将 Dataproc 与短期或半短期集群一起使用(例如,保留一个实时集群池,但每天或每周 deleting/recreating 最旧)结合初始化操作将 Hiveserver 指向CloudSQL:https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/cloud-sql-proxy
在这个世界上,有状态元数据块都在 CloudSQL 中,大容量存储都在 GCS 中。出于性能原因,某些集群可能会从 GCS 同步到本地 HDFS(特别是如果 运行 HDFS 在本地 SSD 上),但即使对于交互式 OLAP 用例,这通常也不是必需的; 运行 直接针对 GCS 的查询也可以正常工作。诚然,由于到 GCS 的往返延迟较长,旧格式存在一些性能缺陷,但一些调整可以使其大部分内嵌;这是(非 google 拥有的)blog post about Presto on Dataproc 回顾其中的一些。
这也提供了更简单的方法来处理传统的集群管理员;升级只是换出整个集群,应该在初始化操作中完成额外的工具,以便在新集群上轻松重现,并且您可以更轻松地以每个集群的粒度定义安全边界。
Dataproc 似乎被设计为无状态/不可变的。这个假设是否正确?如果我们计划部署 Hive/Presto 数据仓库,我们是否应该立即退出?
我们正在努力寻找任何文档来说明在供应后应该如何维护集群?
- 如何升级组件?
- 集群建立后如何安装工具(如Hue等)?
- 部署后如何保护对数据和服务的访问?
FAQs "Can I run a persistent cluster?" 也没有真正解决这个问题。
互联网 建议我们在遇到问题时应该只创建一个新集群。作为一名开发人员,我对 "Minimize State" 论点非常满意,但我在企业界工作,喜欢 Hive(及其元数据存储)、Hue 和 Zeppellin 等解决方案,并希望将 Tableau 等外部工具连接到集群中。
文档应该清楚地说明 dataproc 擅长哪些用例(批处理、按需和短期工作负载)以及它并非真正设计的用途(例如 OLAP)?
Dataproc 确实为按需用例提供了最大的好处,但这并不一定与用于 OLAP 不一致。主要思想是有状态的组件都可以从"processing"资源中分离出来,这样可以更好的根据不同时间点的需求调整资源。
Hive 元数据的推荐架构是让 Hive 元存储后端远离集群,例如在 CloudSQL 实例中;许多人能够以这种方式将 Dataproc 与短期或半短期集群一起使用(例如,保留一个实时集群池,但每天或每周 deleting/recreating 最旧)结合初始化操作将 Hiveserver 指向CloudSQL:https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/cloud-sql-proxy
在这个世界上,有状态元数据块都在 CloudSQL 中,大容量存储都在 GCS 中。出于性能原因,某些集群可能会从 GCS 同步到本地 HDFS(特别是如果 运行 HDFS 在本地 SSD 上),但即使对于交互式 OLAP 用例,这通常也不是必需的; 运行 直接针对 GCS 的查询也可以正常工作。诚然,由于到 GCS 的往返延迟较长,旧格式存在一些性能缺陷,但一些调整可以使其大部分内嵌;这是(非 google 拥有的)blog post about Presto on Dataproc 回顾其中的一些。
这也提供了更简单的方法来处理传统的集群管理员;升级只是换出整个集群,应该在初始化操作中完成额外的工具,以便在新集群上轻松重现,并且您可以更轻松地以每个集群的粒度定义安全边界。