与云端数据分析(数据清理)相关的成本

Costs associated with Data Analysis (data cleaning) on the cloud

我是数据分析师。我的公司正在将所有数据科学转移到云提供商(可能是 Azure、GCP、AWS)。 Jupyter notebook 等所有数据科学编程工具都将安装在云环境中(不会在本地安装Python,也不会在笔记本电脑上安装 Jupyter Notebooks)。

对于我的大部分工作,我将 reading/ingesting 直接来自本地数据库的关系数据库表。此外,我的大部分数据分析工作不需要任何 GPU 实例来进行数据处理。有时,我也会做一些简单的研究或实验数据分析编程,例如使用Jupyter笔记本进行数据清理,而不需要使用GPU实例。

我想知道是否有可能在不对我的公司在其数据科学云计算平台上产生任何按使用付费成本或不必要的开支的情况下开展此类活动,因为 none我的任务使用 GPU?请指教,谢谢

编辑注意:很难在我公司的 PC 上使用 Jupyter 在本地工作和开发,因为我没有完全权限安装 Python 个包(通常这必须请求批准,这非常痛苦并且需要很长时间)。

Jupyter Notebook 可以安装在云端,也可以安装在本地和您的工作站上。您可以在云端、本地或您最糟糕的情况下支付资源费用。

当然,如果加上大磁盘、GPU、CPU、内存,成本就更高了!问题不在于成本,而在于你想运行你的笔记本放在哪里?


我想,有一个不好的选择。使用 Colab,您可以获得免费的 Jupyter Notebook 实例。但是,据我所知,它不是私有的,它是 public 个实例,如果你为你的公司工作,你可能会泄露数据。 (不确定,要验证,但在任何情况下都不是推荐的解决方案)


编辑 1

考虑到你最近的评论,我想知道你是否需要一个 jupyter notebook 来 运行 你的代码。

事实上,Jupyter 很简单 IDE:您可以创建您的脚本,即使是这个需要本地 GPU 的脚本,并 运行 它在您仅提供给 Compute Engine 的生产数据上过程。在脚本结束时销毁 VM。没有 Jupyter notebook 环境,不是吗?


编辑 2

感谢您的留言,我知道在本地开发不是一种选择。在这种情况下,我建议您使用托管的 Jupyter Notebook 解决方案。如果需要,您可以在 Google 云上配置此 VM,也可以有不同的 VM,有或没有 GPU。

原理是一样的:当你停止使用你的实例时,停止它。当实例关闭时,您只需为存储(磁盘)付费。

开发原则可以相同:为你的开发使用一个小的CPU/GPU,当你必须处理大数据时,运行你的脚本在一个强大的虚拟机上。因为您仅在 VM 处于 运行ning 时付费,所以您可以像这样优化成本。

除了 Guillaume 的回答之外,如果您想跟踪或提前计划使用实例时是否会产生成本。您可以使用 Google Cloud Platform 的定价计算器:

https://cloud.google.com/products/calculator?hl=en

有了这个,您可以选择您感兴趣的产品,您的设置中需要什么样的组件(例如,多少 RAM,存储容量 space,CPU) 如果您选择使用 GCP Compute Engine,请选择您所在的位置并检查该位置的价格是否适合您公司的预算。

如果您想了解有关 Google Cloud Platform 定价的更多信息,可以查看此 link:

https://cloud.google.com/compute/all-pricing#compute-optimized_machine_types