为什么 Python Pandas?

Why Python Pandas?

一个组织正在评估数据转换工具。 许可工具(SSIS、Informatica 等)与 Python Pandas

我知道比较可以是苹果和橙子

  1. 组织为什么以及何时可以选择 Pandas 通过许可的 ETL 工具进行数据转换(成本因素除外)?

  2. 在 RDBMS 中,数据存储在磁盘中,SQL 检索数据。在 Pandas 的情况下,数据是加载到 RAM 中还是如何存储?

  3. 100 MB CSV 文件加载到 DF 时占用内存超过 100 MB。为什么?

  1. 当组织倾向于开源或拥有 python 方面的编程专业知识时,大多数情况下他们更喜欢 pandas 而不是其他人。
  2. Pandas 将数据存储在 RAM 中。但是借助 chunksizeDask 你可以处理大于内存的数据。
  3. 这是因为当数据从磁盘加载时,它会获得其特定的数据类型,这取决于它的特征是数字、浮点数还是字符串。它可以自动为您检测,或者您可以使用 dtype 参数指定数据类型。

希望,它会有所帮助!