数据整理和 ETL（提取、转换和加载）之间有什么区别？

What is the difference between Data Wrangling and ETL (Extract, Transform, and Load)?

我对 ETL 的基本理解是像数据分析师这样的人会使用它。 ETL 将用于从数据库 (MySQL) 中提取数据，转换为类似 Excel 的内容，其中应用业务规则（Excel 函数），然后加载到新数据库中另一个应用程序。当谈到这与数据争论有何不同时，我感到非常困惑。从我收集到的信息来看，只有一些不同之处。 1、使用技术的人不同。数据整理可能是数据工程师与 ETL 和数据分析师的工作。 2、采用的技术不同。 Data Wrangling 将使用 Apache Spark 或 Hadoop 生态系统之类的东西。 ETL 将使用 Excel、Access 或云数据库等工具来提取数据。本质上，我的理解是数据争论是 "ETL-ing" 与原始数据，这意味着数据尚未建模 - （它不在模式中）。（也许您在争吵时必须解析数据，例如转推，喜欢和收藏夹之类的）？只是好奇我是否在赛道上。我试过阅读一些文章，但对我来说仍然没有意义。任何人都可以提供一个简单的解释，以便我可以围绕这个概念进行思考吗？谢谢。

数据整理是 transforming/cleansing 数据从源流向目标的过程。有多种方法可以进行这种转换或清理：-

“小”数据集

对于可以在excel中打开的小数据集，可以通过宏等帮助在excel中定义清洗规则的转换。如果你想重复这样做，你可以构建 bat (windows) 或 shell (linux) 脚本并通过 cron 或 windows 调度程序安排它们。

一个简单的例子是用大小为 10 MB 的文件中的某个值替换 NULL

“中等”数据集

当数据集大到无法在 excel 中打开时，您可以使用脚本或编程语言执行相同的操作，并使用提到的调度程序示例来安排它们。此类脚本语言通常运行在单台机器上运行，性能与机器的配置成正比

一个简单的例子是用大小为 10 GB 的文件中的某个值替换 NULL

“大”数据集

当数据集很大时，无法在 excel 中打开并且运行单机上的清理规则可能很慢。这就是 Map reduce、Spark 等 Big Data 技术大放异彩的地方，其中数据子集被发送到多台机器，清理规则应用于每台机器上的数据子集，从而提高整个处理的吞吐量。

一个简单的例子是用 500 GB 大小的文件中的某个值替换 NULL

数据整理和 ETL（提取、转换和加载）之间有什么区别？

What is the difference between Data Wrangling and ETL (Extract, Transform, and Load)?

etl

apache-spark

data-science

“小”数据集

“中等”数据集

“大”数据集