数据整理和 ETL(提取、转换和加载)之间有什么区别?

What is the difference between Data Wrangling and ETL (Extract, Transform, and Load)?

我对 ETL 的基本理解是像数据分析师这样的人会使用它。 ETL 将用于从数据库 (MySQL) 中提取数据,转换为类似 Excel 的内容,其中应用业务规则(Excel 函数),然后加载到新数据库中另一个应用程序。当谈到这与数据争论有何不同时,我感到非常困惑。从我收集到的信息来看,只有一些不同之处。 1、使用技术的人不同。数据整理可能是数据工程师与 ETL 和数据分析师的工作。 2、采用的技术不同。 Data Wrangling 将使用 Apache Spark 或 Hadoop 生态系统之类的东西。 ETL 将使用 Excel、Access 或云数据库等工具来提取数据。本质上,我的理解是数据争论是 "ETL-ing" 与原始数据,这意味着数据尚未建模 - (它不在模式中)。 (也许您在争吵时必须解析数据,例如转推,喜欢和收藏夹之类的)?只是好奇我是否在赛道上。我试过阅读一些文章,但对我来说仍然没有意义。任何人都可以提供一个简单的解释,以便我可以围绕这个概念进行思考吗?谢谢。

数据整理是 transforming/cleansing 数据从源流向目标的过程。有多种方法可以进行这种转换或清理:-

“小”数据集

对于可以在excel中打开的小数据集,可以通过宏等帮助在excel中定义清洗规则的转换。如果你想重复这样做,你可以构建 bat (windows) 或 shell (linux) 脚本并通过 cron 或 windows 调度程序安排它们。

一个简单的例子是用大小为 10 MB 的文件中的某个值替换 NULL

“中等”数据集

当数据集大到无法在 excel 中打开时,您可以使用脚本或编程语言执行相同的操作,并使用提到的调度程序示例来安排它们。此类脚本语言通常 运行 在单台机器上运行,性能与机器的配置成正比

一个简单的例子是用大小为 10 GB 的文件中的某个值替换 NULL

“大”数据集

当数据集很大时,无法在 excel 中打开并且 运行 单机上的清理规则可能很慢。这就是 Map reduce、Spark 等 Big Data 技术大放异彩的地方,其中数据子集被发送到多台机器,清理规则应用于每台机器上的数据子集,从而提高整个处理的吞吐量。

一个简单的例子是用 500 GB 大小的文件中的某个值替换 NULL